診斷試驗準確性比較(comparative diagnostic test accuracy,CDTA)研究是診斷準確性試驗的重要組成部分,旨在同一診斷試驗研究中比較2個及以上診斷試驗準確性。隨著CDTA研究及相關系統評價方法學的發展,CDTA系統評價逐年增長并為臨床決策提供證據支持。相比于單個診斷試驗準確性研究的系統評價,CDTA系統評價在數據提取、偏倚風險評價、統計分析等方面有其獨特之處。本文介紹撰寫CDTA系統評價的步驟及注意事項,以期為CDTA系統評價撰寫者提供借鑒和參考。
引用本文: 陸瑤, 楊秋玉, 劉雅菲, 賴鴻皓, 田晨, 田金徽, 李江, 葛龍. 如何制作診斷試驗準確性比較的系統評價與Meta分析. 中國循證醫學雜志, 2022, 22(11): 1339-1347. doi: 10.7507/1672-2531.202206024 復制
系統評價(systematic review)是一種按照一定的納入標準廣泛收集關于某一醫療衛生問題的研究,對納入研究進行嚴格的偏倚風險和證據質量評估,將各研究結果進行定量合并分析或定性分析,以對該問題進行系統總結的研究方法[1]。系統評價旨在透明、可重復和可更新地綜合現有領域證據,識別和解決原始研究不能解決且應在未來關注的問題[2]。在診斷準確性研究領域,方法學嚴謹的診斷準確性試驗的系統評價可為臨床決策提供支持[3]。
隨著診斷準確性試驗(diagnostic test accuracy,DTA)研究的不斷發展,相比于單個診斷試驗準確性(single diagnostic test accuracy,SDTA)研究,診斷試驗準確性比較(comparative diagnostic test accuracy,CDTA)研究能夠回答許多臨床醫生和政策制定者關心的問題,即在面對相同疾病情況時,哪一種診斷試驗的診斷準確性更佳[4]。CDTA系統評價則是運用有效的方法綜合原始研究證據,在眾多診斷試驗中識別當前準確性最佳的診斷試驗,有效避免因偏倚產生錯誤的結論和推薦[5-6]。然而以往的研究證據表明,CDTA系統評價制作不夠嚴謹,這可能會導致證據使用者判斷錯誤及資源浪費[5,7]。本研究系列前期已經介紹了CDTA研究的概述、研究設計[8-9],本文主要介紹撰寫CDTA系統評價過程中相關方法及注意事項,以期為CDTA系統評價撰寫者提供參考。
1 提出問題和確定納入與排除標準
清楚地定義研究問題和研究目的的廣度與深度將會更有助于撰寫者確定后續的研究方案[10-11]。通過瀏覽該領域相關研究,了解國內外現狀,明確提出臨床問題的必要性及針對該臨床問題制作系統評價的必要性。在此過程中,作者需考慮以下3個問題:第一,本課題是否適合做系統評價?當作者發現原始診斷性研究極少時需慎重考慮。第二,本課題想解決的臨床問題是否已有前人研究,或是否已經存在相似的系統評價(包括已注冊正在進行的研究)?第三,相比于既往的研究,本課題增加的研究價值是什么?
針對CDTA系統評價,臨床問題推薦使用PITS進行解構[12]:P(population)指人群(研究問題所針對的診斷試驗對象);I(index test)指待評價試驗(包括作比較的試驗);T(target condition)指目標疾病;S(study design)指研究設計。PITS原則示例見表1。

納入與排除標準制定內容包括研究內特征和研究發表特征[13-15]。研究內特征包含PITS要素及其他特征:① 人群和環境(如性別、年齡、體征、癥狀、所處場景);② 待評價試驗(如類型、版本);③ 目標疾病(如范圍、階段);④ 研究設計(如完全配對、隨機子集部分配對、非隨機子集部分配對、非配對隨機、非配對非隨機[9]);⑤ 診斷參考標準;⑥ 閾值(共同閾值或多個閾值);⑦ 其他。研究發表特征包含年份、語言、報告狀態(如會議摘要)等。撰寫者應明確定義人群、待評價試驗、診斷參考標準和目標疾病。此外,如果研究者對上述某些條目有任何限制(如年份、研究設計),建議作者提供相應的理由。
2 文獻檢索
2.1 選擇文獻資源
文獻檢索資源主要包括中英文文獻數據庫(如PubMed/MEDLINE、EMbase、The Cochrane Library、Web of Science、BIOSIS Previews、SinoMed、Health Technology Assessment、CNKI)、灰色文獻(如會議摘要、學位論文)、搜索引擎(如谷歌學術、百度學術)、臨床試驗注冊數據庫(如中國臨床試驗注冊中心,世界衛生組織國際臨床試驗注冊平臺)等。此外,為避免發表偏倚,還需進行手工檢索,追蹤相關系統評價或指南納入的原始研究,引文檢索等其他檢索[16]。以往研究表明,為保證充分有效地檢索,系統評價需要檢索的英文資源至少包括EMbase、MEDLINE、Web of Science和Google Scholar[17]。
2.2 制定檢索策略并檢索
基于提出的臨床問題查找相關檢索詞,根據選擇的文獻檢索資源制定相應的檢索策略。正式檢索之前進行預檢索。當未達到預檢索效果時,需及時調整檢索策略。對于提供主題詞檢索的數據庫(如PubMed、EMbase、The Cochrane Library、SinoMed),建議采用“主題詞+自由詞”檢索。此外需要考慮是否對檢索策略使用任何限定條件或過濾器,如語言、文獻檢索年限范圍等。
CDTA系統評價檢索可基于PITS原則(通常選擇PIT)。如果研究僅納入CDTA研究,檢索策略可構建為(某人群的主題詞 OR 自由詞) AND (待評價試驗A的主題詞 OR 自由詞) AND (待評價試驗B的主題詞 OR 自由詞) AND (目標疾病的主題詞 OR 自由詞);如果研究同時納入CDTA和SDTA研究,檢索策略可構建為(某人群的主題詞 OR 自由詞) AND ((待評價試驗A的主題詞 OR 自由詞) OR (待評價試驗B的主題詞 OR自由詞)) AND (目標疾病的主題詞 OR 自由詞)。檢索結構見圖1。

3 文獻篩選
文獻篩選過程至少需要2名研究者獨立篩選,若有爭議討論解決,或交由第3名研究者判斷。正式篩選之前建議進行預篩選,其目的在于對研究人員的文獻篩選標準進行“校準”。
采用文獻管理工具對文獻進行管理。去重之后首先對標題摘要進行篩選,其次對初步符合要求的文獻進行全文篩選,最后納入符合納入標準的文獻。作者需記錄每一步篩選過程,包括排除的數量和原因,以便日后進行核實。排除理由可按照納入與排除標準的條目進行撰寫。篩選流程的呈現可通過流程圖的形式,在PRISMA網站(http://www.prisma-statement.org/PRISMAStatement/FlowDiagram)可獲取流程圖模板。
4 數據提取
撰寫者需根據研究目的和需求合理設置相應條目。診斷準確性試驗系統評價數據提取一般包括以下8個部分[18-19]:① 基本信息(如標題、作者、發表年份、期刊、國家/地區、研究設計類型、利益沖突報告、基金、患者招募開始和結束時間);② 研究人群(如樣本量、年齡、性別、基礎疾病、癥狀體征、招募環境);③ 待評價試驗(如名稱、定義、類型、版本、實施方法和過程、樣本保存方式和時間、評估人員相關信息、閾值、盲法);④ 診斷參考標準(如名稱、數量、定義、閾值、評估方法);⑤ 目標疾病相關信息;⑥ 結果部分(真陽性例數、假陽性例數、真陰性例數、假陰性例數、敏感度、特異度、患病率等用于2×2表格構建的數據);⑦ 偏倚風險評價工具QUADAS-2(quality assessment of diagnostic accuracy studies-2)相關條目信息提取[20];⑧ 其他資料(如通訊作者聯系方式、研究參考文獻列表)。
除上述條目以外,CDTA系統評價還應根據需求提取QUADAS-C(quality assessment of diagnostic accuracy studies-comparative)[21]工具相關條目信息。另外當納入研究為隨機設計研究時,可按SDTA研究的方式輸出2×2表格[22-23]。而對于完全配對設計的診斷性試驗建議使用聯合分類的表格輸出[6,24]。聯合分類表格示例見表2[23]。

待評價試驗A敏感度=269/302(待評價試驗A的真陽性數/真正患病人數),特異度=296/366(待評價試驗A的真陰性數/真正未患病人數);待評價試驗B敏感度=253/302(待評價試驗B的真陽性數/真正患病人數),特異度=315/366(待評價試驗B的真陰性數/真正未患病人數)。
數據提取至少需要2名研究員獨立提取,若有爭議應討論解決(或由第3名研究員判斷),確保數據的準確性和完整性[25]。
目前在文獻篩選和數據提取階段使用的自動化軟件或工具包括Covidence、Rayyan、EPPI-Reviewer、Evidence Pipeline、Systematic Review Accelerator(SRA)、EndNote等[26-27]。正確使用上述自動化工具有助于提高文獻篩選和數據提取等階段工作的速度、效率和準確性[27-28]。
5 偏倚風險評價和GRADE評價
DTA的偏倚風險評價工具QUADAS首次在2003年發布,并于2011年修訂形成了QUADAS-2[20,29]。CDTA研究偏倚風險采用QUADAS-C工具進行評估,該工具為QUADAS-2的擴展版[21]。QUADAS-C由4個部分組成,包括病例選擇、待評價試驗、金標準、病例流程和待評價試驗與金標準之間的時間間隔。與QUADAS-2類似,QUADAS-C評價涉及4個階段:陳述系統評價問題、根據需要調整評價工具和評價指南、評價者準備或構建每個納入原始研究的流程圖、判斷偏倚風險。最終每個領域偏倚風險的評價結果為“高”、“低”或“不清楚”。
目前DTA系統評價證據分級主要有GRADE(grading of recommendations assessment,development and evaluation)證據分級和牛津證據分級,本文主要介紹GRADE分級方法[30]。CDTA系統評價證據分級主要考慮5個降級因素(偏倚風險、間接性、不一致性、不精確性和發表偏倚)和3個升級因素(劑量效應、大效應量、其他殘余的偏倚和混雜因素)。最終證據確信度的級別為“高”、“中”、“低”、“極低”。證據來源于直接比較或間接比較(注意不能與干預研究中的直接比較和間接比較混淆)。直接比較為多個CDTA研究(即在同一個研究中直接比較2個及以上待評價試驗的多個研究),間接比較為多個診斷待評價試驗A的研究與多個診斷待評價試驗B的研究相比[6,30]。分級流程主要分為3步:首先,獨立評價直接比較和間接比較證據確信度;其次,如果直接比較的證據確信度已經為高,那么不需再對間接比較證據進行評級;最后,如果直接比較的證據確信度為中等或更低,那么需評價間接比較證據的確信度,并從兩者中選擇證據確信度最高的一個。
6 數據分析與結果匯總
6.1 準確性評價
目前針對CDTA系統評價的統計方法有雙變量模型(bivariate model)、層次綜合受試者工作特征(hierarchical summary receiver operating characteristic,HSROC)模型、聯合(多變量)Meta分析的貝葉斯模型等[31-36]。雙變量模型和HSROC模型是目前常用且較為成熟的模型。當研究間的異質性主要來源于閾值,即存在多個閾值情況時,HSROC模型更適用,當異質性主要來源于其他因素時(如疾病的嚴重程度、參考標準的不同),則雙變量模型更適用[11]。針對上述模型,可先分別對每個待評價試驗的診斷準確性進行Meta分析,再比較待評價試驗的診斷準確性;或者將不同待評價試驗的類型作為協變量納入模型中,分析敏感度與特異度的匯總估計或綜合受試者工作特征曲線(summary receiver operating characteristic curve,SROC curve)的形狀和位置與協變量的關聯[31]。聯合(多變量)Meta分析的貝葉斯模型適用于配對設計研究并報告完全交叉分類數據,其說明了2個或多個試驗的敏感度與特異度之間的關系,然而該方法準確性有待進一步的方法學研究驗證,不過仍可將該方法用于敏感性分析[31,34]。
6.2 異質性分析
DTA的Meta分析常因研究設計、人群特征、疾病譜、陽性閾值等因素的不一致而導致較高的異質性,因此DTA系統評價常使用隨機效應模型[37-38]。在干預性研究中,異質性的分析主要依據點估計值相似性、95%CI的重疊程度以及I2大小。但在DTA系統評價中,是否使用I2值來估計異質性有待進一步方法學研究,因為其有可能會引起誤判[39]。此外,如果作者發現CDTA系統評價納入研究的異質性過大,應慎重考慮是否進行Meta分析。
探索異質性來源的方法主要有Meta回歸、亞組分析。如在Meta回歸中,將某些因素作為協變量,將試驗的診斷準確性作為因變量,探究這些因素與診斷準確性的關系[11]。是否進行亞組分析和Meta回歸還取決于研究數量以及原始研究信息報告完整度等因素[11]。敏感性分析用于判斷Meta合并結果的穩定性,如在SROC曲線圖發現異常值時,可進行敏感性分析。
6.3 發表偏倚檢驗
常用于干預性系統評價的Begg’s檢驗和Egger’s檢驗并不適用于DTA系統評價的發表偏倚檢驗[40]。目前CDTA系統評價發表偏倚檢測可以使用Deeks檢驗和剪補法(trim and fill method)[41-42]。Deeks檢驗被開發用于DTA系統評價,其檢測了InDOR(診斷比值比DOR的自然對數)與有效樣本量(effective sample size)(患病和未患病參與者數量的函數)之間的關聯[40]。然而有研究表明Deeks檢驗對于發表偏倚和小樣本研究效應的檢測效能較低[14,43-44]。剪補法是先除去漏斗圖中不對稱的小樣本研究,用去除后的對稱部分估計漏斗圖的中心值,然后沿中心兩側添補被剪切的及相應的估計缺失研究[45]。其優勢在于能非常直觀地發現試驗準確性的變化,如果去掉和添補部分研究,效應量估計值變化不大,那么考慮存在發表偏倚的可能性較小[46]。
以一個比較傳統快速流感診斷試驗(rapid influenza diagnostic tests)與數字免疫分析(digital immunoassays)、核酸擴增試驗(rapid nucleic acid amplification tests)診斷流感準確性的系統評價與Meta分析的統計分析方法為例[47]。作者以敏感度、特異度、陽性似然比和陰性似然比作為診斷準確性評價指標,使用貝葉斯雙變量隨機效應Meta分析模型來匯總估計,采用圖形描繪匯總估計值(包括其95%CI和預測區域)及HSROC曲線。由于納入研究間存在異質性的緣故,作者采用隨機效應模型來獲得更加保守的合并結果。異質性的分析通過目測HSROC圖、森林圖來判斷。如果異質性過大,研究者準備采用亞組分析來進一步探索異質性的來源(年齡、樣本類型、研究質量等)。研究者也準備采用敏感性分析來評估研究結果的穩定性。準確性的比較則是分別計算傳統快速流感診斷試驗、數字免疫分析和核酸擴增試驗的準確性后再進行獨立比較。但該研究未進行發表偏倚的檢測。
7 結果呈現與討論
結果呈現主要包括7個部分:① 描述并呈現研究結果,即篩選情況和納入情況。② 描述并呈現納入研究特征,包括受試者特征、研究設計、待評價試驗、參考標準、樣本量、資金來源等[13]。③ 描述并呈現納入研究偏倚風險評價和適用性,如在哪些方面存在高偏倚風險,占比多少。評價結果可通過表格或圖的形式呈現。偏倚風險評價結果如圖2所示,4個領域分別呈現高偏倚、不清楚、低偏倚3種情況的占比。④ 描述并呈現納入研究的GRADE評價結果,可與后續分析結果合并呈現。⑤ 描述并呈現納入研究結果及Meta分析結果,一般用森林圖、SROC圖、表格等形式呈現。試驗比較可使用連接ROC(linked ROC)圖進行表示,即同一個研究中的2個待評價試驗被連接起來,評估不同研究內待評價試驗準確性差異的一致性[31]。如圖3的森林圖所示,每一個方塊代表一個研究,連接方塊的水平線通常代表95%CI。如圖4的曲線圖所示(示例圖來自Chen等[48]發表的系統評價:直接比較正電子發射斷層顯像(PET)/CT和MRI預測乳腺癌新輔助化療的病理反應),不同的顏色和符號代表研究的待評價試驗(圖中圓圈為MRI,菱形為PET/CT),連接線將同一個研究中的試驗進行連接。單從圖中可以看出,PET/CT比MRI的準確性更好。⑥ 描述并呈現亞組分析、Meta回歸、敏感性分析的結果。需要注意的是,CDTA系統評價應呈現絕對差異或相對差異,可通過森林圖或表格的形式呈現。⑦ 其他結果。



討論部分主要關注對結果的解釋,系統評價中納入證據和研究過程中的局限性和該結果對實踐、政策和未來研究的意義[49]。結果解釋部分主要是在現有研究結果基礎上結合以往其他研究證據進行探討。例如結合以往文獻討論產生該結果的原因,或討論現有結果與以往結果不一致的地方。系統評價中納入證據的局限性主要是討論納入證據的完整性、適用性和不確定性,例如討論偏倚風險評價結果,研究結果的不精確性,證據對目標群體的適用性等[14]。研究過程中的局限性主要是討論研究在設計實施中存在的局限,由此可能產生的偏倚及對結果可能的影響,并提出可能的解決辦法。該結果對實踐、政策及未來研究的意義主要是討論研究結果對實踐和政策的影響(有助于臨床醫生、患者、政策制定者等受眾采取相應的行動)及提出對未來研究明確的建議[14]。
8 其他注意事項
其他注意事項包括:① 研究目的:臨床診斷決策不僅需要考慮診斷試驗準確性,還要考慮患者后續健康結局、患者偏好與價值觀、衛生經濟成本效益等多個方面[50]。撰寫者需要明確研究目的是否是評估比較某(些)待評價試驗的診斷準確性,而不是評估某診斷試驗對患者的效益或其他。② 計劃書與注冊:撰寫計劃書及注冊能夠增加系統評價報告的透明性。系統評價的注冊網站有PROSPERO、Cochrane協作網、Open Science Framework等。需要注意的是在撰寫正文時需要提供計劃書相關鏈接,如果計劃書與正文描述的方法不一致,需說明緣由。③ 檢索文獻:DTA研究的文獻檢索是復雜的,除上述步驟以外,需注意的是應謹慎使用方法學檢索過濾器,因其可能會造成漏檢[51]。
9 小結
綜上所述,CDTA系統評價與單個診斷試驗準確性或干預性系統評價有相似之處,但需注意CDTA系統評價在納入與排除標準、數據表格的設計、結局指標選擇、統計模型的選擇和分析等方面均有獨特之處。CDTA系統評價的撰寫流程圖見圖5。目前CDTA系統評價存在一些挑戰[6],如當納入研究中包含SDTA與CDTA時,如何選擇恰當的分析方法來比較試驗準確性?是否考慮兩者的占比?如怎樣對少量研究或數據進行分析?但隨著CDTA系統評價的方法學不斷完善,其在臨床診斷決策方面將發揮重要作用,研究者有必要盡早掌握該研究方法。

系統評價(systematic review)是一種按照一定的納入標準廣泛收集關于某一醫療衛生問題的研究,對納入研究進行嚴格的偏倚風險和證據質量評估,將各研究結果進行定量合并分析或定性分析,以對該問題進行系統總結的研究方法[1]。系統評價旨在透明、可重復和可更新地綜合現有領域證據,識別和解決原始研究不能解決且應在未來關注的問題[2]。在診斷準確性研究領域,方法學嚴謹的診斷準確性試驗的系統評價可為臨床決策提供支持[3]。
隨著診斷準確性試驗(diagnostic test accuracy,DTA)研究的不斷發展,相比于單個診斷試驗準確性(single diagnostic test accuracy,SDTA)研究,診斷試驗準確性比較(comparative diagnostic test accuracy,CDTA)研究能夠回答許多臨床醫生和政策制定者關心的問題,即在面對相同疾病情況時,哪一種診斷試驗的診斷準確性更佳[4]。CDTA系統評價則是運用有效的方法綜合原始研究證據,在眾多診斷試驗中識別當前準確性最佳的診斷試驗,有效避免因偏倚產生錯誤的結論和推薦[5-6]。然而以往的研究證據表明,CDTA系統評價制作不夠嚴謹,這可能會導致證據使用者判斷錯誤及資源浪費[5,7]。本研究系列前期已經介紹了CDTA研究的概述、研究設計[8-9],本文主要介紹撰寫CDTA系統評價過程中相關方法及注意事項,以期為CDTA系統評價撰寫者提供參考。
1 提出問題和確定納入與排除標準
清楚地定義研究問題和研究目的的廣度與深度將會更有助于撰寫者確定后續的研究方案[10-11]。通過瀏覽該領域相關研究,了解國內外現狀,明確提出臨床問題的必要性及針對該臨床問題制作系統評價的必要性。在此過程中,作者需考慮以下3個問題:第一,本課題是否適合做系統評價?當作者發現原始診斷性研究極少時需慎重考慮。第二,本課題想解決的臨床問題是否已有前人研究,或是否已經存在相似的系統評價(包括已注冊正在進行的研究)?第三,相比于既往的研究,本課題增加的研究價值是什么?
針對CDTA系統評價,臨床問題推薦使用PITS進行解構[12]:P(population)指人群(研究問題所針對的診斷試驗對象);I(index test)指待評價試驗(包括作比較的試驗);T(target condition)指目標疾病;S(study design)指研究設計。PITS原則示例見表1。

納入與排除標準制定內容包括研究內特征和研究發表特征[13-15]。研究內特征包含PITS要素及其他特征:① 人群和環境(如性別、年齡、體征、癥狀、所處場景);② 待評價試驗(如類型、版本);③ 目標疾病(如范圍、階段);④ 研究設計(如完全配對、隨機子集部分配對、非隨機子集部分配對、非配對隨機、非配對非隨機[9]);⑤ 診斷參考標準;⑥ 閾值(共同閾值或多個閾值);⑦ 其他。研究發表特征包含年份、語言、報告狀態(如會議摘要)等。撰寫者應明確定義人群、待評價試驗、診斷參考標準和目標疾病。此外,如果研究者對上述某些條目有任何限制(如年份、研究設計),建議作者提供相應的理由。
2 文獻檢索
2.1 選擇文獻資源
文獻檢索資源主要包括中英文文獻數據庫(如PubMed/MEDLINE、EMbase、The Cochrane Library、Web of Science、BIOSIS Previews、SinoMed、Health Technology Assessment、CNKI)、灰色文獻(如會議摘要、學位論文)、搜索引擎(如谷歌學術、百度學術)、臨床試驗注冊數據庫(如中國臨床試驗注冊中心,世界衛生組織國際臨床試驗注冊平臺)等。此外,為避免發表偏倚,還需進行手工檢索,追蹤相關系統評價或指南納入的原始研究,引文檢索等其他檢索[16]。以往研究表明,為保證充分有效地檢索,系統評價需要檢索的英文資源至少包括EMbase、MEDLINE、Web of Science和Google Scholar[17]。
2.2 制定檢索策略并檢索
基于提出的臨床問題查找相關檢索詞,根據選擇的文獻檢索資源制定相應的檢索策略。正式檢索之前進行預檢索。當未達到預檢索效果時,需及時調整檢索策略。對于提供主題詞檢索的數據庫(如PubMed、EMbase、The Cochrane Library、SinoMed),建議采用“主題詞+自由詞”檢索。此外需要考慮是否對檢索策略使用任何限定條件或過濾器,如語言、文獻檢索年限范圍等。
CDTA系統評價檢索可基于PITS原則(通常選擇PIT)。如果研究僅納入CDTA研究,檢索策略可構建為(某人群的主題詞 OR 自由詞) AND (待評價試驗A的主題詞 OR 自由詞) AND (待評價試驗B的主題詞 OR 自由詞) AND (目標疾病的主題詞 OR 自由詞);如果研究同時納入CDTA和SDTA研究,檢索策略可構建為(某人群的主題詞 OR 自由詞) AND ((待評價試驗A的主題詞 OR 自由詞) OR (待評價試驗B的主題詞 OR自由詞)) AND (目標疾病的主題詞 OR 自由詞)。檢索結構見圖1。

3 文獻篩選
文獻篩選過程至少需要2名研究者獨立篩選,若有爭議討論解決,或交由第3名研究者判斷。正式篩選之前建議進行預篩選,其目的在于對研究人員的文獻篩選標準進行“校準”。
采用文獻管理工具對文獻進行管理。去重之后首先對標題摘要進行篩選,其次對初步符合要求的文獻進行全文篩選,最后納入符合納入標準的文獻。作者需記錄每一步篩選過程,包括排除的數量和原因,以便日后進行核實。排除理由可按照納入與排除標準的條目進行撰寫。篩選流程的呈現可通過流程圖的形式,在PRISMA網站(http://www.prisma-statement.org/PRISMAStatement/FlowDiagram)可獲取流程圖模板。
4 數據提取
撰寫者需根據研究目的和需求合理設置相應條目。診斷準確性試驗系統評價數據提取一般包括以下8個部分[18-19]:① 基本信息(如標題、作者、發表年份、期刊、國家/地區、研究設計類型、利益沖突報告、基金、患者招募開始和結束時間);② 研究人群(如樣本量、年齡、性別、基礎疾病、癥狀體征、招募環境);③ 待評價試驗(如名稱、定義、類型、版本、實施方法和過程、樣本保存方式和時間、評估人員相關信息、閾值、盲法);④ 診斷參考標準(如名稱、數量、定義、閾值、評估方法);⑤ 目標疾病相關信息;⑥ 結果部分(真陽性例數、假陽性例數、真陰性例數、假陰性例數、敏感度、特異度、患病率等用于2×2表格構建的數據);⑦ 偏倚風險評價工具QUADAS-2(quality assessment of diagnostic accuracy studies-2)相關條目信息提取[20];⑧ 其他資料(如通訊作者聯系方式、研究參考文獻列表)。
除上述條目以外,CDTA系統評價還應根據需求提取QUADAS-C(quality assessment of diagnostic accuracy studies-comparative)[21]工具相關條目信息。另外當納入研究為隨機設計研究時,可按SDTA研究的方式輸出2×2表格[22-23]。而對于完全配對設計的診斷性試驗建議使用聯合分類的表格輸出[6,24]。聯合分類表格示例見表2[23]。

待評價試驗A敏感度=269/302(待評價試驗A的真陽性數/真正患病人數),特異度=296/366(待評價試驗A的真陰性數/真正未患病人數);待評價試驗B敏感度=253/302(待評價試驗B的真陽性數/真正患病人數),特異度=315/366(待評價試驗B的真陰性數/真正未患病人數)。
數據提取至少需要2名研究員獨立提取,若有爭議應討論解決(或由第3名研究員判斷),確保數據的準確性和完整性[25]。
目前在文獻篩選和數據提取階段使用的自動化軟件或工具包括Covidence、Rayyan、EPPI-Reviewer、Evidence Pipeline、Systematic Review Accelerator(SRA)、EndNote等[26-27]。正確使用上述自動化工具有助于提高文獻篩選和數據提取等階段工作的速度、效率和準確性[27-28]。
5 偏倚風險評價和GRADE評價
DTA的偏倚風險評價工具QUADAS首次在2003年發布,并于2011年修訂形成了QUADAS-2[20,29]。CDTA研究偏倚風險采用QUADAS-C工具進行評估,該工具為QUADAS-2的擴展版[21]。QUADAS-C由4個部分組成,包括病例選擇、待評價試驗、金標準、病例流程和待評價試驗與金標準之間的時間間隔。與QUADAS-2類似,QUADAS-C評價涉及4個階段:陳述系統評價問題、根據需要調整評價工具和評價指南、評價者準備或構建每個納入原始研究的流程圖、判斷偏倚風險。最終每個領域偏倚風險的評價結果為“高”、“低”或“不清楚”。
目前DTA系統評價證據分級主要有GRADE(grading of recommendations assessment,development and evaluation)證據分級和牛津證據分級,本文主要介紹GRADE分級方法[30]。CDTA系統評價證據分級主要考慮5個降級因素(偏倚風險、間接性、不一致性、不精確性和發表偏倚)和3個升級因素(劑量效應、大效應量、其他殘余的偏倚和混雜因素)。最終證據確信度的級別為“高”、“中”、“低”、“極低”。證據來源于直接比較或間接比較(注意不能與干預研究中的直接比較和間接比較混淆)。直接比較為多個CDTA研究(即在同一個研究中直接比較2個及以上待評價試驗的多個研究),間接比較為多個診斷待評價試驗A的研究與多個診斷待評價試驗B的研究相比[6,30]。分級流程主要分為3步:首先,獨立評價直接比較和間接比較證據確信度;其次,如果直接比較的證據確信度已經為高,那么不需再對間接比較證據進行評級;最后,如果直接比較的證據確信度為中等或更低,那么需評價間接比較證據的確信度,并從兩者中選擇證據確信度最高的一個。
6 數據分析與結果匯總
6.1 準確性評價
目前針對CDTA系統評價的統計方法有雙變量模型(bivariate model)、層次綜合受試者工作特征(hierarchical summary receiver operating characteristic,HSROC)模型、聯合(多變量)Meta分析的貝葉斯模型等[31-36]。雙變量模型和HSROC模型是目前常用且較為成熟的模型。當研究間的異質性主要來源于閾值,即存在多個閾值情況時,HSROC模型更適用,當異質性主要來源于其他因素時(如疾病的嚴重程度、參考標準的不同),則雙變量模型更適用[11]。針對上述模型,可先分別對每個待評價試驗的診斷準確性進行Meta分析,再比較待評價試驗的診斷準確性;或者將不同待評價試驗的類型作為協變量納入模型中,分析敏感度與特異度的匯總估計或綜合受試者工作特征曲線(summary receiver operating characteristic curve,SROC curve)的形狀和位置與協變量的關聯[31]。聯合(多變量)Meta分析的貝葉斯模型適用于配對設計研究并報告完全交叉分類數據,其說明了2個或多個試驗的敏感度與特異度之間的關系,然而該方法準確性有待進一步的方法學研究驗證,不過仍可將該方法用于敏感性分析[31,34]。
6.2 異質性分析
DTA的Meta分析常因研究設計、人群特征、疾病譜、陽性閾值等因素的不一致而導致較高的異質性,因此DTA系統評價常使用隨機效應模型[37-38]。在干預性研究中,異質性的分析主要依據點估計值相似性、95%CI的重疊程度以及I2大小。但在DTA系統評價中,是否使用I2值來估計異質性有待進一步方法學研究,因為其有可能會引起誤判[39]。此外,如果作者發現CDTA系統評價納入研究的異質性過大,應慎重考慮是否進行Meta分析。
探索異質性來源的方法主要有Meta回歸、亞組分析。如在Meta回歸中,將某些因素作為協變量,將試驗的診斷準確性作為因變量,探究這些因素與診斷準確性的關系[11]。是否進行亞組分析和Meta回歸還取決于研究數量以及原始研究信息報告完整度等因素[11]。敏感性分析用于判斷Meta合并結果的穩定性,如在SROC曲線圖發現異常值時,可進行敏感性分析。
6.3 發表偏倚檢驗
常用于干預性系統評價的Begg’s檢驗和Egger’s檢驗并不適用于DTA系統評價的發表偏倚檢驗[40]。目前CDTA系統評價發表偏倚檢測可以使用Deeks檢驗和剪補法(trim and fill method)[41-42]。Deeks檢驗被開發用于DTA系統評價,其檢測了InDOR(診斷比值比DOR的自然對數)與有效樣本量(effective sample size)(患病和未患病參與者數量的函數)之間的關聯[40]。然而有研究表明Deeks檢驗對于發表偏倚和小樣本研究效應的檢測效能較低[14,43-44]。剪補法是先除去漏斗圖中不對稱的小樣本研究,用去除后的對稱部分估計漏斗圖的中心值,然后沿中心兩側添補被剪切的及相應的估計缺失研究[45]。其優勢在于能非常直觀地發現試驗準確性的變化,如果去掉和添補部分研究,效應量估計值變化不大,那么考慮存在發表偏倚的可能性較小[46]。
以一個比較傳統快速流感診斷試驗(rapid influenza diagnostic tests)與數字免疫分析(digital immunoassays)、核酸擴增試驗(rapid nucleic acid amplification tests)診斷流感準確性的系統評價與Meta分析的統計分析方法為例[47]。作者以敏感度、特異度、陽性似然比和陰性似然比作為診斷準確性評價指標,使用貝葉斯雙變量隨機效應Meta分析模型來匯總估計,采用圖形描繪匯總估計值(包括其95%CI和預測區域)及HSROC曲線。由于納入研究間存在異質性的緣故,作者采用隨機效應模型來獲得更加保守的合并結果。異質性的分析通過目測HSROC圖、森林圖來判斷。如果異質性過大,研究者準備采用亞組分析來進一步探索異質性的來源(年齡、樣本類型、研究質量等)。研究者也準備采用敏感性分析來評估研究結果的穩定性。準確性的比較則是分別計算傳統快速流感診斷試驗、數字免疫分析和核酸擴增試驗的準確性后再進行獨立比較。但該研究未進行發表偏倚的檢測。
7 結果呈現與討論
結果呈現主要包括7個部分:① 描述并呈現研究結果,即篩選情況和納入情況。② 描述并呈現納入研究特征,包括受試者特征、研究設計、待評價試驗、參考標準、樣本量、資金來源等[13]。③ 描述并呈現納入研究偏倚風險評價和適用性,如在哪些方面存在高偏倚風險,占比多少。評價結果可通過表格或圖的形式呈現。偏倚風險評價結果如圖2所示,4個領域分別呈現高偏倚、不清楚、低偏倚3種情況的占比。④ 描述并呈現納入研究的GRADE評價結果,可與后續分析結果合并呈現。⑤ 描述并呈現納入研究結果及Meta分析結果,一般用森林圖、SROC圖、表格等形式呈現。試驗比較可使用連接ROC(linked ROC)圖進行表示,即同一個研究中的2個待評價試驗被連接起來,評估不同研究內待評價試驗準確性差異的一致性[31]。如圖3的森林圖所示,每一個方塊代表一個研究,連接方塊的水平線通常代表95%CI。如圖4的曲線圖所示(示例圖來自Chen等[48]發表的系統評價:直接比較正電子發射斷層顯像(PET)/CT和MRI預測乳腺癌新輔助化療的病理反應),不同的顏色和符號代表研究的待評價試驗(圖中圓圈為MRI,菱形為PET/CT),連接線將同一個研究中的試驗進行連接。單從圖中可以看出,PET/CT比MRI的準確性更好。⑥ 描述并呈現亞組分析、Meta回歸、敏感性分析的結果。需要注意的是,CDTA系統評價應呈現絕對差異或相對差異,可通過森林圖或表格的形式呈現。⑦ 其他結果。



討論部分主要關注對結果的解釋,系統評價中納入證據和研究過程中的局限性和該結果對實踐、政策和未來研究的意義[49]。結果解釋部分主要是在現有研究結果基礎上結合以往其他研究證據進行探討。例如結合以往文獻討論產生該結果的原因,或討論現有結果與以往結果不一致的地方。系統評價中納入證據的局限性主要是討論納入證據的完整性、適用性和不確定性,例如討論偏倚風險評價結果,研究結果的不精確性,證據對目標群體的適用性等[14]。研究過程中的局限性主要是討論研究在設計實施中存在的局限,由此可能產生的偏倚及對結果可能的影響,并提出可能的解決辦法。該結果對實踐、政策及未來研究的意義主要是討論研究結果對實踐和政策的影響(有助于臨床醫生、患者、政策制定者等受眾采取相應的行動)及提出對未來研究明確的建議[14]。
8 其他注意事項
其他注意事項包括:① 研究目的:臨床診斷決策不僅需要考慮診斷試驗準確性,還要考慮患者后續健康結局、患者偏好與價值觀、衛生經濟成本效益等多個方面[50]。撰寫者需要明確研究目的是否是評估比較某(些)待評價試驗的診斷準確性,而不是評估某診斷試驗對患者的效益或其他。② 計劃書與注冊:撰寫計劃書及注冊能夠增加系統評價報告的透明性。系統評價的注冊網站有PROSPERO、Cochrane協作網、Open Science Framework等。需要注意的是在撰寫正文時需要提供計劃書相關鏈接,如果計劃書與正文描述的方法不一致,需說明緣由。③ 檢索文獻:DTA研究的文獻檢索是復雜的,除上述步驟以外,需注意的是應謹慎使用方法學檢索過濾器,因其可能會造成漏檢[51]。
9 小結
綜上所述,CDTA系統評價與單個診斷試驗準確性或干預性系統評價有相似之處,但需注意CDTA系統評價在納入與排除標準、數據表格的設計、結局指標選擇、統計模型的選擇和分析等方面均有獨特之處。CDTA系統評價的撰寫流程圖見圖5。目前CDTA系統評價存在一些挑戰[6],如當納入研究中包含SDTA與CDTA時,如何選擇恰當的分析方法來比較試驗準確性?是否考慮兩者的占比?如怎樣對少量研究或數據進行分析?但隨著CDTA系統評價的方法學不斷完善,其在臨床診斷決策方面將發揮重要作用,研究者有必要盡早掌握該研究方法。
