在同一個研究中對多個診斷性試驗的診斷準確性進行比較,可篩選出準確性較高的診斷性試驗。因此,診斷性試驗準確性比較研究的開展尤為重要。本文介紹了診斷性試驗準確性比較研究的概念,比較了其與單個診斷性試驗研究的不同,并從其作用、研究設計、統計分析、現狀與挑戰的角度進行了闡述。
引用本文: 田晨, 楊秋玉, 賴鴻皓, 孫銘謠, 陸瑤, 謝欣玲, 田金徽, 李霓, 王慧琳, 鄭亞迪, 李江, 葛龍. 診斷性試驗準確性比較研究. 中國循證醫學雜志, 2022, 22(5): 590-594. doi: 10.7507/1672-2531.202201098 復制
診斷性試驗可為正確診斷和鑒別疾病提供依據,通過診斷準確性研究可評估診斷性試驗的診斷價值。診斷準確性研究以金標準或參考標準為參照,不僅可評估單個試驗的診斷價值,還可比較多個試驗的診斷準確性。診斷性試驗準確性比較研究通過在同一研究中比較2個或多個診斷性試驗,可篩選出診斷準確性較高的診斷性試驗,為臨床診斷策略決策提供依據。因此,診斷性試驗準確性比較的研究的開展尤為重要。本文介紹診斷性試驗準確性比較研究的概念,比較其與單個診斷性試驗準確性研究的差異,并從診斷性試驗準確性比較研究的作用、研究設計、統計分析、現狀與挑戰的角度進行闡述。
1 概念
診斷性試驗準確性研究(diagnostic test accuracy,DTA)是評估使用一種或多種診斷方法區分研究對象患病或不患病的研究[1]。在同一診斷性試驗準確性研究中,以金標準或參考標準作為參照,比較1種診斷性試驗準確性的研究稱為單個診斷性試驗準確性研究(single diagnostic test accuracy study,SDTA);比較2種及以上診斷性試驗準確性的研究稱為診斷性試驗準確性比較研究(comparative diagnosis test accuracy,CDTA)[2-3]。
2 SDTA與CDTA的差異
CDTA關注的問題是在評估同一目標疾病時,某個診斷性試驗與其他診斷性試驗相比準確性如何;理想的研究設計是完全配對設計/被試內設計(within-subject design)(每一位研究對象都接受所有的待評價試驗)或隨機設計(將研究對象隨機分配到待評價試驗中);可用靈敏度、特異度、似然比或其他準確性評價指標的絕對差值或相對比值來描述研究結果;研究目的是通過比較多個診斷性試驗的準確性,篩選最佳診斷措施[3]。詳見表1。

3 CDTA的作用
及時準確地診斷疾病,是臨床有效治療的基礎,而選擇準確性較高的診斷性試驗是提高疾病診斷準確率的重要保障。隨著對疾病的深入認識和醫療技術的發展,新的診斷方式不斷增多,給診斷方式最終選擇帶來困難。CDTA研究可通過比較多種診斷方式的診斷準確性,篩選出準確性較高的一種或幾種診斷方式,為臨床決策提供依據。CDTA研究中,與待評價試驗A相比,待評價試驗B發揮3種作用:替代(replacement)、附加(add-on)或分流(triage)(圖1)[4-5]。當待評價試驗B發揮替代作用時,具有準確性更高、成本更低、侵入性更小、更易于實施、能夠降低患者的不適感、省時等優點[4]。例如,在比較增強計算機斷層掃描(CT)和磁共振成像(MRI)動態增強掃描診斷肝癌準確性的研究中[6],以手術病理診斷結果為金標準,結果表明MRI的診斷準確性優于CT,可為制定手術方案提供更可靠指導。當發揮分流作用時,待評價試驗B在待評價試驗A前實施,根據需求當試驗B結果呈陽性或陰性時,研究對象繼續接受試驗A;與試驗A相比,試驗B準確性雖不高,但其具有易于實施或成本較低的優點[4]。例如,在新型冠狀病毒肺炎疫情檢測中,先通過核酸檢測對人群進行篩查分流,隨后再通過CT檢查對陽性人群進行進一步確認。若待評價試驗A無法完全識別患有目標疾病的患者,可進行附加試驗,從而降低漏診率或誤診率。例如,目前對帕金森病的診斷主要是依據臨床表現并輔以檢測量表,但利用間碘芐胍延遲顯像可在靈敏度不受影響的前提下,提高對帕金森病早期診斷的特異度[7-8]。因此,CDTA研究可通過比較多個試驗的準確性,為替代現有診斷方式或彌補現有診斷方式的不足提供臨床適用的診斷策略。此外,CDTA還可用于探索診斷策略(例如多個試驗的聯合)的準確性[9]。例如,在青光眼的診斷中,倍頻視野技術和光學相干斷層掃描的靈敏度和特異度均無統計學差異,但二者聯用的靈敏度和特異度明顯高于單項試驗[10]。

4 CDTA的研究設計
根據患者是否隨機分配到每種待評價試驗及是否接受多種待評價試驗,CDTA可分為5個基本研究設計類型:完全配對、具有隨機子集的部分配對、具有非隨機子集的部分配對、非配對隨機和非配對非隨機[11]。5種設計研究類型特征詳見表2。

5 CDTA的統計分析
CDTA的統計分析是對多個診斷性試驗準確性指標的絕對差值或相對比值進行統計學分析,常用的準確性指標包括靈敏度、特異度、似然比、優勢比、ROC曲線和AUC值等。根據診斷性試驗結果變量類型,可分為二分類資料、等級資料和連續型資料3種情況。二分類資料通過四格表的形式呈現,除可通過計算準確性指標的絕對差值或相對比值比較診斷準確性外,還可通過對它們的差異進行參數估計或是假設檢驗來比較;等級資料或連續型資料可通過對2種或多種診斷性試驗的ROC曲線或者AUC值進行假設檢驗來獲知診斷準確性之間的差異。需要注意的是,在選擇統計量時需要考慮所選統計量在臨床決策中的可解釋性,例如,靈敏度和假陽性率的絕對差值比它們的相對比值要更容易解釋[12]。此外,由于信息丟失、人為失誤及設備缺陷等問題會導致數據缺失的出現,這種情況通常可通過數據刪除或數據插補的方法來處理。數據刪除是指刪除掉包含缺失值的所有信息,但是這可能會產生選擇性偏倚。數據填補是用對數據可用信息的估計值替換缺失值,通常可通過隨機缺失法、最差值法和無信息結轉法等方法來對二分類型數據進行數據填補;針對連續型數據的數據填補則可通過均值插補法、隨機插補法、回歸插補法、多重插補法等方法來完成[13-14]。
6 CDTA的現狀與挑戰
計算機檢索Web of Science核心數據集(SCI和SSCI庫)上發表的CDTA研究數量,結果發現從1990年開始,CDTA相關研究數量急劇增加,說明對診斷性試驗準確性的比較很早就引起了研究人員的重視。CDTA相關研究在Web of Science的年份發文量見圖2。其中,加利福尼亞大學、哈佛大學、倫敦大學在CDTA相關研究中貢獻較大數量。放射學、核醫學與醫學影像學,生物化學與生物分子學和神經科學與神經病學三者所占相關研究方向總量的比例超過20%。CDTA相關研究發文數量前5位的出版物是:Journal of Clinical Microbiology、PLoS One、Radiology、American Journal of Roentgenology和European Radiology。第1篇可開放獲取的CDTA文章由Malone等[15]于1980年發表,該研究介紹了通過多普勒眶上檢查和眼球體積描記法,檢測在血管造影術前患者頸內動脈在血流動力學方面是否存在顯著病變,研究結果發現雖然2種方法在有癥狀的腦血管病患者中的使用價值很小,但在篩查無癥狀頸動脈狹窄或非典型腦血管癥狀的患者中具有非常重要的診斷價值。

計算機檢索CNKI上中國發表的CDTA相關研究,結果顯示CDTA在國內研究中的應用主要集中于腫瘤學、婦產科學和兒科學等臨床學科,及心血管系統疾病、內分泌腺及全身性疾病和感染性疾病及傳染病等疾病領域。其中,被引用次數最多的研究為黃一寧等[16]1997年用多譜勒探頭檢查顱腦和頸部大動脈的血流速度,然后做數字減影血管造影,以比較診斷頸部和顱內血管狹窄的準確性。但該研究僅限于針對閉塞性腦血管病的單個待評價診斷(多譜勒探頭)與金標準(腦血管造影)診斷準確性的比較。此外,在診斷準確性研究報告規范(standards for reporting diagnostic accuracy studies,STARD)發布之后,診斷準確性研究的報告質量得到了顯著提升,但國內研究的報告仍存在一定程度的不足,例如絕大多數研究未報告待評價診斷性試驗與參考標準診斷的時間間隔有多長,未使用流程圖來說明研究設計和研究對象診斷流程等[17-19]。因此,在未來的研究報告過程中研究者仍然需要注意與STARD相結合規范報告診斷性研究,同時也要盡快開發出針對多個診斷性試驗準確性研究的報告規范。
在理想狀態下,所有比較診斷性試驗準確性的系統評價和Meta分析應只納入配對設計的診斷性試驗[20]。但是,如果只納入配對設計的診斷研究,將非配對設計的診斷研究排除,系統評價的代表性和檢驗效能下降,最終導致系統評價結論存在較大偏倚。由于CDTA在衛生技術評估和臨床實踐制定過程中的作用越來越大,但是它的研究設計具有復雜性,需要有清晰而完整的報告,Takwoingi等[21]在2020年發表的文章中通過擴充PRISMA-DTA條目提供了CDTA系統評價和Meta分析的報告指南以促進提高報告質量,同行評審或者期刊在審稿過程中也可用該指南來評價CDTA的系統評價和Meta分析。此外,也需要用QUADAS-C工具來評估CDTA研究的方法學質量[21]。Yang等[22]在2021年開發了QUADAS-C工具,可用于評價多個診斷性試驗準確性比較研究的偏倚風險。作為QUADAS-2的擴展版,QUADAS-C評價領域與QUADAS-2相同,均為病例選擇、待評價試驗、金標準、病例流程和進展情況,但QUADAS-C工具在這4個領域共增加了14個標志性問題,而且,QUADAS-C工具需與QUADAS-2工具結合使用。研究人員在設計CDTA時也可使用此工具來識別和避免偏倚風險。此外,同樣可使用GRADE對CDTA結果進行證據分級,按照5個領域(① 偏倚風險;② 間接性;③ 不一致性;④ 不精確性;⑤ 發表偏倚)來對證據級別進行升級或降級。Yang等[23]在2021年發表的GRADE指南系列文章中介紹了如何對CDTA中每個證據領域進行GRADE評級。因此,國內研究者在進行CDTA研究時,需要注意研究設計、實施等環節與相關方法學的緊密結合以提高研究質量。
當然,在對診斷性試驗準確性進行比較時也存在著一定的困難和挑戰。首先,在對多種方法的診斷準確性進行比較時,要綜合考慮各方面因素,避免各指標的不足[24],所選統計量需要與臨床使用中如何解釋及做決策時所需的信息相匹配。其次,在研究實施過程中,若患者選擇、樣本量計算、參考標準確定等方面存在偏倚風險的可能,那么試驗間準確性比較的結果也存在偏倚[9],因此,選擇合適的研究設計是開展試驗的基礎,在實施過程中應盡可能減少偏倚的產生,為試驗結果的準確性提供保障[4,25]。再次,根據研究問題的不同,必須使用不同的分析技術(例如多變量回歸)來評估診斷性試驗是否能夠實現其預期的臨床作用[26-27]。值得注意的是,在CDTA中,受試者可能會接受不必要的診斷或治療,但患者的結局指標并沒有得到改善,從而增加了患者個體的醫療風險和衛生費用。例如,雖然斷層掃描成像在診斷肺栓塞方面比平面成像有更高的準確性,并且會檢測到更多或更小的小栓塞,但對患有輕微肺栓塞疾病的患者不合理使用抗凝劑會導致不良事件的增加,而沒有實際的臨床意義[28-29]。因此,在試驗A準確性更高于試驗B的情況下,還必須考慮試驗A的安全性。
7 總結
準確性反映了診斷性試驗的診斷價值,而準確有效的診斷是做出臨床決策的基礎。比較多個診斷性試驗準確性有助于選擇出準確性較高的診斷方式,對臨床工作有著重要意義。本文介紹了CDTA的概念,比較了其與SDTA的差異,對 CDTA的作用、研究設計、統計分析進行了簡單闡述,介紹了CDTA的發表情況及部分方法學現況,并且分析了CDTA目前存在的挑戰。
診斷性試驗可為正確診斷和鑒別疾病提供依據,通過診斷準確性研究可評估診斷性試驗的診斷價值。診斷準確性研究以金標準或參考標準為參照,不僅可評估單個試驗的診斷價值,還可比較多個試驗的診斷準確性。診斷性試驗準確性比較研究通過在同一研究中比較2個或多個診斷性試驗,可篩選出診斷準確性較高的診斷性試驗,為臨床診斷策略決策提供依據。因此,診斷性試驗準確性比較的研究的開展尤為重要。本文介紹診斷性試驗準確性比較研究的概念,比較其與單個診斷性試驗準確性研究的差異,并從診斷性試驗準確性比較研究的作用、研究設計、統計分析、現狀與挑戰的角度進行闡述。
1 概念
診斷性試驗準確性研究(diagnostic test accuracy,DTA)是評估使用一種或多種診斷方法區分研究對象患病或不患病的研究[1]。在同一診斷性試驗準確性研究中,以金標準或參考標準作為參照,比較1種診斷性試驗準確性的研究稱為單個診斷性試驗準確性研究(single diagnostic test accuracy study,SDTA);比較2種及以上診斷性試驗準確性的研究稱為診斷性試驗準確性比較研究(comparative diagnosis test accuracy,CDTA)[2-3]。
2 SDTA與CDTA的差異
CDTA關注的問題是在評估同一目標疾病時,某個診斷性試驗與其他診斷性試驗相比準確性如何;理想的研究設計是完全配對設計/被試內設計(within-subject design)(每一位研究對象都接受所有的待評價試驗)或隨機設計(將研究對象隨機分配到待評價試驗中);可用靈敏度、特異度、似然比或其他準確性評價指標的絕對差值或相對比值來描述研究結果;研究目的是通過比較多個診斷性試驗的準確性,篩選最佳診斷措施[3]。詳見表1。

3 CDTA的作用
及時準確地診斷疾病,是臨床有效治療的基礎,而選擇準確性較高的診斷性試驗是提高疾病診斷準確率的重要保障。隨著對疾病的深入認識和醫療技術的發展,新的診斷方式不斷增多,給診斷方式最終選擇帶來困難。CDTA研究可通過比較多種診斷方式的診斷準確性,篩選出準確性較高的一種或幾種診斷方式,為臨床決策提供依據。CDTA研究中,與待評價試驗A相比,待評價試驗B發揮3種作用:替代(replacement)、附加(add-on)或分流(triage)(圖1)[4-5]。當待評價試驗B發揮替代作用時,具有準確性更高、成本更低、侵入性更小、更易于實施、能夠降低患者的不適感、省時等優點[4]。例如,在比較增強計算機斷層掃描(CT)和磁共振成像(MRI)動態增強掃描診斷肝癌準確性的研究中[6],以手術病理診斷結果為金標準,結果表明MRI的診斷準確性優于CT,可為制定手術方案提供更可靠指導。當發揮分流作用時,待評價試驗B在待評價試驗A前實施,根據需求當試驗B結果呈陽性或陰性時,研究對象繼續接受試驗A;與試驗A相比,試驗B準確性雖不高,但其具有易于實施或成本較低的優點[4]。例如,在新型冠狀病毒肺炎疫情檢測中,先通過核酸檢測對人群進行篩查分流,隨后再通過CT檢查對陽性人群進行進一步確認。若待評價試驗A無法完全識別患有目標疾病的患者,可進行附加試驗,從而降低漏診率或誤診率。例如,目前對帕金森病的診斷主要是依據臨床表現并輔以檢測量表,但利用間碘芐胍延遲顯像可在靈敏度不受影響的前提下,提高對帕金森病早期診斷的特異度[7-8]。因此,CDTA研究可通過比較多個試驗的準確性,為替代現有診斷方式或彌補現有診斷方式的不足提供臨床適用的診斷策略。此外,CDTA還可用于探索診斷策略(例如多個試驗的聯合)的準確性[9]。例如,在青光眼的診斷中,倍頻視野技術和光學相干斷層掃描的靈敏度和特異度均無統計學差異,但二者聯用的靈敏度和特異度明顯高于單項試驗[10]。

4 CDTA的研究設計
根據患者是否隨機分配到每種待評價試驗及是否接受多種待評價試驗,CDTA可分為5個基本研究設計類型:完全配對、具有隨機子集的部分配對、具有非隨機子集的部分配對、非配對隨機和非配對非隨機[11]。5種設計研究類型特征詳見表2。

5 CDTA的統計分析
CDTA的統計分析是對多個診斷性試驗準確性指標的絕對差值或相對比值進行統計學分析,常用的準確性指標包括靈敏度、特異度、似然比、優勢比、ROC曲線和AUC值等。根據診斷性試驗結果變量類型,可分為二分類資料、等級資料和連續型資料3種情況。二分類資料通過四格表的形式呈現,除可通過計算準確性指標的絕對差值或相對比值比較診斷準確性外,還可通過對它們的差異進行參數估計或是假設檢驗來比較;等級資料或連續型資料可通過對2種或多種診斷性試驗的ROC曲線或者AUC值進行假設檢驗來獲知診斷準確性之間的差異。需要注意的是,在選擇統計量時需要考慮所選統計量在臨床決策中的可解釋性,例如,靈敏度和假陽性率的絕對差值比它們的相對比值要更容易解釋[12]。此外,由于信息丟失、人為失誤及設備缺陷等問題會導致數據缺失的出現,這種情況通常可通過數據刪除或數據插補的方法來處理。數據刪除是指刪除掉包含缺失值的所有信息,但是這可能會產生選擇性偏倚。數據填補是用對數據可用信息的估計值替換缺失值,通常可通過隨機缺失法、最差值法和無信息結轉法等方法來對二分類型數據進行數據填補;針對連續型數據的數據填補則可通過均值插補法、隨機插補法、回歸插補法、多重插補法等方法來完成[13-14]。
6 CDTA的現狀與挑戰
計算機檢索Web of Science核心數據集(SCI和SSCI庫)上發表的CDTA研究數量,結果發現從1990年開始,CDTA相關研究數量急劇增加,說明對診斷性試驗準確性的比較很早就引起了研究人員的重視。CDTA相關研究在Web of Science的年份發文量見圖2。其中,加利福尼亞大學、哈佛大學、倫敦大學在CDTA相關研究中貢獻較大數量。放射學、核醫學與醫學影像學,生物化學與生物分子學和神經科學與神經病學三者所占相關研究方向總量的比例超過20%。CDTA相關研究發文數量前5位的出版物是:Journal of Clinical Microbiology、PLoS One、Radiology、American Journal of Roentgenology和European Radiology。第1篇可開放獲取的CDTA文章由Malone等[15]于1980年發表,該研究介紹了通過多普勒眶上檢查和眼球體積描記法,檢測在血管造影術前患者頸內動脈在血流動力學方面是否存在顯著病變,研究結果發現雖然2種方法在有癥狀的腦血管病患者中的使用價值很小,但在篩查無癥狀頸動脈狹窄或非典型腦血管癥狀的患者中具有非常重要的診斷價值。

計算機檢索CNKI上中國發表的CDTA相關研究,結果顯示CDTA在國內研究中的應用主要集中于腫瘤學、婦產科學和兒科學等臨床學科,及心血管系統疾病、內分泌腺及全身性疾病和感染性疾病及傳染病等疾病領域。其中,被引用次數最多的研究為黃一寧等[16]1997年用多譜勒探頭檢查顱腦和頸部大動脈的血流速度,然后做數字減影血管造影,以比較診斷頸部和顱內血管狹窄的準確性。但該研究僅限于針對閉塞性腦血管病的單個待評價診斷(多譜勒探頭)與金標準(腦血管造影)診斷準確性的比較。此外,在診斷準確性研究報告規范(standards for reporting diagnostic accuracy studies,STARD)發布之后,診斷準確性研究的報告質量得到了顯著提升,但國內研究的報告仍存在一定程度的不足,例如絕大多數研究未報告待評價診斷性試驗與參考標準診斷的時間間隔有多長,未使用流程圖來說明研究設計和研究對象診斷流程等[17-19]。因此,在未來的研究報告過程中研究者仍然需要注意與STARD相結合規范報告診斷性研究,同時也要盡快開發出針對多個診斷性試驗準確性研究的報告規范。
在理想狀態下,所有比較診斷性試驗準確性的系統評價和Meta分析應只納入配對設計的診斷性試驗[20]。但是,如果只納入配對設計的診斷研究,將非配對設計的診斷研究排除,系統評價的代表性和檢驗效能下降,最終導致系統評價結論存在較大偏倚。由于CDTA在衛生技術評估和臨床實踐制定過程中的作用越來越大,但是它的研究設計具有復雜性,需要有清晰而完整的報告,Takwoingi等[21]在2020年發表的文章中通過擴充PRISMA-DTA條目提供了CDTA系統評價和Meta分析的報告指南以促進提高報告質量,同行評審或者期刊在審稿過程中也可用該指南來評價CDTA的系統評價和Meta分析。此外,也需要用QUADAS-C工具來評估CDTA研究的方法學質量[21]。Yang等[22]在2021年開發了QUADAS-C工具,可用于評價多個診斷性試驗準確性比較研究的偏倚風險。作為QUADAS-2的擴展版,QUADAS-C評價領域與QUADAS-2相同,均為病例選擇、待評價試驗、金標準、病例流程和進展情況,但QUADAS-C工具在這4個領域共增加了14個標志性問題,而且,QUADAS-C工具需與QUADAS-2工具結合使用。研究人員在設計CDTA時也可使用此工具來識別和避免偏倚風險。此外,同樣可使用GRADE對CDTA結果進行證據分級,按照5個領域(① 偏倚風險;② 間接性;③ 不一致性;④ 不精確性;⑤ 發表偏倚)來對證據級別進行升級或降級。Yang等[23]在2021年發表的GRADE指南系列文章中介紹了如何對CDTA中每個證據領域進行GRADE評級。因此,國內研究者在進行CDTA研究時,需要注意研究設計、實施等環節與相關方法學的緊密結合以提高研究質量。
當然,在對診斷性試驗準確性進行比較時也存在著一定的困難和挑戰。首先,在對多種方法的診斷準確性進行比較時,要綜合考慮各方面因素,避免各指標的不足[24],所選統計量需要與臨床使用中如何解釋及做決策時所需的信息相匹配。其次,在研究實施過程中,若患者選擇、樣本量計算、參考標準確定等方面存在偏倚風險的可能,那么試驗間準確性比較的結果也存在偏倚[9],因此,選擇合適的研究設計是開展試驗的基礎,在實施過程中應盡可能減少偏倚的產生,為試驗結果的準確性提供保障[4,25]。再次,根據研究問題的不同,必須使用不同的分析技術(例如多變量回歸)來評估診斷性試驗是否能夠實現其預期的臨床作用[26-27]。值得注意的是,在CDTA中,受試者可能會接受不必要的診斷或治療,但患者的結局指標并沒有得到改善,從而增加了患者個體的醫療風險和衛生費用。例如,雖然斷層掃描成像在診斷肺栓塞方面比平面成像有更高的準確性,并且會檢測到更多或更小的小栓塞,但對患有輕微肺栓塞疾病的患者不合理使用抗凝劑會導致不良事件的增加,而沒有實際的臨床意義[28-29]。因此,在試驗A準確性更高于試驗B的情況下,還必須考慮試驗A的安全性。
7 總結
準確性反映了診斷性試驗的診斷價值,而準確有效的診斷是做出臨床決策的基礎。比較多個診斷性試驗準確性有助于選擇出準確性較高的診斷方式,對臨床工作有著重要意義。本文介紹了CDTA的概念,比較了其與SDTA的差異,對 CDTA的作用、研究設計、統計分析進行了簡單闡述,介紹了CDTA的發表情況及部分方法學現況,并且分析了CDTA目前存在的挑戰。