如何在臨床疾病診斷和篩查中選擇最佳的診斷性試驗,一直是臨床醫師和診斷性試驗系統評價者面臨的難題,同時也成為診斷性試驗系統評價/Meta 分析發展的新機遇和挑戰。網狀 Meta 分析在干預類系統評價中已得到廣泛應用,可實現不同干預措施之間療效的比較和排序,從而篩選出最有效的干預措施。基于共同的參考標準或金標準,在診斷性試驗 Meta 分析中引入網狀 Meta 分析的方法,可解決多種診斷技術選擇難的問題。本文重點介紹了 4 種實現診斷性試驗準確性網狀 Meta 分析的方法,探討了 2 種診斷性試驗準確性網狀 Meta 分析概率排序的方法,以期為今后擬進行診斷性試驗準確性網狀 Meta 分析的研究者提供參考。
引用本文: 吳景玲, 葛龍, 張俊華, 周建國, 高亞, 馬雪妮, 李戟玭, 藺小艷, 田金徽. 多個診斷性試驗準確性的比較:網狀 Meta 分析方法介紹. 中國循證醫學雜志, 2017, 17(8): 987-992. doi: 10.7507/1672-2531.201706041 復制
疾病的正確診斷是臨床實踐的基礎,只有正確的診斷,才能保證有效的干預。然而在臨床實踐過程中,如何在眾多的診斷性試驗中選擇最佳診斷技術,一直是臨床醫師和診斷性試驗系統評價者面臨的難題,同時也成為診斷性試驗系統評價/Meta 分析發展的新機遇和新挑戰。間接比較的方法可在直接比較研究證據不足或不一定存在的情況下,“借助”已開展的其他處理因素的相關臨床試驗和證據來實現不同治療措施間療效差異的間接比較[1]。目前間接比較方法在干預類系統評價/Meta 分析中已得到廣泛應用。然而,僅有少量診斷性試驗系統評價/Meta 分析提及并使用了間接比較的方法[2-4]。
本文在整合目前已使用的可實現診斷性試驗間接比較 Meta 分析方法的基礎上,全面地介紹在診斷性試驗準確性 Meta 分析中實現間接比較的方法。
1 診斷性試驗 Meta 分析間接比較的定義
新診斷性試驗應用于臨床診斷之前,需要與既往的金標準或參考標準進行對比,以評價新診斷性試驗的診斷價值。假定我們期望比較診斷性試驗 A 和診斷性試驗 B 的診斷價值,然而目前尚無二者之間直接比較的研究,僅有他們與共同的金標準或參考標準 C比較的試驗。與干預類間接比較方法相似,在診斷性試驗 A vs. C 和 B vs. C 具有足夠相似性,且不存在閾值效應的前提下,可以通過共同的參考標準 C 實現診斷性試驗 A 和 B 診斷性能間接比較(圖 1)。由此,診斷性試驗的間接比較 Meta 分析可被定義為在被比較的診斷性試驗間基線特征足夠相似且不存在閾值效應的前提下,基于共同的金標準或參考標準,對不存在直接比較的多個診斷性試驗進行比較的 Meta 分析[5]。

2 診斷性試驗準確性間接比較的 Meta 分析方法
本研究以楊品等[6]最近發表的論文為數據來源(表 1),該研究將病理診斷作為共同的金標準,比較 PET/CT、增強 CT 和兩者結合對胰腺癌的診斷價值。

2.1 網狀圖的繪制
如圖 2 所示,節點的大小表示每個診斷性試驗納入研究數量,節點之間連線粗細表示兩種診斷性試驗之間直接比較的研究數量,閉合環表示同一研究中同時比較的診斷性試驗。

2.2 SROC 曲線法
劉關鍵等[7]于 2003 年在國內介紹了如何將多個獨立的診斷性試驗合并為 SROC 曲線的理論和方法。SROC 曲線同時兼顧了敏感度和特異度,綜合反映了診斷性試驗對目標疾病的診斷價值。目前 RevMan 軟件中診斷性試驗模塊的“Multiple tests analysis”可實現在同一個圖形中呈現多個診斷性試驗的 SROC 曲線圖,通過觀察不同 SROC 曲線下面積比較各診斷性試驗的準確性。如圖 3 可知,PET/CT、增強 CT 和 PET/CT 聯合增強 CT 診斷胰腺癌的 SROC 曲線下面積排序為 PET/CT 聯合增強 CT>PET/CT>增強 CT,可以得知 PET/CT 聯合增強 CT 的診斷準確性最高。然而,該軟件并不能提供 SROC 曲線下面積值和可信區間,只能進行描述性分析,不能定量比較各診斷性試驗的準確性。

2.3 計算診斷準確性指標的相對比值
2.3.1 Meta 回歸方法 干預類間接比較中計算出來的效應量實際上是各效應量之間的相對比值,同時我們可通過計算診斷性試驗準確性指標的相對比值從而實現診斷性試驗的間接比較。
通過診斷性試驗Meta 回歸分析方法可計算診斷比值比(diagnostic odds ratio,DOR)的相對比值。目前可用于實現診斷性試驗 Meta 回歸的軟件有 STATA、Meta-Disc 和 R 等軟件,本文主要介紹利用 Meta-Disc 軟件行 Meta 回歸分析實現診斷性試驗間接比較 Meta 分析的方法和步驟。
將不同的診斷性試驗視為協變量,此時需要注意的是只能對協變量進行兩兩分析,可使用“Analyze”菜單下的“Filter Studies...”選擇擬進行計算的兩組試驗。然后使用 Meta-Disc 軟件中的“Meta-regression...”功能即可計算出相對診斷比值比(relative diagnostic odds ratio,RDOR)。可通過“Analyze”菜單下的“Options...”中“Model estimation method”設置兩診斷性試驗對 RDOR 值的權重貢獻。在軟件默認狀態下,RDOR 值是以效應量的大小為權重來進行計算的。PET/CT、增強 CT 和 PET/CT 聯合增強 CT 進行排列組合后有 3 個比較組,三組兩兩比較的結果見圖 4。顯而易見,通過 Meta-Disc 計算出來的 RDOR 值帶有可信區間和 P 值,可對兩種診斷性試驗的 RDOR 值進行定量比較;然而,該方法較為繁瑣。

2.3.2 診斷性試驗 Meta 分析的調整間接比較 上世紀 90 年代提出原始間接比較的概念,即通過搜集某一治療措施的所有治療人數和治療結果數,進行合并,然后對不同的治療措施結果進行比較。然而該方法因破壞了隨機對照試驗的隨機性,會對結果產生較大偏倚,而不被推薦。調整間接比較是基于直接比較 Meta 分析結果之上,通過共同的對照措施,比較兩組 Meta 分析的合并結果,進而得出間接比較的結果。在干預類調整間接比較中,利用各效應量的對數值之間存在矢量傳遞效應這一原理,從而實現調整間接比較的結果。本研究參照干預類調整間接比較,提出診斷性試驗 Meta 分析間接比較的方法。
在診斷性試驗中,主要的診斷準確性指標有敏感度(SEN)、特異度(SPE)、似然比(LR)、診斷比值比(DOR)、AUSROC 和 Q* 值等。假定存在診斷性試驗 A 和參考標準 C 直接比較的合并診斷比值比為 DORAC,診斷性試驗 B 與參考標準 C 直接比較的合并診斷比值比為 DORBC,那么診斷性試驗 A 與診斷性試驗 B 之間的相對診斷比值比即為 RDORAB。將診斷指標看作比值比(OR)進行處理,計算各診斷指標比值比的對數值和標準誤,采用 STATA 軟件的 Indirect Meta Analysis 命令、ITC 軟件、R 軟件、WinBUGS 軟件和 Excel 軟件編寫公式均可計算出診斷指標的相對比值及其可信區間,而干預類調整間接比較的概率排序方法也相應適用。本文采用 R 軟件的 “netmeta” 安裝包實現 PET/CT、增強 CT 和 PET/CT 聯合增強 CT 之間兩兩比較的 RDOR 結果,提示 PET/CT 聯合增強 CT 的診斷準確性最高,P-Score 排序結果亦顯示 PET/CT 聯合增強 CT 成為最好診斷性試驗的可能性最大,如圖 5 所示。

2.3.3 ANOVA 模型實現診斷性試驗準確性的網狀 Meta 分析 Nyaga 等[5]設計了 ANOVA 模型來實現診斷性試驗準確性的貝葉斯網狀 Meta 分析,其核心思想是通過計算診斷準確性指標的相對比值來比較不同診斷性試驗的準確性。該方法需要使用 Stan 程序[8],主要基于雙向 ANOVA 模型,使用兩個獨立的二項分布描述患者和健康受試者的真陽性和真陰性,同時考慮了敏感度和特異度之間的關聯性。假設存在 K 個待評價試驗和 I 個研究。在某一個研究 i 中,(Yi1k,Yi2k)分別指真陽性和真陰性,(Ni1k,Ni2k)為患者和健康受試者,(πi1k,πi2k)分別為“未觀察到的”敏感度和特異度,描述患者和健康受試者之間的真陽性和真陰性的二項分布如下:
![]() |
其中 xi 指影響 πijk 的協變量。
我們使用該方法計算以上三種診斷技術的診斷準確性,結果見表 2。該方法可以提供相對敏感度(RSEN)、相對特異度(RSPE)和診斷性試驗排序結果(Superiority Index,優勢指數)。表 2 結果提示 PET/CT 聯合增強 CT 排序第一,診斷準確性較其他兩種技術更高。

2.4 多個診斷性試驗的網狀 Meta 分析排序
網狀 Meta 分析的優勢之一是可對干預措施進行排序,方法主要包括排序概率(rank probabilities)、秩圖(rank ograms)、累積排序概率曲線下面積(SUCRA)和 P-Score 評分等,本文主要介紹兩種可用于診斷性試驗準確性網狀 Meta 分析排序的方法:
2.4.1 基于 DOR 值進行排序 DOR 值是判斷試驗辨別疾病能力的一個指標,是指病例組中試驗陽性的比值(真陽性率與假陰性率之比)與對照組中試驗陽性的比值(假陽性率與真陰性率之比),其計算公式如下:
![]() |
DOR 的取值范圍為 0→∞,DOR 值越大,提示診斷性試驗的診斷性能越好,辨別疾病的能力越強[9]。因此,可基于 DOR 值的大小對診斷性試驗進行排序,也可采用干預類網狀 Meta 分析方法,基于頻率學 P-Score 進行排序,如圖 5。然而 DOR 值不能兼顧敏感度和特異度,對高敏感度、低特異度或低敏感度、高特異度的診斷性試驗不能辨別。
2.4.2 基于優勢指數(Superiority Index)進行排序 Deutsch 等[10]介紹了一種定量評價診斷性試驗相對優越性的方法——優勢指數,其計算方法為:
![]() |
S 為優勢指數,a 為具有較高敏感度和特異度的診斷性試驗數量,b 為具有較低敏感度和特異度的診斷性試驗數量,c 為敏感度和特異度相同的診斷性試驗數量。S 的取值范圍為 0→∞,S 越趨近于 ∞,提示該診斷性試驗排序越靠前;S 越趨近于 0,提示該診斷性試驗排序越靠后;S 趨近于 1,提示診斷性試驗之間無差異。對于不可比的診斷性試驗(如診斷性試驗 X 的 SENX>SENY,SPEX<SPEY)不納入進行計算。ANOVA 模型中已經添加了 S 的計算模塊。三種診斷技術的排序值如表 2。
3 小結
隨著診斷性試驗技術的發展,越來越多的診斷技術被應用于臨床,勢必會對臨床醫生決策和診斷帶來巨大的挑戰。在診斷性試驗中引入網狀 Meta 分析的方法,可協助臨床醫師對多種診斷技術進行選擇。結合目前已發表的診斷性試驗 Meta 分析和網狀 Meta 分析在干預類 Meta 分析中的應用,本文介紹了 4 種可以實現診斷性試驗網狀 Meta 分析的方法:繪制 SROC 曲線、Meta 回歸分析、調整間接比較和 ANOVA 模型;同時介紹了 2 種用于診斷性試驗網狀 Meta 分析排序的方法。然而,目前診斷性試驗網狀 Meta 分析的方法學尚不成熟,仍存諸多的方法學問題[11],比如:納入各研究之間的相似性如何檢驗、相較于其它診斷模型的優劣如何、一致性判斷的問題,基于優勢指數排序的準確性和精準度的問題,診斷性試驗網狀 Meta 分析的軟件有待開發,以及探討診斷性試驗間接比較的閾值效應等,尚需更多的后續研究。
疾病的正確診斷是臨床實踐的基礎,只有正確的診斷,才能保證有效的干預。然而在臨床實踐過程中,如何在眾多的診斷性試驗中選擇最佳診斷技術,一直是臨床醫師和診斷性試驗系統評價者面臨的難題,同時也成為診斷性試驗系統評價/Meta 分析發展的新機遇和新挑戰。間接比較的方法可在直接比較研究證據不足或不一定存在的情況下,“借助”已開展的其他處理因素的相關臨床試驗和證據來實現不同治療措施間療效差異的間接比較[1]。目前間接比較方法在干預類系統評價/Meta 分析中已得到廣泛應用。然而,僅有少量診斷性試驗系統評價/Meta 分析提及并使用了間接比較的方法[2-4]。
本文在整合目前已使用的可實現診斷性試驗間接比較 Meta 分析方法的基礎上,全面地介紹在診斷性試驗準確性 Meta 分析中實現間接比較的方法。
1 診斷性試驗 Meta 分析間接比較的定義
新診斷性試驗應用于臨床診斷之前,需要與既往的金標準或參考標準進行對比,以評價新診斷性試驗的診斷價值。假定我們期望比較診斷性試驗 A 和診斷性試驗 B 的診斷價值,然而目前尚無二者之間直接比較的研究,僅有他們與共同的金標準或參考標準 C比較的試驗。與干預類間接比較方法相似,在診斷性試驗 A vs. C 和 B vs. C 具有足夠相似性,且不存在閾值效應的前提下,可以通過共同的參考標準 C 實現診斷性試驗 A 和 B 診斷性能間接比較(圖 1)。由此,診斷性試驗的間接比較 Meta 分析可被定義為在被比較的診斷性試驗間基線特征足夠相似且不存在閾值效應的前提下,基于共同的金標準或參考標準,對不存在直接比較的多個診斷性試驗進行比較的 Meta 分析[5]。

2 診斷性試驗準確性間接比較的 Meta 分析方法
本研究以楊品等[6]最近發表的論文為數據來源(表 1),該研究將病理診斷作為共同的金標準,比較 PET/CT、增強 CT 和兩者結合對胰腺癌的診斷價值。

2.1 網狀圖的繪制
如圖 2 所示,節點的大小表示每個診斷性試驗納入研究數量,節點之間連線粗細表示兩種診斷性試驗之間直接比較的研究數量,閉合環表示同一研究中同時比較的診斷性試驗。

2.2 SROC 曲線法
劉關鍵等[7]于 2003 年在國內介紹了如何將多個獨立的診斷性試驗合并為 SROC 曲線的理論和方法。SROC 曲線同時兼顧了敏感度和特異度,綜合反映了診斷性試驗對目標疾病的診斷價值。目前 RevMan 軟件中診斷性試驗模塊的“Multiple tests analysis”可實現在同一個圖形中呈現多個診斷性試驗的 SROC 曲線圖,通過觀察不同 SROC 曲線下面積比較各診斷性試驗的準確性。如圖 3 可知,PET/CT、增強 CT 和 PET/CT 聯合增強 CT 診斷胰腺癌的 SROC 曲線下面積排序為 PET/CT 聯合增強 CT>PET/CT>增強 CT,可以得知 PET/CT 聯合增強 CT 的診斷準確性最高。然而,該軟件并不能提供 SROC 曲線下面積值和可信區間,只能進行描述性分析,不能定量比較各診斷性試驗的準確性。

2.3 計算診斷準確性指標的相對比值
2.3.1 Meta 回歸方法 干預類間接比較中計算出來的效應量實際上是各效應量之間的相對比值,同時我們可通過計算診斷性試驗準確性指標的相對比值從而實現診斷性試驗的間接比較。
通過診斷性試驗Meta 回歸分析方法可計算診斷比值比(diagnostic odds ratio,DOR)的相對比值。目前可用于實現診斷性試驗 Meta 回歸的軟件有 STATA、Meta-Disc 和 R 等軟件,本文主要介紹利用 Meta-Disc 軟件行 Meta 回歸分析實現診斷性試驗間接比較 Meta 分析的方法和步驟。
將不同的診斷性試驗視為協變量,此時需要注意的是只能對協變量進行兩兩分析,可使用“Analyze”菜單下的“Filter Studies...”選擇擬進行計算的兩組試驗。然后使用 Meta-Disc 軟件中的“Meta-regression...”功能即可計算出相對診斷比值比(relative diagnostic odds ratio,RDOR)。可通過“Analyze”菜單下的“Options...”中“Model estimation method”設置兩診斷性試驗對 RDOR 值的權重貢獻。在軟件默認狀態下,RDOR 值是以效應量的大小為權重來進行計算的。PET/CT、增強 CT 和 PET/CT 聯合增強 CT 進行排列組合后有 3 個比較組,三組兩兩比較的結果見圖 4。顯而易見,通過 Meta-Disc 計算出來的 RDOR 值帶有可信區間和 P 值,可對兩種診斷性試驗的 RDOR 值進行定量比較;然而,該方法較為繁瑣。

2.3.2 診斷性試驗 Meta 分析的調整間接比較 上世紀 90 年代提出原始間接比較的概念,即通過搜集某一治療措施的所有治療人數和治療結果數,進行合并,然后對不同的治療措施結果進行比較。然而該方法因破壞了隨機對照試驗的隨機性,會對結果產生較大偏倚,而不被推薦。調整間接比較是基于直接比較 Meta 分析結果之上,通過共同的對照措施,比較兩組 Meta 分析的合并結果,進而得出間接比較的結果。在干預類調整間接比較中,利用各效應量的對數值之間存在矢量傳遞效應這一原理,從而實現調整間接比較的結果。本研究參照干預類調整間接比較,提出診斷性試驗 Meta 分析間接比較的方法。
在診斷性試驗中,主要的診斷準確性指標有敏感度(SEN)、特異度(SPE)、似然比(LR)、診斷比值比(DOR)、AUSROC 和 Q* 值等。假定存在診斷性試驗 A 和參考標準 C 直接比較的合并診斷比值比為 DORAC,診斷性試驗 B 與參考標準 C 直接比較的合并診斷比值比為 DORBC,那么診斷性試驗 A 與診斷性試驗 B 之間的相對診斷比值比即為 RDORAB。將診斷指標看作比值比(OR)進行處理,計算各診斷指標比值比的對數值和標準誤,采用 STATA 軟件的 Indirect Meta Analysis 命令、ITC 軟件、R 軟件、WinBUGS 軟件和 Excel 軟件編寫公式均可計算出診斷指標的相對比值及其可信區間,而干預類調整間接比較的概率排序方法也相應適用。本文采用 R 軟件的 “netmeta” 安裝包實現 PET/CT、增強 CT 和 PET/CT 聯合增強 CT 之間兩兩比較的 RDOR 結果,提示 PET/CT 聯合增強 CT 的診斷準確性最高,P-Score 排序結果亦顯示 PET/CT 聯合增強 CT 成為最好診斷性試驗的可能性最大,如圖 5 所示。

2.3.3 ANOVA 模型實現診斷性試驗準確性的網狀 Meta 分析 Nyaga 等[5]設計了 ANOVA 模型來實現診斷性試驗準確性的貝葉斯網狀 Meta 分析,其核心思想是通過計算診斷準確性指標的相對比值來比較不同診斷性試驗的準確性。該方法需要使用 Stan 程序[8],主要基于雙向 ANOVA 模型,使用兩個獨立的二項分布描述患者和健康受試者的真陽性和真陰性,同時考慮了敏感度和特異度之間的關聯性。假設存在 K 個待評價試驗和 I 個研究。在某一個研究 i 中,(Yi1k,Yi2k)分別指真陽性和真陰性,(Ni1k,Ni2k)為患者和健康受試者,(πi1k,πi2k)分別為“未觀察到的”敏感度和特異度,描述患者和健康受試者之間的真陽性和真陰性的二項分布如下:
![]() |
其中 xi 指影響 πijk 的協變量。
我們使用該方法計算以上三種診斷技術的診斷準確性,結果見表 2。該方法可以提供相對敏感度(RSEN)、相對特異度(RSPE)和診斷性試驗排序結果(Superiority Index,優勢指數)。表 2 結果提示 PET/CT 聯合增強 CT 排序第一,診斷準確性較其他兩種技術更高。

2.4 多個診斷性試驗的網狀 Meta 分析排序
網狀 Meta 分析的優勢之一是可對干預措施進行排序,方法主要包括排序概率(rank probabilities)、秩圖(rank ograms)、累積排序概率曲線下面積(SUCRA)和 P-Score 評分等,本文主要介紹兩種可用于診斷性試驗準確性網狀 Meta 分析排序的方法:
2.4.1 基于 DOR 值進行排序 DOR 值是判斷試驗辨別疾病能力的一個指標,是指病例組中試驗陽性的比值(真陽性率與假陰性率之比)與對照組中試驗陽性的比值(假陽性率與真陰性率之比),其計算公式如下:
![]() |
DOR 的取值范圍為 0→∞,DOR 值越大,提示診斷性試驗的診斷性能越好,辨別疾病的能力越強[9]。因此,可基于 DOR 值的大小對診斷性試驗進行排序,也可采用干預類網狀 Meta 分析方法,基于頻率學 P-Score 進行排序,如圖 5。然而 DOR 值不能兼顧敏感度和特異度,對高敏感度、低特異度或低敏感度、高特異度的診斷性試驗不能辨別。
2.4.2 基于優勢指數(Superiority Index)進行排序 Deutsch 等[10]介紹了一種定量評價診斷性試驗相對優越性的方法——優勢指數,其計算方法為:
![]() |
S 為優勢指數,a 為具有較高敏感度和特異度的診斷性試驗數量,b 為具有較低敏感度和特異度的診斷性試驗數量,c 為敏感度和特異度相同的診斷性試驗數量。S 的取值范圍為 0→∞,S 越趨近于 ∞,提示該診斷性試驗排序越靠前;S 越趨近于 0,提示該診斷性試驗排序越靠后;S 趨近于 1,提示診斷性試驗之間無差異。對于不可比的診斷性試驗(如診斷性試驗 X 的 SENX>SENY,SPEX<SPEY)不納入進行計算。ANOVA 模型中已經添加了 S 的計算模塊。三種診斷技術的排序值如表 2。
3 小結
隨著診斷性試驗技術的發展,越來越多的診斷技術被應用于臨床,勢必會對臨床醫生決策和診斷帶來巨大的挑戰。在診斷性試驗中引入網狀 Meta 分析的方法,可協助臨床醫師對多種診斷技術進行選擇。結合目前已發表的診斷性試驗 Meta 分析和網狀 Meta 分析在干預類 Meta 分析中的應用,本文介紹了 4 種可以實現診斷性試驗網狀 Meta 分析的方法:繪制 SROC 曲線、Meta 回歸分析、調整間接比較和 ANOVA 模型;同時介紹了 2 種用于診斷性試驗網狀 Meta 分析排序的方法。然而,目前診斷性試驗網狀 Meta 分析的方法學尚不成熟,仍存諸多的方法學問題[11],比如:納入各研究之間的相似性如何檢驗、相較于其它診斷模型的優劣如何、一致性判斷的問題,基于優勢指數排序的準確性和精準度的問題,診斷性試驗網狀 Meta 分析的軟件有待開發,以及探討診斷性試驗間接比較的閾值效應等,尚需更多的后續研究。