診斷試驗準確性比較(CDTA)研究是診斷準確性試驗的一種,旨在同一診斷試驗研究中比較2個及以上診斷試驗的準確性。CDTA系統評價的GRADE證據確信度分級與單個診斷試驗準確性系統評價不同,主要體現在研究設計的選擇、偏倚風險的評估及試驗準確性比較指標的使用等方面。本文重點介紹GRADE分級方法應用于CDTA系統評價的基本原理和方法,以促進國內學者對該方法的理解與應用。
引用本文: 陸瑤, 楊秋玉, 賴鴻皓, 田晨, 陳耀龍, 田金徽, 李霓, 李江, 葛龍. 診斷試驗準確性比較研究系統評價的證據分級. 中國循證醫學雜志, 2022, 22(10): 1233-1240. doi: 10.7507/1672-2531.202206039 復制
診斷試驗準確性比較(comparative diagnostic test accuracy,CDTA)研究是在同一診斷試驗研究中比較2個及以上診斷試驗準確性[1-2]。CDTA研究是診斷試驗準確性(diagnostic test accuracy,DTA)研究的一種,對確定最佳診斷路徑及后續治療起關鍵作用[3]。CDTA系統評價是運用有效方法綜合并評估原始研究證據,使決策制定者能從多個待評價試驗中選擇當前最佳診斷性試驗,為臨床決策提供支持[4-7]。建議評估、制定和評價的分級(grading of recommendations assessment,development and evaluation,GRADE)證據分級體系常應用于系統評價,該體系綜合評估了總的證據質量,有助于系統評價的使用者準確理解及應用系統評價提供的證據[8-11]。本文結合GRADE工作組發表的最新指南[12],重點介紹GRADE在CDTA系統評價中應用的原理、方法,以期為國內CDTA系統評價的證據分級提供參考。本研究系列前期已經介紹了CDTA研究的概述和研究設計[13-14],讀者可查閱相關文獻。
1 分級原理
理想的CDTA系統評價應僅納入CDTA研究,但多數領域CDTA研究較少,因此目前CDTA系統評價證據可由直接證據(比較了不同待評價試驗的準確性的CDTA研究)或間接證據(來源于不同待評價試驗的單個DTA研究)組成[1,3,6](圖1)。

CDTA系統評價與DTA系統評價證據分級標準基本相同[15-17]。主要考慮5個降級因素(偏倚風險、間接性、不一致性、不精確性和發表偏倚)和3個升級因素(劑量效應、大效應量、其他殘余的偏倚和混雜因素)對證據體進行升降級。在證據質量(后稱“確信度”)等級方面,分為高、中、低和極低四個確信度等級。
與單個DTA系統評價不同,CDTA系統評價證據確信度評估需額外考慮研究設計、偏倚風險評估以及CDTA中使用的指標。無論CDTA系統評價納入的診斷學試驗研究是何種設計,起始證據確信度均為高。對于CDTA研究來說,完全配對設計(對受試者進行連續或隨機抽樣且每位參與者接受所有待評價試驗和金標準試驗)和隨機設計(受試者被隨機分配接受某一種待評價試驗且均接受金標準試驗)是較為理想的研究設計,可以降低偏倚的發生[2]。而非隨機子集部分配對、非配對非隨機等研究設計雖然起始證據確信度為高,但其很可能因偏倚風險而降級[14]。CDTA系統評價會因納入研究的不同而選擇不同的偏倚風險評估工具,同時診斷試驗比較使用的指標包括絕對差異和相對差異(下文將詳細闡述)。證據分級前需設置閾值或范圍(后稱“閾值”)來幫助確定證據確信度等級,閾值主要可以通過最小背景化、部分背景化、完全背景化框架進行設定[18-20]。
2 GRADE證據分級升降級因素解讀
證據分級升降級因素見表1。

2.1 偏倚風險
QUADAS-2(quality assessment of diagnostic accuracy studies-2)適用于單個DTA研究的偏倚風險評估[5],QUADAS-C(quality assessment of diagnostic accuracy studies–comparative)工具適用于CDTA研究的偏倚風險評估[4]。QUADAS-C包括4個領域(病例選擇“P”、待評價試驗“I”、金標準“R”、病例流程和待評價試驗與金標準之間的時間間隔“FT”)和14個標志性問題。需要注意的是,QUADAS-C的使用需結合QUADAS-2。一般來說,如果4個領域均存在嚴重的偏倚風險,則可能降兩級,若僅在1~3個方面存在“不清楚”或“高”偏倚風險的情況,根據對結局指標影響是否嚴重,選擇降1級或不降級。
2.2 間接性
CDTA系統評價間接性的評估原則與DTA系統評價大致相同[16,24-25],包括4個方面:① 人群間接性:系統評價納入人群與關注人群之間存在不一致,如某個系統評價關注的是兒童,但是納入研究關注的是成人;② 待評價試驗的間接性和③比較試驗的間接性:當系統評價納入原始研究的診斷試驗與關注的診斷試驗在類型、臨床實施標準等方面不一致,此時均可因間接性降級;④ 結局的間接性:系統評價納入的原始研究的目標疾病或結局與關注的目標疾病或結局存在不一致,考慮降級。
2.3 不一致性
與干預性試驗、單個DTA系統評價相似,CDTA系統評價的不一致性評估主要基于點估計值的相似性、可信區間(confidence interval,CI)的重疊程度和統計學標準[17]。無論是不一致性的評估還是不精確性的評估,比較試驗準確性的結果輸出和閾值設置使用比較準確性指標更為恰當,一般用絕對差異和相對差異的指標來呈現(僅限于報告了特定截點值的待評價試驗),見框1。

相比于單個DTA系統評價,設置閾值在CDTA系統評價的證據呈現中愈顯重要[18-19,26-29]。最小背景化閾值設置將背景因素降至最低,不考慮價值判斷。一個設置的方法是依靠現有的95%CI,對精確性不評級,然而可能存在的問題是需在不精確性的結果中表達高確信度證據,因此使用該方法時需謹慎。另一個設置的方法是使用無效閾值,如rsens≠1,rspec≠1;部分背景化閾值的設置需考慮部分價值判斷,如對后續健康結果的影響。相關研究閾值可設置為:沒有或微弱差異、較小效應差異、中等效應差異、較大效應差異;完全背景化閾值的設置需考慮:所有重要結局、患者偏好價值觀、可行性等。該框架閾值的設置需全面權衡利弊,能支持是否對某診斷試驗做出推薦[19]。閾值設置可能的方法見表2。

總之,當一個CDTA系統評價在敏感度或特異度方面的點估計值相似性低,CI重疊度低,統計學結果顯示異質性大或效應量因異質性原因跨越了預先設置的閾值且沒有合理的解釋時,此時我們考慮降1級或2級。
2.4 不精確性
在DTA系統評價中,不精確性的判斷可根據CI的寬度、研究的樣本量來判斷[17]。在CDTA系統評價的研究中,不精確性的判斷可根據CI的寬度來判斷。CI是否過寬,取決于事先設定的閾值[18-19,26]。當效應量跨越了設置的閾值,考慮降級。但需要注意的是,如果CI過寬是由研究間異質性導致,那么只需在“不一致性”中降級,而不需要在“不精確性”中降級。以Monica文章[19]中使用的案例為例(比較HPV與VIA診斷CIN2-3級病變準確性的系統評價[30])。在該系統評價中,敏感度差異(difference in sensitivity,Dsens)為26%[95%CI(11%,41%)]。證據確信度以部分背景化框架為基礎。在敏感度方面,點估計值在較大效應差異范圍中(該文章設置的范圍為大于20%),但是95%CI卻跨越了中等效應差異(該文章設置的范圍為10%~20%)的邊界,因此在敏感度的不精確性評估方面考慮降級。
GRADE工作組建議還可考慮使用最佳信息樣本量(optimal information size,OIS)作為評估不精確性的標準[31],OIS是指有足夠檢驗效能的單個試驗所需病例數[32]。但GRADE工作組也提出,目前尚不清楚OIS是否適用于CDTA系統評價,有待進一步的方法學研究考證。
2.5 發表偏倚
目前關于CDTA研究發表偏倚的實證研究較少,GRADE工作組建議在進一步的研究之前使用DTA系統評價的發表偏倚方法來判斷發表偏倚[17],主要包括是否有利益沖突或接受廠商資助、灰色研究以及存在小樣本研究且顯示準確性存在巨大差異。目前研究人員判斷發表偏倚多使用漏斗圖法,如Egger’s檢驗[33],Begg’s檢驗[34]。有研究顯示,DTA系統評價的發表偏倚更適合使用Deeks’檢驗或者剪補法[35-37]。例如在使用剪補法時,當研究者去掉或者增補部分研究時,所得到效應量的變化并不明顯,說明發表偏倚影響較小,則考慮不降級。
2.6 升級因素
與DTA系統評價相似,CDTA系統評價同樣從三個方面考慮提高證據確信度[17]:一是大效應量,當方法學嚴謹的研究表明準確性差異顯著,這時考慮升級。但當研究者發現研究設計方面存在偏倚,需謹慎考慮升級;二是存在相反的偏倚和混雜因素,如果低估了待評價試驗的結局效應,此時考慮升級。如在不利于新試驗的情況下與現有試驗相比,新試驗仍表現出更好的準確性,此時考慮升級;三是劑量反應關系,但目前尚不清楚是否適用于CDTA系統評價。
3 研究間(間接)比較
間接比較評估的大部分領域是相同的,但需額外考慮研究的偏倚風險、間接性和不一致性。
3.1 偏倚風險
目前的QUADAS-C不適用于間接比較的評估。因此當評估偏倚風險時,可先使用QUADAS-2對單個診斷試驗準確研究進行評估,然后再從比較中選擇每個領域偏倚風險更高的評價結果作為最終比較準確性的偏倚風險評估。例如假設在一個比較磁共振成像(MRI)和磁共振關節造影(MRA)診斷肩關節盂唇損傷準確性的系統評價納入的原始研究中只納入了MRI/MRA相關的單個DTA。在評價偏倚風險時,使用QUADAS-2分別對多項MRI/MRA相關的單個DTA進行評估。假設在病例選擇領域,MRI相關研究評估的綜合結果為“Low”,而MRA相關研究評估的綜合結果為“High”,那么最終在病例選擇這個領域的偏倚風險則為“High”。
3.2 間接性
由于混雜因素(研究組人群特征、使用不同的金標準、診斷環境不同等問題)存在,研究間比較通常因為間接性降1級或者2級[16]。一般來說,當診斷試驗間在影響試驗準確性的因素方面足夠相似,則可降1級,如參與者從同一區域中抽樣,并使用相同的納入排除標準和金標準。反之,則降2級。
3.3 不一致性
在間接比較的不一致性評估中,需要更多方法學研究。GRADE工作組提出“兩步走”方式:第一步,先使用DTA的方法對單個待評價試驗進行不一致性評估[17];第二步,推斷二者及以上比較的不一致性。見圖2(僅為推斷,間接比較的不一致性評估需謹慎),假設1個待評價試驗的異質性大,另一個待評價試驗的異質性很小,那比較的評估存在不一致(圖2b)。如果兩個試驗都具有異質性,那比較的評估存在不一致(圖2d),除非影響兩個試驗異質性的因素足夠相似(圖2c)。
4 直接比較和間接比較的證據體
直接比較和間接比較證據的綜合需要更多方法學研究,GRADE工作組建議兩點:第一,獨立評估直接比較和間接比較證據確信度;第二,如果直接比較的證據確信度已經為高,那么不需再對間接比較進行評級;第三,如果直接比較的證據確信度是中等或更低,那么需評估間接比較的證據確信度,并從兩者中選擇證據確信度最高的一個(需要注意的是,間接比較因為存在間接性,最多是中等確信度證據)。
5 GRADE在CDTA系統評價中應用的實例解析
案例來自直接比較HPV與VIA診斷CIN2~3級病變準確性的系統評價[30]。證據概要表見表3。

5.1 偏倚風險
使用QUADAS-C工具對納入的5個研究進行評價。一個研究在“病例流程和待評價試驗與金標準之間的時間間隔”領域存在高偏倚風險,一個研究在“待評價試驗”和“金標準”領域偏倚風險均為不清楚(見圖3c),但敏感性分析的結果顯示,對準確性并無太大影響。因此綜合判斷該系統評價無嚴重的偏倚風險,對該領域偏倚風險不降級。

5.2 間接性
系統評價關注的人群為18歲及以上未懷孕的女性,來自中低收入國家且先前未被診斷為CIN或接受過相關治療(在篩查環境下)。關注的待評價診斷試驗或策略和比較診斷試驗或策略為HPV檢測(替代VIA)和VIA。關注的結局為診斷CIN2和CIN3的準確性(參考標準為陰道鏡)。
納入的文章顯示,研究與系統評價關注的人群基本一致,均納入低、中等收入國家的患者,但在2個研究中,患者因有疾病癥狀主動就診并接受檢查,并不屬于篩查人群,不確定對HPV和VIA的診斷準確性比較是否有影響。HPV和VIA的實施方法和臨床常規一致,所有研究的目標疾病都是CIN2-3。綜合判斷后對間接性方面不降級。
5.3 不一致性
敏感度和特異度差異的森林圖見圖3(灰色虛線代表閾值)。圖3a顯示,敏感度差異的95%CI重疊度低,且因為異質性的緣故跨越了預先設置的閾值。因此總體評估敏感度差異在不一致性方面降1級。特異度差異的降級因素與敏感度差異一致。
5.4 不精確性
敏感度差異合并效應值為[Dsens=0.26,95%CI(0.11,0.41)]。該值跨越了閾值(敏感度絕對增加至少為17%,特異度降低不超過10%),因此敏感度差異因不精確性降1級(圖3a)。特異度差異(difference in specificity,Dspec)合并效應值為[Dspec=?0.03,95%CI(?0.15,0.08)]。該值跨越了閾值,但過寬的CI可以由異質性解釋,且樣本量較大,為9 113例(圖3b)。因此綜合判斷特異度差異在不精確方面不降級。
5.5 發表偏倚
由于原始研究中沒有利益沖突,研究較少,因此未對發表偏倚進行檢驗。
6 展望
目前GRADE應用在CDTA系統評價中主要存在以下挑戰:① 偏倚風險方面:CDTA的偏倚風險評估工具目前使用的是QUADAS-C(QUADAS-2的擴展版)。該工具需要和QUADAS-2結合起來使用,且標志性問題較多,對于初學者來說在使用時可能存在困難。同時該工具目前并不適用于間接比較的偏倚風險評估。② 不精確性方面:不精確性的評估標準還有待完善,目前還不確定OIS是否適用于CDTA系統評價。③ 直接比較與間接比較:目前有關直接比較和間接比較的證據評估方法有待進一步完善。比如在證據綜合評估時除了考慮CDTA系統評價研究的組成以外,是否還考慮直接比較與間接比較的貢獻度大小或直接比較與間接比較的占比大小?另外目前與CDTA網狀Meta分析有關的GRADE方法學相關研究也比較少。
雖然當前GRADE分級在CDTA系統評價應用的相關方法學研究較少,但現有的理論方法仍能對CDTA系統評價的證據分級起到較大的作用。GRADE工作組接下來將進一步研究,相信隨著CDTA系統評價證據分級相關方法學質量的完善和提高,GRADE在CDTA系統評價上面的應用將逐漸成熟。
診斷試驗準確性比較(comparative diagnostic test accuracy,CDTA)研究是在同一診斷試驗研究中比較2個及以上診斷試驗準確性[1-2]。CDTA研究是診斷試驗準確性(diagnostic test accuracy,DTA)研究的一種,對確定最佳診斷路徑及后續治療起關鍵作用[3]。CDTA系統評價是運用有效方法綜合并評估原始研究證據,使決策制定者能從多個待評價試驗中選擇當前最佳診斷性試驗,為臨床決策提供支持[4-7]。建議評估、制定和評價的分級(grading of recommendations assessment,development and evaluation,GRADE)證據分級體系常應用于系統評價,該體系綜合評估了總的證據質量,有助于系統評價的使用者準確理解及應用系統評價提供的證據[8-11]。本文結合GRADE工作組發表的最新指南[12],重點介紹GRADE在CDTA系統評價中應用的原理、方法,以期為國內CDTA系統評價的證據分級提供參考。本研究系列前期已經介紹了CDTA研究的概述和研究設計[13-14],讀者可查閱相關文獻。
1 分級原理
理想的CDTA系統評價應僅納入CDTA研究,但多數領域CDTA研究較少,因此目前CDTA系統評價證據可由直接證據(比較了不同待評價試驗的準確性的CDTA研究)或間接證據(來源于不同待評價試驗的單個DTA研究)組成[1,3,6](圖1)。

CDTA系統評價與DTA系統評價證據分級標準基本相同[15-17]。主要考慮5個降級因素(偏倚風險、間接性、不一致性、不精確性和發表偏倚)和3個升級因素(劑量效應、大效應量、其他殘余的偏倚和混雜因素)對證據體進行升降級。在證據質量(后稱“確信度”)等級方面,分為高、中、低和極低四個確信度等級。
與單個DTA系統評價不同,CDTA系統評價證據確信度評估需額外考慮研究設計、偏倚風險評估以及CDTA中使用的指標。無論CDTA系統評價納入的診斷學試驗研究是何種設計,起始證據確信度均為高。對于CDTA研究來說,完全配對設計(對受試者進行連續或隨機抽樣且每位參與者接受所有待評價試驗和金標準試驗)和隨機設計(受試者被隨機分配接受某一種待評價試驗且均接受金標準試驗)是較為理想的研究設計,可以降低偏倚的發生[2]。而非隨機子集部分配對、非配對非隨機等研究設計雖然起始證據確信度為高,但其很可能因偏倚風險而降級[14]。CDTA系統評價會因納入研究的不同而選擇不同的偏倚風險評估工具,同時診斷試驗比較使用的指標包括絕對差異和相對差異(下文將詳細闡述)。證據分級前需設置閾值或范圍(后稱“閾值”)來幫助確定證據確信度等級,閾值主要可以通過最小背景化、部分背景化、完全背景化框架進行設定[18-20]。
2 GRADE證據分級升降級因素解讀
證據分級升降級因素見表1。

2.1 偏倚風險
QUADAS-2(quality assessment of diagnostic accuracy studies-2)適用于單個DTA研究的偏倚風險評估[5],QUADAS-C(quality assessment of diagnostic accuracy studies–comparative)工具適用于CDTA研究的偏倚風險評估[4]。QUADAS-C包括4個領域(病例選擇“P”、待評價試驗“I”、金標準“R”、病例流程和待評價試驗與金標準之間的時間間隔“FT”)和14個標志性問題。需要注意的是,QUADAS-C的使用需結合QUADAS-2。一般來說,如果4個領域均存在嚴重的偏倚風險,則可能降兩級,若僅在1~3個方面存在“不清楚”或“高”偏倚風險的情況,根據對結局指標影響是否嚴重,選擇降1級或不降級。
2.2 間接性
CDTA系統評價間接性的評估原則與DTA系統評價大致相同[16,24-25],包括4個方面:① 人群間接性:系統評價納入人群與關注人群之間存在不一致,如某個系統評價關注的是兒童,但是納入研究關注的是成人;② 待評價試驗的間接性和③比較試驗的間接性:當系統評價納入原始研究的診斷試驗與關注的診斷試驗在類型、臨床實施標準等方面不一致,此時均可因間接性降級;④ 結局的間接性:系統評價納入的原始研究的目標疾病或結局與關注的目標疾病或結局存在不一致,考慮降級。
2.3 不一致性
與干預性試驗、單個DTA系統評價相似,CDTA系統評價的不一致性評估主要基于點估計值的相似性、可信區間(confidence interval,CI)的重疊程度和統計學標準[17]。無論是不一致性的評估還是不精確性的評估,比較試驗準確性的結果輸出和閾值設置使用比較準確性指標更為恰當,一般用絕對差異和相對差異的指標來呈現(僅限于報告了特定截點值的待評價試驗),見框1。

相比于單個DTA系統評價,設置閾值在CDTA系統評價的證據呈現中愈顯重要[18-19,26-29]。最小背景化閾值設置將背景因素降至最低,不考慮價值判斷。一個設置的方法是依靠現有的95%CI,對精確性不評級,然而可能存在的問題是需在不精確性的結果中表達高確信度證據,因此使用該方法時需謹慎。另一個設置的方法是使用無效閾值,如rsens≠1,rspec≠1;部分背景化閾值的設置需考慮部分價值判斷,如對后續健康結果的影響。相關研究閾值可設置為:沒有或微弱差異、較小效應差異、中等效應差異、較大效應差異;完全背景化閾值的設置需考慮:所有重要結局、患者偏好價值觀、可行性等。該框架閾值的設置需全面權衡利弊,能支持是否對某診斷試驗做出推薦[19]。閾值設置可能的方法見表2。

總之,當一個CDTA系統評價在敏感度或特異度方面的點估計值相似性低,CI重疊度低,統計學結果顯示異質性大或效應量因異質性原因跨越了預先設置的閾值且沒有合理的解釋時,此時我們考慮降1級或2級。
2.4 不精確性
在DTA系統評價中,不精確性的判斷可根據CI的寬度、研究的樣本量來判斷[17]。在CDTA系統評價的研究中,不精確性的判斷可根據CI的寬度來判斷。CI是否過寬,取決于事先設定的閾值[18-19,26]。當效應量跨越了設置的閾值,考慮降級。但需要注意的是,如果CI過寬是由研究間異質性導致,那么只需在“不一致性”中降級,而不需要在“不精確性”中降級。以Monica文章[19]中使用的案例為例(比較HPV與VIA診斷CIN2-3級病變準確性的系統評價[30])。在該系統評價中,敏感度差異(difference in sensitivity,Dsens)為26%[95%CI(11%,41%)]。證據確信度以部分背景化框架為基礎。在敏感度方面,點估計值在較大效應差異范圍中(該文章設置的范圍為大于20%),但是95%CI卻跨越了中等效應差異(該文章設置的范圍為10%~20%)的邊界,因此在敏感度的不精確性評估方面考慮降級。
GRADE工作組建議還可考慮使用最佳信息樣本量(optimal information size,OIS)作為評估不精確性的標準[31],OIS是指有足夠檢驗效能的單個試驗所需病例數[32]。但GRADE工作組也提出,目前尚不清楚OIS是否適用于CDTA系統評價,有待進一步的方法學研究考證。
2.5 發表偏倚
目前關于CDTA研究發表偏倚的實證研究較少,GRADE工作組建議在進一步的研究之前使用DTA系統評價的發表偏倚方法來判斷發表偏倚[17],主要包括是否有利益沖突或接受廠商資助、灰色研究以及存在小樣本研究且顯示準確性存在巨大差異。目前研究人員判斷發表偏倚多使用漏斗圖法,如Egger’s檢驗[33],Begg’s檢驗[34]。有研究顯示,DTA系統評價的發表偏倚更適合使用Deeks’檢驗或者剪補法[35-37]。例如在使用剪補法時,當研究者去掉或者增補部分研究時,所得到效應量的變化并不明顯,說明發表偏倚影響較小,則考慮不降級。
2.6 升級因素
與DTA系統評價相似,CDTA系統評價同樣從三個方面考慮提高證據確信度[17]:一是大效應量,當方法學嚴謹的研究表明準確性差異顯著,這時考慮升級。但當研究者發現研究設計方面存在偏倚,需謹慎考慮升級;二是存在相反的偏倚和混雜因素,如果低估了待評價試驗的結局效應,此時考慮升級。如在不利于新試驗的情況下與現有試驗相比,新試驗仍表現出更好的準確性,此時考慮升級;三是劑量反應關系,但目前尚不清楚是否適用于CDTA系統評價。
3 研究間(間接)比較
間接比較評估的大部分領域是相同的,但需額外考慮研究的偏倚風險、間接性和不一致性。
3.1 偏倚風險
目前的QUADAS-C不適用于間接比較的評估。因此當評估偏倚風險時,可先使用QUADAS-2對單個診斷試驗準確研究進行評估,然后再從比較中選擇每個領域偏倚風險更高的評價結果作為最終比較準確性的偏倚風險評估。例如假設在一個比較磁共振成像(MRI)和磁共振關節造影(MRA)診斷肩關節盂唇損傷準確性的系統評價納入的原始研究中只納入了MRI/MRA相關的單個DTA。在評價偏倚風險時,使用QUADAS-2分別對多項MRI/MRA相關的單個DTA進行評估。假設在病例選擇領域,MRI相關研究評估的綜合結果為“Low”,而MRA相關研究評估的綜合結果為“High”,那么最終在病例選擇這個領域的偏倚風險則為“High”。
3.2 間接性
由于混雜因素(研究組人群特征、使用不同的金標準、診斷環境不同等問題)存在,研究間比較通常因為間接性降1級或者2級[16]。一般來說,當診斷試驗間在影響試驗準確性的因素方面足夠相似,則可降1級,如參與者從同一區域中抽樣,并使用相同的納入排除標準和金標準。反之,則降2級。
3.3 不一致性
在間接比較的不一致性評估中,需要更多方法學研究。GRADE工作組提出“兩步走”方式:第一步,先使用DTA的方法對單個待評價試驗進行不一致性評估[17];第二步,推斷二者及以上比較的不一致性。見圖2(僅為推斷,間接比較的不一致性評估需謹慎),假設1個待評價試驗的異質性大,另一個待評價試驗的異質性很小,那比較的評估存在不一致(圖2b)。如果兩個試驗都具有異質性,那比較的評估存在不一致(圖2d),除非影響兩個試驗異質性的因素足夠相似(圖2c)。
4 直接比較和間接比較的證據體
直接比較和間接比較證據的綜合需要更多方法學研究,GRADE工作組建議兩點:第一,獨立評估直接比較和間接比較證據確信度;第二,如果直接比較的證據確信度已經為高,那么不需再對間接比較進行評級;第三,如果直接比較的證據確信度是中等或更低,那么需評估間接比較的證據確信度,并從兩者中選擇證據確信度最高的一個(需要注意的是,間接比較因為存在間接性,最多是中等確信度證據)。
5 GRADE在CDTA系統評價中應用的實例解析
案例來自直接比較HPV與VIA診斷CIN2~3級病變準確性的系統評價[30]。證據概要表見表3。

5.1 偏倚風險
使用QUADAS-C工具對納入的5個研究進行評價。一個研究在“病例流程和待評價試驗與金標準之間的時間間隔”領域存在高偏倚風險,一個研究在“待評價試驗”和“金標準”領域偏倚風險均為不清楚(見圖3c),但敏感性分析的結果顯示,對準確性并無太大影響。因此綜合判斷該系統評價無嚴重的偏倚風險,對該領域偏倚風險不降級。

5.2 間接性
系統評價關注的人群為18歲及以上未懷孕的女性,來自中低收入國家且先前未被診斷為CIN或接受過相關治療(在篩查環境下)。關注的待評價診斷試驗或策略和比較診斷試驗或策略為HPV檢測(替代VIA)和VIA。關注的結局為診斷CIN2和CIN3的準確性(參考標準為陰道鏡)。
納入的文章顯示,研究與系統評價關注的人群基本一致,均納入低、中等收入國家的患者,但在2個研究中,患者因有疾病癥狀主動就診并接受檢查,并不屬于篩查人群,不確定對HPV和VIA的診斷準確性比較是否有影響。HPV和VIA的實施方法和臨床常規一致,所有研究的目標疾病都是CIN2-3。綜合判斷后對間接性方面不降級。
5.3 不一致性
敏感度和特異度差異的森林圖見圖3(灰色虛線代表閾值)。圖3a顯示,敏感度差異的95%CI重疊度低,且因為異質性的緣故跨越了預先設置的閾值。因此總體評估敏感度差異在不一致性方面降1級。特異度差異的降級因素與敏感度差異一致。
5.4 不精確性
敏感度差異合并效應值為[Dsens=0.26,95%CI(0.11,0.41)]。該值跨越了閾值(敏感度絕對增加至少為17%,特異度降低不超過10%),因此敏感度差異因不精確性降1級(圖3a)。特異度差異(difference in specificity,Dspec)合并效應值為[Dspec=?0.03,95%CI(?0.15,0.08)]。該值跨越了閾值,但過寬的CI可以由異質性解釋,且樣本量較大,為9 113例(圖3b)。因此綜合判斷特異度差異在不精確方面不降級。
5.5 發表偏倚
由于原始研究中沒有利益沖突,研究較少,因此未對發表偏倚進行檢驗。
6 展望
目前GRADE應用在CDTA系統評價中主要存在以下挑戰:① 偏倚風險方面:CDTA的偏倚風險評估工具目前使用的是QUADAS-C(QUADAS-2的擴展版)。該工具需要和QUADAS-2結合起來使用,且標志性問題較多,對于初學者來說在使用時可能存在困難。同時該工具目前并不適用于間接比較的偏倚風險評估。② 不精確性方面:不精確性的評估標準還有待完善,目前還不確定OIS是否適用于CDTA系統評價。③ 直接比較與間接比較:目前有關直接比較和間接比較的證據評估方法有待進一步完善。比如在證據綜合評估時除了考慮CDTA系統評價研究的組成以外,是否還考慮直接比較與間接比較的貢獻度大小或直接比較與間接比較的占比大小?另外目前與CDTA網狀Meta分析有關的GRADE方法學相關研究也比較少。
雖然當前GRADE分級在CDTA系統評價應用的相關方法學研究較少,但現有的理論方法仍能對CDTA系統評價的證據分級起到較大的作用。GRADE工作組接下來將進一步研究,相信隨著CDTA系統評價證據分級相關方法學質量的完善和提高,GRADE在CDTA系統評價上面的應用將逐漸成熟。