既往的診斷試驗準確性系統評價證據分級方法通常側重在診斷指標層面評估證據的確信度(質量)。當研究問題不局限于診斷試驗準確性結果本身時,由于評估過程缺乏對試驗準確性在特定環境中引發的下游影響的考慮,分級結果可能是不準確的。為應對這些挑戰,GRADE工作組進行了系列研究,重點更新了在背景化框架下探究或模擬診斷試驗準確性結果重要下游影響的方法。本文結合前沿研究,介紹單個診斷試驗準確性系統評價證據分級及相應背景化方法,為相關人員提供參考。
引用本文: 賴鴻皓, 楊秋玉, 孫銘謠, 田晨, 陸瑤, 田金徽, 李江, 葛龍. 單個診斷試驗準確性系統評價證據分級:GRADE方法學前沿與進展. 中國循證醫學雜志, 2022, 22(9): 1090-1098. doi: 10.7507/1672-2531.202206021 復制
1 背景
診斷試驗準確性(diagnostic test accuracy,DTA)對疾病的診斷和評估具有重要作用,DTA系統評價可對某種疾病診斷方法的診斷準確性及其對患者最終臨床結局的影響做出判斷,高質量的DTA系統評價是支撐相關臨床實踐指南推薦意見和臨床決策的可靠佐證[1]。DTA可分為:① 探究一種待評價試驗的準確性,即單個診斷試驗準確性(single diagnostic test accuracy,SDTA);② 比較2種及以上待評價試驗的準確性,即診斷試驗準確性比較研究(comparative diagnostic test accuracy,CDTA)。二者的研究目的、研究設計不同[2],證據分級方法也存在差異。本文重點關注SDTA證據分級方法,關于CDTA的研究設計闡述和證據分級方法在本系列的其他文章中另有詳細說明[3-5]。
GRADE(grading of recommendations assessment, development and evaluation,GRADE)是對DTA系統評價證據確信度(質量)進行分級的重要方法[6-7]。既往方法學研究的視角更多聚焦在探索DTA試驗指標層面的證據分級方法[8],即評估待評價試驗區分患病和未患病能力的確信度。但當研究問題不再局限于關注單純的試驗準確性時,DTA證據的確信度可能會受到環境、文化、法律法規、資源可及性和公平性等因素的影響[9]。研究者應當探究該試驗診斷準確性結果在現實條件下可能引發的后續影響,即試驗診斷準確性的“下游影響(downstream effects)”。例如,對于重大傳染病的篩檢,假陰性的診斷結果(漏診)可能會導致大規模的疾病傳播,研究人員需要探究或模擬漏診導致的不良后果,從而重新定義敏感度的可接受范圍;而對于檢測手段和治療過程具有嚴重副作用、醫療成本高昂的疾病,假陽性的測試結果(誤診)會給患者帶來嚴重的額外負擔,研究人員同樣需要考慮誤診的下游影響,從而重新定義特異度的可接受范圍。缺乏對下游影響和終點指標的考慮可能會導致DTA證據不精確、不直接,從而削弱證據的實際作用[10]。在具體研究問題中,研究者根據其背景因素設置特定的閾值和范圍對證據進行確信度分級的方法被稱為背景化(contextualized)。根據考慮背景因素的程度不同,背景化又分為完全背景化(fully contextualized)、部分背景化(partly contextualized)與非背景化(non-contextualized)3種類型[11-12]。近年來GRADE工作組補充說明了SDTA證據評估[13-14]和相應的背景化方法[15],本文將對這一主題進行介紹,并結合實際案例探討在不同背景化框架下SDTA系統評價的GRADE分級方法。本文使用的案例為一篇在2022年發表的Cochrane系統評價[16],該研究探究了磁共振成像(magnetic resonance imaging,MRI)在成年慢性肝病患者中診斷任何階段的肝細胞癌(hepatocellular carcinoma,HCC)和可切除的HCC的準確性,共納入34個相關DTA,包含4 841例成年慢性肝病患者。
2 SDTA系統評價證據分級方法
與治療性干預試驗系統評價證據分級方法相似,GRADE方法將SDTA系統評價證據評為高、中、低和極低4個確信度等級[17-19]。SDTA證據的起始確信度為高,然后依據5個降級因素:偏倚風險、間接性、不一致性、不精確性和發表偏倚,以及3個升級因素:劑量-效應關系、試驗大效應和殘留的負偏倚對最終證據質量進行評估[17-18]。既往研究通常以SDTA系統評價的靈敏度、特異度等結局指標作為證據體單位進行證據分級。在背景化框架下,對證據分級的核心思想是判斷待評價診斷試驗對患者最終重要結局產生的影響[19]。因此,研究者還需要考慮診斷準確性指標的實際影響,例如計算敏感度與特異度在特定患病率下四格表數據(真陽性、假陽性、真陰性及假陰性)的絕對值,以評估SDTA證據的不精確性。
2.1 偏倚風險
2.1.1 原理
偏倚風險主要反映的是原始研究設計與實際執行的局限性[20]。研究人員開發了多種工具用以評估SDTA的偏倚風險。常用的評估工具是GRADE工作組推薦的QUADAS-2評價工具[13,21]。QUADAS-2評價工具關注納入的診斷性研究的4個領域:病例選擇、待評價診斷試驗、金標準試驗及試驗間隔、流程和進展情況[21]。研究人員需要對每個領域的條目進行“是”、“否”或“不清楚”的評價,分別對應偏倚風險被判斷為“低”、“高”或“不清楚”[21]。SDTA偏倚風險評估方法暫無重要的更新進展,QUADAS-2評價工具的具體使用方法可參考相關解讀文章[22]。
2.1.2 案例
本案例使用了QUADAS-2工具評估納入研究的偏倚風險,其標準為只要有1個領域被評估為高偏倚風險,則認為該研究的總體偏倚風險為高。研究者參考了既往研究,將試驗間隔閾值設置為90天[16]。圖1[16]為該研究的偏倚風險評估結果,所有納入研究的總體偏倚風險均為高。在GRADE分級時,需考慮證據確信度因偏倚風險高降級。

2.2 間接性
2.2.1 原理
納入的原始研究在PICO問題上與系統評價待回答的臨床問題相符程度越高,我們對結果的把握度就越大[23]。如果原始研究關注的患者人群、結局指標、待評價試驗和(或)金標準試驗與系統評價所關注的問題不同,則證據很可能由于間接性而無法很好地回答臨床問題[13]。
SDTA的間接性通常來源于人群差異和試驗差異。目標人群的選擇可導致間接性的產生。在系統評價中,如果納入研究的人群與系統評價待解答問題的目標人群不同,而納入人群與診斷準確性之間又存在相互作用的關系,那么得出的證據可能是間接的。人群的間接性不僅體現在患者的疾病譜差異上,也可能與進行試驗的環境、患者的預試驗或可能的轉診路徑有關[13]。例如,納入研究關注的人群是成年人,而系統評價臨床問題針對的人群是青少年,那么系統評價得出的證據則存在顯著的人群間接性。此外,進行試驗的環境不同也可導致人群間接性的產生,如納入研究的人群為普通科室的患者,而臨床問題針對住院患者,則應考慮因試驗環境差異引起的間接性。
與人群的選擇相似,從直接相關的待評價試驗和金標準試驗中得出的證據能夠增強我們對診斷性結果的把握度。在SDTA具體實施過程中如果出現設備、方法、流程、標準等方面的差異,導致待評價試驗或金標準試驗與臨床問題中關注的以上方面不一致,都可能導致間接性的產生[13]。例如,試驗中檢測的標本會受到環境溫度的影響,那么在室溫下轉移標本和在低溫下轉移標本后對標本進行檢測,所采用的閾值是不同的,那么不同的溫度可能導致嚴重的間接性。
2.2.2 更新
通常情況下,SDTA系統評價的結局指標為四格表數據及根據其計算的敏感度、特異度等,僅能夠作為患者重要結局的中間指標或替代結果。如果系統評價是在非背景化框架下進行,即只探討診斷試驗的準確性,則暫不需要考慮結局的間接性;反之,如果系統評價的問題關注的是診斷準確性結果對患者重要結局產生的影響,證據則可能因間接性降級[24]。
2.2.3 案例
在本例中,試驗人群為患有慢性肝病的成年人,試驗環境是二級或三級護理環境,待評價診斷試驗為MRI,金標準診斷試驗為移植肝臟時的病理學檢查、切下肝臟的組織學檢查或隨訪大于6個月的肝臟局灶性病變組織學活檢,研究問題為MRI的診斷準確性[16]。如果系統評價目的是MRI在普通人群中的診斷準確性問題,或系統評價面向的人群普遍接受特級護理,則證據會存在嚴重的人群間接性;如果在實際應用中,不同型號的MRI設備會對試驗結果產生影響,那么證據也會受到間接性的影響。該系統評價目標人群與納入研究一致,但納入研究的金標準試驗并不一致,即對于“患有慢性肝病”的定義并不統一,這可能會引入間接性。使用QUADAS-2工具的評估結果顯示,大部分研究的適用性存疑,其中有20個納入研究是根據肝臟局灶性病變的大小來選擇患者,或是僅納入了肝臟移植等候名單上的患者,納入患者中并不包括疾病程度較輕的患者。而在16項納入研究中,選擇移植肝臟時的病理學檢查作為金標準試驗也使結果的適用性降低,因為該金標準試驗僅適用于接受肝臟移植的患者。由于間接性與偏倚風險之間可能存在相互影響,因此,作者在偏倚風險和間接性2個條目上將證據等級下降了2個等級。
2.3 不一致性
2.3.1 原理
研究結果中關鍵的、沒有合理解釋的不一致性會降低證據質量[25]。不一致性的評估主要來源于對研究異質性的判斷,不同納入研究結果的點估計值的相似程度、可信區間的重疊程度和異質性檢驗的統計值等是常用的判斷方法[25]。一般而言,若出現不同研究的點估計值差異很大、可信區間重疊部分很窄甚至無重疊、異質性檢驗結果顯示存在較大異質性(I2>50%,P<0.1等)且無法對其進行合理解釋,則有理由懷疑研究結果存在顯著的不一致性。
2.3.2 案例
圖2[16]為MRI診斷成年慢性肝病患者中任何階段HCC的敏感度和特異度森林圖。研究人員使用混合雙變量模型估計了匯總的敏感度和特異度,匯總的敏感度為[84.4%,95%CI(80.1%,87.9%)],匯總的特異度為[93.8%,95%CI(90.1%,96.1%)]。從森林圖中可觀察到大部分研究敏感度和特異度的點估計值分布比較相似,可信區間重合度較高。作者根據分析預先設定的包括研究時間、研究地點、不同金標準試驗、不同肝硬化病因等13種因素解釋了部分的異質性來源,并深入討論了剩余異質性的潛在來源。因此,GRADE評級時沒有因為不一致性降低證據等級。

2.4 不精確性
2.4.1 原理
結果中納入的樣本總量過少,或匯總結果的可信區間過寬,會降低證據的可信度[26]。系統評價納入SDTA的樣本總量需要達到理論上能夠得出檢驗效能的最小樣本量,若其未能達到則有理由懷疑證據可能存在不精確性,應考慮作降級處理。目前并沒有針對SDTA專門開發的最小樣本量估算方法,常用方法有計算法[27]、畫圖法[28]和查表法[29]等。研究人員需在了解對應方法的原理后,根據具體情況選擇估算方法。過寬的可信區間通常表示對真實值的把握存在困難和對系統評價結果的信心不足。對于SDTA系統評價,真陽性率、假陽性率、真陰性率、假陰性率、診斷優勢比等準確性指標結果的可信區間過寬會導致證據的可信度降低。
2.4.2 更新
在SDTA中,可信區間的寬度通常取決于事件的發生數,對于敏感度而言,其受患病例數和陽性例數影響;對于特異度而言,其受未患病例數和陰性例數影響。則研究者需要根據研究問題引入相應的背景化框架來判斷結果的可信區間是否過寬,即根據背景因素及結果對下游的影響,設置閾值以明確結果可接受的范圍。在不同的背景化框架下,設置敏感度和特異度閾值的方法及對應的確定性含義是不同的。在非背景化框架下,即研究問題僅關注待評價試驗診斷指標本身,此時結果的可信區間范圍并不涉及價值判斷,通常無需考慮精確性。在部分背景化框架下,設置閾值能夠判斷結果的重要性,例如將結果區分為低、中等和高準確性,以體現對不利影響的考慮。完全背景化框架要求研究者考慮所有背景因素來設置閾值,落在同一閾值范圍內的結果不會影響凈收益與凈傷害的平衡。完全背景化框架更多應用在指南上,系統評價通常不會考慮[15]。
閾值的設置能夠使我們直觀地考量研究結果可信區間的相對寬度,從而判斷證據在研究問題上的精確程度。當原本相對窄的可信區間跨越了引入的閾值時,其在對應的研究問題上的精確性就會降低,從而導致證據確信度降級。由于敏感度或特異度的可信區間相對較窄時,真陽性或真陰性的可信區間仍可能很寬,因此,對研究者而言,應將敏感度和特異度的點估計值及其可信區間轉換為特定患病率的真陽性、假陰性、真陰性和假陽性例數及其上下限值后,再評估其不精確性[14]。
2.4.3 案例
在本案例中,研究者納入了4 841例患者并使用匯總敏感度[84.4%,95%CI(80.1%,87.9%)]和特異度[93.8% ,95%CI(90.1%,96.1%)]分別計算了在3種不同HCC患病率下對應的真陽性、假陰性、真陰性和假陽性例數[16]。結果顯示,在患病率為56%的1 000例慢性肝病患者中使用MRI診斷HCC,會導致87(68~111)例HCC患者未被檢出,而27(17~44)例未患HCC的慢性肝病患者可能會因此額外接受不必要的檢查或治療。研究者并沒有根據背景因素設置閾值,僅從可信區間上判斷證據無需因不精確性降級。
如果增加對下游影響的考慮,就需要在背景化框架下評估證據可信度。在美國,接受治療的HCC患者平均5年生存率為19.6%,而晚期HCC患者的平均5年生存率則低至2.5%[30]。這意味著在漏診的患者中約17.1%會因此在未來5年內死亡。我們使用以上數據作為人群HCC 5年死亡風險,則在HCC患病率為56%的1 000例慢性肝病患者中使用MRI診斷HCC,可能導致87(68~111)例漏診患者中的15(12~19)例因未能及早干預而在5年內死亡。根據臨床實踐指南推薦,MRI通常用于HCC篩查,確診仍需要病理學檢查結果支持[31-32]。而傷害性最強的肝穿刺活檢術的術后并發癥發生率約4%,術后死亡率不足1‰[32-33]。在本例中,27(17~44)例診斷結果為假陽性的患者可能會接受額外的檢查和治療,若認為4%的患者會因此引發嚴重后果,則假陽性結果會給1~2例患者帶來嚴重的不良后果(圖3)。

假設研究者設定在實際應用環境中(假設人群特征、人群患病率、不良后果發生率同上),因漏診導致的死亡人數不超過20/1 000例可認為是高敏感度的試驗,則該案例中MRI診斷敏感度為高,并且這個結果是精確的。相應地,假設因誤診而引起嚴重不良后果的患者不超過5例即為高特異度,則該案例結果顯示MRI為高特異度,結果也是精確的。綜合考慮敏感度與特異度的部分下游影響后,發現使用MRI在慢性肝病人群中診斷HCC具有較好的準確性,引起的嚴重不良后果在可接受程度之內。在完全背景化框架下,研究者可能還需要考慮MRI在實際應用中的患者偏好價值觀、經濟成本、公平性、可及性等諸多因素,甚至可能需要考慮真陽性與真陰性的下游影響,從而對證據進行全方位評估[15]。
2.5 發表偏倚
2.5.1 原理
SDTA系統評價員應判斷系統評價的檢索策略與納入排除標準是否合理,以及在系統評價納入標準下納入的文獻是否全面。如果系統評價沒有進行全面檢索(如缺失在研試驗、灰色文獻等),或添加了不合理的限制條件(如限定語言、國家、地區等),則有可能導致發表偏倚的產生[34]。納入研究的利益沖突也是導致發表偏倚產生的重要因素之一[34]。研究人員通常會使用漏斗圖不對稱性檢驗來檢測發表偏倚(如Begg’s[35]或Egger’s[36]檢驗)。然而當SDTA的樣本量受患者或研究特征影響而非發表偏倚影響時,使用這樣的檢測方式是不合理的。
2.5.2 更新
SDTA中納入的人群通常是某種疾病的疑似患者,疾病特征和患者特征可能是影響樣本量大小的主要原因。傳統的漏斗圖檢測發表偏倚容易籠統地將樣本量的問題歸因于發表偏倚,從而導致不必要的證據確信度降低。Deeks檢驗[37]和剪補法[38]更有利于避免這一問題,但同樣也存在局限性。如果研究者對目標研究領域了解充足,能夠全面把握已完成而未發表的研究情況,則能更準確地評估發表偏倚。
2.5.3 案例
本案例中,由于缺乏用于SDTA系統評價發表偏倚評估的可靠方法,研究者沒有考慮檢測發表偏倚。有Cochrane系統評價的研究者在謹慎評估后認為無論是采用漏斗圖或回歸分析對檢測SDTA系統評價發表偏倚都沒有幫助,在確保文獻檢索是全面、完整和嚴謹的前提下,考慮到研究團隊與該領域專家學者保持廣泛、大量的接觸交流,研究者判斷遺漏文獻的可能性很小,幾乎不存在發表偏倚,所以沒有降低證據等級[39]。
2.6 升級因素
在特殊情況下,我們可依據一定的因素對診斷試驗系統評價證據體的質量進行升級。如果診斷試驗結果中ROC曲線顯示出明顯、連續的敏感度-特異度關系,即存在劑量-效應關系的診斷等效性,則可能提升我們對結果的把握度[14]。另外,合理混雜(plausible confounding)可能增加估計效應的可信度[14]。但升級因素在診斷試驗中的應用尚未有研究進行說明,仍需進一步探究上述因素如何在評估診斷試驗系統評價證據等級中發揮作用。
3 證據匯總表
對研究結果進行證據匯總(summary of findings,SOF)能增加系統評價過程的透明性。GRADEpro在線工具提供了SOF表格的制作模板[40],呈現內容包括:① 系統評價的基本特征:納入研究數量,納入研究的樣本數量,納入研究的研究設計;② 在特定先驗患病率下真陽性、假陽性、真陰性和假陰性對應的估計人數;③ 證據分級詳情:通常以敏感度和特異度作為證據體單位進行可信度評估。表1為根據案例文章制作的SOF表格,先驗患病率設置為56%。基于四格表數據估計的人數有利于研究者考慮和模擬重要下游影響,也有利于證據使用者對于證據的理解。交互式的SOF表格能夠更直觀地呈現信息(圖4),還能提供對于結果的簡化總結,有利于簡化證據總結過程和優化證據傳遞。GRADE工作組也建議研究者使用SOF表格呈現證據及其分級結果。


4 總結
使用GRADE方法評估SDTA系統評價證據可信度是結構化、透明化的過程,可幫助我們正確理解系統評價結果和做出相關決策。評估過程中研究者需要對5個降級因素進行整體把握,謹慎降級的同時應避免因同一因素重復降級。評估過程中的每個決定都應經過充分討論,其原因和依據也應當注明。在有需要時,除了呈現證據概況,研究者還應闡明SDTA相關的重要信息和不利影響,以明確診斷試驗可能造成的不良后果[41-42]。
針對診斷試驗指標結果的GRADE分級方法已相對成熟,但在SDTA系統評價證據的實際使用中,特定的使用情境可能會重新定義實施診斷試驗的收益與弊端。例如有證據表明某種診斷試驗在診斷指標上表現出更好的準確性,但其在實際應用中并未對患者重要結局帶來更大的收益,此時,增加對下游影響的考慮能夠避免研究者高估該診斷試驗的實際價值。
盡管相關方法學在不斷完善,但目前SDTA系統評價證據分級的部分方法仍存在挑戰。首先,評估的幾個條目之間可能存在相關性。例如,偏倚風險可能是導致不一致性或間接性的原因,這可能誤導研究人員對研究中同一方法學缺陷進行重復降級,或將多處方法學缺陷歸納為同一類降級因素而僅降低一級。其次,統計學檢驗異質性在SDTA中的合理性仍有待進一步討論[25]。第三,在背景化框架下評估證據確信度時,目前暫無明確的閾值和范圍設置方法。第四,目前暫無可靠的發表偏倚檢測方法,回歸分析和漏斗圖等檢測手段的可靠性仍有爭議。因此,評估工作最好能夠與經驗豐富的方法學專家共同開展。
在本系列的其他文章中,我們介紹了使用GRADE分級方法評估CDTA系統評價證據確信度的具體方法[4],其關注的升、降級領域與SDTA系統評價證據確信度評估一致。但由于二者的研究設計不同,在具體評估過程中,主要存在以下幾點區別:① 在偏倚風險領域,需結合使用QUADAS-C和QUADAS-2工具評估納入研究的偏倚風險;② 在間接性領域,CDTA系統評價還需要考慮待評價試驗間是否存在間接比較,當間接比較存在時,應根據情況考慮將證據確信度降低1至2級;③ 在不一致性領域,當間接比較存在時,應首先評價每個待評價試驗的異質性,再推斷待評價試驗比較的不一致性。
1 背景
診斷試驗準確性(diagnostic test accuracy,DTA)對疾病的診斷和評估具有重要作用,DTA系統評價可對某種疾病診斷方法的診斷準確性及其對患者最終臨床結局的影響做出判斷,高質量的DTA系統評價是支撐相關臨床實踐指南推薦意見和臨床決策的可靠佐證[1]。DTA可分為:① 探究一種待評價試驗的準確性,即單個診斷試驗準確性(single diagnostic test accuracy,SDTA);② 比較2種及以上待評價試驗的準確性,即診斷試驗準確性比較研究(comparative diagnostic test accuracy,CDTA)。二者的研究目的、研究設計不同[2],證據分級方法也存在差異。本文重點關注SDTA證據分級方法,關于CDTA的研究設計闡述和證據分級方法在本系列的其他文章中另有詳細說明[3-5]。
GRADE(grading of recommendations assessment, development and evaluation,GRADE)是對DTA系統評價證據確信度(質量)進行分級的重要方法[6-7]。既往方法學研究的視角更多聚焦在探索DTA試驗指標層面的證據分級方法[8],即評估待評價試驗區分患病和未患病能力的確信度。但當研究問題不再局限于關注單純的試驗準確性時,DTA證據的確信度可能會受到環境、文化、法律法規、資源可及性和公平性等因素的影響[9]。研究者應當探究該試驗診斷準確性結果在現實條件下可能引發的后續影響,即試驗診斷準確性的“下游影響(downstream effects)”。例如,對于重大傳染病的篩檢,假陰性的診斷結果(漏診)可能會導致大規模的疾病傳播,研究人員需要探究或模擬漏診導致的不良后果,從而重新定義敏感度的可接受范圍;而對于檢測手段和治療過程具有嚴重副作用、醫療成本高昂的疾病,假陽性的測試結果(誤診)會給患者帶來嚴重的額外負擔,研究人員同樣需要考慮誤診的下游影響,從而重新定義特異度的可接受范圍。缺乏對下游影響和終點指標的考慮可能會導致DTA證據不精確、不直接,從而削弱證據的實際作用[10]。在具體研究問題中,研究者根據其背景因素設置特定的閾值和范圍對證據進行確信度分級的方法被稱為背景化(contextualized)。根據考慮背景因素的程度不同,背景化又分為完全背景化(fully contextualized)、部分背景化(partly contextualized)與非背景化(non-contextualized)3種類型[11-12]。近年來GRADE工作組補充說明了SDTA證據評估[13-14]和相應的背景化方法[15],本文將對這一主題進行介紹,并結合實際案例探討在不同背景化框架下SDTA系統評價的GRADE分級方法。本文使用的案例為一篇在2022年發表的Cochrane系統評價[16],該研究探究了磁共振成像(magnetic resonance imaging,MRI)在成年慢性肝病患者中診斷任何階段的肝細胞癌(hepatocellular carcinoma,HCC)和可切除的HCC的準確性,共納入34個相關DTA,包含4 841例成年慢性肝病患者。
2 SDTA系統評價證據分級方法
與治療性干預試驗系統評價證據分級方法相似,GRADE方法將SDTA系統評價證據評為高、中、低和極低4個確信度等級[17-19]。SDTA證據的起始確信度為高,然后依據5個降級因素:偏倚風險、間接性、不一致性、不精確性和發表偏倚,以及3個升級因素:劑量-效應關系、試驗大效應和殘留的負偏倚對最終證據質量進行評估[17-18]。既往研究通常以SDTA系統評價的靈敏度、特異度等結局指標作為證據體單位進行證據分級。在背景化框架下,對證據分級的核心思想是判斷待評價診斷試驗對患者最終重要結局產生的影響[19]。因此,研究者還需要考慮診斷準確性指標的實際影響,例如計算敏感度與特異度在特定患病率下四格表數據(真陽性、假陽性、真陰性及假陰性)的絕對值,以評估SDTA證據的不精確性。
2.1 偏倚風險
2.1.1 原理
偏倚風險主要反映的是原始研究設計與實際執行的局限性[20]。研究人員開發了多種工具用以評估SDTA的偏倚風險。常用的評估工具是GRADE工作組推薦的QUADAS-2評價工具[13,21]。QUADAS-2評價工具關注納入的診斷性研究的4個領域:病例選擇、待評價診斷試驗、金標準試驗及試驗間隔、流程和進展情況[21]。研究人員需要對每個領域的條目進行“是”、“否”或“不清楚”的評價,分別對應偏倚風險被判斷為“低”、“高”或“不清楚”[21]。SDTA偏倚風險評估方法暫無重要的更新進展,QUADAS-2評價工具的具體使用方法可參考相關解讀文章[22]。
2.1.2 案例
本案例使用了QUADAS-2工具評估納入研究的偏倚風險,其標準為只要有1個領域被評估為高偏倚風險,則認為該研究的總體偏倚風險為高。研究者參考了既往研究,將試驗間隔閾值設置為90天[16]。圖1[16]為該研究的偏倚風險評估結果,所有納入研究的總體偏倚風險均為高。在GRADE分級時,需考慮證據確信度因偏倚風險高降級。

2.2 間接性
2.2.1 原理
納入的原始研究在PICO問題上與系統評價待回答的臨床問題相符程度越高,我們對結果的把握度就越大[23]。如果原始研究關注的患者人群、結局指標、待評價試驗和(或)金標準試驗與系統評價所關注的問題不同,則證據很可能由于間接性而無法很好地回答臨床問題[13]。
SDTA的間接性通常來源于人群差異和試驗差異。目標人群的選擇可導致間接性的產生。在系統評價中,如果納入研究的人群與系統評價待解答問題的目標人群不同,而納入人群與診斷準確性之間又存在相互作用的關系,那么得出的證據可能是間接的。人群的間接性不僅體現在患者的疾病譜差異上,也可能與進行試驗的環境、患者的預試驗或可能的轉診路徑有關[13]。例如,納入研究關注的人群是成年人,而系統評價臨床問題針對的人群是青少年,那么系統評價得出的證據則存在顯著的人群間接性。此外,進行試驗的環境不同也可導致人群間接性的產生,如納入研究的人群為普通科室的患者,而臨床問題針對住院患者,則應考慮因試驗環境差異引起的間接性。
與人群的選擇相似,從直接相關的待評價試驗和金標準試驗中得出的證據能夠增強我們對診斷性結果的把握度。在SDTA具體實施過程中如果出現設備、方法、流程、標準等方面的差異,導致待評價試驗或金標準試驗與臨床問題中關注的以上方面不一致,都可能導致間接性的產生[13]。例如,試驗中檢測的標本會受到環境溫度的影響,那么在室溫下轉移標本和在低溫下轉移標本后對標本進行檢測,所采用的閾值是不同的,那么不同的溫度可能導致嚴重的間接性。
2.2.2 更新
通常情況下,SDTA系統評價的結局指標為四格表數據及根據其計算的敏感度、特異度等,僅能夠作為患者重要結局的中間指標或替代結果。如果系統評價是在非背景化框架下進行,即只探討診斷試驗的準確性,則暫不需要考慮結局的間接性;反之,如果系統評價的問題關注的是診斷準確性結果對患者重要結局產生的影響,證據則可能因間接性降級[24]。
2.2.3 案例
在本例中,試驗人群為患有慢性肝病的成年人,試驗環境是二級或三級護理環境,待評價診斷試驗為MRI,金標準診斷試驗為移植肝臟時的病理學檢查、切下肝臟的組織學檢查或隨訪大于6個月的肝臟局灶性病變組織學活檢,研究問題為MRI的診斷準確性[16]。如果系統評價目的是MRI在普通人群中的診斷準確性問題,或系統評價面向的人群普遍接受特級護理,則證據會存在嚴重的人群間接性;如果在實際應用中,不同型號的MRI設備會對試驗結果產生影響,那么證據也會受到間接性的影響。該系統評價目標人群與納入研究一致,但納入研究的金標準試驗并不一致,即對于“患有慢性肝病”的定義并不統一,這可能會引入間接性。使用QUADAS-2工具的評估結果顯示,大部分研究的適用性存疑,其中有20個納入研究是根據肝臟局灶性病變的大小來選擇患者,或是僅納入了肝臟移植等候名單上的患者,納入患者中并不包括疾病程度較輕的患者。而在16項納入研究中,選擇移植肝臟時的病理學檢查作為金標準試驗也使結果的適用性降低,因為該金標準試驗僅適用于接受肝臟移植的患者。由于間接性與偏倚風險之間可能存在相互影響,因此,作者在偏倚風險和間接性2個條目上將證據等級下降了2個等級。
2.3 不一致性
2.3.1 原理
研究結果中關鍵的、沒有合理解釋的不一致性會降低證據質量[25]。不一致性的評估主要來源于對研究異質性的判斷,不同納入研究結果的點估計值的相似程度、可信區間的重疊程度和異質性檢驗的統計值等是常用的判斷方法[25]。一般而言,若出現不同研究的點估計值差異很大、可信區間重疊部分很窄甚至無重疊、異質性檢驗結果顯示存在較大異質性(I2>50%,P<0.1等)且無法對其進行合理解釋,則有理由懷疑研究結果存在顯著的不一致性。
2.3.2 案例
圖2[16]為MRI診斷成年慢性肝病患者中任何階段HCC的敏感度和特異度森林圖。研究人員使用混合雙變量模型估計了匯總的敏感度和特異度,匯總的敏感度為[84.4%,95%CI(80.1%,87.9%)],匯總的特異度為[93.8%,95%CI(90.1%,96.1%)]。從森林圖中可觀察到大部分研究敏感度和特異度的點估計值分布比較相似,可信區間重合度較高。作者根據分析預先設定的包括研究時間、研究地點、不同金標準試驗、不同肝硬化病因等13種因素解釋了部分的異質性來源,并深入討論了剩余異質性的潛在來源。因此,GRADE評級時沒有因為不一致性降低證據等級。

2.4 不精確性
2.4.1 原理
結果中納入的樣本總量過少,或匯總結果的可信區間過寬,會降低證據的可信度[26]。系統評價納入SDTA的樣本總量需要達到理論上能夠得出檢驗效能的最小樣本量,若其未能達到則有理由懷疑證據可能存在不精確性,應考慮作降級處理。目前并沒有針對SDTA專門開發的最小樣本量估算方法,常用方法有計算法[27]、畫圖法[28]和查表法[29]等。研究人員需在了解對應方法的原理后,根據具體情況選擇估算方法。過寬的可信區間通常表示對真實值的把握存在困難和對系統評價結果的信心不足。對于SDTA系統評價,真陽性率、假陽性率、真陰性率、假陰性率、診斷優勢比等準確性指標結果的可信區間過寬會導致證據的可信度降低。
2.4.2 更新
在SDTA中,可信區間的寬度通常取決于事件的發生數,對于敏感度而言,其受患病例數和陽性例數影響;對于特異度而言,其受未患病例數和陰性例數影響。則研究者需要根據研究問題引入相應的背景化框架來判斷結果的可信區間是否過寬,即根據背景因素及結果對下游的影響,設置閾值以明確結果可接受的范圍。在不同的背景化框架下,設置敏感度和特異度閾值的方法及對應的確定性含義是不同的。在非背景化框架下,即研究問題僅關注待評價試驗診斷指標本身,此時結果的可信區間范圍并不涉及價值判斷,通常無需考慮精確性。在部分背景化框架下,設置閾值能夠判斷結果的重要性,例如將結果區分為低、中等和高準確性,以體現對不利影響的考慮。完全背景化框架要求研究者考慮所有背景因素來設置閾值,落在同一閾值范圍內的結果不會影響凈收益與凈傷害的平衡。完全背景化框架更多應用在指南上,系統評價通常不會考慮[15]。
閾值的設置能夠使我們直觀地考量研究結果可信區間的相對寬度,從而判斷證據在研究問題上的精確程度。當原本相對窄的可信區間跨越了引入的閾值時,其在對應的研究問題上的精確性就會降低,從而導致證據確信度降級。由于敏感度或特異度的可信區間相對較窄時,真陽性或真陰性的可信區間仍可能很寬,因此,對研究者而言,應將敏感度和特異度的點估計值及其可信區間轉換為特定患病率的真陽性、假陰性、真陰性和假陽性例數及其上下限值后,再評估其不精確性[14]。
2.4.3 案例
在本案例中,研究者納入了4 841例患者并使用匯總敏感度[84.4%,95%CI(80.1%,87.9%)]和特異度[93.8% ,95%CI(90.1%,96.1%)]分別計算了在3種不同HCC患病率下對應的真陽性、假陰性、真陰性和假陽性例數[16]。結果顯示,在患病率為56%的1 000例慢性肝病患者中使用MRI診斷HCC,會導致87(68~111)例HCC患者未被檢出,而27(17~44)例未患HCC的慢性肝病患者可能會因此額外接受不必要的檢查或治療。研究者并沒有根據背景因素設置閾值,僅從可信區間上判斷證據無需因不精確性降級。
如果增加對下游影響的考慮,就需要在背景化框架下評估證據可信度。在美國,接受治療的HCC患者平均5年生存率為19.6%,而晚期HCC患者的平均5年生存率則低至2.5%[30]。這意味著在漏診的患者中約17.1%會因此在未來5年內死亡。我們使用以上數據作為人群HCC 5年死亡風險,則在HCC患病率為56%的1 000例慢性肝病患者中使用MRI診斷HCC,可能導致87(68~111)例漏診患者中的15(12~19)例因未能及早干預而在5年內死亡。根據臨床實踐指南推薦,MRI通常用于HCC篩查,確診仍需要病理學檢查結果支持[31-32]。而傷害性最強的肝穿刺活檢術的術后并發癥發生率約4%,術后死亡率不足1‰[32-33]。在本例中,27(17~44)例診斷結果為假陽性的患者可能會接受額外的檢查和治療,若認為4%的患者會因此引發嚴重后果,則假陽性結果會給1~2例患者帶來嚴重的不良后果(圖3)。

假設研究者設定在實際應用環境中(假設人群特征、人群患病率、不良后果發生率同上),因漏診導致的死亡人數不超過20/1 000例可認為是高敏感度的試驗,則該案例中MRI診斷敏感度為高,并且這個結果是精確的。相應地,假設因誤診而引起嚴重不良后果的患者不超過5例即為高特異度,則該案例結果顯示MRI為高特異度,結果也是精確的。綜合考慮敏感度與特異度的部分下游影響后,發現使用MRI在慢性肝病人群中診斷HCC具有較好的準確性,引起的嚴重不良后果在可接受程度之內。在完全背景化框架下,研究者可能還需要考慮MRI在實際應用中的患者偏好價值觀、經濟成本、公平性、可及性等諸多因素,甚至可能需要考慮真陽性與真陰性的下游影響,從而對證據進行全方位評估[15]。
2.5 發表偏倚
2.5.1 原理
SDTA系統評價員應判斷系統評價的檢索策略與納入排除標準是否合理,以及在系統評價納入標準下納入的文獻是否全面。如果系統評價沒有進行全面檢索(如缺失在研試驗、灰色文獻等),或添加了不合理的限制條件(如限定語言、國家、地區等),則有可能導致發表偏倚的產生[34]。納入研究的利益沖突也是導致發表偏倚產生的重要因素之一[34]。研究人員通常會使用漏斗圖不對稱性檢驗來檢測發表偏倚(如Begg’s[35]或Egger’s[36]檢驗)。然而當SDTA的樣本量受患者或研究特征影響而非發表偏倚影響時,使用這樣的檢測方式是不合理的。
2.5.2 更新
SDTA中納入的人群通常是某種疾病的疑似患者,疾病特征和患者特征可能是影響樣本量大小的主要原因。傳統的漏斗圖檢測發表偏倚容易籠統地將樣本量的問題歸因于發表偏倚,從而導致不必要的證據確信度降低。Deeks檢驗[37]和剪補法[38]更有利于避免這一問題,但同樣也存在局限性。如果研究者對目標研究領域了解充足,能夠全面把握已完成而未發表的研究情況,則能更準確地評估發表偏倚。
2.5.3 案例
本案例中,由于缺乏用于SDTA系統評價發表偏倚評估的可靠方法,研究者沒有考慮檢測發表偏倚。有Cochrane系統評價的研究者在謹慎評估后認為無論是采用漏斗圖或回歸分析對檢測SDTA系統評價發表偏倚都沒有幫助,在確保文獻檢索是全面、完整和嚴謹的前提下,考慮到研究團隊與該領域專家學者保持廣泛、大量的接觸交流,研究者判斷遺漏文獻的可能性很小,幾乎不存在發表偏倚,所以沒有降低證據等級[39]。
2.6 升級因素
在特殊情況下,我們可依據一定的因素對診斷試驗系統評價證據體的質量進行升級。如果診斷試驗結果中ROC曲線顯示出明顯、連續的敏感度-特異度關系,即存在劑量-效應關系的診斷等效性,則可能提升我們對結果的把握度[14]。另外,合理混雜(plausible confounding)可能增加估計效應的可信度[14]。但升級因素在診斷試驗中的應用尚未有研究進行說明,仍需進一步探究上述因素如何在評估診斷試驗系統評價證據等級中發揮作用。
3 證據匯總表
對研究結果進行證據匯總(summary of findings,SOF)能增加系統評價過程的透明性。GRADEpro在線工具提供了SOF表格的制作模板[40],呈現內容包括:① 系統評價的基本特征:納入研究數量,納入研究的樣本數量,納入研究的研究設計;② 在特定先驗患病率下真陽性、假陽性、真陰性和假陰性對應的估計人數;③ 證據分級詳情:通常以敏感度和特異度作為證據體單位進行可信度評估。表1為根據案例文章制作的SOF表格,先驗患病率設置為56%。基于四格表數據估計的人數有利于研究者考慮和模擬重要下游影響,也有利于證據使用者對于證據的理解。交互式的SOF表格能夠更直觀地呈現信息(圖4),還能提供對于結果的簡化總結,有利于簡化證據總結過程和優化證據傳遞。GRADE工作組也建議研究者使用SOF表格呈現證據及其分級結果。


4 總結
使用GRADE方法評估SDTA系統評價證據可信度是結構化、透明化的過程,可幫助我們正確理解系統評價結果和做出相關決策。評估過程中研究者需要對5個降級因素進行整體把握,謹慎降級的同時應避免因同一因素重復降級。評估過程中的每個決定都應經過充分討論,其原因和依據也應當注明。在有需要時,除了呈現證據概況,研究者還應闡明SDTA相關的重要信息和不利影響,以明確診斷試驗可能造成的不良后果[41-42]。
針對診斷試驗指標結果的GRADE分級方法已相對成熟,但在SDTA系統評價證據的實際使用中,特定的使用情境可能會重新定義實施診斷試驗的收益與弊端。例如有證據表明某種診斷試驗在診斷指標上表現出更好的準確性,但其在實際應用中并未對患者重要結局帶來更大的收益,此時,增加對下游影響的考慮能夠避免研究者高估該診斷試驗的實際價值。
盡管相關方法學在不斷完善,但目前SDTA系統評價證據分級的部分方法仍存在挑戰。首先,評估的幾個條目之間可能存在相關性。例如,偏倚風險可能是導致不一致性或間接性的原因,這可能誤導研究人員對研究中同一方法學缺陷進行重復降級,或將多處方法學缺陷歸納為同一類降級因素而僅降低一級。其次,統計學檢驗異質性在SDTA中的合理性仍有待進一步討論[25]。第三,在背景化框架下評估證據確信度時,目前暫無明確的閾值和范圍設置方法。第四,目前暫無可靠的發表偏倚檢測方法,回歸分析和漏斗圖等檢測手段的可靠性仍有爭議。因此,評估工作最好能夠與經驗豐富的方法學專家共同開展。
在本系列的其他文章中,我們介紹了使用GRADE分級方法評估CDTA系統評價證據確信度的具體方法[4],其關注的升、降級領域與SDTA系統評價證據確信度評估一致。但由于二者的研究設計不同,在具體評估過程中,主要存在以下幾點區別:① 在偏倚風險領域,需結合使用QUADAS-C和QUADAS-2工具評估納入研究的偏倚風險;② 在間接性領域,CDTA系統評價還需要考慮待評價試驗間是否存在間接比較,當間接比較存在時,應根據情況考慮將證據確信度降低1至2級;③ 在不一致性領域,當間接比較存在時,應首先評價每個待評價試驗的異質性,再推斷待評價試驗比較的不一致性。