診斷性試驗的系統評價按基于原始研究的類型可分為兩類:一類是基于診斷性隨機對照試驗的系統評價,其GRADE分級與干預性系統評價的方法類似;另外一類是基于診斷準確性試驗的系統評價,其GRADE分級原理和方法是本文論述的重點。本文主要從理論分析的角度闡述了GRADE在診斷準確性試驗系統評價中應用的原理、方法以及挑戰。
引用本文: 陳耀龍, 姚亮, 杜亮, 曾憲濤, 韋當, 王琪, 王小琴, 楊克虎. GRADE在診斷準確性試驗系統評價中應用的原理、方法、挑戰及發展趨勢. 中國循證醫學雜志, 2014, 14(11): 1402-1406. doi: 10.7507/1672-2531.20140225 復制
證據推薦分級的評估、制訂與評價(Grading of Recommendations Assessment,Development and Evaluation,GRADE)系統從正式發布距今已有10年[1, 2]。Cochrane系統評價手冊中也明確闡述了如何基于結局指標對證據體(body of evidence)應用GRADE系統進行升降級[3, 4]的方法。目前,運用GRADE對干預性系統評價進行證據質量分級的方法已趨成熟[5]。隨著GRADE方法的不斷完善,在診斷性試驗系統評價(本文為廣義,包括了Meta分析)中運用GRADE進行證據質量分級的方法也得到了長足發展。本文基于GRADE工作組近5年有關診斷性證據分級的研討會、培訓班和相關論文[6-9],介紹GRADE在診斷性試驗系統評價中應用的原理、方法、挑戰與未來的發展。
1 基本概念與原理
GRADE是由GRADE工作組開發的適用于系統評價(systematic Reviews,SR)、臨床實踐指南(clinic practice guideline,CPG)和衛生技術評估(health technology assessment,HTA)的分級工具,是當前證據質量和推薦強度分級的國際標準之一,目前已被世界衛生組織(WHO)、Cochrane協作網和英國國家衛生與臨床優化研究所(National Institute for Health and Care Excellence,NICE)等全球80多個重要組織所采納[10]。
與干預性試驗的系統評價相似,診斷性試驗系統評價是建立在廣泛搜集文獻、按照特定的納入與排除標準篩選文獻、依據推薦的量表[11, 12]評價納入研究的方法學質量,并進行定性或/和定量描述的一種綜合研究方法。診斷性試驗系統評價主要用于評價診斷性證據的準確性及其對患者最終臨床結局的影響。根據其納入的研究類型一般可分為兩種:一是基于診斷性隨機對照試驗(diagnostic randomized controlled trial,D-RCT)的系統評價[13, 14],二是基于診斷準確性試驗(diagnostic accuracy test,DAT)的系統評價[4]。兩種研究類型的設計流程見圖 1。
診斷性試驗系統評價和指南中對證據質量和推薦強度的定義與干預性試驗相同[15]:證據質量指在多大程度上能夠確信預測值的正確性,分為高、中、低和極低四個等級;推薦強度是指在多大程度上能夠確信遵守推薦意見利大于弊,分為強、弱兩級。對證據質量和推薦強度等級的具體定義見表 1。

運用GRADE對診斷性試驗系統評價的證據質量進行分級的基本原理是評價這種診斷措施或策略是否對患者的最終結局產生影響。無論是D-RCT還是DTA,其起始證據質量均為高,然后依據5個降級因素可被下調為中、低或者極低質量證據[6]。但在實際操作中,降級需謹慎,尤其需要注意避免重復降級——即在有些情況下,研究的偏倚風險同時與不一致性或精確性等相關,如果在前一個因素中已經降級,則在后續因素中則僅予以文字說明,而不降級[7]。此外,降級不必拘泥于量化,而要對5個降級因素整體考慮,綜合給出最后的證據級別[19]。為增加分級的科學性和透明性,我們建議應同時由2名或以上的研究人員對同一系統評價的證據質量進行分級,并對升降級因素予以充分討論和闡明。
2 結局指標的選擇
GRADE進行證據質量分級主要基于患者的重要結局[2]。診斷性研究中患者重要結局是指對患者給予或不給予診斷,對其健康產生的有利或不利結果,如病死率和生活質量[7]。值得注意的是基于不同研究類型的診斷性試驗系統評價,其關注的結局指標也存在差異。如果待分級的診斷性試驗系統評價基于的原始研究是D-RCT,可直接關注患者終點的結局指標(如病死率)來評價新診斷性試驗的效果[18]。然而在實際操作中,D-RCT在設計和實施上存在一定困難[13, 20]。因此,研究人員一般開展的是DTA,并據此結果來推測其對患者最終結局的影響。在這種情況下,DTA的真陽性、假陽性、假陰性和真陰性是主要關注的結局指標。每個指標的具體含義見表 2。

3 分級方法
GRADE對診斷性試驗系統評價的證據質量分級主要考察5個降級因素,包括研究的偏倚風險(risk of bias)、不直接性(indirectness)、不一致性(inconsistency)、不精確性(imprecision)和發表偏倚(publication bias),以及劑量效應關系(dose-response gradient)和相關混雜(plausible confounding)這兩個升級因素。
基于不同研究類型的診斷性試驗系統評價,GRADE分級的方法也存在差異。如果待分級的診斷性試驗系統評價納入的原始研究是D-RCT,其分級方法與GRADE對干預性系統評價的相似,本文暫不展開論述。此處重點關注DTA的系統評價的GRADE分級,影響其證據質量的因素見表 3。

3.1 偏倚風險
診斷性試驗系統評價偏倚風險的判斷沒有專門的標準。目前GRADE工作組推薦使用QUADAS-2評價工具[12],主要考慮4個方面:病例選擇的偏倚風險、待評價試驗的偏倚風險、參考試驗(金標準)的偏倚風險及病例流程與進展情況的偏倚風險。有關具體內容請參考QUADAS-2的相關論文及其解讀[12, 23]。
應用GRADE時,原則上如果4個方面都有重要的偏倚風險,則有可能連續降2級,若僅為某個方面,或雖有某幾個方面有偏倚,但對結局指標影響不嚴重,可考慮降1級或不降級。
3.2 不直接性
診斷性試驗系統評價的不直接性主要包括3個方面:一是人群(P)的間接性,系統評價納入的人群與實際接受診斷的人群可能存在不一致,例如一項旨在評價體格檢查能否發現因下段腰間盤突出引起的神經根病變的Cochrane系統評價,其關注的是初級衛生保健機構中的患者,而納入的9個研究中有8個研究關注的是二級或三級衛生保健機構的患者[24],二者在納入人群方面上存在較大的間接性;二是待評價的診斷措施或策略(I)的間接性,如試驗中使用的設備其型號或規格不一樣,以及對照的診斷措施或策略(C)的間接性,如不同試驗參考的金標準不一致;雖然在結局指標(O)方面也存在間接性,即診斷準確性試驗中關注的結局指標,如真、假陽性和真、假陰性,只是與患者重要結局相關的中間指標[9],不能直接代表患者的終點結局,但若僅關注診斷性試驗的準確性,則此方面不降級;三是存在間接比較,即被研究的試驗之間無直接比較(不在同一研究中比較),而是各自與金標準進行比較[25-27],若要確定這幾種待評價試驗各自的優劣,則會涉及間接比較[28]。若間接比較的結果與直接比較的結果不一致,又無合理的原因解釋,則考慮降級。
3.3 不一致性
與干預性系統評價相似,不一致性的判斷可通過目測點估計值的差異大小以及95%可信區間的重疊程度,如果不同研究可信區間的重疊度好,則說明納入研究的異質性小,不考慮降級。另外更為準確的方法是通過異質性檢驗來判斷,常用的統計方法是Q檢驗,若異質性檢驗結果顯示I2 > 50%且P < 0.1,則懷疑存在較大異質性,考慮降級[29]。
3.4 不精確性
診斷性試驗系統評價的不精確性主要從兩個方面來考慮:
一是納入研究的樣本總量,理論上應滿足開展同樣一項診斷性試驗達到檢驗效能所需的最小樣本量,若通過計算樣本總量發現不滿足最低標準,則考慮降級;對于診斷性試驗樣本含量的估算,當前尚無統一的計算方法,目前比較常用的有Buderer [30]建議的公式計算法,Carley等[31]建議的畫圖法,Flahault等[32]建議的查表法。三種方法的推算原理存在一定的差異,研究人員可根據具體情況選擇。
二是合并結果的95%可信區間寬窄,可信區間越寬則越難判斷真實值的范圍,對系統評價結果的信心程度就越不確定。一般臨床專家會根據具體的診斷性試驗,給出能夠接受的可信區間絕對寬度[7]。比如某項診斷性試驗的敏感度點估計值為90%,臨床專家認為可信區間下限應不低于85%。如果該系統評價合并敏感度的結果為0.9[95%CI(0.82,0.98)],則有理由懷疑其隨機誤差較大,可能考慮降級。
3.5 發表偏倚
與干預性系統評價相似,在考慮發表偏倚之前,應先考察系統評價的檢索策略和納入排除標準,如果系統評價未檢索在研試驗(如WHO臨床試驗注冊平臺)、灰色文獻數據或進行了語言或數據庫的限制,則有可能遺漏相關研究。其次應考察系統評價納入研究接受資助和利益沖突聲明的情況,若納入研究敏感度和特異度均高且均為相關醫藥公司資助,則有可能懷疑發表性偏倚的存在[33]。
一般情況下研究人員判斷發表性偏倚多使用漏斗圖法[34]。常用的統計方法有Begg’s檢驗[35]、Egger’s檢驗[36]、Deeks’檢驗[37]和Macaskill’s檢驗[38]。有研究顯示在診斷性試驗系統評價的發表性偏倚方面,Deeks’檢驗相對其他檢驗方法要更為精確[39]。但也有研究報告利用漏斗圖法判斷發表性偏倚本身就有偏倚[40, 41]。
4 挑戰與未來的發展
應用GRADE對診斷性試驗系統評價進行分級,面臨如下挑戰:①偏倚風險方面,沒有像干預性領域中成熟的偏倚風險評估工具,目前只能借助于QUADAS工具。QUADAS工具本身與GARDE降級的其他因素有部分重疊,且QUADAS工具主要用于評價單個診斷性試驗,而非證據體。Cochrane協作網相關小組正在研究觀察性研究的偏倚風險評估工具,未來可能會研發出專門針對診斷性試驗的工具。②不直接性方面,除與干預領域相似的問題外,診斷性試驗還存在兩個特殊挑戰,一是不同診斷醫師,因為其年資、背景和能力的差異,對同一診斷數據或圖像可能會給出不同結論;二是DTA得出的均為非終點指標,故必然存在間接性,且已有研究顯示診斷性試驗常常對患者最終的結局沒有實質性影響[8]。③不精確性方面,沒有統一的樣本含量估算方法,可信區間寬窄標準依賴具體的試驗本身以及臨床專家的共識。另外,當前尚沒有針對診斷性試驗系統評價證據質量升級的恰當實例。
雖然當前應用GRADE對診斷性試驗系統評價進行證據質量分級還存在挑戰,但其對正確解讀診斷性試驗系統評價結果能起到重要作用。GRADE工作組正在撰寫GRADE診斷方面的系列論文,將進一步指導系統評價制作者理解和應用GRADE方法。相信隨著診斷性試驗及其系統評價方法學的完善和質量的提高,GRADE在診斷性試驗系統評價中的應用將逐漸成熟和普及。
證據推薦分級的評估、制訂與評價(Grading of Recommendations Assessment,Development and Evaluation,GRADE)系統從正式發布距今已有10年[1, 2]。Cochrane系統評價手冊中也明確闡述了如何基于結局指標對證據體(body of evidence)應用GRADE系統進行升降級[3, 4]的方法。目前,運用GRADE對干預性系統評價進行證據質量分級的方法已趨成熟[5]。隨著GRADE方法的不斷完善,在診斷性試驗系統評價(本文為廣義,包括了Meta分析)中運用GRADE進行證據質量分級的方法也得到了長足發展。本文基于GRADE工作組近5年有關診斷性證據分級的研討會、培訓班和相關論文[6-9],介紹GRADE在診斷性試驗系統評價中應用的原理、方法、挑戰與未來的發展。
1 基本概念與原理
GRADE是由GRADE工作組開發的適用于系統評價(systematic Reviews,SR)、臨床實踐指南(clinic practice guideline,CPG)和衛生技術評估(health technology assessment,HTA)的分級工具,是當前證據質量和推薦強度分級的國際標準之一,目前已被世界衛生組織(WHO)、Cochrane協作網和英國國家衛生與臨床優化研究所(National Institute for Health and Care Excellence,NICE)等全球80多個重要組織所采納[10]。
與干預性試驗的系統評價相似,診斷性試驗系統評價是建立在廣泛搜集文獻、按照特定的納入與排除標準篩選文獻、依據推薦的量表[11, 12]評價納入研究的方法學質量,并進行定性或/和定量描述的一種綜合研究方法。診斷性試驗系統評價主要用于評價診斷性證據的準確性及其對患者最終臨床結局的影響。根據其納入的研究類型一般可分為兩種:一是基于診斷性隨機對照試驗(diagnostic randomized controlled trial,D-RCT)的系統評價[13, 14],二是基于診斷準確性試驗(diagnostic accuracy test,DAT)的系統評價[4]。兩種研究類型的設計流程見圖 1。
診斷性試驗系統評價和指南中對證據質量和推薦強度的定義與干預性試驗相同[15]:證據質量指在多大程度上能夠確信預測值的正確性,分為高、中、低和極低四個等級;推薦強度是指在多大程度上能夠確信遵守推薦意見利大于弊,分為強、弱兩級。對證據質量和推薦強度等級的具體定義見表 1。

運用GRADE對診斷性試驗系統評價的證據質量進行分級的基本原理是評價這種診斷措施或策略是否對患者的最終結局產生影響。無論是D-RCT還是DTA,其起始證據質量均為高,然后依據5個降級因素可被下調為中、低或者極低質量證據[6]。但在實際操作中,降級需謹慎,尤其需要注意避免重復降級——即在有些情況下,研究的偏倚風險同時與不一致性或精確性等相關,如果在前一個因素中已經降級,則在后續因素中則僅予以文字說明,而不降級[7]。此外,降級不必拘泥于量化,而要對5個降級因素整體考慮,綜合給出最后的證據級別[19]。為增加分級的科學性和透明性,我們建議應同時由2名或以上的研究人員對同一系統評價的證據質量進行分級,并對升降級因素予以充分討論和闡明。
2 結局指標的選擇
GRADE進行證據質量分級主要基于患者的重要結局[2]。診斷性研究中患者重要結局是指對患者給予或不給予診斷,對其健康產生的有利或不利結果,如病死率和生活質量[7]。值得注意的是基于不同研究類型的診斷性試驗系統評價,其關注的結局指標也存在差異。如果待分級的診斷性試驗系統評價基于的原始研究是D-RCT,可直接關注患者終點的結局指標(如病死率)來評價新診斷性試驗的效果[18]。然而在實際操作中,D-RCT在設計和實施上存在一定困難[13, 20]。因此,研究人員一般開展的是DTA,并據此結果來推測其對患者最終結局的影響。在這種情況下,DTA的真陽性、假陽性、假陰性和真陰性是主要關注的結局指標。每個指標的具體含義見表 2。

3 分級方法
GRADE對診斷性試驗系統評價的證據質量分級主要考察5個降級因素,包括研究的偏倚風險(risk of bias)、不直接性(indirectness)、不一致性(inconsistency)、不精確性(imprecision)和發表偏倚(publication bias),以及劑量效應關系(dose-response gradient)和相關混雜(plausible confounding)這兩個升級因素。
基于不同研究類型的診斷性試驗系統評價,GRADE分級的方法也存在差異。如果待分級的診斷性試驗系統評價納入的原始研究是D-RCT,其分級方法與GRADE對干預性系統評價的相似,本文暫不展開論述。此處重點關注DTA的系統評價的GRADE分級,影響其證據質量的因素見表 3。

3.1 偏倚風險
診斷性試驗系統評價偏倚風險的判斷沒有專門的標準。目前GRADE工作組推薦使用QUADAS-2評價工具[12],主要考慮4個方面:病例選擇的偏倚風險、待評價試驗的偏倚風險、參考試驗(金標準)的偏倚風險及病例流程與進展情況的偏倚風險。有關具體內容請參考QUADAS-2的相關論文及其解讀[12, 23]。
應用GRADE時,原則上如果4個方面都有重要的偏倚風險,則有可能連續降2級,若僅為某個方面,或雖有某幾個方面有偏倚,但對結局指標影響不嚴重,可考慮降1級或不降級。
3.2 不直接性
診斷性試驗系統評價的不直接性主要包括3個方面:一是人群(P)的間接性,系統評價納入的人群與實際接受診斷的人群可能存在不一致,例如一項旨在評價體格檢查能否發現因下段腰間盤突出引起的神經根病變的Cochrane系統評價,其關注的是初級衛生保健機構中的患者,而納入的9個研究中有8個研究關注的是二級或三級衛生保健機構的患者[24],二者在納入人群方面上存在較大的間接性;二是待評價的診斷措施或策略(I)的間接性,如試驗中使用的設備其型號或規格不一樣,以及對照的診斷措施或策略(C)的間接性,如不同試驗參考的金標準不一致;雖然在結局指標(O)方面也存在間接性,即診斷準確性試驗中關注的結局指標,如真、假陽性和真、假陰性,只是與患者重要結局相關的中間指標[9],不能直接代表患者的終點結局,但若僅關注診斷性試驗的準確性,則此方面不降級;三是存在間接比較,即被研究的試驗之間無直接比較(不在同一研究中比較),而是各自與金標準進行比較[25-27],若要確定這幾種待評價試驗各自的優劣,則會涉及間接比較[28]。若間接比較的結果與直接比較的結果不一致,又無合理的原因解釋,則考慮降級。
3.3 不一致性
與干預性系統評價相似,不一致性的判斷可通過目測點估計值的差異大小以及95%可信區間的重疊程度,如果不同研究可信區間的重疊度好,則說明納入研究的異質性小,不考慮降級。另外更為準確的方法是通過異質性檢驗來判斷,常用的統計方法是Q檢驗,若異質性檢驗結果顯示I2 > 50%且P < 0.1,則懷疑存在較大異質性,考慮降級[29]。
3.4 不精確性
診斷性試驗系統評價的不精確性主要從兩個方面來考慮:
一是納入研究的樣本總量,理論上應滿足開展同樣一項診斷性試驗達到檢驗效能所需的最小樣本量,若通過計算樣本總量發現不滿足最低標準,則考慮降級;對于診斷性試驗樣本含量的估算,當前尚無統一的計算方法,目前比較常用的有Buderer [30]建議的公式計算法,Carley等[31]建議的畫圖法,Flahault等[32]建議的查表法。三種方法的推算原理存在一定的差異,研究人員可根據具體情況選擇。
二是合并結果的95%可信區間寬窄,可信區間越寬則越難判斷真實值的范圍,對系統評價結果的信心程度就越不確定。一般臨床專家會根據具體的診斷性試驗,給出能夠接受的可信區間絕對寬度[7]。比如某項診斷性試驗的敏感度點估計值為90%,臨床專家認為可信區間下限應不低于85%。如果該系統評價合并敏感度的結果為0.9[95%CI(0.82,0.98)],則有理由懷疑其隨機誤差較大,可能考慮降級。
3.5 發表偏倚
與干預性系統評價相似,在考慮發表偏倚之前,應先考察系統評價的檢索策略和納入排除標準,如果系統評價未檢索在研試驗(如WHO臨床試驗注冊平臺)、灰色文獻數據或進行了語言或數據庫的限制,則有可能遺漏相關研究。其次應考察系統評價納入研究接受資助和利益沖突聲明的情況,若納入研究敏感度和特異度均高且均為相關醫藥公司資助,則有可能懷疑發表性偏倚的存在[33]。
一般情況下研究人員判斷發表性偏倚多使用漏斗圖法[34]。常用的統計方法有Begg’s檢驗[35]、Egger’s檢驗[36]、Deeks’檢驗[37]和Macaskill’s檢驗[38]。有研究顯示在診斷性試驗系統評價的發表性偏倚方面,Deeks’檢驗相對其他檢驗方法要更為精確[39]。但也有研究報告利用漏斗圖法判斷發表性偏倚本身就有偏倚[40, 41]。
4 挑戰與未來的發展
應用GRADE對診斷性試驗系統評價進行分級,面臨如下挑戰:①偏倚風險方面,沒有像干預性領域中成熟的偏倚風險評估工具,目前只能借助于QUADAS工具。QUADAS工具本身與GARDE降級的其他因素有部分重疊,且QUADAS工具主要用于評價單個診斷性試驗,而非證據體。Cochrane協作網相關小組正在研究觀察性研究的偏倚風險評估工具,未來可能會研發出專門針對診斷性試驗的工具。②不直接性方面,除與干預領域相似的問題外,診斷性試驗還存在兩個特殊挑戰,一是不同診斷醫師,因為其年資、背景和能力的差異,對同一診斷數據或圖像可能會給出不同結論;二是DTA得出的均為非終點指標,故必然存在間接性,且已有研究顯示診斷性試驗常常對患者最終的結局沒有實質性影響[8]。③不精確性方面,沒有統一的樣本含量估算方法,可信區間寬窄標準依賴具體的試驗本身以及臨床專家的共識。另外,當前尚沒有針對診斷性試驗系統評價證據質量升級的恰當實例。
雖然當前應用GRADE對診斷性試驗系統評價進行證據質量分級還存在挑戰,但其對正確解讀診斷性試驗系統評價結果能起到重要作用。GRADE工作組正在撰寫GRADE診斷方面的系列論文,將進一步指導系統評價制作者理解和應用GRADE方法。相信隨著診斷性試驗及其系統評價方法學的完善和質量的提高,GRADE在診斷性試驗系統評價中的應用將逐漸成熟和普及。