使用GRADE對診斷準確性試驗系統評價進行證據質量分級與干預性試驗系統評價有所不同。本文以實例解讀的方式系統介紹了GRADE在診斷準確性試驗系統評價中的分級流程及如何在GDT網站中呈現分級的結果,并結合GRADE分級結果對系統評價的結論進行了解讀。
引用本文: 姚亮, 陳耀龍, 杜亮, 曾憲濤, 韋當, 王琪, 王小琴, 楊克虎. GRADE在診斷準確性試驗系統評價中應用的實例解析. 中國循證醫學雜志, 2014, 14(11): 1407-1412. doi: 10.7507/1672-2531.20140226 復制
證據推薦分級的評價、制定與評估(Grading of Recommendations Assessment,Development and Evaluation,GRADE)方法在診斷性試驗系統評價中的運用包括兩種情況:一種是在系統評價制作過程中,評價者按照如Cochrane系統評價的制作方法完成證據的合成后,對證據進行GRADE分級;另一種是在系統評價使用過程中,使用者在對系統評價證據進行GRADE分級前,需要首先運用AMSTAR等[1, 2]工具評價該系統評價的方法學質量,避免不考慮系統評價的制作質量而盲目進行證據分級,導致分級結果出現重大偏倚[3]。在《GRADE在診斷準確性試驗系統評價中應用的原理、方法、挑戰及發展趨勢》一文[4]中,我們介紹了GRADE應用于診斷準確性試驗系統評價證據分級的基本原理、方法、挑戰以及發展趨勢。為進一步展示其詳細評價過程,便于讀者掌握,本文結合實例[5]闡述了GRADE用于診斷準確性試驗系統評價證據分級的過程,以及如何在GDT(Guideline Development Tool)網站中呈現分級結果。GDT網站由GRADE工作組研發,是幫助指南制定者進行證據分級和形成推薦意見的在線工具。
1 案例基本信息及AMSTAR評價
1.1 案例來源
以發表在《中國循證醫學雜志》2014年第1期的《超聲造影對乳腺腫塊良惡性鑒別診斷價值的系統評價》一文[5]作為案例。
1.2 PICO
案例的目的是評價超聲造影對乳腺腫塊良惡性的診斷價值。具體PICO可以結構化為:P,乳腺腫塊良惡性患者;I,超聲造影檢查;C,病理診斷;O,真陽性(患者乳腺腫塊真實情況為惡性)、假陽性(患者被誤診為惡性乳腺腫塊)、假陰性(患者被漏診為良性乳腺腫塊)、真陰性(患者乳腺腫塊真實情況為良性)。
1.3 主要結果與結論
案例共納入19個研究,共計1161例患者。納入研究的一般特征和方法學質量見原文,而為便于解析,我們將原文中合并敏感度和特異度的森林圖,以及SROC曲線圖在本文中列出(圖 1~3)。原作者結論為:“現有研究證實,超聲造影對乳腺腫瘤良惡性鑒別診斷有較高的敏感性和特異性,可用于乳腺良惡性腫瘤的鑒別診斷”。



1.4 方法學評估
運用AMSTAR工具對該系統評價的方法學質量進行評估,結果顯示其方法質量較好(表 1),因此可以應用GRADE進行證據質量分級。

2 影響證據質量的因素
2.1 偏倚風險
偏倚風險(risk of bias)考察的是納入診斷準確性試驗的設計、實施與測量[6]。具體可以運用QUADAS-2 [7, 8]工具來幫助判斷。但在很多診斷性試驗的系統評價(如本案例)中仍然在使用QUADAS [9]工具對納入研究的方法學質量進行評價。此時在對偏倚風險進行評價之前需要將QUADAS評價結果對照QUADAS-2的格式進行轉化,或者運用QUADAS-2重新評價系統評價納入研究的方法學質量。相對于原版QUADAS的條目,QUADAS-2定義問題的方式更具有針對性和臨床操作性,并考慮到更為精確的偏倚等級和原始診斷準確性研究的適用性。
本案例中我們參考原文中QUADAS評價結果[5]對照QUADAS-2的格式進行了調整,納入研究偏倚風險的結果如圖 4和圖 5所示。總體來看,案例中納入研究的偏倚風險較小,在真陽性、假陽性、假陰性和真陰性四個結局指標上均不考慮降級。


2.2 不直接性
不直接性(indirectness)考察的是納入研究與系統評價擬回答的臨床問題以及系統評價作者最后的結論之間的匹配程度[10]。
在人群方面:案例納入研究的人群年齡范圍為41~58歲,但乳腺惡性腫瘤目前有年輕化趨勢,對于41歲以下患者該診斷方法是否仍然具有同樣的敏感度和特異度有待進一步研究,而作者最終的推薦卻未區分人群,此處有可能存在間接性,但不足以降級。在待評價試驗方面:納入研究均關注的是超聲造影診斷技術,且不同診斷準確性試驗中所用造影劑均為意大利廠家生產的聲諾維(SonoVue)超聲造影劑,雖然使用的超聲設備的型號存在一定差異(如尤厚成等[11]和迪麗努爾·買買提明等[12]使用的是PhilipsiU22型超聲診斷儀,而陳杰等[13]和趙紅佳等[14]分別使用的是百勝DU8超聲診斷儀和CELOGIQ7超聲診斷儀),但對最后的檢查結果影響不大,因此尚構不成降級。在金標準方面:所有納入研究的金標準均為病理檢查,不存在間接性;此外,案例納入研究均為超聲造影與病理診斷的直接比較,不涉及間接比較。綜合上述情況可以得出本案例在不直接性方面不考慮降級。
2.3 不一致性
不一致性(inconsistency)考察的是系統評價納入研究之間的一致程度[15],主要包括臨床不一致性、方法學不一致性和統計學不一致性。本案例中,根據GRADE對不一致性判斷的方法,主要考察可信區間的重疊程度,以及I2和P值大小。
案例對4個結局指標異質性的判斷需要分開考慮,從敏感度森林圖(圖 1)的結果來判斷真陽性和假陰性的不一致性,從特異度森林圖(圖 2)的結果來判斷假陽性和真陰性的不一致性。圖 1的結果顯示不同研究可信區間的重疊程度較差,I2=63%,P < 0.1,因此對真陽性和假陰性兩個結局需要在不一致性方面降一級;圖 2的結果顯示不同研究可信區間的重疊程度較差,I2=75%,P < 0.1,因此對假陽性和真陰性兩個結局也需要在不一致性方面降一級。
2.4 不精確性
不精確性(imprecision)考察的是系統評價納入不同研究合并結果的精確程度[16]。
首先計算該系統評價理論所需樣本量。我們使用查表法來估算診斷性試驗的樣本含量[17]。案例共納入患者1161例,其中陽性患者所占的比例P為0.55,特異度的中位數為0.81。假設臨床醫生對該診斷方法敏感度和特異度的可接受的閾值下限均為0.70,通過查表法計算可以得出需要的對照組例數為204例(表 2),然后通過公式換算得出需要的樣本量為371例,滿足最低標準。可信區間方面,圖 1中敏感性的合并結果為0.86[95%CI(0.83,0.89)],可信區間的寬度為0.06,圖 2中特異度的合并結果為0.79[95%CI(0.75,0.82)],可信區間的寬度為0.07,二者可信區間的下限均大于臨床可接受的閾值下限。因此對于真陽性和假陰性以及假陽性和真陰性4個結局在精確性方面均不考慮降級。

2.5 發表偏倚
發表偏倚(publication bias)考察的是對符合納入標準的診斷性研究(包括期刊論文、會議論文、碩博士論文以及未發表文獻)納入是否全面[18]。診斷性試驗系統評價的發表偏倚的判斷推薦使用Deeks’漏斗圖[19]。
案例本身未對發表偏倚進行評估,因此,我們將其原始數據錄入Stata 12.0軟件,生成Deeks’漏斗圖(圖 6)。結果顯示P值為0.61,提示漏斗圖對稱,存在發表偏倚的可能性較低,故此處不考慮降級。

3 結果呈現
由于GARDEpro當前的版本對診斷性試驗系統評價的證據分級存在一定局限,如在納入研究類型的選項中沒有提供診斷性試驗的選項,以及對診斷性試驗的敏感度和特異度的信息無法填寫等。因此對于診斷性試驗系統評價證據質量分級推薦運用GDT網站( http://gdt.guidelinedevelopment.org/central_prod/_design/client/index.html#)進行操作。GDT網站亦由GRADE工作組研發,是幫助指南制定者進行證據分級和形成推薦意見的在線工具(目前中國GRADE中心正在翻譯該網站的中文版)。GDT與GRADEpro軟件的異同點見
比較類別 GDT網站 GRADEpro 相同點 分級原理 基于GRADE分級方法 費用情況 免費獲取 適用對象 干預性和診斷性試驗系統評價 不同點 語言 英文和中文 英文 便利性 需要網絡 不依賴網絡 結果呈現 只有1種結果呈現方式 有3種結果呈現方式 可編輯性 不可編輯結果 可在Word中編輯結果
在GDT網站中呈現GRADE分級結果的步驟如下:
①創建個人帳號。打開GDT網站,根據網站的要求填寫注冊信息,完成注冊進入操作界面。
②創建新項目。點擊“Start New”開始新項目,并在網站彈出的對話框中輸入診斷性試驗系統評價名稱。
③完善診斷信息。添加診斷問題并完善關于該診斷問題的相關信息,包括待評價診斷性試驗、參考診斷性試驗、診斷的疾病和適用的人群,完成這些信息后點擊“保存”。
④完善結局指標信息和分級結果。完成診斷問題的信息之后便可進入到證據分級界面,在錄入分級結果之前首先應完善結局指標的基本信息,包括待評價診斷性試驗與對照試驗的敏感度和特異度、驗前概率以及納入研究的個數和研究類型。完成上述信息之后,在診斷性試驗系統評價的5個降級因素對應的下拉菜單中選擇“no”、“serious(-1)”和“very serious(-2)”,將證據質量分為高、中、低和極低四級,當選擇“serious”或“very serious”時需要添加解釋說明。
⑤導出和保存結果。
本案例最后經編輯和完善的GRADE分級結果如表 4所示。

4 結論解讀
本案例在討論部分對超聲造影診斷技術做了肯定的評價,認為超聲造影對鑒別乳腺良惡性具有較高的準確性,且診斷穩定性較好,又因超聲檢查方便快捷,價格便宜,因此超聲造影是鑒別診斷乳腺腫塊良惡性比較好的手段。但作者未從更系統的角度來分析其結論的偏倚大小。從GRADE分級結果可以看出,超聲造影相對病理檢測具有較高診斷價值的證據質量為中(B級),即我們對該診斷方法的敏感度和特異度只有中等把握,該預測值有可能接近實際值,但也有可能有較大差異。如果進一步考慮到該診斷方法對患者重要的臨床結局指標(如生存率或生活質量)的影響,則這種不確定性會更大,故臨床醫生在使用該結論時需謹慎,未來需要高質量的診斷性RCT來確證該診斷措施對患者最終的利弊。
5 小結
對診斷性試驗系統評價進行正確的證據質量分級,有助于作者客觀解釋結果,也有利于讀者和使用者應用研究成果。但需注意的,只有制作規范的高質量系統評價才適合運用GRADE進行分級[20, 21]。本文我們推薦使用AMSTAR,因其制定嚴謹,應用廣泛,且可操作性強。盡管本文就診斷性試驗系統評價的GRADE分級嘗試做了實例解讀,但由于診斷性試驗系統評價方法學和GRADE應用于診斷性試驗系統評價的方法目前仍在不斷發展,有很多地方尚未有定論,文中不免存在疏漏和偏頗,為避免誤導,建議讀者就有疑問處聯系本文作者,或進一步閱讀相關外文文獻,以及聯系國際該領域方法學家。另外,本文僅關注了基于診斷準確性試驗系統評價的GRADE分級,對于診斷性隨機對照試驗系統評價,未再展開詳述。
證據推薦分級的評價、制定與評估(Grading of Recommendations Assessment,Development and Evaluation,GRADE)方法在診斷性試驗系統評價中的運用包括兩種情況:一種是在系統評價制作過程中,評價者按照如Cochrane系統評價的制作方法完成證據的合成后,對證據進行GRADE分級;另一種是在系統評價使用過程中,使用者在對系統評價證據進行GRADE分級前,需要首先運用AMSTAR等[1, 2]工具評價該系統評價的方法學質量,避免不考慮系統評價的制作質量而盲目進行證據分級,導致分級結果出現重大偏倚[3]。在《GRADE在診斷準確性試驗系統評價中應用的原理、方法、挑戰及發展趨勢》一文[4]中,我們介紹了GRADE應用于診斷準確性試驗系統評價證據分級的基本原理、方法、挑戰以及發展趨勢。為進一步展示其詳細評價過程,便于讀者掌握,本文結合實例[5]闡述了GRADE用于診斷準確性試驗系統評價證據分級的過程,以及如何在GDT(Guideline Development Tool)網站中呈現分級結果。GDT網站由GRADE工作組研發,是幫助指南制定者進行證據分級和形成推薦意見的在線工具。
1 案例基本信息及AMSTAR評價
1.1 案例來源
以發表在《中國循證醫學雜志》2014年第1期的《超聲造影對乳腺腫塊良惡性鑒別診斷價值的系統評價》一文[5]作為案例。
1.2 PICO
案例的目的是評價超聲造影對乳腺腫塊良惡性的診斷價值。具體PICO可以結構化為:P,乳腺腫塊良惡性患者;I,超聲造影檢查;C,病理診斷;O,真陽性(患者乳腺腫塊真實情況為惡性)、假陽性(患者被誤診為惡性乳腺腫塊)、假陰性(患者被漏診為良性乳腺腫塊)、真陰性(患者乳腺腫塊真實情況為良性)。
1.3 主要結果與結論
案例共納入19個研究,共計1161例患者。納入研究的一般特征和方法學質量見原文,而為便于解析,我們將原文中合并敏感度和特異度的森林圖,以及SROC曲線圖在本文中列出(圖 1~3)。原作者結論為:“現有研究證實,超聲造影對乳腺腫瘤良惡性鑒別診斷有較高的敏感性和特異性,可用于乳腺良惡性腫瘤的鑒別診斷”。



1.4 方法學評估
運用AMSTAR工具對該系統評價的方法學質量進行評估,結果顯示其方法質量較好(表 1),因此可以應用GRADE進行證據質量分級。

2 影響證據質量的因素
2.1 偏倚風險
偏倚風險(risk of bias)考察的是納入診斷準確性試驗的設計、實施與測量[6]。具體可以運用QUADAS-2 [7, 8]工具來幫助判斷。但在很多診斷性試驗的系統評價(如本案例)中仍然在使用QUADAS [9]工具對納入研究的方法學質量進行評價。此時在對偏倚風險進行評價之前需要將QUADAS評價結果對照QUADAS-2的格式進行轉化,或者運用QUADAS-2重新評價系統評價納入研究的方法學質量。相對于原版QUADAS的條目,QUADAS-2定義問題的方式更具有針對性和臨床操作性,并考慮到更為精確的偏倚等級和原始診斷準確性研究的適用性。
本案例中我們參考原文中QUADAS評價結果[5]對照QUADAS-2的格式進行了調整,納入研究偏倚風險的結果如圖 4和圖 5所示。總體來看,案例中納入研究的偏倚風險較小,在真陽性、假陽性、假陰性和真陰性四個結局指標上均不考慮降級。


2.2 不直接性
不直接性(indirectness)考察的是納入研究與系統評價擬回答的臨床問題以及系統評價作者最后的結論之間的匹配程度[10]。
在人群方面:案例納入研究的人群年齡范圍為41~58歲,但乳腺惡性腫瘤目前有年輕化趨勢,對于41歲以下患者該診斷方法是否仍然具有同樣的敏感度和特異度有待進一步研究,而作者最終的推薦卻未區分人群,此處有可能存在間接性,但不足以降級。在待評價試驗方面:納入研究均關注的是超聲造影診斷技術,且不同診斷準確性試驗中所用造影劑均為意大利廠家生產的聲諾維(SonoVue)超聲造影劑,雖然使用的超聲設備的型號存在一定差異(如尤厚成等[11]和迪麗努爾·買買提明等[12]使用的是PhilipsiU22型超聲診斷儀,而陳杰等[13]和趙紅佳等[14]分別使用的是百勝DU8超聲診斷儀和CELOGIQ7超聲診斷儀),但對最后的檢查結果影響不大,因此尚構不成降級。在金標準方面:所有納入研究的金標準均為病理檢查,不存在間接性;此外,案例納入研究均為超聲造影與病理診斷的直接比較,不涉及間接比較。綜合上述情況可以得出本案例在不直接性方面不考慮降級。
2.3 不一致性
不一致性(inconsistency)考察的是系統評價納入研究之間的一致程度[15],主要包括臨床不一致性、方法學不一致性和統計學不一致性。本案例中,根據GRADE對不一致性判斷的方法,主要考察可信區間的重疊程度,以及I2和P值大小。
案例對4個結局指標異質性的判斷需要分開考慮,從敏感度森林圖(圖 1)的結果來判斷真陽性和假陰性的不一致性,從特異度森林圖(圖 2)的結果來判斷假陽性和真陰性的不一致性。圖 1的結果顯示不同研究可信區間的重疊程度較差,I2=63%,P < 0.1,因此對真陽性和假陰性兩個結局需要在不一致性方面降一級;圖 2的結果顯示不同研究可信區間的重疊程度較差,I2=75%,P < 0.1,因此對假陽性和真陰性兩個結局也需要在不一致性方面降一級。
2.4 不精確性
不精確性(imprecision)考察的是系統評價納入不同研究合并結果的精確程度[16]。
首先計算該系統評價理論所需樣本量。我們使用查表法來估算診斷性試驗的樣本含量[17]。案例共納入患者1161例,其中陽性患者所占的比例P為0.55,特異度的中位數為0.81。假設臨床醫生對該診斷方法敏感度和特異度的可接受的閾值下限均為0.70,通過查表法計算可以得出需要的對照組例數為204例(表 2),然后通過公式換算得出需要的樣本量為371例,滿足最低標準。可信區間方面,圖 1中敏感性的合并結果為0.86[95%CI(0.83,0.89)],可信區間的寬度為0.06,圖 2中特異度的合并結果為0.79[95%CI(0.75,0.82)],可信區間的寬度為0.07,二者可信區間的下限均大于臨床可接受的閾值下限。因此對于真陽性和假陰性以及假陽性和真陰性4個結局在精確性方面均不考慮降級。

2.5 發表偏倚
發表偏倚(publication bias)考察的是對符合納入標準的診斷性研究(包括期刊論文、會議論文、碩博士論文以及未發表文獻)納入是否全面[18]。診斷性試驗系統評價的發表偏倚的判斷推薦使用Deeks’漏斗圖[19]。
案例本身未對發表偏倚進行評估,因此,我們將其原始數據錄入Stata 12.0軟件,生成Deeks’漏斗圖(圖 6)。結果顯示P值為0.61,提示漏斗圖對稱,存在發表偏倚的可能性較低,故此處不考慮降級。

3 結果呈現
由于GARDEpro當前的版本對診斷性試驗系統評價的證據分級存在一定局限,如在納入研究類型的選項中沒有提供診斷性試驗的選項,以及對診斷性試驗的敏感度和特異度的信息無法填寫等。因此對于診斷性試驗系統評價證據質量分級推薦運用GDT網站( http://gdt.guidelinedevelopment.org/central_prod/_design/client/index.html#)進行操作。GDT網站亦由GRADE工作組研發,是幫助指南制定者進行證據分級和形成推薦意見的在線工具(目前中國GRADE中心正在翻譯該網站的中文版)。GDT與GRADEpro軟件的異同點見
比較類別 GDT網站 GRADEpro 相同點 分級原理 基于GRADE分級方法 費用情況 免費獲取 適用對象 干預性和診斷性試驗系統評價 不同點 語言 英文和中文 英文 便利性 需要網絡 不依賴網絡 結果呈現 只有1種結果呈現方式 有3種結果呈現方式 可編輯性 不可編輯結果 可在Word中編輯結果
在GDT網站中呈現GRADE分級結果的步驟如下:
①創建個人帳號。打開GDT網站,根據網站的要求填寫注冊信息,完成注冊進入操作界面。
②創建新項目。點擊“Start New”開始新項目,并在網站彈出的對話框中輸入診斷性試驗系統評價名稱。
③完善診斷信息。添加診斷問題并完善關于該診斷問題的相關信息,包括待評價診斷性試驗、參考診斷性試驗、診斷的疾病和適用的人群,完成這些信息后點擊“保存”。
④完善結局指標信息和分級結果。完成診斷問題的信息之后便可進入到證據分級界面,在錄入分級結果之前首先應完善結局指標的基本信息,包括待評價診斷性試驗與對照試驗的敏感度和特異度、驗前概率以及納入研究的個數和研究類型。完成上述信息之后,在診斷性試驗系統評價的5個降級因素對應的下拉菜單中選擇“no”、“serious(-1)”和“very serious(-2)”,將證據質量分為高、中、低和極低四級,當選擇“serious”或“very serious”時需要添加解釋說明。
⑤導出和保存結果。
本案例最后經編輯和完善的GRADE分級結果如表 4所示。

4 結論解讀
本案例在討論部分對超聲造影診斷技術做了肯定的評價,認為超聲造影對鑒別乳腺良惡性具有較高的準確性,且診斷穩定性較好,又因超聲檢查方便快捷,價格便宜,因此超聲造影是鑒別診斷乳腺腫塊良惡性比較好的手段。但作者未從更系統的角度來分析其結論的偏倚大小。從GRADE分級結果可以看出,超聲造影相對病理檢測具有較高診斷價值的證據質量為中(B級),即我們對該診斷方法的敏感度和特異度只有中等把握,該預測值有可能接近實際值,但也有可能有較大差異。如果進一步考慮到該診斷方法對患者重要的臨床結局指標(如生存率或生活質量)的影響,則這種不確定性會更大,故臨床醫生在使用該結論時需謹慎,未來需要高質量的診斷性RCT來確證該診斷措施對患者最終的利弊。
5 小結
對診斷性試驗系統評價進行正確的證據質量分級,有助于作者客觀解釋結果,也有利于讀者和使用者應用研究成果。但需注意的,只有制作規范的高質量系統評價才適合運用GRADE進行分級[20, 21]。本文我們推薦使用AMSTAR,因其制定嚴謹,應用廣泛,且可操作性強。盡管本文就診斷性試驗系統評價的GRADE分級嘗試做了實例解讀,但由于診斷性試驗系統評價方法學和GRADE應用于診斷性試驗系統評價的方法目前仍在不斷發展,有很多地方尚未有定論,文中不免存在疏漏和偏頗,為避免誤導,建議讀者就有疑問處聯系本文作者,或進一步閱讀相關外文文獻,以及聯系國際該領域方法學家。另外,本文僅關注了基于診斷準確性試驗系統評價的GRADE分級,對于診斷性隨機對照試驗系統評價,未再展開詳述。