網狀Meta分析的最大優勢在于可以量化比較同類疾病的不同干預措施,合并直接比較和間接比較證據,并按照某一結果指標的優劣排序,從而優選最佳的方案。本文結合GRADE工作組最新發表的文章以及其他相關研究,介紹GRADE在網狀Meta分析中應用的原理和方法。GRADE工作組對網狀Meta分析證據分級主要分為四個步驟:首先呈現兩個干預措施之間直接和間接比較的效應量和可信區間,其次分別對其進行證據質量評估,再次呈現網狀Meta分析的結果,最后評估網狀Meta分析結果的證據質量。直接證據的評估參考GRADE在傳統Meta分析中的應用方法。間接證據的評估依據產生間接結果的直接比較中證據質量低的組別。基于直接比較和間接比較網狀Meta分析結果的證據質量取二者證據質量高的組別作為網狀Meta分析的證據級別。GRADE工作組提出了對網狀Meta分析進行證據質量分級的四步法,進一步完善了GRADE在網狀Meta分析中運用的理論基礎。但具體分級的過程中,分級人員需要熟悉GRADE的基本理論,并進行預試驗,以保證對分級標準理解的一致性。此外還需要考慮間接比較中不同組別間的不可傳遞性以及直接比較和間接比較結果的不一致性。
引用本文: 楊楠, 肖淑君, 周奇, 俞陽, 姚亮, 陳耀龍, 田金徽, 李倫, 楊克虎. GRADE在網狀Meta分析中應用的基本原理和方法介紹. 中國循證醫學雜志, 2016, 16(5): 598-603. doi: 10.7507/1672-2531.20160092 復制
根據“國際藥物經濟學和結果研究協會”(International Society for Pharmacoeconomics and Outcomes Research,ISPOR)的報告 [1, 2]:網狀Meta分析包括調整間接比較和混合治療分析,混合治療分析是在直接比較的基礎上合并間接比較的證據,從而提高分析結果的精確性。網狀Meta分析的最大優勢在于既可量化比較同一疾病的不同干預措施,合并直接比較和間接比較證據,并按照某一結局指標的優劣排序,從而優選最佳的方案。相對傳統的Meta分析,網狀Meta分析在臨床實踐中更具參考價值。在介紹了GRADE在干預性系統評價 [3]、診斷試驗系統評價 [4, 5]中應用的原理和方法基礎上,本文結合GRADE工作組最新發表的文章以及其他相關研究 [6, 7],重點介紹GRADE在網狀Meta分析中應用的原理和方法,為國內的系統評價制作者、指南制定者以及其他對GRADE感興趣的讀者對網狀Meta分析進行證據質量評價提供參考。
1 基本原理
GRADE工作組開發了一整套科學透明的證據分級體系 [8-14],目的在于評價不同干預措施對患者的重要結局(如全因死亡、心絞痛復發等)產生影響的可信程度,即證據質量。評價的主要內容包括五個降級因素,分別為:納入研究的方法學質量(risk of bias,偏倚風險);研究關注的人群、干預措施以及結局指標的外推性(indirectness,不直接性);不同研究間結果的一致程度(inconsistency,不一致性);不同研究合并結果的精確程度(imprecision,不精確性);對符合標準研究納入的全面程度(publication bias,發表偏倚)。以及大效應量(large effect)、劑量效應關系(dose-response gradient)和相關混雜(plausible confounding)這三個升級因素。
需要注意的是在不同研究類型的系統評價中,GRADE分級標準側重的內容存在一定差異,如在診斷試驗系統評價中對發表偏倚的判斷推薦運用Deeks漏斗圖檢驗 [15],而在預后研究系統評價中則需要根據不一致性大小分別運用Begg [16]或Egger [17]漏斗圖檢驗 [18]。由于網狀Meta分析主要是基于RCT(randomized controlled trial,隨機對照試驗),因此GRADE在網狀Meta分析中應用的基本原則主要是考察上述5個降級因素,具體流程GRADE工作組已經在相關文章中做了詳細闡述 [8-14]。但與其他類型系統評價或Meta分析相比,網狀Meta分析中同時納入直接比較和間接比較證據,因而分級過程會相對復雜一些,除了要考慮上述5個降級因素之外,還需要考慮間接比較中不同組別在人群基線特征、共同對照以及結果測量方面的不可傳遞性(intransivity)以及直接比較和間接比較結果的不同質性(incoherence)。針對網狀Meta分析的特殊性,GRADE工作組建議分4步來對其進行證據質量分級:第1步,將直接比較和間接比較的效應量和可信區間分開呈現;第2步,對每一組直接比較和間接比較的證據質量分別進行分級;第3和4步,確定和呈現基于直接比較和間接比較網狀Meta分析結果的證據質量。
2 分級方法
為了更清楚地呈現GRADE對網狀Meta分析的證據質量分級方法,本文參考GRADE工作組選擇的一篇網狀Meta分析 [19]實例來闡述GRADE在網狀Meta分析應用中的具體流程。該網狀Meta分析關注的是不同藥物治療對預防骨質疏松老年人或有骨質疏松風險老年人發生脆性骨折的效果 [19]。目標人群是絕經后有發生脆性骨折風險的婦女。藥物治療包括雙磷酸鹽類藥物(包括阿侖膦酸鈉、利塞膦酸鈉、唑來膦酸鈉和伊班膦酸鈉)、特立帕肽、選擇性雌激素受體調節劑(雷洛昔芬)、德尼單抗、鈣劑以及維生素D。以髖骨骨折發生率這一重要臨床結局為例,該結局共納入40個試驗包括139 647例受試對象,其中2 567例(1.8%)發生了髖骨骨折。各種干預之間的網絡關系見圖 1。具體分級流程如下:

2.1 第1步,將直接比較和間接比較的效應量和可信區間分開呈現
與直接比較相比,間接比較的統計檢驗效能較低,可信區間的范圍也較寬,且間接比較經過的共同對照越多,分析的誤差也隨之增大 [20]。由此可見直接比較和間接比較對網狀Meta分析最終證據質量影響程度不一樣。因此在對網狀Meta分析進行證據質量分級之前,首先需要將直接比較和間接比較的效應量和可信區間的結果分開,以便分別進行證據質量分級。當前存在多種方法可以檢驗間接比較的效應值和可信區間 [21-23],本文我們應用節點分析法(node splitting)來估算 [24]。如阿侖膦酸鈉與雷洛昔芬預防脆性骨折在進行節點分析后,可得出其直接比較的OR值為0.49,由于二者相關研究的樣本量很小,導致其95%CI(confidence interval,可信區間)較寬,為(0.04,5.45)。間接比較的OR值為0.53,95%CI為(0.03,0.90),包括1個公共對照(維生素D聯合鈣劑,圖 1紅色實線)和3個公共對照(包括維生素D、鈣劑和安慰劑,圖 1綠色和藍色虛線) [19]。
2.2 第2步,對每組直接比較和間接比較的證據質量進行分級
對于直接比較的證據質量分級可參考GRADE對干預性系統評價分級的基本原則和方法 [8-14],具體分級過程本文不做詳述。如對于上述網狀Meta分析的案例,在預防骨質疏松性骨折的直接比較中有7個結果的證據質量級別是“高”和 “中”,9個為“低”或“極低”(表 1)。對于間接比較的證據質量分級首先需要遴選最佳的比較路徑。間接比較可包括一個公共對照(如A vs. B 通過 A vs. C 和B vs. C 獲得),或多個公共對照(如A vs. B 通過 A vs. D,D vs. E 和B vs. E),共同對照越多,則結果的可信度越差 [24]。總之,間接比較路徑中公共對照的數量越少,結果的可信度隨之增加。選擇最佳間接比較路徑之后,需要對路徑中的單個組別分別進行證據質量分級,然后選擇其中證據水平低的證據等級作為這組間接比較的證據質量等級。如在上述案例中,對阿侖膦酸鈉和雷洛昔芬的間接比較,其比較路徑為阿侖膦酸鈉對比維生素D聯合鈣劑以及雷洛昔芬對比維生素D聯合鈣劑(圖 1),參考GRADE對干預性系統評價證據質量分級的原理和方法 [8-14],分別對這兩組證據質量進行分級,兩組的分級結果都是“中”,因此“阿侖膦酸鈉和雷洛昔芬”間接比較的證據質量等級為“中”。

在處理間接比較證據質量分級的過程中,需要注意不同組別之間在人群基線特征、共同對照以及結果測量是否存明顯差異,即不可傳遞性,這種差異會降低間接比較結果的可信程度。例如在本案例中,關于利塞膦酸鈉和維生素D聯合鈣劑的間接比較(圖 1),安慰劑是共同對照,有20個試驗比較了利塞膦酸鈉和安慰劑的療效,其中有一半的試驗納入人群患有會影響骨代謝的慢性疾病(如炎癥性腸炎)或接受糖皮質激素治療 [19]。而在維生素D聯合鈣劑對比安慰劑試驗中是將這部分人群排除了 [25]。也就是說,利塞膦酸鈉對比安慰劑和維生素D聯合鈣劑對比安慰劑這兩組試驗人群的基線特征存在較大差異,因此需要對這組間接比較的證據質量再降低一級。此外,GRADE工作組建議對不直接性的降級需要謹慎,因為理論上任何兩個相關的試驗之間都會存在不直接性,只有存在重大不直接性才會考慮降級,并且分級者需要對降級理由給予詳細說明。
2.3 第3和4步,確定和呈現基于直接比較和間接比較網狀Meta分析結果的證據質量
網狀Meta分析中對于任何兩種干預措施效果的比較,一般有三種情況:① 只有直接比較證據;② 只有間接比較證據;③ 同時存在直接比較和間接比較證據。對于前兩種情況,兩種干預措施比較的證據質量取決于直接比較或間接比較證據質量。在本案例中,表 1呈現了不同干預措施預防骨質疏松性骨折的直接比較、間接比較以及網狀Meta分析結果的證據質量。對于多數組別,都是只存在間接證據(如阿侖膦酸鈉對比唑來膦酸鈉),其間接比較的證據等級就代表了證據水平。相對復雜的是第三種情況,即直接比較和間接比較證據同時存在,GRADE工作組建議將證據級別較高的證據等級作為網狀Meta分析結果的證據質量 [6]。如直接比較結果的證據質量為“中”,間接比較的證據質量為“低”,則網狀Meta分析結果的證據質量為“中”。如本案例中的維生素D聯合鈣劑對比利塞膦酸鈉,直接比較證據的質量是“極低”,間接比較的證據質量是“低”,此時網狀Meta分析結果的證據質量就為“低”。之所以這樣確定的原因主要是:基于直接比較和間接比較的網狀Meta分析結果因為樣本量的增加而更加精確,一定程度上增加了結果的可信度,此外高質量證據對臨床實踐和決策的意義更大。
上述步驟只是對基于直接比較和間接比較網狀Meta分析結果的證據質量的初步分級。在此基礎上,還需要考慮的一個因素是直接比較和間接比較結果的不同質性。如果直接比較和間接比較的一致性較好,那么之前的分級結果就是網狀Meta分析結果的最后證據質量,如果二者的結果存在嚴重不同質,則二者網狀Meta分析結果的最終證據質量還需要再降低一級。關于同質程度的判斷,當前有較多的定性和定量方法可以幫助分析,如比較RCT的基本特征 [26, 27]、不同質性模型 [28, 29]、回測法 [30, 31]、析因方差分析法 [32]等,國內也有相應的文章對此進行了詳細介紹 [24]。在具體分級的過程中,需要注意的是,有時候會出現直接比較與間接比較的證據質量的差異可能很大,但結果的一致性較好,對于這種情況可能的解釋是相關的降級因素雖然存在但沒有對結果產生大的影響。還有一點需要注意的是,在判斷不精確性時當直接比較或間接比較結果的可信區間都跨越了臨床閾值線,即結果不精確,但二者網狀Meta分析結果的可信區間沒有跨越閾值線,此時我們需要對直接比較和間接比較的證據在不精確性方面降級,但對網狀Meta分析結果的不精確性則不需要降級。
3 小結
網狀Meta分析的制定流程以及方法學已經比較成熟 [33],ISPOR已經制定了3部專門論述如何制定、解讀和評價網狀Meta分析的手冊 [1, 2, 34]。此外,還有研究在關注制定關于網狀Meta分析報告規范的PRISMA擴展版 [35]。但很少有研究專門介紹如何在網狀Meta分析中應用GRADE對其進行證據質量分級。在GRADE之前,很多網狀Meta分析僅僅是通過評價納入研究的偏倚風險來推測總體證據質量 [36-39],這種方法由于沒有考慮到其他偏倚因素,因而存在很大局限性。但如果不對網狀Meta分析進行證據質量分級,則可能對讀者理解網狀Meta結論的真實性和可靠性造成障礙,甚至會誤導讀者。例如在本案例中,運用網狀Meta分析相關軟件實現對多種干預措施的效果進行排序,結果顯示特立帕肽預防骨質疏松性骨折的效果在10種干預措施的效果中排名第一(OR=0.42,對照組為不治療,表 1)。但進行GRADE分級之后,發現特立帕肽對比安慰劑或者其他對照,其證據質量是“低”或“極低”(表 1),說明特立帕肽對比安慰劑或者其他對照對預防骨質疏松性骨折的效果非常不明確,在臨床實踐中運用應該慎重。所以如果沒有GRADE分級結果,臨床醫生很可能會根據其干預的效果排序將立帕肽推薦給有骨質疏松性骨折風險的患者使用。
雖然GRADE工作組提出了對網狀Meta分析進行證據質量分級的四步法,進一步完善了GRADE在網狀Meta分析中運用的理論基礎,但具體分級的過程中,分級人員需要對GRADE的基本理論和原則很熟悉,并進行預試驗,以保證對分級標準理解的一致性 [40]。此外,還需要考慮間接比較中不同組別間的不可傳遞性以及直接比較和間接比較結果的不同質性。當然GRADE在網狀Meta分析中的應用也存在一些問題,如當直接比較和間接比較的結果一致性較差時,GRADE工作組也難以權衡他們對最后網狀Meta分析結果證據質量的影響。但GRADE依然是當前針對網狀Meta分析進行證據質量分級最有價值的工具。相信隨著網狀Meta分析的文獻數量越來越多,以及研究質量的逐步提高,GRADE在網狀Meta分析中的運用將會逐漸成熟和普及 [41]。
根據“國際藥物經濟學和結果研究協會”(International Society for Pharmacoeconomics and Outcomes Research,ISPOR)的報告 [1, 2]:網狀Meta分析包括調整間接比較和混合治療分析,混合治療分析是在直接比較的基礎上合并間接比較的證據,從而提高分析結果的精確性。網狀Meta分析的最大優勢在于既可量化比較同一疾病的不同干預措施,合并直接比較和間接比較證據,并按照某一結局指標的優劣排序,從而優選最佳的方案。相對傳統的Meta分析,網狀Meta分析在臨床實踐中更具參考價值。在介紹了GRADE在干預性系統評價 [3]、診斷試驗系統評價 [4, 5]中應用的原理和方法基礎上,本文結合GRADE工作組最新發表的文章以及其他相關研究 [6, 7],重點介紹GRADE在網狀Meta分析中應用的原理和方法,為國內的系統評價制作者、指南制定者以及其他對GRADE感興趣的讀者對網狀Meta分析進行證據質量評價提供參考。
1 基本原理
GRADE工作組開發了一整套科學透明的證據分級體系 [8-14],目的在于評價不同干預措施對患者的重要結局(如全因死亡、心絞痛復發等)產生影響的可信程度,即證據質量。評價的主要內容包括五個降級因素,分別為:納入研究的方法學質量(risk of bias,偏倚風險);研究關注的人群、干預措施以及結局指標的外推性(indirectness,不直接性);不同研究間結果的一致程度(inconsistency,不一致性);不同研究合并結果的精確程度(imprecision,不精確性);對符合標準研究納入的全面程度(publication bias,發表偏倚)。以及大效應量(large effect)、劑量效應關系(dose-response gradient)和相關混雜(plausible confounding)這三個升級因素。
需要注意的是在不同研究類型的系統評價中,GRADE分級標準側重的內容存在一定差異,如在診斷試驗系統評價中對發表偏倚的判斷推薦運用Deeks漏斗圖檢驗 [15],而在預后研究系統評價中則需要根據不一致性大小分別運用Begg [16]或Egger [17]漏斗圖檢驗 [18]。由于網狀Meta分析主要是基于RCT(randomized controlled trial,隨機對照試驗),因此GRADE在網狀Meta分析中應用的基本原則主要是考察上述5個降級因素,具體流程GRADE工作組已經在相關文章中做了詳細闡述 [8-14]。但與其他類型系統評價或Meta分析相比,網狀Meta分析中同時納入直接比較和間接比較證據,因而分級過程會相對復雜一些,除了要考慮上述5個降級因素之外,還需要考慮間接比較中不同組別在人群基線特征、共同對照以及結果測量方面的不可傳遞性(intransivity)以及直接比較和間接比較結果的不同質性(incoherence)。針對網狀Meta分析的特殊性,GRADE工作組建議分4步來對其進行證據質量分級:第1步,將直接比較和間接比較的效應量和可信區間分開呈現;第2步,對每一組直接比較和間接比較的證據質量分別進行分級;第3和4步,確定和呈現基于直接比較和間接比較網狀Meta分析結果的證據質量。
2 分級方法
為了更清楚地呈現GRADE對網狀Meta分析的證據質量分級方法,本文參考GRADE工作組選擇的一篇網狀Meta分析 [19]實例來闡述GRADE在網狀Meta分析應用中的具體流程。該網狀Meta分析關注的是不同藥物治療對預防骨質疏松老年人或有骨質疏松風險老年人發生脆性骨折的效果 [19]。目標人群是絕經后有發生脆性骨折風險的婦女。藥物治療包括雙磷酸鹽類藥物(包括阿侖膦酸鈉、利塞膦酸鈉、唑來膦酸鈉和伊班膦酸鈉)、特立帕肽、選擇性雌激素受體調節劑(雷洛昔芬)、德尼單抗、鈣劑以及維生素D。以髖骨骨折發生率這一重要臨床結局為例,該結局共納入40個試驗包括139 647例受試對象,其中2 567例(1.8%)發生了髖骨骨折。各種干預之間的網絡關系見圖 1。具體分級流程如下:

2.1 第1步,將直接比較和間接比較的效應量和可信區間分開呈現
與直接比較相比,間接比較的統計檢驗效能較低,可信區間的范圍也較寬,且間接比較經過的共同對照越多,分析的誤差也隨之增大 [20]。由此可見直接比較和間接比較對網狀Meta分析最終證據質量影響程度不一樣。因此在對網狀Meta分析進行證據質量分級之前,首先需要將直接比較和間接比較的效應量和可信區間的結果分開,以便分別進行證據質量分級。當前存在多種方法可以檢驗間接比較的效應值和可信區間 [21-23],本文我們應用節點分析法(node splitting)來估算 [24]。如阿侖膦酸鈉與雷洛昔芬預防脆性骨折在進行節點分析后,可得出其直接比較的OR值為0.49,由于二者相關研究的樣本量很小,導致其95%CI(confidence interval,可信區間)較寬,為(0.04,5.45)。間接比較的OR值為0.53,95%CI為(0.03,0.90),包括1個公共對照(維生素D聯合鈣劑,圖 1紅色實線)和3個公共對照(包括維生素D、鈣劑和安慰劑,圖 1綠色和藍色虛線) [19]。
2.2 第2步,對每組直接比較和間接比較的證據質量進行分級
對于直接比較的證據質量分級可參考GRADE對干預性系統評價分級的基本原則和方法 [8-14],具體分級過程本文不做詳述。如對于上述網狀Meta分析的案例,在預防骨質疏松性骨折的直接比較中有7個結果的證據質量級別是“高”和 “中”,9個為“低”或“極低”(表 1)。對于間接比較的證據質量分級首先需要遴選最佳的比較路徑。間接比較可包括一個公共對照(如A vs. B 通過 A vs. C 和B vs. C 獲得),或多個公共對照(如A vs. B 通過 A vs. D,D vs. E 和B vs. E),共同對照越多,則結果的可信度越差 [24]。總之,間接比較路徑中公共對照的數量越少,結果的可信度隨之增加。選擇最佳間接比較路徑之后,需要對路徑中的單個組別分別進行證據質量分級,然后選擇其中證據水平低的證據等級作為這組間接比較的證據質量等級。如在上述案例中,對阿侖膦酸鈉和雷洛昔芬的間接比較,其比較路徑為阿侖膦酸鈉對比維生素D聯合鈣劑以及雷洛昔芬對比維生素D聯合鈣劑(圖 1),參考GRADE對干預性系統評價證據質量分級的原理和方法 [8-14],分別對這兩組證據質量進行分級,兩組的分級結果都是“中”,因此“阿侖膦酸鈉和雷洛昔芬”間接比較的證據質量等級為“中”。

在處理間接比較證據質量分級的過程中,需要注意不同組別之間在人群基線特征、共同對照以及結果測量是否存明顯差異,即不可傳遞性,這種差異會降低間接比較結果的可信程度。例如在本案例中,關于利塞膦酸鈉和維生素D聯合鈣劑的間接比較(圖 1),安慰劑是共同對照,有20個試驗比較了利塞膦酸鈉和安慰劑的療效,其中有一半的試驗納入人群患有會影響骨代謝的慢性疾病(如炎癥性腸炎)或接受糖皮質激素治療 [19]。而在維生素D聯合鈣劑對比安慰劑試驗中是將這部分人群排除了 [25]。也就是說,利塞膦酸鈉對比安慰劑和維生素D聯合鈣劑對比安慰劑這兩組試驗人群的基線特征存在較大差異,因此需要對這組間接比較的證據質量再降低一級。此外,GRADE工作組建議對不直接性的降級需要謹慎,因為理論上任何兩個相關的試驗之間都會存在不直接性,只有存在重大不直接性才會考慮降級,并且分級者需要對降級理由給予詳細說明。
2.3 第3和4步,確定和呈現基于直接比較和間接比較網狀Meta分析結果的證據質量
網狀Meta分析中對于任何兩種干預措施效果的比較,一般有三種情況:① 只有直接比較證據;② 只有間接比較證據;③ 同時存在直接比較和間接比較證據。對于前兩種情況,兩種干預措施比較的證據質量取決于直接比較或間接比較證據質量。在本案例中,表 1呈現了不同干預措施預防骨質疏松性骨折的直接比較、間接比較以及網狀Meta分析結果的證據質量。對于多數組別,都是只存在間接證據(如阿侖膦酸鈉對比唑來膦酸鈉),其間接比較的證據等級就代表了證據水平。相對復雜的是第三種情況,即直接比較和間接比較證據同時存在,GRADE工作組建議將證據級別較高的證據等級作為網狀Meta分析結果的證據質量 [6]。如直接比較結果的證據質量為“中”,間接比較的證據質量為“低”,則網狀Meta分析結果的證據質量為“中”。如本案例中的維生素D聯合鈣劑對比利塞膦酸鈉,直接比較證據的質量是“極低”,間接比較的證據質量是“低”,此時網狀Meta分析結果的證據質量就為“低”。之所以這樣確定的原因主要是:基于直接比較和間接比較的網狀Meta分析結果因為樣本量的增加而更加精確,一定程度上增加了結果的可信度,此外高質量證據對臨床實踐和決策的意義更大。
上述步驟只是對基于直接比較和間接比較網狀Meta分析結果的證據質量的初步分級。在此基礎上,還需要考慮的一個因素是直接比較和間接比較結果的不同質性。如果直接比較和間接比較的一致性較好,那么之前的分級結果就是網狀Meta分析結果的最后證據質量,如果二者的結果存在嚴重不同質,則二者網狀Meta分析結果的最終證據質量還需要再降低一級。關于同質程度的判斷,當前有較多的定性和定量方法可以幫助分析,如比較RCT的基本特征 [26, 27]、不同質性模型 [28, 29]、回測法 [30, 31]、析因方差分析法 [32]等,國內也有相應的文章對此進行了詳細介紹 [24]。在具體分級的過程中,需要注意的是,有時候會出現直接比較與間接比較的證據質量的差異可能很大,但結果的一致性較好,對于這種情況可能的解釋是相關的降級因素雖然存在但沒有對結果產生大的影響。還有一點需要注意的是,在判斷不精確性時當直接比較或間接比較結果的可信區間都跨越了臨床閾值線,即結果不精確,但二者網狀Meta分析結果的可信區間沒有跨越閾值線,此時我們需要對直接比較和間接比較的證據在不精確性方面降級,但對網狀Meta分析結果的不精確性則不需要降級。
3 小結
網狀Meta分析的制定流程以及方法學已經比較成熟 [33],ISPOR已經制定了3部專門論述如何制定、解讀和評價網狀Meta分析的手冊 [1, 2, 34]。此外,還有研究在關注制定關于網狀Meta分析報告規范的PRISMA擴展版 [35]。但很少有研究專門介紹如何在網狀Meta分析中應用GRADE對其進行證據質量分級。在GRADE之前,很多網狀Meta分析僅僅是通過評價納入研究的偏倚風險來推測總體證據質量 [36-39],這種方法由于沒有考慮到其他偏倚因素,因而存在很大局限性。但如果不對網狀Meta分析進行證據質量分級,則可能對讀者理解網狀Meta結論的真實性和可靠性造成障礙,甚至會誤導讀者。例如在本案例中,運用網狀Meta分析相關軟件實現對多種干預措施的效果進行排序,結果顯示特立帕肽預防骨質疏松性骨折的效果在10種干預措施的效果中排名第一(OR=0.42,對照組為不治療,表 1)。但進行GRADE分級之后,發現特立帕肽對比安慰劑或者其他對照,其證據質量是“低”或“極低”(表 1),說明特立帕肽對比安慰劑或者其他對照對預防骨質疏松性骨折的效果非常不明確,在臨床實踐中運用應該慎重。所以如果沒有GRADE分級結果,臨床醫生很可能會根據其干預的效果排序將立帕肽推薦給有骨質疏松性骨折風險的患者使用。
雖然GRADE工作組提出了對網狀Meta分析進行證據質量分級的四步法,進一步完善了GRADE在網狀Meta分析中運用的理論基礎,但具體分級的過程中,分級人員需要對GRADE的基本理論和原則很熟悉,并進行預試驗,以保證對分級標準理解的一致性 [40]。此外,還需要考慮間接比較中不同組別間的不可傳遞性以及直接比較和間接比較結果的不同質性。當然GRADE在網狀Meta分析中的應用也存在一些問題,如當直接比較和間接比較的結果一致性較差時,GRADE工作組也難以權衡他們對最后網狀Meta分析結果證據質量的影響。但GRADE依然是當前針對網狀Meta分析進行證據質量分級最有價值的工具。相信隨著網狀Meta分析的文獻數量越來越多,以及研究質量的逐步提高,GRADE在網狀Meta分析中的運用將會逐漸成熟和普及 [41]。