2014 年,GRADE 工作組在英國醫學會期刊 BMJ 首次介紹了 GRADE 方法用于網狀 Meta 分析證據質量分級的應用指南。GRADE 工作組認為在進行網狀 Meta 分析證據分級時,需要單獨對直接證據、間接證據和網狀 Meta 分析證據質量進行分級。近年來,GRADE 工作組發表了系列論文,對該方法進行了進一步的完善和補充。本文旨在對 GRADE 方法用于網狀 Meta 分析證據質量分級的前沿和進展進行介紹,以期為相關研究人員提供參考。
引用本文: 王琪, 王建成, 潘蓓, 張遷, 周奇, 田金徽, 陳耀龍, 楊克虎, 吳大嶸, 郭新峰, 楊麗虹, GordonGuyatt, 葛龍. 網狀 Meta 分析證據質量分級:GRADE 方法學前沿與進展. 中國循證醫學雜志, 2020, 20(8): 979-985. doi: 10.7507/1672-2531.202002171 復制
網狀 Meta 分析(network meta-analysis,NMA)的最大優勢在于可量化比較同類疾病的不同干預措施效應量,合并直接比較和間接比較證據,提高結果的精確性和統計學效能,并針對不同干預措施對某一結局指標的優劣排序,篩選出其中最佳方案,因此廣受科研工作者和臨床醫生關注。對 NMA 證據進行質量分級,可幫助證據使用者了解 NMA 效應估計值接近真實值的把握度。2014 年,推薦分級的評價、制訂與評估(Grades of Recommendations Assessment,Development and Evaluation,GRADE)工作組在英國醫學雜志(BMJ)發表了 GRADE 方法用于 NMA 證據分級的應用指南[1],GRADE 中國中心于 2016 年對其進行了解讀和介紹[2],為 NMA 制作者使用 GRADE 方法進行證據質量分級提供了借鑒和參考。近年來,隨著 NMA 方法學的不斷成熟和完善,GRADE 工作組連續發表了 3 篇系列論文[3-5],進一步完善和補充 GRADE 方法在 NMA 中的應用。本文結合 GRADE 工作組發表的 3 篇系列論文和 GRADE 中國中心在 NMA 中應用 GRADE 方法積累的經驗,對其方法學前沿和進展進行介紹,以期為相關研究人員提供參考。
1 NMA 簡介
臨床醫生和患者決策時,常會從多個干預措施中選擇最佳治療方案。不斷增多的藥物和治療方案使醫生和患者選擇困難,增加臨床決策難度。隨機對照試驗(randomized controlled trials,RCT)的系統評價是臨床實踐指南和循證衛生決策的金標準[6]。但它通常只能比較 2 種干預措施,服務衛生決策的能力有限。20 世紀 90 年代,研究者從不同研究中提取不同干預措施的數據,比較不同干預措施間的療效差異,即為原始間接比較。1997 年,Bucher 等提出了調整間接比較的方法[7, 8],即當多個干預措施在不存在直接比較的情況下,基于其與共同對照干預措施比較的 Meta 分析結果,從而得出不同干預措施之間的相對療效差異[9]。2002 年,Lumley 等[10]提出了 NMA,并提供直接比較和間接比較的合并方法;當存在直接比較時,可將直接和間接比較結果進行合并,進而提高結果的精確性和統計學效能(混合治療效應)[11]。Song 等提出了 NMA 的 3 個統計學假設,即同質性假設(用于傳統雙臂 Meta 分析)、可傳遞性假設(又稱“相似性假設”,為區別于傳統 Meta 分析研究之間的相似性,后文統一采用“可傳遞性”)(用于調整間接比較)和一致性假設(用于直接比較與間接比較證據、不同路徑的間接比較證據合并)。2011 年,White 更新 Stata 軟件 mvmeta 程序包,為開展頻率學的 NMA 提供了軟件程序支持[12]。2012 年,英國國家衛生與臨床優化研究所發表 NMA 的系列論文,以 WinBUGS 軟件為基礎,提供線性回歸模型進行 NMA 的統計學原理和具體方法[13, 14]。2014 年,GRADE 方法用于 NMA 證據分級的論文相繼發表[1]。2015 年,NMA 的報告規范 PRISMA-NMA 發布[15],標志著 NMA 已經初步建立成熟的理論方法體系。
2 方法學更新背景
目前 NMA 主要基于 RCT 這一臨床研究類型,因此 NMA 中應用 GRADE 的基本原則主要是考察 5 個降級因素:即納入研究的方法學質量(risk of bias,偏倚風險),研究關注的人群、干預措施和結局指標的外推性(indirectness,間接性),不同研究間結果的一致程度(inconsistency,不一致性),不同研究合并結果的精確程度(imprecision,不精確性),對符合標準研究納入的全面程度(publication bias,發表偏倚)[1]。其最初的證據分級主要為“四步法”[1, 2]:即首先呈現兩個干預措施之間直接和間接比較的效應量與可信區間,其次分別對其進行證據質量分級,然后呈現 NMA 的結果,最后評估 NMA 結果的證據質量。直接證據的分級方法與傳統 Meta 分析 GRADE 證據分級相似。間接證據分級主要依據產生于間接結果的直接比較中證據質量低的組別(就低原則)。基于直接比較和間接比較的 NMA 證據質量依據二者證據質量高的組別作為 NMA 的證據級別(就高原則)。
然而,該方法存在諸多局限,比如當擬進行分級的 NMA 納入多種干預措施時,會導致 GRADE 分級方法任務較為繁重。以一個納入 3 種干預措施的 NMA 為例(如干預措施 A、B、C),針對每一個結局,采用上述方法進行 NMA 分級時需要先對各直接比較(A vs. B、B vs. C 和 A vs. C)依次進行 3 次證據分級;如果納入 4 種干預措施,則需要進行 6 次證據分級;納入 6 種干預措施,需要進行 15 次證據分級;以此類推,如果納入 12 種干預措施,需要進行 66 次證據質量評估。當 NMA 中關注多個結局指標時,需要逐一對每個結局指標進行分級,其工作量之大將難以負荷。隨著 GRADE 方法在 NMA 中的應用及其相關方法學研究的進一步完善,GRADE 工作組對 GRADE 方法在 NMA 中的應用進行了修訂和完善。
3 網狀 Meta 分析 GRADE 分級步驟
本文結合最新研究成果和團隊積累的經驗,將更新后的證據分級步驟總結如下:第一步,將直接證據、間接證據和 NMA 證據的效應量和可信區間分開呈現;第二步,不考慮不精確性因素,對每一個比較組的直接證據質量進行分級;若直接證據分級等級為“高”,且對 NMA 結果的貢獻大于等于間接證據,則無需進行間接證據質量分級,直接基于直接證據質量評估 NMA 證據質量;否則,需進行間接證據質量分級;第三步,基于形成間接證據一階環路的直接證據質量(不考慮不精確性因素),采取就低原則決定間接證據質量,此外尚需考慮不可傳遞性;第四步,基于直接證據和(或)間接證據等級,考慮不一致性和不精確性,最終確定和呈現 NMA 的證據質量。GRADE 分級流程見圖 1。

4 補充說明
4.1 直接證據分級時間接性降級需慎重
GRADE 工作組建議對間接性的降級需要謹慎,尤其在考慮公平性時[16],理論上任何兩個相關試驗之間都會存在間接性,只有存在重大間接性才會考慮降級,并且分級者需要對降級理由給予詳細說明。
4.2 對直接和間接證據質量分級時無需考慮“不精確性”
GRADE 工作組推薦在對系統評價進行分級時主要通過檢查 95% 可信區間作為決定不精確性的最佳方法。根據先前推薦的方法,NMA 的不精確性需要基于直接證據和間接證據對不精確性的判斷,然后取二者證據質量高者作為 NMA 的不精確性分級結果。然而該方法有待進一步完善,假設直接證據和間接證據對 NMA 結果貢獻相等,且直接證據和間接證據分級均為“中”,根據先前推薦方法,這里 NMA 證據質量應該評定為“中”。但設想兩種情形,第一種是當導致直接證據降級的因素是由于偏倚風險、不一致性、間接性或者發表偏倚時,該方法是適用的。然而,第二種情形是假定降級因素僅僅是因為不精確性,其他降級因素均無嚴重問題時,由于 NMA 合并了直接證據和間接證據結果,其精確性均高于直接和間接證據,針對 NMA 的結果不應該對不精確性進行降級。因此在第二種情形下 GRADE 分級結果應當為“高”。
4.3 當直接證據質量等級為“高”,且對 NMA 結果的貢獻大于等于間接證據時,無需對間接證據質量進行分級
為簡化 GRADE 在 NMA 中的應用,使其更具可操作性,GRADE 工作組考慮當直接證據質量為“高”,且其對 NMA 的貢獻大于等于間接證據時,可直接基于直接證據的質量決定 NMA 的質量等級,無需再對間接證據質量進行分級。然而當直接證據對 NMA 的貢獻較間接證據小時,即使直接證據質量等級為“高”,也應當考慮間接證據質量等級。GRADE 工作組推薦通過可信區間的寬窄判斷直接證據和間接證據對 NMA 結果的貢獻度,可信區間較窄的證據對 NMA 的貢獻度較大。另一種可選的判斷證據貢獻度的方法是采用 Stata 軟件或者 R 軟件制作貢獻矩陣圖,然而該方法只適用于頻率學的 NMA,目前尚不能實現貝葉斯 NMA 的貢獻矩陣圖的制作。此外,還應考慮 NMA 的不一致性,當直接證據和間接證據存在不一致性時,考慮直接證據和間接證據對 NMA 結果的貢獻度尤為重要。比如:當直接證據除可信區間較寬之外,其他降級因素無嚴重問題,此時直接證據等級為“高”;間接證據因存在偏倚風險和間接性降級時,其證據等級為“低”;然而由于間接證據的可信區間較窄,貢獻度較大,此時 NMA 的證據等級為“低”;同時考慮直接證據和間接證據之間存在不一致性,尚需再降一級;因此該 NMA 的最終分級結果為“極低”。
4.4 間接證據質量分級時需考慮不可傳遞性
處理間接證據質量分級的過程中,需要注意不同組別之間在人群基線特征、共同對照及結果測量方面是否存在明顯差異,即不可傳遞性,這種差異會降低間接比較結果的可信程度。例如在圖 2 的 NMA 案例中[17],關于“利塞膦酸鈉 vs. 維生素 D+鈣劑”的間接比較,安慰劑是共同對照,有 20 個試驗比較了“利塞膦酸鈉 vs. 安慰劑”的療效,其中有一半的試驗納入人群患有會影響骨代謝的慢性疾病(如炎癥性腸炎)或接受糖皮質激素治療。而在“維生素 D+鈣劑 vs. 安慰劑”試驗中已將這部分人群排除。也就是說“利塞膦酸鈉 vs. 安慰劑”和“維生素 D+鈣劑 vs. 安慰劑”這兩組試驗人群的基線特征存在較大差異,存在不可傳遞性,因此需要將這組間接證據的質量再降低一級。

4.5 NMA 證據分級時對不一致性降級需謹慎
在 GRADE 方法分級步驟的基礎上,還需要考慮直接比較和間接比較結果的不一致性。如果直接比較和間接比較的一致性較好,那么上述的分級結果就是 NMA 結果的最終證據質量,如果二者結果存在嚴重不一致,則 NMA 結果的最終證據質量還需要再降低一級。然而,對不一致性降級需要謹慎,需要明確引起不一致性的原因,避免重復降級。導致不一致性產生的原因很多,基于 GRADE 降級的因素,可將其劃分為 3 類[4]:① 直接證據和(或)間接證據的效應量可能會受到直接比較研究設計局限性(偏倚風險)或發表偏倚的影響(圖 3,“1.偏倚”);② 直接證據或間接證據的效應量均可能受到直接比較間接性的影響(圖 3,“2.間接性”);③ 不可傳遞性可能會導致間接證據效應量出現偏差,從而導致直接證據和間接證據的不一致(圖 3,“3.不可傳遞性”)。關于不一致性判斷的方法,當前有較多定性和定量方法可幫助分析,如比較試驗的基本特征、不同質性模型、回測法、析因方差分析法等。

在對不一致性進行評估時,可從以下 3 個方面進行考量:① 直接證據和間接證據的點估計值;② 95% 可信區間;③ 直接證據與間接證據差異的統計學檢驗結果。基于以上 3 個方面,如果直接證據和間接證據不存在不一致性,則無需降級。如果存在不一致性,則需進一步考慮直接證據和間接證據對 NMA 效應量的貢獻度;此時,如果 NMA 效應量主要來自于直接證據或間接證據,那么可認為不一致性對 NMA 結果的影響較小,可不降級;相反,如果直接證據和間接證據對 NMA 效應量的貢獻相當,則需要因為兩者存在的不一致性而降級(圖 4)。需要注意有時候會出現直接比較與間接比較的證據質量差異很大,但是結果的一致性較好,對于這種情況可能的解釋是相關的降級因素雖然存在但沒有對結果產生大的影響。

4.6 稀疏網絡中 NMA 不精確性的判斷需謹慎
NMA 的優勢之一是在直接證據和間接證據不存在不一致性時,通過合并兩者,達到增加效應量的精確性(可信區間更窄)的目的。然而,在稀疏網絡的 NMA 中,由于數據不足及研究之間采用共同的異質性參數,可能會導致 NMA 結果的可信區間較直接證據更寬。此時,GRADE 工作組推薦采用不同的模型對 NMA 進行敏感性分析,避免對 NMA 精確性的錯誤判斷[5]。
固定效應模型與隨機效應模型:由于隨機效應模型考慮了研究間的差異,針對同一比較組,研究間的異質性越大,相較于固定效應模型,采用隨機效應模型合并的可信區間相對更寬。而 NMA 更側重于解決一個廣泛的臨床問題,因此數據分布可能不滿足固定效應模型的模型假設。NMA 研究者也認為假設不同比較組研究間異質性相同是不現實的,或者說在稀疏網絡中無法得到一個可靠結果,并且會導致某些網絡估計值的可信區間變寬,因此我們可合理假設:進行 NMA 時使用固定效應模型而非隨機效應模型,其研究間的異質性為 0,結果更為合理。
貝葉斯與頻率學方法:目前 NMA 常采用貝葉斯方法,而頻率學方法則常用于傳統 Meta 分析。然而,使用模糊先驗的貝葉斯模型進行稀疏網絡的 NMA,其結果的不精確性值得懷疑。因此在進行 NMA 時可考慮采用兩種替代方案:即使用信息先驗對研究間的異質性進行限制;或使用頻率學方法。此外,在貝葉斯方法中使用固定效應模型,可認為是選擇了信息豐富的先驗方法。
選擇不同的統計模型會對 NMA 的結果產生很大影響。以比較 5 種抗心律失常藥物與安慰劑治療院外心臟驟停患者有效性的 NMA 為例,比較不同統計模型對 NMA 結果的影響(圖 5)[18]。由圖 5 可知,盡管間接證據極其不精確,對 NMA 的貢獻較小,但在使用模糊先驗的貝葉斯隨機效應模型時,假設所有比較的研究間的異質性相同,從而導致 NMA 結果的可信區間異常寬,這種可信區間的“虛假寬泛”可能是由于不恰當的假設研究間異質性相同而導致的。然而,此時采用固定效應模型會得到更為可靠的結果。在這種情況下對 NMA 證據質量進行分級時,會由于 NMA 嚴重的不精確性對證據質量進行降級,這會使該證據對于決策制定不再有用。為此,GRADE 工作組建議 NMA 的作者可考慮使用頻率學固定效應模型、貝葉斯固定效應模型或信息先驗的貝葉斯模型進行敏感性分析,避免過寬的可信區間及由于使用不恰當的統計方法而誤導結果推論。

5 小結
本文闡述了 GRADE 方法在評價 NMA 證據質量方面的最新進展。應用這些新進展時應該注意,盡管最大限度地提高研究效率是可取的,但使用這些策略需要仔細判斷。因此,我們依然鼓勵研究者在文章中完成并報告完整的分級,列出所有直接和間接證據的點估計值、可信區間及其分級,從而提高 NMA 結果的透明度和實用性。
網狀 Meta 分析(network meta-analysis,NMA)的最大優勢在于可量化比較同類疾病的不同干預措施效應量,合并直接比較和間接比較證據,提高結果的精確性和統計學效能,并針對不同干預措施對某一結局指標的優劣排序,篩選出其中最佳方案,因此廣受科研工作者和臨床醫生關注。對 NMA 證據進行質量分級,可幫助證據使用者了解 NMA 效應估計值接近真實值的把握度。2014 年,推薦分級的評價、制訂與評估(Grades of Recommendations Assessment,Development and Evaluation,GRADE)工作組在英國醫學雜志(BMJ)發表了 GRADE 方法用于 NMA 證據分級的應用指南[1],GRADE 中國中心于 2016 年對其進行了解讀和介紹[2],為 NMA 制作者使用 GRADE 方法進行證據質量分級提供了借鑒和參考。近年來,隨著 NMA 方法學的不斷成熟和完善,GRADE 工作組連續發表了 3 篇系列論文[3-5],進一步完善和補充 GRADE 方法在 NMA 中的應用。本文結合 GRADE 工作組發表的 3 篇系列論文和 GRADE 中國中心在 NMA 中應用 GRADE 方法積累的經驗,對其方法學前沿和進展進行介紹,以期為相關研究人員提供參考。
1 NMA 簡介
臨床醫生和患者決策時,常會從多個干預措施中選擇最佳治療方案。不斷增多的藥物和治療方案使醫生和患者選擇困難,增加臨床決策難度。隨機對照試驗(randomized controlled trials,RCT)的系統評價是臨床實踐指南和循證衛生決策的金標準[6]。但它通常只能比較 2 種干預措施,服務衛生決策的能力有限。20 世紀 90 年代,研究者從不同研究中提取不同干預措施的數據,比較不同干預措施間的療效差異,即為原始間接比較。1997 年,Bucher 等提出了調整間接比較的方法[7, 8],即當多個干預措施在不存在直接比較的情況下,基于其與共同對照干預措施比較的 Meta 分析結果,從而得出不同干預措施之間的相對療效差異[9]。2002 年,Lumley 等[10]提出了 NMA,并提供直接比較和間接比較的合并方法;當存在直接比較時,可將直接和間接比較結果進行合并,進而提高結果的精確性和統計學效能(混合治療效應)[11]。Song 等提出了 NMA 的 3 個統計學假設,即同質性假設(用于傳統雙臂 Meta 分析)、可傳遞性假設(又稱“相似性假設”,為區別于傳統 Meta 分析研究之間的相似性,后文統一采用“可傳遞性”)(用于調整間接比較)和一致性假設(用于直接比較與間接比較證據、不同路徑的間接比較證據合并)。2011 年,White 更新 Stata 軟件 mvmeta 程序包,為開展頻率學的 NMA 提供了軟件程序支持[12]。2012 年,英國國家衛生與臨床優化研究所發表 NMA 的系列論文,以 WinBUGS 軟件為基礎,提供線性回歸模型進行 NMA 的統計學原理和具體方法[13, 14]。2014 年,GRADE 方法用于 NMA 證據分級的論文相繼發表[1]。2015 年,NMA 的報告規范 PRISMA-NMA 發布[15],標志著 NMA 已經初步建立成熟的理論方法體系。
2 方法學更新背景
目前 NMA 主要基于 RCT 這一臨床研究類型,因此 NMA 中應用 GRADE 的基本原則主要是考察 5 個降級因素:即納入研究的方法學質量(risk of bias,偏倚風險),研究關注的人群、干預措施和結局指標的外推性(indirectness,間接性),不同研究間結果的一致程度(inconsistency,不一致性),不同研究合并結果的精確程度(imprecision,不精確性),對符合標準研究納入的全面程度(publication bias,發表偏倚)[1]。其最初的證據分級主要為“四步法”[1, 2]:即首先呈現兩個干預措施之間直接和間接比較的效應量與可信區間,其次分別對其進行證據質量分級,然后呈現 NMA 的結果,最后評估 NMA 結果的證據質量。直接證據的分級方法與傳統 Meta 分析 GRADE 證據分級相似。間接證據分級主要依據產生于間接結果的直接比較中證據質量低的組別(就低原則)。基于直接比較和間接比較的 NMA 證據質量依據二者證據質量高的組別作為 NMA 的證據級別(就高原則)。
然而,該方法存在諸多局限,比如當擬進行分級的 NMA 納入多種干預措施時,會導致 GRADE 分級方法任務較為繁重。以一個納入 3 種干預措施的 NMA 為例(如干預措施 A、B、C),針對每一個結局,采用上述方法進行 NMA 分級時需要先對各直接比較(A vs. B、B vs. C 和 A vs. C)依次進行 3 次證據分級;如果納入 4 種干預措施,則需要進行 6 次證據分級;納入 6 種干預措施,需要進行 15 次證據分級;以此類推,如果納入 12 種干預措施,需要進行 66 次證據質量評估。當 NMA 中關注多個結局指標時,需要逐一對每個結局指標進行分級,其工作量之大將難以負荷。隨著 GRADE 方法在 NMA 中的應用及其相關方法學研究的進一步完善,GRADE 工作組對 GRADE 方法在 NMA 中的應用進行了修訂和完善。
3 網狀 Meta 分析 GRADE 分級步驟
本文結合最新研究成果和團隊積累的經驗,將更新后的證據分級步驟總結如下:第一步,將直接證據、間接證據和 NMA 證據的效應量和可信區間分開呈現;第二步,不考慮不精確性因素,對每一個比較組的直接證據質量進行分級;若直接證據分級等級為“高”,且對 NMA 結果的貢獻大于等于間接證據,則無需進行間接證據質量分級,直接基于直接證據質量評估 NMA 證據質量;否則,需進行間接證據質量分級;第三步,基于形成間接證據一階環路的直接證據質量(不考慮不精確性因素),采取就低原則決定間接證據質量,此外尚需考慮不可傳遞性;第四步,基于直接證據和(或)間接證據等級,考慮不一致性和不精確性,最終確定和呈現 NMA 的證據質量。GRADE 分級流程見圖 1。

4 補充說明
4.1 直接證據分級時間接性降級需慎重
GRADE 工作組建議對間接性的降級需要謹慎,尤其在考慮公平性時[16],理論上任何兩個相關試驗之間都會存在間接性,只有存在重大間接性才會考慮降級,并且分級者需要對降級理由給予詳細說明。
4.2 對直接和間接證據質量分級時無需考慮“不精確性”
GRADE 工作組推薦在對系統評價進行分級時主要通過檢查 95% 可信區間作為決定不精確性的最佳方法。根據先前推薦的方法,NMA 的不精確性需要基于直接證據和間接證據對不精確性的判斷,然后取二者證據質量高者作為 NMA 的不精確性分級結果。然而該方法有待進一步完善,假設直接證據和間接證據對 NMA 結果貢獻相等,且直接證據和間接證據分級均為“中”,根據先前推薦方法,這里 NMA 證據質量應該評定為“中”。但設想兩種情形,第一種是當導致直接證據降級的因素是由于偏倚風險、不一致性、間接性或者發表偏倚時,該方法是適用的。然而,第二種情形是假定降級因素僅僅是因為不精確性,其他降級因素均無嚴重問題時,由于 NMA 合并了直接證據和間接證據結果,其精確性均高于直接和間接證據,針對 NMA 的結果不應該對不精確性進行降級。因此在第二種情形下 GRADE 分級結果應當為“高”。
4.3 當直接證據質量等級為“高”,且對 NMA 結果的貢獻大于等于間接證據時,無需對間接證據質量進行分級
為簡化 GRADE 在 NMA 中的應用,使其更具可操作性,GRADE 工作組考慮當直接證據質量為“高”,且其對 NMA 的貢獻大于等于間接證據時,可直接基于直接證據的質量決定 NMA 的質量等級,無需再對間接證據質量進行分級。然而當直接證據對 NMA 的貢獻較間接證據小時,即使直接證據質量等級為“高”,也應當考慮間接證據質量等級。GRADE 工作組推薦通過可信區間的寬窄判斷直接證據和間接證據對 NMA 結果的貢獻度,可信區間較窄的證據對 NMA 的貢獻度較大。另一種可選的判斷證據貢獻度的方法是采用 Stata 軟件或者 R 軟件制作貢獻矩陣圖,然而該方法只適用于頻率學的 NMA,目前尚不能實現貝葉斯 NMA 的貢獻矩陣圖的制作。此外,還應考慮 NMA 的不一致性,當直接證據和間接證據存在不一致性時,考慮直接證據和間接證據對 NMA 結果的貢獻度尤為重要。比如:當直接證據除可信區間較寬之外,其他降級因素無嚴重問題,此時直接證據等級為“高”;間接證據因存在偏倚風險和間接性降級時,其證據等級為“低”;然而由于間接證據的可信區間較窄,貢獻度較大,此時 NMA 的證據等級為“低”;同時考慮直接證據和間接證據之間存在不一致性,尚需再降一級;因此該 NMA 的最終分級結果為“極低”。
4.4 間接證據質量分級時需考慮不可傳遞性
處理間接證據質量分級的過程中,需要注意不同組別之間在人群基線特征、共同對照及結果測量方面是否存在明顯差異,即不可傳遞性,這種差異會降低間接比較結果的可信程度。例如在圖 2 的 NMA 案例中[17],關于“利塞膦酸鈉 vs. 維生素 D+鈣劑”的間接比較,安慰劑是共同對照,有 20 個試驗比較了“利塞膦酸鈉 vs. 安慰劑”的療效,其中有一半的試驗納入人群患有會影響骨代謝的慢性疾病(如炎癥性腸炎)或接受糖皮質激素治療。而在“維生素 D+鈣劑 vs. 安慰劑”試驗中已將這部分人群排除。也就是說“利塞膦酸鈉 vs. 安慰劑”和“維生素 D+鈣劑 vs. 安慰劑”這兩組試驗人群的基線特征存在較大差異,存在不可傳遞性,因此需要將這組間接證據的質量再降低一級。

4.5 NMA 證據分級時對不一致性降級需謹慎
在 GRADE 方法分級步驟的基礎上,還需要考慮直接比較和間接比較結果的不一致性。如果直接比較和間接比較的一致性較好,那么上述的分級結果就是 NMA 結果的最終證據質量,如果二者結果存在嚴重不一致,則 NMA 結果的最終證據質量還需要再降低一級。然而,對不一致性降級需要謹慎,需要明確引起不一致性的原因,避免重復降級。導致不一致性產生的原因很多,基于 GRADE 降級的因素,可將其劃分為 3 類[4]:① 直接證據和(或)間接證據的效應量可能會受到直接比較研究設計局限性(偏倚風險)或發表偏倚的影響(圖 3,“1.偏倚”);② 直接證據或間接證據的效應量均可能受到直接比較間接性的影響(圖 3,“2.間接性”);③ 不可傳遞性可能會導致間接證據效應量出現偏差,從而導致直接證據和間接證據的不一致(圖 3,“3.不可傳遞性”)。關于不一致性判斷的方法,當前有較多定性和定量方法可幫助分析,如比較試驗的基本特征、不同質性模型、回測法、析因方差分析法等。

在對不一致性進行評估時,可從以下 3 個方面進行考量:① 直接證據和間接證據的點估計值;② 95% 可信區間;③ 直接證據與間接證據差異的統計學檢驗結果。基于以上 3 個方面,如果直接證據和間接證據不存在不一致性,則無需降級。如果存在不一致性,則需進一步考慮直接證據和間接證據對 NMA 效應量的貢獻度;此時,如果 NMA 效應量主要來自于直接證據或間接證據,那么可認為不一致性對 NMA 結果的影響較小,可不降級;相反,如果直接證據和間接證據對 NMA 效應量的貢獻相當,則需要因為兩者存在的不一致性而降級(圖 4)。需要注意有時候會出現直接比較與間接比較的證據質量差異很大,但是結果的一致性較好,對于這種情況可能的解釋是相關的降級因素雖然存在但沒有對結果產生大的影響。

4.6 稀疏網絡中 NMA 不精確性的判斷需謹慎
NMA 的優勢之一是在直接證據和間接證據不存在不一致性時,通過合并兩者,達到增加效應量的精確性(可信區間更窄)的目的。然而,在稀疏網絡的 NMA 中,由于數據不足及研究之間采用共同的異質性參數,可能會導致 NMA 結果的可信區間較直接證據更寬。此時,GRADE 工作組推薦采用不同的模型對 NMA 進行敏感性分析,避免對 NMA 精確性的錯誤判斷[5]。
固定效應模型與隨機效應模型:由于隨機效應模型考慮了研究間的差異,針對同一比較組,研究間的異質性越大,相較于固定效應模型,采用隨機效應模型合并的可信區間相對更寬。而 NMA 更側重于解決一個廣泛的臨床問題,因此數據分布可能不滿足固定效應模型的模型假設。NMA 研究者也認為假設不同比較組研究間異質性相同是不現實的,或者說在稀疏網絡中無法得到一個可靠結果,并且會導致某些網絡估計值的可信區間變寬,因此我們可合理假設:進行 NMA 時使用固定效應模型而非隨機效應模型,其研究間的異質性為 0,結果更為合理。
貝葉斯與頻率學方法:目前 NMA 常采用貝葉斯方法,而頻率學方法則常用于傳統 Meta 分析。然而,使用模糊先驗的貝葉斯模型進行稀疏網絡的 NMA,其結果的不精確性值得懷疑。因此在進行 NMA 時可考慮采用兩種替代方案:即使用信息先驗對研究間的異質性進行限制;或使用頻率學方法。此外,在貝葉斯方法中使用固定效應模型,可認為是選擇了信息豐富的先驗方法。
選擇不同的統計模型會對 NMA 的結果產生很大影響。以比較 5 種抗心律失常藥物與安慰劑治療院外心臟驟停患者有效性的 NMA 為例,比較不同統計模型對 NMA 結果的影響(圖 5)[18]。由圖 5 可知,盡管間接證據極其不精確,對 NMA 的貢獻較小,但在使用模糊先驗的貝葉斯隨機效應模型時,假設所有比較的研究間的異質性相同,從而導致 NMA 結果的可信區間異常寬,這種可信區間的“虛假寬泛”可能是由于不恰當的假設研究間異質性相同而導致的。然而,此時采用固定效應模型會得到更為可靠的結果。在這種情況下對 NMA 證據質量進行分級時,會由于 NMA 嚴重的不精確性對證據質量進行降級,這會使該證據對于決策制定不再有用。為此,GRADE 工作組建議 NMA 的作者可考慮使用頻率學固定效應模型、貝葉斯固定效應模型或信息先驗的貝葉斯模型進行敏感性分析,避免過寬的可信區間及由于使用不恰當的統計方法而誤導結果推論。

5 小結
本文闡述了 GRADE 方法在評價 NMA 證據質量方面的最新進展。應用這些新進展時應該注意,盡管最大限度地提高研究效率是可取的,但使用這些策略需要仔細判斷。因此,我們依然鼓勵研究者在文章中完成并報告完整的分級,列出所有直接和間接證據的點估計值、可信區間及其分級,從而提高 NMA 結果的透明度和實用性。