因網狀 Meta 分析(NMA)的證據質量分級極其復雜和耗時,為幫助研究者更好掌握 NMA 的證據質量分級,本文介紹了一個基于 GRADE 方法的在線網狀 Meta 分析證據分級應用程序—CINeMA。該應用程序主要基于網狀 Meta 分析的貢獻矩陣結果,從以下 6 個領域對 NMA 證據質量進行評估:研究內偏倚、研究間偏倚、間接性、不精確性、異質性和不一致性。
引用本文: 王琪, 王韻華, 賴鴻皓, 王琦, 丁國武, 田金徽, 陳耀龍, 楊克虎, 吳大嶸, 郭新峰, 楊麗虹, 葛龍. 網狀 Meta 分析證據質量分級:CINeMA 在線應用程序簡介. 中國循證醫學雜志, 2020, 20(9): 1111-1116. doi: 10.7507/1672-2531.202002172 復制
網狀 Meta 分析(network meta-analysis,NMA)證據質量分級可為證據使用者提供不同干預措施間接比較的效應估計值接近真實值的把握度。本系列第一篇文章介紹了 GRADE 方法在 NMA 中應用的前沿和進展[1]。本文將進一步介紹 NMA 證據質量分級的另一套方法體系,該方法為 Salanti 等[2]在 2014 年提出,在 2019 年進一步完善并開發出一款在線的質量評價軟件—CINeMA(Confidence In Network Meta-Analysis)[3]。該軟件可供用戶免費使用、開源、且無需登錄。本文擬對 CINeMA 軟件進行介紹,以期為 NMA 實踐者提供參考。
1 基本原理
與標準 GRADE 方法學體系不同(GRADE 方法建議單獨對直接證據、間接證據和 NMA 證據進行分級),CINeMA 將 NMA 作為一個整體,綜合考慮以下 6 個領域即研究內偏倚(偏倚風險)、研究間偏倚(發表偏倚或報告偏倚)、間接性、不精確性、異質性和不一致性,再對 NMA 證據質量進行分級。針對以上每個領域,可根據其嚴重程度分為不嚴重(no concern,不降級)、嚴重(some concern,降一級)和非常嚴重(major concern,降兩級),最終 NMA 的證據質量等級與 GRADE 體系一致,分為高、中、低和極低。
CINeMA 通過調用 R 軟件的 netmeta 程序包,計算 NMA 的貢獻矩陣,基于納入 NMA 的每個研究對 NMA 結果的貢獻度,判斷研究內偏倚和間接性兩個領域;根據文獻檢索的全面性、既往實證研究和統計分析的完整性,對研究間偏倚判定為“可疑”(suspected,降級)和“未檢測”(undetected,不降級);不精確性和異質性的判定規則是基于可信區間或預測區間是否包含無效線和預先指定的最小臨床重要差值;不一致性判定則是通過局部和網絡整體的不一致性檢驗結果。
2 操作步驟和判定規則解讀
CINeMA 在線應用程序可通過其官方網站直接訪問:https://cinema.ispm.unibe.ch/[3]。登錄該網站后,在“My Projects”菜單下,用戶需上傳“.csv”文件格式的研究數據。上傳的數據應包含納入的每個研究的總體偏倚風險和間接性判斷的數據。偏倚風險是指從研究設計、實施、數據處理和分析、結果解釋各個環節所產生的系統誤差,導致研究結果和真實情況之間出現傾向性差異;間接性是指數據與目標研究問題之間存在的偏差。本文以“糖尿病患者服用降壓藥物和安慰劑后疾病發生率的網狀 Meta 分析”為例,介紹 CINeMA 具體操作流程和證據分級 6 個領域的降級規則。
2.1 數據上傳
研究數據類型可以是連續型、二分類和生存數據,數據格式可選長(每行代表一個治療臂)、寬(每行代表一個研究)和逆方差。以長數據格式為例,對于二分類數據,應提供每個研究每個治療組的事件發生數、樣本量、偏倚風險和間接性判定結果;對于連續型數據,需要每個治療組的均值、標準差、樣本量、偏倚風險和間接性判定結果。長數據和寬數據格式舉例見圖 1。針對生存數據或僅報告了組間效應估計值的數據,可用“逆方差”數據格式導入,其數據格式舉例見圖 2。


2.2 NMA 數據分析
CINeMA 通過調用 netmeta 程序包,繪制網狀關系圖,使用者可根據需要選擇節點大小和顏色、線條寬度和顏色。節點大小和線條寬細主要是基于樣本量大小或研究數量;節點和線條顏色主要是基于偏倚風險,即高、低和不清楚偏倚風險在每個節點或者線條中所占的比例。本文案例的網狀圖見圖 3。

此外,CINeMA 還可執行 NMA 的合并分析,使用者在第二步時可選擇數據分析模型、效應量和擬進行分析比較的干預措施;“分析模型”下可選擇固定效應模型或隨機效應模型,二分類數據效應量可選擇比值比(odds ratio,OR)、危險比(risk ratio,RR)和率差(risk difference,RD),連續型數據可選擇均數差(mean difference,MD)和標準化均數差(standard mean difference,SMD)。完成以上操作后,即可運行 NMA。該界面提供了 NMA 列聯表結果,可下載并保存為“.csv”文件格式。
最重要的是,CINeMA 還提供了貢獻矩陣結果,包括每個研究和每個直接比較對每個比較組 NMA 結果的貢獻度,該結果用于后續對研究內偏倚和間接性的評估。
2.3 研究內偏倚評估
CINeMA 結合每個研究的偏倚風險和每個研究對 NMA 結果的貢獻度,評估每個比較組總體的偏倚風險。如圖 4 所示,針對每個對比組,均繪制了一個條形圖,圖中紅、黃、綠色分別代表高、中、低偏倚風險,紅、黃、綠色所占的比例是基于每個高、中、低偏倚風險研究對該比較組 NMA 結果的貢獻度形成。每個比較組的偏倚風險可判定為不嚴重(no concern,不降級)、嚴重(some concern,降一級)和非常嚴重(major concern,降兩級)。

2.4 研究間偏倚評估
“研究間偏倚”是指由于發表偏倚、時滯偏倚、選擇性非報告偏倚或納入研究樣本不具有代表性而產生的偏倚[4,5]。對研究間偏倚的判斷分為“可疑”和“未檢測”。CINeMA 考慮存在以下問題時可判定為“可疑”(需降級):① 未納入未發表研究或灰色文獻數據;② Meta 分析是基于少數早期陽性研究結果,例如對上市后的新藥,早期研究證據可能會夸大藥物的療效或安全性;③ 某一比較組排除了藥廠資助的研究或主要納入藥廠資助的研究;④ 先前證據顯示存在發表偏倚,例如 Turner 等[6]的研究顯示了安慰劑對照的抗抑郁臨床試驗存在發表偏倚。然而以下的問題可考慮為“未檢測”(無需降級):① 已納入未發表研究,且其研究結果與發表研究結果相似;② 存在前瞻性的臨床試驗注冊,且發表的全文與注冊的方案或研究方案不存在選擇性報告;③ 比較校正漏斗圖、回歸模型或選擇性模型顯示納入的已發表研究不存在小樣本研究效應[7]。
2.5 間接性評估
該領域與“研究內偏倚”類似,導入數據中需包含對每個研究間接性的評估結果,結合每個研究對每個對比組的貢獻度,繪制條形圖。根據每個條形圖中存在間接性的研究所占比例,確定每個對比組是否因為間接性而降級。此外,對間接性的評估也應當考慮健康公平性的問題。
2.6 不精確性評估
不精確性可直接通過 NMA 的可信區間進行評估,在判斷之前,使用者需要設置最小臨床重要差值,根據計算的可信區間是否跨越無效線和包含最小臨床重要差值來判定是否存在不精確性。本案例設置其最小臨床重要差值為 0.80 和 1.25,可分為三種情形。如圖 5 所示,若可信區間與最小臨床重要差值不相交,則判定為不嚴重,無需降級;若可信區間與最小臨床重要差值不完全相交,則判定為嚴重,需降一級;若可信區間與最小臨床重要差值完全相交,則判定為非常嚴重,需降兩級。

2.7 異質性評估
異質性主要結合最小臨床重要差值、NMA 可信區間和預測區間進行評估。如圖 6 所示,若 NMA 可信區間和預測區間均未與最小臨床重要差值(本文案例為 0.80~1.25)相交,可判定為不嚴重,無需降級;若 NMA 可信區間或預測區間與最小臨床重要差值不完全相交,則判定為嚴重,需降一級;若 NMA 預測區間和可信區間均與最小臨床重要差值完全相交,則判定為非常嚴重,需降兩級。

2.8 不一致性評估
不一致性是指直接證據和間接證據之間存在的差異,目前有多種統計學方法可評估不一致性[8-11]。CINeMA 呈現了兩種評估方法,分別為網絡整體不一致性和局部不一致性。局部不一致性即對每個同時存在直接證據和間接證據的比較組進行不一致性檢測,CINeMA 可計算生成 NMA、直接證據和間接證據的效應估計值及直接證據和間接證據的相對比值和不一致性的P值,如圖 7(案例研究的部分結果)。不一致性的評估存在 3 種情形,如圖 8 所示,若 NMA 直接證據和間接證據的效應估計值區間均未與最小臨床重要差值相交,可判定為不嚴重,無需降級;若 NMA 直接證據或間接證據的效應估計值區間與最小臨床重要差值相交,則判定為嚴重,需降一級;若 NMA 直接證據和間接證據效應估計值區間均與最小臨床重要差值相交,則判定為非常嚴重,需降兩級。


2.9 呈現證據分級結果
圖 9 所示為 NMA 證據分級的最終結果,該報告將混合效應證據(即同時存在直接證據和間接證據的比較組)和間接證據分開呈現。用戶可通過點擊“下載報告”將最終報告下載為“.csv”文件。此外,如有需要,使用者可通過下拉菜單手動修改證據分級結果。

3 小結
網狀 Meta 分析作用日益重要[12-14]。本文介紹了如何使用 CINeMA 在線應用程序對 NMA 的證據質量進行分級。值得注意的是該方法雖然借鑒了 GRADE 系統內容,但與標準的 GRADE 方法存在不同。標準的 GRADE 證據分級需要單獨對直接證據、間接證據進行分級,基于直接證據和間接證據的質量確定 NMA 證據質量;而 CINeMA 將 NMA 作為一個整體進行質量分級,主要是通過計算單個研究對每個比較組的貢獻度來實現。如果采用上述兩種方法對抗抑郁藥物的 NMA 分別進行證據質量分級,GRADE 工作組發現采用標準的 GARDE 分級流程會取得更為保守的證據分級結果[15]。而 CINeMA 主要通過對 GRADE 降級的每個因素制訂相應的降級規則,以實現證據分級的半自動化。
使用 CINeMA 在線應用程序對 NMA 證據質量進行分級,能實現 NMA 證據的在線分級,其半自動化過程極大簡化和加速了 NMA 的證據分級。然而該方法也存在諸多局限性,如目前只能實現單個結局的證據分級,若一個 NMA 中存在多個結局,需要依次進行分級。此外,在證據分級過程中難免存在主觀性,CINeMA 也不例外。本團隊先后介紹了目前用于 NMA 證據分級的兩種方法,旨在為我國 NMA 實踐者提供指導和參考,然而這兩種方法的相對優勢和不足,目前尚無相關的方法學研究進行比較,使用者可根據自己的偏好進行選擇。
網狀 Meta 分析(network meta-analysis,NMA)證據質量分級可為證據使用者提供不同干預措施間接比較的效應估計值接近真實值的把握度。本系列第一篇文章介紹了 GRADE 方法在 NMA 中應用的前沿和進展[1]。本文將進一步介紹 NMA 證據質量分級的另一套方法體系,該方法為 Salanti 等[2]在 2014 年提出,在 2019 年進一步完善并開發出一款在線的質量評價軟件—CINeMA(Confidence In Network Meta-Analysis)[3]。該軟件可供用戶免費使用、開源、且無需登錄。本文擬對 CINeMA 軟件進行介紹,以期為 NMA 實踐者提供參考。
1 基本原理
與標準 GRADE 方法學體系不同(GRADE 方法建議單獨對直接證據、間接證據和 NMA 證據進行分級),CINeMA 將 NMA 作為一個整體,綜合考慮以下 6 個領域即研究內偏倚(偏倚風險)、研究間偏倚(發表偏倚或報告偏倚)、間接性、不精確性、異質性和不一致性,再對 NMA 證據質量進行分級。針對以上每個領域,可根據其嚴重程度分為不嚴重(no concern,不降級)、嚴重(some concern,降一級)和非常嚴重(major concern,降兩級),最終 NMA 的證據質量等級與 GRADE 體系一致,分為高、中、低和極低。
CINeMA 通過調用 R 軟件的 netmeta 程序包,計算 NMA 的貢獻矩陣,基于納入 NMA 的每個研究對 NMA 結果的貢獻度,判斷研究內偏倚和間接性兩個領域;根據文獻檢索的全面性、既往實證研究和統計分析的完整性,對研究間偏倚判定為“可疑”(suspected,降級)和“未檢測”(undetected,不降級);不精確性和異質性的判定規則是基于可信區間或預測區間是否包含無效線和預先指定的最小臨床重要差值;不一致性判定則是通過局部和網絡整體的不一致性檢驗結果。
2 操作步驟和判定規則解讀
CINeMA 在線應用程序可通過其官方網站直接訪問:https://cinema.ispm.unibe.ch/[3]。登錄該網站后,在“My Projects”菜單下,用戶需上傳“.csv”文件格式的研究數據。上傳的數據應包含納入的每個研究的總體偏倚風險和間接性判斷的數據。偏倚風險是指從研究設計、實施、數據處理和分析、結果解釋各個環節所產生的系統誤差,導致研究結果和真實情況之間出現傾向性差異;間接性是指數據與目標研究問題之間存在的偏差。本文以“糖尿病患者服用降壓藥物和安慰劑后疾病發生率的網狀 Meta 分析”為例,介紹 CINeMA 具體操作流程和證據分級 6 個領域的降級規則。
2.1 數據上傳
研究數據類型可以是連續型、二分類和生存數據,數據格式可選長(每行代表一個治療臂)、寬(每行代表一個研究)和逆方差。以長數據格式為例,對于二分類數據,應提供每個研究每個治療組的事件發生數、樣本量、偏倚風險和間接性判定結果;對于連續型數據,需要每個治療組的均值、標準差、樣本量、偏倚風險和間接性判定結果。長數據和寬數據格式舉例見圖 1。針對生存數據或僅報告了組間效應估計值的數據,可用“逆方差”數據格式導入,其數據格式舉例見圖 2。


2.2 NMA 數據分析
CINeMA 通過調用 netmeta 程序包,繪制網狀關系圖,使用者可根據需要選擇節點大小和顏色、線條寬度和顏色。節點大小和線條寬細主要是基于樣本量大小或研究數量;節點和線條顏色主要是基于偏倚風險,即高、低和不清楚偏倚風險在每個節點或者線條中所占的比例。本文案例的網狀圖見圖 3。

此外,CINeMA 還可執行 NMA 的合并分析,使用者在第二步時可選擇數據分析模型、效應量和擬進行分析比較的干預措施;“分析模型”下可選擇固定效應模型或隨機效應模型,二分類數據效應量可選擇比值比(odds ratio,OR)、危險比(risk ratio,RR)和率差(risk difference,RD),連續型數據可選擇均數差(mean difference,MD)和標準化均數差(standard mean difference,SMD)。完成以上操作后,即可運行 NMA。該界面提供了 NMA 列聯表結果,可下載并保存為“.csv”文件格式。
最重要的是,CINeMA 還提供了貢獻矩陣結果,包括每個研究和每個直接比較對每個比較組 NMA 結果的貢獻度,該結果用于后續對研究內偏倚和間接性的評估。
2.3 研究內偏倚評估
CINeMA 結合每個研究的偏倚風險和每個研究對 NMA 結果的貢獻度,評估每個比較組總體的偏倚風險。如圖 4 所示,針對每個對比組,均繪制了一個條形圖,圖中紅、黃、綠色分別代表高、中、低偏倚風險,紅、黃、綠色所占的比例是基于每個高、中、低偏倚風險研究對該比較組 NMA 結果的貢獻度形成。每個比較組的偏倚風險可判定為不嚴重(no concern,不降級)、嚴重(some concern,降一級)和非常嚴重(major concern,降兩級)。

2.4 研究間偏倚評估
“研究間偏倚”是指由于發表偏倚、時滯偏倚、選擇性非報告偏倚或納入研究樣本不具有代表性而產生的偏倚[4,5]。對研究間偏倚的判斷分為“可疑”和“未檢測”。CINeMA 考慮存在以下問題時可判定為“可疑”(需降級):① 未納入未發表研究或灰色文獻數據;② Meta 分析是基于少數早期陽性研究結果,例如對上市后的新藥,早期研究證據可能會夸大藥物的療效或安全性;③ 某一比較組排除了藥廠資助的研究或主要納入藥廠資助的研究;④ 先前證據顯示存在發表偏倚,例如 Turner 等[6]的研究顯示了安慰劑對照的抗抑郁臨床試驗存在發表偏倚。然而以下的問題可考慮為“未檢測”(無需降級):① 已納入未發表研究,且其研究結果與發表研究結果相似;② 存在前瞻性的臨床試驗注冊,且發表的全文與注冊的方案或研究方案不存在選擇性報告;③ 比較校正漏斗圖、回歸模型或選擇性模型顯示納入的已發表研究不存在小樣本研究效應[7]。
2.5 間接性評估
該領域與“研究內偏倚”類似,導入數據中需包含對每個研究間接性的評估結果,結合每個研究對每個對比組的貢獻度,繪制條形圖。根據每個條形圖中存在間接性的研究所占比例,確定每個對比組是否因為間接性而降級。此外,對間接性的評估也應當考慮健康公平性的問題。
2.6 不精確性評估
不精確性可直接通過 NMA 的可信區間進行評估,在判斷之前,使用者需要設置最小臨床重要差值,根據計算的可信區間是否跨越無效線和包含最小臨床重要差值來判定是否存在不精確性。本案例設置其最小臨床重要差值為 0.80 和 1.25,可分為三種情形。如圖 5 所示,若可信區間與最小臨床重要差值不相交,則判定為不嚴重,無需降級;若可信區間與最小臨床重要差值不完全相交,則判定為嚴重,需降一級;若可信區間與最小臨床重要差值完全相交,則判定為非常嚴重,需降兩級。

2.7 異質性評估
異質性主要結合最小臨床重要差值、NMA 可信區間和預測區間進行評估。如圖 6 所示,若 NMA 可信區間和預測區間均未與最小臨床重要差值(本文案例為 0.80~1.25)相交,可判定為不嚴重,無需降級;若 NMA 可信區間或預測區間與最小臨床重要差值不完全相交,則判定為嚴重,需降一級;若 NMA 預測區間和可信區間均與最小臨床重要差值完全相交,則判定為非常嚴重,需降兩級。

2.8 不一致性評估
不一致性是指直接證據和間接證據之間存在的差異,目前有多種統計學方法可評估不一致性[8-11]。CINeMA 呈現了兩種評估方法,分別為網絡整體不一致性和局部不一致性。局部不一致性即對每個同時存在直接證據和間接證據的比較組進行不一致性檢測,CINeMA 可計算生成 NMA、直接證據和間接證據的效應估計值及直接證據和間接證據的相對比值和不一致性的P值,如圖 7(案例研究的部分結果)。不一致性的評估存在 3 種情形,如圖 8 所示,若 NMA 直接證據和間接證據的效應估計值區間均未與最小臨床重要差值相交,可判定為不嚴重,無需降級;若 NMA 直接證據或間接證據的效應估計值區間與最小臨床重要差值相交,則判定為嚴重,需降一級;若 NMA 直接證據和間接證據效應估計值區間均與最小臨床重要差值相交,則判定為非常嚴重,需降兩級。


2.9 呈現證據分級結果
圖 9 所示為 NMA 證據分級的最終結果,該報告將混合效應證據(即同時存在直接證據和間接證據的比較組)和間接證據分開呈現。用戶可通過點擊“下載報告”將最終報告下載為“.csv”文件。此外,如有需要,使用者可通過下拉菜單手動修改證據分級結果。

3 小結
網狀 Meta 分析作用日益重要[12-14]。本文介紹了如何使用 CINeMA 在線應用程序對 NMA 的證據質量進行分級。值得注意的是該方法雖然借鑒了 GRADE 系統內容,但與標準的 GRADE 方法存在不同。標準的 GRADE 證據分級需要單獨對直接證據、間接證據進行分級,基于直接證據和間接證據的質量確定 NMA 證據質量;而 CINeMA 將 NMA 作為一個整體進行質量分級,主要是通過計算單個研究對每個比較組的貢獻度來實現。如果采用上述兩種方法對抗抑郁藥物的 NMA 分別進行證據質量分級,GRADE 工作組發現采用標準的 GARDE 分級流程會取得更為保守的證據分級結果[15]。而 CINeMA 主要通過對 GRADE 降級的每個因素制訂相應的降級規則,以實現證據分級的半自動化。
使用 CINeMA 在線應用程序對 NMA 證據質量進行分級,能實現 NMA 證據的在線分級,其半自動化過程極大簡化和加速了 NMA 的證據分級。然而該方法也存在諸多局限性,如目前只能實現單個結局的證據分級,若一個 NMA 中存在多個結局,需要依次進行分級。此外,在證據分級過程中難免存在主觀性,CINeMA 也不例外。本團隊先后介紹了目前用于 NMA 證據分級的兩種方法,旨在為我國 NMA 實踐者提供指導和參考,然而這兩種方法的相對優勢和不足,目前尚無相關的方法學研究進行比較,使用者可根據自己的偏好進行選擇。