網狀 Meta 分析的最大優勢在于可量化比較針對同一疾病的不同干預措施,并按某一指標對其優劣進行排序。多種干預措施的納入增加了網狀 Meta 分析結果解讀的復雜性,僅基于排序結果進行解讀可能會存在誤導性。目前,對網狀 Meta 分析結果的解讀尚無公認的標準。2020 年 11 月,GRADE 工作組基于網狀 Meta 分析的 GRADE 分級結果,提出了 2 種網狀 Meta 分析結論形成的方法:部分背景化框架(partially contextualised framework)和最小背景化框架(minimally contextualised framework)。本文結合具體實例,旨在對最小背景化框架的方法、原理和步驟進行介紹,以期為網狀 Meta 分析制作者采用該方法呈現和解讀結果提供指導。
引用本文: 栗夢婷, 朱鴻飛, 后亮瑛, 王琪, 田金徽, 陳耀龍, 楊克虎, 鄧宏勇, 曾力楠, 張伶俐, RominaBrignardello-Petersen, 葛龍. 網狀 Meta 分析結論形成的方法:最小背景化框架. 中國循證醫學雜志, 2021, 21(9): 1102-1109. doi: 10.7507/1672-2531.202105068 復制
網狀 Meta 分析(network meta-analysis,NMA)將傳統的兩組對比的 Meta 分析擴展為同時將一系列多個不同處理因素相互比較的方法[1]。NMA 的最大優勢在于能將治療同一疾病的不同干預措施匯總后進行定量化的統計分析比較[2, 3],并針對某一結局指標的不同干預措施的優劣進行排序[4, 5]。然而僅基于排序結果(如累積排序概率曲線下面積(surface under the cumulative ranking curve,SUCRA))進行解讀可能會產生一些誤導。首先,當干預措施之間不存在重要差異時,會誤導決策者傾向于選擇統計效應量更大的干預措施。其次,干預措施間的排序差異可能存在偶然性,且存在的差異可能也較小。再者,排序結果忽略了證據可信度(證據質量),排序最高的干預措施可能基于低或極低證據可信度[6, 7]。因此,對于 NMA 結果解釋時,不能單純考慮干預措施的排序結果,還需同時考慮干預措施效應量大小和證據可信度[8]。
2014 年推薦分級的評價、制訂與評估(Grades of Recommendations Assessment,Development and Evaluation,GRADE)工作組發表了第一篇針對 NMA 的指導性研究[9]后,2019 年對其方法學進行了更新,并同時對幾種特殊的 NMA(如稀疏網絡 NMA)在進行 GRADE 證據分級時的注意事項進行了說明[10-12];國內學者也對其進行了解讀[13, 14],為 NMA 證據的分級提供指導。然而,由于 NMA 納入了多種干預措施進行比較,因此極大增加了結果呈現的復雜性和結論形成的難度。
2020 年 11 月,GRADE 工作組在 BMJ 連續發表了 2 篇論文[15, 16],旨在介紹如何基于 NMA 證據 GRADE 分級的結果,綜合形成 NMA 的結論。該研究提出了針對某一特定結局(二分類、時間事件或連續變量結局)的 2 種結果呈現和解讀框架,分別為最小背景化框架[15](minimally contextualised framework)和部分背景化框架[16](partially contextualised framework)。本文結合具體實例,擬對最小背景化框架的方法、原理和步驟進行介紹,以期為 NMA 制作者采用該方法形成結論和解讀結果提供指導。此外,本團隊還對部分背景化框架進行了解讀[17]。
1 什么是最小背景化框架?
2011 年,GRADE 工組中對證據質量和證據可信度進行了區分[18]。在系統評價中對證據質量評級,反映了作者對效應估計值接近真實值的可信度;在臨床實踐指南中對證據質量的評級,反映了對效應估計值是否足以支持某一特定決策的可信度。但由于對可信度的判斷會因醫療保健環境的不同而變化,因此 GRADE 工作組將涉及全部醫療保健問題或背景的情況描述為“完全背景化(fully contextualized)”,即在政策制定或形成臨床實踐指南的過程中,不僅考慮當地實際情況和其他因素,如可利用資源、法律法規、文化習俗、政策的可行性和公平性,還應考慮患者的價值觀和偏好。
除完全背景化外,GRADE 工作組還基于背景化程度分為“部分背景化(partly contextualized)”和“非背景化(non-contextualized)”。部分背景化和非背景化都適用于系統評價和衛生技術評估。對于衛生技術評估和系統評價者而言,對結果的描述通常需要與他們所需的背景(對結局呈現的選擇、對不一致性的考慮和對受眾群體的價值觀的重視等方面得以體現)結合,并考慮可及性和公平性是否會影響判斷。但在對結果的分析中無需考慮患者的價值觀和偏好,此為部分背景化框架。而非背景化則是將所需考慮的背景因素降至最低,無需考慮效應值大小和背景的利弊權衡。本文所述的最小背景化與非背景化為同一層次含義。
最小背景化框架包含 2 個指導原則和 5 個步驟。針對 NMA 的某一特定結局,作者首先選擇決策閾值和參考組,對每個干預措施與參考組相比效應量的可信區間是否與決策閾值相交做出判斷,然后將干預措施進行分類(可分為比參考組更好、更差和無差異)。隨后基于 GRADE 分級在此前分類的基礎上將干預措施分為 2 個大的可信度類別,并保證 SUCRA 排序結果同分組結果一致,以尋求 NMA 中療效最佳的干預措施。
2 框架形成方法與原則
由系統評價和 NMA 的方法學家們組成的核心專家組通過對文獻進行系統的調查后,發現在 NMA 中沒有同時考慮 NMA 的效應量和證據可信度以得出綜合結論的方法,因此核心小組制定了最小背景化的初始框架。2018 年 4 月,在 GRADE 工作組會議上通過示例介紹初始框架,并收集參會者的反饋后進行修改完善。第二輪調研通過視頻會議,聯系了 10 名方法學家進行半結構化訪談,就指導原則、步驟和每一步的細節提供反饋意見。第三輪于 2018 年 9 月在英國曼徹斯特舉行,介紹框架后進行開放式討論。隨后對第三輪修改后的框架采取方便抽樣的方法,在合作制作的 NMA 和 GRADE 工作組成員自身制作的 NMA 中應用,以不斷測試其可行性并發現潛在問題。最終于 2019 年 11 月,在澳大利亞舉行的 GRADE 會議中批準將該框架作為 GRADE 指導手冊進行發布。
最小背景化框架具有 2 個指導原則:首先,干預措施分類的數量和組別名稱是可改變的,以適應不同的情況。分類的數量應考慮以下 4 個因素:證據的可獲得性、NMA 中包含的干預措施、干預間的比較情況和決策閾值。其次,干預措施的分類要同時考慮效應量大小、證據可信度和排序結果,不能依靠單一的信息確定某種干預措施優于其他干預措施。
3 框架步驟
在執行最小背景化框架的 5 個步驟之前,作者須對每個結局指標效應的證據可信度進行 GRADE 分級,NMA 證據可信度分級的方法可參考本團隊前期的研究成果[13, 14]。
3.1 步驟 1:選擇參考組和決策閾值
首先應基于參考組和決策閾值對干預措施進行分類。選擇 NMA 中與其他干預措施聯系最緊密的措施作為參考組。由于高或中等可信度證據比低或極低可信度證據更能區分療效之間的差異,干預措施的分類也更有價值。因此,選擇具有更高可信度的證據作為參考組更合適。通常來講,基于直接證據的 NMA 效應估計值比基于間接證據的結果具有更高的可信度。
如果要探索效果最優的干預措施,須首先選擇決策閾值,可選擇無效值(如相對效應值為 1 或絕對效應值為 0),即只有 95% 可信區間與無效線不相交時,干預措施才會被認為是有效的;也可選擇最小重要差值(minimally important difference,MID)或其他對結局有影響的重要閾值。
3.2 步驟 2:基于參考組,對干預措施進行第一次分類
如圖 1 所示,基于每個干預措施 vs. 參考組效應量的 95% 可信區間是否與決策閾值相交,將干預措施分為比參考組更好、更差和無差異。針對有利結局,可將干預措施分為 2 組,即比參考組無差異(組 0)和優于或劣于參考組(組 1);也可將其分為 3 組,分別為與參考組無差異、優于參考組和劣于參考組。對于有害結局,干預措施可分為與參考組無差異、危害較輕和危害較大。

當選擇的決策閾值不是無效值時,需計算絕對效應量然后再與決策閾值進行比較;二分類變量結局或使用了相對效應量的連續變量結局,均需將相對效應量轉化為絕對效應量,不能根據相對效應量來判斷結果的差異性。例如,基線風險為 2% 時,降低 50% 相對風險表示絕對風險降低了 1%;但若基線風險為 40% 時,同樣降低 50% 相對風險,則意味著降低了 20% 的絕對風險。因此,兩者雖然同樣降低了 50% 相對風險,但前者的效應可能被認為是不重要的,而后者則可能被認為是重要的。
3.3 步驟 3:基于干預措施間的差異進行第二次分類
使用相同的決策閾值,以步驟 2 中“組 1”納入的干預措施為參照,若某干預措施與“組 1”中任何一個干預措施的差異同決策閾值不相交,則可將該干預措施分類到更高級別的組(組 2);以此類推,干預措施可進行再次分組,如“組 3”和“組 4”,直到無法進行新的分組為止。
3.4 步驟 4:基于 GRADE 分級將干預措施分為高、低可信度兩大類
在完成每個干預措施 vs. 參考組的證據可信度評價后,可將干預措施在保持以上分類組別的同時,再次分為 2 個大的分類:高可信度證據(GRADE 分級高和中等可信度)和低可信度證據(GRADE 分級低和極低可信度)。
3.5 步驟 5:通過兩兩比較結果和排序結果檢查分類的一致性
在考慮的證據可信度后,可能會改變干預措施的原有分組。例如,高或中等可信度的證據表明,“組 0”中的干預措施比“組 1”中的干預措施更有效,這可能會導致該干預措施轉移到“組 2”中。作者應考慮除參考組以外的干預措施間的兩兩比較,分類的結果還應與排序結果一致,要確保排序最高的干預措施為最有效的干預措施。例如,SUCRA 通常在組 2 干預中最高(最有效),組 1 較低,而組 0 中最低(無效)。完成上述步驟后,作者可對 NMA 結果的療效進行總結,干預措施被評價為高可信度且分類級別最高,可認為是目前可獲得的最有效的措施之一,低可信度則被認為可能是有效的。
在最小背景化框架中,作者對干預措施進行分組時很少做出價值判斷。但當作者認為該框架有缺陷時,可對框架進行修改。首先,作者所選的決策閾值可能為無效值或為最小重要差值。若作者認為選定決策閾值不恰當,可重新選擇閾值。作者不使用無效值作為決策閾值時,應使用絕對效應量。二分類變量結局或使用了相對效應量的連續變量結局,需要將相對效應量轉換為絕對效應量。其次,作者可修改標準,以比較除參考組以外的干預措施間哪個療效更優。例如,作者認為需要中或高等可信度的證據才能將干預措施從組 1 移至組 2。最后,作者應評價不同證據的可信度,以避免高或中等可信度的措施與低或極低可信度措施被分為同一組。
4 案例分析
為更清楚地理解和掌握最小背景化框架理論,本文以“治療類風濕關節炎多種干預措施的網狀 Meta 分析”[19]中采用的結局指標,美國風濕病學會 50% 改善反應標準(American College of Rheumatology Criteria,ACR50)為例,對其結論形成的框架步驟進行解讀,該結局共納入 29 個研究,包括 10 697 例患者,評估了 19 種干預措施。該結局的網狀 Meta 分析結果見表 1。

步驟 1:在該案例中,甲氨蝶呤與 NMA 中其他干預措施連接最為緊密,因此選擇甲氨蝶呤作為參考組,ACR50 癥狀量表改變 10% 作為決策閾值。按照該研究描述[19],由于口服甲氨蝶呤治療的患者在 1 年發生 ACR50 的概率為每 1 000 例中有 405 例,因此選擇的決策閾值為治療 1 年時每 1 000 例患者中有 40.5 例患者發生 ACR50。本例以納入研究中隨機分到甲氨蝶呤組的患者 ACR50 發生率計算基線風險。
步驟 2:在治療類風濕性關節炎的措施中,存在干預措施對比參考組(甲氨蝶呤)無差異(與口服甲氨蝶呤相比 95% 可信區間包括 40.5,組 0)和干預措施優于參考組(與口服甲氨蝶呤相比 95% 可信區間不包括 40.5,組 1)。分組詳情見表 2。

步驟 3:以 ACR50 癥狀量表改變 10% 作為決策閾值,所有干預措施與“組 1”中干預措施的差異均與決策閾值相交,因此未對干預措施進一步分類。
步驟 4:如表 3 所示,對類風濕關節炎的 19 種干預措施 vs. 參考組進行證據可信度評價后,將干預措施再次分為 2 個大的分類:高可信度證據(GRADE 分級高和中等可信度)和低可信度證據(GRADE 分級低和極低可信度)。

步驟 5:在考慮除參考組以外的干預措施間的兩兩比較和排序結果的一致性后,盡管組 0 中“甲氨蝶呤+托法替尼”,“甲氨蝶呤+柳氮磺胺吡啶+抗瘧藥”和“甲氨蝶呤+阿達木單抗”絕對效應量值更大,且比大多數干預排序更高,但其效應量與無效線相交,因此選擇不修改分組。但在原文[15]中由于這 3 組具有較好的效應量和排序結果,將以上 3 種干預措施移至組 1。不論作者如何決策,在此步驟中,對修改分類的標準需保持透明。
完成上述步驟后,對不同干預措施治療類風濕關節炎的療效按最小背景化框架進行總結,結論見表 4。

5 最小背景化框架與部分背景化框架的異同
最小背景化框架關注的不僅是每個干預措施 vs. 參考組效應量的 95% 可信區間是否與決策閾值相交,還考慮到各個干預措施間是否有差異,并強調精確性和證據的可信度,將干預措施按最有效、中等有效、無效/有害進行分類。采用部分背景化框架[16]確定干預措施是否有效時,不過度強調精確性(評估 NMA 估計值需同時考慮精確性與其他 GRADE 分級因素),側重于通過點估計值和干預措施排序分類,最終分為無效、微小效應、中等效應和重大效應的干預措施類別。例如,最小背景化框架中使用無效決策閾值,與參考組比較,絕對風險降低 20% 的干預措施[95%CI(1,39)],與點估計值相同但可信區間不同的干預措施[95%CI(?1,40)]分類將會不同。最小背景化框架關注的決策閾值,同組干預措施間的效果不存在差異;而部分背景化框架關注的閾值為范圍間的邊界,同組間存在差異。最小背景化框架與部分背景化框架的目標、考慮因素和推論是一致的。另外,這兩個框架幾乎所有的分類體系都易受到確定閾值時隨意性的影響。表 5 總結了這 2 種框架的異同。

6 討論
在不同的 NMA 中均可采用最小背景化框架并有助于得出結論。該框架將與其他干預措施聯系最緊密的措施作為參考組,這有助于得出結論時關注高可信度的證據。其次,重視證據可信度,并以此作為干預措施分組的標準,使分組更有價值。此外,將干預措施與參考組比較,進一步簡化了框架步驟。該框架也可用于由觀察性研究組成的證據體,盡管可能因把干預措施評估為高或中等可信度證據困難而造成分組的數量較少。
最小背景化框架也存在一些缺陷。首先,雖然在步驟 3 關注了除參考組以外干預措施間的比較,步驟 5 時確保干預措施分類與之前未考慮過的成對比較分類應一致,但該框架仍然側重與參考組比較,而相對忽視了其他干預措施間的成對比較。其次,該框架追求操作簡單靈活,而多樣化的調整方案在多大程度上會影響結果仍不確定,目前沒有更好的方法來解決這個問題,因此缺乏對該框架進行多樣化的調整。最后,可能因缺乏必要背景化分析[18],如缺乏對結局呈現的選擇、對不一致性的考慮和對受眾群體的價值觀的重視等方面的考量,而對得出的結論存疑。但目前框架已成功應用于多項 NMAs[20-25],密切參與系統評價和同行評審過程的臨床專家認為,對使用該框架得出的結論滿意并認為對他們有幫助。
總之,最小背景化框架考慮了干預措施的效應量、證據可信度、可信區間及排序結果,有助于從 NMA 的干預措施中得出結論。最小背景化框架是將所需考慮的背景因素降至最低,同時最大限度地減少價值判斷。該框架簡單靈活和適用性很強,允許作者適當地修改框架,以確保得出合理的結論。
網狀 Meta 分析(network meta-analysis,NMA)將傳統的兩組對比的 Meta 分析擴展為同時將一系列多個不同處理因素相互比較的方法[1]。NMA 的最大優勢在于能將治療同一疾病的不同干預措施匯總后進行定量化的統計分析比較[2, 3],并針對某一結局指標的不同干預措施的優劣進行排序[4, 5]。然而僅基于排序結果(如累積排序概率曲線下面積(surface under the cumulative ranking curve,SUCRA))進行解讀可能會產生一些誤導。首先,當干預措施之間不存在重要差異時,會誤導決策者傾向于選擇統計效應量更大的干預措施。其次,干預措施間的排序差異可能存在偶然性,且存在的差異可能也較小。再者,排序結果忽略了證據可信度(證據質量),排序最高的干預措施可能基于低或極低證據可信度[6, 7]。因此,對于 NMA 結果解釋時,不能單純考慮干預措施的排序結果,還需同時考慮干預措施效應量大小和證據可信度[8]。
2014 年推薦分級的評價、制訂與評估(Grades of Recommendations Assessment,Development and Evaluation,GRADE)工作組發表了第一篇針對 NMA 的指導性研究[9]后,2019 年對其方法學進行了更新,并同時對幾種特殊的 NMA(如稀疏網絡 NMA)在進行 GRADE 證據分級時的注意事項進行了說明[10-12];國內學者也對其進行了解讀[13, 14],為 NMA 證據的分級提供指導。然而,由于 NMA 納入了多種干預措施進行比較,因此極大增加了結果呈現的復雜性和結論形成的難度。
2020 年 11 月,GRADE 工作組在 BMJ 連續發表了 2 篇論文[15, 16],旨在介紹如何基于 NMA 證據 GRADE 分級的結果,綜合形成 NMA 的結論。該研究提出了針對某一特定結局(二分類、時間事件或連續變量結局)的 2 種結果呈現和解讀框架,分別為最小背景化框架[15](minimally contextualised framework)和部分背景化框架[16](partially contextualised framework)。本文結合具體實例,擬對最小背景化框架的方法、原理和步驟進行介紹,以期為 NMA 制作者采用該方法形成結論和解讀結果提供指導。此外,本團隊還對部分背景化框架進行了解讀[17]。
1 什么是最小背景化框架?
2011 年,GRADE 工組中對證據質量和證據可信度進行了區分[18]。在系統評價中對證據質量評級,反映了作者對效應估計值接近真實值的可信度;在臨床實踐指南中對證據質量的評級,反映了對效應估計值是否足以支持某一特定決策的可信度。但由于對可信度的判斷會因醫療保健環境的不同而變化,因此 GRADE 工作組將涉及全部醫療保健問題或背景的情況描述為“完全背景化(fully contextualized)”,即在政策制定或形成臨床實踐指南的過程中,不僅考慮當地實際情況和其他因素,如可利用資源、法律法規、文化習俗、政策的可行性和公平性,還應考慮患者的價值觀和偏好。
除完全背景化外,GRADE 工作組還基于背景化程度分為“部分背景化(partly contextualized)”和“非背景化(non-contextualized)”。部分背景化和非背景化都適用于系統評價和衛生技術評估。對于衛生技術評估和系統評價者而言,對結果的描述通常需要與他們所需的背景(對結局呈現的選擇、對不一致性的考慮和對受眾群體的價值觀的重視等方面得以體現)結合,并考慮可及性和公平性是否會影響判斷。但在對結果的分析中無需考慮患者的價值觀和偏好,此為部分背景化框架。而非背景化則是將所需考慮的背景因素降至最低,無需考慮效應值大小和背景的利弊權衡。本文所述的最小背景化與非背景化為同一層次含義。
最小背景化框架包含 2 個指導原則和 5 個步驟。針對 NMA 的某一特定結局,作者首先選擇決策閾值和參考組,對每個干預措施與參考組相比效應量的可信區間是否與決策閾值相交做出判斷,然后將干預措施進行分類(可分為比參考組更好、更差和無差異)。隨后基于 GRADE 分級在此前分類的基礎上將干預措施分為 2 個大的可信度類別,并保證 SUCRA 排序結果同分組結果一致,以尋求 NMA 中療效最佳的干預措施。
2 框架形成方法與原則
由系統評價和 NMA 的方法學家們組成的核心專家組通過對文獻進行系統的調查后,發現在 NMA 中沒有同時考慮 NMA 的效應量和證據可信度以得出綜合結論的方法,因此核心小組制定了最小背景化的初始框架。2018 年 4 月,在 GRADE 工作組會議上通過示例介紹初始框架,并收集參會者的反饋后進行修改完善。第二輪調研通過視頻會議,聯系了 10 名方法學家進行半結構化訪談,就指導原則、步驟和每一步的細節提供反饋意見。第三輪于 2018 年 9 月在英國曼徹斯特舉行,介紹框架后進行開放式討論。隨后對第三輪修改后的框架采取方便抽樣的方法,在合作制作的 NMA 和 GRADE 工作組成員自身制作的 NMA 中應用,以不斷測試其可行性并發現潛在問題。最終于 2019 年 11 月,在澳大利亞舉行的 GRADE 會議中批準將該框架作為 GRADE 指導手冊進行發布。
最小背景化框架具有 2 個指導原則:首先,干預措施分類的數量和組別名稱是可改變的,以適應不同的情況。分類的數量應考慮以下 4 個因素:證據的可獲得性、NMA 中包含的干預措施、干預間的比較情況和決策閾值。其次,干預措施的分類要同時考慮效應量大小、證據可信度和排序結果,不能依靠單一的信息確定某種干預措施優于其他干預措施。
3 框架步驟
在執行最小背景化框架的 5 個步驟之前,作者須對每個結局指標效應的證據可信度進行 GRADE 分級,NMA 證據可信度分級的方法可參考本團隊前期的研究成果[13, 14]。
3.1 步驟 1:選擇參考組和決策閾值
首先應基于參考組和決策閾值對干預措施進行分類。選擇 NMA 中與其他干預措施聯系最緊密的措施作為參考組。由于高或中等可信度證據比低或極低可信度證據更能區分療效之間的差異,干預措施的分類也更有價值。因此,選擇具有更高可信度的證據作為參考組更合適。通常來講,基于直接證據的 NMA 效應估計值比基于間接證據的結果具有更高的可信度。
如果要探索效果最優的干預措施,須首先選擇決策閾值,可選擇無效值(如相對效應值為 1 或絕對效應值為 0),即只有 95% 可信區間與無效線不相交時,干預措施才會被認為是有效的;也可選擇最小重要差值(minimally important difference,MID)或其他對結局有影響的重要閾值。
3.2 步驟 2:基于參考組,對干預措施進行第一次分類
如圖 1 所示,基于每個干預措施 vs. 參考組效應量的 95% 可信區間是否與決策閾值相交,將干預措施分為比參考組更好、更差和無差異。針對有利結局,可將干預措施分為 2 組,即比參考組無差異(組 0)和優于或劣于參考組(組 1);也可將其分為 3 組,分別為與參考組無差異、優于參考組和劣于參考組。對于有害結局,干預措施可分為與參考組無差異、危害較輕和危害較大。

當選擇的決策閾值不是無效值時,需計算絕對效應量然后再與決策閾值進行比較;二分類變量結局或使用了相對效應量的連續變量結局,均需將相對效應量轉化為絕對效應量,不能根據相對效應量來判斷結果的差異性。例如,基線風險為 2% 時,降低 50% 相對風險表示絕對風險降低了 1%;但若基線風險為 40% 時,同樣降低 50% 相對風險,則意味著降低了 20% 的絕對風險。因此,兩者雖然同樣降低了 50% 相對風險,但前者的效應可能被認為是不重要的,而后者則可能被認為是重要的。
3.3 步驟 3:基于干預措施間的差異進行第二次分類
使用相同的決策閾值,以步驟 2 中“組 1”納入的干預措施為參照,若某干預措施與“組 1”中任何一個干預措施的差異同決策閾值不相交,則可將該干預措施分類到更高級別的組(組 2);以此類推,干預措施可進行再次分組,如“組 3”和“組 4”,直到無法進行新的分組為止。
3.4 步驟 4:基于 GRADE 分級將干預措施分為高、低可信度兩大類
在完成每個干預措施 vs. 參考組的證據可信度評價后,可將干預措施在保持以上分類組別的同時,再次分為 2 個大的分類:高可信度證據(GRADE 分級高和中等可信度)和低可信度證據(GRADE 分級低和極低可信度)。
3.5 步驟 5:通過兩兩比較結果和排序結果檢查分類的一致性
在考慮的證據可信度后,可能會改變干預措施的原有分組。例如,高或中等可信度的證據表明,“組 0”中的干預措施比“組 1”中的干預措施更有效,這可能會導致該干預措施轉移到“組 2”中。作者應考慮除參考組以外的干預措施間的兩兩比較,分類的結果還應與排序結果一致,要確保排序最高的干預措施為最有效的干預措施。例如,SUCRA 通常在組 2 干預中最高(最有效),組 1 較低,而組 0 中最低(無效)。完成上述步驟后,作者可對 NMA 結果的療效進行總結,干預措施被評價為高可信度且分類級別最高,可認為是目前可獲得的最有效的措施之一,低可信度則被認為可能是有效的。
在最小背景化框架中,作者對干預措施進行分組時很少做出價值判斷。但當作者認為該框架有缺陷時,可對框架進行修改。首先,作者所選的決策閾值可能為無效值或為最小重要差值。若作者認為選定決策閾值不恰當,可重新選擇閾值。作者不使用無效值作為決策閾值時,應使用絕對效應量。二分類變量結局或使用了相對效應量的連續變量結局,需要將相對效應量轉換為絕對效應量。其次,作者可修改標準,以比較除參考組以外的干預措施間哪個療效更優。例如,作者認為需要中或高等可信度的證據才能將干預措施從組 1 移至組 2。最后,作者應評價不同證據的可信度,以避免高或中等可信度的措施與低或極低可信度措施被分為同一組。
4 案例分析
為更清楚地理解和掌握最小背景化框架理論,本文以“治療類風濕關節炎多種干預措施的網狀 Meta 分析”[19]中采用的結局指標,美國風濕病學會 50% 改善反應標準(American College of Rheumatology Criteria,ACR50)為例,對其結論形成的框架步驟進行解讀,該結局共納入 29 個研究,包括 10 697 例患者,評估了 19 種干預措施。該結局的網狀 Meta 分析結果見表 1。

步驟 1:在該案例中,甲氨蝶呤與 NMA 中其他干預措施連接最為緊密,因此選擇甲氨蝶呤作為參考組,ACR50 癥狀量表改變 10% 作為決策閾值。按照該研究描述[19],由于口服甲氨蝶呤治療的患者在 1 年發生 ACR50 的概率為每 1 000 例中有 405 例,因此選擇的決策閾值為治療 1 年時每 1 000 例患者中有 40.5 例患者發生 ACR50。本例以納入研究中隨機分到甲氨蝶呤組的患者 ACR50 發生率計算基線風險。
步驟 2:在治療類風濕性關節炎的措施中,存在干預措施對比參考組(甲氨蝶呤)無差異(與口服甲氨蝶呤相比 95% 可信區間包括 40.5,組 0)和干預措施優于參考組(與口服甲氨蝶呤相比 95% 可信區間不包括 40.5,組 1)。分組詳情見表 2。

步驟 3:以 ACR50 癥狀量表改變 10% 作為決策閾值,所有干預措施與“組 1”中干預措施的差異均與決策閾值相交,因此未對干預措施進一步分類。
步驟 4:如表 3 所示,對類風濕關節炎的 19 種干預措施 vs. 參考組進行證據可信度評價后,將干預措施再次分為 2 個大的分類:高可信度證據(GRADE 分級高和中等可信度)和低可信度證據(GRADE 分級低和極低可信度)。

步驟 5:在考慮除參考組以外的干預措施間的兩兩比較和排序結果的一致性后,盡管組 0 中“甲氨蝶呤+托法替尼”,“甲氨蝶呤+柳氮磺胺吡啶+抗瘧藥”和“甲氨蝶呤+阿達木單抗”絕對效應量值更大,且比大多數干預排序更高,但其效應量與無效線相交,因此選擇不修改分組。但在原文[15]中由于這 3 組具有較好的效應量和排序結果,將以上 3 種干預措施移至組 1。不論作者如何決策,在此步驟中,對修改分類的標準需保持透明。
完成上述步驟后,對不同干預措施治療類風濕關節炎的療效按最小背景化框架進行總結,結論見表 4。

5 最小背景化框架與部分背景化框架的異同
最小背景化框架關注的不僅是每個干預措施 vs. 參考組效應量的 95% 可信區間是否與決策閾值相交,還考慮到各個干預措施間是否有差異,并強調精確性和證據的可信度,將干預措施按最有效、中等有效、無效/有害進行分類。采用部分背景化框架[16]確定干預措施是否有效時,不過度強調精確性(評估 NMA 估計值需同時考慮精確性與其他 GRADE 分級因素),側重于通過點估計值和干預措施排序分類,最終分為無效、微小效應、中等效應和重大效應的干預措施類別。例如,最小背景化框架中使用無效決策閾值,與參考組比較,絕對風險降低 20% 的干預措施[95%CI(1,39)],與點估計值相同但可信區間不同的干預措施[95%CI(?1,40)]分類將會不同。最小背景化框架關注的決策閾值,同組干預措施間的效果不存在差異;而部分背景化框架關注的閾值為范圍間的邊界,同組間存在差異。最小背景化框架與部分背景化框架的目標、考慮因素和推論是一致的。另外,這兩個框架幾乎所有的分類體系都易受到確定閾值時隨意性的影響。表 5 總結了這 2 種框架的異同。

6 討論
在不同的 NMA 中均可采用最小背景化框架并有助于得出結論。該框架將與其他干預措施聯系最緊密的措施作為參考組,這有助于得出結論時關注高可信度的證據。其次,重視證據可信度,并以此作為干預措施分組的標準,使分組更有價值。此外,將干預措施與參考組比較,進一步簡化了框架步驟。該框架也可用于由觀察性研究組成的證據體,盡管可能因把干預措施評估為高或中等可信度證據困難而造成分組的數量較少。
最小背景化框架也存在一些缺陷。首先,雖然在步驟 3 關注了除參考組以外干預措施間的比較,步驟 5 時確保干預措施分類與之前未考慮過的成對比較分類應一致,但該框架仍然側重與參考組比較,而相對忽視了其他干預措施間的成對比較。其次,該框架追求操作簡單靈活,而多樣化的調整方案在多大程度上會影響結果仍不確定,目前沒有更好的方法來解決這個問題,因此缺乏對該框架進行多樣化的調整。最后,可能因缺乏必要背景化分析[18],如缺乏對結局呈現的選擇、對不一致性的考慮和對受眾群體的價值觀的重視等方面的考量,而對得出的結論存疑。但目前框架已成功應用于多項 NMAs[20-25],密切參與系統評價和同行評審過程的臨床專家認為,對使用該框架得出的結論滿意并認為對他們有幫助。
總之,最小背景化框架考慮了干預措施的效應量、證據可信度、可信區間及排序結果,有助于從 NMA 的干預措施中得出結論。最小背景化框架是將所需考慮的背景因素降至最低,同時最大限度地減少價值判斷。該框架簡單靈活和適用性很強,允許作者適當地修改框架,以確保得出合理的結論。