目前網狀 Meta 分析已得到飛速發展和廣泛應用,具有可量化比較相同主題的 2 種以上不同處理措施的相對優勢的特點。但由于存在多個干預措施的比較,增加了其結果解讀的復雜性,解讀時對證據可信度的忽略也導致了結論存在誤導性。近期,GRADE 工作組提出了 2 種網狀 Meta 分析結論形成的方法,即部分背景化框架與最小背景化框架。本文聚焦于部分背景化框架,當使用該框架時,作者必須確定效應閾值,以區分無效、較小效應、中等效應和較大效應。部分背景化框架的指導原則包括根據效應大小與利弊對干預措施進行分類,及分類時考慮效應的點估計值和干預措施排序,綜合考慮證據可信度(證據質量)以得出結論。本文結合實例,對部分背景化框架的原理步驟進行描述和闡釋,以期為該方法在網狀 Meta 分析結果解讀與結論形成環節的應用提供指導。
引用本文: 朱鴻飛, 栗夢婷, 后亮瑛, 王琪, 田金徽, 陳耀龍, 楊克虎, 鄧宏勇, 曾力楠, 張伶俐, RominaBrignardello-Petersen, 葛龍. 網狀 Meta 分析結論形成的方法:部分背景化框架. 中國循證醫學雜志, 2021, 21(9): 1110-1116. doi: 10.7507/1672-2531.202105067 復制
目前,網狀 Meta 分析(network meta-analysis,NMA)方法已得到飛速的發展和廣泛地應用。作為傳統 Meta 分析的擴展,NMA 的優勢在于可量化比較相同主題的 2 種以上不同處理措施的相對優勢。當存在直接比較的證據時,可將直接與間接比較進行合并(混合治療效應)[1]以增加結果的精確性和統計學效能;若不存在直接比較研究的證據,或已有的直接比較證據的可信度較低或研究數量較少,需要獲取間接比較研究的證據(調整間接比較)[2]。
對于特定的健康結局,系統評價者需要就某一干預措施與其他干預措施比較的結果而得出結論,同時考慮這些干預措施進行比較時的效應估計值和證據可信度(證據質量)[3]。在 NMA 中,作者還需要針對特定的健康結局指標,了解每種干預措施對健康結局的相對優勢,即對干預措施進行排序,從而幫助科研工作者與臨床決策者從眾多的干預措施中選出最佳干預措施[4]。然而,每次 NMA 比較的結果包括相對效應量、證據可信度及干預措施排序等大量信息,尤其是當參與比較的干預措施較多時,綜合考慮全部關鍵信息以得出合適的結論成為重大挑戰。
Trinquart 等[5]對 58 篇發表的 NMA 進行了再分析,結果表明 NMA 中的干預措施排序并不具備可靠性。納入再分析的干預措施比較中,有 90% 的比較結果并無證據證明排序最高的干預措施與排序第二的干預措施之間存在差異。由于干預措施排序的不確定性容易被忽略,因此常被錯誤地用于指導臨床實踐[6]。此外,通常在一篇 NMA 的多種措施比較中,證據可信度由高到低不等,排名較高的干預措施可能為可信度“低”或“極低”的證據,其他排名較低的干預措施則也可能有較高可信度的證據[7,8]。NMA 的結果呈現通常基于排序結果與效應量,但往往忽略了證據可信度評價結果這一關鍵信息。
推薦分級的評價、制訂與評估(Grades of Recommendations Assessment,Development and Evaluation,GRADE)工作組此前已發表 NMA 中的證據可信度評價[9-11]、避免不精確性的虛假判斷[12]及評價不一致性[13]等 NMA 指導方法。此外,GRADE 工作組也就如何通過結果總結表呈現一篇 NMA 的研究結果提出了建議[14]。
2020 年 11 月,GRADE 工作組在 BMJ 連續發表了 2 篇論文,旨在介紹如何基于 NMA 證據 GRADE 分級的結果形成 NMA 的結論。基于不同的研究背景,可使用最小背景化框架(minimally contextualised framework)[15]進行解讀,該框架需在根據確定閾值對干預措施分類的基礎上,結合證據可信度再次進行干預措施分類;也可使用部分背景化框架(partially contextualised framework)[16],在該框架中作者需考慮特定結局效應大小的重要性。
本文結合具體實例,擬對部分背景化框架的方法、原理和步驟進行介紹,以期為 NMA 制作者采用該方法呈現和解讀結果提供指導。此外,本團隊也對最小背景化框架進行了解讀[17]。
1 什么是部分背景化框架?
GRADE 工作組于 2011 年對證據可信度做出定義[18]:證據可信度是指證據評價者對于效應估計值是否正確及是否足以支持某一特定決策或推薦意見的確信程度。前者適用于系統評價與衛生技術評估的背景下,而后者適用于制定指南推薦意見時。背景化指根據特定的閾值或范圍對證據可信度進行分級。在政策制定與指南應用的背景下,背景化需考慮當地環境、資源可及性、法律法規、文化、可及性和公平性等因素。GRADE 工作組將這種考慮完整的醫療保健背景的情況明確為“完全背景化(fully contextualized)”[19],此時的決策同時考慮了所有相關結局及患者偏好與價值觀。GRADE 工作組將背景化程度分為完全背景化、部分背景化(partly contextualized)與非背景化(non-contextualized)三類,背景化程度可通過對結局呈現的選擇、對不一致性的考慮和對受眾群體的價值觀的重視等方面得以體現。當 NMA 的作者沒有全面考慮所有背景因素時,他們對于證據可信度的考慮也是非完全背景化的。
部分背景化框架要求證據的評價者對較小、中等和較大的有利或不利效應做出明確公開的價值判斷(value judgement),判斷依據為 NMA 中納入的關鍵重要結局。目前,許多 NMA 基于特定目的而開展,例如為指南或衛生技術評估提供信息,指南制定小組需要通過價值判斷來制定推薦意見。由于在不同研究背景下價值判斷的標準存在不一致性,目前框架制定小組尚未制定價值判斷準則。一方面,若系統評價旨在為指南提供信息,證據價值判斷應由專家小組制定,并以每個結局相關的患者價值觀的證據為依據[20,21]。理想情況下,在推薦意見撰寫時系統評價小組與決策小組成員(如指南專家組)就應及早建立起密切的協作關系以做出價值判斷[22]。使用現有系統評價的指南制定者可自行建立閾值,并根據需要對干預措施進行重新分類,若這一過程公開透明,則決策制定者將進行審核與修改[23]。另一方面,若系統評價不是專門為特定指南提供信息,可由參與系統評價小組的臨床專家做出價值判斷,并考慮每個結局的相對重要性。
2 框架形成方法與原則
GRADE 工作組對已有文獻進行系統調查后發現,此前尚無對某個健康結局同時考慮 NMA 的結果和證據可信度以得出結論的方法。在評估背景化的潛在優勢后,Romina 等組成的專家小組對部分背景化框架進行開發、測試與改進,該框架基于 GRADE 證據決策框架[24-26]及 GRADE 關于如何解釋成對比較結果的指導方法[27]制定,框架核心是效應大小及其應用于醫療保健領域的解釋。系統評價方法學家、生物統計學家和系統評價作者(不論是否有 NMA 經驗或是否為 GRADE 工作組成員)對初始框架進行了反饋。隨后,框架制定小組在通過幾個實例來對部分背景化框架進行測試,最終于 2019 年 6 月在加拿大漢密爾頓和 2019 年 11 月澳大利亞阿德萊德的會議上向 GRADE 工作組介紹了部分背景化框架的最終版本,以獲批作為 GRADE 指導手冊發布。
部分背景化框架有以下兩個原則:① 應考慮干預措施的利弊與效應大小,可分為無效(trivial to no effect)、較小效應(small benefit or harm)、中等效應(moderate benefit or harm)與較大的有利或不利效應(large benefit or harm)。基于不同的 NMA 比較結果,最多可將干預措施分為 7 類(圖 1)。② 基于效應量和干預措施排序對干預措施進行分類,并綜合考慮證據可信度以得出結論。以上任何因素都不能單獨用于確定一項干預措施是否優于其他措施。

3 框架步驟
從 NMA 得出結論的過程分為 4 個步驟。在此之前,作者須首先確定 NMA 中每個比較的證據可信度等級,分級方法可參考本團隊之前的研究成果[4, 28]。
3.1 步驟 1:選擇參考組和效應閾值
應選擇 NMA 中與其他干預措施聯系最緊密的措施作為參考組。通常使用參考組得出結論,但若其他關聯性較低的干預措施在臨床上更有意義,則不必出于呈現結果的目的將聯系最緊密的干預措施作為參考組。基于直接證據的 NMA 估計值比僅基于間接證據的 NMA 估計值更有可能被判定為高可信度證據,且可更好地區分干預措施,使其分類能夠提供更多的信息,因此應選擇高可信度證據用于干預措施的分類。
與 GRADE 解釋系統評價結果的指導方法[27]類似,證據評價者須將以下分類的閾值作為干預措施分類的基礎,即無效、較小效應、中等效應及較大效應。該閾值應由具備相應衛生健康知識的知情評價小組確定,最好是以主要利益相關者的意見為基礎。選擇參考組和效應閾值的過程應明確公開。另外,即使基于相同的 NMA 結果,在不同的研究背景下所確定的參考組和效應閾值也可能不同。
參考組與效應閾值的選擇應基于絕對效應值而非相對效應值。若結局為連續型變量,則報告的是絕對效應值;若結局為二分類變量,由于無法根據相對效應判斷干預措施的重要性(即對效應大小進行判斷:較小、中等或較大),需要將相對效應轉換為絕對效應。例如,在基線風險為 2% 時,相對風險降低 50% 代表絕對風險降低 1%,該效應值可能被認為是不重要的,即便重要也只能歸類為較小效應。然而,在基線風險為 40% 時,相對風險同樣降低 50%,代表絕對風險降低 20%,則可判斷為非常重要的較大效應。
3.2 步驟 2:基于比較參考組對干預措施進行分類
作者應比較每種干預措施與參考組比較的點估計值,用點估值代表最佳效應估計值,并根據步驟 1 確定的效應閾值進行評估,將干預措施分為無效、較小、中等或較大效應。此外,與參考組相比,干預措施可歸類為有利或不利措施。干預措施的具體分類情況取決于 NMA 的結果。
3.3 步驟 3:基于證據可信度對干預措施進行分類
在有多種干預措施、對各級證據進行多次比較的 NMA 中,基于每種干預措施與參考組比較的證據可信度,可將干預措施分類為兩類:高或中等可信度證據,低或極低可信度證據。但如果大多數干預措施與參考組比較的證據可信度均為低或極低,則無法根據證據可信度區分干預措施,此時不應將低或極低可信度證據的措施分為一類。
3.4 步驟 4:檢查成對比較與排序結果的一致性
作者應確保干預措施分類、分類過程中未考慮的成對比較(即除參考組外干預間的成對比較)及成對比較的證據可信度之間的一致性。若成對比較顯示高或中等可信度證據的結論與之前的干預措施排序存在差異,應對分類進行檢查和調整。
在該步驟中,可能會出現干預 A vs.參考組、干預 B vs.參考組和干預 A、B 直接比較出現相反結果的情況。例如,干預措施 A 和 B 同時與參考組比較,干預 A vs.參考組具有較大的有利效應;干預 B vs.參考組具有中等的有利效應,則干預 A 的排序高于 B,即干預措施 A 優于 B;但當干預措施 A 和 B 間存在直接比較,且 B 優于 A 時,則結果與之前的排序結果相反。
作者還可根據排序、排序概率、累積排序概率曲線下面積(surface under the cumulative ranking curve,SUCRA)或 P 值來判斷干預措施分類是否合理,必要時調整分類。例如,如果分類為較大效應的干預措施比中等效應的干預措施排序更高,而前者的 SUCRA 值比后者低得多,則表明分類存在問題。
在此步驟,作者應對前 3 步未考慮過的成對比較的結果與證據可信度進行分析,以防出現任何可能的錯誤。完成以上 4 個步驟后,即可對干預措施分類進行闡述,并得出結論。
4 案例分析
為便于讀者清楚理解和掌握部分背景化框架理論,本文以“藥物和營養干預治療兒童急性腹瀉和腸胃炎的 NMA”[29]為例,詳細闡述上述各個框架步驟。該 NMA 包括 138 個隨機對照試驗,20 256 例參與者和 27 項干預措施,主要結局指標為腹瀉持續時間,治療效應以小時為單位進行測量,網狀圖包括 62 個直接比較和 289 個間接比較。
步驟 1:本案例中的參考組為標準治療,包括非積極治療、安慰劑或僅口服補鹽液。較小效應閾值為腹瀉持續時間減少或增加 3 到 12 小時,中等效應為減少或增加 12 到 24 小時,而較大效應則為減少或增加 24 小時以上。
步驟 2:根據干預 vs. 參考組形成的干預措施分類見圖 2,其中閾值對應兒童急性腹瀉干預措施 NMA 中的腹瀉持續時間(此時尚未考慮證據可信度)。

基于每種干預措施 vs.參考組的點估計值,本案例將干預措施分為 5 類:較小的不利效應、無效、較小的有利效應、中等的有利效應或較大的有利效應(表 1)。

步驟 3:表 2 為依據效應大小和對應證據可信度分類的兒童急性腹瀉和腸胃炎的干預措施。作者應基于證據可信度高低得出結論,以說明每種干預措施有多大的可能性產生該特定效應。例如:“與標準療法相比,鼠李糖乳桿菌可能為中等的有利效應”;“微量營養素與標準療法相比可能無效”。

步驟 4:觀察兒童急性腹瀉的 NMA 中非參考組的不同干預措施間進行的間接比較[29]時,未發現不當分類。例如,在比較布拉氏酵母菌+鋅(中等可信度,較大的有利效應)和酸奶(極低可信度,中等的有利效應)時,腹瀉持續時間的 MD 為?22.96 小時[95%CI(?42.15,?4.44)](極低可信度)。這種差異表明,布拉氏酵母菌+鋅比酸奶更有效。同樣,將蒙脫石+鋅(中等可信度,較大的有利效應)與維生素 A(極低可信度,較小的有利效應)比較時,MD 為?29.54 小時[95%CI(?56.09,?2.84)](中等可信度),表明蒙脫石+鋅比維生素 A 更能縮短腹瀉持續時間。本例中,SUCRA 值從較大的有利效應到較小的不利效應遞減(表 1),說明無需修改分類。
根據 GRADE 關于如何闡述研究結果的指導,本文案例中的結論見表 3。

5 討論
本文介紹了如何使用部分背景化框架從 NMA 中得出結論,該框架要求作者對干預措施進行分類時,盡可能地綜合考慮效應大小、證據可信度及干預措施排序,以得出合適的結論。分類數量取決于現有證據、NMA 中包含的干預措施、干預措施間的比較方式及效應的閾值。
若在 NMA 用于衛生技術評價、指南制訂或政策決策時,潛在利弊大小對作者得出結論至關重要,使用部分背景化框架具有較大優勢。將框架中的干預措施分類應用于指南制定,有助于專家小組判斷干預措施的利弊平衡。在 NMA 中,大多數證據為間接證據,通常存在估計值區間較寬且不精確,使用部分背景化框架可最大限度地對干預措施加以區分。另外,在該框架中,評估不精確性時已考慮了置信區間的寬窄,因此在得出結論階段不予考慮。
該框架的局限性主要體現在以下幾方面:① 結論很大程度上取決于閾值的確定。但基于框架制定小組與許多指南專家組合作的經驗,閾值的校準易于進行。盡管有人認為閾值確定的隨意性容易導致后續問題,但 NMA 的作者在任何 Meta 分析的背景下所得關于效應大小的結論并無區別。在使用本方法時,作者需注意明確閾值及其含義,并使用效應的絕對估計值來確定閾值。② 雖然僅使用一種干預措施作為參考組可能導致大量信息被忽略,但在步驟 4 中,框架要求作者確認除參考組外的干預措施之間成對比較和干預措施分類、排序之間的一致性。因此,作者有機會根據之前未考慮到的信息對分類進行調整。此外,經過合理設計且符合其基本假設的 NMA 一般無需調整其分類。③ 使用點估計值來得出結論的方式可能會遭受質疑,但點估計值被認為是最佳效應估計值,而且任何反映在置信區間中的不確定性信息都會在證據可信度的評價中進行考慮。
總之,部分背景化框架綜合考慮所有關鍵信息,包括效應大小、證據可信度和干預措施排序,從 NMA 中對某一特定健康結局得出結論,該框架適用于大多數證據為間接證據的 NMA,或 NMA 以輔助指南或衛生技術評估的保險覆蓋范圍決策為制作目的。
目前,網狀 Meta 分析(network meta-analysis,NMA)方法已得到飛速的發展和廣泛地應用。作為傳統 Meta 分析的擴展,NMA 的優勢在于可量化比較相同主題的 2 種以上不同處理措施的相對優勢。當存在直接比較的證據時,可將直接與間接比較進行合并(混合治療效應)[1]以增加結果的精確性和統計學效能;若不存在直接比較研究的證據,或已有的直接比較證據的可信度較低或研究數量較少,需要獲取間接比較研究的證據(調整間接比較)[2]。
對于特定的健康結局,系統評價者需要就某一干預措施與其他干預措施比較的結果而得出結論,同時考慮這些干預措施進行比較時的效應估計值和證據可信度(證據質量)[3]。在 NMA 中,作者還需要針對特定的健康結局指標,了解每種干預措施對健康結局的相對優勢,即對干預措施進行排序,從而幫助科研工作者與臨床決策者從眾多的干預措施中選出最佳干預措施[4]。然而,每次 NMA 比較的結果包括相對效應量、證據可信度及干預措施排序等大量信息,尤其是當參與比較的干預措施較多時,綜合考慮全部關鍵信息以得出合適的結論成為重大挑戰。
Trinquart 等[5]對 58 篇發表的 NMA 進行了再分析,結果表明 NMA 中的干預措施排序并不具備可靠性。納入再分析的干預措施比較中,有 90% 的比較結果并無證據證明排序最高的干預措施與排序第二的干預措施之間存在差異。由于干預措施排序的不確定性容易被忽略,因此常被錯誤地用于指導臨床實踐[6]。此外,通常在一篇 NMA 的多種措施比較中,證據可信度由高到低不等,排名較高的干預措施可能為可信度“低”或“極低”的證據,其他排名較低的干預措施則也可能有較高可信度的證據[7,8]。NMA 的結果呈現通常基于排序結果與效應量,但往往忽略了證據可信度評價結果這一關鍵信息。
推薦分級的評價、制訂與評估(Grades of Recommendations Assessment,Development and Evaluation,GRADE)工作組此前已發表 NMA 中的證據可信度評價[9-11]、避免不精確性的虛假判斷[12]及評價不一致性[13]等 NMA 指導方法。此外,GRADE 工作組也就如何通過結果總結表呈現一篇 NMA 的研究結果提出了建議[14]。
2020 年 11 月,GRADE 工作組在 BMJ 連續發表了 2 篇論文,旨在介紹如何基于 NMA 證據 GRADE 分級的結果形成 NMA 的結論。基于不同的研究背景,可使用最小背景化框架(minimally contextualised framework)[15]進行解讀,該框架需在根據確定閾值對干預措施分類的基礎上,結合證據可信度再次進行干預措施分類;也可使用部分背景化框架(partially contextualised framework)[16],在該框架中作者需考慮特定結局效應大小的重要性。
本文結合具體實例,擬對部分背景化框架的方法、原理和步驟進行介紹,以期為 NMA 制作者采用該方法呈現和解讀結果提供指導。此外,本團隊也對最小背景化框架進行了解讀[17]。
1 什么是部分背景化框架?
GRADE 工作組于 2011 年對證據可信度做出定義[18]:證據可信度是指證據評價者對于效應估計值是否正確及是否足以支持某一特定決策或推薦意見的確信程度。前者適用于系統評價與衛生技術評估的背景下,而后者適用于制定指南推薦意見時。背景化指根據特定的閾值或范圍對證據可信度進行分級。在政策制定與指南應用的背景下,背景化需考慮當地環境、資源可及性、法律法規、文化、可及性和公平性等因素。GRADE 工作組將這種考慮完整的醫療保健背景的情況明確為“完全背景化(fully contextualized)”[19],此時的決策同時考慮了所有相關結局及患者偏好與價值觀。GRADE 工作組將背景化程度分為完全背景化、部分背景化(partly contextualized)與非背景化(non-contextualized)三類,背景化程度可通過對結局呈現的選擇、對不一致性的考慮和對受眾群體的價值觀的重視等方面得以體現。當 NMA 的作者沒有全面考慮所有背景因素時,他們對于證據可信度的考慮也是非完全背景化的。
部分背景化框架要求證據的評價者對較小、中等和較大的有利或不利效應做出明確公開的價值判斷(value judgement),判斷依據為 NMA 中納入的關鍵重要結局。目前,許多 NMA 基于特定目的而開展,例如為指南或衛生技術評估提供信息,指南制定小組需要通過價值判斷來制定推薦意見。由于在不同研究背景下價值判斷的標準存在不一致性,目前框架制定小組尚未制定價值判斷準則。一方面,若系統評價旨在為指南提供信息,證據價值判斷應由專家小組制定,并以每個結局相關的患者價值觀的證據為依據[20,21]。理想情況下,在推薦意見撰寫時系統評價小組與決策小組成員(如指南專家組)就應及早建立起密切的協作關系以做出價值判斷[22]。使用現有系統評價的指南制定者可自行建立閾值,并根據需要對干預措施進行重新分類,若這一過程公開透明,則決策制定者將進行審核與修改[23]。另一方面,若系統評價不是專門為特定指南提供信息,可由參與系統評價小組的臨床專家做出價值判斷,并考慮每個結局的相對重要性。
2 框架形成方法與原則
GRADE 工作組對已有文獻進行系統調查后發現,此前尚無對某個健康結局同時考慮 NMA 的結果和證據可信度以得出結論的方法。在評估背景化的潛在優勢后,Romina 等組成的專家小組對部分背景化框架進行開發、測試與改進,該框架基于 GRADE 證據決策框架[24-26]及 GRADE 關于如何解釋成對比較結果的指導方法[27]制定,框架核心是效應大小及其應用于醫療保健領域的解釋。系統評價方法學家、生物統計學家和系統評價作者(不論是否有 NMA 經驗或是否為 GRADE 工作組成員)對初始框架進行了反饋。隨后,框架制定小組在通過幾個實例來對部分背景化框架進行測試,最終于 2019 年 6 月在加拿大漢密爾頓和 2019 年 11 月澳大利亞阿德萊德的會議上向 GRADE 工作組介紹了部分背景化框架的最終版本,以獲批作為 GRADE 指導手冊發布。
部分背景化框架有以下兩個原則:① 應考慮干預措施的利弊與效應大小,可分為無效(trivial to no effect)、較小效應(small benefit or harm)、中等效應(moderate benefit or harm)與較大的有利或不利效應(large benefit or harm)。基于不同的 NMA 比較結果,最多可將干預措施分為 7 類(圖 1)。② 基于效應量和干預措施排序對干預措施進行分類,并綜合考慮證據可信度以得出結論。以上任何因素都不能單獨用于確定一項干預措施是否優于其他措施。

3 框架步驟
從 NMA 得出結論的過程分為 4 個步驟。在此之前,作者須首先確定 NMA 中每個比較的證據可信度等級,分級方法可參考本團隊之前的研究成果[4, 28]。
3.1 步驟 1:選擇參考組和效應閾值
應選擇 NMA 中與其他干預措施聯系最緊密的措施作為參考組。通常使用參考組得出結論,但若其他關聯性較低的干預措施在臨床上更有意義,則不必出于呈現結果的目的將聯系最緊密的干預措施作為參考組。基于直接證據的 NMA 估計值比僅基于間接證據的 NMA 估計值更有可能被判定為高可信度證據,且可更好地區分干預措施,使其分類能夠提供更多的信息,因此應選擇高可信度證據用于干預措施的分類。
與 GRADE 解釋系統評價結果的指導方法[27]類似,證據評價者須將以下分類的閾值作為干預措施分類的基礎,即無效、較小效應、中等效應及較大效應。該閾值應由具備相應衛生健康知識的知情評價小組確定,最好是以主要利益相關者的意見為基礎。選擇參考組和效應閾值的過程應明確公開。另外,即使基于相同的 NMA 結果,在不同的研究背景下所確定的參考組和效應閾值也可能不同。
參考組與效應閾值的選擇應基于絕對效應值而非相對效應值。若結局為連續型變量,則報告的是絕對效應值;若結局為二分類變量,由于無法根據相對效應判斷干預措施的重要性(即對效應大小進行判斷:較小、中等或較大),需要將相對效應轉換為絕對效應。例如,在基線風險為 2% 時,相對風險降低 50% 代表絕對風險降低 1%,該效應值可能被認為是不重要的,即便重要也只能歸類為較小效應。然而,在基線風險為 40% 時,相對風險同樣降低 50%,代表絕對風險降低 20%,則可判斷為非常重要的較大效應。
3.2 步驟 2:基于比較參考組對干預措施進行分類
作者應比較每種干預措施與參考組比較的點估計值,用點估值代表最佳效應估計值,并根據步驟 1 確定的效應閾值進行評估,將干預措施分為無效、較小、中等或較大效應。此外,與參考組相比,干預措施可歸類為有利或不利措施。干預措施的具體分類情況取決于 NMA 的結果。
3.3 步驟 3:基于證據可信度對干預措施進行分類
在有多種干預措施、對各級證據進行多次比較的 NMA 中,基于每種干預措施與參考組比較的證據可信度,可將干預措施分類為兩類:高或中等可信度證據,低或極低可信度證據。但如果大多數干預措施與參考組比較的證據可信度均為低或極低,則無法根據證據可信度區分干預措施,此時不應將低或極低可信度證據的措施分為一類。
3.4 步驟 4:檢查成對比較與排序結果的一致性
作者應確保干預措施分類、分類過程中未考慮的成對比較(即除參考組外干預間的成對比較)及成對比較的證據可信度之間的一致性。若成對比較顯示高或中等可信度證據的結論與之前的干預措施排序存在差異,應對分類進行檢查和調整。
在該步驟中,可能會出現干預 A vs.參考組、干預 B vs.參考組和干預 A、B 直接比較出現相反結果的情況。例如,干預措施 A 和 B 同時與參考組比較,干預 A vs.參考組具有較大的有利效應;干預 B vs.參考組具有中等的有利效應,則干預 A 的排序高于 B,即干預措施 A 優于 B;但當干預措施 A 和 B 間存在直接比較,且 B 優于 A 時,則結果與之前的排序結果相反。
作者還可根據排序、排序概率、累積排序概率曲線下面積(surface under the cumulative ranking curve,SUCRA)或 P 值來判斷干預措施分類是否合理,必要時調整分類。例如,如果分類為較大效應的干預措施比中等效應的干預措施排序更高,而前者的 SUCRA 值比后者低得多,則表明分類存在問題。
在此步驟,作者應對前 3 步未考慮過的成對比較的結果與證據可信度進行分析,以防出現任何可能的錯誤。完成以上 4 個步驟后,即可對干預措施分類進行闡述,并得出結論。
4 案例分析
為便于讀者清楚理解和掌握部分背景化框架理論,本文以“藥物和營養干預治療兒童急性腹瀉和腸胃炎的 NMA”[29]為例,詳細闡述上述各個框架步驟。該 NMA 包括 138 個隨機對照試驗,20 256 例參與者和 27 項干預措施,主要結局指標為腹瀉持續時間,治療效應以小時為單位進行測量,網狀圖包括 62 個直接比較和 289 個間接比較。
步驟 1:本案例中的參考組為標準治療,包括非積極治療、安慰劑或僅口服補鹽液。較小效應閾值為腹瀉持續時間減少或增加 3 到 12 小時,中等效應為減少或增加 12 到 24 小時,而較大效應則為減少或增加 24 小時以上。
步驟 2:根據干預 vs. 參考組形成的干預措施分類見圖 2,其中閾值對應兒童急性腹瀉干預措施 NMA 中的腹瀉持續時間(此時尚未考慮證據可信度)。

基于每種干預措施 vs.參考組的點估計值,本案例將干預措施分為 5 類:較小的不利效應、無效、較小的有利效應、中等的有利效應或較大的有利效應(表 1)。

步驟 3:表 2 為依據效應大小和對應證據可信度分類的兒童急性腹瀉和腸胃炎的干預措施。作者應基于證據可信度高低得出結論,以說明每種干預措施有多大的可能性產生該特定效應。例如:“與標準療法相比,鼠李糖乳桿菌可能為中等的有利效應”;“微量營養素與標準療法相比可能無效”。

步驟 4:觀察兒童急性腹瀉的 NMA 中非參考組的不同干預措施間進行的間接比較[29]時,未發現不當分類。例如,在比較布拉氏酵母菌+鋅(中等可信度,較大的有利效應)和酸奶(極低可信度,中等的有利效應)時,腹瀉持續時間的 MD 為?22.96 小時[95%CI(?42.15,?4.44)](極低可信度)。這種差異表明,布拉氏酵母菌+鋅比酸奶更有效。同樣,將蒙脫石+鋅(中等可信度,較大的有利效應)與維生素 A(極低可信度,較小的有利效應)比較時,MD 為?29.54 小時[95%CI(?56.09,?2.84)](中等可信度),表明蒙脫石+鋅比維生素 A 更能縮短腹瀉持續時間。本例中,SUCRA 值從較大的有利效應到較小的不利效應遞減(表 1),說明無需修改分類。
根據 GRADE 關于如何闡述研究結果的指導,本文案例中的結論見表 3。

5 討論
本文介紹了如何使用部分背景化框架從 NMA 中得出結論,該框架要求作者對干預措施進行分類時,盡可能地綜合考慮效應大小、證據可信度及干預措施排序,以得出合適的結論。分類數量取決于現有證據、NMA 中包含的干預措施、干預措施間的比較方式及效應的閾值。
若在 NMA 用于衛生技術評價、指南制訂或政策決策時,潛在利弊大小對作者得出結論至關重要,使用部分背景化框架具有較大優勢。將框架中的干預措施分類應用于指南制定,有助于專家小組判斷干預措施的利弊平衡。在 NMA 中,大多數證據為間接證據,通常存在估計值區間較寬且不精確,使用部分背景化框架可最大限度地對干預措施加以區分。另外,在該框架中,評估不精確性時已考慮了置信區間的寬窄,因此在得出結論階段不予考慮。
該框架的局限性主要體現在以下幾方面:① 結論很大程度上取決于閾值的確定。但基于框架制定小組與許多指南專家組合作的經驗,閾值的校準易于進行。盡管有人認為閾值確定的隨意性容易導致后續問題,但 NMA 的作者在任何 Meta 分析的背景下所得關于效應大小的結論并無區別。在使用本方法時,作者需注意明確閾值及其含義,并使用效應的絕對估計值來確定閾值。② 雖然僅使用一種干預措施作為參考組可能導致大量信息被忽略,但在步驟 4 中,框架要求作者確認除參考組外的干預措施之間成對比較和干預措施分類、排序之間的一致性。因此,作者有機會根據之前未考慮到的信息對分類進行調整。此外,經過合理設計且符合其基本假設的 NMA 一般無需調整其分類。③ 使用點估計值來得出結論的方式可能會遭受質疑,但點估計值被認為是最佳效應估計值,而且任何反映在置信區間中的不確定性信息都會在證據可信度的評價中進行考慮。
總之,部分背景化框架綜合考慮所有關鍵信息,包括效應大小、證據可信度和干預措施排序,從 NMA 中對某一特定健康結局得出結論,該框架適用于大多數證據為間接證據的 NMA,或 NMA 以輔助指南或衛生技術評估的保險覆蓋范圍決策為制作目的。