隨機對照試驗是目前評價干預性措施療效比較的金標準,然而在臨床實踐中常因倫理和經濟等原因難以實施。當缺乏這種頭對頭直接比較的臨床研究證據時,間接比較是一個節約資源且有效的替代手段。匹配調整間接比較是一種基于人群校準的間接比較方法,適用于2種干預措施療效比較。該方法通過對研究干預的個體病例數據加權來匹配對照干預的匯總性數據,從而在匹配后組間基線均衡的研究人群中進行療效比較。目前該方法在國際上越來越受到關注,特別是在藥品的評審與評價中得到較多應用,然而目前國內有關研究依然較少。因此,本文就匹配調整間接比較的有關概念、研究價值、實例分析和優缺點作介紹。
引用本文: 劉穎欣, 王若婷, 黎國威. 匹配調整間接比較在醫學研究中的應用. 中國循證醫學雜志, 2022, 22(10): 1201-1205. doi: 10.7507/1672-2531.202204127 復制
隨機對照試驗(randomized controlled trial,RCT)是目前公認的評估干預性措施療效比較的金標準,RCT將患者進行隨機化分組,分別給予不同的干預措施來觀察不同組別的療效,從而達到直接比較(direct comparison)。通過隨機化,可認為研究人群的基線分布在組間達到平衡,進而得到無偏的估計結果。然而,由于經濟、倫理等多方面問題,RCT難以在臨床實踐中實施。在缺乏RCT直接比較證據的情況下,間接比較(indirect comparison)方法利用現有數據和已發表的臨床研究證據來評估干預措施療效,逐漸成為一種有力的替代方法[1]。相比于早期的未調整間接比較方法,目前更推薦能平衡人群間異質性的調整間接比較方法[1];而匹配調整間接比較(matching-adjusted indirect comparison,MAIC)是其中具有代表性的方法,適用于2種干預措施的療效比較[2-4]。
1 概述
當我們需要比較干預措施A與B的療效,但尚無對應的直接比較證據、或是現有直接比較證據不充分(例如研究例數太少),那么我們可考慮通過間接比較來探索兩種干預措施的療效差異。間接比較通常分為2類:未調整間接比較方法從2組試驗中提取出A和B的數據,然后未作處理即直接進行比較,由于A和B的人群基線分布可能不均衡,此時療效比較結果會有偏倚;而調整間接比較方法能夠基于目標人群進行校準,從而在組間基線分布均衡的基礎上比較A與B的療效。調整間接比較相比于未調整間接比較減少了混雜因素影響,因此各決策機構與指南均較為推薦使用調整間接比較來進行間接比較[5]。其中,根據A與B是否有共同對照組,調整間接比較又可分為錨定(anchored)與非錨定(unanchored)間接比較。為方便說明,以下采用錨定的調整間接比較來闡明間接比較的原理。例如:此時有2組試驗A vs. C和B vs. C,錨定調整間接比較將C作為共同對照組,進而間接得出A vs. B的比較結果:假設A vs. C的效應(effect)為,B vs. C的效應為
,則期望得到的A vs. B的效應為
,A vs. B的方差為
。
2 MAIC
MAIC是一種新興調整間接比較方法[3,6]。它通過傾向評分加權匹配進行人群校準[7-8],適用于2種干預措施的間接比較;MAIC的適用條件為需收集研究干預的全部個體病例數據(individual patient data,IPD)和對照干預的匯總性數據(aggregated data,AgD)[6]。該方法按照AgD人群的納入與排除標準、基線水平、隨訪時長等方面對IPD進行校準并進行比較分析;因此,MAIC的分析結果僅適用于AgD的對應人群[9]。其中,錨定MAIC中2種干預措施需有共同對照組,非錨定MAIC中只需納入研究干預和對照干預的單組數據[10]。MAIC的方法流程示意圖如圖1所示。

和一般的間接比較一樣,MAIC也需遵循間接比較需要滿足的3個基本前提假設[11],包括:
第一,同質性假設。即包含試驗中除隨機誤差外不存在其他的顯著異質性,一般用Q統計量檢驗法。當滿足同質性假設,可采用固定效應模型合并效應量;若不滿足同質性假設,隨機效應模型能給出比前者更寬的可信區間,從而得到更加保守穩健的結果。
第二,相似性假設。這包括了臨床相似性和方法學相似性2個方面。臨床相似性指A vs. C和B vs. C的2組試驗中研究對象、干預措施和結局測量等的相似性;方法學相似性指2組試驗的研究質量的相似性。目前相似性假設尚無公認的統計學方法來進行檢驗,只能通過比較試驗特征進行主觀判斷,或者通過敏感性分析、亞組分析或Meta回歸來識別和調整可能影響研究效應的特征[12-13]。
第三,一致性假設。即假如既有直接比較結果又有間接比較結果、或同時存在多個間接比較結果時,需符合一致性檢驗才能進行合并;否則,會提示直接比較或間接比較證據存在方法學缺陷,或兩者臨床特征有明顯差異,此時需探討出現不一致的原因并考慮是否合并。目前往往主要使用Bucher法[14]或Lumley法[15]來進行一致性假設的檢驗。
2.1 非錨定MAIC
當我們期望比較干預措施A與B,在已有A干預的IPD和其他研究者發表的B干預的AgD的情況下,我們可通過非錨定MAIC獲得A與B的療效對比。步驟如下:① 按照AgD的納入與排除標準、隨訪時間等對IPD進行初步調整,使得進行MAIC分析的人群標準一致;② 使用logistic回歸估計傾向評分,對IPD-A進行加權匹配進而與AgD-B的基線分布一致,得到加權后數據集IPD-A′和對應預測結局,其中權重估計通常采用矩估計法(methods of moments)[2];③ 檢查匹配后基線分布是否均衡,傾向評分研究中可用標準化均數差(standardized mean difference,SMD)來進行精確的均衡性評價,通常認為SMD<0.1即達到匹配后均衡[16-17];④ 估計A vs. B的效應為
,其中
為單向的轉化函數。
2.2 錨定MAIC
在已有A vs. C的IPD和已發表的B vs. C的AgD(理論上IPD-A與IPD-C、AgD-B與AgD-C間基線分布均衡)的情況下,我們可通過錨定MAIC獲得A與B的療效對比。步驟如下:① 按照AgD的納入排除標準、隨訪時間等對IPD進行初步調整,使得進行MAIC分析的人群標準一致;② 使用logistic回歸估計傾向評分,對IPD-AC進行加權匹配進而與AgD-BC數據的基線分布一致,得到加權后數據集IPD-AC′和對應預測結局和
,其中權重估計通常采用矩估計法[2];③ 檢查匹配后兩組人群的基線分布是否達到均衡,例如SMD<0.1即達到匹配后均衡;④ 估計A vs. B的效應為
。
3 實例分析
以下我們通過列舉非錨定與錨定的MAIC實例予以說明。為方便理解,表1展示并比較了2個實例的一些主要要素。

3.1 非錨定MAIC實例
在一個評估化療基礎上聯合帕博利珠或阿特珠單抗治療非小細胞肺癌的實例中[18],Halmos等納入了3個前瞻性RCT:KN021G隊列[19]和KN189研究[20]為IPD,這2個IPD的干預組均為化療聯合帕博利珠單抗,對照組為化療(鉑+培美曲塞);IMpower-130研究[21]為AgD,干預組為化療聯合阿特珠單抗,對照組為化療(鉑+白蛋白紫杉醇)。為處理跨試驗間的異質性,研究者按照IMpower-130試驗的納入與排除標準和隨訪時間等對KN021G/KN189數據進行初步調整,使得進行MAIC分析的人群標準一致。考慮到此3個RCT的對照組不完全一致,該實例中僅采用非錨定MAIC方法。
研究者根據單因素分析、指南和臨床經驗選取了一部分潛在的效應修正因子和預后變量進行匹配。采用logistic回歸模型計算傾向評分并進行逆概率加權,權重估計采用矩估計法,IMpower-130的權重為1,而KN021G/KN189的權重被定義為個體傾向評分的odds。對KN021G/KN189與IMpower-130的基線特征進行加權匹配后,2組達到基線完全均衡可比。
研究的療效終點為總生存期(overall survival,OS)和無進展生存期(progress free survival,PFS)。研究者采用pseudo-IPD法估計療效指標[22],該方法可數字化識別已發表數據的KM曲線從而得到該研究的模擬數據pseudo-IPD。在聯合帕博利珠的加權后IPD(即KN021G/KN189研究)和聯合阿特珠單抗的AgD轉化pseudo-IPD[22](即IMpower-130研究)中,采用以組別(聯合帕博利珠 vs. 聯合阿特珠單抗)為自變量的單因素Cox比例風險回歸模型來評估療效。聯合帕博利珠單抗和聯合阿特珠單抗的中位OS分別為23.0個月和18.2個月[HR=0.80,95%CI(0.67,0.95),P=0.01];中位PFS分別為9.3個月和7.3個月[HR=0.79,95%CI(0.67,0.93),P<0.01]。綜上所述,聯合帕博利珠單抗與聯合阿特珠單抗的OS和PFS差異有統計學意義,前者在延長非小細胞癌患者的生存時間方面優于后者。
3.2 錨定MAIC實例
在另一個實例中,Halmos等[23]評估化療聯合帕博利珠單抗 vs. 納武聯合伊匹單抗2種治療方案對IV期轉移性非小細胞肺癌患者的療效。該研究納入4個前瞻性RCT:KN021G隊列[19]、KN189研究[20]、KN407研究[24]和Checkmate 227 Part 1A研究[25]。其中前三者均為IPD,以化療聯合帕博利珠單抗作為干預組,化療作為對照組;Checkmate 227 Part 1A研究[25]為AgD,以納武聯合伊匹單抗作為干預組,化療作為對照組。同樣的,為了處理跨試驗間的異質性,研究者進行初步調整使得納入分析的人群在納入排除標準和隨訪時長方面一致。該MAIC在錨定環境下進行,2種治療方案均有共同對照干預(含鉑雙藥化療),即為當前MAIC的錨。
類似地,研究者采用logistic回歸模型計算傾向評分并進行逆概率加權匹配后,組間基線分布達到均衡。為了評估2種化療方案在OS與PFS的療效差異,研究采用了2種方法進行處理。研究通過加權Cox模型得到IPD中化療聯合帕博利珠單抗相比于化療的療效HR,再結合AgD中已發表的納武聯合伊匹單抗相比于化療的療效HR,采用Bucher間接比較的方法[14]得到2種治療方案的相對療效差異。研究者同時采用pseudo-IPD法[22]作為敏感性分析補充說明結果。
加權匹配后研究結果顯示,2組人群的化療對照臂的中位OS和PFS基本一致。化療聯合帕博利珠單抗 vs. 納武聯合伊匹單抗的中位OS分別為23.7個月和16.9個月[HR=0.80,95%CI(0.59,1.09),P=0.15];中位PFS分別為10.7個月和5.0個月[HR=0.53,95%CI(0.41,0.68),P<0.01]。因此,化療聯合帕博利珠單抗與納武聯合伊匹單抗的OS差異無統計學意義,但PFS差異有統計學意義,可認為前者在提高非小細胞肺癌患者的生存時間方面優于后者。
4 討論
MAIC目前在國際上逐漸得到越來越多的應用,其優點包括:第一,MAIC只需要提供研究干預的IPD(對照干預僅需AgD即可),能有效利用醫療信息資源,避免重新開展新試驗的失敗風險和人力物力資源的浪費。第二,MAIC利用匹配調整生成虛擬的基線相似分布數據集,有效降低混雜因素和效應修正因子對研究結局比較的影響。第三,MAIC通過匹配調整方法,無需進行參數估計。第四,MAIC可利用加權后數據進行多種分析,并可給出多個加權有關統計量說明原數據差別程度,如有效樣本量和權重分布等。
但是,MAIC也存在一些局限性。第一,MAIC默認將提供AgD資料的人群視為決策目標人群。例如目前有亞洲人群的A vs. C的IPD,對標歐洲一份已發表的B vs. C的AgD,則結果解讀為在歐洲人群中A vs. B的療效比較結果。由此可見MAIC難以在特定的目標人群中進行結果預測,故而在真實世界中的外推性有限。第二,由于錨定MAIC方法有相同的對照組作為橋梁,統計方法上認為錨定相比于非錨定能給出更穩健的結果[9]。但考慮到入組標準和試驗設計,錨定在實際應用中實現難度更大,故非錨定MAIC在應用中更為常見。而且,單臂試驗的間接比較只能采用非錨定方法。第三,MAIC的關鍵前提是所有混雜因素和效應修正因子都能進行調整并且傾向評分模型已正確納入這些因素;這也是傾向評分方法的基本前提假設,但在某些情況下可能無法滿足此假設。若存在其他未收集的有關混雜或效應修正變量,MAIC的匹配方法則不再適用。第四,MAIC中匹配的統計性能有限,若原數據差別較大可能導致匹配失敗。另外,匹配會減少納入分析的人數,這不僅削弱了統計效能,還可能會出現研究結果外推受限的情況;例如原始數據是全年齡段人群,但經過匹配后分析的人群僅涵蓋特定年齡范圍,此時即使研究結果較好也只能推廣至特定年齡人群,無法推廣至全年齡段人群。第五,由于傳統的傾向評分模型是IPD與IPD的匹配,而MAIC采用IPD與AgD進行匹配,這限制了現有可用于評價傾向評分模型擬合度和校準度的方法。第六,盡管調整間接比較的統計學方法在一些情況下(例如大樣本無交互、2個比較試驗偏倚相同)已被證明是無偏估計[14,26],但尚沒有適用于MAIC結果可信性的驗證標準;目前僅憑納入的研究資料是否滿足間接比較的3個基本前提假設來經驗性說明MAIC結果的可靠性,最終仍需RCT的直接比較證據作為金標準來衡量評價MAIC結果的準確性。
5 展望
MAIC是近年來新興的一種間接比較方法。該方法通過對不同研究人群的納入與排除標準和基線特征進行校準,使得不同人群具有可比性。MAIC方法目前在國際上越來越受到關注,特別是在藥品的評審與評價中得到較多應用,然而國內對MAIC方法的重視和推廣仍需要大力加強。高質量MAIC方法的設計,能有效利用現有數據和已發表的臨床研究證據,在缺乏直接比較證據的前提下降低重新開展試驗的失敗風險,避免研究資源浪費,為研究者提供關鍵的數據與證據支持。
隨機對照試驗(randomized controlled trial,RCT)是目前公認的評估干預性措施療效比較的金標準,RCT將患者進行隨機化分組,分別給予不同的干預措施來觀察不同組別的療效,從而達到直接比較(direct comparison)。通過隨機化,可認為研究人群的基線分布在組間達到平衡,進而得到無偏的估計結果。然而,由于經濟、倫理等多方面問題,RCT難以在臨床實踐中實施。在缺乏RCT直接比較證據的情況下,間接比較(indirect comparison)方法利用現有數據和已發表的臨床研究證據來評估干預措施療效,逐漸成為一種有力的替代方法[1]。相比于早期的未調整間接比較方法,目前更推薦能平衡人群間異質性的調整間接比較方法[1];而匹配調整間接比較(matching-adjusted indirect comparison,MAIC)是其中具有代表性的方法,適用于2種干預措施的療效比較[2-4]。
1 概述
當我們需要比較干預措施A與B的療效,但尚無對應的直接比較證據、或是現有直接比較證據不充分(例如研究例數太少),那么我們可考慮通過間接比較來探索兩種干預措施的療效差異。間接比較通常分為2類:未調整間接比較方法從2組試驗中提取出A和B的數據,然后未作處理即直接進行比較,由于A和B的人群基線分布可能不均衡,此時療效比較結果會有偏倚;而調整間接比較方法能夠基于目標人群進行校準,從而在組間基線分布均衡的基礎上比較A與B的療效。調整間接比較相比于未調整間接比較減少了混雜因素影響,因此各決策機構與指南均較為推薦使用調整間接比較來進行間接比較[5]。其中,根據A與B是否有共同對照組,調整間接比較又可分為錨定(anchored)與非錨定(unanchored)間接比較。為方便說明,以下采用錨定的調整間接比較來闡明間接比較的原理。例如:此時有2組試驗A vs. C和B vs. C,錨定調整間接比較將C作為共同對照組,進而間接得出A vs. B的比較結果:假設A vs. C的效應(effect)為,B vs. C的效應為
,則期望得到的A vs. B的效應為
,A vs. B的方差為
。
2 MAIC
MAIC是一種新興調整間接比較方法[3,6]。它通過傾向評分加權匹配進行人群校準[7-8],適用于2種干預措施的間接比較;MAIC的適用條件為需收集研究干預的全部個體病例數據(individual patient data,IPD)和對照干預的匯總性數據(aggregated data,AgD)[6]。該方法按照AgD人群的納入與排除標準、基線水平、隨訪時長等方面對IPD進行校準并進行比較分析;因此,MAIC的分析結果僅適用于AgD的對應人群[9]。其中,錨定MAIC中2種干預措施需有共同對照組,非錨定MAIC中只需納入研究干預和對照干預的單組數據[10]。MAIC的方法流程示意圖如圖1所示。

和一般的間接比較一樣,MAIC也需遵循間接比較需要滿足的3個基本前提假設[11],包括:
第一,同質性假設。即包含試驗中除隨機誤差外不存在其他的顯著異質性,一般用Q統計量檢驗法。當滿足同質性假設,可采用固定效應模型合并效應量;若不滿足同質性假設,隨機效應模型能給出比前者更寬的可信區間,從而得到更加保守穩健的結果。
第二,相似性假設。這包括了臨床相似性和方法學相似性2個方面。臨床相似性指A vs. C和B vs. C的2組試驗中研究對象、干預措施和結局測量等的相似性;方法學相似性指2組試驗的研究質量的相似性。目前相似性假設尚無公認的統計學方法來進行檢驗,只能通過比較試驗特征進行主觀判斷,或者通過敏感性分析、亞組分析或Meta回歸來識別和調整可能影響研究效應的特征[12-13]。
第三,一致性假設。即假如既有直接比較結果又有間接比較結果、或同時存在多個間接比較結果時,需符合一致性檢驗才能進行合并;否則,會提示直接比較或間接比較證據存在方法學缺陷,或兩者臨床特征有明顯差異,此時需探討出現不一致的原因并考慮是否合并。目前往往主要使用Bucher法[14]或Lumley法[15]來進行一致性假設的檢驗。
2.1 非錨定MAIC
當我們期望比較干預措施A與B,在已有A干預的IPD和其他研究者發表的B干預的AgD的情況下,我們可通過非錨定MAIC獲得A與B的療效對比。步驟如下:① 按照AgD的納入與排除標準、隨訪時間等對IPD進行初步調整,使得進行MAIC分析的人群標準一致;② 使用logistic回歸估計傾向評分,對IPD-A進行加權匹配進而與AgD-B的基線分布一致,得到加權后數據集IPD-A′和對應預測結局,其中權重估計通常采用矩估計法(methods of moments)[2];③ 檢查匹配后基線分布是否均衡,傾向評分研究中可用標準化均數差(standardized mean difference,SMD)來進行精確的均衡性評價,通常認為SMD<0.1即達到匹配后均衡[16-17];④ 估計A vs. B的效應為
,其中
為單向的轉化函數。
2.2 錨定MAIC
在已有A vs. C的IPD和已發表的B vs. C的AgD(理論上IPD-A與IPD-C、AgD-B與AgD-C間基線分布均衡)的情況下,我們可通過錨定MAIC獲得A與B的療效對比。步驟如下:① 按照AgD的納入排除標準、隨訪時間等對IPD進行初步調整,使得進行MAIC分析的人群標準一致;② 使用logistic回歸估計傾向評分,對IPD-AC進行加權匹配進而與AgD-BC數據的基線分布一致,得到加權后數據集IPD-AC′和對應預測結局和
,其中權重估計通常采用矩估計法[2];③ 檢查匹配后兩組人群的基線分布是否達到均衡,例如SMD<0.1即達到匹配后均衡;④ 估計A vs. B的效應為
。
3 實例分析
以下我們通過列舉非錨定與錨定的MAIC實例予以說明。為方便理解,表1展示并比較了2個實例的一些主要要素。

3.1 非錨定MAIC實例
在一個評估化療基礎上聯合帕博利珠或阿特珠單抗治療非小細胞肺癌的實例中[18],Halmos等納入了3個前瞻性RCT:KN021G隊列[19]和KN189研究[20]為IPD,這2個IPD的干預組均為化療聯合帕博利珠單抗,對照組為化療(鉑+培美曲塞);IMpower-130研究[21]為AgD,干預組為化療聯合阿特珠單抗,對照組為化療(鉑+白蛋白紫杉醇)。為處理跨試驗間的異質性,研究者按照IMpower-130試驗的納入與排除標準和隨訪時間等對KN021G/KN189數據進行初步調整,使得進行MAIC分析的人群標準一致。考慮到此3個RCT的對照組不完全一致,該實例中僅采用非錨定MAIC方法。
研究者根據單因素分析、指南和臨床經驗選取了一部分潛在的效應修正因子和預后變量進行匹配。采用logistic回歸模型計算傾向評分并進行逆概率加權,權重估計采用矩估計法,IMpower-130的權重為1,而KN021G/KN189的權重被定義為個體傾向評分的odds。對KN021G/KN189與IMpower-130的基線特征進行加權匹配后,2組達到基線完全均衡可比。
研究的療效終點為總生存期(overall survival,OS)和無進展生存期(progress free survival,PFS)。研究者采用pseudo-IPD法估計療效指標[22],該方法可數字化識別已發表數據的KM曲線從而得到該研究的模擬數據pseudo-IPD。在聯合帕博利珠的加權后IPD(即KN021G/KN189研究)和聯合阿特珠單抗的AgD轉化pseudo-IPD[22](即IMpower-130研究)中,采用以組別(聯合帕博利珠 vs. 聯合阿特珠單抗)為自變量的單因素Cox比例風險回歸模型來評估療效。聯合帕博利珠單抗和聯合阿特珠單抗的中位OS分別為23.0個月和18.2個月[HR=0.80,95%CI(0.67,0.95),P=0.01];中位PFS分別為9.3個月和7.3個月[HR=0.79,95%CI(0.67,0.93),P<0.01]。綜上所述,聯合帕博利珠單抗與聯合阿特珠單抗的OS和PFS差異有統計學意義,前者在延長非小細胞癌患者的生存時間方面優于后者。
3.2 錨定MAIC實例
在另一個實例中,Halmos等[23]評估化療聯合帕博利珠單抗 vs. 納武聯合伊匹單抗2種治療方案對IV期轉移性非小細胞肺癌患者的療效。該研究納入4個前瞻性RCT:KN021G隊列[19]、KN189研究[20]、KN407研究[24]和Checkmate 227 Part 1A研究[25]。其中前三者均為IPD,以化療聯合帕博利珠單抗作為干預組,化療作為對照組;Checkmate 227 Part 1A研究[25]為AgD,以納武聯合伊匹單抗作為干預組,化療作為對照組。同樣的,為了處理跨試驗間的異質性,研究者進行初步調整使得納入分析的人群在納入排除標準和隨訪時長方面一致。該MAIC在錨定環境下進行,2種治療方案均有共同對照干預(含鉑雙藥化療),即為當前MAIC的錨。
類似地,研究者采用logistic回歸模型計算傾向評分并進行逆概率加權匹配后,組間基線分布達到均衡。為了評估2種化療方案在OS與PFS的療效差異,研究采用了2種方法進行處理。研究通過加權Cox模型得到IPD中化療聯合帕博利珠單抗相比于化療的療效HR,再結合AgD中已發表的納武聯合伊匹單抗相比于化療的療效HR,采用Bucher間接比較的方法[14]得到2種治療方案的相對療效差異。研究者同時采用pseudo-IPD法[22]作為敏感性分析補充說明結果。
加權匹配后研究結果顯示,2組人群的化療對照臂的中位OS和PFS基本一致。化療聯合帕博利珠單抗 vs. 納武聯合伊匹單抗的中位OS分別為23.7個月和16.9個月[HR=0.80,95%CI(0.59,1.09),P=0.15];中位PFS分別為10.7個月和5.0個月[HR=0.53,95%CI(0.41,0.68),P<0.01]。因此,化療聯合帕博利珠單抗與納武聯合伊匹單抗的OS差異無統計學意義,但PFS差異有統計學意義,可認為前者在提高非小細胞肺癌患者的生存時間方面優于后者。
4 討論
MAIC目前在國際上逐漸得到越來越多的應用,其優點包括:第一,MAIC只需要提供研究干預的IPD(對照干預僅需AgD即可),能有效利用醫療信息資源,避免重新開展新試驗的失敗風險和人力物力資源的浪費。第二,MAIC利用匹配調整生成虛擬的基線相似分布數據集,有效降低混雜因素和效應修正因子對研究結局比較的影響。第三,MAIC通過匹配調整方法,無需進行參數估計。第四,MAIC可利用加權后數據進行多種分析,并可給出多個加權有關統計量說明原數據差別程度,如有效樣本量和權重分布等。
但是,MAIC也存在一些局限性。第一,MAIC默認將提供AgD資料的人群視為決策目標人群。例如目前有亞洲人群的A vs. C的IPD,對標歐洲一份已發表的B vs. C的AgD,則結果解讀為在歐洲人群中A vs. B的療效比較結果。由此可見MAIC難以在特定的目標人群中進行結果預測,故而在真實世界中的外推性有限。第二,由于錨定MAIC方法有相同的對照組作為橋梁,統計方法上認為錨定相比于非錨定能給出更穩健的結果[9]。但考慮到入組標準和試驗設計,錨定在實際應用中實現難度更大,故非錨定MAIC在應用中更為常見。而且,單臂試驗的間接比較只能采用非錨定方法。第三,MAIC的關鍵前提是所有混雜因素和效應修正因子都能進行調整并且傾向評分模型已正確納入這些因素;這也是傾向評分方法的基本前提假設,但在某些情況下可能無法滿足此假設。若存在其他未收集的有關混雜或效應修正變量,MAIC的匹配方法則不再適用。第四,MAIC中匹配的統計性能有限,若原數據差別較大可能導致匹配失敗。另外,匹配會減少納入分析的人數,這不僅削弱了統計效能,還可能會出現研究結果外推受限的情況;例如原始數據是全年齡段人群,但經過匹配后分析的人群僅涵蓋特定年齡范圍,此時即使研究結果較好也只能推廣至特定年齡人群,無法推廣至全年齡段人群。第五,由于傳統的傾向評分模型是IPD與IPD的匹配,而MAIC采用IPD與AgD進行匹配,這限制了現有可用于評價傾向評分模型擬合度和校準度的方法。第六,盡管調整間接比較的統計學方法在一些情況下(例如大樣本無交互、2個比較試驗偏倚相同)已被證明是無偏估計[14,26],但尚沒有適用于MAIC結果可信性的驗證標準;目前僅憑納入的研究資料是否滿足間接比較的3個基本前提假設來經驗性說明MAIC結果的可靠性,最終仍需RCT的直接比較證據作為金標準來衡量評價MAIC結果的準確性。
5 展望
MAIC是近年來新興的一種間接比較方法。該方法通過對不同研究人群的納入與排除標準和基線特征進行校準,使得不同人群具有可比性。MAIC方法目前在國際上越來越受到關注,特別是在藥品的評審與評價中得到較多應用,然而國內對MAIC方法的重視和推廣仍需要大力加強。高質量MAIC方法的設計,能有效利用現有數據和已發表的臨床研究證據,在缺乏直接比較證據的前提下降低重新開展試驗的失敗風險,避免研究資源浪費,為研究者提供關鍵的數據與證據支持。