引用本文: 徐宵, 涂博祥, 秦嬰逸, 賀佳. 多組資料傾向性評分加權法模型構建與比較. 中國循證醫學雜志, 2023, 23(3): 362-372. doi: 10.7507/1672-2531.202210097 復制
在隨機對照試驗中,研究對象經過了嚴謹的隨機化分組,組間的協變量達到了較好的均衡,而真實世界數據研究中未能實現隨機化,組間的協變量不均衡。解決組間協變量不均衡的方法有傾向性評分法、協方差分析、多變量回歸、工具變量法等。本研究重點關注傾向性評分方法,由Rosenbaum和Rubin[1]在1983年首次提出,傾向性評分實質就是將多個協變量的信息綜合成一個復合變量,客觀上起到了降維的作用。當已觀測的混雜因素較多時,傾向性評分是一種比較好的選擇。傾向性評分通過以下幾種方法均衡組間已觀測混雜因素分布—匹配、分層、協變量調整和加權。其中傾向性評分加權是通過對研究對象進行加權構建基于目標人群的虛擬人群,使協變量達到全局平衡,結果易于解釋。當已觀測的混雜因素較多時,傾向性評分加權法是一種比較好的選擇。
傾向性評分加權法應用分為兩步:① 估計傾向性評分值;② 利用傾向性評分加權法均衡協變量進行效應估計[2]。常見的計算傾向性評分的方法有Logistic 回歸法、Probit回歸、分類與回歸樹、隨機森林等方法[3-4],目前大多數研究都是利用Logistic回歸方法估計傾向性評分值;McCaffrey等[5]于2004年首次提出將廣義增強模型(generalized boosting model,GBM)方法用于傾向性評分加權,此模型能自動地選擇協變量及其交互作用進入預測模型中,并可以通過人為設定協變量均衡性指標確定迭代停止規則選擇最佳的迭代次數。傾向性評分加權的原理通過傾向性評分值賦予每個研究對象一個相應的權重進行加權[6-8],使得各組中傾向性評分分布一致,從而達到消除混雜因素影響的目的。常用的加權方法是逆概率加權法(inverse probability of treatment weighting,IPTW)[9-10];Li等[11-12]在2019年提出了另一種方法—重疊權重加權(overlap weighting,OW),重疊權重的概念較逆概率權重雖被提出時間稍晚,但由于其不易產生極端權重的優勢被越來越多研究者選擇與應用[13-15]。
在真實世界研究中,很多情況下是多個分組資料的比較,但是目前傾向性評分加權法的研究多針對二分類分組資料,多組資料傾向性評分加權法的對比研究還比較少。因此,本研究擬模擬數據集在不同樣本量,不同協變量情況下,比較Logistic回歸法聯合逆概率加權(Logistic-IPTW)、Logistic回歸法聯合重疊加權(Logistic-OW)及GBM聯合重疊加權(GBM-OW)這三種方法的協變量均衡情況和處理效應估計差異,為選擇適宜的統計分析方法處理不同樣本量及不同協變量情況的觀察性研究資料提供建議。
1 廣義傾向性評分
Imbens[16]在2000年基于原有的傾向性評分基礎上提出針對多個處理組資料的廣義傾向性評分。廣義傾向性評分值是指在給定的協變量條件下被分配到每個組的條件概率:
![]() |
j表示處于某個處理組,j={1,...,J} (),
表示特定協變量條件。
2 三種多組資料傾向性評分加權法
2.1 Logisitic-IPTW
首先使用Logistic回歸方法估計多組資料傾向性評分值,具體公式如下:
![]() |
無序多分類的Logistic回歸采用的是廣義logit模型,采用因變量的各個水平(除參照水平外)與參照水平比值的自然對數來建立模型方程,當水平數為2時,該模型等價于二分類資料的Logistic回歸,因此該模型也可以被認為是二分類Logistic回歸模型的拓展。因變量Y是有(
)個水平的無序多分類變量,進行無序多分類的Logistic回歸時可以產生(J-1)個廣義logit模型。參照水平C的發生概率記為
,第
個水平(
=1,2,…,
)的發生率分別為
,
+
+…
=1。自變量
有
個,第
個水平第
個協變量(
=1,2,…,
)
系數為
。
針對多組資料的逆概率加權以全部研究對象為目標人群,每組研究對象通過加權后其協變量的特征分布均與全部研究對象相似,所估計的效應為平均處理效應(average treatment effect,ATE)。當估計效應為ATE時,第j組(j≥3)的逆概率權重為[17]:
![]() |
因此,本研究所比較的是第一種方法Logistic-IPTW法擬結合多分類Logistic回歸模型估計傾向性評分值,利用傾向性評分值進行逆概率加權,檢驗加權后的協變量平衡性,并且進行效應估計。
2.2 Logistic-OW
重疊權重由Li等[17]提出,不同于逆概率加權的是,重疊加權目標人群為協變量特征相似的人群,即傾向性評分值分布重疊的人群,估計的效應為重疊人群ATE(average treatment effect/ATE in the overlap,ATO)。當估計效應為ATO時,第j組(j≥3)的重疊加權權重為[17]:
![]() |
因此,本研究所比較的第二種方法Logistic-OW法擬結合多分類Logistic回歸模型估計傾向性評分值,利用傾向性評分值進行重疊加權,檢驗加權后的協變量平衡性,并且進行效應估計。
2.3 GBM-OW
GBM算法將通過自適應算法,不停迭代將簡單的回歸樹模型的集合疊加在一起估計傾向評分值。在通過不斷迭代的過程中,將弱學習器轉換成為強學習器,直到協變量的均衡性較好時,停止迭代,獲得最佳傾向性評分值[4]。在處理變量與協變量之間存在線性、非線性及交互關系時,此方法具有優勢。其計算公式如下:
第一步計算:
,
第二步尋找:一個任意形式的調整函數,與
相加,不斷迭代,對數似然估計值就會相應增加,直到協變量均衡性達到最佳時,停止迭代。即GBM法本質是對傾向評分值的對數優勢g(x)求極大似然估計[4-5]。
本研究所比較的是第三種方法擬結合GBM與傾向性評分OW法估計傾向性評分值,利用傾向性評分值進行OW,檢驗OW后的協變量平衡性,上述步驟不斷迭代找到協變量平衡性最好時的迭代次數,利用此迭代次數下的傾向性評分值,生成重疊加權權重進行效應估計。GBM與重疊權重的聯合體現在兩處,第一次聯合以尋找最佳迭代次數,第二次聯合以進行效應估計(圖1)。

3 評價指標
3.1 絕對標準均值差(absolute standardized mean difference,ASMD)
ASMD是兩組之間協變量均值的差異絕對值除以合并標準差,檢驗目的是均值的差異,評價協變量均衡性。
對于連續型變量兩組間ASMD的計算公式為:
![]() |
上式中,和
分別表示某兩個處理組中某協變量的方差。
對于二分類變量兩組間ASMD計算公式為:
![]() |
上式中,和
分別表示某兩個處理組中某協變量的發生率[18]。
對于多組資料協變量均衡性的評價方法多是采用不同組間標準化差異的最大值作為評價指標,即。當不同組間標準化差異的最大值小于0.1時,則可認為不同組間的協變量達到均衡[19-21]。
3.2 效應估計
對多組資料數據進行傾向性評分加權后,可將其視作隨機對照試驗直接利用結局變量的均值(或率)進行效應估計。本研究處理三組資料且結局變量為連續變量,估計效應為加權后兩組研究對象的均值差,處理效應的點估計為:
![]() |
![]() |
同時在效應估計時,本研究還利用R軟件輸出估計效應的均方根誤差(root mean squared error,RMSE)與95%可信區間覆蓋率等指標來探究以上三種傾向性評分加權法的優劣。
4 模擬研究
4.1 樣本量
本研究模擬樣本量為500、1 000、2 000、3 000、4 000、5 000。且設置三組樣本量間比例均衡為1∶1∶1。
4.2 協變量、處理變量與結局變量設置
本研究生成8個協變量~
,其中包含4個獨立、隨機的二分類(伯努利分布生成)變量
~
和4個獨立隨機的連續變量
~
。本研究中協變量
~
與暴露因素T和結局因素Y均有關。本研究所生成的處理變量為無序三分類處理因素,采用多分類Logistic回歸模型估計傾向性得分值,再根據協變量與處理因素的關系生成處理變量,具體公式如下:
![]() |
![]() |
通過調節、
以控制三組間樣本的比例;通過調節
控制三組間樣本傾向性評分值的重疊程度,本研究將
設置為三個不同數值,代表了三組資料傾向性評分重疊程度分別為高、中、低;G1、G2則代表8個協變量構建分組關系方程。
結局指標為連續型變量,其生成公式如下:
![]() |
為常數項;T代表接受處理的情況,通過調節
控制三組間結局的差異,本研究通過
將2組與1組間結局差值的金標準設置為1,將3組與1組間結局差值的金標準設置為3;
則代表8個協變量構建分組與結局關系方程;
代表殘差。
具體模擬場景設置—共設置以下5種不同復雜程度的協變量與處理因素、結局變量的相關場景,并且不同場景中設置的不同復雜程度協變量與處理因素的關系由G1、G2實現,協變量與結局變量的關系由實現:
場景1:主效應(8個協變量分別對分組變量、結局變量產生的線性效應)
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.5X5+0.2X6+0.2X7+0.1X8
G2=0.2X1+0.3X2?0.3X3+0.4X4+0.5X5+0.3X6+0.3X7+0.2X8
GY=0.4X1+0.5X2+0.2X3+0.3X4+0.3X5?0.3X6+0.4X7+0.3X8
場景2:主效應+和
的交互項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.2X5+0.3X6+0.1X7+0.2X8+2X6X7
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.5X6+0.2X7+0.4X8+1.6X6X7
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.1X8+0.5X6X7
場景3:主效應+的二次項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.2X5+0.3X6+0.1X7+0.2X8+1.5X82
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.5X6+0.2X7+0.4X8+1.9X82
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.3X8+0.4X82
場景4:主效應+的二次項+
和
的交互項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.2X5+0.2X6+0.1X7+0.2X8+1.7X82+1.6X6X7
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.6X6+0.2X7+0.3X8+1.5X82+1.2X6X7
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.1X8+0.3X82+0.4X6X7
場景5:主效應+和
的交互項+
和
的交互項+
的二次項+
的二次項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.4X5+0.1X6+0.1X7+0.1X8+1.5X62+1.2X82+1.4X6X7+1.4X5X8
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.5X6+0.2X7+0.4X8+1.2X62+1.1X82+1.6X6X7+1.9X5X8
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.1X8+0.4X62+0.3X82+0.5X6X7+0.2X5X8
本研究使用R 4.1.1軟件模擬數據,重復模擬10 000次,對比Logistic-IPTW、Logistic-OW和GBM-OW三種傾向性評分加權法處理多組資料的性能優劣。
4.3 評價指標
采用效應點估計(各樣本量的均值差)、RMSE以及95%可信區間覆蓋率對結果進行評價。協變量均衡性則采用ASMD來評價(詳見本文第三部分)。
5 模擬結果
5.1 不同傾向性評分加權法處理多組資料的效應估計比較
考慮到本研究是多組資料間的比較,因此采用組間兩兩比較的方式呈現結果,同時因為考慮到組間結果的類似和篇幅的有限性,在此展示1、2組之間比較的結果,1、3組之間的比較也可以得到相同結論(1、3組結果可聯系通訊作者獲取)。如圖2~6所示,在場景2~5中隨著模擬樣本量的增大,GBM-OW傾向性評分法效應值的點估計值與真實值的接近程度、RMSE和可信區間覆蓋率均好于其他兩種傾向性評分方法。相比協變量與分組變量、結局變量關系比較簡單的模擬場景1,隨著協變量與分組變量、結局變量有越來越復雜的非線性關系時,如場景2~5,GBM-OW法對效應的估計更加準確,RMSE所體現的效應估計的變異性更小,可信區間覆蓋率也最為穩定。同時,當協變量與分組變量、結局變量有越來越復雜的非線性關系時,隨著γ值的增大,即三組資料重疊程度減小時,GBM-OW法對效應值的點估計值與真實值的接近程度、RMSE和可信區間覆蓋率均好于其他兩種傾向性評分方法。

Im_effect12代表1、2組間效應點估計之差;RMSE_Im12代表1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。
5.2 不同傾向性評分加權法處理多組資料的協變量均衡性比較
如圖7所示,三種傾向性評分加權法均衡協變量的情況都比較好,ASMD均小于0.1。同時,隨著γ值的增大,即三組資料重疊程度減小時,GBM-OW法均衡協變量的能力增強。在隨著協變量與分組變量、結局變量有越來越復雜的非線性關系時,即場景越來越復雜時,如場景2~5,GBM-OW方法均衡協變量的能力愈來愈強。

GBM-OW均衡協變量的能力并不是三者中最佳的,且在大部分場景下都不如Logistic-OW和Logistic-IPTW。但隨著樣本量增大,GBM-OW均衡協變量能力有所改善與提高,尤其是在樣本量達到4 000、5 000且復雜場景的時候,其均衡性與Logistic-IPTW和Logistic-OW相似。
6 討論
近年來傾向性評分加權法由于在效應估計、平衡協變量效應等方面具有較好表現,其運用越來越廣泛,但是針對不同傾向性評分加權模型的比較的研究并不多,特別在真實世界的研究中,很多情況下分組變量是為多組資料的比較,因此針對多組資料傾向性評分加權法的選擇仍然存在疑問。
2019年Li等[17]提出了重疊加權方法并且用于多個處理組的因果推斷,Li和Thomas等[11]還利用模擬數據比較了基于Logistic回歸模型估算傾向性評分值時,逆概率加權、逆概率加權剪裁法和OW的表現,結果證明OW在協變量平衡效果、效應估計偏倚等方面的表現比前幾種方法要好,尤其是組間傾向性評分值分布重疊較少時,這也與本研究結果一致。
McCaffrey等[5]于2004年首次提出GBM模型用于傾向性評分估計,此模型能自動地選擇協變量及其交互作用進入預測模型中,并通過確定迭代停止規則選擇最佳的迭代次數。GBM方法估計傾向性評分涉及多個回歸樹的迭代過程,不僅可以捕捉協變量和處理之間的復雜和非線性關系而且可以直接處理缺失值、不過度擬合數據[22]。Harder等[23]在一個后期抑郁癥發展的預測研究中運用GBM方法估算傾向性評分值對大麻使用者和非大麻使用者進行了協變量的均衡處理。除了分類變量是兩組的情況,在分類變量為多組的情況下,GBM方法也被證明比起Logistic回歸其在估計傾向性評分時可以提供更加穩定的權重[24]。上述GBM估計傾向性評分的方法均結合IPTW且主要應用于兩組資料的對比,雖然傾向性評分值估計比一般Logistic回歸更加準確,但是仍會存在極端權重的問題。因此,本研究使GBM與OW法相結合,與一般Logistic-OW和Logistic-IPTW相比較其在多組資料協變量均衡性與效應估計的優劣。
本研究的局限性:① 雖然在本研究的模擬場景構建中涉及了二分類協變量和連續型協變量的情況,但還可以構建更復雜的模擬場景,如針對多分類協變量和非正態連續型協變量的情況探究。② 研究的模擬場景中結局變量僅涉及了連續型變量的情況,針對分類結局的情況仍需探索。③ 傾向性評分加權法只能平衡被觀察到的協變量產生的影響[25],而未知的、未被觀察到的混雜因素也會對結果造成影響,需進一步探究。
綜上所述,本研究通過蒙特卡洛模擬方法,從效應估計的準確性及組間協變量的均衡性兩個方面評價了本研究構建的GBM-OW法與目前研究中已存在的Logistic-IPTW、Logistic-OW處理多組資料協變量不同復雜度下的統計性能。本研究的模擬結果顯示,在5種不同混雜因素存在的場景下,相比于Logistic-IPTW法和Logistic-OW法,GBM-OW法在效應估計方面更優,同時擁有更小的RMSE;在協變量均衡性方面,三種方法效果都比較好,但在大部分場景下GBM-OW均衡協變量的能力不如Logistic-OW和Logistic-IPTW。隨著樣本量增大、組間重疊程度減小,GBM-OW均衡協變量能力有所改善與提高,尤其是在樣本量達到4 000、5 000,協變量與分組變量結局變量有更加復雜的非線性關系的時候,其均衡協變量能力漸漸與Logistic-IPTW和Logistic-OW相近。與此同時,隨著場景復雜化,在樣本量增大的同時,GBM-OW相比其余兩種方法,對效應估計的準確性會呈現出較大優勢。
在隨機對照試驗中,研究對象經過了嚴謹的隨機化分組,組間的協變量達到了較好的均衡,而真實世界數據研究中未能實現隨機化,組間的協變量不均衡。解決組間協變量不均衡的方法有傾向性評分法、協方差分析、多變量回歸、工具變量法等。本研究重點關注傾向性評分方法,由Rosenbaum和Rubin[1]在1983年首次提出,傾向性評分實質就是將多個協變量的信息綜合成一個復合變量,客觀上起到了降維的作用。當已觀測的混雜因素較多時,傾向性評分是一種比較好的選擇。傾向性評分通過以下幾種方法均衡組間已觀測混雜因素分布—匹配、分層、協變量調整和加權。其中傾向性評分加權是通過對研究對象進行加權構建基于目標人群的虛擬人群,使協變量達到全局平衡,結果易于解釋。當已觀測的混雜因素較多時,傾向性評分加權法是一種比較好的選擇。
傾向性評分加權法應用分為兩步:① 估計傾向性評分值;② 利用傾向性評分加權法均衡協變量進行效應估計[2]。常見的計算傾向性評分的方法有Logistic 回歸法、Probit回歸、分類與回歸樹、隨機森林等方法[3-4],目前大多數研究都是利用Logistic回歸方法估計傾向性評分值;McCaffrey等[5]于2004年首次提出將廣義增強模型(generalized boosting model,GBM)方法用于傾向性評分加權,此模型能自動地選擇協變量及其交互作用進入預測模型中,并可以通過人為設定協變量均衡性指標確定迭代停止規則選擇最佳的迭代次數。傾向性評分加權的原理通過傾向性評分值賦予每個研究對象一個相應的權重進行加權[6-8],使得各組中傾向性評分分布一致,從而達到消除混雜因素影響的目的。常用的加權方法是逆概率加權法(inverse probability of treatment weighting,IPTW)[9-10];Li等[11-12]在2019年提出了另一種方法—重疊權重加權(overlap weighting,OW),重疊權重的概念較逆概率權重雖被提出時間稍晚,但由于其不易產生極端權重的優勢被越來越多研究者選擇與應用[13-15]。
在真實世界研究中,很多情況下是多個分組資料的比較,但是目前傾向性評分加權法的研究多針對二分類分組資料,多組資料傾向性評分加權法的對比研究還比較少。因此,本研究擬模擬數據集在不同樣本量,不同協變量情況下,比較Logistic回歸法聯合逆概率加權(Logistic-IPTW)、Logistic回歸法聯合重疊加權(Logistic-OW)及GBM聯合重疊加權(GBM-OW)這三種方法的協變量均衡情況和處理效應估計差異,為選擇適宜的統計分析方法處理不同樣本量及不同協變量情況的觀察性研究資料提供建議。
1 廣義傾向性評分
Imbens[16]在2000年基于原有的傾向性評分基礎上提出針對多個處理組資料的廣義傾向性評分。廣義傾向性評分值是指在給定的協變量條件下被分配到每個組的條件概率:
![]() |
j表示處于某個處理組,j={1,...,J} (),
表示特定協變量條件。
2 三種多組資料傾向性評分加權法
2.1 Logisitic-IPTW
首先使用Logistic回歸方法估計多組資料傾向性評分值,具體公式如下:
![]() |
無序多分類的Logistic回歸采用的是廣義logit模型,采用因變量的各個水平(除參照水平外)與參照水平比值的自然對數來建立模型方程,當水平數為2時,該模型等價于二分類資料的Logistic回歸,因此該模型也可以被認為是二分類Logistic回歸模型的拓展。因變量Y是有(
)個水平的無序多分類變量,進行無序多分類的Logistic回歸時可以產生(J-1)個廣義logit模型。參照水平C的發生概率記為
,第
個水平(
=1,2,…,
)的發生率分別為
,
+
+…
=1。自變量
有
個,第
個水平第
個協變量(
=1,2,…,
)
系數為
。
針對多組資料的逆概率加權以全部研究對象為目標人群,每組研究對象通過加權后其協變量的特征分布均與全部研究對象相似,所估計的效應為平均處理效應(average treatment effect,ATE)。當估計效應為ATE時,第j組(j≥3)的逆概率權重為[17]:
![]() |
因此,本研究所比較的是第一種方法Logistic-IPTW法擬結合多分類Logistic回歸模型估計傾向性評分值,利用傾向性評分值進行逆概率加權,檢驗加權后的協變量平衡性,并且進行效應估計。
2.2 Logistic-OW
重疊權重由Li等[17]提出,不同于逆概率加權的是,重疊加權目標人群為協變量特征相似的人群,即傾向性評分值分布重疊的人群,估計的效應為重疊人群ATE(average treatment effect/ATE in the overlap,ATO)。當估計效應為ATO時,第j組(j≥3)的重疊加權權重為[17]:
![]() |
因此,本研究所比較的第二種方法Logistic-OW法擬結合多分類Logistic回歸模型估計傾向性評分值,利用傾向性評分值進行重疊加權,檢驗加權后的協變量平衡性,并且進行效應估計。
2.3 GBM-OW
GBM算法將通過自適應算法,不停迭代將簡單的回歸樹模型的集合疊加在一起估計傾向評分值。在通過不斷迭代的過程中,將弱學習器轉換成為強學習器,直到協變量的均衡性較好時,停止迭代,獲得最佳傾向性評分值[4]。在處理變量與協變量之間存在線性、非線性及交互關系時,此方法具有優勢。其計算公式如下:
第一步計算:
,
第二步尋找:一個任意形式的調整函數,與
相加,不斷迭代,對數似然估計值就會相應增加,直到協變量均衡性達到最佳時,停止迭代。即GBM法本質是對傾向評分值的對數優勢g(x)求極大似然估計[4-5]。
本研究所比較的是第三種方法擬結合GBM與傾向性評分OW法估計傾向性評分值,利用傾向性評分值進行OW,檢驗OW后的協變量平衡性,上述步驟不斷迭代找到協變量平衡性最好時的迭代次數,利用此迭代次數下的傾向性評分值,生成重疊加權權重進行效應估計。GBM與重疊權重的聯合體現在兩處,第一次聯合以尋找最佳迭代次數,第二次聯合以進行效應估計(圖1)。

3 評價指標
3.1 絕對標準均值差(absolute standardized mean difference,ASMD)
ASMD是兩組之間協變量均值的差異絕對值除以合并標準差,檢驗目的是均值的差異,評價協變量均衡性。
對于連續型變量兩組間ASMD的計算公式為:
![]() |
上式中,和
分別表示某兩個處理組中某協變量的方差。
對于二分類變量兩組間ASMD計算公式為:
![]() |
上式中,和
分別表示某兩個處理組中某協變量的發生率[18]。
對于多組資料協變量均衡性的評價方法多是采用不同組間標準化差異的最大值作為評價指標,即。當不同組間標準化差異的最大值小于0.1時,則可認為不同組間的協變量達到均衡[19-21]。
3.2 效應估計
對多組資料數據進行傾向性評分加權后,可將其視作隨機對照試驗直接利用結局變量的均值(或率)進行效應估計。本研究處理三組資料且結局變量為連續變量,估計效應為加權后兩組研究對象的均值差,處理效應的點估計為:
![]() |
![]() |
同時在效應估計時,本研究還利用R軟件輸出估計效應的均方根誤差(root mean squared error,RMSE)與95%可信區間覆蓋率等指標來探究以上三種傾向性評分加權法的優劣。
4 模擬研究
4.1 樣本量
本研究模擬樣本量為500、1 000、2 000、3 000、4 000、5 000。且設置三組樣本量間比例均衡為1∶1∶1。
4.2 協變量、處理變量與結局變量設置
本研究生成8個協變量~
,其中包含4個獨立、隨機的二分類(伯努利分布生成)變量
~
和4個獨立隨機的連續變量
~
。本研究中協變量
~
與暴露因素T和結局因素Y均有關。本研究所生成的處理變量為無序三分類處理因素,采用多分類Logistic回歸模型估計傾向性得分值,再根據協變量與處理因素的關系生成處理變量,具體公式如下:
![]() |
![]() |
通過調節、
以控制三組間樣本的比例;通過調節
控制三組間樣本傾向性評分值的重疊程度,本研究將
設置為三個不同數值,代表了三組資料傾向性評分重疊程度分別為高、中、低;G1、G2則代表8個協變量構建分組關系方程。
結局指標為連續型變量,其生成公式如下:
![]() |
為常數項;T代表接受處理的情況,通過調節
控制三組間結局的差異,本研究通過
將2組與1組間結局差值的金標準設置為1,將3組與1組間結局差值的金標準設置為3;
則代表8個協變量構建分組與結局關系方程;
代表殘差。
具體模擬場景設置—共設置以下5種不同復雜程度的協變量與處理因素、結局變量的相關場景,并且不同場景中設置的不同復雜程度協變量與處理因素的關系由G1、G2實現,協變量與結局變量的關系由實現:
場景1:主效應(8個協變量分別對分組變量、結局變量產生的線性效應)
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.5X5+0.2X6+0.2X7+0.1X8
G2=0.2X1+0.3X2?0.3X3+0.4X4+0.5X5+0.3X6+0.3X7+0.2X8
GY=0.4X1+0.5X2+0.2X3+0.3X4+0.3X5?0.3X6+0.4X7+0.3X8
場景2:主效應+和
的交互項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.2X5+0.3X6+0.1X7+0.2X8+2X6X7
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.5X6+0.2X7+0.4X8+1.6X6X7
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.1X8+0.5X6X7
場景3:主效應+的二次項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.2X5+0.3X6+0.1X7+0.2X8+1.5X82
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.5X6+0.2X7+0.4X8+1.9X82
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.3X8+0.4X82
場景4:主效應+的二次項+
和
的交互項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.2X5+0.2X6+0.1X7+0.2X8+1.7X82+1.6X6X7
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.6X6+0.2X7+0.3X8+1.5X82+1.2X6X7
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.1X8+0.3X82+0.4X6X7
場景5:主效應+和
的交互項+
和
的交互項+
的二次項+
的二次項
G1=0.3X1+0.2X2+0.4X3+0.1X4?0.4X5+0.1X6+0.1X7+0.1X8+1.5X62+1.2X82+1.4X6X7+1.4X5X8
G2=0.7X1+0.6X2?0.2X3+0.4X4+0.3X5+0.5X6+0.2X7+0.4X8+1.2X62+1.1X82+1.6X6X7+1.9X5X8
GY=0.4X1+0.3X2+0.2X3+0.1X4+0.4X5?0.3X6+0.2X7+0.1X8+0.4X62+0.3X82+0.5X6X7+0.2X5X8
本研究使用R 4.1.1軟件模擬數據,重復模擬10 000次,對比Logistic-IPTW、Logistic-OW和GBM-OW三種傾向性評分加權法處理多組資料的性能優劣。
4.3 評價指標
采用效應點估計(各樣本量的均值差)、RMSE以及95%可信區間覆蓋率對結果進行評價。協變量均衡性則采用ASMD來評價(詳見本文第三部分)。
5 模擬結果
5.1 不同傾向性評分加權法處理多組資料的效應估計比較
考慮到本研究是多組資料間的比較,因此采用組間兩兩比較的方式呈現結果,同時因為考慮到組間結果的類似和篇幅的有限性,在此展示1、2組之間比較的結果,1、3組之間的比較也可以得到相同結論(1、3組結果可聯系通訊作者獲取)。如圖2~6所示,在場景2~5中隨著模擬樣本量的增大,GBM-OW傾向性評分法效應值的點估計值與真實值的接近程度、RMSE和可信區間覆蓋率均好于其他兩種傾向性評分方法。相比協變量與分組變量、結局變量關系比較簡單的模擬場景1,隨著協變量與分組變量、結局變量有越來越復雜的非線性關系時,如場景2~5,GBM-OW法對效應的估計更加準確,RMSE所體現的效應估計的變異性更小,可信區間覆蓋率也最為穩定。同時,當協變量與分組變量、結局變量有越來越復雜的非線性關系時,隨著γ值的增大,即三組資料重疊程度減小時,GBM-OW法對效應值的點估計值與真實值的接近程度、RMSE和可信區間覆蓋率均好于其他兩種傾向性評分方法。

Im_effect12代表1、2組間效應點估計之差;RMSE_Im12代表1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。

Im_effect12代1、2組間效應點估計之差;RMSE_Im12代1、2組間均方根誤差。
5.2 不同傾向性評分加權法處理多組資料的協變量均衡性比較
如圖7所示,三種傾向性評分加權法均衡協變量的情況都比較好,ASMD均小于0.1。同時,隨著γ值的增大,即三組資料重疊程度減小時,GBM-OW法均衡協變量的能力增強。在隨著協變量與分組變量、結局變量有越來越復雜的非線性關系時,即場景越來越復雜時,如場景2~5,GBM-OW方法均衡協變量的能力愈來愈強。

GBM-OW均衡協變量的能力并不是三者中最佳的,且在大部分場景下都不如Logistic-OW和Logistic-IPTW。但隨著樣本量增大,GBM-OW均衡協變量能力有所改善與提高,尤其是在樣本量達到4 000、5 000且復雜場景的時候,其均衡性與Logistic-IPTW和Logistic-OW相似。
6 討論
近年來傾向性評分加權法由于在效應估計、平衡協變量效應等方面具有較好表現,其運用越來越廣泛,但是針對不同傾向性評分加權模型的比較的研究并不多,特別在真實世界的研究中,很多情況下分組變量是為多組資料的比較,因此針對多組資料傾向性評分加權法的選擇仍然存在疑問。
2019年Li等[17]提出了重疊加權方法并且用于多個處理組的因果推斷,Li和Thomas等[11]還利用模擬數據比較了基于Logistic回歸模型估算傾向性評分值時,逆概率加權、逆概率加權剪裁法和OW的表現,結果證明OW在協變量平衡效果、效應估計偏倚等方面的表現比前幾種方法要好,尤其是組間傾向性評分值分布重疊較少時,這也與本研究結果一致。
McCaffrey等[5]于2004年首次提出GBM模型用于傾向性評分估計,此模型能自動地選擇協變量及其交互作用進入預測模型中,并通過確定迭代停止規則選擇最佳的迭代次數。GBM方法估計傾向性評分涉及多個回歸樹的迭代過程,不僅可以捕捉協變量和處理之間的復雜和非線性關系而且可以直接處理缺失值、不過度擬合數據[22]。Harder等[23]在一個后期抑郁癥發展的預測研究中運用GBM方法估算傾向性評分值對大麻使用者和非大麻使用者進行了協變量的均衡處理。除了分類變量是兩組的情況,在分類變量為多組的情況下,GBM方法也被證明比起Logistic回歸其在估計傾向性評分時可以提供更加穩定的權重[24]。上述GBM估計傾向性評分的方法均結合IPTW且主要應用于兩組資料的對比,雖然傾向性評分值估計比一般Logistic回歸更加準確,但是仍會存在極端權重的問題。因此,本研究使GBM與OW法相結合,與一般Logistic-OW和Logistic-IPTW相比較其在多組資料協變量均衡性與效應估計的優劣。
本研究的局限性:① 雖然在本研究的模擬場景構建中涉及了二分類協變量和連續型協變量的情況,但還可以構建更復雜的模擬場景,如針對多分類協變量和非正態連續型協變量的情況探究。② 研究的模擬場景中結局變量僅涉及了連續型變量的情況,針對分類結局的情況仍需探索。③ 傾向性評分加權法只能平衡被觀察到的協變量產生的影響[25],而未知的、未被觀察到的混雜因素也會對結果造成影響,需進一步探究。
綜上所述,本研究通過蒙特卡洛模擬方法,從效應估計的準確性及組間協變量的均衡性兩個方面評價了本研究構建的GBM-OW法與目前研究中已存在的Logistic-IPTW、Logistic-OW處理多組資料協變量不同復雜度下的統計性能。本研究的模擬結果顯示,在5種不同混雜因素存在的場景下,相比于Logistic-IPTW法和Logistic-OW法,GBM-OW法在效應估計方面更優,同時擁有更小的RMSE;在協變量均衡性方面,三種方法效果都比較好,但在大部分場景下GBM-OW均衡協變量的能力不如Logistic-OW和Logistic-IPTW。隨著樣本量增大、組間重疊程度減小,GBM-OW均衡協變量能力有所改善與提高,尤其是在樣本量達到4 000、5 000,協變量與分組變量結局變量有更加復雜的非線性關系的時候,其均衡協變量能力漸漸與Logistic-IPTW和Logistic-OW相近。與此同時,隨著場景復雜化,在樣本量增大的同時,GBM-OW相比其余兩種方法,對效應估計的準確性會呈現出較大優勢。