本文介紹了傾向性評分加權中的逆概率加權和重疊權重加權,以及如何進行均衡性檢驗及效應量估計,隨后介紹并比較了4種可以實現傾向性評分加權的R軟件包。
引用本文: 涂博祥, 秦嬰逸, 吳騁, 徐宵, 趙艷芳. 傾向性評分加權方法介紹及R軟件實現. 中國循證醫學雜志, 2022, 22(3): 365-372. doi: 10.7507/1672-2531.202111101 復制
在觀察性研究中,病例組和對照組的協變量分布通常是不均衡的,即存在混雜因素,如忽視組間混雜因素的不均衡性,將其等同于隨機對照試驗,直接利用均值對平均處理效應進行估計,得到的結果將存在偏倚甚至出現Simpson悖論[1]。傾向性評分作為一種混雜因素處理的分析方法已在觀察性研究中得到廣泛應用。傾向性評分(propensity score,PS)的概念最早于1983年由Rosenbaum和Rubin提出[2],是指在一定協變量的條件下,研究對象接受處理因素的概率,即,
,其中
為協變量,
為處理變量(
為處理組,
為對照組)。傾向性評分最大的優勢是將多個混雜因素的影響用一個綜合的值來表示,即傾向性評分值(下文用PS或
表示),從而降低了協變量的維度,因此該方法尤其適用于協變量較多的情況。目前該方法已廣泛應用到醫學、經濟學、社會學等領域的研究中。
利用傾向性評分方法進行分析的步驟為:① 估計PS值;② 利用PS值均衡協變量分布;③ 均衡性檢驗及模型評價;④ 處理效應估計[3]。其中,PS值的估計是以處理因素作為因變量,其他混雜因素作為自變量,通過建立一個回歸模型來估計每個研究對象接受處理因素的可能性。目前用于估計PS值的方法有logistic回歸,Probit回歸、神經網絡、支持向量機、分類與回歸數、Boosting算法、SuperLearner等方法[4]。其中logistic回歸是最早提出的估計PS值的方法,也是目前最常用的方法。利用PS值均衡組間協變量分布的方法有匹配(matching)、分層(stratification)、協變量調整(covariate adjustment)和加權(weighting)等[5-6]。4種方法均有各自的特點和局限,詳見表1。其中基于傾向性評分的匹配、分層及協變量調整已早有介紹[5],本文主要介紹傾向性評分加權的分析方法。

1 傾向性評分加權
傾向性評分加權是根據目標人群(target population)的不同,通過不同的加權方法利用PS值對研究對象賦予權重,生成協變量特征分布均衡的虛擬人群。相較于匹配實現的是個體間1∶1的均衡,即1個處理組對象匹配1個對照組對象;加權則是通過權重實現全局性均衡。在傾向性評分加權分析過程中,重點是利用PS值計算權重。令為研究對象
的處理因素,
為其PS值,則該對象的權重
為:
![]() |
其中為基于
的函數[7],不同的
對應不同的目標人群和加權方法,詳見表2。

1.1 傾向性評分加權方法
1.1.1 逆概率加權(inverse probability weight,IPW)
逆概率加權是最早應用的傾向性評分加權方法。逆概率加權以全部研究對象(處理組對象+對照組對象)為目標人群,通過加權使每一組的研究對象的協變量特征分布均與全部研究對象相似[6],,其估計的效應為平均處理效應(average treatment effect,ATE)。根據公式(1)可得出處理組和對照組的逆概率權重為:
![]() |
即研究對象的逆概率權重為該對象所在組的概率的倒數,由于,因此
。當處理組對象的PS值接近0或者對照組對象的PS值接近1時,該對象的權重會較大,權重過大的對象會對效應估計造成較大影響,導致結果產生偏倚。通過模擬數據發現,當處理組和對照組的PS值分布重疊越少時,逆概率權重越容易出現極端值,如圖1所示。對于擁有極端權重的研究對象,可采用剪切(trimming)的方法進行處理[8],其基本理念是剔除擁有極端權重的研究對象,但經過剪切處理后的目標人群與原研究人群已不一致,另外此前通過逆概率加權實現的協變量特征均衡也不能保證。因此,當病例組和對照組間協變量特征分布重疊較少時,逆概率加權的應用有一定的局限性。
1.1.2 重疊權重加權(overlap weighting,OW)
重疊權重由Li等[7]提出,與逆概率加權不同,重疊權重加權的目標人群為兩組協變量特征相似的人群,即PS值分布重疊的人群,估計的效應為重疊人群平均處理效應(ATE in the overlap,ATO)。當估計效應為ATO時,,根據公式(1)可得出處理組和對照組的重疊權重為:
![]() |
即研究對象的重疊權重為該對象被分到另一組的概率,由于,因此避免了權重值過大的問題。從圖2可以看出,相較于逆概率加權,重疊權重加權提高了傾向性評分值重疊人群的相對權重,由于此部分研究對象接受2種處理的概率相當,在一些研究中基于此人群的效應估計更有指導意義。雖然重疊權重概念的提出較晚,但目前也越來越多地被研究者應用[9-11]。

另外幾種加權方法的基本思路與逆概率加權或重疊權重加權類似,其權重計算公式已列在表2中,此處不再詳細介紹。在實際應用中,應根據具體問題所要分析的目標人群不同,選擇相應的加權方法。也可分別采用不同的加權方法進行分析,提高效應估計的穩健性。
1.2 均衡性檢驗和模型評價
利用PS值均衡組間協變量后需要對均衡性進行檢驗,若協變量實現了均衡,則可參照隨機對照試驗的方法,利用各組均值進行統計推斷;若未達到均衡,則考慮要對前面兩步進行調整。下面介紹傾向性評分中常用的均衡性檢驗和模型評價指標。
1.2.1 絕對標準均值差(absolute standardized mean difference,ASMD)
ASMD指兩組之間協變量均值的差異絕對值除以合并標準差,其檢驗的是均值的差異,對于連續型變量其計算公式為:
![]() |
對于二分類變量其計算公式為:
![]() |
其中,和
分別表示協變量在處理組和對照組的均值,
和
分別為協變量在處理組和對照組的方差,
和
分別為協變量在處理組和對照組的率[12]。在傾向性評分加權分析中,為直觀比較加權前后ASMD的大小,分母可統一采用加權前的值。根據計算公式可知ASMD沒有單位,若ASMD為1則表示兩組之間均值相差一個合并標準差,ASMD越小則表示該協變量的兩組均值差異越小[13]。當ASMD小于0.1時,可認為組間協變量的均衡性較好[14-15]。在一些軟件包中,為方便,統一采用式(4)計算ASMD,不對協變量的類型進行區分。
1.2.2 Kolmogorov-Smirnov統計量(簡稱KS值)
KS檢驗是對協變量值的分布進行的檢驗[16],其檢驗的是病例組和對照組的樣本是否來自相同的概率分布,KS值的計算公式為:
![]() |
其中,和
為病例組和對照組的協變量
在每個值下的相對累計頻率,因此KS值越小,則認為兩組之間分布越相似,即兩組間該協變量的分布越均衡。一般KS值小于0.1可認為達到了組間均衡[17]。在R軟件中可用ks.test()函數計算未加權的KS值,利用twang包進行傾向性評分分析時,可輸出加權后的KS值并利用KS值進行均衡性檢驗來選擇最優模型。
1.2.3 有效樣本量(effective sample sizes,ESS)
ESS的計算公式為:
![]() |
即該組研究對象總權重的平方與各研究對象權重的平方之和的比值[17-18]。ESS可理解為加權后該組中具有可比性的樣本量,若為該組加權前的樣本量,可證明
,且權重的離散系數越大,ESS越小[19]。當ESS過小時,則表明權重的離散程度較大,可能會存在極端權重的問題。另外,在使用Boosting算法估計PS值時,可參考ESS選擇最優模型,如當兩模型的ASMD值或KS值接近時,可選擇ESS較大的模型[17]。
1.3 效應估計
經過傾向性評分加權且協變量均衡的加權樣本可參照隨機對照試驗直接利用結局變量的均值(或率)進行效應估計。令為結局變量,
為樣本量,
為權重,
為處理變量(
為病例組,
為對照組),
代表第
個研究對象,病例組和對照組結局變量的均值(或率)分別為
和
,則有:
![]() |
當結局變量為連續型變量時,估計效應為加權后兩組研究對象的均值差(mean difference,MD),即:
![]() |
當結局變量為二分類變量時,估計效應可為率差(risk difference,RD),相對風險(relative risk,RR)和比值比(odds ratio,OR),相應公式如下:
![]() |
![]() |
![]() |
以上公式是處理效應的點估計,在實際分析中,還應報告置信區間,利用R軟件分析包可輸出各種效應量的點估計和置信區間(或標準誤)。
2 傾向性評分加權的R語言實現
2.1 數據來源
為便于演示和復現,我們采用R軟件中“twang”包里的Lindner數據進行演示,該數據包括了1997年美國辛辛那提地區基督醫院Lindner中心996例接受了經皮冠狀動脈介入治療患者的數據,我們采用其中10個變量進行分析,其中1個處理變量abcix,7個協變量,1個二分類結局變量sixMonthSurvive,1個連續型結局變量cardbill,具體變量介紹見表3[20]。

2.2 PSW包
PSW可用于處理二分類變量的傾向性評分加權,目前最新版本為2018年1月19日發布的1.1-3版[21]。該包可實現基于ATE、ATT、ATC、ATO、ATM的傾向性評分加權,并可進行均衡性檢驗及效應估計。其主要函數為psw(),主要參數有:data為所使用的數據集,form.ps為PS值模型,weight為加權方法,可選項有“ATE”,“ATT”,“ATC”,“OVERLAP”,“MW”等,該函數運行后可輸出PS值和對應的權重值。
psw.banlance()函數可輸出加權前及加權后各協變量在病例組和對照組的均值、標準差及標準均值差(standardized mean difference,SMD),并繪出加權前后SMD的對照圖(圖3)。

psw.wt()函數用于加權后處理效應的估計,其中out.var為結局變量,family為結局變量的分布類型,可選項有“gaussian”和“binomial”。根據結局變量分布類型的不同,會輸出不同效應的估計值,若結局為連續型變量則輸出加權后的均值差及其標準誤;若結局為二分類變量,則輸出多個效應估計(包括率差、相對風險、優勢比等)及其標準誤。
此外,PSW包中還提供psw.aug()函數用于效應的增廣估計,但PSW包尚不能實現分組變量為多分類變量的傾向性評分加權及結局為生存資料數據的效應量估計。
2.3 PSweight包
PSweight可實現分組變量為二分類及多分類的傾向性評分加權,該包目前最新版本為2021年10月28日發布的1.1.5版[22]。其可實現基于ATO、ATE、ATT、ATC(該包中無ATC選項,但在ATT方法中利用參數trtgrp設置處理組即可)、ATM以及ATEN(entropy weights)的傾向性評分加權,并且還可以對PS值進行剪切。
其基本函數為PSweight(),其基本參數有:ps.formula為PS值估計模型,trtgrp設置處理組,zname為分組變量,yname為結局變量,data為所要分析的數據,weight為加權方法,可選項有“IPW”,“treated”,“overlap”,“ATM”,“ATEN”,out.formula為結局模型,family為結局變量的分布及連接類型,有“gaussian(link=identity)”,“binomial(link=logit)”和“poisson(link=log)”三種,ps.method和out.method分別為PS值和結局變量的估計方法,可選方法有廣義線性模型(“glm”),廣義增強模型(“gbm”)和超級學習模型(“SuperLearner”),默認為“glm”。
PSweight()函數生成PS值及各組結局變量的估計值,配合summary.PSweight()函數可輸出效應估計值和其標準誤、置信區間及P值。SumStat()函數可生成有效樣本量ESS,并利用ASMD對均衡性進行檢驗,配合summary.SumStat()和plot.SumStat()函數可輸出均衡性檢驗的結果及相關圖形(圖4)。

2.4 twang包
twang包的最新版本為2021年10月25日發布的2.5版[23],該包可實現處理變量為二分類及多分類的情況下,基于ATE和ATT效應估計的傾向性評分加權及均衡性檢驗。
其基本函數為ps(),其中version參數可選用“gbm”模型或“xgboost”模型計算PS值,其檢驗均衡性的指標有ASMD值和KS值,stop.method參數提供多種均衡性檢驗的方法以確定最優模型,其中“ks.mean”與“ks.max”分別檢驗的是所有協變量KS值的平均值和最大值,“es.mean”,“es.max”分別檢驗的是所有協變量ASMD值的平均值及最大值。
twang包功能強大,可繪出多種檢驗均衡性的圖形,輸出均衡性指標及ESS值,通過get.weight()函數可提取權重值,結合survey包中的suydesign()、svyglm()、svycoxph()等函數可進行效應值估計。目前twang包尚只能用于基于ATE和ATT的加權[24]。
2.5 hrIPW包
hrIPW包的最新版本為2020年4月13日發表的0.1.3版本[25],該包可實現處理因素為二分類變量,結局變量為生存資料的基于ATE和ATT效應估計的傾向性評分加權。該包較簡單,只有一個函數hrIPW(),參數data為數據,time為生存時間變量,status為刪失變量,exposure為分組變量,variables為協變量,結果輸出有Cox比例風險模型的參數值及其標準誤、置信區間及P值。由于該包函數簡單且分析的結局為生存資料,在此不再做展示。
上述4種可用于傾向性評分加權的R包比較見表4。

3 小結
本文介紹了2種傾向性評分加權方法:分別為逆概率加權和重疊權重加權,并介紹了檢驗均衡的指標ASMD和KS值,以及有效樣本量和效應估計。隨后介紹了4種可實現傾向性評分加權的R包及其特點。我們發現4種包均可實現基于ATE和ATT的加權,其中PSweight包和twang包用到了廣義線性模型之外的方法估計PS值。在對PS值進行估計時,協變量之間除了有線性關系,可能還會存在交互作用和非線性關系,此時廣義線性模型具有一定的局限性,可能會導致PS值估計出現偏倚,影響權重和效應估計。而GBM、XGBoost等機器方法可自動尋找協變量之間的關系,并通過迭代提高估計的準確性。在應用GBM、XGBoost等相關模型時,需要設置多個參數,并且涉及到迭代的進行和停止。如何選擇最優參數,制定迭代進行及停止規則,選擇最優模型,從而得到準確的PS值及效應估計值得進一步研究。

在觀察性研究中,病例組和對照組的協變量分布通常是不均衡的,即存在混雜因素,如忽視組間混雜因素的不均衡性,將其等同于隨機對照試驗,直接利用均值對平均處理效應進行估計,得到的結果將存在偏倚甚至出現Simpson悖論[1]。傾向性評分作為一種混雜因素處理的分析方法已在觀察性研究中得到廣泛應用。傾向性評分(propensity score,PS)的概念最早于1983年由Rosenbaum和Rubin提出[2],是指在一定協變量的條件下,研究對象接受處理因素的概率,即,
,其中
為協變量,
為處理變量(
為處理組,
為對照組)。傾向性評分最大的優勢是將多個混雜因素的影響用一個綜合的值來表示,即傾向性評分值(下文用PS或
表示),從而降低了協變量的維度,因此該方法尤其適用于協變量較多的情況。目前該方法已廣泛應用到醫學、經濟學、社會學等領域的研究中。
利用傾向性評分方法進行分析的步驟為:① 估計PS值;② 利用PS值均衡協變量分布;③ 均衡性檢驗及模型評價;④ 處理效應估計[3]。其中,PS值的估計是以處理因素作為因變量,其他混雜因素作為自變量,通過建立一個回歸模型來估計每個研究對象接受處理因素的可能性。目前用于估計PS值的方法有logistic回歸,Probit回歸、神經網絡、支持向量機、分類與回歸數、Boosting算法、SuperLearner等方法[4]。其中logistic回歸是最早提出的估計PS值的方法,也是目前最常用的方法。利用PS值均衡組間協變量分布的方法有匹配(matching)、分層(stratification)、協變量調整(covariate adjustment)和加權(weighting)等[5-6]。4種方法均有各自的特點和局限,詳見表1。其中基于傾向性評分的匹配、分層及協變量調整已早有介紹[5],本文主要介紹傾向性評分加權的分析方法。

1 傾向性評分加權
傾向性評分加權是根據目標人群(target population)的不同,通過不同的加權方法利用PS值對研究對象賦予權重,生成協變量特征分布均衡的虛擬人群。相較于匹配實現的是個體間1∶1的均衡,即1個處理組對象匹配1個對照組對象;加權則是通過權重實現全局性均衡。在傾向性評分加權分析過程中,重點是利用PS值計算權重。令為研究對象
的處理因素,
為其PS值,則該對象的權重
為:
![]() |
其中為基于
的函數[7],不同的
對應不同的目標人群和加權方法,詳見表2。

1.1 傾向性評分加權方法
1.1.1 逆概率加權(inverse probability weight,IPW)
逆概率加權是最早應用的傾向性評分加權方法。逆概率加權以全部研究對象(處理組對象+對照組對象)為目標人群,通過加權使每一組的研究對象的協變量特征分布均與全部研究對象相似[6],,其估計的效應為平均處理效應(average treatment effect,ATE)。根據公式(1)可得出處理組和對照組的逆概率權重為:
![]() |
即研究對象的逆概率權重為該對象所在組的概率的倒數,由于,因此
。當處理組對象的PS值接近0或者對照組對象的PS值接近1時,該對象的權重會較大,權重過大的對象會對效應估計造成較大影響,導致結果產生偏倚。通過模擬數據發現,當處理組和對照組的PS值分布重疊越少時,逆概率權重越容易出現極端值,如圖1所示。對于擁有極端權重的研究對象,可采用剪切(trimming)的方法進行處理[8],其基本理念是剔除擁有極端權重的研究對象,但經過剪切處理后的目標人群與原研究人群已不一致,另外此前通過逆概率加權實現的協變量特征均衡也不能保證。因此,當病例組和對照組間協變量特征分布重疊較少時,逆概率加權的應用有一定的局限性。
1.1.2 重疊權重加權(overlap weighting,OW)
重疊權重由Li等[7]提出,與逆概率加權不同,重疊權重加權的目標人群為兩組協變量特征相似的人群,即PS值分布重疊的人群,估計的效應為重疊人群平均處理效應(ATE in the overlap,ATO)。當估計效應為ATO時,,根據公式(1)可得出處理組和對照組的重疊權重為:
![]() |
即研究對象的重疊權重為該對象被分到另一組的概率,由于,因此避免了權重值過大的問題。從圖2可以看出,相較于逆概率加權,重疊權重加權提高了傾向性評分值重疊人群的相對權重,由于此部分研究對象接受2種處理的概率相當,在一些研究中基于此人群的效應估計更有指導意義。雖然重疊權重概念的提出較晚,但目前也越來越多地被研究者應用[9-11]。

另外幾種加權方法的基本思路與逆概率加權或重疊權重加權類似,其權重計算公式已列在表2中,此處不再詳細介紹。在實際應用中,應根據具體問題所要分析的目標人群不同,選擇相應的加權方法。也可分別采用不同的加權方法進行分析,提高效應估計的穩健性。
1.2 均衡性檢驗和模型評價
利用PS值均衡組間協變量后需要對均衡性進行檢驗,若協變量實現了均衡,則可參照隨機對照試驗的方法,利用各組均值進行統計推斷;若未達到均衡,則考慮要對前面兩步進行調整。下面介紹傾向性評分中常用的均衡性檢驗和模型評價指標。
1.2.1 絕對標準均值差(absolute standardized mean difference,ASMD)
ASMD指兩組之間協變量均值的差異絕對值除以合并標準差,其檢驗的是均值的差異,對于連續型變量其計算公式為:
![]() |
對于二分類變量其計算公式為:
![]() |
其中,和
分別表示協變量在處理組和對照組的均值,
和
分別為協變量在處理組和對照組的方差,
和
分別為協變量在處理組和對照組的率[12]。在傾向性評分加權分析中,為直觀比較加權前后ASMD的大小,分母可統一采用加權前的值。根據計算公式可知ASMD沒有單位,若ASMD為1則表示兩組之間均值相差一個合并標準差,ASMD越小則表示該協變量的兩組均值差異越小[13]。當ASMD小于0.1時,可認為組間協變量的均衡性較好[14-15]。在一些軟件包中,為方便,統一采用式(4)計算ASMD,不對協變量的類型進行區分。
1.2.2 Kolmogorov-Smirnov統計量(簡稱KS值)
KS檢驗是對協變量值的分布進行的檢驗[16],其檢驗的是病例組和對照組的樣本是否來自相同的概率分布,KS值的計算公式為:
![]() |
其中,和
為病例組和對照組的協變量
在每個值下的相對累計頻率,因此KS值越小,則認為兩組之間分布越相似,即兩組間該協變量的分布越均衡。一般KS值小于0.1可認為達到了組間均衡[17]。在R軟件中可用ks.test()函數計算未加權的KS值,利用twang包進行傾向性評分分析時,可輸出加權后的KS值并利用KS值進行均衡性檢驗來選擇最優模型。
1.2.3 有效樣本量(effective sample sizes,ESS)
ESS的計算公式為:
![]() |
即該組研究對象總權重的平方與各研究對象權重的平方之和的比值[17-18]。ESS可理解為加權后該組中具有可比性的樣本量,若為該組加權前的樣本量,可證明
,且權重的離散系數越大,ESS越小[19]。當ESS過小時,則表明權重的離散程度較大,可能會存在極端權重的問題。另外,在使用Boosting算法估計PS值時,可參考ESS選擇最優模型,如當兩模型的ASMD值或KS值接近時,可選擇ESS較大的模型[17]。
1.3 效應估計
經過傾向性評分加權且協變量均衡的加權樣本可參照隨機對照試驗直接利用結局變量的均值(或率)進行效應估計。令為結局變量,
為樣本量,
為權重,
為處理變量(
為病例組,
為對照組),
代表第
個研究對象,病例組和對照組結局變量的均值(或率)分別為
和
,則有:
![]() |
當結局變量為連續型變量時,估計效應為加權后兩組研究對象的均值差(mean difference,MD),即:
![]() |
當結局變量為二分類變量時,估計效應可為率差(risk difference,RD),相對風險(relative risk,RR)和比值比(odds ratio,OR),相應公式如下:
![]() |
![]() |
![]() |
以上公式是處理效應的點估計,在實際分析中,還應報告置信區間,利用R軟件分析包可輸出各種效應量的點估計和置信區間(或標準誤)。
2 傾向性評分加權的R語言實現
2.1 數據來源
為便于演示和復現,我們采用R軟件中“twang”包里的Lindner數據進行演示,該數據包括了1997年美國辛辛那提地區基督醫院Lindner中心996例接受了經皮冠狀動脈介入治療患者的數據,我們采用其中10個變量進行分析,其中1個處理變量abcix,7個協變量,1個二分類結局變量sixMonthSurvive,1個連續型結局變量cardbill,具體變量介紹見表3[20]。

2.2 PSW包
PSW可用于處理二分類變量的傾向性評分加權,目前最新版本為2018年1月19日發布的1.1-3版[21]。該包可實現基于ATE、ATT、ATC、ATO、ATM的傾向性評分加權,并可進行均衡性檢驗及效應估計。其主要函數為psw(),主要參數有:data為所使用的數據集,form.ps為PS值模型,weight為加權方法,可選項有“ATE”,“ATT”,“ATC”,“OVERLAP”,“MW”等,該函數運行后可輸出PS值和對應的權重值。
psw.banlance()函數可輸出加權前及加權后各協變量在病例組和對照組的均值、標準差及標準均值差(standardized mean difference,SMD),并繪出加權前后SMD的對照圖(圖3)。

psw.wt()函數用于加權后處理效應的估計,其中out.var為結局變量,family為結局變量的分布類型,可選項有“gaussian”和“binomial”。根據結局變量分布類型的不同,會輸出不同效應的估計值,若結局為連續型變量則輸出加權后的均值差及其標準誤;若結局為二分類變量,則輸出多個效應估計(包括率差、相對風險、優勢比等)及其標準誤。
此外,PSW包中還提供psw.aug()函數用于效應的增廣估計,但PSW包尚不能實現分組變量為多分類變量的傾向性評分加權及結局為生存資料數據的效應量估計。
2.3 PSweight包
PSweight可實現分組變量為二分類及多分類的傾向性評分加權,該包目前最新版本為2021年10月28日發布的1.1.5版[22]。其可實現基于ATO、ATE、ATT、ATC(該包中無ATC選項,但在ATT方法中利用參數trtgrp設置處理組即可)、ATM以及ATEN(entropy weights)的傾向性評分加權,并且還可以對PS值進行剪切。
其基本函數為PSweight(),其基本參數有:ps.formula為PS值估計模型,trtgrp設置處理組,zname為分組變量,yname為結局變量,data為所要分析的數據,weight為加權方法,可選項有“IPW”,“treated”,“overlap”,“ATM”,“ATEN”,out.formula為結局模型,family為結局變量的分布及連接類型,有“gaussian(link=identity)”,“binomial(link=logit)”和“poisson(link=log)”三種,ps.method和out.method分別為PS值和結局變量的估計方法,可選方法有廣義線性模型(“glm”),廣義增強模型(“gbm”)和超級學習模型(“SuperLearner”),默認為“glm”。
PSweight()函數生成PS值及各組結局變量的估計值,配合summary.PSweight()函數可輸出效應估計值和其標準誤、置信區間及P值。SumStat()函數可生成有效樣本量ESS,并利用ASMD對均衡性進行檢驗,配合summary.SumStat()和plot.SumStat()函數可輸出均衡性檢驗的結果及相關圖形(圖4)。

2.4 twang包
twang包的最新版本為2021年10月25日發布的2.5版[23],該包可實現處理變量為二分類及多分類的情況下,基于ATE和ATT效應估計的傾向性評分加權及均衡性檢驗。
其基本函數為ps(),其中version參數可選用“gbm”模型或“xgboost”模型計算PS值,其檢驗均衡性的指標有ASMD值和KS值,stop.method參數提供多種均衡性檢驗的方法以確定最優模型,其中“ks.mean”與“ks.max”分別檢驗的是所有協變量KS值的平均值和最大值,“es.mean”,“es.max”分別檢驗的是所有協變量ASMD值的平均值及最大值。
twang包功能強大,可繪出多種檢驗均衡性的圖形,輸出均衡性指標及ESS值,通過get.weight()函數可提取權重值,結合survey包中的suydesign()、svyglm()、svycoxph()等函數可進行效應值估計。目前twang包尚只能用于基于ATE和ATT的加權[24]。
2.5 hrIPW包
hrIPW包的最新版本為2020年4月13日發表的0.1.3版本[25],該包可實現處理因素為二分類變量,結局變量為生存資料的基于ATE和ATT效應估計的傾向性評分加權。該包較簡單,只有一個函數hrIPW(),參數data為數據,time為生存時間變量,status為刪失變量,exposure為分組變量,variables為協變量,結果輸出有Cox比例風險模型的參數值及其標準誤、置信區間及P值。由于該包函數簡單且分析的結局為生存資料,在此不再做展示。
上述4種可用于傾向性評分加權的R包比較見表4。

3 小結
本文介紹了2種傾向性評分加權方法:分別為逆概率加權和重疊權重加權,并介紹了檢驗均衡的指標ASMD和KS值,以及有效樣本量和效應估計。隨后介紹了4種可實現傾向性評分加權的R包及其特點。我們發現4種包均可實現基于ATE和ATT的加權,其中PSweight包和twang包用到了廣義線性模型之外的方法估計PS值。在對PS值進行估計時,協變量之間除了有線性關系,可能還會存在交互作用和非線性關系,此時廣義線性模型具有一定的局限性,可能會導致PS值估計出現偏倚,影響權重和效應估計。而GBM、XGBoost等機器方法可自動尋找協變量之間的關系,并通過迭代提高估計的準確性。在應用GBM、XGBoost等相關模型時,需要設置多個參數,并且涉及到迭代的進行和停止。如何選擇最優參數,制定迭代進行及停止規則,選擇最優模型,從而得到準確的PS值及效應估計值得進一步研究。
