引用本文: 勾忠平, 向良成, 梁秀芳, 張偉, 陳沛然, 馮萍. 神經網絡在傾向分數值估計中的研究. 中國循證醫學雜志, 2020, 20(9): 1075-1082. doi: 10.7507/1672-2531.201910108 復制
隨著大數據時代的到來,醫學研究人員越來越重視臨床“真實世界數據”在臨床治療決策、成本效益分析、藥物上市后不良反應監測等方面的巨大作用。但這類數據通常為觀察性資料,其特點決定不同對比組間協變量分布不均衡,直接比較各組效應將導致有偏結果。
Propensity score(曾譯為“傾向得分”或“傾向評分”,本研究統一使用“傾向分數”)是 Rosenbaum 和 Rubin 于 1983 年首次提出,是指在給定一組可觀察到的協變量的條件下,某個研究個體被分配到某種處理組別的條件概率[1]。通過“降維”處理,將眾多協變量轉化為一個傾向分數值表示,再以傾向分數值為依據,在組間通過匹配、加權、回歸或者分層等方法使混雜因素得到有效控制,達到“類隨機化”的效果,并在此基礎上估計組間差異,使所得結果和結論更可信[2-5]。目前,已有大量關于將傾向分數法用于臨床研究的文獻報道[6-9]。
估計傾向分數值是傾向分數法用于非隨機觀察性研究資料的首要步驟[10]。Logistic 回歸(logistic regression,LR)簡單易行,是估計傾向分數值的最常用方法[11-14]。然而,LR 構建傾向分數模型時需滿足對數線性關系,即 ln[P/(1-P)]與協變量之間呈線性關系,而目前絕大部分研究均忽略了這一假設。此外,采用 LR 估計傾向值時通常只考慮變量之間的主效應,忽略了變量間的潛在關系[15]。有研究報道分類與回歸樹、支持向量機、廣義增強模型、貝葉斯模型等機器學習方法均可用于估計傾向分數值[16-25]。神經網絡(neural networks,NN)作為機器學習方法中一種,它借助數據建立系統的數學模型,實現由高維到低維的非線性映射,并且對輸入協變量間的潛在關系和類型無限制。有研究表明可將 NN 用于傾向分數值的估計,且基于 NN 的傾向分數法較 LR 法具有一些優勢[22, 23]。但是目前尚缺乏對 NN 在傾向分數值估計中應用價值的深入研究。為此,本研究擬參考已有的數據模擬結構[22-25],采用 NN 估計模擬數據集傾向分數值,并評估其用于平均處理效應(average treatment effect,ATE)的統計性能。
1 資料與方法
1.1 數據結構
采用蒙特卡羅模擬研究模擬 10 個協變量 Xi(i=1,2,3,······,10),處理因素 T,結局變量 Y。其中 6 個協變量(X1、X3、X5、X6、X8、X9)為二分類變量,4 個協變量(X2、X4、X7、X10)為連續性變量。4 個協變量(X1、X2、X3、X4)與處理因素 T 和結局變量 Y 均有關,3 個協變量(X5、X6、X7)只與處理因素 T 有關,3 個協變量(X8、X9、X10)只與結局變量 Y 有關。處理因素 T 為二分類變量,即處理組(T=1)和對照組(T=0)。真實的平均處理效應設為。
1.2 數據模擬
1.2.1 產生協變量
根據臨床研究資料的特點,將 X1、X3、X5、X6、X8、X9 的概率值分別設置為 0.2、0.65、0.3、0.1、0.75 和 0.9;X2、X4、X7、X10 為正態分布,分別設置為 X2~N(112,132)、X4~N(0.8,0.22)、X7~N(18,6.52)、X10~N(0.6,0.122)。
1.2.2 產生處理因素及不同情形
處理因素與協變量之間可能存在不同程度潛在線性、非線性關系以及交互作用,參考文獻[22-25]模擬以下 5 種情形(情形 A-E),考慮處理因素與協變量之間的復雜關系。① 情形 A(只包含主效應):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7)})?1;② 情形 B(包含 1 個二次項):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+β4×X4X4)})?1;③ 情形 C(包含 4 個交互作用):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+0.5×β1×X1X3+0.7×β2×X2X4+0.5×β4×X4X5+0.5×β5×X5X6)})?1;④ 情形 D(包含 1 個二次項和 4 個交互作用):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+β4×X4X4+0.5×β1×X1X3+0.7×β2×X2X4+0.5×β4×X4X5+0.5×β5×X5X6)})?1;⑤ 情形 E(包含 10 個交互作用):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+0.5×β1×X1X3+0.7×β2×X2X4+0.5×β3×X3X5+0.7×β4×X4X6+0.5×β5×X5X7+0.5×β1×X1X6+0.7×β2×X2X3+0.5×β3×X3X4+0.5×β4×X4X5+0.5×β5×X5X6)})?1。令 β=(β0,β1,β2,β3,β4,β5,β6,β7)=(0,0.4,?0.002,0.1,?0.75,0.8,?0.9,0.03),隨機產生一個范圍在(0,1)之間、服從均勻分布的變量 U,令 U≤Pr 時 T=1,反之,U>Pr 時 T=0。
1.2.3 產生結局變量
采用一般線性模型生成連續性的結局變量 Y,Y 只與結局變量有關,因此 X5、X6、X7 不納入線性模型。
![]() |
令 α=(α0,α1,α2,α3,α4,α5,α6,α7)=(?3.85,0.3,?0.36,?0.73,?0.2,0.71,?0.39,0.26),誤差項 ε 符合正態分布(0,15.62)。
1.2.4 建立數據集
上述步驟可產生 1 個完整的數據集,10 個協變量,分組變量為 T,結局變量 Y。分別模擬樣本量為 500、1 000、2 000、5 000、10 000,每個數據集重復 1 000 次。
1.3 傾向分數值估計
本研究分別在 5 種情形下均采用 LR 與 NN 估計傾向分數值,將協變量分為以下 2 種情況:① 納入部分協變量,即只納入與處理因素和結局變量同時有關的協變量(X1、X2、X3、X4)、只與結局變量有關的協變量(X8、X9、X10),簡稱這種方法為 LR1 或 NN1;② 納入全部協變量,即納入與處理因素和結局變量同時有關的協變量(X1、X2、X3、X4)、只與結局有關的協變量(X8、X9、X10)、只與處理因素有關的協變量(X5、X6、X7),簡稱這種方法為 LR2 或 NN2。基于 NN 的傾向分數法模型的參數設置見表 1。

1.4 傾向分數值應用
利用獲得的傾向分數值進行匹配,本研究采用貪婪法中的最鄰近匹配法進行 1∶1 匹配。
1.5 評價指標
采用 ATE 的估計值()及其 95% 可信區間、標準誤、偏倚、均方誤差評價兩種方法的統計性能。
1.6 統計分析
采用 SAS 9.2 軟件進行數據模擬和統計分析。
2 結果
2.1 ATE 估計值及其 95% 可信區間
圖 1 顯示了不同樣本量、不同情形時 ATE 的估計值及其 95% 可信區間。隨著樣本量的增加,ATE 估計值的 95% 可信區間逐漸變窄,且 LR1、NN1 的 95% 可信區間分別比 LR2、NN2 窄。當樣本量≤2 000 時,NN1 的 95% 可信區間比 LR1 窄,NN2 的 95% 可信區間比 LR2 窄。

2.2 ATE 的標準誤、相對偏倚和均方誤差
隨著處理因素與協變量關系復雜程度的增加,基于 LR 和 NN 的傾向分數模型的 ATE 的標準誤逐漸增大,尤其是在情形 B 和 D 中,且在不同樣本量下均能觀察到這個趨勢。總的來說,LR1、NN1 的標準誤小于 LR2、NN2,并且 NN1 的標準誤小于 LR1,但 NN2 與 LR2 的標準誤沒有觀察到明顯的趨勢(表 2~表 6)。





隨著處理因素與協變量關系復雜程度的增加,LR1 和 NN1 的 ATE 的偏倚和相對偏倚逐漸增大。總的來說,除了樣本量為 10 000 時,其余樣本量下 LR1、NN1 的 ATE 的偏倚小于 LR2 和 NN2。在大多數情形下,NN1 的 ATE 的偏倚和相對偏倚小于 LR1(表 2~表 6)。
除了情形 B 和 D,LR 和 NN 的 ATE 的均方誤差均較高,LR1、NN1 的 ATE 的均方誤差小于 LR2、NN2。當樣本量≥2 000 時,LR1 的均方誤差小于 NN1(表 2~表 6)。
3 討論
隨著信息化時代的到來,醫院信息系統(hospital information system,HIS)積累了大量臨床實踐數據,采用高效統計分析方法對這些海量數據進行恰當地分析,可提供有價值的數據分析結果,為進一步研究提供線索或證據,同時也可為衛生行政部門制定、實施、評價和調整疾病相關的衛生決策提供重要依據。HIS 數據屬于觀察性研究資料,其分組為非隨機分配,不同對比組間協變量常常不均衡,直接進行組間對比可能得到錯誤結論。神經網絡作為機器學習方法中一種,已經廣泛應用到多個研究方面[26-30]。傾向分數法采用一個綜合評分(傾向分數值)來代表已知的混雜因素,從而均衡不同組間協變量[31]。一項基于數據庫資料的傾向分數研究結果為美國食品藥品管理局發布相關藥物安全警報提供了有力證據[32]。對密歇根 Medicaid 保險數據的觀察性研究數據的傾向分數分析結果顯示,基于人群的家庭訪視項目有助于孕產婦健康改善,而該結果也同時為當地衛生行政部門制定 Medicaid 項目擴展提供了依據[33]。在醫學領域中,越來越多基于傾向分數法的研究結果為衛生醫療決策和衛生行政部門制定相關的衛生政策提供有力證據。
傾向分數法關鍵之一是基于已知的協變量來準確估計傾向分數值,如果估計不準確可能導致研究個體錯誤分類[34-36]。LR 易于理解且軟件操作簡單,是目前估計傾向分數值主要的手段。但是,基于 LR 的傾向分數法通常只考慮協變量之間的主效應,而忽略了變量之間復雜的非線性及交互作用等。機器學習方法如 NN 是可用于處理預測因素與結局復雜關系的非參數模型,已有模擬研究證實[23-25, 34],基于 NN 的傾向分數法產生的 ATE 偏倚較小。但是,基于 NN 的傾向分數法估計 ATE 精度如何,目前尚無相關報道,此外也無研究報道 NN 估計傾向分數值時應納入哪些變量最合適。R 軟件(“nnet”軟件包和“Matchit”軟件包)[21-25, 37]及 SAS[21]軟件等均可實現 NN 估計傾向分數值,本研究采用 SAS 軟件編程實現基于 NN 的傾向分數值,再通過傾向分數匹配法均衡組間協變量,深入探討基于 NN 的傾向分數法的統計性能。
以往研究從不同側面證實了基于 NN 的傾向分數法的可行性,本研究從 ATE 估計值的精度、標準誤、偏倚、均方誤差等方面系統論證了 NN 在傾向分數值估計中的應用價值。本研究中,當樣本量≤2 000 時,基于 NN 的傾向分數法估計的 ATE 的 95% 可信區間較 LR 窄,提示采用 NN 估計傾向分數值可能會產生更為精確的估計效應。有研究顯示[11, 38],在 LR 的傾向分數模型中加入僅與處理因素有關的非混雜因素,并沒有改善 ATE 的估計效果,相反還可能導致有偏估計。本研究得到相似結論,即納入與結局有關的協變量的傾向分數模型估計的 ATE 精度更好,且基于 NN 的傾向分數法也有類似的效果。隨著處理因素與協變量關系復雜程度的增加,ATE 的標準誤將逐漸增加,這與有關研究結果一致[23]。特別是在傾向分數模型中加入所有協變量后,會明顯增加 ATE 的標準誤。提示在估計傾向分數值時,建議只考慮與結局有關的協變量。當樣本量≤2 000 時,除了僅考慮協變量主效應的情形外,在其余情形下基于 NN 的傾向分數法估計 ATE 的標準誤均小于 LR,提示 NN 能有效處理不同處理因素與協變量的非線性和交互作用關系。但是,當樣本量擴大到 5 000 和 10 000 時,兩種估計方法的標準誤無差異,與 Setoguchi 等[23]研究結果相似。可能是當因為樣本量較大且協變量相對較少時,LR 和 NN 傾向分數法均較少有研究個體被錯誤分類,且樣本量增大使 ATE 估計值的結果波動較小,這一假設需要更多的研究予以證實。
有研究還發現隨著處理因素與協變量關系復雜程度的增加,估計 ATE 的偏倚增加,可能是因為處理因素與協變量的復雜關系引起傾向分數模型中研究個體的錯誤分組增加,進一步加劇 ATE 估計值的偏差[34, 35]。但僅在傾向分數模型中加入與結局變量有關的協變量,獲得的 ATE 的偏倚更小。該結果進一步表明,傾向分數值估計模型中只考慮與結局有關的協變量更為適宜,與有關研究結果一致[22, 23]。本研究結果還發現,基于 NN 的傾向分數模型估計 ATE 的偏倚較 LR 更小。提示基于 NN 的傾向分數法可使研究個體獲得的傾向分數值更為精確,由此估計的 ATE 更為準確。有研究表明,在傾向分數模型中,納入只與處理因素有關的協變量可能會增加 ATE 估計值的均方誤差[12, 38],本研究得到相似結論。但是,本研究結果還顯示,當處理因素與協變量關系變得復雜后,ATE 估計值的均方誤差明顯增加,可見,效應估計值的準確性與傾向分數模型選擇密切相關。臨床實踐中充分考慮處理因素與協變量的復雜關系,并選擇最佳方法估計傾向分數值至關重要。雖然本研究結果顯示當樣本量≥2 000 時,基于 LR 的傾向分數法獲得的均方誤差小于 NN,但該結果有待進一步考證。
綜上所述,當處理因素與協變量關系存在復雜關系時,采用 NN 估計傾向分數值是一個可供選擇的方案,基于 NN 的傾向分數法可以獲得更為精確的平均處理效應估計值,且偏倚更小。
隨著大數據時代的到來,醫學研究人員越來越重視臨床“真實世界數據”在臨床治療決策、成本效益分析、藥物上市后不良反應監測等方面的巨大作用。但這類數據通常為觀察性資料,其特點決定不同對比組間協變量分布不均衡,直接比較各組效應將導致有偏結果。
Propensity score(曾譯為“傾向得分”或“傾向評分”,本研究統一使用“傾向分數”)是 Rosenbaum 和 Rubin 于 1983 年首次提出,是指在給定一組可觀察到的協變量的條件下,某個研究個體被分配到某種處理組別的條件概率[1]。通過“降維”處理,將眾多協變量轉化為一個傾向分數值表示,再以傾向分數值為依據,在組間通過匹配、加權、回歸或者分層等方法使混雜因素得到有效控制,達到“類隨機化”的效果,并在此基礎上估計組間差異,使所得結果和結論更可信[2-5]。目前,已有大量關于將傾向分數法用于臨床研究的文獻報道[6-9]。
估計傾向分數值是傾向分數法用于非隨機觀察性研究資料的首要步驟[10]。Logistic 回歸(logistic regression,LR)簡單易行,是估計傾向分數值的最常用方法[11-14]。然而,LR 構建傾向分數模型時需滿足對數線性關系,即 ln[P/(1-P)]與協變量之間呈線性關系,而目前絕大部分研究均忽略了這一假設。此外,采用 LR 估計傾向值時通常只考慮變量之間的主效應,忽略了變量間的潛在關系[15]。有研究報道分類與回歸樹、支持向量機、廣義增強模型、貝葉斯模型等機器學習方法均可用于估計傾向分數值[16-25]。神經網絡(neural networks,NN)作為機器學習方法中一種,它借助數據建立系統的數學模型,實現由高維到低維的非線性映射,并且對輸入協變量間的潛在關系和類型無限制。有研究表明可將 NN 用于傾向分數值的估計,且基于 NN 的傾向分數法較 LR 法具有一些優勢[22, 23]。但是目前尚缺乏對 NN 在傾向分數值估計中應用價值的深入研究。為此,本研究擬參考已有的數據模擬結構[22-25],采用 NN 估計模擬數據集傾向分數值,并評估其用于平均處理效應(average treatment effect,ATE)的統計性能。
1 資料與方法
1.1 數據結構
采用蒙特卡羅模擬研究模擬 10 個協變量 Xi(i=1,2,3,······,10),處理因素 T,結局變量 Y。其中 6 個協變量(X1、X3、X5、X6、X8、X9)為二分類變量,4 個協變量(X2、X4、X7、X10)為連續性變量。4 個協變量(X1、X2、X3、X4)與處理因素 T 和結局變量 Y 均有關,3 個協變量(X5、X6、X7)只與處理因素 T 有關,3 個協變量(X8、X9、X10)只與結局變量 Y 有關。處理因素 T 為二分類變量,即處理組(T=1)和對照組(T=0)。真實的平均處理效應設為。
1.2 數據模擬
1.2.1 產生協變量
根據臨床研究資料的特點,將 X1、X3、X5、X6、X8、X9 的概率值分別設置為 0.2、0.65、0.3、0.1、0.75 和 0.9;X2、X4、X7、X10 為正態分布,分別設置為 X2~N(112,132)、X4~N(0.8,0.22)、X7~N(18,6.52)、X10~N(0.6,0.122)。
1.2.2 產生處理因素及不同情形
處理因素與協變量之間可能存在不同程度潛在線性、非線性關系以及交互作用,參考文獻[22-25]模擬以下 5 種情形(情形 A-E),考慮處理因素與協變量之間的復雜關系。① 情形 A(只包含主效應):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7)})?1;② 情形 B(包含 1 個二次項):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+β4×X4X4)})?1;③ 情形 C(包含 4 個交互作用):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+0.5×β1×X1X3+0.7×β2×X2X4+0.5×β4×X4X5+0.5×β5×X5X6)})?1;④ 情形 D(包含 1 個二次項和 4 個交互作用):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+β4×X4X4+0.5×β1×X1X3+0.7×β2×X2X4+0.5×β4×X4X5+0.5×β5×X5X6)})?1;⑤ 情形 E(包含 10 個交互作用):Pr[T=1|Xi]=(1+exp{-(β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+0.5×β1×X1X3+0.7×β2×X2X4+0.5×β3×X3X5+0.7×β4×X4X6+0.5×β5×X5X7+0.5×β1×X1X6+0.7×β2×X2X3+0.5×β3×X3X4+0.5×β4×X4X5+0.5×β5×X5X6)})?1。令 β=(β0,β1,β2,β3,β4,β5,β6,β7)=(0,0.4,?0.002,0.1,?0.75,0.8,?0.9,0.03),隨機產生一個范圍在(0,1)之間、服從均勻分布的變量 U,令 U≤Pr 時 T=1,反之,U>Pr 時 T=0。
1.2.3 產生結局變量
采用一般線性模型生成連續性的結局變量 Y,Y 只與結局變量有關,因此 X5、X6、X7 不納入線性模型。
![]() |
令 α=(α0,α1,α2,α3,α4,α5,α6,α7)=(?3.85,0.3,?0.36,?0.73,?0.2,0.71,?0.39,0.26),誤差項 ε 符合正態分布(0,15.62)。
1.2.4 建立數據集
上述步驟可產生 1 個完整的數據集,10 個協變量,分組變量為 T,結局變量 Y。分別模擬樣本量為 500、1 000、2 000、5 000、10 000,每個數據集重復 1 000 次。
1.3 傾向分數值估計
本研究分別在 5 種情形下均采用 LR 與 NN 估計傾向分數值,將協變量分為以下 2 種情況:① 納入部分協變量,即只納入與處理因素和結局變量同時有關的協變量(X1、X2、X3、X4)、只與結局變量有關的協變量(X8、X9、X10),簡稱這種方法為 LR1 或 NN1;② 納入全部協變量,即納入與處理因素和結局變量同時有關的協變量(X1、X2、X3、X4)、只與結局有關的協變量(X8、X9、X10)、只與處理因素有關的協變量(X5、X6、X7),簡稱這種方法為 LR2 或 NN2。基于 NN 的傾向分數法模型的參數設置見表 1。

1.4 傾向分數值應用
利用獲得的傾向分數值進行匹配,本研究采用貪婪法中的最鄰近匹配法進行 1∶1 匹配。
1.5 評價指標
采用 ATE 的估計值()及其 95% 可信區間、標準誤、偏倚、均方誤差評價兩種方法的統計性能。
1.6 統計分析
采用 SAS 9.2 軟件進行數據模擬和統計分析。
2 結果
2.1 ATE 估計值及其 95% 可信區間
圖 1 顯示了不同樣本量、不同情形時 ATE 的估計值及其 95% 可信區間。隨著樣本量的增加,ATE 估計值的 95% 可信區間逐漸變窄,且 LR1、NN1 的 95% 可信區間分別比 LR2、NN2 窄。當樣本量≤2 000 時,NN1 的 95% 可信區間比 LR1 窄,NN2 的 95% 可信區間比 LR2 窄。

2.2 ATE 的標準誤、相對偏倚和均方誤差
隨著處理因素與協變量關系復雜程度的增加,基于 LR 和 NN 的傾向分數模型的 ATE 的標準誤逐漸增大,尤其是在情形 B 和 D 中,且在不同樣本量下均能觀察到這個趨勢。總的來說,LR1、NN1 的標準誤小于 LR2、NN2,并且 NN1 的標準誤小于 LR1,但 NN2 與 LR2 的標準誤沒有觀察到明顯的趨勢(表 2~表 6)。





隨著處理因素與協變量關系復雜程度的增加,LR1 和 NN1 的 ATE 的偏倚和相對偏倚逐漸增大。總的來說,除了樣本量為 10 000 時,其余樣本量下 LR1、NN1 的 ATE 的偏倚小于 LR2 和 NN2。在大多數情形下,NN1 的 ATE 的偏倚和相對偏倚小于 LR1(表 2~表 6)。
除了情形 B 和 D,LR 和 NN 的 ATE 的均方誤差均較高,LR1、NN1 的 ATE 的均方誤差小于 LR2、NN2。當樣本量≥2 000 時,LR1 的均方誤差小于 NN1(表 2~表 6)。
3 討論
隨著信息化時代的到來,醫院信息系統(hospital information system,HIS)積累了大量臨床實踐數據,采用高效統計分析方法對這些海量數據進行恰當地分析,可提供有價值的數據分析結果,為進一步研究提供線索或證據,同時也可為衛生行政部門制定、實施、評價和調整疾病相關的衛生決策提供重要依據。HIS 數據屬于觀察性研究資料,其分組為非隨機分配,不同對比組間協變量常常不均衡,直接進行組間對比可能得到錯誤結論。神經網絡作為機器學習方法中一種,已經廣泛應用到多個研究方面[26-30]。傾向分數法采用一個綜合評分(傾向分數值)來代表已知的混雜因素,從而均衡不同組間協變量[31]。一項基于數據庫資料的傾向分數研究結果為美國食品藥品管理局發布相關藥物安全警報提供了有力證據[32]。對密歇根 Medicaid 保險數據的觀察性研究數據的傾向分數分析結果顯示,基于人群的家庭訪視項目有助于孕產婦健康改善,而該結果也同時為當地衛生行政部門制定 Medicaid 項目擴展提供了依據[33]。在醫學領域中,越來越多基于傾向分數法的研究結果為衛生醫療決策和衛生行政部門制定相關的衛生政策提供有力證據。
傾向分數法關鍵之一是基于已知的協變量來準確估計傾向分數值,如果估計不準確可能導致研究個體錯誤分類[34-36]。LR 易于理解且軟件操作簡單,是目前估計傾向分數值主要的手段。但是,基于 LR 的傾向分數法通常只考慮協變量之間的主效應,而忽略了變量之間復雜的非線性及交互作用等。機器學習方法如 NN 是可用于處理預測因素與結局復雜關系的非參數模型,已有模擬研究證實[23-25, 34],基于 NN 的傾向分數法產生的 ATE 偏倚較小。但是,基于 NN 的傾向分數法估計 ATE 精度如何,目前尚無相關報道,此外也無研究報道 NN 估計傾向分數值時應納入哪些變量最合適。R 軟件(“nnet”軟件包和“Matchit”軟件包)[21-25, 37]及 SAS[21]軟件等均可實現 NN 估計傾向分數值,本研究采用 SAS 軟件編程實現基于 NN 的傾向分數值,再通過傾向分數匹配法均衡組間協變量,深入探討基于 NN 的傾向分數法的統計性能。
以往研究從不同側面證實了基于 NN 的傾向分數法的可行性,本研究從 ATE 估計值的精度、標準誤、偏倚、均方誤差等方面系統論證了 NN 在傾向分數值估計中的應用價值。本研究中,當樣本量≤2 000 時,基于 NN 的傾向分數法估計的 ATE 的 95% 可信區間較 LR 窄,提示采用 NN 估計傾向分數值可能會產生更為精確的估計效應。有研究顯示[11, 38],在 LR 的傾向分數模型中加入僅與處理因素有關的非混雜因素,并沒有改善 ATE 的估計效果,相反還可能導致有偏估計。本研究得到相似結論,即納入與結局有關的協變量的傾向分數模型估計的 ATE 精度更好,且基于 NN 的傾向分數法也有類似的效果。隨著處理因素與協變量關系復雜程度的增加,ATE 的標準誤將逐漸增加,這與有關研究結果一致[23]。特別是在傾向分數模型中加入所有協變量后,會明顯增加 ATE 的標準誤。提示在估計傾向分數值時,建議只考慮與結局有關的協變量。當樣本量≤2 000 時,除了僅考慮協變量主效應的情形外,在其余情形下基于 NN 的傾向分數法估計 ATE 的標準誤均小于 LR,提示 NN 能有效處理不同處理因素與協變量的非線性和交互作用關系。但是,當樣本量擴大到 5 000 和 10 000 時,兩種估計方法的標準誤無差異,與 Setoguchi 等[23]研究結果相似。可能是當因為樣本量較大且協變量相對較少時,LR 和 NN 傾向分數法均較少有研究個體被錯誤分類,且樣本量增大使 ATE 估計值的結果波動較小,這一假設需要更多的研究予以證實。
有研究還發現隨著處理因素與協變量關系復雜程度的增加,估計 ATE 的偏倚增加,可能是因為處理因素與協變量的復雜關系引起傾向分數模型中研究個體的錯誤分組增加,進一步加劇 ATE 估計值的偏差[34, 35]。但僅在傾向分數模型中加入與結局變量有關的協變量,獲得的 ATE 的偏倚更小。該結果進一步表明,傾向分數值估計模型中只考慮與結局有關的協變量更為適宜,與有關研究結果一致[22, 23]。本研究結果還發現,基于 NN 的傾向分數模型估計 ATE 的偏倚較 LR 更小。提示基于 NN 的傾向分數法可使研究個體獲得的傾向分數值更為精確,由此估計的 ATE 更為準確。有研究表明,在傾向分數模型中,納入只與處理因素有關的協變量可能會增加 ATE 估計值的均方誤差[12, 38],本研究得到相似結論。但是,本研究結果還顯示,當處理因素與協變量關系變得復雜后,ATE 估計值的均方誤差明顯增加,可見,效應估計值的準確性與傾向分數模型選擇密切相關。臨床實踐中充分考慮處理因素與協變量的復雜關系,并選擇最佳方法估計傾向分數值至關重要。雖然本研究結果顯示當樣本量≥2 000 時,基于 LR 的傾向分數法獲得的均方誤差小于 NN,但該結果有待進一步考證。
綜上所述,當處理因素與協變量關系存在復雜關系時,采用 NN 估計傾向分數值是一個可供選擇的方案,基于 NN 的傾向分數法可以獲得更為精確的平均處理效應估計值,且偏倚更小。