傾向性評分方法是通過綜合系列已知的可測量的協變量來模擬隨機對照試驗的隨機化、提高組間的均衡性,進而降低混雜因素影響的一種分析策略。傾向性評分方法在觀察性研究中應用越來越廣泛。本文介紹了傾向性評分方法的原理、類型及其在觀察性研究中的應用,同時對傾向性評分方法與多元回歸、臨床試驗方法進行了比較。當前對傾向性評分方法的選擇尚缺乏有效推薦,傾向性評分方法得到的結果與傳統的回歸分析、隨機對照試驗的結果也可能存在差異。
引用本文: 黎國威, 張玲, 陳裕明, 陳耀龍, 王肖杰, 吳大嶸. 傾向性評分方法在觀察性研究中的應用. 中國循證醫學雜志, 2021, 21(4): 469-474. doi: 10.7507/1672-2531.202010131 復制
干預性措施的隨機對照試驗(randomized controlled trial,RCT)產生的高質量證據在當前的循證醫學體系里往往被認為“金標準”。RCT 研究采用隨機分組的方法,能夠把非干預因素平衡分配到干預組與對照組,使基線組間均衡可比,最大限度地控制混雜因素對結果的影響[1]。但并非所有的研究都可以采用 RCT 設計,所以觀察性研究(observational study,OS)往往能提供不可或缺的證據。然而觀察性研究容易受到混雜因素的影響,使得暴露因素與結局的真實關聯容易被夸大或縮小,從而導致錯誤的結論[2]。如圖 1 所示,假如群體中有三分之一(4/12)的參與者的某些特征是某不良結局的危險因素,由于缺乏隨機化的過程,此危險因素在暴露組(1/6)與非暴露組(3/6)之間的分配并不均衡,間接導致了非暴露組更容易觀察到不良結局的發生,從而使得暴露與結局的真實關聯被錯誤地夸大了。因此如何控制混雜因素、降低或消除混雜因素對關聯的影響,是觀察性研究須謹慎考慮的方法學問題。

近年來,傾向性評分(propensity score,PS)方法越來越多地運用到觀察性研究中。PS 方法 20 世紀 80 年代由 Rosenbaum 和 Rubin 首次提出,后由 Austin 等大力推廣[3,4]。PS 方法是通過綜合系列已知的可測量的協變量(measured covariates)來模擬 RCT 的隨機化、提高組間的均衡性,進而達到降低混雜因素影響目的一種分析策略。本文介紹了 PS 方法的原理、類型及其在觀察性研究中的應用,同時對 PS 方法與多元回歸、RCT 進行了比較。
1 PS 方法的原理、類型和應用
1.1 基本概念
相對于觀察性研究設計階段的策略(如限制納排標準、實行分層或匹配的措施等),PS 方法是屬于在數據分析階段采取的一種措施,目的是通過模擬 RCT 的隨機化來實現降低混雜因素影響的目的,所以也被稱為“事后隨機化”。當前在數據分析階段中,控制混雜因素常用的方法包括了分層分析或多因素調整分析法;但如果需調整的混雜因素數量過多時、組間特征差異過大時,分層分析或多因素分析往往存在方法學上的局限性。PS 方法能克服以上這些局限,因此在觀察性研究的數據分析處理中應用越來越廣泛。
PS 定義為在混雜因素存在的情況下,研究對象進入到暴露組或處理組的條件概率。因此 PS 的函數模型為:E(X)=P(T=1|X),其中E(X)為 PS 的理論值,T=1 為暴露組或處理組,X為協變量向量。假設暴露組的研究對象為m,其 PS 即為E(Xm)=P(T=1|Xm);對照組的研究對象為n,其 PS 為E(Xn)=P(T=1|Xn);若E(Xm)與E(Xn)相類似或者相同,那么可推導出Xm與Xn相近或相同,從而保證了暴露組與對照組的均衡性,達到類隨機化的效果。
Logistic 回歸模型是最常用于 PS 的計算方法,即以T=1 作為因變量,把可測量的系列協變量作為自變量建立一個 logistic 回歸方程;從方程中計算出的預測的接受暴露或處理的概率即為個體的 PS 值。除外 logistic 回歸模型以外,其他如隨機森林法、人工神經網絡、概率回歸模型、遞歸樹法等也可用于 PS 的計算。至于如何納入自變量用于計算 PS,有研究建議與結局相關的協變量都需要納入到方程中,但是值得注意的是工具變量(即與暴露或處理有關、但與結局無關的變量)不能作為自變量納入到 PS 的計算模型中去[5,6]。
1.2 PS 方法的類型
PS 方法有四種類型,包括 PS 匹配法、分層法、校正法和加權法。下面就四種類型做簡單介紹,為幫助理解,表 1 簡要列舉了不同類型 PS 法的應用實例[7-10]。

1.2.1 PS 匹配法
匹配法是目前運用非常廣泛的一種方法,其核心目的是通過匹配相近或相同 PS 值的參與者、使得他們的協變量分布達到均衡或趨于均衡、進而降低混雜因素的影響。匹配時,可按 1∶1 或者 1∶n 進行匹配,同時需考慮有無替代匹配、貪婪或最優匹配等策略的選擇。而且需滿足組間的 PS 值具有重疊分布、PS 值計算的條件獨立性(即T=1 的計算只受可測量的協變量的影響,不受未測量的協變量的影響)這兩個假設,才能進行 PS 匹配法[11]。
目前常用的匹配方法包括最近鄰匹配與卡鉗匹配法。顧名思義,最近鄰匹配法就是按照暴露組參與者的 PS 值,選擇與其差異最小(即最近鄰)PS 值的對照組參與者作為匹配;但對于如何定義最近鄰,則沒有嚴格的規則。卡鉗匹配法則通過設定一定的卡鉗值(即暴露組與對照組參與者的 PS 值的差異),要求暴露組與對照組參與者的 PS 值必須在此卡鉗值范圍內進行匹配。通常建議卡鉗值設為暴露組和對照組 PS 值的 logit 的合并標準差(the pooled standard deviation of the logit of the PS)的 20%,即可消除可測量協變量導致的 99% 的混雜偏倚[12]。
匹配后,需對組間進行均衡性評價。通常假如暴露組與對照組的協變量在匹配后的標準化差異小于 10%,則可認為該協變量在兩組間已達到了很好的均衡性。當匹配及均衡性評價完成以后,即可對暴露或處理與結局之間的關系進行估算。
如表 1 所示,在 Wang 等[7]的研究里,他們通過 1∶1 匹配法成功匹配了 115 933 例使用質子泵抑制劑(proton pump inhibitor,PPI)的兒童與 115 933 例不使用 PPI 的兒童。在匹配的過程中,他們使用了貪婪匹配法、設定卡鉗值為 20%,最后用標準化差異小于 10% 來衡量匹配后的均衡性。最后研究發現:PPI 的使用與兒童增加的骨折風險顯著相關,即使增加的幅度不大[HR=1.11,95%CI(1.06,1.15)]。
1.2.2 PS 分層法
分層法是按照 PS 值的大小分成了若干區間,視不同區間為不同的層;而每一層的參與者的協變量分布可認為是同質或均衡的。先對每一層暴露或處理與結局之間的關聯進行估算,然后對所有層的關聯作加權平均,最后得出暴露或處理與結局之間的總的關聯效應。
分層法可按照 PS 值分為 5~10 層,但通常建議把總體樣本平均分為 5 層,既可滿足實際的可操作性,也能降低 90% 以上的由可測量協變量導致的混雜偏倚[4]。表 1 中 De Ridder 等[8]的研究目的是探索高中時期輟學學生是否與其成人后的長期疾患、殘疾的風險相關。通過計算 PS 值、平均分成 5 層,然后在每一層進行比值比(odds ratio,OR)的估算,最后通過加權算出最后的 OR=2.95,95%CI(2.44,3.57),總結出高中時期輟學與成人早期的疾病風險的升高具有顯著的關聯性。
1.2.3 PS 校正法
PS 校正法是通過把 PS 方法與傳統的回歸分析方法相結合,把 PS 作為一個新的協變量納入到傳統的回歸分析,進而估算出暴露或處理與結局的關聯效應。在回歸分析中,自變量通常只有兩個:PS 值與分組變量。這樣的優勢在于極大地減少了自變量的個數,同時沒有損失掉參與者樣本,通過控制了 PS 這一個新的協變量即可達到了控制多個混雜因素的目的[13]。Blok 等[9]在一項回顧性隊列研究中(表 1),通過計算 PS 值、然后把 PS 值與暴露變量放入 logistic 回歸方程,發現在直腸癌病人中,網膜成形術與術后的腹會陰疾病風險降低無顯著的關聯[OR=0.81,95%CI(0.48,1.36)]。他們同時進行了敏感性分析,除了 PS 值與暴露變量以外,進一步把年齡、性別、糖尿病等部分用來計算 PS 值的因素作為協變量也放入到回歸方程,結果與原來的分析保持一致[OR=0.89,95%CI(0.45,1.75)]。
1.2.4 PS 加權法
加權法的核心理念就是利用標準化的原理,基于 PS 值對參與者賦予相對應的權重進行加權,使得組間的可測量的協變量達到同質或均衡。目前最常用的加權法為逆概率處理加權法(inverse probability of treatment weighting,IPTW),即以總體的所有參與者(暴露或處理組的參與者合并對照組的參與者)作為標準人群進行權重調整:暴露或處理組的參與者賦予其 PS 值的倒數的權重(即),而對照組的參與者賦予 1 減去其 PS 值的倒數的權重(即
)[14]。這種加權法對于參與者 PS 值非常接近 0 或 1 的時候會存在一定局限性,這種局限可通過微調權重的計算得以改善[15]。值得注意的是,由于參與者被賦予不同的權重,經過 IPTW 后的人數可能會與原來的人數略微不一致,但這并不影響加權法對暴露或處理與結局之間的關聯效應的估計。在 Hernandez 等[10]的研究中(表 1),他們首先計算 PS 值,然后用 IPTW 對每一個參與者進行加權,探索達比加群對比于華法林是否和房顫病人的出血風險顯著相關。通過對 IPTW 加權的隊列分析,結果發現相比于華法林,達比加群與主要胃腸道出血風險的升高顯著相關[HR=1.85,95%CI(1.64,2.07)],但也與顱內出血風險的降低顯著相關[HR=0.32,95%CI(0.20,0.50)]。
1.3 PS 四種方法的選擇
當前的文獻運用 PS 匹配法和加權法比較多,但尚無比較統一的推薦選擇。PS 匹配法容易導致選擇偏倚,主要是由于部分參與者無法匹配上而容易造成樣本的損失;分層法通常由于是在區間的水平進行均衡性處理,相對于另外 3 種按照個體水平來處理的 PS 方法,分層法降低混雜因素影響的效果可能會較差;加權法由于經過加權后參與者人數的改變,容易造成理解上與結果解讀上的困難;使用校正法時,如果暴露或處理組與對照組的 PS 值分布存在較大差異的時候,把 PS 作為一個綜合的協變量放入模型時往往容易產生有偏甚至是錯誤的關聯效應估計值。
已有報道通過使用模擬研究對 PS 的 4 種方法從準確性(bias)與精確性(precision)等維度進行對比。例如在生存分析中,當需要估計 HR 時,匹配法與 IPTW 的模型表現要比分層法與校正法的好[16];當生存分析需要估計的是絕對效應時(如組間的生存時間的絕對差異、結局發生的風險的絕對差異等),運用分層法得到的結果要比匹配和 IPTW 法產生更大的偏倚[17]。在 logistic 回歸分析中,無論是當真正的 OR 為 1 或者當 OR 在 2~10 之間浮動時,匹配法都比分層法與校正法產生更小的偏倚、統計性能表現更佳[18]。但是由于這些模擬研究所用的數據是否具有代表性、參數的設定等特定因素,模擬研究結論還有待進一步驗證;所以當前對 PS 四種方法的推薦建議還需要更多的高質量證據。
1.4 PS 方法用于估算暴露與結局關聯的變量選擇
計算完 PS 值、選擇 PS 上述的四種方法對數據處理完成以后,理論上當估算暴露與結局的關聯的時候只需要把暴露放入模型即可(對于 PS 校正法還需把 PS 值放入模型);然而研究人員往往也會把相關的協變量額外放入到模型進行校正(如上述 Blok 等的研究)。至于應該把哪些協變量(除了暴露與 PS 值外)放入到模型,目前尚存在較大爭議。有研究支持使用經驗及P值進行篩選,也有研究認為應該從因果路徑中找出真正的混雜因素,僅對這些真正的混雜因素進行平衡。而 Austin 的一項研究則表明:在使用 PS 法估算相對危險度(relative risk,RR)的時候,相對于模型中僅納入與結局相關的變量或僅納入真正的混雜變量而言,模型中納入所有與暴露相關的變量、或納入所有可測量的變量都會產生較大的誤差[19]。
2 PS 方法與多元回歸、RCT 的比較
PS 方法運用得越來越廣泛,但對其得到的結論的正確性也常遭受懷疑。表 2 總結了 PS 法對比多元回歸(觀察性研究最常用的數據分析方法)、RCT 結果的部分報道證據。例如 Stürmer[20]與 Shah[21]等通過系統檢索回答同一個研究問題(即研究的人群、暴露、對照與結局等要素相似)的觀察性研究,發現使用 PS 方法與多元回歸所得到的結論相似。但 Cepeda 等[22]的模擬研究則發現當研究結局(outcome event)的數量大于 8 倍混雜因素的數量的時候,logistic 回歸的表現要優于 PS 方法。除外模擬研究,觀察性研究往往缺乏可作為金標準的關聯效應,PS 方法與多元回歸的結果通常只能做相似性的對比;尤其是當 PS 方法與多元回歸得到的結論不一致時,難以判斷到底是哪一種方法更準確,所以仍需進一步的模擬研究對兩種方法的模型表現及性能進行比較。因此對于到底選擇 PS 方法還是多元回歸法,目前往往是根據結局數量的經驗證據來推薦[23]。

相比而言,高質量 RCT 產生的結論往往可用作金標準來衡量 PS 方法得到的結果是否正確。如我們之前的一項研究表明在估計新型抗凝藥預防房顫患者中風的有效性安全性的關聯效應時,PS 方法得到的觀察性研究結果與 RCT 結果保持一致[24]。但有研究表明,相對于 RCT 的結果,PS 方法的結果可能會高估或者低估關聯效應的估計[25,26]。在觀察性研究中,對 PS 方法得到的結果進行解讀與交流時需要科學謹慎、緊密聯系研究自身設計、數據、質量控制等的特點。尤其是當缺乏高質量的 RCT 證據(金標準)時,切不能過于迷信 PS 方法的結果。
3 小結
本文對 PS 方法在觀察性研究中的應用做了簡單介紹。需要強調的是,PS 方法是數據分析的一種策略,屬于事后隨機化的措施;當前對 PS 四種方法的選擇尚缺乏有效推薦;PS 方法得到的結論與傳統的回歸分析、RCT 的結果也可能存在差異。解讀 PS 方法的結果須謹慎科學,因為 PS 方法只能針對可測量的協變量產生的混雜影響,無法控制未知協變量帶來的混雜效應。PS 方法也不適用于所有的觀察性研究,譬如對于多分類或者連續性的暴露或處理、隨著時間而改變的暴露或處理、暴露或處理較為罕見等問題,需要對 PS 方法進行改良或改用其他方法。在運用 PS 方法前需要結合研究自身的特點,進行全盤系統細致的考慮。如其他的科學研究一樣,運用 PS 方法也需要科學的設計、嚴謹的實施與質量控制、事先定好的合理的分析策略、正確的結果解讀與匯報,這樣才能使得 PS 方法在觀察性研究中發揮越來越大的作用。
干預性措施的隨機對照試驗(randomized controlled trial,RCT)產生的高質量證據在當前的循證醫學體系里往往被認為“金標準”。RCT 研究采用隨機分組的方法,能夠把非干預因素平衡分配到干預組與對照組,使基線組間均衡可比,最大限度地控制混雜因素對結果的影響[1]。但并非所有的研究都可以采用 RCT 設計,所以觀察性研究(observational study,OS)往往能提供不可或缺的證據。然而觀察性研究容易受到混雜因素的影響,使得暴露因素與結局的真實關聯容易被夸大或縮小,從而導致錯誤的結論[2]。如圖 1 所示,假如群體中有三分之一(4/12)的參與者的某些特征是某不良結局的危險因素,由于缺乏隨機化的過程,此危險因素在暴露組(1/6)與非暴露組(3/6)之間的分配并不均衡,間接導致了非暴露組更容易觀察到不良結局的發生,從而使得暴露與結局的真實關聯被錯誤地夸大了。因此如何控制混雜因素、降低或消除混雜因素對關聯的影響,是觀察性研究須謹慎考慮的方法學問題。

近年來,傾向性評分(propensity score,PS)方法越來越多地運用到觀察性研究中。PS 方法 20 世紀 80 年代由 Rosenbaum 和 Rubin 首次提出,后由 Austin 等大力推廣[3,4]。PS 方法是通過綜合系列已知的可測量的協變量(measured covariates)來模擬 RCT 的隨機化、提高組間的均衡性,進而達到降低混雜因素影響目的一種分析策略。本文介紹了 PS 方法的原理、類型及其在觀察性研究中的應用,同時對 PS 方法與多元回歸、RCT 進行了比較。
1 PS 方法的原理、類型和應用
1.1 基本概念
相對于觀察性研究設計階段的策略(如限制納排標準、實行分層或匹配的措施等),PS 方法是屬于在數據分析階段采取的一種措施,目的是通過模擬 RCT 的隨機化來實現降低混雜因素影響的目的,所以也被稱為“事后隨機化”。當前在數據分析階段中,控制混雜因素常用的方法包括了分層分析或多因素調整分析法;但如果需調整的混雜因素數量過多時、組間特征差異過大時,分層分析或多因素分析往往存在方法學上的局限性。PS 方法能克服以上這些局限,因此在觀察性研究的數據分析處理中應用越來越廣泛。
PS 定義為在混雜因素存在的情況下,研究對象進入到暴露組或處理組的條件概率。因此 PS 的函數模型為:E(X)=P(T=1|X),其中E(X)為 PS 的理論值,T=1 為暴露組或處理組,X為協變量向量。假設暴露組的研究對象為m,其 PS 即為E(Xm)=P(T=1|Xm);對照組的研究對象為n,其 PS 為E(Xn)=P(T=1|Xn);若E(Xm)與E(Xn)相類似或者相同,那么可推導出Xm與Xn相近或相同,從而保證了暴露組與對照組的均衡性,達到類隨機化的效果。
Logistic 回歸模型是最常用于 PS 的計算方法,即以T=1 作為因變量,把可測量的系列協變量作為自變量建立一個 logistic 回歸方程;從方程中計算出的預測的接受暴露或處理的概率即為個體的 PS 值。除外 logistic 回歸模型以外,其他如隨機森林法、人工神經網絡、概率回歸模型、遞歸樹法等也可用于 PS 的計算。至于如何納入自變量用于計算 PS,有研究建議與結局相關的協變量都需要納入到方程中,但是值得注意的是工具變量(即與暴露或處理有關、但與結局無關的變量)不能作為自變量納入到 PS 的計算模型中去[5,6]。
1.2 PS 方法的類型
PS 方法有四種類型,包括 PS 匹配法、分層法、校正法和加權法。下面就四種類型做簡單介紹,為幫助理解,表 1 簡要列舉了不同類型 PS 法的應用實例[7-10]。

1.2.1 PS 匹配法
匹配法是目前運用非常廣泛的一種方法,其核心目的是通過匹配相近或相同 PS 值的參與者、使得他們的協變量分布達到均衡或趨于均衡、進而降低混雜因素的影響。匹配時,可按 1∶1 或者 1∶n 進行匹配,同時需考慮有無替代匹配、貪婪或最優匹配等策略的選擇。而且需滿足組間的 PS 值具有重疊分布、PS 值計算的條件獨立性(即T=1 的計算只受可測量的協變量的影響,不受未測量的協變量的影響)這兩個假設,才能進行 PS 匹配法[11]。
目前常用的匹配方法包括最近鄰匹配與卡鉗匹配法。顧名思義,最近鄰匹配法就是按照暴露組參與者的 PS 值,選擇與其差異最小(即最近鄰)PS 值的對照組參與者作為匹配;但對于如何定義最近鄰,則沒有嚴格的規則。卡鉗匹配法則通過設定一定的卡鉗值(即暴露組與對照組參與者的 PS 值的差異),要求暴露組與對照組參與者的 PS 值必須在此卡鉗值范圍內進行匹配。通常建議卡鉗值設為暴露組和對照組 PS 值的 logit 的合并標準差(the pooled standard deviation of the logit of the PS)的 20%,即可消除可測量協變量導致的 99% 的混雜偏倚[12]。
匹配后,需對組間進行均衡性評價。通常假如暴露組與對照組的協變量在匹配后的標準化差異小于 10%,則可認為該協變量在兩組間已達到了很好的均衡性。當匹配及均衡性評價完成以后,即可對暴露或處理與結局之間的關系進行估算。
如表 1 所示,在 Wang 等[7]的研究里,他們通過 1∶1 匹配法成功匹配了 115 933 例使用質子泵抑制劑(proton pump inhibitor,PPI)的兒童與 115 933 例不使用 PPI 的兒童。在匹配的過程中,他們使用了貪婪匹配法、設定卡鉗值為 20%,最后用標準化差異小于 10% 來衡量匹配后的均衡性。最后研究發現:PPI 的使用與兒童增加的骨折風險顯著相關,即使增加的幅度不大[HR=1.11,95%CI(1.06,1.15)]。
1.2.2 PS 分層法
分層法是按照 PS 值的大小分成了若干區間,視不同區間為不同的層;而每一層的參與者的協變量分布可認為是同質或均衡的。先對每一層暴露或處理與結局之間的關聯進行估算,然后對所有層的關聯作加權平均,最后得出暴露或處理與結局之間的總的關聯效應。
分層法可按照 PS 值分為 5~10 層,但通常建議把總體樣本平均分為 5 層,既可滿足實際的可操作性,也能降低 90% 以上的由可測量協變量導致的混雜偏倚[4]。表 1 中 De Ridder 等[8]的研究目的是探索高中時期輟學學生是否與其成人后的長期疾患、殘疾的風險相關。通過計算 PS 值、平均分成 5 層,然后在每一層進行比值比(odds ratio,OR)的估算,最后通過加權算出最后的 OR=2.95,95%CI(2.44,3.57),總結出高中時期輟學與成人早期的疾病風險的升高具有顯著的關聯性。
1.2.3 PS 校正法
PS 校正法是通過把 PS 方法與傳統的回歸分析方法相結合,把 PS 作為一個新的協變量納入到傳統的回歸分析,進而估算出暴露或處理與結局的關聯效應。在回歸分析中,自變量通常只有兩個:PS 值與分組變量。這樣的優勢在于極大地減少了自變量的個數,同時沒有損失掉參與者樣本,通過控制了 PS 這一個新的協變量即可達到了控制多個混雜因素的目的[13]。Blok 等[9]在一項回顧性隊列研究中(表 1),通過計算 PS 值、然后把 PS 值與暴露變量放入 logistic 回歸方程,發現在直腸癌病人中,網膜成形術與術后的腹會陰疾病風險降低無顯著的關聯[OR=0.81,95%CI(0.48,1.36)]。他們同時進行了敏感性分析,除了 PS 值與暴露變量以外,進一步把年齡、性別、糖尿病等部分用來計算 PS 值的因素作為協變量也放入到回歸方程,結果與原來的分析保持一致[OR=0.89,95%CI(0.45,1.75)]。
1.2.4 PS 加權法
加權法的核心理念就是利用標準化的原理,基于 PS 值對參與者賦予相對應的權重進行加權,使得組間的可測量的協變量達到同質或均衡。目前最常用的加權法為逆概率處理加權法(inverse probability of treatment weighting,IPTW),即以總體的所有參與者(暴露或處理組的參與者合并對照組的參與者)作為標準人群進行權重調整:暴露或處理組的參與者賦予其 PS 值的倒數的權重(即),而對照組的參與者賦予 1 減去其 PS 值的倒數的權重(即
)[14]。這種加權法對于參與者 PS 值非常接近 0 或 1 的時候會存在一定局限性,這種局限可通過微調權重的計算得以改善[15]。值得注意的是,由于參與者被賦予不同的權重,經過 IPTW 后的人數可能會與原來的人數略微不一致,但這并不影響加權法對暴露或處理與結局之間的關聯效應的估計。在 Hernandez 等[10]的研究中(表 1),他們首先計算 PS 值,然后用 IPTW 對每一個參與者進行加權,探索達比加群對比于華法林是否和房顫病人的出血風險顯著相關。通過對 IPTW 加權的隊列分析,結果發現相比于華法林,達比加群與主要胃腸道出血風險的升高顯著相關[HR=1.85,95%CI(1.64,2.07)],但也與顱內出血風險的降低顯著相關[HR=0.32,95%CI(0.20,0.50)]。
1.3 PS 四種方法的選擇
當前的文獻運用 PS 匹配法和加權法比較多,但尚無比較統一的推薦選擇。PS 匹配法容易導致選擇偏倚,主要是由于部分參與者無法匹配上而容易造成樣本的損失;分層法通常由于是在區間的水平進行均衡性處理,相對于另外 3 種按照個體水平來處理的 PS 方法,分層法降低混雜因素影響的效果可能會較差;加權法由于經過加權后參與者人數的改變,容易造成理解上與結果解讀上的困難;使用校正法時,如果暴露或處理組與對照組的 PS 值分布存在較大差異的時候,把 PS 作為一個綜合的協變量放入模型時往往容易產生有偏甚至是錯誤的關聯效應估計值。
已有報道通過使用模擬研究對 PS 的 4 種方法從準確性(bias)與精確性(precision)等維度進行對比。例如在生存分析中,當需要估計 HR 時,匹配法與 IPTW 的模型表現要比分層法與校正法的好[16];當生存分析需要估計的是絕對效應時(如組間的生存時間的絕對差異、結局發生的風險的絕對差異等),運用分層法得到的結果要比匹配和 IPTW 法產生更大的偏倚[17]。在 logistic 回歸分析中,無論是當真正的 OR 為 1 或者當 OR 在 2~10 之間浮動時,匹配法都比分層法與校正法產生更小的偏倚、統計性能表現更佳[18]。但是由于這些模擬研究所用的數據是否具有代表性、參數的設定等特定因素,模擬研究結論還有待進一步驗證;所以當前對 PS 四種方法的推薦建議還需要更多的高質量證據。
1.4 PS 方法用于估算暴露與結局關聯的變量選擇
計算完 PS 值、選擇 PS 上述的四種方法對數據處理完成以后,理論上當估算暴露與結局的關聯的時候只需要把暴露放入模型即可(對于 PS 校正法還需把 PS 值放入模型);然而研究人員往往也會把相關的協變量額外放入到模型進行校正(如上述 Blok 等的研究)。至于應該把哪些協變量(除了暴露與 PS 值外)放入到模型,目前尚存在較大爭議。有研究支持使用經驗及P值進行篩選,也有研究認為應該從因果路徑中找出真正的混雜因素,僅對這些真正的混雜因素進行平衡。而 Austin 的一項研究則表明:在使用 PS 法估算相對危險度(relative risk,RR)的時候,相對于模型中僅納入與結局相關的變量或僅納入真正的混雜變量而言,模型中納入所有與暴露相關的變量、或納入所有可測量的變量都會產生較大的誤差[19]。
2 PS 方法與多元回歸、RCT 的比較
PS 方法運用得越來越廣泛,但對其得到的結論的正確性也常遭受懷疑。表 2 總結了 PS 法對比多元回歸(觀察性研究最常用的數據分析方法)、RCT 結果的部分報道證據。例如 Stürmer[20]與 Shah[21]等通過系統檢索回答同一個研究問題(即研究的人群、暴露、對照與結局等要素相似)的觀察性研究,發現使用 PS 方法與多元回歸所得到的結論相似。但 Cepeda 等[22]的模擬研究則發現當研究結局(outcome event)的數量大于 8 倍混雜因素的數量的時候,logistic 回歸的表現要優于 PS 方法。除外模擬研究,觀察性研究往往缺乏可作為金標準的關聯效應,PS 方法與多元回歸的結果通常只能做相似性的對比;尤其是當 PS 方法與多元回歸得到的結論不一致時,難以判斷到底是哪一種方法更準確,所以仍需進一步的模擬研究對兩種方法的模型表現及性能進行比較。因此對于到底選擇 PS 方法還是多元回歸法,目前往往是根據結局數量的經驗證據來推薦[23]。

相比而言,高質量 RCT 產生的結論往往可用作金標準來衡量 PS 方法得到的結果是否正確。如我們之前的一項研究表明在估計新型抗凝藥預防房顫患者中風的有效性安全性的關聯效應時,PS 方法得到的觀察性研究結果與 RCT 結果保持一致[24]。但有研究表明,相對于 RCT 的結果,PS 方法的結果可能會高估或者低估關聯效應的估計[25,26]。在觀察性研究中,對 PS 方法得到的結果進行解讀與交流時需要科學謹慎、緊密聯系研究自身設計、數據、質量控制等的特點。尤其是當缺乏高質量的 RCT 證據(金標準)時,切不能過于迷信 PS 方法的結果。
3 小結
本文對 PS 方法在觀察性研究中的應用做了簡單介紹。需要強調的是,PS 方法是數據分析的一種策略,屬于事后隨機化的措施;當前對 PS 四種方法的選擇尚缺乏有效推薦;PS 方法得到的結論與傳統的回歸分析、RCT 的結果也可能存在差異。解讀 PS 方法的結果須謹慎科學,因為 PS 方法只能針對可測量的協變量產生的混雜影響,無法控制未知協變量帶來的混雜效應。PS 方法也不適用于所有的觀察性研究,譬如對于多分類或者連續性的暴露或處理、隨著時間而改變的暴露或處理、暴露或處理較為罕見等問題,需要對 PS 方法進行改良或改用其他方法。在運用 PS 方法前需要結合研究自身的特點,進行全盤系統細致的考慮。如其他的科學研究一樣,運用 PS 方法也需要科學的設計、嚴謹的實施與質量控制、事先定好的合理的分析策略、正確的結果解讀與匯報,這樣才能使得 PS 方法在觀察性研究中發揮越來越大的作用。