受醫學倫理或實際環境限制,隨機對照試驗的開展往往會受到限制。準實驗研究通過控制研究的混雜效應,可在非隨機化條件下進行因果推斷,在某些情況下成為隨機對照試驗的替代選擇。本文從準實驗研究設計的基本思想、特點、局限性及在醫學中的應用等角度,介紹準實驗研究中常用的統計分析方法,包括雙重差分模型、工具變量法、斷點回歸設計、間斷時間序列模型等,以期為以后準實驗研究提供參考。
引用本文: 羅梟, 何倩, 秦嬰逸, 吳騁, 賀佳. 準實驗中常用的統計分析方法及其在醫學中的應用. 中國循證醫學雜志, 2022, 22(9): 1080-1084. doi: 10.7507/1672-2531.202204020 復制
隨機對照試驗(randomized controlled trial,RCT)是醫學研究中因果推斷的金標準。RCT通過隨機分組平衡了干預組和對照組的已測量和未測量混雜因素,從而達到更好進行因果推斷的目的,但其對試驗條件、試驗對象等均有嚴格限制,使結果外推存在一定局限。此外,RCT在臨床實踐中難以實施和高成本也使得一些試驗只能在較短時間、用較少的樣本量完成,只能采用中間結果、生物標志物或替代結局等,無法正確反映臨床實踐的實際情況[1]。因此,當難以開展RCT時,研究人員可選擇準實驗(quasi-experiment),獲得真實世界環境中干預對結局的影響,作為RCT的補充證據。
準實驗或類實驗一般是指因研究條件受限不能進行隨機化分組或不能設立平行對照的干預性研究[2]。準實驗研究通過處理和控制研究的混雜效應,從而在非隨機化情況下進行因果推斷。常用控制已測量混雜因素的統計方法,如分層、匹配、回歸分析、傾向性評分法等,是通過不同程度地提高混雜因素在組間分布的均衡性來平衡其對效應估計的影響。而準實驗中常利用或構建一種接近隨機試驗的方法如“自然實驗(natural experiment)”來控制已測量和未測量的混雜因素,以期獲得對干預效應的無偏估計。隨著相關研究理論的不斷深入,其分析方法也在不斷拓展,目前常用的有雙重差分模型(difference-in-differences,DID)、工具變量法(instrumental variables,IV)、間斷時間序列模型(interrupted time series,ITS)、斷點回歸設計(regression discontinuity design,RDD)及其衍生的方法等。這些方法已用于基于既有數據對干預效果進行評價的研究。本文介紹不同分析方法的基本思想、特點、局限性和適用場景,以期為國內學者開展相關研究提供參考。
1 方法
1.1 DID
DID來源于20世紀80年代Ashenfelter和Card評估培訓計劃對收入影響的研究[3],隨后被廣泛用于經濟學領域作為評價政策效果的工具[4]。其基本思想是獲得兩個相似人群干預前后的同期數據,實施干預的效果可通過比較干預組平均變化與對照組平均變化的差來估計,即所謂的雙重差分。DID將組內“前后差異”和組間“有無差異”有效結合,這一定程度上控制了干預以外的混雜因素影響。DID需要滿足兩個主要假設:① 平行趨勢假設,即認為干預組和對照組中觀察單位的某些特征分布穩定,不隨時間變化;② 干預措施只對干預組有影響[5]。
DID的局限性:① 無論是干預組還是對照組,都需要記錄干預前后時間點上的結果數據;② 數據收集過程通常會有延遲,這使得及時評估干預效果變得困難;③ 在實踐中干預組與對照組除干預措施外常存在其他差別。
近年來DID在醫療,特別是在公共衛生領域得到越來越多的應用[6-7]。如趙煒等[8]使用DID評價社區跌倒的預防效果;侯艷杰等[9]利用其研究了長期護理保險對中老年人醫療服務利用、醫療負擔和健康的影響;Yvonne等[10]評估了乳腺癌對絕經后女性身體機能變化的影響。DID的理論與實踐部分可參考相關文獻[7]。
1.2 IV
IV最早是由Wright在20世紀20年代研究農貿產品價格問題時提出[11],早期用于在經濟學和社會學領域,最近才被引入醫學領域因果效應的估計研究中。IV方法的基本思想是找到一個工具變量將處理變量的變異分解成與混雜因素相關和不相關的兩部分,利用不相關部分對結局變量進行回歸分析,以消除未測量混雜因素造成的偏倚,實現對效應量的無偏估計[12]。該方法需要滿足三個基本條件[13]:① 工具變量與所研究的處理因素相關,相關性的強弱代表工具變量的強度;② 工具變量與結局不直接相關;③ 工具變量與已測量和未測量混雜因素無關。
雖然IV可作為因果推斷的有力工具,但實際工作中工具變量的選擇并不容易,往往需要研究者對所研究問題的背景知識非常了解。IV的局限性在于:① 當工具變量與暴露因素相關性較小時,該方法會導致結局估計值的標準誤增加;② 當樣本量較小時,使用工具變量估計的結果不準確[14]。
近年來臨床研究使用IV方法進行干預評估的研究也越來越多。Markovitz等[15]使用患者狀態作為IV評估了額外使用抗高血壓藥物的增量效果;Chhabra等[16]使用不同地區患者袖狀胃切除術歷史記錄作為IV進行袖狀胃切除術和胃旁路術的安全性比較研究;Werner等[17]使用患者到護理機構的距離作為IV研究患者出院后在家護理與在專業護理機構護理對結局的影響。此外,孟德爾隨機化以遺傳變異作為工具變量[18]進行因果推斷近年來也發展迅速,如Hartwig等[19]使用炎性生物標志物遺傳變異作為IV評價炎性生物標志物對精神分裂癥的影響。IV的理論與實踐部分可參考相關文獻[20]。
1.3 RDD
RDD由Thistlethwait和Campbell于20世紀60年代研究獎學金對大學績效的影響時提出[21]。自20世紀90年代末以來,該方法在應用經濟研究中變得越來越普遍,目前也被應用到醫學相關領域的研究中[22-24]。其基本思想為存在一個干預變量(D)完全依賴于參考變量(X),當參考變量(X)超過某斷點(C)時,干預變量(D)發生改變。假設結局變量(Y)與參考變量(X)之間的關系是連續的,協變量(Z)在斷點處(C)也是連續的,那么,結局變量(Y)在斷點處的改變就可解釋為干預變量(D)的影響[25]。通過比較斷點兩側差別,RDD可估計干預與結果之間的因果聯系[26]。斷點回歸在不需要依賴強大假設(不存在未測量的混雜因素)和匹配法的前提條件下,也可實現在已測量和未測量變量之間的平衡[24]。
雖然RDD相比于大多數準實驗分析方法在使用條件上具有優勢,但仍存在一些局限性:① 需滿足參考變量在斷點C附近是連續的,如果出現不連續,即參考變量的分布不均勻,則存在人為操縱參考變量的可能性;② 協變量需滿足在斷點C附近是連續的,如果協變量的分布在斷點附近存在跳躍情況,則無法判別斷點處的干預效應是由參考變量還是協變量導致的[25];③ 因為RDD只能解釋那些臨近斷點處的觀測值的因果效應,所以較難推廣到整體中。
RDD特別適用于臨床、流行病學和公共衛生領域,因為這些領域大量存在影響治療方案或者決策的截斷值。Tennant等[27]使用斷點回歸來評估空腹血糖和妊娠糖尿病診斷對胎兒出生體重和胎齡過大風險的影響;Scott等[28]探索使用他汀類藥物對總膽固醇和不良結局的影響;Xiong等[29]調查了中國雙職工夫婦中配偶退休對個體認知健康的影響。RDD的理論與實踐部分可參考相關文獻[23]。
1.4 ITS
ITS最早于20世紀70年代由Box和Tiao首次提出并應用于經濟和環境問題研究[30]。該方法最初運用于經濟領域,隨著研究深入,其可行性和有效性得到進一步證明,逐漸被運用于醫學領域。目前,該方法被認為是準實驗設計中最強的評估干預縱向效果的方法[31]。其基本思想為通過連續收集干預實施前后多個時間點上的結局數據,比較結局在干預前后水平和趨勢的變化,從而評估干預措施對結局產生的影響[32]。ITS的優勢在于即使未設置對照也能通過對干預前后多個觀測時間點數據的分析,控制并排除由歷史或其他未測量混雜引起的長期趨勢變化對結果的影響,從而正確評價干預對結果的真實效果;其次ITS能夠使用折線圖清晰地表示干預對結局的影響,易于進行分層分析。近年來,兩組或受控的ITS方法(controlled interrupted time series,CITS)(即存在對照組的ITS)因其可更好地控制干預前混雜因素的影響越來越受到關注[33]。
ITS的局限性包括[32,34]:① 干預前后數據測量點的數量至少12個;② 在沒有干預的情況下,趨勢要保持不變,但要注意數據的季節性或周期性變化;③ 由于結果趨勢可能會因為混雜因素而隨著時間推移而改變,因此使用較早的數據來推斷預期結果可能會偏離實際;④ 由群體水平研究得到的干預效果推論,可能不適用于個體水平。
ITS常見于衛生政策干預,但在醫學其他領域也有應用。王飛等[35]使用ITS評價了縣級公立醫院醫藥價格改革效果;Bridget等[36]評估阿片類藥物指南變更對泌尿外科術后患者用藥的影響;Clavería等[37]評估了新冠肺炎大流行對歐洲兒童傳染性疾病和抗生素使用的影響;Jandoc等[38]的系統評價也表明,ITS正越來越多地被用于藥物利用研究中。ITS的理論與實踐部分可參考相關文獻[39]。
1.5 其他方法
除上述常用方法外,還有一些在醫學領域應用不多,但可借鑒其分析思路的準實驗設計分析方法。如回歸點位移設計[40](regression point displacement design,RPDD)是一種運用于群體層面的準實驗設計分析方法,通常涉及一個干預組和多個對照組。干預效應估計是通過比較干預組后測數據與對照組前測數據建立的回歸方程差異確定,即在干預無效的情況下,通常認為干預組的結局偏離回歸方程較小,而當干預組結局明顯偏離回歸方程時,則證明干預是有效的。合成控制法[41](synthetic control method,SCM)是將面板數據中多個潛在對照組的信息加權并組合成一個“合成控制單元”,使之與干預組更加匹配,從而控制干預前特征和時間趨勢對結果的影響。然后將合成控制單元結局的時間序列與干預組結局進行對比,用以估計干預效應。
2 討論
本文介紹了目前常用的準實驗分析方法的基本思想、特點、局限性及其在醫學中的應用。為使準實驗達到因果推斷的目的,選擇合適的分析方法十分重要。準實驗分析方法的選擇取決于研究的性質,研究者可獲得的數據類型,以及可行性和倫理的要求。在應用準實驗分析方法之前,應充分理解基本思想,嚴格把握適用條件。例如,當有干預組和對照組干預實施前后數據時,建議使用DID估計干預對結局的影響;IV需要選擇合適的工具變量用來分析;當連續的參考變量導致干預發生變化時,可選擇RDD;而ITS模型需要滿足數據以時間序列為基礎。上述方法的比較見表1。

需要注意的是作為數據驅動的準實驗分析方法,會因數據質量問題影響干預有效性得出錯誤結論,因此,使用準實驗分析方法進行因果效應推斷的解釋必須謹慎。根據Harris的研究[42],很少有研究者能準確定義他們所用的準實驗分析方法或證明他們的研究設計是合理的。不僅如此,部分研究者不能明確他們使用準實驗研究的局限性,從而得出有偏的結論。因此,研究者增強對準實驗相關理論的學習是必要的。
3 展望
某些情況下,準實驗可得到比RCT更詳細的縱向研究結果,基于真實世界數據也使其具有更強的外部有效性。例如當疫苗投入市場后,因不能進行RCT,但可使用準實驗或觀察性研究方法分析其在臨床試驗階段無法得到的特殊人群和暫未發生的相關事件結局[43](如疫苗接種對衛生服務利用的影響、不良反應事件及發生率等)。此外,也可將準實驗的統計分析方法與其他數據科學分析方法聯合使用[44],例如與機器學習算法相結合,可有效彌補雙方不足并發揮彼此的優勢。本文所介紹的分析方法也適用于真實世界研究中對未測量混雜的控制和估計因果效應。當前控制混雜因素的方法并不豐富,選擇較少,且不完善[45],而混雜因素在準實驗研究中普遍存在,這對相關統計學分析方法提出了新的要求和挑戰,有待學者進一步完善和研究。
隨機對照試驗(randomized controlled trial,RCT)是醫學研究中因果推斷的金標準。RCT通過隨機分組平衡了干預組和對照組的已測量和未測量混雜因素,從而達到更好進行因果推斷的目的,但其對試驗條件、試驗對象等均有嚴格限制,使結果外推存在一定局限。此外,RCT在臨床實踐中難以實施和高成本也使得一些試驗只能在較短時間、用較少的樣本量完成,只能采用中間結果、生物標志物或替代結局等,無法正確反映臨床實踐的實際情況[1]。因此,當難以開展RCT時,研究人員可選擇準實驗(quasi-experiment),獲得真實世界環境中干預對結局的影響,作為RCT的補充證據。
準實驗或類實驗一般是指因研究條件受限不能進行隨機化分組或不能設立平行對照的干預性研究[2]。準實驗研究通過處理和控制研究的混雜效應,從而在非隨機化情況下進行因果推斷。常用控制已測量混雜因素的統計方法,如分層、匹配、回歸分析、傾向性評分法等,是通過不同程度地提高混雜因素在組間分布的均衡性來平衡其對效應估計的影響。而準實驗中常利用或構建一種接近隨機試驗的方法如“自然實驗(natural experiment)”來控制已測量和未測量的混雜因素,以期獲得對干預效應的無偏估計。隨著相關研究理論的不斷深入,其分析方法也在不斷拓展,目前常用的有雙重差分模型(difference-in-differences,DID)、工具變量法(instrumental variables,IV)、間斷時間序列模型(interrupted time series,ITS)、斷點回歸設計(regression discontinuity design,RDD)及其衍生的方法等。這些方法已用于基于既有數據對干預效果進行評價的研究。本文介紹不同分析方法的基本思想、特點、局限性和適用場景,以期為國內學者開展相關研究提供參考。
1 方法
1.1 DID
DID來源于20世紀80年代Ashenfelter和Card評估培訓計劃對收入影響的研究[3],隨后被廣泛用于經濟學領域作為評價政策效果的工具[4]。其基本思想是獲得兩個相似人群干預前后的同期數據,實施干預的效果可通過比較干預組平均變化與對照組平均變化的差來估計,即所謂的雙重差分。DID將組內“前后差異”和組間“有無差異”有效結合,這一定程度上控制了干預以外的混雜因素影響。DID需要滿足兩個主要假設:① 平行趨勢假設,即認為干預組和對照組中觀察單位的某些特征分布穩定,不隨時間變化;② 干預措施只對干預組有影響[5]。
DID的局限性:① 無論是干預組還是對照組,都需要記錄干預前后時間點上的結果數據;② 數據收集過程通常會有延遲,這使得及時評估干預效果變得困難;③ 在實踐中干預組與對照組除干預措施外常存在其他差別。
近年來DID在醫療,特別是在公共衛生領域得到越來越多的應用[6-7]。如趙煒等[8]使用DID評價社區跌倒的預防效果;侯艷杰等[9]利用其研究了長期護理保險對中老年人醫療服務利用、醫療負擔和健康的影響;Yvonne等[10]評估了乳腺癌對絕經后女性身體機能變化的影響。DID的理論與實踐部分可參考相關文獻[7]。
1.2 IV
IV最早是由Wright在20世紀20年代研究農貿產品價格問題時提出[11],早期用于在經濟學和社會學領域,最近才被引入醫學領域因果效應的估計研究中。IV方法的基本思想是找到一個工具變量將處理變量的變異分解成與混雜因素相關和不相關的兩部分,利用不相關部分對結局變量進行回歸分析,以消除未測量混雜因素造成的偏倚,實現對效應量的無偏估計[12]。該方法需要滿足三個基本條件[13]:① 工具變量與所研究的處理因素相關,相關性的強弱代表工具變量的強度;② 工具變量與結局不直接相關;③ 工具變量與已測量和未測量混雜因素無關。
雖然IV可作為因果推斷的有力工具,但實際工作中工具變量的選擇并不容易,往往需要研究者對所研究問題的背景知識非常了解。IV的局限性在于:① 當工具變量與暴露因素相關性較小時,該方法會導致結局估計值的標準誤增加;② 當樣本量較小時,使用工具變量估計的結果不準確[14]。
近年來臨床研究使用IV方法進行干預評估的研究也越來越多。Markovitz等[15]使用患者狀態作為IV評估了額外使用抗高血壓藥物的增量效果;Chhabra等[16]使用不同地區患者袖狀胃切除術歷史記錄作為IV進行袖狀胃切除術和胃旁路術的安全性比較研究;Werner等[17]使用患者到護理機構的距離作為IV研究患者出院后在家護理與在專業護理機構護理對結局的影響。此外,孟德爾隨機化以遺傳變異作為工具變量[18]進行因果推斷近年來也發展迅速,如Hartwig等[19]使用炎性生物標志物遺傳變異作為IV評價炎性生物標志物對精神分裂癥的影響。IV的理論與實踐部分可參考相關文獻[20]。
1.3 RDD
RDD由Thistlethwait和Campbell于20世紀60年代研究獎學金對大學績效的影響時提出[21]。自20世紀90年代末以來,該方法在應用經濟研究中變得越來越普遍,目前也被應用到醫學相關領域的研究中[22-24]。其基本思想為存在一個干預變量(D)完全依賴于參考變量(X),當參考變量(X)超過某斷點(C)時,干預變量(D)發生改變。假設結局變量(Y)與參考變量(X)之間的關系是連續的,協變量(Z)在斷點處(C)也是連續的,那么,結局變量(Y)在斷點處的改變就可解釋為干預變量(D)的影響[25]。通過比較斷點兩側差別,RDD可估計干預與結果之間的因果聯系[26]。斷點回歸在不需要依賴強大假設(不存在未測量的混雜因素)和匹配法的前提條件下,也可實現在已測量和未測量變量之間的平衡[24]。
雖然RDD相比于大多數準實驗分析方法在使用條件上具有優勢,但仍存在一些局限性:① 需滿足參考變量在斷點C附近是連續的,如果出現不連續,即參考變量的分布不均勻,則存在人為操縱參考變量的可能性;② 協變量需滿足在斷點C附近是連續的,如果協變量的分布在斷點附近存在跳躍情況,則無法判別斷點處的干預效應是由參考變量還是協變量導致的[25];③ 因為RDD只能解釋那些臨近斷點處的觀測值的因果效應,所以較難推廣到整體中。
RDD特別適用于臨床、流行病學和公共衛生領域,因為這些領域大量存在影響治療方案或者決策的截斷值。Tennant等[27]使用斷點回歸來評估空腹血糖和妊娠糖尿病診斷對胎兒出生體重和胎齡過大風險的影響;Scott等[28]探索使用他汀類藥物對總膽固醇和不良結局的影響;Xiong等[29]調查了中國雙職工夫婦中配偶退休對個體認知健康的影響。RDD的理論與實踐部分可參考相關文獻[23]。
1.4 ITS
ITS最早于20世紀70年代由Box和Tiao首次提出并應用于經濟和環境問題研究[30]。該方法最初運用于經濟領域,隨著研究深入,其可行性和有效性得到進一步證明,逐漸被運用于醫學領域。目前,該方法被認為是準實驗設計中最強的評估干預縱向效果的方法[31]。其基本思想為通過連續收集干預實施前后多個時間點上的結局數據,比較結局在干預前后水平和趨勢的變化,從而評估干預措施對結局產生的影響[32]。ITS的優勢在于即使未設置對照也能通過對干預前后多個觀測時間點數據的分析,控制并排除由歷史或其他未測量混雜引起的長期趨勢變化對結果的影響,從而正確評價干預對結果的真實效果;其次ITS能夠使用折線圖清晰地表示干預對結局的影響,易于進行分層分析。近年來,兩組或受控的ITS方法(controlled interrupted time series,CITS)(即存在對照組的ITS)因其可更好地控制干預前混雜因素的影響越來越受到關注[33]。
ITS的局限性包括[32,34]:① 干預前后數據測量點的數量至少12個;② 在沒有干預的情況下,趨勢要保持不變,但要注意數據的季節性或周期性變化;③ 由于結果趨勢可能會因為混雜因素而隨著時間推移而改變,因此使用較早的數據來推斷預期結果可能會偏離實際;④ 由群體水平研究得到的干預效果推論,可能不適用于個體水平。
ITS常見于衛生政策干預,但在醫學其他領域也有應用。王飛等[35]使用ITS評價了縣級公立醫院醫藥價格改革效果;Bridget等[36]評估阿片類藥物指南變更對泌尿外科術后患者用藥的影響;Clavería等[37]評估了新冠肺炎大流行對歐洲兒童傳染性疾病和抗生素使用的影響;Jandoc等[38]的系統評價也表明,ITS正越來越多地被用于藥物利用研究中。ITS的理論與實踐部分可參考相關文獻[39]。
1.5 其他方法
除上述常用方法外,還有一些在醫學領域應用不多,但可借鑒其分析思路的準實驗設計分析方法。如回歸點位移設計[40](regression point displacement design,RPDD)是一種運用于群體層面的準實驗設計分析方法,通常涉及一個干預組和多個對照組。干預效應估計是通過比較干預組后測數據與對照組前測數據建立的回歸方程差異確定,即在干預無效的情況下,通常認為干預組的結局偏離回歸方程較小,而當干預組結局明顯偏離回歸方程時,則證明干預是有效的。合成控制法[41](synthetic control method,SCM)是將面板數據中多個潛在對照組的信息加權并組合成一個“合成控制單元”,使之與干預組更加匹配,從而控制干預前特征和時間趨勢對結果的影響。然后將合成控制單元結局的時間序列與干預組結局進行對比,用以估計干預效應。
2 討論
本文介紹了目前常用的準實驗分析方法的基本思想、特點、局限性及其在醫學中的應用。為使準實驗達到因果推斷的目的,選擇合適的分析方法十分重要。準實驗分析方法的選擇取決于研究的性質,研究者可獲得的數據類型,以及可行性和倫理的要求。在應用準實驗分析方法之前,應充分理解基本思想,嚴格把握適用條件。例如,當有干預組和對照組干預實施前后數據時,建議使用DID估計干預對結局的影響;IV需要選擇合適的工具變量用來分析;當連續的參考變量導致干預發生變化時,可選擇RDD;而ITS模型需要滿足數據以時間序列為基礎。上述方法的比較見表1。

需要注意的是作為數據驅動的準實驗分析方法,會因數據質量問題影響干預有效性得出錯誤結論,因此,使用準實驗分析方法進行因果效應推斷的解釋必須謹慎。根據Harris的研究[42],很少有研究者能準確定義他們所用的準實驗分析方法或證明他們的研究設計是合理的。不僅如此,部分研究者不能明確他們使用準實驗研究的局限性,從而得出有偏的結論。因此,研究者增強對準實驗相關理論的學習是必要的。
3 展望
某些情況下,準實驗可得到比RCT更詳細的縱向研究結果,基于真實世界數據也使其具有更強的外部有效性。例如當疫苗投入市場后,因不能進行RCT,但可使用準實驗或觀察性研究方法分析其在臨床試驗階段無法得到的特殊人群和暫未發生的相關事件結局[43](如疫苗接種對衛生服務利用的影響、不良反應事件及發生率等)。此外,也可將準實驗的統計分析方法與其他數據科學分析方法聯合使用[44],例如與機器學習算法相結合,可有效彌補雙方不足并發揮彼此的優勢。本文所介紹的分析方法也適用于真實世界研究中對未測量混雜的控制和估計因果效應。當前控制混雜因素的方法并不豐富,選擇較少,且不完善[45],而混雜因素在準實驗研究中普遍存在,這對相關統計學分析方法提出了新的要求和挑戰,有待學者進一步完善和研究。