隨機對照試驗的證據等級較高,但因其實施成本較高、外部真實性較低和倫理要求等原因而限制了其在臨床開展和應用,而傳統的觀察性研究由于存在各種混雜因素導致內部真實性降低,從而降低了證據等級。斷點回歸設計(regression discontinuity design,RDD)是在自然條件下觀察比較閾值附近的人群,其控制混雜的能力僅次于隨機對照試驗,可提供較高等級證據。它適用于干預(或暴露)與某連續變量的數值直接相關的情況,如 HIV 患者是否需要抗逆轉錄病毒治療主要取決于其 CD4 細胞計數是否低于 200/μL。因為連續變量的測量存在隨機誤差,在閾值附近是否給予干預是接近隨機的,閾值附近干預和非干預組患者基線應該是均衡可比的。根據這一假設,比較閾值附近人群的結局,即可估計干預(或暴露)與結局的因果效應。RDD 在醫學中主要適用于分類結局的研究,其中兩階段最小二乘法、基于似然比的估計方法、貝葉斯方法是較常用的模型估計方法。然而,RDD 的適用條件和對樣本量的要求限制了其在醫學中的廣泛應用,隨著數據可及性的提高和真實世界研究的發展,RDD 將更多地應用于臨床研究中。
引用本文: 張華, 王曉曉, 曾琳, 李楠, 陶立元, 石巖巖, 褚紅玲, 倪凱文, 趙一鳴. 斷點回歸設計在臨床治療性研究中的應用. 中國循證醫學雜志, 2018, 18(11): 1207-1211. doi: 10.7507/1672-2531.201807146 復制
1 背景
隨機對照試驗(randomized controlled trial,RCT)是臨床研究因果推斷的最佳研究設計類型,但其實施受到多方面限制。首先,RCT 的時間成本和經濟成本非常高,實施過程比較困難;其次,其外部真實性受到質疑,原因是研究的入選和排除標準比較嚴格,多數 RCT 結果是在理想情況下估計干預措施與結局的因果關系,而非在真實環境中;再者,某些 RCT 方案因不符合倫理原則而不能組織實施。當臨床治療性研究在條件受限時需要調整技術路線,其中采用觀察性研究方案進行因果關系推斷是學術界探討的一個方向。在觀察性研究中,準確因果推斷需要一個假設:沒有混雜因素干擾。違反這條假設會導致因果效應的估計出現偏倚,從而降低了觀察性研究的內部真實性。
斷點回歸設計(regression discontinuity design,RDD)是在約束條件下分析變量之間因果關系的實證方法之一[1, 2],其已在經濟學等領域廣泛應用。近年來 RDD 逐漸應用于醫學領域,如臨床護理、健康行為方式、社會決定因素、環境暴露等,在臨床治療性研究中也出現了成功運用的案例,成為我們學習理解 RDD 的窗口。本文將介紹 RDD 的原理,并舉例其在治療性研究中如何實現因果關系推論。
2 RDD 的定義
當是否實施某種暴露或干預措施是由測量的連續分布變量的閾值決定時,可考慮采用 RDD 來進行因果關系推斷。閾值決定原則在臨床醫學中很常見,如膽固醇、血糖或出生體重等,當患者的測量值高于或低于某個閾值時,就會給予該患者相應的干預措施。而決定是否給予干預措施的連續變量會因測量誤差、抽樣變異性及環境溫度等偶然因素而受到影響。這種測量值的誤差是隨機產生的,這意味著在閾值之上和低于閾值的患者在所有觀察到和未觀察到的基線資料應該是均衡的,這與 RCT 相似[3]。而通過比較這些患者結果,可進行因果關系推斷,即 RDD。RDD 閾值是指南或政策規定的界值,如正常值范圍的上下限,或某項治療的應用指征等。RDD 可分為兩類[4],第一類,臨界值是確定的(sharp),即在臨界值一側的所有觀測點都接受了干預;反之,在臨界值另一側的所有觀測點都沒有接受干預,稱為確定型 RDD(sharp regression discontinuity,SRD)。此時,接受干預的概率從臨界值一側的 0 跳轉到另一側的 1。以艾滋病抗逆轉錄病毒治療為例,如果 CD4 細胞計數低于閾值 200/μL,那么就會對患者實施抗逆轉錄病毒治療,否則不給予治療[5]。第二類,在多數情況下,干預方案不是由連續變量的閾值完全決定的,而是有概率的,即臨界點是模糊的(fussy),即在臨界值附近,接受處置的概率是單調變化的,稱為模糊型 RDD(fussy regression discontinuity,FRD)。如臨床醫生僅在一定程度上根據閾值決定原則對患者進行治療,而這種判斷主要根據醫生自身的臨床判斷,即是 FRD。以艾滋病抗逆轉錄病毒治療為例,如果 CD4 細胞計數低于閾值,或患者出現較重的臨床癥狀,那么他們就會獲得抗逆轉錄病毒治療,這種類型即為 FRD[6]。Hahn 等[7]證明了在一定假設下,無論是哪一種類型的斷點回歸,都可使用臨界值附近的樣本情況來推斷暴露和結局之間的因果關系。
3 RDD 因果效應估計方法的理論及應用
3.1 因果關系推斷的理論基礎
本文簡要介紹如何使用 RDD 進行因果推論的方法。為方便論述,我們假設存在兩種干預方案,當然 RDD 也可推廣到多種干預方案甚至連續暴露變量。我們以一個 RDD 在臨床研究應用中較經典的真實案例[5, 8]來進行說明:對于 HIV 患者來說,患者病情進展到哪一階段開始進行抗逆轉錄病毒治療(anti-retroviral therapy,ART)一直是存在爭議的問題[9, 10]。有研究認為在 CD4 細胞計數在 200 以下時使用 ART,也在研究者認為在 250~350 之間就應該進行治療,甚至有研究認為低于 550 就需要進行治療。雖然有相關的 RCT 研究,但檢驗效能不足,未能解決該問題。在非洲國家的實際醫療常規中,如果 CD4 細胞計數低于 200,或有 AIDS 四期相關的并發疾病,或符合某個國家的標準時,患者將接受 ART。我們將影響干預方案分配的連續變量(如 CD4 細胞計數)記為變量 Z,其閾值(開始治療的臨界值如 200/μL)記為 c;結局(如是否死亡)記為 Y,進行治療記為 1,不進行治療記為 0;治療與未治療的結果記為 Y(1)和 Y(0),治療與未治療的期望結果記為 E(Y(1))和 E(Y(0)),單個患者的參數用 i 表示。
在上述案例中,我們想觀察 ART 是否可降低 HIV 患者的病死率,其最佳研究設計類型為 RCT,但實施難度較大。如果采用觀察性研究,影響患者死亡的因素有很多,如未能識別和處理設計與分析過程中的混雜因素,那么 ART 與死亡的因果效應估計將存在較大偏倚。而一般觀察性研究設計不能識別和處理未知的影響因素,這也是觀察性研究設計所面臨的挑戰。RDD 通過對閾值 200/μL 周圍的數據進行分析,可避免和降低各種未知混雜因素的影響。在閾值 200/μL 附近的一個小范圍內(如 195~205/μL),由于測量誤差的存在,使低于閾值 200/μL 或高于 200/μL 的測量結果是隨機出現的,此時對 CD4 細胞計數在 200/μL 以下的患者進行 ART 治療,那這個范圍內的患者是否進行治療是接近隨機分配的。再進行一個極端的假設,當這個范圍趨于 0 時,即所有患者 CD4 計數約等于 200/μL 時,其治療的分配是獨立于其它因素的,類似于隨機分配的結果,此時進行因果關系推斷就可避免已知和未知混雜因素的影響。
采用 RDD 進行因果推斷有兩個假設條件[4, 5]:① 連續變量 Z 在閾值 c 附近是連續的,即病例的 CD4 計數在 200/μL 處是連續的,呈現均勻分布,如果出現不連續,即分布不均勻,則存在人為操縱 CD4 計數的可能,這會導致治療方案不是隨機分配的,因此不能使用 RDD。② 基線變量與結果 Y 的關系在閾值 c 處是連續的。如果基線資料在 200/μL 處不連續,如年齡不連續,在進行因果推斷時不能區分到底是年齡對死亡有影響還是是治療對死亡有影響,因果推斷無法確定。如滿足這些假設條件,則所有潛在的混雜因素都在閾值附近的一個小范圍內保持均衡,治療組在閾值附近的預期結果可估計,對照組在閾值處的預期結果也可估計,此時兩組在閾值處預期結果的差異與治療存在因果關系。盡管在閾值 c 處的連續性看起來像是一個非常強的假設,但事實上連續變量 Z 存在測量誤差,另外多數情況下無法精確地按是否低于閾值對患者進行干預方案的分配,故上述假設條件在臨床實際工作中較容易滿足。
大多數研究應用斷點回歸估計兩組在閾值附近的預期結果差值,稱為平均因果效應(average causal effect,ACE)[4]。在 SRD 中,患者因為在閾值上(或下)而被分到不同的組。圖 1 顯示了結局的連續條件期望函數。縱軸 Y 為預期病死率,橫軸 Z 為連續變量 CD4 計數。上方曲線為未治療組病死率與 CD4 計數的函數關系,二方曲線為治療組病死率與 CD4 計數的函數關系,實線表示觀察到的數據,虛線表示預測的條件期望函數,而預測的條件期望函數并沒有被實際觀察到。可通過已觀察到的數據,在閾值處求極限來識別兩組閾值處的效應差異(ACE)大小。

![]() |
在 FRD 中,公式 (1) 就是意向性治療(intention to treat,ITT)分析效果,即低于閾值 c 進行干預、高于閾值 c 不進行干預,進行分析。ITTFRD 衡量的是由閾值規則決定的 ITT 的效果。此外,治療本身的依從性會對結果產生重要影響,考慮這種影響時,其結果稱為依從者平均因果效應(complier average causal effect,CACEFRD),即將 ITTFRD 除以閾值處的治療概率差異[4]。
![]() |
(2)
當公式 (2) 的分母等于 1 時,這時就是確定型斷點回歸,此時 ITTFRD=CACEFRD=ACESRD;當分母為 0 時,沒有發現不連續點,因果效應差異也沒有被識別。
在 SRD 和 FRD 中,都在閾值處計算因果效應大小。如果可證明,無論 CD4 計數是多少,ART 治療可降低的病死率是恒定的,此時閾值處計算得到的 ACE 可認為是在整個連續變量 Z 范圍內治療效應的平均值。而此時 RCT 可被認為是一個特殊的 RDD,在這個設計中,隨機數字是連續變量 Z。如果治療效應在連續變量各處是不均勻的,那么 RDD 應該被解釋為在閾值 c 處局部的治療效應。由于對 Z 的測量存在隨機誤差,因此,在連續變量 Z 的單個值中確定的治療效果可被認為是一個更大范圍內(Zi-se,Zi+se)(注:se 為允許誤差)真值的加權平均值。此外,即使在整個 Z 范圍內的預期效應是不同的,它也可近似于在閾值周圍的某個適當范圍內的平均值。可通過評估在 c 處的曲線斜率是否變化來檢測接近閾值的效應異質性。需要小心的是,局部效應可能無法推廣到遠離閾值的人群中。在閾值處,替代局部識別的另一種方法是通過擬合整個 Z 范圍內的條件期望函數來估計一個整體平均因果效應,這需要知道兩組中 Y 與 Z 的函數關系。
3.2 因果效應估計方法
在 RDD 中進行效應估計需要估計公式 (1) 和 (2) 的極限。然而,如果曲線斜率在閾值的任意一端是非零的,那么這些平均值對真實平均值的估計存在偏差。估計局部線性(或立方)回歸模型可很好地解決這個問題。在實際應用時,ACESRD 和 ITTFRD 估計通常是使用在閾值范圍的數據擬合結局與連續變量 Z 的函數,并計算閾值 c 處的預測值差異。一般情況下要符合如下模型:
![]() |
β1為閾值以上直線的斜率,β1+β3為閾值以下直線的斜率,β2為閾值處的差異。交互項
表示治療效果是可異質的。除非效應的函數關系已知,否則有限樣本的效應估計總是存在偏差,但可通過使用更小的范圍來估計模型,并通過評估 z 的高階多項式來提高估計結果的穩健性,從而解決這個問題。
在 RDD 中,對數據進行無偏差的圖形呈現是必要的。斷點回歸必須滿足以下兩個條件:① 數據的密度應該在閾值附近連續。如果患者(或研究者)能夠精確地操縱連續變量 Z,則不能使用斷點回歸估計。② 基線的協變量應該在閾值上保持平衡(即連續)。正如在 RCT 中,基線觀測值的均衡性意味著被分配到治療組和對照組的患者具有可交換性[11]。
通常 RDD 使用兩階段最小二乘法進行因果效應的估計[12]。其優點是可得到 ACE 的無偏差的估計,一般的統計軟件都可實現,但對標準誤差的估計準確性較差。基于似然比的估計方法也可對因果進行無偏差的估計,且對效應誤差的估計也較準確。貝葉斯方法在 RDD 中有較大優勢[13],首先,貝葉斯方法可基于之前 RCT 的結果,設置先驗概率使貝葉斯估計更加準確;其次貝葉斯使用 MCMC 方法使模型結構更加靈活,可提供與前兩種方法一樣的準確性,特別是可設置條件概率和先驗分布進行估計,因此可用于閾值寬度較大的研究。
3.3 非線性模型的 RDD
RDD 最常應用于經濟學領域,經濟學結局指標多為連續性,所以 RDD 通常使用線性回歸模型,很少有二分類、計數、生存模型的 RDD 應用。而二分類、計數、生存模型在臨床研究中更加常用。對于 ACESRD 和 ITTFRD 來說,非線性模型的 RDD 的擴展是非常簡單的。只需要將連續性 RDD 中條件期望值換成經 log 或 logit 轉換的條件期望值即可[14]。在上述案例中,可對病死率進行 logit 轉換,采用 logit(p)與 CD4 計數進行模型擬合,從而進行因果關系推斷。另外,RDD 可應用到其他的不依靠均值的參數,如乘法模型和量化回歸估計的邊際效應等。
3.4 應用案例
如前所述,在 HIV 疾病進展過程中,何時進行抗逆轉錄病毒治療是一個非常有爭議的問題。在開始 ART 治療的時機選擇上,沒有較多的 RCT 證據。幾個較大的隊列研究都存在一定的偏倚,如治療決策的選擇原因及排除了所有未進行 ART 治療患者等。Bor 等[6]使用南非的一個大型隊列研究數據(2007~2011 年),估計了在閾值(CD4 計數在 200/μL)處 ART 治療對患者死亡率的影響。該研究獲取了患者的基本信息、治療信息和隨訪信息,HIV 患者 CD4 計數在 200/μL 以下或者有艾滋病 4 期相關的并發癥即開始 ART 治療。在注冊的 4 391 人中 2 874 人開始 ART 治療,共隨訪 13 139 人/年,以 10 個細胞為寬度分組,分別計算每組的病死率,使用病死率與 CD4 計數的分組擬合模型,分別得到干預組和非干預組病死率與 CD4 細胞計數的關系,進而得到在 200/μL 處的患者死亡率差異。相對于在閾值附近且在 200/μL 以上的病例,在 200/μL 以下的死亡率下降 35%(ITTFRD=0.65),即認為在閾值處 ART 治療可減少 35% 的死亡率。
4 優點和局限性
作為觀察性研究的一種,RDD 有很大的優勢。首先,該方法因果推斷的證據等級較高,有研究者建議將 RDD 與 RCT 并列作為高證據等級的研究設計類型[1]。Lee 等[15]認為在不適合開展 RCT 的情況下,RDD 能夠有效避免各種偏倚,特別是降低甚至消除未知的混雜因素影響,從而反映出變量之間真實的因果關系[3]。其次,RDD 主要關注閾值附近的因果效應差異,這也正是臨床決策的難點。例如 CD4 計數低于 200/μL 時需要使用 ART,高于 600/μL 時不需要使用 ART,但在 200~600/μL 之間時是否需要服藥存在較大的爭議,而 RDD 關注的正是這部分人群的干預效應,能夠給臨床決策提供數據支持。
值得注意的是,RDD 并不是完美的方法:① 相對于傳統 RCT,RDD 的統計效能較低,因為 RDD 只用到鄰近閾值處的數據,要達到與 RCT 相同的統計效能時,RDD 的樣本量需要達到傳統 RCT 的 3~4 倍以上[11]。因此,RDD 更適用于樣本量較大的研究及真實世界研究。② 需要預先評價閾值附近協變量的均衡性和連續性,如果不均衡,可能不適用 RDD。③ 因為是在閾值處進行因果效應估計,故在向閾值遠處進行推廣時,應進行敏感性分析,并慎重進行結論[3]。
我們希望在醫學領域更廣泛地使用 RDD,特別是在越來越多地使用計算機觀測數據和醫保數據的情況下,海量數據可避免局部回歸模型樣本量較小導致的統計效能不足的缺點。同時在使用這一方法時,應注意確保對參數估計是準確的。
1 背景
隨機對照試驗(randomized controlled trial,RCT)是臨床研究因果推斷的最佳研究設計類型,但其實施受到多方面限制。首先,RCT 的時間成本和經濟成本非常高,實施過程比較困難;其次,其外部真實性受到質疑,原因是研究的入選和排除標準比較嚴格,多數 RCT 結果是在理想情況下估計干預措施與結局的因果關系,而非在真實環境中;再者,某些 RCT 方案因不符合倫理原則而不能組織實施。當臨床治療性研究在條件受限時需要調整技術路線,其中采用觀察性研究方案進行因果關系推斷是學術界探討的一個方向。在觀察性研究中,準確因果推斷需要一個假設:沒有混雜因素干擾。違反這條假設會導致因果效應的估計出現偏倚,從而降低了觀察性研究的內部真實性。
斷點回歸設計(regression discontinuity design,RDD)是在約束條件下分析變量之間因果關系的實證方法之一[1, 2],其已在經濟學等領域廣泛應用。近年來 RDD 逐漸應用于醫學領域,如臨床護理、健康行為方式、社會決定因素、環境暴露等,在臨床治療性研究中也出現了成功運用的案例,成為我們學習理解 RDD 的窗口。本文將介紹 RDD 的原理,并舉例其在治療性研究中如何實現因果關系推論。
2 RDD 的定義
當是否實施某種暴露或干預措施是由測量的連續分布變量的閾值決定時,可考慮采用 RDD 來進行因果關系推斷。閾值決定原則在臨床醫學中很常見,如膽固醇、血糖或出生體重等,當患者的測量值高于或低于某個閾值時,就會給予該患者相應的干預措施。而決定是否給予干預措施的連續變量會因測量誤差、抽樣變異性及環境溫度等偶然因素而受到影響。這種測量值的誤差是隨機產生的,這意味著在閾值之上和低于閾值的患者在所有觀察到和未觀察到的基線資料應該是均衡的,這與 RCT 相似[3]。而通過比較這些患者結果,可進行因果關系推斷,即 RDD。RDD 閾值是指南或政策規定的界值,如正常值范圍的上下限,或某項治療的應用指征等。RDD 可分為兩類[4],第一類,臨界值是確定的(sharp),即在臨界值一側的所有觀測點都接受了干預;反之,在臨界值另一側的所有觀測點都沒有接受干預,稱為確定型 RDD(sharp regression discontinuity,SRD)。此時,接受干預的概率從臨界值一側的 0 跳轉到另一側的 1。以艾滋病抗逆轉錄病毒治療為例,如果 CD4 細胞計數低于閾值 200/μL,那么就會對患者實施抗逆轉錄病毒治療,否則不給予治療[5]。第二類,在多數情況下,干預方案不是由連續變量的閾值完全決定的,而是有概率的,即臨界點是模糊的(fussy),即在臨界值附近,接受處置的概率是單調變化的,稱為模糊型 RDD(fussy regression discontinuity,FRD)。如臨床醫生僅在一定程度上根據閾值決定原則對患者進行治療,而這種判斷主要根據醫生自身的臨床判斷,即是 FRD。以艾滋病抗逆轉錄病毒治療為例,如果 CD4 細胞計數低于閾值,或患者出現較重的臨床癥狀,那么他們就會獲得抗逆轉錄病毒治療,這種類型即為 FRD[6]。Hahn 等[7]證明了在一定假設下,無論是哪一種類型的斷點回歸,都可使用臨界值附近的樣本情況來推斷暴露和結局之間的因果關系。
3 RDD 因果效應估計方法的理論及應用
3.1 因果關系推斷的理論基礎
本文簡要介紹如何使用 RDD 進行因果推論的方法。為方便論述,我們假設存在兩種干預方案,當然 RDD 也可推廣到多種干預方案甚至連續暴露變量。我們以一個 RDD 在臨床研究應用中較經典的真實案例[5, 8]來進行說明:對于 HIV 患者來說,患者病情進展到哪一階段開始進行抗逆轉錄病毒治療(anti-retroviral therapy,ART)一直是存在爭議的問題[9, 10]。有研究認為在 CD4 細胞計數在 200 以下時使用 ART,也在研究者認為在 250~350 之間就應該進行治療,甚至有研究認為低于 550 就需要進行治療。雖然有相關的 RCT 研究,但檢驗效能不足,未能解決該問題。在非洲國家的實際醫療常規中,如果 CD4 細胞計數低于 200,或有 AIDS 四期相關的并發疾病,或符合某個國家的標準時,患者將接受 ART。我們將影響干預方案分配的連續變量(如 CD4 細胞計數)記為變量 Z,其閾值(開始治療的臨界值如 200/μL)記為 c;結局(如是否死亡)記為 Y,進行治療記為 1,不進行治療記為 0;治療與未治療的結果記為 Y(1)和 Y(0),治療與未治療的期望結果記為 E(Y(1))和 E(Y(0)),單個患者的參數用 i 表示。
在上述案例中,我們想觀察 ART 是否可降低 HIV 患者的病死率,其最佳研究設計類型為 RCT,但實施難度較大。如果采用觀察性研究,影響患者死亡的因素有很多,如未能識別和處理設計與分析過程中的混雜因素,那么 ART 與死亡的因果效應估計將存在較大偏倚。而一般觀察性研究設計不能識別和處理未知的影響因素,這也是觀察性研究設計所面臨的挑戰。RDD 通過對閾值 200/μL 周圍的數據進行分析,可避免和降低各種未知混雜因素的影響。在閾值 200/μL 附近的一個小范圍內(如 195~205/μL),由于測量誤差的存在,使低于閾值 200/μL 或高于 200/μL 的測量結果是隨機出現的,此時對 CD4 細胞計數在 200/μL 以下的患者進行 ART 治療,那這個范圍內的患者是否進行治療是接近隨機分配的。再進行一個極端的假設,當這個范圍趨于 0 時,即所有患者 CD4 計數約等于 200/μL 時,其治療的分配是獨立于其它因素的,類似于隨機分配的結果,此時進行因果關系推斷就可避免已知和未知混雜因素的影響。
采用 RDD 進行因果推斷有兩個假設條件[4, 5]:① 連續變量 Z 在閾值 c 附近是連續的,即病例的 CD4 計數在 200/μL 處是連續的,呈現均勻分布,如果出現不連續,即分布不均勻,則存在人為操縱 CD4 計數的可能,這會導致治療方案不是隨機分配的,因此不能使用 RDD。② 基線變量與結果 Y 的關系在閾值 c 處是連續的。如果基線資料在 200/μL 處不連續,如年齡不連續,在進行因果推斷時不能區分到底是年齡對死亡有影響還是是治療對死亡有影響,因果推斷無法確定。如滿足這些假設條件,則所有潛在的混雜因素都在閾值附近的一個小范圍內保持均衡,治療組在閾值附近的預期結果可估計,對照組在閾值處的預期結果也可估計,此時兩組在閾值處預期結果的差異與治療存在因果關系。盡管在閾值 c 處的連續性看起來像是一個非常強的假設,但事實上連續變量 Z 存在測量誤差,另外多數情況下無法精確地按是否低于閾值對患者進行干預方案的分配,故上述假設條件在臨床實際工作中較容易滿足。
大多數研究應用斷點回歸估計兩組在閾值附近的預期結果差值,稱為平均因果效應(average causal effect,ACE)[4]。在 SRD 中,患者因為在閾值上(或下)而被分到不同的組。圖 1 顯示了結局的連續條件期望函數。縱軸 Y 為預期病死率,橫軸 Z 為連續變量 CD4 計數。上方曲線為未治療組病死率與 CD4 計數的函數關系,二方曲線為治療組病死率與 CD4 計數的函數關系,實線表示觀察到的數據,虛線表示預測的條件期望函數,而預測的條件期望函數并沒有被實際觀察到。可通過已觀察到的數據,在閾值處求極限來識別兩組閾值處的效應差異(ACE)大小。

![]() |
在 FRD 中,公式 (1) 就是意向性治療(intention to treat,ITT)分析效果,即低于閾值 c 進行干預、高于閾值 c 不進行干預,進行分析。ITTFRD 衡量的是由閾值規則決定的 ITT 的效果。此外,治療本身的依從性會對結果產生重要影響,考慮這種影響時,其結果稱為依從者平均因果效應(complier average causal effect,CACEFRD),即將 ITTFRD 除以閾值處的治療概率差異[4]。
![]() |
(2)
當公式 (2) 的分母等于 1 時,這時就是確定型斷點回歸,此時 ITTFRD=CACEFRD=ACESRD;當分母為 0 時,沒有發現不連續點,因果效應差異也沒有被識別。
在 SRD 和 FRD 中,都在閾值處計算因果效應大小。如果可證明,無論 CD4 計數是多少,ART 治療可降低的病死率是恒定的,此時閾值處計算得到的 ACE 可認為是在整個連續變量 Z 范圍內治療效應的平均值。而此時 RCT 可被認為是一個特殊的 RDD,在這個設計中,隨機數字是連續變量 Z。如果治療效應在連續變量各處是不均勻的,那么 RDD 應該被解釋為在閾值 c 處局部的治療效應。由于對 Z 的測量存在隨機誤差,因此,在連續變量 Z 的單個值中確定的治療效果可被認為是一個更大范圍內(Zi-se,Zi+se)(注:se 為允許誤差)真值的加權平均值。此外,即使在整個 Z 范圍內的預期效應是不同的,它也可近似于在閾值周圍的某個適當范圍內的平均值。可通過評估在 c 處的曲線斜率是否變化來檢測接近閾值的效應異質性。需要小心的是,局部效應可能無法推廣到遠離閾值的人群中。在閾值處,替代局部識別的另一種方法是通過擬合整個 Z 范圍內的條件期望函數來估計一個整體平均因果效應,這需要知道兩組中 Y 與 Z 的函數關系。
3.2 因果效應估計方法
在 RDD 中進行效應估計需要估計公式 (1) 和 (2) 的極限。然而,如果曲線斜率在閾值的任意一端是非零的,那么這些平均值對真實平均值的估計存在偏差。估計局部線性(或立方)回歸模型可很好地解決這個問題。在實際應用時,ACESRD 和 ITTFRD 估計通常是使用在閾值范圍的數據擬合結局與連續變量 Z 的函數,并計算閾值 c 處的預測值差異。一般情況下要符合如下模型:
![]() |
β1為閾值以上直線的斜率,β1+β3為閾值以下直線的斜率,β2為閾值處的差異。交互項
表示治療效果是可異質的。除非效應的函數關系已知,否則有限樣本的效應估計總是存在偏差,但可通過使用更小的范圍來估計模型,并通過評估 z 的高階多項式來提高估計結果的穩健性,從而解決這個問題。
在 RDD 中,對數據進行無偏差的圖形呈現是必要的。斷點回歸必須滿足以下兩個條件:① 數據的密度應該在閾值附近連續。如果患者(或研究者)能夠精確地操縱連續變量 Z,則不能使用斷點回歸估計。② 基線的協變量應該在閾值上保持平衡(即連續)。正如在 RCT 中,基線觀測值的均衡性意味著被分配到治療組和對照組的患者具有可交換性[11]。
通常 RDD 使用兩階段最小二乘法進行因果效應的估計[12]。其優點是可得到 ACE 的無偏差的估計,一般的統計軟件都可實現,但對標準誤差的估計準確性較差。基于似然比的估計方法也可對因果進行無偏差的估計,且對效應誤差的估計也較準確。貝葉斯方法在 RDD 中有較大優勢[13],首先,貝葉斯方法可基于之前 RCT 的結果,設置先驗概率使貝葉斯估計更加準確;其次貝葉斯使用 MCMC 方法使模型結構更加靈活,可提供與前兩種方法一樣的準確性,特別是可設置條件概率和先驗分布進行估計,因此可用于閾值寬度較大的研究。
3.3 非線性模型的 RDD
RDD 最常應用于經濟學領域,經濟學結局指標多為連續性,所以 RDD 通常使用線性回歸模型,很少有二分類、計數、生存模型的 RDD 應用。而二分類、計數、生存模型在臨床研究中更加常用。對于 ACESRD 和 ITTFRD 來說,非線性模型的 RDD 的擴展是非常簡單的。只需要將連續性 RDD 中條件期望值換成經 log 或 logit 轉換的條件期望值即可[14]。在上述案例中,可對病死率進行 logit 轉換,采用 logit(p)與 CD4 計數進行模型擬合,從而進行因果關系推斷。另外,RDD 可應用到其他的不依靠均值的參數,如乘法模型和量化回歸估計的邊際效應等。
3.4 應用案例
如前所述,在 HIV 疾病進展過程中,何時進行抗逆轉錄病毒治療是一個非常有爭議的問題。在開始 ART 治療的時機選擇上,沒有較多的 RCT 證據。幾個較大的隊列研究都存在一定的偏倚,如治療決策的選擇原因及排除了所有未進行 ART 治療患者等。Bor 等[6]使用南非的一個大型隊列研究數據(2007~2011 年),估計了在閾值(CD4 計數在 200/μL)處 ART 治療對患者死亡率的影響。該研究獲取了患者的基本信息、治療信息和隨訪信息,HIV 患者 CD4 計數在 200/μL 以下或者有艾滋病 4 期相關的并發癥即開始 ART 治療。在注冊的 4 391 人中 2 874 人開始 ART 治療,共隨訪 13 139 人/年,以 10 個細胞為寬度分組,分別計算每組的病死率,使用病死率與 CD4 計數的分組擬合模型,分別得到干預組和非干預組病死率與 CD4 細胞計數的關系,進而得到在 200/μL 處的患者死亡率差異。相對于在閾值附近且在 200/μL 以上的病例,在 200/μL 以下的死亡率下降 35%(ITTFRD=0.65),即認為在閾值處 ART 治療可減少 35% 的死亡率。
4 優點和局限性
作為觀察性研究的一種,RDD 有很大的優勢。首先,該方法因果推斷的證據等級較高,有研究者建議將 RDD 與 RCT 并列作為高證據等級的研究設計類型[1]。Lee 等[15]認為在不適合開展 RCT 的情況下,RDD 能夠有效避免各種偏倚,特別是降低甚至消除未知的混雜因素影響,從而反映出變量之間真實的因果關系[3]。其次,RDD 主要關注閾值附近的因果效應差異,這也正是臨床決策的難點。例如 CD4 計數低于 200/μL 時需要使用 ART,高于 600/μL 時不需要使用 ART,但在 200~600/μL 之間時是否需要服藥存在較大的爭議,而 RDD 關注的正是這部分人群的干預效應,能夠給臨床決策提供數據支持。
值得注意的是,RDD 并不是完美的方法:① 相對于傳統 RCT,RDD 的統計效能較低,因為 RDD 只用到鄰近閾值處的數據,要達到與 RCT 相同的統計效能時,RDD 的樣本量需要達到傳統 RCT 的 3~4 倍以上[11]。因此,RDD 更適用于樣本量較大的研究及真實世界研究。② 需要預先評價閾值附近協變量的均衡性和連續性,如果不均衡,可能不適用 RDD。③ 因為是在閾值處進行因果效應估計,故在向閾值遠處進行推廣時,應進行敏感性分析,并慎重進行結論[3]。
我們希望在醫學領域更廣泛地使用 RDD,特別是在越來越多地使用計算機觀測數據和醫保數據的情況下,海量數據可避免局部回歸模型樣本量較小導致的統計效能不足的缺點。同時在使用這一方法時,應注意確保對參數估計是準確的。