因果推斷是醫學研究的主要目標之一,但由于缺乏對因果推斷理論的深入認識,研究者為增強結果的可信性會盲目地采用多種統計方法對同一問題進行分析。這導致在比較和解釋結果時出現較多問題。本文從因果推斷反事實框架的潛在結果、因果效應和分配機制3個基本概念出發,解讀因果推斷中6個主要的效應量,并討論不同情況下各效應量的可比性問題,以期望幫助研究者認識因果推斷的原理,正確解讀和比較研究結果以避免產生誤導性的結論。
引用本文: 徐文濤, 于天琦, 游月媛, 李靜. 因果推斷:不同目標效應量及其可比性問題. 中國循證醫學雜志, 2022, 22(4): 490-496. doi: 10.7507/1672-2531.202111138 復制
因果推斷是醫學研究的主要目標之一。雖然因果推斷的反事實理論強調了隨機化在確保因果效應識別能力方面的重要性[1],但由于時間、成本和倫理的限制及對在真實世界中干預措施效果的推廣性問題,隨機對照試驗(randomized controlled trial,RCT)在某些情況下(如評估慢性疾病的預防措施、罕見不良反應及外科手術干預評價時)是不適用、不充分和不切實際的[2-3]。因此,觀察性研究常用來幫助評估干預效果。然而,在觀察性研究中,治療不是隨機分配的,干預組與對照組通常是不可比的。由于混雜存在,直接比較不同治療組之間的結果可能出現偏倚[4]。迄今為止,有大量的統計方法致力于調整混雜因素,比如用于控制可測量混雜的傳統回歸模型、傾向性評分分析[5]和邊際結構模型[6-7],以及用于控制不可測量混雜的工具變量分析[8]。近年來,醫學研究常同時采用多種統計方法以增強結論的可信性。然而,由于缺乏對因果推斷理論的深入認識,研究者在比較和解釋分析結果時可出現較多問題。本文首先回顧反事實理論框架(counterfactual framework)一些重要概念,從反事實理論框架出發,解讀因果推斷中不同的目標效應量,討論不同情況下目標效應量的可比性問題,希望有助于讀者區分不同統計分析方法對應的目標效應量,正確解讀和比較研究結果。
1 反事實理論框架
反事實理論框架是因果推斷的重要理論,也是所有科學研究的核心方法[9]。它有助于理解因果推斷背后的邏輯,以及加深對各種統計方法的認知。該理論有3個基本概念:潛在結果、因果效應及分配機制。需要強調的是,本部分所有的介紹都需在已滿足穩定的單元干預值假定(stable unit treatment value assumption,SUTVA)[9]成立的條件下進行。這一假設強調任何個體的潛在結果與分配給其他個體的干預無關,以及對于每個個體,每個干預水平都沒有導致不同潛在結果的不同形式(例如,研究藥物A治療某疾病的效果時,選擇注射或口服可能導致不同的效果)。
1.1 潛在結果
首先,用一個簡單的例子說明“潛在結果”的含義。假設我們想要研究布洛芬是否能夠治療發熱,這意味著要去探索布洛芬與發熱之間的因果關系。現在有10例發熱患者,以i表示不同的個體;以Wi=1,Wi=0分別表示服用和不服用布洛芬;Yi=1,Yi=0分別表示發熱緩解和未緩解,患者在服用布洛芬后的結果如表1所示。

雖然表1中所有個體都服用了布洛芬,但在同一時刻,每個個體也可能選擇不服用布洛芬。因此,理論上,同一個體在同一時刻服用和不服用布洛芬分別對應一個潛在結果,表示為和
。這些潛在結果與實際觀察的結果
有本質上的區別。首先,這些潛在結果不受個體實際采取的治療措施
的影響,而觀察的結果
與個體實際采取的治療措施密切相關。比如,此例中
表示某個個體服用布洛芬后的結果,無論個體實際上是否服藥,這一結果都被限定在服用布洛芬的情況下;其次,每個個體對應一個觀察的結果
和兩個潛在結果,但只有與實際采取的干預
相對應的潛在結果才能被觀察到,如表2中只有
能被觀察到。

1.2 因果效應
因果效應是醫學研究領域的核心。而關于因果推論基本定義的共識是有限的[1]。本節我們僅關注反事實或潛在結果理論中因果效應的定義。
同樣是上述布洛芬與發熱的例子,但此時只考慮一個個體。對該個體而言,有兩種治療水平:服用布洛芬(
)和不服用布洛芬(
);如果該個體服用了布洛芬,發熱可能緩解也可能未緩解[
];同樣的,如果該個體未服用布洛芬,發熱可能自行緩解也可能未緩解[
]。因此,對于個體而言,每一個治療水平對應一個潛在的結果。對于這兩個潛在結果的比較是因果效應的關鍵問題。表3闡述了單個個體的潛在結果和因果關系。

需要注意的是,因果效應的定義與個體最終是否服用布洛芬無關。因果效應的本質是對干預后同一個體、同一時間的潛在結果的比較,而不是通過不同時間的結果比較來定義的。比如,在決定服用或不服用布洛芬前后的發熱程度的差異無法說明因果效應。因此,因果效應中最關鍵的問題是:如果一個個體服用了布洛芬,我們無法得知他在同一時間點未服用布洛芬的結果;同樣,如果他未服用布洛芬,我們也無法得知他在同一時間點服用布洛芬的結果。因果效應的定義有助于理解因果關系的本質,但由于無法觀測所有的潛在結果,僅僅通過這一定義,我們在實際研究中無法對因果效應進行估計。
1.3 分配機制
因果效應是通過比較潛在的結果來定義的,與個體實際采取的干預措施無關。但對于每一個個體而言,我們都只能觀察到一個潛在的結果。在這個意義上,因果推斷問題本質上是一個缺失數據的問題[5]:“給定個體的干預選擇,與其他干預選擇相關的潛在結果都缺失了”。那么缺失的數據機制—分配機制,在因果推斷中就顯得至關重要,因為是它決定了個體對干預的選擇,并影響了潛在結果的發生情況。
1.3.1 分配機制的重要性
為闡述分配機制的重要性,以布洛芬治療發熱為例,選用另外10例發熱患者,假設他們的潛在結果已知。從表4給出的數據來看,對于某些個體,布洛芬能夠緩解(個體6)或加重(個體4)發熱;而對于其他個體,布洛芬對發熱無效。我們可通過表4給出的數據計算出服用布洛芬發熱緩解的概率為;不服用布洛芬發熱緩解的概率
。基于這兩個理論值,能計算出與個體因果效應不同的平均干預效應(the average treatment effect,ATE):
。

然而,在實際的估計和推斷中,對于每個個體只可能觀察到或者
,而不可能同時觀察到兩個潛在結果。因此,只能通過比較不同個體的潛在結果來估計因果效應。假設按照某個特定的(未知)分配機制將這10例個體分配到服用布洛芬或不服用布洛芬組。此時我們能夠觀察到的數據如表5所示。通過表5的數據,可計算出服用布洛芬的5例個體發熱緩解的概率為
;未服用布洛芬5例個體發熱得到緩解的概率為
;通過觀察數據得到的ATE為
,這與真實的效應不同。由此可知,如果不考慮分配機制,簡單地比較不同治療下的潛在結果的觀察值無法得出可信的因果推論。

1.3.2 隨機分配
隨機分配是分配機制中的一種,隨機對照試驗被認為是因果推斷最可靠的基礎[10-11]。為模擬隨機分配過程,我們用拋硬幣的方式決定每個個體服用或不服用布洛芬(假設此時所有個體不存在不依從情況),結果如表6所示。由于每個個體是否服用布洛芬都由拋硬幣決定,這個分配過程是隨機的,保證了每個個體被分到服藥與不服藥組的概率都是相同的,兩組人群具有可交換性[12]。進而對于每個個體而言,兩個潛在結果中的哪一個無法被觀測到也是隨機的,即數據缺失是隨機的。由于缺失數據是隨機發生的,使得能被觀察到的潛在結果的人群的期望值等于整個人群的期望值,即,
;因此,
。所以,在RCT中,我們比較不同干預下不同個體的潛在結果的觀察值就能得出可靠的因果效應。

2 因果推斷中不同的目標效應值
依從性良好的RCT能得出可信的因果結論,但由于RCT的可行性問題,實際研究中可能只能使用觀察性研究數據檢驗因果假設。因此在觀察性研究中需要采用各種統計方法來控制混雜因素以保證因果結論的可信性。由于不同的統計分析方法可能估計的是不同的目標效應值,了解因果推斷中目標效應值不同十分重要。如果研究者缺乏對這一概念的認知,就很有可能直接對不同統計方法得出的結果進行比較,從而得出錯誤的結論[13]。比如,我們常常能在研究中看到研究者會采用多種統計分析方法對同一問題進行分析,如果這些方法得出的效應一致,研究者很可能會認為其研究結果是可信的[14]。然而,由于不同的統計分析方法可能對應不同的目標效應值,而不同的目標效應值可能是不相等的,因此,這樣的結論在一些情況下是錯誤的。
2.1 ATE
一般來講,ATE指研究者所關注整個樣本人群的ATE,用公式表示即。大多RCT關注的因果效應都是ATE[10]。而在觀察性研究中,由于缺乏隨機化分配機制,干預組與對照組不具有可交換性。因此,估計ATE時需要借助相應的統計分析方法。目前用于估計ATE常見的統計分析方法有很多,比如傾向性評分分析(除傾向性評分匹配)[5,15]、逆概率加權及其他數據標準化等[7]。這些方法本質上都是基于觀察到的數據構造一個隨機化人群,進而進行有效的因果推斷[16]。這些方法充分利用了每個個體的數據,沒有任何一個個體的數據在分析時被丟棄,這是估計ATE的關鍵。
2.2 干預組的ATE(ATT)和對照組的ATE(ATC)
與ATE不同,ATT關注實際接受治療樣本人群的ATE,即[5]。同樣的,ATC所關注的是實際沒有接受治療人群的干預效應,即
[5]。估計ATT或ATC允許研究者在分析過程中不納入所有個體,也就是說,一些個體可在分析過程中被排除。最常見的估計ATT或ATC的方法是匹配。以干預組為標準,選擇對照組進行匹配,如果干預組樣本量小于對照組,對照組的某些個體會被排除。當然,為更好地控制偏倚,在一些匹配規則下,如卡尺匹配,如果找不到符合要求的對照組個體與干預組的個體匹配,那么這些干預組的個體也會被排除在分析外[17]。匹配完成后,對照組剩余樣本的分布應該與干預組一致而可能與總樣本人群不同,因此,利用此數據估計的效應量應該為ATT。同樣地,以對照組為標準,選擇干預組進行匹配估計的效應量應該為ATC。一般來說,研究關注的重點更傾向于ATT而非ATC[18],如果一個個體不接受干預,那么干預效應對他來說也毫無意義。此時研究分析的核心理念是ATT≠ATE,這與RCT的分析理念不同。在RCT中,ATT=ATC=ATE。
2.3 局部ATE(LATE)或依從者的ATE(CACE)
LATE既不是整個總體的ATE,也不是以觀測值可識別的某一個體的ATE。這一效應還涉及隨機分配條件下個體的依從性問題[19-20]。要闡述清楚這一效應,除了潛在結果,還需引入“潛在干預狀態”這一概念。回到布洛芬治療發熱的例子,此時假設將10例發熱患者隨機分配到干預組和對照組,用表示分配狀態,這10例個體可出現不依從的情況,也就是說他們實際是否接受治療
可與分配狀態
不等。與潛在結果類似,我們用
與
分別表示被分配到干預組和對照組的潛在干預狀態,之所以稱之為潛在干預狀態是因為對于每1例個體,如果被分配到干預組(
),我們就無法觀察到他被分配到對照組時是否接受干預的情況[
];如果他被分配到對照組(
),我們就無法觀察到他被分配到干預組時是否接受干預的情況[
]。10例個體分配和是否接受干預情況如表7所示。

然而,在實際研究中,我們無法觀察到所有潛在干預狀態。當,
(被分配到干預組但未接受干預)或者
,
(被分配到對照組但接受了干預)時,可識別出“違反者”這一人群;但當
,
(被分配到干預組且接受了干預)時,無法區分“依從者”和“總會接受干預者”這兩類人群;當
,
(被分配到對照組且未接受干預)時,無法區分“依從者”和“從不接受干預者”這兩類人群[21]。4類不同依從狀態的人群定義見表8。因此,“依從者”在一個研究中是不可識別的,但我們可通過一些方法,如工具變量分析,去估計“依從者”這一人群中的ATE。當然,這一方法需要在更多的假設條件下實施[9]。

2.4 條件ATE(CATE)
CATE相對于其他3種效應來說有其特殊性。上文中提到的3種效應,雖然針對的人群有差異,但都是人群水平上的平均效應,而CATE是個體水平上的平均效應[22-23]。我們首先從估計這一效應的統計方法來解釋這一點。所有的多變量回歸模型都是用來估計CATE的,當使用多變量回歸時,對系數的解釋是:在保持所有其他變量不變的情況下,結果的估計變化。這能幫助我們理解為什么這種干預效應是有條件的,因為它是在模型中的其他協變量的條件相同下得出的干預效應。相反,假設使用傾向性評分的逆概率加權來估計ATE,此時我們比較的是兩個(加權后)人群的結果,而未考慮每個個體的特征。再從結果的解讀這一角度來看CATE,假設要比較A藥與B藥治療某一疾病的效果,此時選用危險比(hazard ratio,HR)這一效應指標,假設干預效應的估計值是無偏的,如果此時HR值是0.7,那么可以說A藥相對于B藥會降低某個特定的患者30%的危險;如果得出ATE的HR值是0.7,我們可以說,如果給整個人群服用藥物A,那么相對于服用藥物B整個人群的危險將降低30%。CATE與ATE是否相等與研究選用的效應指標有關(見下文)。
2.5 不同干預效應的例子
為更清楚地闡明不同的干預效應,我們虛構一個試驗,選取10例肥胖患者(,
),將他們分為兩組,其中一組患者會被鼓勵進行體育鍛煉(
),而另一組不采取任何干預(
);無論被分配到哪一組,患者都可能進行(
)和不進行(
)鍛煉。例如,對于患者i=1,他被鼓勵進行體育鍛煉(
),此時可觀測到他被鼓勵后進行體育鍛煉的情況
,但無法觀測到如果
時,他進行體育鍛煉的情況
。
,
分別表示患者進行和不進行體育鍛煉后的潛在體重;
表示實際觀察到的體重情況。例如,對于患者i=1,他實際上進行了體育鍛煉,此時可觀測到他進行體育鍛煉后的體重
(
),但無法觀測到他未進行體育鍛煉后的潛在體重
。此例中,假設兩種潛在干預狀態[
和
]和兩種潛在結果[
和
]都是已知的,則10例患者的具體情況如表9所示。

由于本例中所有潛在干預狀態和干預結果已知,我們可求得真實的ATE、ATT、ATC及LATE。
為計算ATE,需要計算10例患者與
之間的平均差值:
![]() |
對于整個樣本人群,進行體育鍛煉使得他們的體重平均下降6.6 kg。
為計算ATT,首先需要將實際上進行了體育鍛煉患者數據提取出來,這里我們設集合A:,計算6例進行了體育鍛煉患者地兩個潛在結果的平均差值:
![]() |
因此,對于實際進行體育鍛煉的6例,體育鍛煉使得他們的體重平均下降8 kg。
同樣地,將實際上為進行體育鍛煉患者數據提取出來計算ATC,設集合B:,計算4例未進行體育鍛煉患者兩個潛在結果的平均差值:
![]() |
對于實際未進行體育鍛煉的4例,體育鍛煉使得他們的體重平均下降4.5 kg。
最后,為計算LATE,需要首先識別“依從者”這類人群,設集合,
,計算4名依從者兩個潛在結果的平均差值:
![]() |
對于4例依從者,體育鍛煉使得他們的體重平均下降6 kg。
可見,此例中ATE≠ATT≠ATC≠LATE。
3 不同目標效應值的可比性
由于不同的統計方法有其各自的缺陷,研究者常常針對同一問題采用多種統計方法以加強結果的可信性或作為敏感性分析。然而,由于這些方法可能估計的是不同的目標效應值,而這些真實值在許多情形下并不相等,導致了不同方法得出的估計值不可比。因此,如果分析人員想要針對同一因果問題采用多種統計學方法以使結果更加可信,首先需要考慮的是這些方法理論估計值的可比性,即這些方法所對應的目標效應真值是否相等。
首先,ATE與CATE是否相等與我們選用的效應指標密切相關。當比值比(odds ratio,OR)或HR被用作效果指標時,由于OR/HR的“不可折疊性(non-collapsibility)”這一性質,ATE和CATE是不同的,通常CATE會大于ATE[23],此時如果采用用于估計這兩種效應的統計方法針對同一問題進行分析,則他們的結果不具有可比性。在某些特定的情況下,如結局變量是干預和協變量的線性函數或真正的條件干預效果為零時,ATE與CATE才相等[13]。當風險差(risk difference,RD)或風險比(risk ratio,RR)作為效果指標時,ATE與CATE相等[24]。此時在方法使用恰當且相關假設滿足的條件下,用于估計兩種效應的統計方法得出的結果一致能加強結果的可信性。
其次,ATT、ATC和LATE與ATE是否相等與選用的效應指標無關。此時更需要關注的是不同人群的分布問題。要判斷ATT是否與ATE相等,需要考慮干預組人群的分布是否與總人群一致。我們可將干預組人群與總人群的基線狀況進行比較,若兩者分布比較一致,可認為ATT與ATE相等;若某些變量在兩個人群分布有明顯差別,且這些因素又很可能是效應修飾因素時,ATT很可能不等于ATE。類似地,如果實際未接受干預組的人群分布與總人群分布不同,那么ATC不等于ATE。但對于LATE而言,由于“依從者”這一人群是不可識別的,因此,我們無法比較“依從者”人群的分布與總體的分布,只能依據經驗從理論上討論干預的異質性問題。當研究樣本內的干預效果是同質的,或干預效果存在異質性但干預決策與干預效果的異質性無關時(例如在不同的患者中干預效果確實存在潛在的異質性,但這種異質性不可知),LATE等于ATE;當干預效果是異質性的,干預決策又與這種異質性有關時(例如,當有臨床證據表明某些亞群的患者更容易從某種特定的干預中受益,醫生將更可能受益的患者分到干預組),LATE與ATE不等[25-26]。
綜上所述,本文從反事實理論框架出發介紹了因果推斷中常見的幾種目標效應值及他們的可比性問題。希望研究人員明確,盲目使用多種統計分析方法對同一問題進行分析,可能無法增強結果的可行性,反而產生誤導性的結論。研究者在采用多種統計方法之前,應首先了解不同方法所對應的的目標效應值,明確希望關注的效果指標,并在此基礎上討論每種方法的結果是否具有可比性,并在研究中闡明其分析結果所對應的目標效應值。
利益聲明 所有作者均聲明不存在利益沖突。
因果推斷是醫學研究的主要目標之一。雖然因果推斷的反事實理論強調了隨機化在確保因果效應識別能力方面的重要性[1],但由于時間、成本和倫理的限制及對在真實世界中干預措施效果的推廣性問題,隨機對照試驗(randomized controlled trial,RCT)在某些情況下(如評估慢性疾病的預防措施、罕見不良反應及外科手術干預評價時)是不適用、不充分和不切實際的[2-3]。因此,觀察性研究常用來幫助評估干預效果。然而,在觀察性研究中,治療不是隨機分配的,干預組與對照組通常是不可比的。由于混雜存在,直接比較不同治療組之間的結果可能出現偏倚[4]。迄今為止,有大量的統計方法致力于調整混雜因素,比如用于控制可測量混雜的傳統回歸模型、傾向性評分分析[5]和邊際結構模型[6-7],以及用于控制不可測量混雜的工具變量分析[8]。近年來,醫學研究常同時采用多種統計方法以增強結論的可信性。然而,由于缺乏對因果推斷理論的深入認識,研究者在比較和解釋分析結果時可出現較多問題。本文首先回顧反事實理論框架(counterfactual framework)一些重要概念,從反事實理論框架出發,解讀因果推斷中不同的目標效應量,討論不同情況下目標效應量的可比性問題,希望有助于讀者區分不同統計分析方法對應的目標效應量,正確解讀和比較研究結果。
1 反事實理論框架
反事實理論框架是因果推斷的重要理論,也是所有科學研究的核心方法[9]。它有助于理解因果推斷背后的邏輯,以及加深對各種統計方法的認知。該理論有3個基本概念:潛在結果、因果效應及分配機制。需要強調的是,本部分所有的介紹都需在已滿足穩定的單元干預值假定(stable unit treatment value assumption,SUTVA)[9]成立的條件下進行。這一假設強調任何個體的潛在結果與分配給其他個體的干預無關,以及對于每個個體,每個干預水平都沒有導致不同潛在結果的不同形式(例如,研究藥物A治療某疾病的效果時,選擇注射或口服可能導致不同的效果)。
1.1 潛在結果
首先,用一個簡單的例子說明“潛在結果”的含義。假設我們想要研究布洛芬是否能夠治療發熱,這意味著要去探索布洛芬與發熱之間的因果關系。現在有10例發熱患者,以i表示不同的個體;以Wi=1,Wi=0分別表示服用和不服用布洛芬;Yi=1,Yi=0分別表示發熱緩解和未緩解,患者在服用布洛芬后的結果如表1所示。

雖然表1中所有個體都服用了布洛芬,但在同一時刻,每個個體也可能選擇不服用布洛芬。因此,理論上,同一個體在同一時刻服用和不服用布洛芬分別對應一個潛在結果,表示為和
。這些潛在結果與實際觀察的結果
有本質上的區別。首先,這些潛在結果不受個體實際采取的治療措施
的影響,而觀察的結果
與個體實際采取的治療措施密切相關。比如,此例中
表示某個個體服用布洛芬后的結果,無論個體實際上是否服藥,這一結果都被限定在服用布洛芬的情況下;其次,每個個體對應一個觀察的結果
和兩個潛在結果,但只有與實際采取的干預
相對應的潛在結果才能被觀察到,如表2中只有
能被觀察到。

1.2 因果效應
因果效應是醫學研究領域的核心。而關于因果推論基本定義的共識是有限的[1]。本節我們僅關注反事實或潛在結果理論中因果效應的定義。
同樣是上述布洛芬與發熱的例子,但此時只考慮一個個體。對該個體而言,有兩種治療水平:服用布洛芬(
)和不服用布洛芬(
);如果該個體服用了布洛芬,發熱可能緩解也可能未緩解[
];同樣的,如果該個體未服用布洛芬,發熱可能自行緩解也可能未緩解[
]。因此,對于個體而言,每一個治療水平對應一個潛在的結果。對于這兩個潛在結果的比較是因果效應的關鍵問題。表3闡述了單個個體的潛在結果和因果關系。

需要注意的是,因果效應的定義與個體最終是否服用布洛芬無關。因果效應的本質是對干預后同一個體、同一時間的潛在結果的比較,而不是通過不同時間的結果比較來定義的。比如,在決定服用或不服用布洛芬前后的發熱程度的差異無法說明因果效應。因此,因果效應中最關鍵的問題是:如果一個個體服用了布洛芬,我們無法得知他在同一時間點未服用布洛芬的結果;同樣,如果他未服用布洛芬,我們也無法得知他在同一時間點服用布洛芬的結果。因果效應的定義有助于理解因果關系的本質,但由于無法觀測所有的潛在結果,僅僅通過這一定義,我們在實際研究中無法對因果效應進行估計。
1.3 分配機制
因果效應是通過比較潛在的結果來定義的,與個體實際采取的干預措施無關。但對于每一個個體而言,我們都只能觀察到一個潛在的結果。在這個意義上,因果推斷問題本質上是一個缺失數據的問題[5]:“給定個體的干預選擇,與其他干預選擇相關的潛在結果都缺失了”。那么缺失的數據機制—分配機制,在因果推斷中就顯得至關重要,因為是它決定了個體對干預的選擇,并影響了潛在結果的發生情況。
1.3.1 分配機制的重要性
為闡述分配機制的重要性,以布洛芬治療發熱為例,選用另外10例發熱患者,假設他們的潛在結果已知。從表4給出的數據來看,對于某些個體,布洛芬能夠緩解(個體6)或加重(個體4)發熱;而對于其他個體,布洛芬對發熱無效。我們可通過表4給出的數據計算出服用布洛芬發熱緩解的概率為;不服用布洛芬發熱緩解的概率
。基于這兩個理論值,能計算出與個體因果效應不同的平均干預效應(the average treatment effect,ATE):
。

然而,在實際的估計和推斷中,對于每個個體只可能觀察到或者
,而不可能同時觀察到兩個潛在結果。因此,只能通過比較不同個體的潛在結果來估計因果效應。假設按照某個特定的(未知)分配機制將這10例個體分配到服用布洛芬或不服用布洛芬組。此時我們能夠觀察到的數據如表5所示。通過表5的數據,可計算出服用布洛芬的5例個體發熱緩解的概率為
;未服用布洛芬5例個體發熱得到緩解的概率為
;通過觀察數據得到的ATE為
,這與真實的效應不同。由此可知,如果不考慮分配機制,簡單地比較不同治療下的潛在結果的觀察值無法得出可信的因果推論。

1.3.2 隨機分配
隨機分配是分配機制中的一種,隨機對照試驗被認為是因果推斷最可靠的基礎[10-11]。為模擬隨機分配過程,我們用拋硬幣的方式決定每個個體服用或不服用布洛芬(假設此時所有個體不存在不依從情況),結果如表6所示。由于每個個體是否服用布洛芬都由拋硬幣決定,這個分配過程是隨機的,保證了每個個體被分到服藥與不服藥組的概率都是相同的,兩組人群具有可交換性[12]。進而對于每個個體而言,兩個潛在結果中的哪一個無法被觀測到也是隨機的,即數據缺失是隨機的。由于缺失數據是隨機發生的,使得能被觀察到的潛在結果的人群的期望值等于整個人群的期望值,即,
;因此,
。所以,在RCT中,我們比較不同干預下不同個體的潛在結果的觀察值就能得出可靠的因果效應。

2 因果推斷中不同的目標效應值
依從性良好的RCT能得出可信的因果結論,但由于RCT的可行性問題,實際研究中可能只能使用觀察性研究數據檢驗因果假設。因此在觀察性研究中需要采用各種統計方法來控制混雜因素以保證因果結論的可信性。由于不同的統計分析方法可能估計的是不同的目標效應值,了解因果推斷中目標效應值不同十分重要。如果研究者缺乏對這一概念的認知,就很有可能直接對不同統計方法得出的結果進行比較,從而得出錯誤的結論[13]。比如,我們常常能在研究中看到研究者會采用多種統計分析方法對同一問題進行分析,如果這些方法得出的效應一致,研究者很可能會認為其研究結果是可信的[14]。然而,由于不同的統計分析方法可能對應不同的目標效應值,而不同的目標效應值可能是不相等的,因此,這樣的結論在一些情況下是錯誤的。
2.1 ATE
一般來講,ATE指研究者所關注整個樣本人群的ATE,用公式表示即。大多RCT關注的因果效應都是ATE[10]。而在觀察性研究中,由于缺乏隨機化分配機制,干預組與對照組不具有可交換性。因此,估計ATE時需要借助相應的統計分析方法。目前用于估計ATE常見的統計分析方法有很多,比如傾向性評分分析(除傾向性評分匹配)[5,15]、逆概率加權及其他數據標準化等[7]。這些方法本質上都是基于觀察到的數據構造一個隨機化人群,進而進行有效的因果推斷[16]。這些方法充分利用了每個個體的數據,沒有任何一個個體的數據在分析時被丟棄,這是估計ATE的關鍵。
2.2 干預組的ATE(ATT)和對照組的ATE(ATC)
與ATE不同,ATT關注實際接受治療樣本人群的ATE,即[5]。同樣的,ATC所關注的是實際沒有接受治療人群的干預效應,即
[5]。估計ATT或ATC允許研究者在分析過程中不納入所有個體,也就是說,一些個體可在分析過程中被排除。最常見的估計ATT或ATC的方法是匹配。以干預組為標準,選擇對照組進行匹配,如果干預組樣本量小于對照組,對照組的某些個體會被排除。當然,為更好地控制偏倚,在一些匹配規則下,如卡尺匹配,如果找不到符合要求的對照組個體與干預組的個體匹配,那么這些干預組的個體也會被排除在分析外[17]。匹配完成后,對照組剩余樣本的分布應該與干預組一致而可能與總樣本人群不同,因此,利用此數據估計的效應量應該為ATT。同樣地,以對照組為標準,選擇干預組進行匹配估計的效應量應該為ATC。一般來說,研究關注的重點更傾向于ATT而非ATC[18],如果一個個體不接受干預,那么干預效應對他來說也毫無意義。此時研究分析的核心理念是ATT≠ATE,這與RCT的分析理念不同。在RCT中,ATT=ATC=ATE。
2.3 局部ATE(LATE)或依從者的ATE(CACE)
LATE既不是整個總體的ATE,也不是以觀測值可識別的某一個體的ATE。這一效應還涉及隨機分配條件下個體的依從性問題[19-20]。要闡述清楚這一效應,除了潛在結果,還需引入“潛在干預狀態”這一概念。回到布洛芬治療發熱的例子,此時假設將10例發熱患者隨機分配到干預組和對照組,用表示分配狀態,這10例個體可出現不依從的情況,也就是說他們實際是否接受治療
可與分配狀態
不等。與潛在結果類似,我們用
與
分別表示被分配到干預組和對照組的潛在干預狀態,之所以稱之為潛在干預狀態是因為對于每1例個體,如果被分配到干預組(
),我們就無法觀察到他被分配到對照組時是否接受干預的情況[
];如果他被分配到對照組(
),我們就無法觀察到他被分配到干預組時是否接受干預的情況[
]。10例個體分配和是否接受干預情況如表7所示。

然而,在實際研究中,我們無法觀察到所有潛在干預狀態。當,
(被分配到干預組但未接受干預)或者
,
(被分配到對照組但接受了干預)時,可識別出“違反者”這一人群;但當
,
(被分配到干預組且接受了干預)時,無法區分“依從者”和“總會接受干預者”這兩類人群;當
,
(被分配到對照組且未接受干預)時,無法區分“依從者”和“從不接受干預者”這兩類人群[21]。4類不同依從狀態的人群定義見表8。因此,“依從者”在一個研究中是不可識別的,但我們可通過一些方法,如工具變量分析,去估計“依從者”這一人群中的ATE。當然,這一方法需要在更多的假設條件下實施[9]。

2.4 條件ATE(CATE)
CATE相對于其他3種效應來說有其特殊性。上文中提到的3種效應,雖然針對的人群有差異,但都是人群水平上的平均效應,而CATE是個體水平上的平均效應[22-23]。我們首先從估計這一效應的統計方法來解釋這一點。所有的多變量回歸模型都是用來估計CATE的,當使用多變量回歸時,對系數的解釋是:在保持所有其他變量不變的情況下,結果的估計變化。這能幫助我們理解為什么這種干預效應是有條件的,因為它是在模型中的其他協變量的條件相同下得出的干預效應。相反,假設使用傾向性評分的逆概率加權來估計ATE,此時我們比較的是兩個(加權后)人群的結果,而未考慮每個個體的特征。再從結果的解讀這一角度來看CATE,假設要比較A藥與B藥治療某一疾病的效果,此時選用危險比(hazard ratio,HR)這一效應指標,假設干預效應的估計值是無偏的,如果此時HR值是0.7,那么可以說A藥相對于B藥會降低某個特定的患者30%的危險;如果得出ATE的HR值是0.7,我們可以說,如果給整個人群服用藥物A,那么相對于服用藥物B整個人群的危險將降低30%。CATE與ATE是否相等與研究選用的效應指標有關(見下文)。
2.5 不同干預效應的例子
為更清楚地闡明不同的干預效應,我們虛構一個試驗,選取10例肥胖患者(,
),將他們分為兩組,其中一組患者會被鼓勵進行體育鍛煉(
),而另一組不采取任何干預(
);無論被分配到哪一組,患者都可能進行(
)和不進行(
)鍛煉。例如,對于患者i=1,他被鼓勵進行體育鍛煉(
),此時可觀測到他被鼓勵后進行體育鍛煉的情況
,但無法觀測到如果
時,他進行體育鍛煉的情況
。
,
分別表示患者進行和不進行體育鍛煉后的潛在體重;
表示實際觀察到的體重情況。例如,對于患者i=1,他實際上進行了體育鍛煉,此時可觀測到他進行體育鍛煉后的體重
(
),但無法觀測到他未進行體育鍛煉后的潛在體重
。此例中,假設兩種潛在干預狀態[
和
]和兩種潛在結果[
和
]都是已知的,則10例患者的具體情況如表9所示。

由于本例中所有潛在干預狀態和干預結果已知,我們可求得真實的ATE、ATT、ATC及LATE。
為計算ATE,需要計算10例患者與
之間的平均差值:
![]() |
對于整個樣本人群,進行體育鍛煉使得他們的體重平均下降6.6 kg。
為計算ATT,首先需要將實際上進行了體育鍛煉患者數據提取出來,這里我們設集合A:,計算6例進行了體育鍛煉患者地兩個潛在結果的平均差值:
![]() |
因此,對于實際進行體育鍛煉的6例,體育鍛煉使得他們的體重平均下降8 kg。
同樣地,將實際上為進行體育鍛煉患者數據提取出來計算ATC,設集合B:,計算4例未進行體育鍛煉患者兩個潛在結果的平均差值:
![]() |
對于實際未進行體育鍛煉的4例,體育鍛煉使得他們的體重平均下降4.5 kg。
最后,為計算LATE,需要首先識別“依從者”這類人群,設集合,
,計算4名依從者兩個潛在結果的平均差值:
![]() |
對于4例依從者,體育鍛煉使得他們的體重平均下降6 kg。
可見,此例中ATE≠ATT≠ATC≠LATE。
3 不同目標效應值的可比性
由于不同的統計方法有其各自的缺陷,研究者常常針對同一問題采用多種統計方法以加強結果的可信性或作為敏感性分析。然而,由于這些方法可能估計的是不同的目標效應值,而這些真實值在許多情形下并不相等,導致了不同方法得出的估計值不可比。因此,如果分析人員想要針對同一因果問題采用多種統計學方法以使結果更加可信,首先需要考慮的是這些方法理論估計值的可比性,即這些方法所對應的目標效應真值是否相等。
首先,ATE與CATE是否相等與我們選用的效應指標密切相關。當比值比(odds ratio,OR)或HR被用作效果指標時,由于OR/HR的“不可折疊性(non-collapsibility)”這一性質,ATE和CATE是不同的,通常CATE會大于ATE[23],此時如果采用用于估計這兩種效應的統計方法針對同一問題進行分析,則他們的結果不具有可比性。在某些特定的情況下,如結局變量是干預和協變量的線性函數或真正的條件干預效果為零時,ATE與CATE才相等[13]。當風險差(risk difference,RD)或風險比(risk ratio,RR)作為效果指標時,ATE與CATE相等[24]。此時在方法使用恰當且相關假設滿足的條件下,用于估計兩種效應的統計方法得出的結果一致能加強結果的可信性。
其次,ATT、ATC和LATE與ATE是否相等與選用的效應指標無關。此時更需要關注的是不同人群的分布問題。要判斷ATT是否與ATE相等,需要考慮干預組人群的分布是否與總人群一致。我們可將干預組人群與總人群的基線狀況進行比較,若兩者分布比較一致,可認為ATT與ATE相等;若某些變量在兩個人群分布有明顯差別,且這些因素又很可能是效應修飾因素時,ATT很可能不等于ATE。類似地,如果實際未接受干預組的人群分布與總人群分布不同,那么ATC不等于ATE。但對于LATE而言,由于“依從者”這一人群是不可識別的,因此,我們無法比較“依從者”人群的分布與總體的分布,只能依據經驗從理論上討論干預的異質性問題。當研究樣本內的干預效果是同質的,或干預效果存在異質性但干預決策與干預效果的異質性無關時(例如在不同的患者中干預效果確實存在潛在的異質性,但這種異質性不可知),LATE等于ATE;當干預效果是異質性的,干預決策又與這種異質性有關時(例如,當有臨床證據表明某些亞群的患者更容易從某種特定的干預中受益,醫生將更可能受益的患者分到干預組),LATE與ATE不等[25-26]。
綜上所述,本文從反事實理論框架出發介紹了因果推斷中常見的幾種目標效應值及他們的可比性問題。希望研究人員明確,盲目使用多種統計分析方法對同一問題進行分析,可能無法增強結果的可行性,反而產生誤導性的結論。研究者在采用多種統計方法之前,應首先了解不同方法所對應的的目標效應值,明確希望關注的效果指標,并在此基礎上討論每種方法的結果是否具有可比性,并在研究中闡明其分析結果所對應的目標效應值。
利益聲明 所有作者均聲明不存在利益沖突。