在真實世界數據研究中,實效性隨機對照試驗可提供最佳證據。盡管隨機化原則可使其免受混雜因素的影響,但是由于依從性問題,其仍然需要面對隨機后混雜偏倚。傳統意向性治療分析原則在此情況下會逐漸偏離試驗原本所關注的療效并使最終臨床決策出現偏差,而傳統代替方法也受到混雜偏倚的影響。因此,需要新方法來解決依從性問題,目前有工具變量估計法和現代符合方案集分析法 2 種。本文介紹了傳統方法在實效性隨機對照試驗中的缺陷,論述了上述兩種新方法,并指出其優勢和劣勢,以期為研究者今后開展實效性隨機對照試驗選擇合理統計分析方法提供思路。
引用本文: 石清陽, 李玲, 李舍予, 孫鑫. 實效性隨機對照試驗中的統計方法(Ⅰ):解決依從性問題. 中國循證醫學雜志, 2021, 21(1): 117-124. doi: 10.7507/1672-2531.202010019 復制
隨著真實世界數據研究的不斷推進,其逐漸成為醫療實踐非常重要的組成部分并且為臨床決策提供重要的循證證據[1, 2]。其中實效性隨機對照試驗(pragmatic randomized controlled trials,pRCT)作為一種重要的真實世界研究設計類型,其同時具有隨機化和外推性優勢,因此可得到最佳真實世界證據[3]。盡管 pRCT 中的隨機化原則可消除因基線不平衡所導致的混雜或納入患者時帶來的選擇偏倚,但由于其研究人群異質性較大、不進行施盲、隨訪時間較長等特點[4, 5],pRCT 相比于傳統隨機對照試驗(randomized controlled trials,RCT)更容易受到隨機后混雜偏倚(post-randomization confounding)的影響[6]。其中一個非常重要的原因就是依從性問題,通常解決此問題的方法是使用意向性治療(intention-to-treat,ITT)分析作為研究主要甚至唯一的統計方法,然而隨著依從性逐漸降低,ITT 分析存在著非常嚴重的缺陷,其作為 pRCT 中推薦的統計方法可能導致最終結果出現偏差,從而影響臨床決策。因此,本研究首先回顧 ITT 分析的適用條件和存在的問題,進一步指出其傳統代替方法的缺陷,最后指出 pRCT 中更具有優勢的統計方法,以期解決依從性問題。
1 意向性治療分析的使用條件及存在問題
1.1 ITT 分析和 ITT 效應
ITT 分析,或稱為“as randomized”分析,定義為干預分配的比較效應[7]。假設在理想的隨機對照試驗中(無失訪、完美測量),研究的隨機分配變量為 Z,而由于依從性問題,兩組患者實際接受干預變量為 A。當依從性良好時,分配變量 Z 等于接受干預變量 A,當依從性變低時,部分分配至 Z=0 的患者轉而接受 A=1,或相反。ITT 是計算分配干預 Z 對結果 Y 的平均因果效應,其表示為:ITT 效應=。
這個結果并不考慮實際干預的接受情況,僅關注干預隨機分配的效應。因為干預分配 Z 是隨機化的結果,其滿足因果推斷的識別條件,所以 ITT 分析可表示為:。即,分配至干預組和對照組的患者結局間比較。如因果圖 1 所示,分配干預 Z 對結果 Y 有兩條因果路徑。

第一條是分配干預 Z 通過實際接受干預 A 來對結果 Y 產生影響,此時接受干預 A 屬于分配干預 Z 和結果 Y 之間的中介變量(mediator),表示為 Z-A-Y。第二條是分配干預 Z 直接作用于結果 Y,不通過干預 A,表示為 Z-Y。
因此,如上述,只有當第二條路徑不存在時,分配干預 Z 的比較結果 Z-A-Y 才可能表示為實際接受干預 A 的比較結果 A-Y(當 Z=A 時,即依從性 100%)。這個額外的假設又被稱為“排除限制”(exclusion restriction)[8],解決它的方法通常是采用雙盲安慰劑對照設計原則。
當滿足排除限制后,ITT 分析最大的特點在于其可對 ITT 效應進行無偏估計,即分配 Z 對結果 Y 的因果效應。然而,隨著依從性降低,ITT 效應與實際接受干預 A 的效應的偏差逐漸變大,其可能不再是我們所關注的核心效應,為合理解決此問題,首先引入干預 A 的效應,即符合方案集效應(per-protocol effect,PP effect)。
1.2 PP 效應
PP 效應通常定義為反事實效應(counterfactual effect),即假如全部患者依從于干預方案時的因果效應[9],表示為:
![]() |
當實際情況中所有患者均依從于干預方案時,干預 A 滿足因果推斷識別條件,則陽性藥組(A=1)與陰性藥組(A=0)的結果比較即是干預 A 的因果效應,表示為:
![]() |
然而,當依從性降低時,上述公式不再成立,則兩組結果之差不等于干預 A 的因果效應(即 PP 效應),此時干預 A 與結果 Y 之間存在已知或未知混雜因素。而相比之下,分配干預 Z 的組間比較依然是 ITT 效應的無偏估計,無論依從性是否良好。因為分配干預 Z 保留了隨機化的特性,滿足因果推斷識別條件。
綜上,當依從性 100% 時,干預 A 與分配干預 Z 完全一致,此時 ITT 效應等于 PP 效應。而當依從性下降時,干預 A 與分配干預 Z 不再一致,僅呈正相關性,此時 ITT 效應不等于 PP 效應。
事實上,雖然 ITT 效應并不總是等于 PP 效應,但當依從性下降時,ITT 分析(即分配干預 Z 兩組間結果比較)依然可無偏估計 ITT 效應,而干預 A 兩組間結果比較并不等于 PP 效應(存在混雜因素),這個比較又被稱為“as-treated”分析[10]。
如上所述,ITT 分析最大的優勢在于保留隨機化,因此估計出的 ITT 效應不被混雜因素影響。盡管 ITT 效應并不是我們所想要的 PP 效應,但其通常存在以下特點[10, 11]:① ITT 效應具有效應保留(null preservation)的特點,即當 PP 效應不存在時,ITT 效應必然也不存在。從因果圖 1 可看出,當滿足“排除限制”時,或在雙盲試驗中,Z-Y 間的直接路徑消除,僅剩下 Z-A-Y 路徑,則當 A-Y 效應消失時,Z 對 Y 的因果效應消失。② ITT 效應通常是 PP 效應的保守估計,即效應趨于零(effect towards the null)。ITT 效應可保證結果在零效應和 PP 效應之間,也就是說隨著依從性下降,ITT 效應逐漸從與 PP 效應相等向零效應接近,即“稀釋”了真實效應。因此,ITT 效應可作為 PP 效應的下限。
1.3 ITT 分析的缺陷
上述兩個 ITT 效應的特點非常有優勢,同時也是隨機雙盲試驗中推薦使用的主要原因。當依從性下降,但仍然保持在較高水平時(例如 80%~90% 或以上),ITT 分析是非常好的統計方法。然而,當依從性處于較低水平(例如 60%~80% 或以下),或當試驗不再保持雙盲,或當試驗為陽性藥對照等情況時,ITT 分析可能存在非常嚴重的缺陷[6, 9, 10, 12],而這正是 pRCT 中需要面對的問題。
首先,因為要盡可能接近真實醫療環境中的用藥情況,pRCT 中通常不會采取雙盲措施,此時 ITT 分析中的“排除限制”不再滿足,則 ITT 效應中零效應保留的特點失效,即盡管 PP 效應不存在,ITT 效應依然可能存在。
其次,為保證 ITT 效應是 PP 效應的保守估計,需要滿足效應單調性假設(monotonicity of effects),即效應 ,也就是治療不會使情況變得更差。這個假設相對較弱,一般可認為其滿足。然而,即使這個條件滿足,ITT 效應的保守估計特點依然可能會在以下幾種情況中失效[10, 12, 13]:① 陽性藥對照;② 安全性比較;③ 非劣效試驗。此三種情況在 pRCT 中是非常常見的,如果這種情況下依然使用 ITT 分析,可能會得到錯誤甚至完全相反的結論,影響臨床決策。
除此之外,ITT 效應在實際應用中并不好直接解釋。作為患者,最關注的應該是如果我接受(依從于)治療,那么預期結果(平均效應)應該如何,這個平均效應絕對不應該包含那些不依從于試驗個體的效應。所以,有一種說法將 ITT 效應稱作效果(effectiveness)而將 PP 效應稱作效力(efficacy),這是錯誤的[10, 14]。事實上,效果與效力應當從數據獲取的途徑來區分,從傳統 RCT 中獲得的數據通常納入排除標準較嚴格,研究人群同質性較高,所以效應更加“純凈”,此時稱為效力。而從真實世界中獲得的數據,效應更貼近真實情況,所以稱為效果。也就是說,在 pRCT 中,無論 ITT 效應或 PP 效應均應被稱為效果。
綜上,由于 pRCT 的特點,使其有別于傳統 RCT,因此,ITT 分析作為首選統計方法并不完全適用。在引入新方法前,首先回顧傳統代替 ITT 分析的兩種方法:樸素 PP 分析(naive PP analysis)和 AT 分析(As-treated analysis)。
2 ITT 分析的傳統代替方法:樸素 PP 分析和 AT 分析
如前所述,ITT 分析在 pRCT 的很多情形下是失效的,作為補充,通常會選擇另外兩種傳統的分析方法:樸素 PP 分析和 AT 分析。然而,如 ITT 分析一樣,當依從性降低時,這兩種分析也存在嚴重缺陷[10, 15]。
2.1 AT 分析
AT 分析,即實際接受干預分析,指的是僅考慮實際接受陽性藥(A=1)與實際接受陰性藥(A=0)的兩組結果之間的比較,表示為:
![]() |
這個比較不考慮干預分配 Z,無論原來隨機分配的干預是否與實際一致,均按實際情況來計算,當依從性 100% 時,AT 分析的結果等于 PP 效應和 ITT 效應。
該計算的問題在于其將隨機試驗轉變為觀察性研究,因為實際接受陽性藥的患者和實際接受陰性藥的患者必然受到某些自身預后相關因素的影響,使得兩組間出現混雜偏倚。例如,病情較重的患者更有可能選擇自己認為治療效果更好的方案(如陽性藥),無論其是否被隨機分配至陽性藥組,因此實際接受陽性藥(A=1)組的患者總體病情更重,就算不進行治療也天然比實際接受陰性藥組的患者預后更差。如因果圖 2 所示,U 代表病人的病情輕重(為不可測變量),L 代表病情輕重所引起的具體生物標記物的變化(為可測變量),干預 A 和結果 Y 之間存在額外的后門路徑,即 A-L-U-Y。

2.2 樸素 PP 分析
樸素 PP 分析,也被稱為“on-treatment”分析,指的是僅納入實際干預情況與初始隨機分配相同的患者數據進行分析,即納入 A=Z 的患者進行分析,這個納入的人群被稱為 PP 人群(per-protocol population)。事實上,樸素 PP 分析就是將分析人群限制在 PP 人群中進行 ITT 分析,表示為:
![]() |
樸素 PP 分析的問題在于限制分析人群時,如果恰好人群的選擇與某些風險因素相關聯,則產生相應的選擇偏倚[16]。如因果圖 3 所示,U、L 依然分別代表不可測病情情況和可測生物標記物,S 代表是否被選入 PP 人群(S=1 為選入)。當分析限制在 PP 人群時,即控制變量 S,則產生額外的后門路徑 Z-S-A-L-U-Y。

綜上,傳統代替 ITT 分析的兩種方法,如果在不額外控制協變量的情況下進行分析,會產生相應的混雜和選擇偏倚。
3 解決依從性問題的新方法
3.1 工具變量估計法
工具變量(instrumental variable,IV)估計是一種與常規方法迥異的估計法[8, 17, 18]。通常情況下,所有的常規方法均依賴一個不可驗證假設,即無不可測混雜因素(no unmeasured confounder),當存在部分不可測混雜因素時,我們稱其存在殘余偏倚(residual bias)。而 IV 估計法則不同,在不依賴這個假設的情況下也可無偏估計因果效應,因此在某些情形下,具有自己獨特的優勢。但是,IV 估計法依然需要依賴另外的一些假設,其中部分假設同樣是不可驗證的,使用時需要額外注意。下面回顧 IV 估計法,并指出其在 pRCT 中使用的優勢與劣勢。
3.1.1 工具變量條件
IV 估計法首先需要找一個工具變量作為基礎,其中工具變量需要同時滿足三個條件。如因果圖 4 所示,假設 Z 為工具變量,A 為干預,Y 為結果,U 為 A-Y 之間不可測混雜因素。則工具變量條件可表示為:① Z 與 A 相關;② Z 僅通過 A 影響 Y,即 Z 與 Y 之間無直接效應;③ Z 與 Y 之間不存在混雜因素。

在雙盲 RCT 中,隨機分配 Z 為理想的工具變量,首先隨機分配 Z 與實際干預 A 之間呈高度正相關性,其次因為雙盲的實施所以 Z 與 Y 之間無直接效應(即無安慰劑效應),最后因為 Z 的隨機化特點,其與 Y 之間不存在混雜因素。然而,在 pRCT 中,因為通常無盲法的應用,第二個條件不一定滿足,為不可驗證假設,因此使用時需要額外論述這一點并說明其潛在成立的理由。
除了因果圖 4 中顯示的工具變量以外,還存在一些通過其他路徑與 A 相關聯的工具變量 Z,稱為代理工具變量(surrogate instrument),例如通過與 A 共享共同原因或共享限制后的共同結果。
3.1.2 工具變量識別假設
當 3 個工具變量條件均滿足(或假設滿足)后,并不能直接做進一步的計算,即不能計算點估計值,此 3 個條件僅僅可證明其是工具變量,除非我們進一步做出第 4 個識別條件假設。工具變量的識別條件通常有兩種:同質性假設和單調性假設。
同質性假設是比較強的假設,其分為多個版本,最嚴格的假設是干預 A 對結果 Y 的因果效應在所有研究個體中均是同一常數,這個假設在生物學中幾乎不可能滿足,因此并不考慮。其后稍弱的假設是干預 A 對結果 Y 的效應在 Z 的每一層中為常數,事實上,這個假設幾乎也不可能滿足。更自然的同質性假設為 A 對 Y 的效應在所有混雜因素 U 中均不存在效應修飾作用,盡管這個假設同樣不可驗證,但至少它是相對較弱的假設,有時可近似認為其滿足。除此之外,另一個類似的假設是 Z 與 A 之間的相關性在所有混雜因素 U 中不存在效應修飾作用,與前述不同,這個假設有一些驗證的方法[19]。
當我們假設同質性條件滿足時,干預 A 對結果 Y 的平均因果效應可表示為:
![]() |
這個又被稱為一般 IV 被估量(usual IV estimand),其僅在同質性假設滿足的情況下可表示為平均因果效應[20]。相應的,當進行估計時,其變為標準 IV 估計量(standard IV estimator)。如果使用模型法估計,其變為兩階段最小二乘估計量(two-stage-least-squares estimator)。
然而,同質性假設是很強的假設,通常情況下不能直接認為其滿足條件。當同質性假設不滿足時,平均因果效應是無法識別的,此時有兩種代替方案:① 引入基線協變量,并使用結構均值模型(structural mean models)進行估計[21];② 使用另一個識別條件,即單調性假設。
單調性假設指的是分配變量 Z 對干預 A 的作用必然是非降的,表示為 。其意思是作為患者不會故意違反隨機分配指示,違反指示指的是當患者分配治療時故意選擇不治療,或患者分配不治療時故意選擇治療。在臨床試驗中,患者首先需要簽訂知情同意并詳細了解試驗內容及可能的問題,極少會有患者故意違反指示,因此,單調性假設在臨床試驗中均可認為其滿足條件。事實上,不依從現象的出現大多是因為患者在分配之前就已經有強烈的主觀愿望,無論是否分配到治療或不治療,均會按照自己最初的想法來選擇干預,而這種情況是包含在單調性假設中的。
盡管單調性假設通常情況下可近似成立,但是其仍然不能對平均因果效應進行識別,取而代之的是對局部平均因果效應(local average treatment effect,LATE)進行識別[8],這個效應也被稱為依從者因果效應(compliers average causal effect),表示為:
![]() |
從公式可看出,LATE 是總體效應中的一個亞組效應,這個亞組所包含的人群就是試驗中所有的依從者。而對于其余兩部分人群,即恒接受者(always-takers)和恒不接受者(never-takers),呈不可知論。
事實上,當同質性假設無法滿足時,單調性假設成為一個很好的代替品。在 pRCT 中,由于患者自愿參加試驗,故意違反指示的患者可近似于無,因此單調性假設成立。所以,當 pRCT 中出現依從性問題時,IV 估計法是一個非常好的選擇,可用來估計人群 LATE,并且不受干預 A 和結果 Y 之間混雜因素的影響。
雖然用來估計 LATE 的單調性假設可認為其成立,但這也需要付出相應的代價。首先,pRCT 作為真實世界研究中高質量證據的來源,必然對臨床決策是至關重要的依據,然而,LATE 卻較難應用到臨床決策中。因為對于不同的情形,依從者群體會不斷變化。在試驗中的依從者和真實世界中的依從者不一定比例相同,同時,如果目標人群中的恒接受者和恒不接受者的比例較大且治療對其無效,那么我們僅用 LATE 來代表所有人群的治療效應就會出現決策偏差。
因此,對于這個問題,有學者給出的方案是通過基線變量分布對依從者人群進行特征化處理,比如給出依從者人群的年齡區間、性別比例、種族情況、吸煙飲酒情況等等,依據此進行效應外推和臨床決策[22]。然而,真實世界研究最大的優勢在于其外推性強,盡管我們可特征化依從者人群,所付出的代價便是降低了外推性,因而減弱了真實世界研究本身的優勢。
綜上,由于 pRCT 天然的隨機化優勢,使得 IV 估計法成為一個解決依從性問題很好的選擇,然而因其存在額外的識別假設,在實際使用中也需要權衡其優勢與代價。
3.2 現代 PP 分析法
包含 pRCT 在內的真實世界研究有一個區別于傳統 RCT 的特點是隨訪時間更長,這種情況下我們考慮依從性時,并不能簡單的將其歸為“依從”或“不依從”,這樣的二分法僅適用于理想的情形。而真實情況是在隨訪過程中,患者會依據某些指征來改變自己的用藥選擇,比如當感覺療效不佳時選擇使用另外一種藥,或當出現安全性問題后放棄使用藥物等,也可能在某些指征消失或被某些因素影響后又恢復用藥。因此,越貼近真實世界的研究,用藥情況越復雜,統計分析的方法也應該相應考慮更全面,為此我們需要采用現代 PP 分析法來解決這一難題[9, 14]。
如前所述,樸素 PP 分析指的是未經任何調整協變量的 PP 分析,即僅分析那些依從于干預方案的人群(PP 人群)。然而,除非患者的不依從問題是完全隨機發生的,即不受任何預后相關因素影響,不然樸素 PP 分析的結果必然存在選擇偏倚。相同的情況也發生在 AT 分析中,結果被混雜偏倚影響。
現代 PP 分析指的是經充分調整協變量后,估計假如患者在每一個時間段均依從于干預方案的效應。其有別于上述傳統分析的地方是引入時間點來標記患者每一階段的用藥情況,比如基線時用藥 ,一個月時的用藥
等等。這樣標記的好處是允許患者有很多種依從性,如 A0=1,A1=0
表示患者基線時用藥、第一個月不用藥、第二個月用藥的現象。最終每一個患者的干預情況均表示為一個向量
,當 A 為二分類變量時,共有
種干預類型。
3.2.1 時變干預和干預-混雜反饋
前述通過引入時間點來標記干預的方法稱為時變干預(time-varying treatments)[23, 24]。對于臨床試驗,通常我們會預先在試驗計劃書中指定干預方案或干預策略(treatment strategies),當引入時變干預時,干預策略的指定需要更明確的表達,比如“干預組用藥,對照組不用藥”的策略可表示為試驗全程每一個時間點均用藥 ,和每一個時間點均不用藥
。因此,我們最終想要得到的 PP 效應表示為:
![]() |
上述干預策略也稱為靜態干預策略(static treatment strategy),其特點是下一刻的干預僅取決于前一刻的干預情況,不取決于任何其他協變量,表示為:
![]() |
另外一種干預策略稱為動態干預策略(Dynamic treatment strategy),其特點是下一刻的干預不僅取決于前一刻的干預情況,同時也取決于協變量 ,表示為:
![]() |
事實上,通常情況下傳統 RCT 均僅考慮靜態干預策略的情況,即如果患者全程均接受治療時與如果患者全程均未接受治療之間的因果效應。然而在 pRCT 中,需要考慮的更全面一些,比如可指定干預策略為“干預組患者全程接受治療,但當出現不良反正事件時停止治療”,此時患者的用藥情況不僅基于前一刻是否用藥,還基于是否出現不良反應這一協變量,因此,屬于動態干預策略。動態策略的好處在于更貼近現實情況,比如當患者出現不良反應時出于倫理考慮必然需要停止用藥,而此時依然屬于“依從于試驗方案”的范疇。所以在最終分析時,這類患者均屬于依從者人群,同時這樣得出的最終效應也更符合“效果”而非“效力”。
當引入時變干預時,為滿足因果推斷識別條件,需要一系列的協變量 來阻斷后門路徑,其與時變干預相同,也需要用時間點進行標記,因此被稱為時變協變量(time-varying covariates),相對應的混雜因素被稱為時變混雜。
然而,當存在時變混雜時,因果識別過程中會出現一種現象稱為:干預-混雜反饋(treatment-confounder feedback)。如因果圖 5 所示,同前述設定,Z 表示隨機分配, 表示時變混雜,
表示時變干預,Y 表示結果,U 表示不可測混雜。圖中可看出,基線時的
影響基線接受干預的情況
,同時
又影響下一時刻的
,其后
繼續影響干預情況
,因此出現了循環影響的情況,稱為干預-混雜反饋。

當干預-混雜反饋存在時,傳統調整混雜方法均會失效,即盡管干預 A 對結果 Y 無因果效應,但計算出的值依然是非零的。究其原因則是每一時刻的 都同時被前一時刻的
和不可測混雜 U 影響,因此屬于沖撞變量(collider),對沖撞變量進行分層分析會引入新的選擇偏倚(打開后門路徑
-
-U-Y),也被稱為沖撞分層偏倚(collider-stratification bias)[25]。同理,使用模型法線性回歸時也會出現此偏倚。因此,當傳統調整方法(分層和回歸)失效時,我們需要使用新的方法,即 g 方法(g-methods)。
3.2.2 g 方法
g 方法[26]也被稱為廣義方法(generalized methods),意為包含時變干預比較的方法,其中包括三種具體的方法:逆概率加權(inverse probability weighing,IP weighing)、參數 g 公式(parametric g-formula)、g 估計(g-estimation)。
IP 加權是使用較多的一種方法,然而當在時變干預的情形下,IP 加權的方法需要進行一定拓展。當在時間固定干預情形下,IP 權重為以混雜為條件時干預概率分布的倒數,即 。當存在多個時間點時,IP 權重需要變為一系列時間點 IP 權重的乘積,表示為:
![]() |
或者也可用穩健 IP 權重(stabilized IP weights),即將上式分子變為 。此時經過加權后的偽總體滿足因果推斷的邊際識別條件,因此可用邊際結構模型(marginal structural model)進行估計[27]。例如我們想要估計“如果全部患者所有時間點均接受治療”和“如果全部患者所有時間點均不接受治療”的效應,首先將干預策略線性化,即表示為累計值:
。其后建立邊際模型,表示為:
![]() |
因此,最終治療風險差(risk difference)等于 。當然,為防止模型指定錯誤,上式也可使用非線性函數式,如立方樣條等。
綜上,在更貼近真實情況的 pRCT 中,依從性并非簡單的二分法可表示,故需要引入時變干預來更加明確各種依從情況。而當存在時變干預時,會出現一種現象稱為干預-混雜反饋,這種現象導致使用傳統分層和回歸方法調整協變量時引入新的選擇偏倚而失效,因此,需要使用新的調整方法,即 g 方法,來處理時變混雜。此時得到的時變干預效應才是我們真正關注的治療效果,同時也可促進真實世界中更好的臨床決策。
4 討論
RCT 一直以來都是最佳證據質量的代表,因其隨機化的原則,使得干預組對照組之間的基線因素趨于平衡,因此免受隨機前選擇和混雜的影響。然而,因為依從性問題和失訪問題,在隨訪過程中依然會遭受隨機后選擇和混雜的影響,并最終降低研究內部真實性。事實上,由于倫理要求,每一個臨床試驗都會有或多或少的不依從現象,這個問題在傳統 RCT 中相對較輕,因其受試人群相對更同質、隨訪時間較短、干預較單一。然而,在 pRCT 中這個問題是不可忽視的。
傳統的 ITT 分析由于其保留了隨機化的特性,因而是 ITT 效應的無偏估計。當在傳統雙盲安慰劑 RCT 中,ITT 效應具有兩大優勢,即零效應保留和效應趨于零,所以是非常好的統計方法。然而,在 pRCT 中,當依從性問題較大時,在非雙盲試驗、陽性藥對照、不良反應比較、非劣效試驗等情形下,ITT 效應的優勢失效,因此可能得出錯誤的結論,此時需要更多的統計方法來補充分析。傳統替代 ITT 分析的方法是樸素 PP 分析和 AT 分析,然而這兩種方法在未經調整協變量時存在相應的選擇或混雜偏倚。因此,需要引入新的方法來解決依從性問題。
IV 估計法是一個非常好的代替方法,其最大的特點是不基于傳統調整方法中的“無不可測混雜”假設,也就是當存在不可測混雜或調整不充分存在殘余偏倚時,IV 法可提供無偏估計。然而這卻是有代價的,除非我們假設同質性條件滿足,不然無法對平均因果效應進行識別,取而代之的是使用單調性假設并識別 LATE。LATE 在實際應用中需要額外注意依從性人群的區分,比較好的方法是對其進行基線特征化來描述人群特點。
當我們收集了足夠充分的協變量集時,最佳代替方法是現代 PP 分析法。考慮到 pRCT 在真實醫療環境時依從性問題的復雜程度,引入時變干預來完整地描述依從過程是至關重要的一步,同時這樣做最終得到的治療效應也更加貼近真實情況,促進更好的臨床決策。然而,當引入時變干預后出現干預-混雜反饋現象,此時使用分層或回歸的方法會引入新的偏倚,因此,需要新的統計方法(g 方法)來調整時變協變量。無論是 ITT 分析或是 PP 分析,我們均假設不存在失訪問題,因此,主要關注點是解決依從性問題。然而,當出現有差別失訪(differential loss to follow-up)時,相當于限制在“未失訪人群”中進行分析,因而出現選擇偏倚,需要額外調整協變量或進行多重插補以解決此問題。
綜上,在 pRCT 中,當依從性水平較高時,ITT 分析依然是首選統計方法。然而,當依從性水平逐漸降低時,ITT 效應不再是我們所關注的因果效應,并且可能存在嚴重缺陷。此時我們更希望得到的是基于 PP 效應的證據,即使用 IV 估計或現代 PP 分析。因此,在 pRCT 的統計分析中,應同時報告 ITT 效應和 PP 效應,并討論它們是否互相兼容,以期促進更好的臨床決策。
隨著真實世界數據研究的不斷推進,其逐漸成為醫療實踐非常重要的組成部分并且為臨床決策提供重要的循證證據[1, 2]。其中實效性隨機對照試驗(pragmatic randomized controlled trials,pRCT)作為一種重要的真實世界研究設計類型,其同時具有隨機化和外推性優勢,因此可得到最佳真實世界證據[3]。盡管 pRCT 中的隨機化原則可消除因基線不平衡所導致的混雜或納入患者時帶來的選擇偏倚,但由于其研究人群異質性較大、不進行施盲、隨訪時間較長等特點[4, 5],pRCT 相比于傳統隨機對照試驗(randomized controlled trials,RCT)更容易受到隨機后混雜偏倚(post-randomization confounding)的影響[6]。其中一個非常重要的原因就是依從性問題,通常解決此問題的方法是使用意向性治療(intention-to-treat,ITT)分析作為研究主要甚至唯一的統計方法,然而隨著依從性逐漸降低,ITT 分析存在著非常嚴重的缺陷,其作為 pRCT 中推薦的統計方法可能導致最終結果出現偏差,從而影響臨床決策。因此,本研究首先回顧 ITT 分析的適用條件和存在的問題,進一步指出其傳統代替方法的缺陷,最后指出 pRCT 中更具有優勢的統計方法,以期解決依從性問題。
1 意向性治療分析的使用條件及存在問題
1.1 ITT 分析和 ITT 效應
ITT 分析,或稱為“as randomized”分析,定義為干預分配的比較效應[7]。假設在理想的隨機對照試驗中(無失訪、完美測量),研究的隨機分配變量為 Z,而由于依從性問題,兩組患者實際接受干預變量為 A。當依從性良好時,分配變量 Z 等于接受干預變量 A,當依從性變低時,部分分配至 Z=0 的患者轉而接受 A=1,或相反。ITT 是計算分配干預 Z 對結果 Y 的平均因果效應,其表示為:ITT 效應=。
這個結果并不考慮實際干預的接受情況,僅關注干預隨機分配的效應。因為干預分配 Z 是隨機化的結果,其滿足因果推斷的識別條件,所以 ITT 分析可表示為:。即,分配至干預組和對照組的患者結局間比較。如因果圖 1 所示,分配干預 Z 對結果 Y 有兩條因果路徑。

第一條是分配干預 Z 通過實際接受干預 A 來對結果 Y 產生影響,此時接受干預 A 屬于分配干預 Z 和結果 Y 之間的中介變量(mediator),表示為 Z-A-Y。第二條是分配干預 Z 直接作用于結果 Y,不通過干預 A,表示為 Z-Y。
因此,如上述,只有當第二條路徑不存在時,分配干預 Z 的比較結果 Z-A-Y 才可能表示為實際接受干預 A 的比較結果 A-Y(當 Z=A 時,即依從性 100%)。這個額外的假設又被稱為“排除限制”(exclusion restriction)[8],解決它的方法通常是采用雙盲安慰劑對照設計原則。
當滿足排除限制后,ITT 分析最大的特點在于其可對 ITT 效應進行無偏估計,即分配 Z 對結果 Y 的因果效應。然而,隨著依從性降低,ITT 效應與實際接受干預 A 的效應的偏差逐漸變大,其可能不再是我們所關注的核心效應,為合理解決此問題,首先引入干預 A 的效應,即符合方案集效應(per-protocol effect,PP effect)。
1.2 PP 效應
PP 效應通常定義為反事實效應(counterfactual effect),即假如全部患者依從于干預方案時的因果效應[9],表示為:
![]() |
當實際情況中所有患者均依從于干預方案時,干預 A 滿足因果推斷識別條件,則陽性藥組(A=1)與陰性藥組(A=0)的結果比較即是干預 A 的因果效應,表示為:
![]() |
然而,當依從性降低時,上述公式不再成立,則兩組結果之差不等于干預 A 的因果效應(即 PP 效應),此時干預 A 與結果 Y 之間存在已知或未知混雜因素。而相比之下,分配干預 Z 的組間比較依然是 ITT 效應的無偏估計,無論依從性是否良好。因為分配干預 Z 保留了隨機化的特性,滿足因果推斷識別條件。
綜上,當依從性 100% 時,干預 A 與分配干預 Z 完全一致,此時 ITT 效應等于 PP 效應。而當依從性下降時,干預 A 與分配干預 Z 不再一致,僅呈正相關性,此時 ITT 效應不等于 PP 效應。
事實上,雖然 ITT 效應并不總是等于 PP 效應,但當依從性下降時,ITT 分析(即分配干預 Z 兩組間結果比較)依然可無偏估計 ITT 效應,而干預 A 兩組間結果比較并不等于 PP 效應(存在混雜因素),這個比較又被稱為“as-treated”分析[10]。
如上所述,ITT 分析最大的優勢在于保留隨機化,因此估計出的 ITT 效應不被混雜因素影響。盡管 ITT 效應并不是我們所想要的 PP 效應,但其通常存在以下特點[10, 11]:① ITT 效應具有效應保留(null preservation)的特點,即當 PP 效應不存在時,ITT 效應必然也不存在。從因果圖 1 可看出,當滿足“排除限制”時,或在雙盲試驗中,Z-Y 間的直接路徑消除,僅剩下 Z-A-Y 路徑,則當 A-Y 效應消失時,Z 對 Y 的因果效應消失。② ITT 效應通常是 PP 效應的保守估計,即效應趨于零(effect towards the null)。ITT 效應可保證結果在零效應和 PP 效應之間,也就是說隨著依從性下降,ITT 效應逐漸從與 PP 效應相等向零效應接近,即“稀釋”了真實效應。因此,ITT 效應可作為 PP 效應的下限。
1.3 ITT 分析的缺陷
上述兩個 ITT 效應的特點非常有優勢,同時也是隨機雙盲試驗中推薦使用的主要原因。當依從性下降,但仍然保持在較高水平時(例如 80%~90% 或以上),ITT 分析是非常好的統計方法。然而,當依從性處于較低水平(例如 60%~80% 或以下),或當試驗不再保持雙盲,或當試驗為陽性藥對照等情況時,ITT 分析可能存在非常嚴重的缺陷[6, 9, 10, 12],而這正是 pRCT 中需要面對的問題。
首先,因為要盡可能接近真實醫療環境中的用藥情況,pRCT 中通常不會采取雙盲措施,此時 ITT 分析中的“排除限制”不再滿足,則 ITT 效應中零效應保留的特點失效,即盡管 PP 效應不存在,ITT 效應依然可能存在。
其次,為保證 ITT 效應是 PP 效應的保守估計,需要滿足效應單調性假設(monotonicity of effects),即效應 ,也就是治療不會使情況變得更差。這個假設相對較弱,一般可認為其滿足。然而,即使這個條件滿足,ITT 效應的保守估計特點依然可能會在以下幾種情況中失效[10, 12, 13]:① 陽性藥對照;② 安全性比較;③ 非劣效試驗。此三種情況在 pRCT 中是非常常見的,如果這種情況下依然使用 ITT 分析,可能會得到錯誤甚至完全相反的結論,影響臨床決策。
除此之外,ITT 效應在實際應用中并不好直接解釋。作為患者,最關注的應該是如果我接受(依從于)治療,那么預期結果(平均效應)應該如何,這個平均效應絕對不應該包含那些不依從于試驗個體的效應。所以,有一種說法將 ITT 效應稱作效果(effectiveness)而將 PP 效應稱作效力(efficacy),這是錯誤的[10, 14]。事實上,效果與效力應當從數據獲取的途徑來區分,從傳統 RCT 中獲得的數據通常納入排除標準較嚴格,研究人群同質性較高,所以效應更加“純凈”,此時稱為效力。而從真實世界中獲得的數據,效應更貼近真實情況,所以稱為效果。也就是說,在 pRCT 中,無論 ITT 效應或 PP 效應均應被稱為效果。
綜上,由于 pRCT 的特點,使其有別于傳統 RCT,因此,ITT 分析作為首選統計方法并不完全適用。在引入新方法前,首先回顧傳統代替 ITT 分析的兩種方法:樸素 PP 分析(naive PP analysis)和 AT 分析(As-treated analysis)。
2 ITT 分析的傳統代替方法:樸素 PP 分析和 AT 分析
如前所述,ITT 分析在 pRCT 的很多情形下是失效的,作為補充,通常會選擇另外兩種傳統的分析方法:樸素 PP 分析和 AT 分析。然而,如 ITT 分析一樣,當依從性降低時,這兩種分析也存在嚴重缺陷[10, 15]。
2.1 AT 分析
AT 分析,即實際接受干預分析,指的是僅考慮實際接受陽性藥(A=1)與實際接受陰性藥(A=0)的兩組結果之間的比較,表示為:
![]() |
這個比較不考慮干預分配 Z,無論原來隨機分配的干預是否與實際一致,均按實際情況來計算,當依從性 100% 時,AT 分析的結果等于 PP 效應和 ITT 效應。
該計算的問題在于其將隨機試驗轉變為觀察性研究,因為實際接受陽性藥的患者和實際接受陰性藥的患者必然受到某些自身預后相關因素的影響,使得兩組間出現混雜偏倚。例如,病情較重的患者更有可能選擇自己認為治療效果更好的方案(如陽性藥),無論其是否被隨機分配至陽性藥組,因此實際接受陽性藥(A=1)組的患者總體病情更重,就算不進行治療也天然比實際接受陰性藥組的患者預后更差。如因果圖 2 所示,U 代表病人的病情輕重(為不可測變量),L 代表病情輕重所引起的具體生物標記物的變化(為可測變量),干預 A 和結果 Y 之間存在額外的后門路徑,即 A-L-U-Y。

2.2 樸素 PP 分析
樸素 PP 分析,也被稱為“on-treatment”分析,指的是僅納入實際干預情況與初始隨機分配相同的患者數據進行分析,即納入 A=Z 的患者進行分析,這個納入的人群被稱為 PP 人群(per-protocol population)。事實上,樸素 PP 分析就是將分析人群限制在 PP 人群中進行 ITT 分析,表示為:
![]() |
樸素 PP 分析的問題在于限制分析人群時,如果恰好人群的選擇與某些風險因素相關聯,則產生相應的選擇偏倚[16]。如因果圖 3 所示,U、L 依然分別代表不可測病情情況和可測生物標記物,S 代表是否被選入 PP 人群(S=1 為選入)。當分析限制在 PP 人群時,即控制變量 S,則產生額外的后門路徑 Z-S-A-L-U-Y。

綜上,傳統代替 ITT 分析的兩種方法,如果在不額外控制協變量的情況下進行分析,會產生相應的混雜和選擇偏倚。
3 解決依從性問題的新方法
3.1 工具變量估計法
工具變量(instrumental variable,IV)估計是一種與常規方法迥異的估計法[8, 17, 18]。通常情況下,所有的常規方法均依賴一個不可驗證假設,即無不可測混雜因素(no unmeasured confounder),當存在部分不可測混雜因素時,我們稱其存在殘余偏倚(residual bias)。而 IV 估計法則不同,在不依賴這個假設的情況下也可無偏估計因果效應,因此在某些情形下,具有自己獨特的優勢。但是,IV 估計法依然需要依賴另外的一些假設,其中部分假設同樣是不可驗證的,使用時需要額外注意。下面回顧 IV 估計法,并指出其在 pRCT 中使用的優勢與劣勢。
3.1.1 工具變量條件
IV 估計法首先需要找一個工具變量作為基礎,其中工具變量需要同時滿足三個條件。如因果圖 4 所示,假設 Z 為工具變量,A 為干預,Y 為結果,U 為 A-Y 之間不可測混雜因素。則工具變量條件可表示為:① Z 與 A 相關;② Z 僅通過 A 影響 Y,即 Z 與 Y 之間無直接效應;③ Z 與 Y 之間不存在混雜因素。

在雙盲 RCT 中,隨機分配 Z 為理想的工具變量,首先隨機分配 Z 與實際干預 A 之間呈高度正相關性,其次因為雙盲的實施所以 Z 與 Y 之間無直接效應(即無安慰劑效應),最后因為 Z 的隨機化特點,其與 Y 之間不存在混雜因素。然而,在 pRCT 中,因為通常無盲法的應用,第二個條件不一定滿足,為不可驗證假設,因此使用時需要額外論述這一點并說明其潛在成立的理由。
除了因果圖 4 中顯示的工具變量以外,還存在一些通過其他路徑與 A 相關聯的工具變量 Z,稱為代理工具變量(surrogate instrument),例如通過與 A 共享共同原因或共享限制后的共同結果。
3.1.2 工具變量識別假設
當 3 個工具變量條件均滿足(或假設滿足)后,并不能直接做進一步的計算,即不能計算點估計值,此 3 個條件僅僅可證明其是工具變量,除非我們進一步做出第 4 個識別條件假設。工具變量的識別條件通常有兩種:同質性假設和單調性假設。
同質性假設是比較強的假設,其分為多個版本,最嚴格的假設是干預 A 對結果 Y 的因果效應在所有研究個體中均是同一常數,這個假設在生物學中幾乎不可能滿足,因此并不考慮。其后稍弱的假設是干預 A 對結果 Y 的效應在 Z 的每一層中為常數,事實上,這個假設幾乎也不可能滿足。更自然的同質性假設為 A 對 Y 的效應在所有混雜因素 U 中均不存在效應修飾作用,盡管這個假設同樣不可驗證,但至少它是相對較弱的假設,有時可近似認為其滿足。除此之外,另一個類似的假設是 Z 與 A 之間的相關性在所有混雜因素 U 中不存在效應修飾作用,與前述不同,這個假設有一些驗證的方法[19]。
當我們假設同質性條件滿足時,干預 A 對結果 Y 的平均因果效應可表示為:
![]() |
這個又被稱為一般 IV 被估量(usual IV estimand),其僅在同質性假設滿足的情況下可表示為平均因果效應[20]。相應的,當進行估計時,其變為標準 IV 估計量(standard IV estimator)。如果使用模型法估計,其變為兩階段最小二乘估計量(two-stage-least-squares estimator)。
然而,同質性假設是很強的假設,通常情況下不能直接認為其滿足條件。當同質性假設不滿足時,平均因果效應是無法識別的,此時有兩種代替方案:① 引入基線協變量,并使用結構均值模型(structural mean models)進行估計[21];② 使用另一個識別條件,即單調性假設。
單調性假設指的是分配變量 Z 對干預 A 的作用必然是非降的,表示為 。其意思是作為患者不會故意違反隨機分配指示,違反指示指的是當患者分配治療時故意選擇不治療,或患者分配不治療時故意選擇治療。在臨床試驗中,患者首先需要簽訂知情同意并詳細了解試驗內容及可能的問題,極少會有患者故意違反指示,因此,單調性假設在臨床試驗中均可認為其滿足條件。事實上,不依從現象的出現大多是因為患者在分配之前就已經有強烈的主觀愿望,無論是否分配到治療或不治療,均會按照自己最初的想法來選擇干預,而這種情況是包含在單調性假設中的。
盡管單調性假設通常情況下可近似成立,但是其仍然不能對平均因果效應進行識別,取而代之的是對局部平均因果效應(local average treatment effect,LATE)進行識別[8],這個效應也被稱為依從者因果效應(compliers average causal effect),表示為:
![]() |
從公式可看出,LATE 是總體效應中的一個亞組效應,這個亞組所包含的人群就是試驗中所有的依從者。而對于其余兩部分人群,即恒接受者(always-takers)和恒不接受者(never-takers),呈不可知論。
事實上,當同質性假設無法滿足時,單調性假設成為一個很好的代替品。在 pRCT 中,由于患者自愿參加試驗,故意違反指示的患者可近似于無,因此單調性假設成立。所以,當 pRCT 中出現依從性問題時,IV 估計法是一個非常好的選擇,可用來估計人群 LATE,并且不受干預 A 和結果 Y 之間混雜因素的影響。
雖然用來估計 LATE 的單調性假設可認為其成立,但這也需要付出相應的代價。首先,pRCT 作為真實世界研究中高質量證據的來源,必然對臨床決策是至關重要的依據,然而,LATE 卻較難應用到臨床決策中。因為對于不同的情形,依從者群體會不斷變化。在試驗中的依從者和真實世界中的依從者不一定比例相同,同時,如果目標人群中的恒接受者和恒不接受者的比例較大且治療對其無效,那么我們僅用 LATE 來代表所有人群的治療效應就會出現決策偏差。
因此,對于這個問題,有學者給出的方案是通過基線變量分布對依從者人群進行特征化處理,比如給出依從者人群的年齡區間、性別比例、種族情況、吸煙飲酒情況等等,依據此進行效應外推和臨床決策[22]。然而,真實世界研究最大的優勢在于其外推性強,盡管我們可特征化依從者人群,所付出的代價便是降低了外推性,因而減弱了真實世界研究本身的優勢。
綜上,由于 pRCT 天然的隨機化優勢,使得 IV 估計法成為一個解決依從性問題很好的選擇,然而因其存在額外的識別假設,在實際使用中也需要權衡其優勢與代價。
3.2 現代 PP 分析法
包含 pRCT 在內的真實世界研究有一個區別于傳統 RCT 的特點是隨訪時間更長,這種情況下我們考慮依從性時,并不能簡單的將其歸為“依從”或“不依從”,這樣的二分法僅適用于理想的情形。而真實情況是在隨訪過程中,患者會依據某些指征來改變自己的用藥選擇,比如當感覺療效不佳時選擇使用另外一種藥,或當出現安全性問題后放棄使用藥物等,也可能在某些指征消失或被某些因素影響后又恢復用藥。因此,越貼近真實世界的研究,用藥情況越復雜,統計分析的方法也應該相應考慮更全面,為此我們需要采用現代 PP 分析法來解決這一難題[9, 14]。
如前所述,樸素 PP 分析指的是未經任何調整協變量的 PP 分析,即僅分析那些依從于干預方案的人群(PP 人群)。然而,除非患者的不依從問題是完全隨機發生的,即不受任何預后相關因素影響,不然樸素 PP 分析的結果必然存在選擇偏倚。相同的情況也發生在 AT 分析中,結果被混雜偏倚影響。
現代 PP 分析指的是經充分調整協變量后,估計假如患者在每一個時間段均依從于干預方案的效應。其有別于上述傳統分析的地方是引入時間點來標記患者每一階段的用藥情況,比如基線時用藥 ,一個月時的用藥
等等。這樣標記的好處是允許患者有很多種依從性,如 A0=1,A1=0
表示患者基線時用藥、第一個月不用藥、第二個月用藥的現象。最終每一個患者的干預情況均表示為一個向量
,當 A 為二分類變量時,共有
種干預類型。
3.2.1 時變干預和干預-混雜反饋
前述通過引入時間點來標記干預的方法稱為時變干預(time-varying treatments)[23, 24]。對于臨床試驗,通常我們會預先在試驗計劃書中指定干預方案或干預策略(treatment strategies),當引入時變干預時,干預策略的指定需要更明確的表達,比如“干預組用藥,對照組不用藥”的策略可表示為試驗全程每一個時間點均用藥 ,和每一個時間點均不用藥
。因此,我們最終想要得到的 PP 效應表示為:
![]() |
上述干預策略也稱為靜態干預策略(static treatment strategy),其特點是下一刻的干預僅取決于前一刻的干預情況,不取決于任何其他協變量,表示為:
![]() |
另外一種干預策略稱為動態干預策略(Dynamic treatment strategy),其特點是下一刻的干預不僅取決于前一刻的干預情況,同時也取決于協變量 ,表示為:
![]() |
事實上,通常情況下傳統 RCT 均僅考慮靜態干預策略的情況,即如果患者全程均接受治療時與如果患者全程均未接受治療之間的因果效應。然而在 pRCT 中,需要考慮的更全面一些,比如可指定干預策略為“干預組患者全程接受治療,但當出現不良反正事件時停止治療”,此時患者的用藥情況不僅基于前一刻是否用藥,還基于是否出現不良反應這一協變量,因此,屬于動態干預策略。動態策略的好處在于更貼近現實情況,比如當患者出現不良反應時出于倫理考慮必然需要停止用藥,而此時依然屬于“依從于試驗方案”的范疇。所以在最終分析時,這類患者均屬于依從者人群,同時這樣得出的最終效應也更符合“效果”而非“效力”。
當引入時變干預時,為滿足因果推斷識別條件,需要一系列的協變量 來阻斷后門路徑,其與時變干預相同,也需要用時間點進行標記,因此被稱為時變協變量(time-varying covariates),相對應的混雜因素被稱為時變混雜。
然而,當存在時變混雜時,因果識別過程中會出現一種現象稱為:干預-混雜反饋(treatment-confounder feedback)。如因果圖 5 所示,同前述設定,Z 表示隨機分配, 表示時變混雜,
表示時變干預,Y 表示結果,U 表示不可測混雜。圖中可看出,基線時的
影響基線接受干預的情況
,同時
又影響下一時刻的
,其后
繼續影響干預情況
,因此出現了循環影響的情況,稱為干預-混雜反饋。

當干預-混雜反饋存在時,傳統調整混雜方法均會失效,即盡管干預 A 對結果 Y 無因果效應,但計算出的值依然是非零的。究其原因則是每一時刻的 都同時被前一時刻的
和不可測混雜 U 影響,因此屬于沖撞變量(collider),對沖撞變量進行分層分析會引入新的選擇偏倚(打開后門路徑
-
-U-Y),也被稱為沖撞分層偏倚(collider-stratification bias)[25]。同理,使用模型法線性回歸時也會出現此偏倚。因此,當傳統調整方法(分層和回歸)失效時,我們需要使用新的方法,即 g 方法(g-methods)。
3.2.2 g 方法
g 方法[26]也被稱為廣義方法(generalized methods),意為包含時變干預比較的方法,其中包括三種具體的方法:逆概率加權(inverse probability weighing,IP weighing)、參數 g 公式(parametric g-formula)、g 估計(g-estimation)。
IP 加權是使用較多的一種方法,然而當在時變干預的情形下,IP 加權的方法需要進行一定拓展。當在時間固定干預情形下,IP 權重為以混雜為條件時干預概率分布的倒數,即 。當存在多個時間點時,IP 權重需要變為一系列時間點 IP 權重的乘積,表示為:
![]() |
或者也可用穩健 IP 權重(stabilized IP weights),即將上式分子變為 。此時經過加權后的偽總體滿足因果推斷的邊際識別條件,因此可用邊際結構模型(marginal structural model)進行估計[27]。例如我們想要估計“如果全部患者所有時間點均接受治療”和“如果全部患者所有時間點均不接受治療”的效應,首先將干預策略線性化,即表示為累計值:
。其后建立邊際模型,表示為:
![]() |
因此,最終治療風險差(risk difference)等于 。當然,為防止模型指定錯誤,上式也可使用非線性函數式,如立方樣條等。
綜上,在更貼近真實情況的 pRCT 中,依從性并非簡單的二分法可表示,故需要引入時變干預來更加明確各種依從情況。而當存在時變干預時,會出現一種現象稱為干預-混雜反饋,這種現象導致使用傳統分層和回歸方法調整協變量時引入新的選擇偏倚而失效,因此,需要使用新的調整方法,即 g 方法,來處理時變混雜。此時得到的時變干預效應才是我們真正關注的治療效果,同時也可促進真實世界中更好的臨床決策。
4 討論
RCT 一直以來都是最佳證據質量的代表,因其隨機化的原則,使得干預組對照組之間的基線因素趨于平衡,因此免受隨機前選擇和混雜的影響。然而,因為依從性問題和失訪問題,在隨訪過程中依然會遭受隨機后選擇和混雜的影響,并最終降低研究內部真實性。事實上,由于倫理要求,每一個臨床試驗都會有或多或少的不依從現象,這個問題在傳統 RCT 中相對較輕,因其受試人群相對更同質、隨訪時間較短、干預較單一。然而,在 pRCT 中這個問題是不可忽視的。
傳統的 ITT 分析由于其保留了隨機化的特性,因而是 ITT 效應的無偏估計。當在傳統雙盲安慰劑 RCT 中,ITT 效應具有兩大優勢,即零效應保留和效應趨于零,所以是非常好的統計方法。然而,在 pRCT 中,當依從性問題較大時,在非雙盲試驗、陽性藥對照、不良反應比較、非劣效試驗等情形下,ITT 效應的優勢失效,因此可能得出錯誤的結論,此時需要更多的統計方法來補充分析。傳統替代 ITT 分析的方法是樸素 PP 分析和 AT 分析,然而這兩種方法在未經調整協變量時存在相應的選擇或混雜偏倚。因此,需要引入新的方法來解決依從性問題。
IV 估計法是一個非常好的代替方法,其最大的特點是不基于傳統調整方法中的“無不可測混雜”假設,也就是當存在不可測混雜或調整不充分存在殘余偏倚時,IV 法可提供無偏估計。然而這卻是有代價的,除非我們假設同質性條件滿足,不然無法對平均因果效應進行識別,取而代之的是使用單調性假設并識別 LATE。LATE 在實際應用中需要額外注意依從性人群的區分,比較好的方法是對其進行基線特征化來描述人群特點。
當我們收集了足夠充分的協變量集時,最佳代替方法是現代 PP 分析法。考慮到 pRCT 在真實醫療環境時依從性問題的復雜程度,引入時變干預來完整地描述依從過程是至關重要的一步,同時這樣做最終得到的治療效應也更加貼近真實情況,促進更好的臨床決策。然而,當引入時變干預后出現干預-混雜反饋現象,此時使用分層或回歸的方法會引入新的偏倚,因此,需要新的統計方法(g 方法)來調整時變協變量。無論是 ITT 分析或是 PP 分析,我們均假設不存在失訪問題,因此,主要關注點是解決依從性問題。然而,當出現有差別失訪(differential loss to follow-up)時,相當于限制在“未失訪人群”中進行分析,因而出現選擇偏倚,需要額外調整協變量或進行多重插補以解決此問題。
綜上,在 pRCT 中,當依從性水平較高時,ITT 分析依然是首選統計方法。然而,當依從性水平逐漸降低時,ITT 效應不再是我們所關注的因果效應,并且可能存在嚴重缺陷。此時我們更希望得到的是基于 PP 效應的證據,即使用 IV 估計或現代 PP 分析。因此,在 pRCT 的統計分析中,應同時報告 ITT 效應和 PP 效應,并討論它們是否互相兼容,以期促進更好的臨床決策。