隨機對照試驗是臨床試驗的“金標準”,其中隨機化作為臨床試驗的基本原則,發揮著平衡協變量的重要作用。在傳統隨機對照試驗中,分配概率不會改變,而采用適應性隨機化,其分配概率會依據事先設定的規則隨著試驗數據結果發生變化,從而實現平衡組間樣本量、病人利益最大化、均衡協變量等目的。本文簡要介紹臨床試驗中不同的適應性隨機化方法并比較其優劣,為臨床試驗研究者選擇隨機化方法提供參考。
引用本文: 王雨寧, 徐暢, 鄒康, 李玲, 鄧可, 孫鑫. 臨床試驗中適應性隨機化的應用. 中國循證醫學雜志, 2020, 20(5): 616-620. doi: 10.7507/1672-2531.201910104 復制
隨機對照試驗(randomized controlled trial,RCT)是臨床療效評價的“金標準”[1]。其中,隨機化是 RCT 的基本原則,也是統計推斷的基礎。其通過對充足樣本進行隨機分配,來平衡大量未知或不可控的非研究因素,減少組間非研究因素對結局造成的偏倚,使結果更加可靠。
在傳統隨機對照試驗中,受試者隨機分配的概率不會在試驗過程中發生改變,分配比例通常設置為 1∶1,易于實施[2]。然而由于偶然性,固定的隨機化仍可能無法均衡潛在的協變量[3]。為應對這種情況,常采用的方法是適應性隨機化(adaptive randomization,AR),即允許在試驗過程中根據已累積的數據調整受試者分配的概率,以實現特定目的。如反應適應性隨機化(response-adaptive randomization,RAR)可以依據累積的數據,提高受試者分配到治療效果較好的組,使得更多受試者接受更好的治療,更符合倫理要求。此外,適應性隨機化還包括限制性隨機化(restricted randomization,RR)、協變量適應性隨機化(covariate-adaptive randomization,CAR)、調整協變量的反應適應性隨機化(covariate-adjusted response-adaptive randomization,CARA Randomization)等方法[4]。
本文簡要介紹臨床試驗中不同的適應性隨機化方法并比較其優劣,為臨床試驗研究者選擇隨機化方法提供參考。
1 限制性隨機化
限制性隨機化是指基于目前受試者的分配情況來調整下一位受試者的分配概率,從而達到組間樣本量均衡的目的[5, 6]。傳統臨床試驗中,使用完全隨機化可能造成組間樣本量不均衡,從而降低檢驗效能;區組化隨機(block randomization)是解決這一問題最常用的方法[7, 8],通過提前設置的區組分配納入的受試者,以實現均衡分配或特定比例的分配。然而,當區組隨機化實施到區組末端時,醫生很可能根據之前的分配結果猜到下一位受試者的分配情況,造成選擇性偏倚。在適應性設計中,利用限制性隨機化可以均衡組間樣本量,保證檢驗效能,還可以較大程度地減低分配方案被猜到的可能性,因此,在臨床試驗中得到廣泛地應用[5, 6]。
偏性擲幣設計(biased coin design,BCD)是限制性隨機化較為常用的方法,最初由 Efron 提出,該方法將分配概率傾向于樣本量較小的治療組,從而實現組間樣本量均衡和較好程度的隨機化[9, 10]。Efron 的設計方案是基于已累積的入組情況,計算目前組間樣本量差異,設定下一位受試者入某治療組的概率。該概率為固定值,只與樣本量差異的符號相關,與大小無關[10]。此外,Soares 等[11]提出“big stick design”,設定了非平衡的容忍量,若實際差異超過容忍量,則分配到樣本量較小組的概率為 1,否則按相等概率分配受試者[12]。與 Efron 相同,該概率值也為固定值。在偏性擲幣設計的基礎上,Smith 等[13]和 Wei 等[14]將概率設置為某種特定的函數,而非固定值,此外,Atkinson 等[15]提出了 DA 偏性擲幣設計(DA biased coin design)等方法。
隨機化、分配均衡都是臨床試驗的重要因素,但兩者又相互競爭:實現完全隨機化會導致分配不均衡,反之分配均衡也會影響某些協變量的完全隨機化,故需要在兩者之間做出權衡。限制性隨機化實現了受試者均衡分配和較好程度的隨機化,為臨床試驗提供了可能的方案選擇。
2 反應適應性隨機化
反應適應性隨機化是指基于目前已累積的受試者的治療情況,調整下一位受試者的分配概率,使之傾向于分配到治療較好的組[16, 17]。在傳統臨床試驗中,受試者的分配方案固定,即使某治療組未見成效,受試者仍需依照事先規劃的方案入組,這在一定程度上損害了受試者的利益;而反應適應性隨機化的目的在于將受試者以較大概率分配到出現較好治療效果的組,保證了受試者利益最大化。Zelen 等[18]在 1969 年提出著名的“play the winner”規則,即由上一位受試者的試驗結果決定下一位受試者的分配方案。之后,Wei 等[19]在此基礎上發展出“randomized play the winner”規則。Ivanova 等[20]提出“drop the loser”規則,可減小分配比例的變異程度,保證檢驗效能。
采用傳統頻率學方法進行 RAR,首先需要獲取累積的受試者反應信息,通過極大似然估計等方法估計未知參數(不同組的受試者出現反應的概率)[21],計算下一位受試者的分配概率[22];若組間治療效果差異較大(如治療組與安慰劑相比),可能造成樣本量均衡性較差,因此,可以考慮加入調優參數 λ,調整分配概率[23, 24]。在研究過程中獲取效應量進行調整可以在非盲狀態下進行[22];也可以由獨立的數據管理委員會進行,保持試驗人員的盲態[25]。在 Maki 等[26]的 RCT 中,比較了兩種方案治療轉移性軟組織肉瘤的效果,發現其中一種方案效果較好,利用 RAR 將分配比例傾向于該方案(兩個治療方案最終的樣本量分別為 73 和 49),較 1∶1 的分配比例而言,采用 RAR 可增加 12 位受試者獲益。
隨著貝葉斯理論在臨床試驗中的應用,形成了貝葉斯適應性隨機化(Bayesian adaptive randomization,BAR)。傳統頻率方法的統計推斷僅利用樣本獲得的信息,并且需要一定的樣本量以保證檢驗效能;而貝葉斯方法在樣本信息的基礎上,還利用了先前由內部或外部獲得的信息作為先驗信息,綜合二者得到后驗概率;但貝葉斯方法沒有特別強調Ⅰ類錯誤、檢驗效能等。此外,先驗信息會影響后驗概率,因此需設置較弱的先驗信息,使結果由樣本信息主導,是較為保守的方法。貝葉斯是連續的過程,不斷利用新獲得的樣本信息和之前的先驗信息對后驗結果進行更新。
因此,在臨床試驗中,利用貝葉斯的方法調整分配概率也是連續的過程:如在雙臂(A 組和 B 組)試驗中,基于不斷獲得的樣本信息,計算得到 A 組出現治療效果的概率大于 B 組的后驗概率,以此作為下一位受試者的分配概率[27]。同樣為減小分配概率的變異,使用調優參數,調整分配概率。此外,可以對后驗概率設定閾值,即當后驗概率超過閾值時,認為已經有充足的證據評價治療效果,即可以早期停止試驗[28]。
RAR 若在非盲狀態下調整分配概率,需要在整個臨床試驗中注意Ⅰ類錯誤率的消耗[29];同時,RAR 將分配比例傾向于治療效果較好的組,可能導致組間樣本量失衡,而損失檢驗效能。因此,使用 RAR 時,需綜合考慮倫理與統計推斷兩大因素[20, 30]。
3 協變量適應性隨機化
臨床試驗會涉及到很多重要的信息,如:年齡、性別、BMI 等,這些協變量會影響對結果的正確推斷。通過隨機化,可以平衡協變量,提高組間同質性,減少偏倚,從而得到正確的推斷結果。分層隨機化是實現協變量均衡的常用方法:當協變量數量較少時,該方法可以實現平衡協變量,且實施較簡單;但當協變量數量較多時,所有協變量在不同水平的組合數過多導致實施困難,還可能出現某些組合內樣本數量少甚至沒有的情況[31]。因此在樣本量較少、協變量數目較多的情況下,該方法效果并不理想[6, 32]。協變量適應性隨機化較好地解決了該問題。CAR 是指基于累積的受試者協變量信息及下一位受試者的信息調整分配概率,以實現組間協變量均衡,減少異質性及偏倚[33]。
Taves 等[34]最先提出了最小化的方法,目前最小化是 CAR 中最常用的方法[35]。不同于分層的方法,最小化不是使各因素在不同水平的組合上實現平衡,而是使協變量在自身的水平上分別實現平衡。最小化的思想是:根據已納入的受試者協變量信息及下一位受試者信息,計算下一位受試者進入各個比較組而造成協變量失衡的程度,使受試者分配到失衡程度最小組的概率很大,甚至為 1[34]。臨床試驗報告統一標準中提到最小化是代替隨機分配的可接受方案[36]。最小化的優勢在于可以同時平衡大量協變量,提高研究效率[6, 31],其在臨床試驗中已得到廣泛認可和使用[34]。CAR 可以均衡組間協變量,使得到的結論更加可靠,如:Aftab 等[37]的 RCT 比較了氯沙坦與標準療法治療透析后患者血壓的安全性及有效性,其利用 CAR 控制了年齡、性別、糖尿病及透析年限等可能影響血壓值的因素,以保證得到無偏結果。因此,在試驗方案中,需要注意根據研究方案及目的識別出對結局產生重要影響的非研究因素,利用 CAR 加以控制,若忽視了重要的協變量,即使其他協變量平衡,也會損失效能[38]。
4 調整協變量的反應適應性隨機化
反應適應性隨機化可以改善倫理問題,為受試者提供更好地治療;協變量適應性隨機化可以平衡協變量,提高研究效率。調整協變量的反應適應性隨機化結合了反應適應性隨機化和協變量適應性隨機化的方法,同時考慮了倫理和效率兩大問題[39];這種隨機化方法是指根據試驗中已累積的受試者的反應及協變量信息及下一位受試者協變量信息,考慮到均衡協變量的問題,同時增大下一位受試者分配到治療效果較好組的概率,保證了受試者的利益[6]。
目前,使用 CARA 隨機化方法的研究并不多。在方法學的研究中,大多是針對反應變量為二分類或符合線性模型的資料,但與多數實際情況并不相符[40]。此外,CARA 隨機化已逐漸運用到生存分析中[41]。有研究提出不同情況下計算分配概率的方法,可以同時考慮反應信息與協變量,但仍待于進一步研究驗證[42-44]。未來 CARA 隨機化作為 RAR 和 CAR 方法的結合,將為開展臨床試驗提供了新的思路。
5 討論
目前常用的統計推斷方法建立在完全隨機化的基礎上,完全隨機化要求所有受試者等概率分配,而適應性隨機化破壞了這一性質,因此產生了適應性隨機化能否使用傳統方法進行統計推斷的疑問。在 RAR 中,有研究提出一些基于不同模型的統計推斷方法[30, 45]。同樣在 CAR 中,有研究認為需要對統計方法做出一些調整[39, 46],目前尚未有統一定論,因此使用適應性隨機化如何進行統計推斷還有待進一步研究。
綜上,適應性隨機化的方法有很多,不同方法的著力點也有差異:限制性隨機化目的在于均衡組間樣本量,反應適應性隨機化在于使更多受試者獲益,協變量適應性隨機化在于均衡協變量,而調整協變量的反應適應性隨機化是 RAR 和 CAR 方法的結合。選擇恰當的適應性隨機化方法需要以試驗目的為導向,綜合考慮研究成本、受試者收益、招募受試者情況等多種因素。此外,適應性隨機化也不是完美的,不同方法都存在其不足之處,如:限制性隨機化可能導致協變量不均衡,反應適應性隨機化也可能將受試者分配到治療效果不佳的組等。因此,在設計臨床試驗方案時,還需要在傳統隨機化和適應性隨機化之間做出權衡。目前新藥臨床試驗使用適應性方法已是大勢所趨,但不能本末倒置,適應性方法的最終目的是服務于臨床試驗,其更需要詳細的規劃與嚴謹的管理,以保證更好地服務于臨床試驗。
隨機對照試驗(randomized controlled trial,RCT)是臨床療效評價的“金標準”[1]。其中,隨機化是 RCT 的基本原則,也是統計推斷的基礎。其通過對充足樣本進行隨機分配,來平衡大量未知或不可控的非研究因素,減少組間非研究因素對結局造成的偏倚,使結果更加可靠。
在傳統隨機對照試驗中,受試者隨機分配的概率不會在試驗過程中發生改變,分配比例通常設置為 1∶1,易于實施[2]。然而由于偶然性,固定的隨機化仍可能無法均衡潛在的協變量[3]。為應對這種情況,常采用的方法是適應性隨機化(adaptive randomization,AR),即允許在試驗過程中根據已累積的數據調整受試者分配的概率,以實現特定目的。如反應適應性隨機化(response-adaptive randomization,RAR)可以依據累積的數據,提高受試者分配到治療效果較好的組,使得更多受試者接受更好的治療,更符合倫理要求。此外,適應性隨機化還包括限制性隨機化(restricted randomization,RR)、協變量適應性隨機化(covariate-adaptive randomization,CAR)、調整協變量的反應適應性隨機化(covariate-adjusted response-adaptive randomization,CARA Randomization)等方法[4]。
本文簡要介紹臨床試驗中不同的適應性隨機化方法并比較其優劣,為臨床試驗研究者選擇隨機化方法提供參考。
1 限制性隨機化
限制性隨機化是指基于目前受試者的分配情況來調整下一位受試者的分配概率,從而達到組間樣本量均衡的目的[5, 6]。傳統臨床試驗中,使用完全隨機化可能造成組間樣本量不均衡,從而降低檢驗效能;區組化隨機(block randomization)是解決這一問題最常用的方法[7, 8],通過提前設置的區組分配納入的受試者,以實現均衡分配或特定比例的分配。然而,當區組隨機化實施到區組末端時,醫生很可能根據之前的分配結果猜到下一位受試者的分配情況,造成選擇性偏倚。在適應性設計中,利用限制性隨機化可以均衡組間樣本量,保證檢驗效能,還可以較大程度地減低分配方案被猜到的可能性,因此,在臨床試驗中得到廣泛地應用[5, 6]。
偏性擲幣設計(biased coin design,BCD)是限制性隨機化較為常用的方法,最初由 Efron 提出,該方法將分配概率傾向于樣本量較小的治療組,從而實現組間樣本量均衡和較好程度的隨機化[9, 10]。Efron 的設計方案是基于已累積的入組情況,計算目前組間樣本量差異,設定下一位受試者入某治療組的概率。該概率為固定值,只與樣本量差異的符號相關,與大小無關[10]。此外,Soares 等[11]提出“big stick design”,設定了非平衡的容忍量,若實際差異超過容忍量,則分配到樣本量較小組的概率為 1,否則按相等概率分配受試者[12]。與 Efron 相同,該概率值也為固定值。在偏性擲幣設計的基礎上,Smith 等[13]和 Wei 等[14]將概率設置為某種特定的函數,而非固定值,此外,Atkinson 等[15]提出了 DA 偏性擲幣設計(DA biased coin design)等方法。
隨機化、分配均衡都是臨床試驗的重要因素,但兩者又相互競爭:實現完全隨機化會導致分配不均衡,反之分配均衡也會影響某些協變量的完全隨機化,故需要在兩者之間做出權衡。限制性隨機化實現了受試者均衡分配和較好程度的隨機化,為臨床試驗提供了可能的方案選擇。
2 反應適應性隨機化
反應適應性隨機化是指基于目前已累積的受試者的治療情況,調整下一位受試者的分配概率,使之傾向于分配到治療較好的組[16, 17]。在傳統臨床試驗中,受試者的分配方案固定,即使某治療組未見成效,受試者仍需依照事先規劃的方案入組,這在一定程度上損害了受試者的利益;而反應適應性隨機化的目的在于將受試者以較大概率分配到出現較好治療效果的組,保證了受試者利益最大化。Zelen 等[18]在 1969 年提出著名的“play the winner”規則,即由上一位受試者的試驗結果決定下一位受試者的分配方案。之后,Wei 等[19]在此基礎上發展出“randomized play the winner”規則。Ivanova 等[20]提出“drop the loser”規則,可減小分配比例的變異程度,保證檢驗效能。
采用傳統頻率學方法進行 RAR,首先需要獲取累積的受試者反應信息,通過極大似然估計等方法估計未知參數(不同組的受試者出現反應的概率)[21],計算下一位受試者的分配概率[22];若組間治療效果差異較大(如治療組與安慰劑相比),可能造成樣本量均衡性較差,因此,可以考慮加入調優參數 λ,調整分配概率[23, 24]。在研究過程中獲取效應量進行調整可以在非盲狀態下進行[22];也可以由獨立的數據管理委員會進行,保持試驗人員的盲態[25]。在 Maki 等[26]的 RCT 中,比較了兩種方案治療轉移性軟組織肉瘤的效果,發現其中一種方案效果較好,利用 RAR 將分配比例傾向于該方案(兩個治療方案最終的樣本量分別為 73 和 49),較 1∶1 的分配比例而言,采用 RAR 可增加 12 位受試者獲益。
隨著貝葉斯理論在臨床試驗中的應用,形成了貝葉斯適應性隨機化(Bayesian adaptive randomization,BAR)。傳統頻率方法的統計推斷僅利用樣本獲得的信息,并且需要一定的樣本量以保證檢驗效能;而貝葉斯方法在樣本信息的基礎上,還利用了先前由內部或外部獲得的信息作為先驗信息,綜合二者得到后驗概率;但貝葉斯方法沒有特別強調Ⅰ類錯誤、檢驗效能等。此外,先驗信息會影響后驗概率,因此需設置較弱的先驗信息,使結果由樣本信息主導,是較為保守的方法。貝葉斯是連續的過程,不斷利用新獲得的樣本信息和之前的先驗信息對后驗結果進行更新。
因此,在臨床試驗中,利用貝葉斯的方法調整分配概率也是連續的過程:如在雙臂(A 組和 B 組)試驗中,基于不斷獲得的樣本信息,計算得到 A 組出現治療效果的概率大于 B 組的后驗概率,以此作為下一位受試者的分配概率[27]。同樣為減小分配概率的變異,使用調優參數,調整分配概率。此外,可以對后驗概率設定閾值,即當后驗概率超過閾值時,認為已經有充足的證據評價治療效果,即可以早期停止試驗[28]。
RAR 若在非盲狀態下調整分配概率,需要在整個臨床試驗中注意Ⅰ類錯誤率的消耗[29];同時,RAR 將分配比例傾向于治療效果較好的組,可能導致組間樣本量失衡,而損失檢驗效能。因此,使用 RAR 時,需綜合考慮倫理與統計推斷兩大因素[20, 30]。
3 協變量適應性隨機化
臨床試驗會涉及到很多重要的信息,如:年齡、性別、BMI 等,這些協變量會影響對結果的正確推斷。通過隨機化,可以平衡協變量,提高組間同質性,減少偏倚,從而得到正確的推斷結果。分層隨機化是實現協變量均衡的常用方法:當協變量數量較少時,該方法可以實現平衡協變量,且實施較簡單;但當協變量數量較多時,所有協變量在不同水平的組合數過多導致實施困難,還可能出現某些組合內樣本數量少甚至沒有的情況[31]。因此在樣本量較少、協變量數目較多的情況下,該方法效果并不理想[6, 32]。協變量適應性隨機化較好地解決了該問題。CAR 是指基于累積的受試者協變量信息及下一位受試者的信息調整分配概率,以實現組間協變量均衡,減少異質性及偏倚[33]。
Taves 等[34]最先提出了最小化的方法,目前最小化是 CAR 中最常用的方法[35]。不同于分層的方法,最小化不是使各因素在不同水平的組合上實現平衡,而是使協變量在自身的水平上分別實現平衡。最小化的思想是:根據已納入的受試者協變量信息及下一位受試者信息,計算下一位受試者進入各個比較組而造成協變量失衡的程度,使受試者分配到失衡程度最小組的概率很大,甚至為 1[34]。臨床試驗報告統一標準中提到最小化是代替隨機分配的可接受方案[36]。最小化的優勢在于可以同時平衡大量協變量,提高研究效率[6, 31],其在臨床試驗中已得到廣泛認可和使用[34]。CAR 可以均衡組間協變量,使得到的結論更加可靠,如:Aftab 等[37]的 RCT 比較了氯沙坦與標準療法治療透析后患者血壓的安全性及有效性,其利用 CAR 控制了年齡、性別、糖尿病及透析年限等可能影響血壓值的因素,以保證得到無偏結果。因此,在試驗方案中,需要注意根據研究方案及目的識別出對結局產生重要影響的非研究因素,利用 CAR 加以控制,若忽視了重要的協變量,即使其他協變量平衡,也會損失效能[38]。
4 調整協變量的反應適應性隨機化
反應適應性隨機化可以改善倫理問題,為受試者提供更好地治療;協變量適應性隨機化可以平衡協變量,提高研究效率。調整協變量的反應適應性隨機化結合了反應適應性隨機化和協變量適應性隨機化的方法,同時考慮了倫理和效率兩大問題[39];這種隨機化方法是指根據試驗中已累積的受試者的反應及協變量信息及下一位受試者協變量信息,考慮到均衡協變量的問題,同時增大下一位受試者分配到治療效果較好組的概率,保證了受試者的利益[6]。
目前,使用 CARA 隨機化方法的研究并不多。在方法學的研究中,大多是針對反應變量為二分類或符合線性模型的資料,但與多數實際情況并不相符[40]。此外,CARA 隨機化已逐漸運用到生存分析中[41]。有研究提出不同情況下計算分配概率的方法,可以同時考慮反應信息與協變量,但仍待于進一步研究驗證[42-44]。未來 CARA 隨機化作為 RAR 和 CAR 方法的結合,將為開展臨床試驗提供了新的思路。
5 討論
目前常用的統計推斷方法建立在完全隨機化的基礎上,完全隨機化要求所有受試者等概率分配,而適應性隨機化破壞了這一性質,因此產生了適應性隨機化能否使用傳統方法進行統計推斷的疑問。在 RAR 中,有研究提出一些基于不同模型的統計推斷方法[30, 45]。同樣在 CAR 中,有研究認為需要對統計方法做出一些調整[39, 46],目前尚未有統一定論,因此使用適應性隨機化如何進行統計推斷還有待進一步研究。
綜上,適應性隨機化的方法有很多,不同方法的著力點也有差異:限制性隨機化目的在于均衡組間樣本量,反應適應性隨機化在于使更多受試者獲益,協變量適應性隨機化在于均衡協變量,而調整協變量的反應適應性隨機化是 RAR 和 CAR 方法的結合。選擇恰當的適應性隨機化方法需要以試驗目的為導向,綜合考慮研究成本、受試者收益、招募受試者情況等多種因素。此外,適應性隨機化也不是完美的,不同方法都存在其不足之處,如:限制性隨機化可能導致協變量不均衡,反應適應性隨機化也可能將受試者分配到治療效果不佳的組等。因此,在設計臨床試驗方案時,還需要在傳統隨機化和適應性隨機化之間做出權衡。目前新藥臨床試驗使用適應性方法已是大勢所趨,但不能本末倒置,適應性方法的最終目的是服務于臨床試驗,其更需要詳細的規劃與嚴謹的管理,以保證更好地服務于臨床試驗。