隨著單病例隨機對照試驗(N-of-1 試驗)受到越來越多的關注,其樣本量估算是困擾科研人員的重要問題。本文主要介紹了 N-of-1 試驗的模型和假設,在模型基礎上,提出固定模型和隨機模型的樣本量估計方法,并給出對應的應用條件、公式及實例。以期國內研究人員實施 N-of-1 試驗方案時,能夠使用正確的樣本量估計方法,從而提高我國 N-of-1 試驗的研究質量。
引用本文: 陳新林. 單病例隨機對照(N-of-1)試驗的樣本量估計方法. 中國循證醫學雜志, 2019, 19(7): 871-874. doi: 10.7507/1672-2531.201901075 復制
單病例隨機對照試驗(single case randomized controlled trial)簡稱 N-of-1 試驗,是一種基于單個患者進行隨機、多周期二階段交叉設計的研究方案,用于比較兩種干預方法(或藥物)的治療效果[1-10]。N-of-1 試驗通過反復在同一個患者身上進行多次的交叉對照研究,比較不同治療方法的效果,最終用于指導個體患者的治療[1-3]。目前,國內開展的 N-of-1 試驗大部分來自中醫藥領域,主要包括中藥或者針灸治療癌癥、糖尿病、高血壓、腎病、支氣管擴張癥等慢性病[7]。這些 N-of-1 試驗均取得了一定的效果,然而目前國內開展的 N-of-1 試驗都沒有報道樣本量估算方法。國外的研究者一般在交叉設計的基礎上,計算 N-of-1 試驗的樣本量[11-15]。而國內研究者對 N-of-1 試驗樣本量的估算上仍存在困擾,很多研究者并不知道正確的樣本量估算方法。本文將闡明 N-of-1 試驗的模型和假設(樣本量估計原理),并在此基礎上,給出相應的樣本量估算方法、應用條件及實例。
1 N-of-1 試驗的模型和假設
假設 n 個患者將在 k 次周期中隨機分配給 A 干預和 B 干預,即在 k 個周期內,患者將隨機接受 A 或 B 干預中的一個。假設所研究疾病的病情是穩定的,可通過清洗期等方法消除殘留效應。另外,測量指標為連續型變量;對于每個患者每個周期的數據,A 干預和 B 干預的效果可以互減,得到兩種干預的差值(d)。因此,Senn 等[13, 16]在 Chen[17] 的研究基礎上,提出下面的模型:
![]() |
其中 i 表示患者,j 表示周期(j ≥ 2);d 表示干預 A 減去干預 B 得到的差值(治療效應差)。τi 是第 i 個患者治療效應差的平均值,服從正態分布,其均數為 T,方差為 2。
2 反映不同患者之間治療效應的變異程度;該數值越大,說明不同患者之間的治療效果相差越大。
是隨機效應,不同患者不同周期的隨機效應互相獨立,也服從正態分布,其均數為 0,方差為 2σ2。2σ2 表示患者自身治療效果的變異程度,該數值越大,說明同一個患者不同周期的治療效果相差越大。根據公式(1),第 i 個患者治療效應差的平均值
,其對應的方差為
。所有患者治療效應差的方差為
。T 的估計值
。基于上述模型,有固定模型和隨機模型可用于估計 N-of-1 試驗的樣本量。
2 固定模型的樣本量估計
固定模型的前提是所有患者之間治療效應完全一樣,不存在患者間的治療差異,即 ψ=0。ψ2 可以從方差分量中去除;因此,得到第 i 個患者治療效應差的方差為,所有患者的方差為
。這種情況,N-of-1 試驗的樣本量類似交叉設計,只是需要考慮 N-of-1 試驗的周期數(k=2 就等同于 2×2 交叉設計,這時可使用 2×2 交叉設計的樣本量公式)。Senn[11] 提出非中心 t 分布和非中心參數理論,其檢驗功效的近似計算公式為:
![]() |
式中,α 表示Ⅰ類錯誤,β 表示Ⅱ類錯誤,1-β 表示功效,n 表示樣本量,k 表示周期數,Δ 為兩種處理效應的均數差,σ 為公式 1 的標準差,度量同一個患者不同周期的治療效果的變異度。公式 2 的自由度為 k(n- 1),而實際的自由度是 nk-1,這時會低估樣本量,因此需要在上述樣本量的基礎上,依次增加一例患者,不斷迭代,直至達到功效為止。
公式(2)用于數值資料的差異性檢驗,對于藥物研發的非劣效性檢驗(non-inferiority)、優效性檢驗(superiority)和等效性檢驗(equivalence),則需要調整假設檢驗,并考慮這些檢驗的邊界值(margin)。
實例 1:開展 3 周期 N-of-1 試驗,比較藥物 A 和藥物 B 的治療效果。假設不同患者之間的治療效果不存在差別。如果患者自身治療效果的標準差為 5(σ),兩組的治療效果差別為 3(Δ);在Ⅰ類錯誤 0.05 和功效為 80% 的前提下,需要多少例患者?
根據條件可知Ⅰ類錯誤= 0. 05,檢驗功效為 80%。根據上述條件,可以算出所有患者治療效應差的方差為 16.67(2*5*5/3),對應的標準差為 4.08(σ),代入公式(2),得到 n=15,此時的功效為 78.6%,沒有達到 80%。因此增加 1 例患者,得到 16 例,代入公式(2),得到對應的功效 81.3%,大于 80%,最終需要 16 例患者,一共包括 48 個周期(3*16)。
實例 2:開展 4 周期 N-of-1 試驗,其它條件均和實例 1 一樣,需要多少例患者?
代入公式(2),得到 n=10,此時的功效為 73.8%,在上述樣本量的基礎上,依次增加一例患者,不斷迭代,最終得到樣本量為 12(功效為 81.6%),一共包括 48 個周期(4*12)。
3 隨機模型的樣本量估計
隨機模型的前提是不同患者之間治療效應不完全一樣,存在患者間的治療差異,即 ≠0。因此計算樣本量的時候,需要同時考慮公式 1 中的 σ 和
。按照 Zucker 等[18, 19]的前提,這時所有患者治療效應差的方差為
,對應的標準差為
。在計算出所有患者治療效應差的方差的條件下,采用 O'Brien 和 Muller(1993)給出的單樣本 t 檢驗的樣本量估計公式。該公式基于非中心 t 分布和非中心參數理論,其檢驗功效的計算公式為[20]:
![]() |
公式(3)中,α 表示Ⅰ類錯誤,β 表示Ⅱ類錯誤,1-β 表示功效,n 表示樣本量,Δ 為兩種處理效應的均數差;σ1 為所有患者治療效應差的標準差,這里的 σ1 跟公式 2 中的 σ 不一樣,其計算公式為,對應的自由度為 (n- 1)。
實例 3:開展 3 周期 N-of-1 試驗,比較藥物 A 和藥物 B 的治療效果。假設不同患者之間的治療效果存在差別,其標準差為 3()。如果患者自身治療效果的標準差為 5(σ),兩組的治療效果差別為 3(Δ);在Ⅰ類錯誤 0.05 和功效為 80% 的前提下,需要多少例患者?
根據條件可知Ⅰ類錯誤= 0. 05,檢驗功效為 80%。根據上述條件,計算出所有患者治療效果的方差為 25.67,標準差(σ1)為 5.07。代入公式(3),得到 n=25,需要 25 例患者(對應的功效為 81.1%),一共包括 75 個周期(3*25)。
從上面的實例可以得到:隨機效應模型受到不同患者之間治療效應值方差(2)的影響。相同參數情況下,固定模型得到的樣本量小于隨機模型。隨著
2 的增加,隨機模型對應的樣本量隨著增大。比如實例 3 中的
如果翻倍(從 3 變成 6),其它條件不變,得到 n=48,樣本量也基本翻倍。
在相同的樣本量估計參數設置下,如果開展 2 周期 N-of-1 試驗(相當于 2×2 交叉設計),需要多少例患者?將數值代入公式(3),得到 n=32,對應的功效為 80.5%,一共需要 64 個周期(2*32)。在相同的樣本量估計參數設置下,開展 4 周期 N-of-1 試驗,則得到 n=21,對應的功效為 80.5%,一共需要 84 個周期(4*21)。
4 討論
本文基于 N-of-1 試驗設計的原理和統計學分布理論,給出 N-of-1 試驗的樣本量估計方法。目前主要有兩種方法估計 N-of-1 試驗的樣本量:固定模型和隨機模型。兩種模型的前提條件不一樣,固定模型要求所有患者之間的治療效應一樣,不存在患者間的治療差異,該條件一般在實際中很難滿足。不同患者對治療的靈敏度不一樣,經常對特定的治療存在個體差異,因此隨機模型的樣本量估計更符合實際情況,而使用固定模型估計樣本量時一定要慎重。
總的來看,在相同的樣本量估計參數設置下,隨機效應所需的樣本量大于固定效應。隨機效應的樣本量受到不同患者之間治療效應值方差(ψ2)的影響。隨著不同患者之間治療效應值方差的增加,其樣本量也隨之增大。比如實例 3 中的 ψ 翻倍(從 3 變成 6)而其它條件不變,對應的樣本量從 25 例變成 48 例,樣本量也基本翻倍。
在相同的樣本量估計參數設置下,隨著周期數的增加,固定效應的樣本量成比例減小。本研究發現 3 周期的 N-of-1 試驗,需要 16 例患者;4 周期的 N-of-1 試驗,需要 12 例患者;兩種情況下的周期總數都等于 48。Senn[13] 證明對于固定效應,隨著周期數的增加,所有納入對象的周期總數基本保持不變。該結果提示如果符合固定效應,研究者可以選擇開展 3 周期或 4 周期(甚至更高周期)的 N-of-1 試驗;當然也可以在同一個 N-of-1 試驗,對不同患者采取不同周期的 N-of-1 試驗。本研究進一步發現:隨著周期數的增加,隨機模型的周期總數不斷的增加[13]。因此,對于隨機模型,建議開展較低周期的 N-of-1 試驗,更容易節約樣本量。
很多常用的樣本量估計軟件,比如 PASS 軟件,nQuery 軟件等只有交叉設計樣本量估計的模塊。由于 N-of-1 試驗比較特殊,這些軟件并沒有 N-of-1 試驗的模塊。因此研究者需要根據需求利用上述公式計算樣本量,這在一定程度上限制了它的廣泛應用。希望國內研究人員實施 N-of-1 試驗方案時,能夠使用正確的樣本量估計方法,從而提高我國 N-of-1 試驗的研究質量。
單病例隨機對照試驗(single case randomized controlled trial)簡稱 N-of-1 試驗,是一種基于單個患者進行隨機、多周期二階段交叉設計的研究方案,用于比較兩種干預方法(或藥物)的治療效果[1-10]。N-of-1 試驗通過反復在同一個患者身上進行多次的交叉對照研究,比較不同治療方法的效果,最終用于指導個體患者的治療[1-3]。目前,國內開展的 N-of-1 試驗大部分來自中醫藥領域,主要包括中藥或者針灸治療癌癥、糖尿病、高血壓、腎病、支氣管擴張癥等慢性病[7]。這些 N-of-1 試驗均取得了一定的效果,然而目前國內開展的 N-of-1 試驗都沒有報道樣本量估算方法。國外的研究者一般在交叉設計的基礎上,計算 N-of-1 試驗的樣本量[11-15]。而國內研究者對 N-of-1 試驗樣本量的估算上仍存在困擾,很多研究者并不知道正確的樣本量估算方法。本文將闡明 N-of-1 試驗的模型和假設(樣本量估計原理),并在此基礎上,給出相應的樣本量估算方法、應用條件及實例。
1 N-of-1 試驗的模型和假設
假設 n 個患者將在 k 次周期中隨機分配給 A 干預和 B 干預,即在 k 個周期內,患者將隨機接受 A 或 B 干預中的一個。假設所研究疾病的病情是穩定的,可通過清洗期等方法消除殘留效應。另外,測量指標為連續型變量;對于每個患者每個周期的數據,A 干預和 B 干預的效果可以互減,得到兩種干預的差值(d)。因此,Senn 等[13, 16]在 Chen[17] 的研究基礎上,提出下面的模型:
![]() |
其中 i 表示患者,j 表示周期(j ≥ 2);d 表示干預 A 減去干預 B 得到的差值(治療效應差)。τi 是第 i 個患者治療效應差的平均值,服從正態分布,其均數為 T,方差為 2。
2 反映不同患者之間治療效應的變異程度;該數值越大,說明不同患者之間的治療效果相差越大。
是隨機效應,不同患者不同周期的隨機效應互相獨立,也服從正態分布,其均數為 0,方差為 2σ2。2σ2 表示患者自身治療效果的變異程度,該數值越大,說明同一個患者不同周期的治療效果相差越大。根據公式(1),第 i 個患者治療效應差的平均值
,其對應的方差為
。所有患者治療效應差的方差為
。T 的估計值
。基于上述模型,有固定模型和隨機模型可用于估計 N-of-1 試驗的樣本量。
2 固定模型的樣本量估計
固定模型的前提是所有患者之間治療效應完全一樣,不存在患者間的治療差異,即 ψ=0。ψ2 可以從方差分量中去除;因此,得到第 i 個患者治療效應差的方差為,所有患者的方差為
。這種情況,N-of-1 試驗的樣本量類似交叉設計,只是需要考慮 N-of-1 試驗的周期數(k=2 就等同于 2×2 交叉設計,這時可使用 2×2 交叉設計的樣本量公式)。Senn[11] 提出非中心 t 分布和非中心參數理論,其檢驗功效的近似計算公式為:
![]() |
式中,α 表示Ⅰ類錯誤,β 表示Ⅱ類錯誤,1-β 表示功效,n 表示樣本量,k 表示周期數,Δ 為兩種處理效應的均數差,σ 為公式 1 的標準差,度量同一個患者不同周期的治療效果的變異度。公式 2 的自由度為 k(n- 1),而實際的自由度是 nk-1,這時會低估樣本量,因此需要在上述樣本量的基礎上,依次增加一例患者,不斷迭代,直至達到功效為止。
公式(2)用于數值資料的差異性檢驗,對于藥物研發的非劣效性檢驗(non-inferiority)、優效性檢驗(superiority)和等效性檢驗(equivalence),則需要調整假設檢驗,并考慮這些檢驗的邊界值(margin)。
實例 1:開展 3 周期 N-of-1 試驗,比較藥物 A 和藥物 B 的治療效果。假設不同患者之間的治療效果不存在差別。如果患者自身治療效果的標準差為 5(σ),兩組的治療效果差別為 3(Δ);在Ⅰ類錯誤 0.05 和功效為 80% 的前提下,需要多少例患者?
根據條件可知Ⅰ類錯誤= 0. 05,檢驗功效為 80%。根據上述條件,可以算出所有患者治療效應差的方差為 16.67(2*5*5/3),對應的標準差為 4.08(σ),代入公式(2),得到 n=15,此時的功效為 78.6%,沒有達到 80%。因此增加 1 例患者,得到 16 例,代入公式(2),得到對應的功效 81.3%,大于 80%,最終需要 16 例患者,一共包括 48 個周期(3*16)。
實例 2:開展 4 周期 N-of-1 試驗,其它條件均和實例 1 一樣,需要多少例患者?
代入公式(2),得到 n=10,此時的功效為 73.8%,在上述樣本量的基礎上,依次增加一例患者,不斷迭代,最終得到樣本量為 12(功效為 81.6%),一共包括 48 個周期(4*12)。
3 隨機模型的樣本量估計
隨機模型的前提是不同患者之間治療效應不完全一樣,存在患者間的治療差異,即 ≠0。因此計算樣本量的時候,需要同時考慮公式 1 中的 σ 和
。按照 Zucker 等[18, 19]的前提,這時所有患者治療效應差的方差為
,對應的標準差為
。在計算出所有患者治療效應差的方差的條件下,采用 O'Brien 和 Muller(1993)給出的單樣本 t 檢驗的樣本量估計公式。該公式基于非中心 t 分布和非中心參數理論,其檢驗功效的計算公式為[20]:
![]() |
公式(3)中,α 表示Ⅰ類錯誤,β 表示Ⅱ類錯誤,1-β 表示功效,n 表示樣本量,Δ 為兩種處理效應的均數差;σ1 為所有患者治療效應差的標準差,這里的 σ1 跟公式 2 中的 σ 不一樣,其計算公式為,對應的自由度為 (n- 1)。
實例 3:開展 3 周期 N-of-1 試驗,比較藥物 A 和藥物 B 的治療效果。假設不同患者之間的治療效果存在差別,其標準差為 3()。如果患者自身治療效果的標準差為 5(σ),兩組的治療效果差別為 3(Δ);在Ⅰ類錯誤 0.05 和功效為 80% 的前提下,需要多少例患者?
根據條件可知Ⅰ類錯誤= 0. 05,檢驗功效為 80%。根據上述條件,計算出所有患者治療效果的方差為 25.67,標準差(σ1)為 5.07。代入公式(3),得到 n=25,需要 25 例患者(對應的功效為 81.1%),一共包括 75 個周期(3*25)。
從上面的實例可以得到:隨機效應模型受到不同患者之間治療效應值方差(2)的影響。相同參數情況下,固定模型得到的樣本量小于隨機模型。隨著
2 的增加,隨機模型對應的樣本量隨著增大。比如實例 3 中的
如果翻倍(從 3 變成 6),其它條件不變,得到 n=48,樣本量也基本翻倍。
在相同的樣本量估計參數設置下,如果開展 2 周期 N-of-1 試驗(相當于 2×2 交叉設計),需要多少例患者?將數值代入公式(3),得到 n=32,對應的功效為 80.5%,一共需要 64 個周期(2*32)。在相同的樣本量估計參數設置下,開展 4 周期 N-of-1 試驗,則得到 n=21,對應的功效為 80.5%,一共需要 84 個周期(4*21)。
4 討論
本文基于 N-of-1 試驗設計的原理和統計學分布理論,給出 N-of-1 試驗的樣本量估計方法。目前主要有兩種方法估計 N-of-1 試驗的樣本量:固定模型和隨機模型。兩種模型的前提條件不一樣,固定模型要求所有患者之間的治療效應一樣,不存在患者間的治療差異,該條件一般在實際中很難滿足。不同患者對治療的靈敏度不一樣,經常對特定的治療存在個體差異,因此隨機模型的樣本量估計更符合實際情況,而使用固定模型估計樣本量時一定要慎重。
總的來看,在相同的樣本量估計參數設置下,隨機效應所需的樣本量大于固定效應。隨機效應的樣本量受到不同患者之間治療效應值方差(ψ2)的影響。隨著不同患者之間治療效應值方差的增加,其樣本量也隨之增大。比如實例 3 中的 ψ 翻倍(從 3 變成 6)而其它條件不變,對應的樣本量從 25 例變成 48 例,樣本量也基本翻倍。
在相同的樣本量估計參數設置下,隨著周期數的增加,固定效應的樣本量成比例減小。本研究發現 3 周期的 N-of-1 試驗,需要 16 例患者;4 周期的 N-of-1 試驗,需要 12 例患者;兩種情況下的周期總數都等于 48。Senn[13] 證明對于固定效應,隨著周期數的增加,所有納入對象的周期總數基本保持不變。該結果提示如果符合固定效應,研究者可以選擇開展 3 周期或 4 周期(甚至更高周期)的 N-of-1 試驗;當然也可以在同一個 N-of-1 試驗,對不同患者采取不同周期的 N-of-1 試驗。本研究進一步發現:隨著周期數的增加,隨機模型的周期總數不斷的增加[13]。因此,對于隨機模型,建議開展較低周期的 N-of-1 試驗,更容易節約樣本量。
很多常用的樣本量估計軟件,比如 PASS 軟件,nQuery 軟件等只有交叉設計樣本量估計的模塊。由于 N-of-1 試驗比較特殊,這些軟件并沒有 N-of-1 試驗的模塊。因此研究者需要根據需求利用上述公式計算樣本量,這在一定程度上限制了它的廣泛應用。希望國內研究人員實施 N-of-1 試驗方案時,能夠使用正確的樣本量估計方法,從而提高我國 N-of-1 試驗的研究質量。