引用本文: 陳新林, 陳麗霞, 黃海茵, 陳一鳴, 張詩靜, 彭彬, 鄧潔敏, 胡月, 侯江濤, 林文嘉. 系列 N-of-1 試驗定量數據混合效應模型的模擬研究. 中國循證醫學雜志, 2021, 21(6): 689-695. doi: 10.7507/1672-2531.202012037 復制
單病例隨機對照試驗,簡稱為 N-of-1 試驗。在國外,已經廣泛用于多種慢性病的研究[1-4]。在國內 N-of-1 試驗主要用于中醫藥領域[5-9]。通過文獻綜述,發現中醫藥 N-of-1 試驗主要存在以下缺陷:① 中醫藥研究的中藥成分較復雜,半衰期較長,存在一定的殘留效應。而研究者在分析過程中,一般采用 t 檢驗、配對 t 檢驗或秩和檢驗等分析方法,沒有考慮如何處理殘留效應;② 研究納入的樣本量均比較少,大部分是 3 到 6 例,部分研究達到 10 例[5, 10]。
貝葉斯統計是在不完全清楚情況下,綜合未知參數的先驗信息與樣本信息,依據貝葉斯公式,求出后驗分布,根據后驗分布推斷未知參數的統計方法[11-14]。最近幾十年,隨著計算機技術的發展,貝葉斯理論和應用得到了迅速發展[15],也逐漸應用于 N-of-1 試驗[16, 17]。貝葉斯統計可以有效利用先驗信息,將先驗信息與樣本信息整理形成后驗概率,最終提高統計推斷的質量,在小樣本數據分析中具有明顯優勢[18]。
我們之前開展了 N-of-1 無殘留效應數據的模擬研究,研究發現對于無殘留效應正態分布數值資料,混合效應模型可以很好地控制Ⅰ類錯誤,有較高的功效,比配對 t 檢驗更適合用于 N-of-1 數據的分析[19, 20]。本研究將貝葉斯統計方法應用于混合效應模型,構建貝葉斯混合效應模型。對服從正態分布的系列 N-of-1 試驗數據進行模擬研究,比較配對 t 檢驗、混合效應模型和貝葉斯混合效應模型三種方法的統計性能。
1 資料與方法
1.1 研究步驟
本研究的系列 N-of-1 試驗設定為 3 個周期,每個周期患者隨機接受 2 種處理(A 或 B 處理),一共 6 個階段。每個階段之間沒有洗脫期,因此可能產生殘留效應。這里假設產生的殘留效應較低,≤10% 的處理效應。本研究采用之前的方法開展模擬研究[19],步驟包括模擬產生六元的 N-of-1 數據,隨機分配處理方法和研究對象,增加殘留效應,構建分析模型,評價模型和設置參數。
1.2 分析模型
本研究的分析模型包括:
1.2.1 配對 t 檢驗
將對象一個周期內的兩個階段當作配對因素,用配對 t 檢驗進行分析,此模型為 M1。
1.2.2 混合效應模型
將產生的數據根據公式(一)擬合
![]() |
其中, 為第 i 個對象第 j 個階段(j=1,2,3,4,5,6)的效應值。
為截距;
為 A、B 處理效應差值的總均數,
有統計學意義說明兩種處理的效應不一致。
和
分別為階段效應和殘留效應。
是第 i 個對象的指示變量,
表示其對應的隨機效應。
為誤差。
擬合上述模型時,方差協方差矩陣設定為 CS 結構,此模型為 M2。
1.2.3 貝葉斯混合效應模型
參照公式(一),使用 SAS 9.1 輸入命令的方式執行 WinBugs 軟件實現模型的估計過程,此模型為 M3。具體步驟如下:
① 按照公式(一)編寫模型語句,其中 y 服從正態分布。
② 設定待估參數的先驗分布:假定待估參數 的先驗分布服從標準正態分布,
(0,σ2),即
的均數為 0,方差為
;方差的共軛先驗分布為倒伽瑪分布,即
(0.01,0.01)。
先驗分布服從正態分布:
(0,10 000),它的后驗均值是樣本均值與先驗均值的加權平均,權重分別為樣本方差與先驗方差的倒數,因此 N(0,10 000) 其實是無信息的先驗分布。同理
的先驗分布設定為:
(0,10 000)。
③ 設定待估參數的初始值。 的初始值設置為效應差,例如,效應差如果是 1,則對應的初始值設定為 1。
和
的初始值都取為 0。
④ 導入模擬產生的數據,進行計算,并輸出結果。首先做一次模擬試驗,進行 MCMC 抽樣 1 000 次,每隔 10 輪記錄一次結果。自相關圖顯示抽樣 10 次時,參數的抽樣相關性已經很小。抽樣估計圖顯示剛開始(10 次)抽樣已經達到平穩,為了達到收斂的目的,在模擬中“退火”次數為 5 000,之后再抽樣 5 000 次用于計算后驗分布。WinBugs 報告估計值的中位數、2.5 百分位數和 97.5 百分位數(P2.5 和 P97.5),P2.5 和 P97.5 用于評價估計值是否存在統計學意義。
1.3 模型評價
計算效應差值的Ⅰ類錯誤、檢驗功效、效應差值估計值的偏差(mean error,ME)和均方誤差(mean square error,MSE)。效應差值的Ⅰ類錯誤定義:實際為 0 的效應差值,使用模型擬合得到的效應差值存在統計學意義的概率。效應差值的檢驗功效定義:實際不為 0 的效應差值,使用模型擬合得到的效應差值存在統計學意義的概率。其它指標計算公式如下:
![]() |
其中,μ 為效應差值的真實值, 為第 l 個模型(l=1,2,3)第 m 次模擬得到的估計值,M 表示模擬總次數。ME 用來考察是否高估或低估估計值。MSE 用于表示估計值和真實值的接近程度,在一定的條件下,可討論估計值的漸進分布。
1.4 參數設置
為了充分了解不同樣本量對結果的影響,將樣本量設定為 3、5、8 和 10(N=3,5,8,10)。每個時間點的方差等于 1,協方差分別設定為 0、0.5 和 0.8(分別對應無相關、中等相關和強相關),即相關系數分別為 0、0.5 和 0.8。假定 A、B 兩種處理都有效,A 的處理效應更高,因此設定 B 處理效應(對照組)為 2.0,A 處理效應(干預組)分別為 2.0、2.6 和 3.0,即效應差值分別為 0.0、0.6 和 1.0。
本研究假設殘留效應只對后一階段有影響,對其他階段沒有影響。① A、B 的殘留效應比例(殘留比例)一致,分別設定殘留比例為 0%(0% vs. 0%)和 10%(10% vs. 10%)。② A、B 的殘留比例不一致,A、B 的殘留比例分別設定為 0% 和 10%、10% 和 0%。0% vs. 10% 表示 A 的殘留比例為 0%,B 的殘留比例為 10%,以此類推。
使用 SAS 9.1 軟件的 PROC ttest 及 PROC mixed 過程步對 M1 和 M2 進行擬合;使用 SAS 9.1 軟件和 WinBugs 軟件對 M3 進行擬合。每種情況都重復模擬 1 000 次(M=1 000)。
2 結果
2.1 Ⅰ類錯誤
當不存在殘留效應(0% vs. 0%)或者殘留比例一致(10% vs. 10%)時,三個模型的Ⅰ類錯誤都約等于 0.05(表 1)。當兩種處理的殘留比例不一致時,M2 和 M3 的Ⅰ類錯誤約等于 0.05;M1 發生Ⅰ類錯誤大于 0.05。隨著樣本量及協方差系數越大,M1 發生Ⅰ類錯誤概率越大。例如,當 0% vs. 10% 的殘留比例時,M1 的Ⅰ類錯誤達到 14.5%(N=10,CS3)。

2.2 功效
M3 和 M2 的功效不受殘留效應的影響。相同條件下,M3 和 M2 的功效大致相等。隨著樣本量的協方差系數的增加,M3 和 M2 的功效都隨之增加(表 2)。M1 的功效受到殘留效應的影響。當不存在殘留效應(0% vs. 0%)時,M1 的檢驗功效大于 M2 和 M3 的功效。當殘留比例偏向 B 干預(0% vs. 10%)時,M1 的功效升高,主要原因是 M1 將殘留效應疊加到 B 干預,其更容易得到陽性結果。當殘留比例偏向 A 干預(10% vs. 0%)時,M1 的功效降低,主要原因是 M1 將殘留效應疊加到 A 干預。

2.3 ME 和 MSE
樣本量為 3 和 8 的情況下,三種方法的 ME 和 MSE 見圖 1、圖 2 和表 3。① 當不存在殘留效應(0% vs. 0%)時,三種方法的 ME 約為 0;M1 的 MSE 最小,其次分別為 M2 和 M3。② 存在殘留效應時,M1 的 ME 和 MSE 受到殘留比例的影響。M1 的 ME 絕對值約等于殘留效應的一半,例如,當效應差為 1.0 時,M1 的 ME 為 ?0.052(N=3,殘留比例為 10% vs. 10%),其絕對值等于兩種干預的殘留效應(效應差 1.0 乘以殘留比例 10%,即 0.1)的一半。0% vs. 10% 情況下的 ME 大約等于 0.1(N=3 為 0.096,N=8 為 0.106),其原因如下:0% vs. 10% 對應 A 和 B 處理,即 A 處理沒有殘留效應,B 處理存在 10% 殘留效應,B 處理的處理效應為 2,因此殘留效應為 0.2(2×10%),殘留效應的一半等于 ME(0.1)。③ 存在殘留效應時,M2 和 M3 的 ME 和 MSE 不受殘留比例的影響。M2 和 M3 效應差的估計值(ME)都接近 0,說明這兩個模型得到的估計值跟真實值很接近。N=3 和 CS3 結構時,M2 和 M3 的 ME 分別為 0.010 和?0.014。N=8 和 CS2 結構時,M2 和 M3 的 ME 分別為 0.009 和 ?0.015。


M2 和 M3 四種殘留效應情況下的 MSE 都一樣。M1 0%

3 討論
本文主要對樣本量為 3、5、8 和 10(N=3,5,8,10)的 N-of-1 數值進行了模擬研究。產生多元數據后,使用配對 t 檢驗(M1)、混合效應模型(M2)和貝葉斯混合效應模型(M3)對數據進行分析,使用Ⅰ類錯誤、檢驗功效、估計值的 ME 和 MSE 來比較 3 種方法統計性能(表 4)。

當兩種處理均沒有殘留效應時(0% vs. 0%)時,配對 t 檢驗可很好控制Ⅰ類錯誤,具有最高的功效。原因在于其只考慮處理效應,而其他模型考慮了殘留效應、階段效應和個體效應等,導致其標準誤(MSE)最小,更容易得到陽性結果。因此當兩種處理都沒有殘留效應時,推薦使用配對 t 檢驗。
當存在殘留效應時,配對 t 檢驗(M1)效應差的估計值偏離真實值,ME 的絕對值約為殘留效應的一半。配對 t 檢驗沒有區分處理效應和殘留效應,把殘留效應累加到處理效應。雖然其有較高的功效,但會導致估計值偏離真實值(ME 不為 0),增加了Ⅰ類錯誤發生概率,其不適合用于存在殘留效應 N-of-1 數據的分析。
混合效應模型(M2)和貝葉斯混合效應模型(M3)都適合用于 N-of-1 數據的分析。① 兩種模型可很好控制Ⅰ類錯誤,所有情況下的Ⅰ類錯誤約等于 0.05。② 無論殘留比例是多少,模型估計值的均數約等于真實值(ME 約為 0)。兩個模型都可以把總效應分離為處理效應、殘留效應等[21-23]。③ 兩種模型都有良好的功效和 MSE。例如,N=10,殘留比例為 0% vs. 10%,效應差為 0.6 時,M2 的功效為 0.760,M3 的功效為 0.768。當 A、B 處理效應分別為 2.0 和 2.6(效應差為 0.6),標準差為 1.0,假設Ⅰ類錯誤為 0.05,功效為 0.768,使用兩獨立樣本設計,需要每組 42 例、共 84 例的樣本。而開展 N-of-1
總之,對于系列 N-of-1 正態分布數據,沒有殘留效應時(0% vs. 0%),首選配對 t 檢驗。當存在殘留效應時,配對 t 檢驗會增大Ⅰ類錯誤,導致估計值和真實值不一樣(ME 不為 0),不適合 N-of-1 數據的分析。當存在殘留效應時,混合效應模型和貝葉斯混合效應模型都適用于系列 N-of-1 數據的分析。由于貝葉斯的實現過程比較復雜,在一定程度上限制了它的廣泛應用。
單病例隨機對照試驗,簡稱為 N-of-1 試驗。在國外,已經廣泛用于多種慢性病的研究[1-4]。在國內 N-of-1 試驗主要用于中醫藥領域[5-9]。通過文獻綜述,發現中醫藥 N-of-1 試驗主要存在以下缺陷:① 中醫藥研究的中藥成分較復雜,半衰期較長,存在一定的殘留效應。而研究者在分析過程中,一般采用 t 檢驗、配對 t 檢驗或秩和檢驗等分析方法,沒有考慮如何處理殘留效應;② 研究納入的樣本量均比較少,大部分是 3 到 6 例,部分研究達到 10 例[5, 10]。
貝葉斯統計是在不完全清楚情況下,綜合未知參數的先驗信息與樣本信息,依據貝葉斯公式,求出后驗分布,根據后驗分布推斷未知參數的統計方法[11-14]。最近幾十年,隨著計算機技術的發展,貝葉斯理論和應用得到了迅速發展[15],也逐漸應用于 N-of-1 試驗[16, 17]。貝葉斯統計可以有效利用先驗信息,將先驗信息與樣本信息整理形成后驗概率,最終提高統計推斷的質量,在小樣本數據分析中具有明顯優勢[18]。
我們之前開展了 N-of-1 無殘留效應數據的模擬研究,研究發現對于無殘留效應正態分布數值資料,混合效應模型可以很好地控制Ⅰ類錯誤,有較高的功效,比配對 t 檢驗更適合用于 N-of-1 數據的分析[19, 20]。本研究將貝葉斯統計方法應用于混合效應模型,構建貝葉斯混合效應模型。對服從正態分布的系列 N-of-1 試驗數據進行模擬研究,比較配對 t 檢驗、混合效應模型和貝葉斯混合效應模型三種方法的統計性能。
1 資料與方法
1.1 研究步驟
本研究的系列 N-of-1 試驗設定為 3 個周期,每個周期患者隨機接受 2 種處理(A 或 B 處理),一共 6 個階段。每個階段之間沒有洗脫期,因此可能產生殘留效應。這里假設產生的殘留效應較低,≤10% 的處理效應。本研究采用之前的方法開展模擬研究[19],步驟包括模擬產生六元的 N-of-1 數據,隨機分配處理方法和研究對象,增加殘留效應,構建分析模型,評價模型和設置參數。
1.2 分析模型
本研究的分析模型包括:
1.2.1 配對 t 檢驗
將對象一個周期內的兩個階段當作配對因素,用配對 t 檢驗進行分析,此模型為 M1。
1.2.2 混合效應模型
將產生的數據根據公式(一)擬合
![]() |
其中, 為第 i 個對象第 j 個階段(j=1,2,3,4,5,6)的效應值。
為截距;
為 A、B 處理效應差值的總均數,
有統計學意義說明兩種處理的效應不一致。
和
分別為階段效應和殘留效應。
是第 i 個對象的指示變量,
表示其對應的隨機效應。
為誤差。
擬合上述模型時,方差協方差矩陣設定為 CS 結構,此模型為 M2。
1.2.3 貝葉斯混合效應模型
參照公式(一),使用 SAS 9.1 輸入命令的方式執行 WinBugs 軟件實現模型的估計過程,此模型為 M3。具體步驟如下:
① 按照公式(一)編寫模型語句,其中 y 服從正態分布。
② 設定待估參數的先驗分布:假定待估參數 的先驗分布服從標準正態分布,
(0,σ2),即
的均數為 0,方差為
;方差的共軛先驗分布為倒伽瑪分布,即
(0.01,0.01)。
先驗分布服從正態分布:
(0,10 000),它的后驗均值是樣本均值與先驗均值的加權平均,權重分別為樣本方差與先驗方差的倒數,因此 N(0,10 000) 其實是無信息的先驗分布。同理
的先驗分布設定為:
(0,10 000)。
③ 設定待估參數的初始值。 的初始值設置為效應差,例如,效應差如果是 1,則對應的初始值設定為 1。
和
的初始值都取為 0。
④ 導入模擬產生的數據,進行計算,并輸出結果。首先做一次模擬試驗,進行 MCMC 抽樣 1 000 次,每隔 10 輪記錄一次結果。自相關圖顯示抽樣 10 次時,參數的抽樣相關性已經很小。抽樣估計圖顯示剛開始(10 次)抽樣已經達到平穩,為了達到收斂的目的,在模擬中“退火”次數為 5 000,之后再抽樣 5 000 次用于計算后驗分布。WinBugs 報告估計值的中位數、2.5 百分位數和 97.5 百分位數(P2.5 和 P97.5),P2.5 和 P97.5 用于評價估計值是否存在統計學意義。
1.3 模型評價
計算效應差值的Ⅰ類錯誤、檢驗功效、效應差值估計值的偏差(mean error,ME)和均方誤差(mean square error,MSE)。效應差值的Ⅰ類錯誤定義:實際為 0 的效應差值,使用模型擬合得到的效應差值存在統計學意義的概率。效應差值的檢驗功效定義:實際不為 0 的效應差值,使用模型擬合得到的效應差值存在統計學意義的概率。其它指標計算公式如下:
![]() |
其中,μ 為效應差值的真實值, 為第 l 個模型(l=1,2,3)第 m 次模擬得到的估計值,M 表示模擬總次數。ME 用來考察是否高估或低估估計值。MSE 用于表示估計值和真實值的接近程度,在一定的條件下,可討論估計值的漸進分布。
1.4 參數設置
為了充分了解不同樣本量對結果的影響,將樣本量設定為 3、5、8 和 10(N=3,5,8,10)。每個時間點的方差等于 1,協方差分別設定為 0、0.5 和 0.8(分別對應無相關、中等相關和強相關),即相關系數分別為 0、0.5 和 0.8。假定 A、B 兩種處理都有效,A 的處理效應更高,因此設定 B 處理效應(對照組)為 2.0,A 處理效應(干預組)分別為 2.0、2.6 和 3.0,即效應差值分別為 0.0、0.6 和 1.0。
本研究假設殘留效應只對后一階段有影響,對其他階段沒有影響。① A、B 的殘留效應比例(殘留比例)一致,分別設定殘留比例為 0%(0% vs. 0%)和 10%(10% vs. 10%)。② A、B 的殘留比例不一致,A、B 的殘留比例分別設定為 0% 和 10%、10% 和 0%。0% vs. 10% 表示 A 的殘留比例為 0%,B 的殘留比例為 10%,以此類推。
使用 SAS 9.1 軟件的 PROC ttest 及 PROC mixed 過程步對 M1 和 M2 進行擬合;使用 SAS 9.1 軟件和 WinBugs 軟件對 M3 進行擬合。每種情況都重復模擬 1 000 次(M=1 000)。
2 結果
2.1 Ⅰ類錯誤
當不存在殘留效應(0% vs. 0%)或者殘留比例一致(10% vs. 10%)時,三個模型的Ⅰ類錯誤都約等于 0.05(表 1)。當兩種處理的殘留比例不一致時,M2 和 M3 的Ⅰ類錯誤約等于 0.05;M1 發生Ⅰ類錯誤大于 0.05。隨著樣本量及協方差系數越大,M1 發生Ⅰ類錯誤概率越大。例如,當 0% vs. 10% 的殘留比例時,M1 的Ⅰ類錯誤達到 14.5%(N=10,CS3)。

2.2 功效
M3 和 M2 的功效不受殘留效應的影響。相同條件下,M3 和 M2 的功效大致相等。隨著樣本量的協方差系數的增加,M3 和 M2 的功效都隨之增加(表 2)。M1 的功效受到殘留效應的影響。當不存在殘留效應(0% vs. 0%)時,M1 的檢驗功效大于 M2 和 M3 的功效。當殘留比例偏向 B 干預(0% vs. 10%)時,M1 的功效升高,主要原因是 M1 將殘留效應疊加到 B 干預,其更容易得到陽性結果。當殘留比例偏向 A 干預(10% vs. 0%)時,M1 的功效降低,主要原因是 M1 將殘留效應疊加到 A 干預。

2.3 ME 和 MSE
樣本量為 3 和 8 的情況下,三種方法的 ME 和 MSE 見圖 1、圖 2 和表 3。① 當不存在殘留效應(0% vs. 0%)時,三種方法的 ME 約為 0;M1 的 MSE 最小,其次分別為 M2 和 M3。② 存在殘留效應時,M1 的 ME 和 MSE 受到殘留比例的影響。M1 的 ME 絕對值約等于殘留效應的一半,例如,當效應差為 1.0 時,M1 的 ME 為 ?0.052(N=3,殘留比例為 10% vs. 10%),其絕對值等于兩種干預的殘留效應(效應差 1.0 乘以殘留比例 10%,即 0.1)的一半。0% vs. 10% 情況下的 ME 大約等于 0.1(N=3 為 0.096,N=8 為 0.106),其原因如下:0% vs. 10% 對應 A 和 B 處理,即 A 處理沒有殘留效應,B 處理存在 10% 殘留效應,B 處理的處理效應為 2,因此殘留效應為 0.2(2×10%),殘留效應的一半等于 ME(0.1)。③ 存在殘留效應時,M2 和 M3 的 ME 和 MSE 不受殘留比例的影響。M2 和 M3 效應差的估計值(ME)都接近 0,說明這兩個模型得到的估計值跟真實值很接近。N=3 和 CS3 結構時,M2 和 M3 的 ME 分別為 0.010 和?0.014。N=8 和 CS2 結構時,M2 和 M3 的 ME 分別為 0.009 和 ?0.015。


M2 和 M3 四種殘留效應情況下的 MSE 都一樣。M1 0%

3 討論
本文主要對樣本量為 3、5、8 和 10(N=3,5,8,10)的 N-of-1 數值進行了模擬研究。產生多元數據后,使用配對 t 檢驗(M1)、混合效應模型(M2)和貝葉斯混合效應模型(M3)對數據進行分析,使用Ⅰ類錯誤、檢驗功效、估計值的 ME 和 MSE 來比較 3 種方法統計性能(表 4)。

當兩種處理均沒有殘留效應時(0% vs. 0%)時,配對 t 檢驗可很好控制Ⅰ類錯誤,具有最高的功效。原因在于其只考慮處理效應,而其他模型考慮了殘留效應、階段效應和個體效應等,導致其標準誤(MSE)最小,更容易得到陽性結果。因此當兩種處理都沒有殘留效應時,推薦使用配對 t 檢驗。
當存在殘留效應時,配對 t 檢驗(M1)效應差的估計值偏離真實值,ME 的絕對值約為殘留效應的一半。配對 t 檢驗沒有區分處理效應和殘留效應,把殘留效應累加到處理效應。雖然其有較高的功效,但會導致估計值偏離真實值(ME 不為 0),增加了Ⅰ類錯誤發生概率,其不適合用于存在殘留效應 N-of-1 數據的分析。
混合效應模型(M2)和貝葉斯混合效應模型(M3)都適合用于 N-of-1 數據的分析。① 兩種模型可很好控制Ⅰ類錯誤,所有情況下的Ⅰ類錯誤約等于 0.05。② 無論殘留比例是多少,模型估計值的均數約等于真實值(ME 約為 0)。兩個模型都可以把總效應分離為處理效應、殘留效應等[21-23]。③ 兩種模型都有良好的功效和 MSE。例如,N=10,殘留比例為 0% vs. 10%,效應差為 0.6 時,M2 的功效為 0.760,M3 的功效為 0.768。當 A、B 處理效應分別為 2.0 和 2.6(效應差為 0.6),標準差為 1.0,假設Ⅰ類錯誤為 0.05,功效為 0.768,使用兩獨立樣本設計,需要每組 42 例、共 84 例的樣本。而開展 N-of-1
總之,對于系列 N-of-1 正態分布數據,沒有殘留效應時(0% vs. 0%),首選配對 t 檢驗。當存在殘留效應時,配對 t 檢驗會增大Ⅰ類錯誤,導致估計值和真實值不一樣(ME 不為 0),不適合 N-of-1 數據的分析。當存在殘留效應時,混合效應模型和貝葉斯混合效應模型都適用于系列 N-of-1 數據的分析。由于貝葉斯的實現過程比較復雜,在一定程度上限制了它的廣泛應用。