本文重點介紹了單病例隨機對照試驗(N-of-1)的設計、優缺點及其應用范圍,并介紹了N-of-1常用的評價方法,包括非參數檢驗和參數檢驗方法(t檢驗、配對t檢驗、方差分析)、混合效應模型、Meta分析方法。N-of-1符合個體化治療的需要,希望其可以在現代醫學及中醫藥學研究中得到廣泛使用。
引用本文: 陳新林, 李海文, 劉鳳斌, 李先濤, 侯政昆, 莫傳偉, 徐謙. 單病例隨機對照試驗的設計和評價方法. 中國循證醫學雜志, 2016, 16(2): 242-245. doi: 10.7507/1672-2531.20160038 復制
隨機對照試驗(randomized controlled trial,RCT)的發展,催生了循證醫學,促進了系統評價和Meta分析的發展和應用,也正在改變著古老的以經驗為基礎的醫學實踐。在循證醫學年代,更加關注個體化的治療效果,而RCT本身存在的一些缺陷:部分患者不能得到有效的治療,無法揭示個別患者對干預的異同,無法研究患者的特殊規律等,都為研究方案提出了挑戰,并滋生出其他設計方案,其中包括單病例隨機對照試驗。
1 單病例隨機對照試驗
單病例隨機對照試驗英文名稱有Randomized controlled trial in individual patient,Single cases of randomized controlled trials,N-of-1 trials,N-of-1 RCT和N-of-1 study等,簡稱為N-of-1 [1]。
N-of-1是一種基于單個病例進行隨機、多周期二階段交叉設計的研究方案,屬于RCT,其用于評價某種藥物與安慰劑(或另一種藥物)的療效 [1-4]。N-of-1設計一般安排兩種干預和3個或3個以上周期,每個周期形成一個二階段交叉設計。隨機分配每個周期兩個階段的干預,階段間有一個洗脫期;相鄰周期之間亦安排一個洗脫期。圖 1為3周期N-of-1設計示意圖。

早在1945年,Fisher等 [5]就開始介紹N-of-1的設計方案。20世紀60年代,心理學領域應用N-of-1觀察藥物及行為干預的效果 [6]。隨后,N-of-1逐漸應用于臨床研究中,如骨關節炎、骨骼肌痛性痙攣、持久性咳嗽、風濕病、心臟病、慢性阻塞性肺病、失眠、神經衰弱癥引起的疼痛等慢性病。在國內,研究者也開始使用N-of-1研究多種慢性病,如針刺方法治療脊髓損傷后下肢痙攣 [7],牛黃降壓膠囊治療原發性高血壓病 [8],十味益元顆粒治療骨髓抑制患者 [9]等。
N-of-1的應用需要考慮以下幾個方面 [2, 3, 10]:① 疾病:要求非自限性、病情較為穩定但需長期服藥的疾病,特別是病情穩定的慢性病。不穩定的疾病,病程容易受到干預措施影響的疾病,或者疾病的進展期等都不適合開展N-of-1。② 參與者:N-of-1需要較長時間,且有額外負擔,需要招聘依從性高的參與者。③ 干預措施:要求起效快、半衰期短,停止使用后藥效消失快的藥物,以減少殘留效應對結果的影響。半衰期長,需要很長時間才顯示臨床效果的藥物,或改變病程的藥物不適合N-of-1。另外,醫療器械或心理干預也已經成功用于開展N-of-1 [11]。
N-of-1的優點主要包括:① N-of-1為個體患者的決策提供了最有力的證據。RCT在諸多科研方法中論證強度大,循證醫學工作組提出了證據的層次結構,其中N-of-1為患者的決策提供了最有力的證據 [4],見框 1。② N-of-1具有強大的臨床實用性,可解決臨床的特殊問題,如稀有疾病或非常規治療的疾病 [1]。③N-of-1只針對單個病例,容易被患者接受;該設計采用隨機雙盲對照等方法,可合理分析隨機誤差,避免偏倚,比較真實反映試驗結果,且易于重復。④ N-of-1使用多循環的設計,增加了研究的功效 [12, 13]。隨著周期數的增加,發現干預之間差異的概率也增加 [10]。

N-of-1也有一定的局限性。N-of-1對疾病和藥物有較為嚴格的要求,部分疾病和治療方法(特別是外科治療方法)不適于使用該設計。患者病情的自然變化、治療指標的趨中現象都會影響結果的可比性。另外,N-of-1統計分析方法不統一,且缺少N-of-1實施指南,不利于N-of-1的推廣使用。N-of-1結果雖然有借鑒作用,但類推到其他患者時需要謹慎。
2 N-of-1的評價方法
Gabler等 [14]綜述了1986年到2010年發表的N-of-1文獻,研究發現:N-of-1數值(計量)資料的分析方法主要包括視覺/圖形分析方法、非參數檢驗(符號檢驗,Wilcoxon秩檢驗)和參數檢驗(t檢驗、配對t檢驗、方差分析)、時間序列、混合(固定/隨機)效應模型、Meta分析方法、貝葉斯分層模型等 [3, 15, 16]。計數資料的分析方法主要包括卡方檢驗、廣義估計方程等。
視覺/圖形分析方法繪制患者隨著時間的變化,其療效的變化,這種方法只對資料進行描述,沒有進行統計推斷,因此不能得出統計學意義的結論,甚至可能產生錯誤或誤導性的結果 [17]。時間序列分析用于N-of-1資料的分析,得到的信息比較有限 [18]。N-of-1最簡單的統計方法為非參數符號檢驗,這種檢驗是根據每個周期內的治療差別(即符號)來判斷最終結果,越長的治療周期越容易獲得統計學意義的結果。t檢驗或方差分析不考慮時間點、個體效應的影響,直接比較不同干預方法之間的差別。它們比非參數符號檢驗有更強的功效,因為它們同時考慮了每個周期內治療效果的方向和強度 [19]。t檢驗或方差分析沒有考慮重復測量資料的特點,因此部分學者認為應該采用混合效應模型 [3, 15]。雖然混合效應模型最符合實際情況,但其原理比較復雜,并未被廣泛使用。另外,基于個體資料或匯總資料的Meta分析方法也應用于N-of-1資料 [20, 21]。Meta分析方法把一個患者當作一個研究看待,也沒有考慮重復測量資料的特點。
下面以3個治療周期的N-of-1試驗為例,介紹混合效應模型和Meta分析方法。
2.1 混合效應模型
N-of-1設計中,每個患者在每個治療周期都接受兩種干預措施(試驗組、對照組分別用A和B表示),D代表A、B干預得分的差異(得分為數值資料)。每個患者都有3個D得分,每次得分之間不可避免受到個體自身因素的影響,其可能存在相關性,這就構成了研究數據的層次(或嵌套)結構。
Zucker等 [10]提出了N-of-1的混合效應模型:yij=αi+βiXij+εij。其中yij為第i個患者(i=1,2,3,…n)第j個階段(j=1,2,3,…6)的效應值,αi表示第i個患者接受B干預的平均效果,服從正態分布N(α,σα2)。βi表示第i個患者兩種干預措施之間(A-B)的平均得分,即D,服從正態分布N(β,σβ2)。Xij為指示變量,表示干預方法,A干預(Xij=1),B干預(對照組,Xij=0)。一般情況,假設αi和βi之間不相關。εij為第i個對象第j個階段的誤差,服從正態分布N(0,σi2)。圖 2展示了 的結構和估計過程 [10]。

可以在模型中增加其他協變量(如中心、醫療環境和參與者特征)。比如對象來自不同的研究中心,則需要在模型中增加中心這個變量,模型寫成Yij=αi+βiXij+κiZi+eij,其中Zi為協變量,表示第i個對象所在的中心。
二分類資料的基本模型 [22]為。其中sih為第i個患者第h(h=1,2,3)個周期階段,得到試驗組優于對照組的實際頻數,其概率表示為θih,sih服從二項分布Binomial(si,θi)。其他符號跟前面一樣。
筆者認為Zucker等提出的混合效應模型并沒有考慮階段效應和殘留效應,因此構建模型:yij=α+μ3+τj+λ+γixi+εij[23, 24]。其中yij為第i個患者第j個階段的效應值。常數項α為截距;μ3為A、B干預效應差值的總均數,μ3存在統計學意義說明兩種干預的效應不一致。固定效應τj為階段效應,為多分類變量。λ為殘留效應,分為三個分類:無殘留類、A殘留、B殘留,對應的效應值分別為λ0,λA,λB。xi是第i個對象的指示變量,γi表示其對應的隨機效應。εij為誤差。當樣本量n=1時,簡化為yj=α+μ3+λ+εj。
2.2 Meta分析模型
把一個患者當作一個研究,對樣本量不為1的N-of-1設計開展Meta分析。
。其中n1i和n2i分別為第i個患者接受A、B干預的樣本量;
3 討論
N-of-1是一種基于單個病例進行隨機對照的研究方案,N-of-1對個體患者開展兩種治療方法,從而比較不同方法的效果。N-of-1只針對單個病例,容易被患者接受;該設計采用隨機雙盲對照等方法,避免各種偏倚,比較真實地反映試驗結果,為個體患者的決策提供了最有力的證據,研究人員已經使用該方法用于研究多種疾病。然而,N-of-1對疾病和藥物有較為嚴格的要求,其結果難于類推到其他患者;而且缺少N-of-1實施的指南,不利于N-of-1的推廣。
N-of-1的分析方法主要包括視覺/圖形分析方法、時間序列、非參數檢驗和參數檢驗方法(t檢驗、配對t檢驗、方差分析)、混合效應模型、Meta分析方法、貝葉斯分層模型等。N-of-1評價方法不統一、不規范對N-of-1的實施也造成了一定的影響。混合效應模型是最符合N-of-1設計的實際情況,因此,筆者推薦采用混合效應模型分析N-of-1數據。
隨著循證醫學的深入發展,現代醫學的醫療模式正逐漸向個體化治療轉變,N-of-1設計正好適應個體化治療的需要。另外,中醫藥的研究以傳統的辨證論治及個體化研究為主。劉保延等 [25]認為中醫藥的辨證論治是典型的“個體化診療”方法,難于采用傳統的RCT進行研究。而N-of-1設計是研究個體患者的研究方案,適合于中醫藥的研究。相信N-of-1設計可以為現代醫學及中醫藥學研究提供新的研究思路。
隨機對照試驗(randomized controlled trial,RCT)的發展,催生了循證醫學,促進了系統評價和Meta分析的發展和應用,也正在改變著古老的以經驗為基礎的醫學實踐。在循證醫學年代,更加關注個體化的治療效果,而RCT本身存在的一些缺陷:部分患者不能得到有效的治療,無法揭示個別患者對干預的異同,無法研究患者的特殊規律等,都為研究方案提出了挑戰,并滋生出其他設計方案,其中包括單病例隨機對照試驗。
1 單病例隨機對照試驗
單病例隨機對照試驗英文名稱有Randomized controlled trial in individual patient,Single cases of randomized controlled trials,N-of-1 trials,N-of-1 RCT和N-of-1 study等,簡稱為N-of-1 [1]。
N-of-1是一種基于單個病例進行隨機、多周期二階段交叉設計的研究方案,屬于RCT,其用于評價某種藥物與安慰劑(或另一種藥物)的療效 [1-4]。N-of-1設計一般安排兩種干預和3個或3個以上周期,每個周期形成一個二階段交叉設計。隨機分配每個周期兩個階段的干預,階段間有一個洗脫期;相鄰周期之間亦安排一個洗脫期。圖 1為3周期N-of-1設計示意圖。

早在1945年,Fisher等 [5]就開始介紹N-of-1的設計方案。20世紀60年代,心理學領域應用N-of-1觀察藥物及行為干預的效果 [6]。隨后,N-of-1逐漸應用于臨床研究中,如骨關節炎、骨骼肌痛性痙攣、持久性咳嗽、風濕病、心臟病、慢性阻塞性肺病、失眠、神經衰弱癥引起的疼痛等慢性病。在國內,研究者也開始使用N-of-1研究多種慢性病,如針刺方法治療脊髓損傷后下肢痙攣 [7],牛黃降壓膠囊治療原發性高血壓病 [8],十味益元顆粒治療骨髓抑制患者 [9]等。
N-of-1的應用需要考慮以下幾個方面 [2, 3, 10]:① 疾病:要求非自限性、病情較為穩定但需長期服藥的疾病,特別是病情穩定的慢性病。不穩定的疾病,病程容易受到干預措施影響的疾病,或者疾病的進展期等都不適合開展N-of-1。② 參與者:N-of-1需要較長時間,且有額外負擔,需要招聘依從性高的參與者。③ 干預措施:要求起效快、半衰期短,停止使用后藥效消失快的藥物,以減少殘留效應對結果的影響。半衰期長,需要很長時間才顯示臨床效果的藥物,或改變病程的藥物不適合N-of-1。另外,醫療器械或心理干預也已經成功用于開展N-of-1 [11]。
N-of-1的優點主要包括:① N-of-1為個體患者的決策提供了最有力的證據。RCT在諸多科研方法中論證強度大,循證醫學工作組提出了證據的層次結構,其中N-of-1為患者的決策提供了最有力的證據 [4],見框 1。② N-of-1具有強大的臨床實用性,可解決臨床的特殊問題,如稀有疾病或非常規治療的疾病 [1]。③N-of-1只針對單個病例,容易被患者接受;該設計采用隨機雙盲對照等方法,可合理分析隨機誤差,避免偏倚,比較真實反映試驗結果,且易于重復。④ N-of-1使用多循環的設計,增加了研究的功效 [12, 13]。隨著周期數的增加,發現干預之間差異的概率也增加 [10]。

N-of-1也有一定的局限性。N-of-1對疾病和藥物有較為嚴格的要求,部分疾病和治療方法(特別是外科治療方法)不適于使用該設計。患者病情的自然變化、治療指標的趨中現象都會影響結果的可比性。另外,N-of-1統計分析方法不統一,且缺少N-of-1實施指南,不利于N-of-1的推廣使用。N-of-1結果雖然有借鑒作用,但類推到其他患者時需要謹慎。
2 N-of-1的評價方法
Gabler等 [14]綜述了1986年到2010年發表的N-of-1文獻,研究發現:N-of-1數值(計量)資料的分析方法主要包括視覺/圖形分析方法、非參數檢驗(符號檢驗,Wilcoxon秩檢驗)和參數檢驗(t檢驗、配對t檢驗、方差分析)、時間序列、混合(固定/隨機)效應模型、Meta分析方法、貝葉斯分層模型等 [3, 15, 16]。計數資料的分析方法主要包括卡方檢驗、廣義估計方程等。
視覺/圖形分析方法繪制患者隨著時間的變化,其療效的變化,這種方法只對資料進行描述,沒有進行統計推斷,因此不能得出統計學意義的結論,甚至可能產生錯誤或誤導性的結果 [17]。時間序列分析用于N-of-1資料的分析,得到的信息比較有限 [18]。N-of-1最簡單的統計方法為非參數符號檢驗,這種檢驗是根據每個周期內的治療差別(即符號)來判斷最終結果,越長的治療周期越容易獲得統計學意義的結果。t檢驗或方差分析不考慮時間點、個體效應的影響,直接比較不同干預方法之間的差別。它們比非參數符號檢驗有更強的功效,因為它們同時考慮了每個周期內治療效果的方向和強度 [19]。t檢驗或方差分析沒有考慮重復測量資料的特點,因此部分學者認為應該采用混合效應模型 [3, 15]。雖然混合效應模型最符合實際情況,但其原理比較復雜,并未被廣泛使用。另外,基于個體資料或匯總資料的Meta分析方法也應用于N-of-1資料 [20, 21]。Meta分析方法把一個患者當作一個研究看待,也沒有考慮重復測量資料的特點。
下面以3個治療周期的N-of-1試驗為例,介紹混合效應模型和Meta分析方法。
2.1 混合效應模型
N-of-1設計中,每個患者在每個治療周期都接受兩種干預措施(試驗組、對照組分別用A和B表示),D代表A、B干預得分的差異(得分為數值資料)。每個患者都有3個D得分,每次得分之間不可避免受到個體自身因素的影響,其可能存在相關性,這就構成了研究數據的層次(或嵌套)結構。
Zucker等 [10]提出了N-of-1的混合效應模型:yij=αi+βiXij+εij。其中yij為第i個患者(i=1,2,3,…n)第j個階段(j=1,2,3,…6)的效應值,αi表示第i個患者接受B干預的平均效果,服從正態分布N(α,σα2)。βi表示第i個患者兩種干預措施之間(A-B)的平均得分,即D,服從正態分布N(β,σβ2)。Xij為指示變量,表示干預方法,A干預(Xij=1),B干預(對照組,Xij=0)。一般情況,假設αi和βi之間不相關。εij為第i個對象第j個階段的誤差,服從正態分布N(0,σi2)。圖 2展示了 的結構和估計過程 [10]。

可以在模型中增加其他協變量(如中心、醫療環境和參與者特征)。比如對象來自不同的研究中心,則需要在模型中增加中心這個變量,模型寫成Yij=αi+βiXij+κiZi+eij,其中Zi為協變量,表示第i個對象所在的中心。
二分類資料的基本模型 [22]為。其中sih為第i個患者第h(h=1,2,3)個周期階段,得到試驗組優于對照組的實際頻數,其概率表示為θih,sih服從二項分布Binomial(si,θi)。其他符號跟前面一樣。
筆者認為Zucker等提出的混合效應模型并沒有考慮階段效應和殘留效應,因此構建模型:yij=α+μ3+τj+λ+γixi+εij[23, 24]。其中yij為第i個患者第j個階段的效應值。常數項α為截距;μ3為A、B干預效應差值的總均數,μ3存在統計學意義說明兩種干預的效應不一致。固定效應τj為階段效應,為多分類變量。λ為殘留效應,分為三個分類:無殘留類、A殘留、B殘留,對應的效應值分別為λ0,λA,λB。xi是第i個對象的指示變量,γi表示其對應的隨機效應。εij為誤差。當樣本量n=1時,簡化為yj=α+μ3+λ+εj。
2.2 Meta分析模型
把一個患者當作一個研究,對樣本量不為1的N-of-1設計開展Meta分析。
。其中n1i和n2i分別為第i個患者接受A、B干預的樣本量;
3 討論
N-of-1是一種基于單個病例進行隨機對照的研究方案,N-of-1對個體患者開展兩種治療方法,從而比較不同方法的效果。N-of-1只針對單個病例,容易被患者接受;該設計采用隨機雙盲對照等方法,避免各種偏倚,比較真實地反映試驗結果,為個體患者的決策提供了最有力的證據,研究人員已經使用該方法用于研究多種疾病。然而,N-of-1對疾病和藥物有較為嚴格的要求,其結果難于類推到其他患者;而且缺少N-of-1實施的指南,不利于N-of-1的推廣。
N-of-1的分析方法主要包括視覺/圖形分析方法、時間序列、非參數檢驗和參數檢驗方法(t檢驗、配對t檢驗、方差分析)、混合效應模型、Meta分析方法、貝葉斯分層模型等。N-of-1評價方法不統一、不規范對N-of-1的實施也造成了一定的影響。混合效應模型是最符合N-of-1設計的實際情況,因此,筆者推薦采用混合效應模型分析N-of-1數據。
隨著循證醫學的深入發展,現代醫學的醫療模式正逐漸向個體化治療轉變,N-of-1設計正好適應個體化治療的需要。另外,中醫藥的研究以傳統的辨證論治及個體化研究為主。劉保延等 [25]認為中醫藥的辨證論治是典型的“個體化診療”方法,難于采用傳統的RCT進行研究。而N-of-1設計是研究個體患者的研究方案,適合于中醫藥的研究。相信N-of-1設計可以為現代醫學及中醫藥學研究提供新的研究思路。