引用本文: 王明莉, 王振偉, 陳新林, 陸立志, 張誼, 張恩絲, 黃海茵. 單病例試驗的方法學比較和臨床應用探索. 中國循證醫學雜志, 2022, 22(4): 468-474. doi: 10.7507/1672-2531.202112138 復制
單病例隨機對照試驗(N-of-1 randomized controlled trials,簡稱“N-of-1試驗”)是單病例試驗(single-case experimental designs)家族中的一種亞型,是以單個病例自身作為對照,通過反復在同一個體身上進行多次交叉對照研究,觀察患者對某種(或多種)藥物或干預措施的反應[1]。2011年牛津大學循證醫學中心將單病例隨機對照試驗列為評估臨床療效的“一級”證據[2]。N-of-1試驗由于符合中醫“辨證論治”的個體化治療理念[3],逐漸被引入到中醫藥臨床試驗中并引起重視[4]。目前國內開展的單病例隨機對照試驗多數與中醫藥有關[5],已有中醫治療痛經的多基線試驗(multiple-baseline designs,MBDs)被發表[6]。多基線試驗為單病例試驗的一種[7],國內研究者對多基線試驗認識相對較少。本文通過對中醫藥N-of-1試驗的介紹,比較單病例試驗、交叉試驗的區別與優缺點,并探討如何提高單病例試驗質量,使我們對如何建立充分體現中醫“辨證論治”個體化特點的N-of-1試驗有更清晰地認識。
1 N-of-1試驗
1.1 N-of-1試驗方法簡介
N-of-1試驗是自身對照、多輪次重復交叉的研究。同一個受試者一般進行3輪或3輪以上的對照試驗,以“AB”作為一個輪次(A、B代表不同的干預),每個輪次內A、B是隨機分配的,如圖1所示。N-of-1試驗常需有“磨合期(run in period)”和“洗脫期(wash out period)”[8]。磨合期(即預初試驗)為在正式試驗開始前進行的一段開放性的治療試驗,以確定潛在的受試者對研究方案的依從性,或洗脫掉試驗前患者可能服用的藥物影響,還可通過磨合期獲得穩定的藥物劑量[9]。洗脫期一般是指患者沒有接受干預、返回基線(baseline)的階段,其目的主要是為消除上一階段藥物(干預)的殘留效應(carryover effect)。

1.2 中醫藥N-of-1試驗的特點和問題
N-of-1試驗的具體要求與特點見CENT國際指南[8],本節重點討論N-of-1試驗在中醫藥研究中的應用和問題。該試驗方法尤其適合于:當藥物對個體疾病的治療具有異質性[10],治療效果因人而異。中醫自古以來就有“同病異治”的診療思維,即同樣一種疾病,因患者體質不同、地方不同、季節不同,而采用不同的治法。具體治療上是采用“一人一方”,因此N-of-1試驗的這一特點符合中醫“辨證論治”的個體化治療理念。但在具體運用中,有以下問題需要解決:
1.2.1 中醫藥N-of-1試驗的預初試驗、階段長度與洗脫期
除具備一般N-of-1試驗前預初試驗的功能,由于中藥復方在體內的代謝過程往往難以確定,很難獲得半衰期的數據,有學者提出可根據預初試驗結果,結合研究者以往的臨床治療經驗,制定中藥方劑相對合理洗脫期[5,11]。以患者自我評定的癥狀積分[7分制的Likert量表輔以目測模擬尺測量(visual analogue scales,VAS)法為結局指標],得出服藥后的起效時問及停藥后療效維持時間,初步確定洗脫期與干預階段的時間期限。由于中藥與西藥相比,起效與失效時間均相對較長,一般設定階段長度為一個月左右[5,12]。洗脫期患者暫時停藥,若時間過長,受試者難以接受。目前有兩個對策:① 在兩個階段之間不停藥,只是將觀察指標的采集時間規定在每個階段的末尾幾天,在此前的時間(幾天或幾周)成為前一階段用藥的洗脫期[11-12]。② 陳新林等[13]提出無洗脫期的N-of-1試驗及其對應的混合效應模型,借助高級統計模型檢測殘留效應因素,有助于校正個體自身因素和階段效應的影響,不影響兩種干預的效果比較。
1.2.2 N-of-1試驗能否體現中醫“因時制宜”?
中醫學認為,人們的生理、病理變化必然會受到季節、氣候和時間節律的影響,所以不同的季節,疾病的發生和養生、治病的原則都有所不同。患者的中醫證型也可能會有所變化。因此,有學者擔心反復在同一個體身上進行多次交叉試驗,難以體現中醫“因時制宜”的特點。須知N-of-1試驗要求受試疾病為慢性病且病情相對穩定,我們在針對支氣管擴張癥的N-of-1試驗中發現[12,14-15],中藥單病例試驗周期長,但受試者的中醫證型相對穩定,主證在一定時間內相對保持不變(可半年以上)。我們在N-of-1試驗方案中規定:治療上可采用主方不變,針對次證或癥狀變化靈活加減,以適應中醫特點。對照干預則恒定不變。結果表明個體化方優于固定方,證明了辨證論治在中醫個體化治療中的優勢[12,14]。因此N-of-1試驗不會影響中醫“因時制宜”的原則。
1.2.3 中醫N-of-1試驗中基線的可比性
慢性穩定性疾病也有病情的自然波動,不可完全避免,兩個階段的基線可能不一致,容易影響基線的可比性。這是N-of-1試驗(西醫、中醫皆有)的不足之一[3],由于在穩定期的慢性病患者中,中醫主證候相對穩定,對基線的影響不大。最有可能影響中醫N-of-1試驗基線可比性的因素,是上一輪中藥可能的殘留效應[5,12],其對策包括延長洗脫期、改進統計學方法等[5,16-17],詳見本文“4.1 構建適合的統計模型”。
2 MBDs
2.1 方法簡介
MBDs是單病例試驗的一種,在國外長期應用于心理與行為治療研究。如評價接受和承諾治療對焦慮抑郁癥患者消極思維干預作用采用了多基線設計[18],逐漸延伸發展至康復醫學中,如早期獲得性腦損傷的閱讀理解康復[19]。MBDs的干預是有序交錯地引入到不同患者中。如圖2所示(A表示基線,B表示干預)。個體先經歷基線期,再進入干預期。圖中基線期A在所有層同時開始,干預B在不同的層上按順序交錯進行,后面層的基線時間逐漸變長[7]。例如,第1個受試者基線5天后開始B治療,與第2、3個受試者所處的A階段,形成平行空白對照。第2個受試者在基線9天之后開始B治療,與第3個受試者的A階段形成空白對照。第3個受試者在基線14天后開始治療,以此類推。在MBDs試驗至少需要3層不同時間序列的基線(即意味著至少3個受試者)。

在MBDs試驗中,每個受試者的基線持續時間以交錯方式有序地發生變化[20],同時連續地測量觀察指標,以此評估干預措施。基線有兩個作用:① 基線是干預階段的基準,為干預階段觀察指標的改變提供了對比[7]。② 基線在一定程度上能預測疾病癥狀或行為的發展方向,基線趨勢是指不同觀測值(隨時間推移)變化的斜率[21],常用于預估疾病癥狀的自然恢復(natural recovery),觀察干預階段的數據是否高于(或低于)基線的趨勢線。如果治療有效,觀察指標在治療階段的變化水平將與基線趨勢有所不同[22]。
有序交錯引入干預可控制影響內部效度的混雜因素,如歷史(history)(指外部環境的變化)、成熟或自然發展(maturation)(指受試者體內的變化)[23]。干預引入后,第一個受試者的觀察指標發生改變,但這種改變可能是受外部環境的影響,即外部環境的改變剛好與干預引入的時間相重合,導致無關事件干擾我們對結果的推論。設置不同的基線時間可控制混雜因素,因為外部環境變化不太可能總是與干預發生在同一特定時間點[24-25]。
2.2 MBDs適用情況
MBDs具有以下兩個特點:① 相比N-of-1試驗,MBDs試驗無需洗脫期,個體由基線期進入干預期,個體內無需進行多輪重復交叉試驗,則不需要考慮困擾科研人員的中藥復方的藥效動力學問題。② MBDs可用于評價干預措施的初始療效[20]。通常而言,對藥物的有效性和安全性評價要經過多期臨床試驗驗證。開展大型隨機對照試驗(randomized controlled trial,RCT)往往需要前期研究結果的支持,在充分獲得研究依據的基礎上才能設計好RCTs方案[26]。MBDs所需樣本量少,可以全程密切觀察受試者對藥物的療效和不良反應,以及藥物起效后隨著時間的動態變化特征。這可為在更多人群中開展大型RCTs提供依據,同時避免了人力、財力和物力的浪費。
2015年,劉志剛等[6]采用多基線單病例隨機對照試驗研究葛根湯治療痛經的有效性和安全性,為其臨床推廣應用提供參考。該試驗同時納入6例患者,中醫診斷皆為:痛經(寒濕凝滯)。經過4~6個月基線期后,治療組予葛根湯,對照組予安慰劑,治療和隨訪各3個月。統計分析采用圖示法、非趨勢模型、趨勢模型相結合。該研究為證明方藥的有效性提供了新的思路。Harris[27]在總結植物藥治療慢性失眠的綜述中,提出多基線試驗可用于觀察植物藥對慢性疾病的長期療效。不少植物藥對某些慢性疾病具有持久的改善作用,緩慢起效或后續效應時間長,而多基線試驗可觀察藥物效果隨著時間的動態變化趨勢,檢驗藥物的持久效果。
2.3 MBDs局限性
當把MBDs應用在中醫藥時,啟發我們以下思考:① MBDs的“個體化”程度不如N-of-1試驗:N-of-1試驗為研究中醫辨證論治的療效,為個人選擇最佳治療方案時,受試者間無需具有同質性,每個人的疾病、中醫證型都可不一樣。每個人都是一例單病例隨機對照試驗,這最大程度貼合中醫的“辨證論治”,使藥證相符,做到“一人一方”。MBDs的干預是在個體間重復復制,納入的受試者,其疾病、嚴重程度或中醫證型應該一致才能使干預結果具有可比性。② 干預方式是交錯引入患者中的,當基線等待時間長時,靠后層次的患者病情發生變化的風險性可能會增加[7],因此在基線達到平穩狀態時,當盡快實施干預。③ MBD可用于初步評價干預措施的療效,但樣本量相對較少,應當慎重把其試驗結果作為一級證據[28]。
3 N-of-1試驗、MBDs和交叉試驗的比較
交叉試驗(crossover designs)是我們熟知的臨床試驗,是按事先設計好的次序,在試驗對象上按各個時期逐一依次實施各項處理,以比較這些處理的作用[29]。交叉試驗與N-of-1試驗有相通之處,同樣需要洗脫期,適用于病情穩定的慢性病,藥物可以快速起效和終止的臨床研究[30]。二者皆為同一個體先后接受不同干預措施的處理,因此消除了個體差異對療效的影響。但交叉試驗在同一個體的干預雖亦是交叉,卻并非多次重復。就對個體而言,一輪的干預治療可初步為個體選擇合適的治療方案,亦不能排除偶然因素導致的偏差。但交叉試驗所需時間相對短,患者依從性相對較好。表1比較了N-of-1試驗、多基線試驗和交叉試驗。

在統計分析方面,N-of-1試驗在初期主要是個體統計。隨著N-of-1試驗方法學的不斷發展,發現一系列的單病例試驗,還可總結出相似群體或群體中一部分特定亞組的規律[31-32]。理想的系列單病例試驗統計,是個體統計結合群體統計:① 個體統計:單個病例的計量指標符合正態分布者,首選配對t檢驗,不符合正態分布者,可采用配對Wilcoxon秩和檢驗。大部分單病例研究采用配對t檢驗,亦有采用t檢驗(其統計效率低于配對t檢驗)[5]。由于相同的對象在不同時間接受多次治療及測量,屬于重復測量資料,有自身相關效應(auto-correlation)干擾結果,現代單病例試驗的開拓者Gordon Guyatt教授的對策為將一定時間中的數據取平均值(例如將7天的數據平均為一周的均值),再進行統計學處理[12,33]。② 群體統計:系列N-of-1試驗的群體統計常用方法有Meta分析、貝葉斯模型、或混合效應模型等[1]。貝葉斯模型和混合效應模型較為靈活,可處理缺失值,能很好控制Ⅰ類錯誤,估計值接近真實值。在存在殘留效應時,貝葉斯模型和混合效應模型更適合分析系列N-of-1試驗數據[16]。
多基線試驗采用視圖分析結合統計分析。視圖分析描繪了觀察指標隨時間的改變,強調了臨床意義[7]。在視圖分析基礎上進行統計分析時,需要評估試驗的趨勢(trend)[34]、穩定性(stability)、水平(level)、一致性(consistency)、重疊性(overlap)。統計分析可涉及到時間序列法(time series analysis)、中間分割法(split middle method)、Tau-U法[35],貝葉斯統計方法[36]、隨機化法。基線的趨勢性和階段數據間的重疊分析是難點。在基線數據的基礎上,采用中間分割法或貝葉斯方法[37]進行預估。重疊是指來自干預階段的數據點與來自基線階段的數據重疊的百分比[34]。Tau-U來源于Kendall’s Rank Correlation(Tau)和Mann-Whitney U檢驗[38],可檢驗階段間的數據不重疊的情況。當不重疊數據的百分比越高,說明干預效果越大[35]。目前MBDs的數學理論模型較為復雜。
4 試驗案例改進舉例
4.1 構建適合的統計模型
國內學者設想借助高效的統計方法來提高中醫藥N-of-1試驗敏感性的對策,包括個體與群體數據相結合,以及將殘留效應因素置入統計分析中。分層貝葉斯統計方法以其顯著的特點,已成為系列單病例試驗的主要統計方法之一[8]。貝葉斯模型將過去已經完成類似的n-1次試驗的數據作為先驗信息,結合樣本信息(現有數據),整理形成了后驗信息[36,39],在不增加試驗周期的情況下,提高N-of-1試驗的可靠性和敏感性。目前已有一個基于分層貝葉斯分析的中醫治療支氣管擴張癥單病例隨機對照試驗在研究中[17]。該研究擬選擇支氣管擴張癥穩定期患者,以患者最為關心的癥狀為主要指標(1~7分的Likert量表),以安慰劑為對照,與高度個體化的中醫辨證論治進行一系列單病例隨機對照試驗。在數據分析中采用分層貝葉斯模型,引入相關參數和變量如不同中醫證型、中藥殘留效應等,在分析中利用已有信息(如借鑒以往試驗結果),從個體與群體水平研究中醫辨證論治的療效,同時與配對t檢驗、Meta分析等傳統統計方法進行比較。
4.2 試驗方法組合
在臨床設計時,亦有研究者稍加創新。Nikles等[37]探討止痛藥對頸部揮鞭樣損傷(whiplash associated disorder,WAD)急性期的止痛效果,把N-of-1試驗與MBDs結合,在基礎治療上疊加不同的止痛藥物以比較藥物的差異,同時為患者選擇最適合的止痛藥,如圖3所示。

注:基礎治療為指南指導下的物理運動治療。干預C:對乙酰氨基酚+基礎治療;干預D:萘普生+基礎治療;干預E:對乙酰氨基酚+萘普生+基礎治療。試驗共納入15例患者,分入不同基線組,試驗包含3輪,每個輪次內隨機采用干預項C、D、E,期間不設置洗脫期。
試驗中,急性期病情隨著時間轉向慢性的過程中,疼痛癥狀具有一定的緩解傾向。眾所周知,N-of-1試驗適合慢性疾病穩定期,研究者把N-of-1試驗與多基線試驗相結合,通過視圖與數學模型分析,使N-of-1試驗用于疾病的急性期,是一種新的嘗試。研究中利用多基線試驗的基線趨勢,預估疼痛癥狀的緩解趨勢,使觀察指標的實際值與預估值相比較。該試驗主要觀察指標為每日頸部疼痛評分:NRS(numeric rating scale)量表,比較NRS量表的實際值與預估值,當高出1.5個點時,視為差異具有臨床意義。同時統計出個體水平和群體水平的差異。這啟示我們,這種結合模式與數學模型分析也可能為中醫藥研究所借鑒。
5 總結
單病例隨機對照試驗的優點是中醫藥發展的機遇,但目前仍面臨不少問題,中藥成分復雜,如何確定洗脫時間是難題。多基線試驗無需洗脫期,但“個體化”程度卻不如N-of-1試驗。構建適合于中醫藥單病例試驗研究的統計模型(如分層貝葉斯模型)可望提高中醫藥N-of-1試驗的敏感性,改進試驗方法(如多基線試驗與N-of-1試驗結合)拓展了N-of-1試驗適用的疾病范圍,也為中醫藥的個體化治療研究帶來啟示。如何將單病例試驗更好地與中醫藥結合仍是我們需要深入思考的問題。
單病例隨機對照試驗(N-of-1 randomized controlled trials,簡稱“N-of-1試驗”)是單病例試驗(single-case experimental designs)家族中的一種亞型,是以單個病例自身作為對照,通過反復在同一個體身上進行多次交叉對照研究,觀察患者對某種(或多種)藥物或干預措施的反應[1]。2011年牛津大學循證醫學中心將單病例隨機對照試驗列為評估臨床療效的“一級”證據[2]。N-of-1試驗由于符合中醫“辨證論治”的個體化治療理念[3],逐漸被引入到中醫藥臨床試驗中并引起重視[4]。目前國內開展的單病例隨機對照試驗多數與中醫藥有關[5],已有中醫治療痛經的多基線試驗(multiple-baseline designs,MBDs)被發表[6]。多基線試驗為單病例試驗的一種[7],國內研究者對多基線試驗認識相對較少。本文通過對中醫藥N-of-1試驗的介紹,比較單病例試驗、交叉試驗的區別與優缺點,并探討如何提高單病例試驗質量,使我們對如何建立充分體現中醫“辨證論治”個體化特點的N-of-1試驗有更清晰地認識。
1 N-of-1試驗
1.1 N-of-1試驗方法簡介
N-of-1試驗是自身對照、多輪次重復交叉的研究。同一個受試者一般進行3輪或3輪以上的對照試驗,以“AB”作為一個輪次(A、B代表不同的干預),每個輪次內A、B是隨機分配的,如圖1所示。N-of-1試驗常需有“磨合期(run in period)”和“洗脫期(wash out period)”[8]。磨合期(即預初試驗)為在正式試驗開始前進行的一段開放性的治療試驗,以確定潛在的受試者對研究方案的依從性,或洗脫掉試驗前患者可能服用的藥物影響,還可通過磨合期獲得穩定的藥物劑量[9]。洗脫期一般是指患者沒有接受干預、返回基線(baseline)的階段,其目的主要是為消除上一階段藥物(干預)的殘留效應(carryover effect)。

1.2 中醫藥N-of-1試驗的特點和問題
N-of-1試驗的具體要求與特點見CENT國際指南[8],本節重點討論N-of-1試驗在中醫藥研究中的應用和問題。該試驗方法尤其適合于:當藥物對個體疾病的治療具有異質性[10],治療效果因人而異。中醫自古以來就有“同病異治”的診療思維,即同樣一種疾病,因患者體質不同、地方不同、季節不同,而采用不同的治法。具體治療上是采用“一人一方”,因此N-of-1試驗的這一特點符合中醫“辨證論治”的個體化治療理念。但在具體運用中,有以下問題需要解決:
1.2.1 中醫藥N-of-1試驗的預初試驗、階段長度與洗脫期
除具備一般N-of-1試驗前預初試驗的功能,由于中藥復方在體內的代謝過程往往難以確定,很難獲得半衰期的數據,有學者提出可根據預初試驗結果,結合研究者以往的臨床治療經驗,制定中藥方劑相對合理洗脫期[5,11]。以患者自我評定的癥狀積分[7分制的Likert量表輔以目測模擬尺測量(visual analogue scales,VAS)法為結局指標],得出服藥后的起效時問及停藥后療效維持時間,初步確定洗脫期與干預階段的時間期限。由于中藥與西藥相比,起效與失效時間均相對較長,一般設定階段長度為一個月左右[5,12]。洗脫期患者暫時停藥,若時間過長,受試者難以接受。目前有兩個對策:① 在兩個階段之間不停藥,只是將觀察指標的采集時間規定在每個階段的末尾幾天,在此前的時間(幾天或幾周)成為前一階段用藥的洗脫期[11-12]。② 陳新林等[13]提出無洗脫期的N-of-1試驗及其對應的混合效應模型,借助高級統計模型檢測殘留效應因素,有助于校正個體自身因素和階段效應的影響,不影響兩種干預的效果比較。
1.2.2 N-of-1試驗能否體現中醫“因時制宜”?
中醫學認為,人們的生理、病理變化必然會受到季節、氣候和時間節律的影響,所以不同的季節,疾病的發生和養生、治病的原則都有所不同。患者的中醫證型也可能會有所變化。因此,有學者擔心反復在同一個體身上進行多次交叉試驗,難以體現中醫“因時制宜”的特點。須知N-of-1試驗要求受試疾病為慢性病且病情相對穩定,我們在針對支氣管擴張癥的N-of-1試驗中發現[12,14-15],中藥單病例試驗周期長,但受試者的中醫證型相對穩定,主證在一定時間內相對保持不變(可半年以上)。我們在N-of-1試驗方案中規定:治療上可采用主方不變,針對次證或癥狀變化靈活加減,以適應中醫特點。對照干預則恒定不變。結果表明個體化方優于固定方,證明了辨證論治在中醫個體化治療中的優勢[12,14]。因此N-of-1試驗不會影響中醫“因時制宜”的原則。
1.2.3 中醫N-of-1試驗中基線的可比性
慢性穩定性疾病也有病情的自然波動,不可完全避免,兩個階段的基線可能不一致,容易影響基線的可比性。這是N-of-1試驗(西醫、中醫皆有)的不足之一[3],由于在穩定期的慢性病患者中,中醫主證候相對穩定,對基線的影響不大。最有可能影響中醫N-of-1試驗基線可比性的因素,是上一輪中藥可能的殘留效應[5,12],其對策包括延長洗脫期、改進統計學方法等[5,16-17],詳見本文“4.1 構建適合的統計模型”。
2 MBDs
2.1 方法簡介
MBDs是單病例試驗的一種,在國外長期應用于心理與行為治療研究。如評價接受和承諾治療對焦慮抑郁癥患者消極思維干預作用采用了多基線設計[18],逐漸延伸發展至康復醫學中,如早期獲得性腦損傷的閱讀理解康復[19]。MBDs的干預是有序交錯地引入到不同患者中。如圖2所示(A表示基線,B表示干預)。個體先經歷基線期,再進入干預期。圖中基線期A在所有層同時開始,干預B在不同的層上按順序交錯進行,后面層的基線時間逐漸變長[7]。例如,第1個受試者基線5天后開始B治療,與第2、3個受試者所處的A階段,形成平行空白對照。第2個受試者在基線9天之后開始B治療,與第3個受試者的A階段形成空白對照。第3個受試者在基線14天后開始治療,以此類推。在MBDs試驗至少需要3層不同時間序列的基線(即意味著至少3個受試者)。

在MBDs試驗中,每個受試者的基線持續時間以交錯方式有序地發生變化[20],同時連續地測量觀察指標,以此評估干預措施。基線有兩個作用:① 基線是干預階段的基準,為干預階段觀察指標的改變提供了對比[7]。② 基線在一定程度上能預測疾病癥狀或行為的發展方向,基線趨勢是指不同觀測值(隨時間推移)變化的斜率[21],常用于預估疾病癥狀的自然恢復(natural recovery),觀察干預階段的數據是否高于(或低于)基線的趨勢線。如果治療有效,觀察指標在治療階段的變化水平將與基線趨勢有所不同[22]。
有序交錯引入干預可控制影響內部效度的混雜因素,如歷史(history)(指外部環境的變化)、成熟或自然發展(maturation)(指受試者體內的變化)[23]。干預引入后,第一個受試者的觀察指標發生改變,但這種改變可能是受外部環境的影響,即外部環境的改變剛好與干預引入的時間相重合,導致無關事件干擾我們對結果的推論。設置不同的基線時間可控制混雜因素,因為外部環境變化不太可能總是與干預發生在同一特定時間點[24-25]。
2.2 MBDs適用情況
MBDs具有以下兩個特點:① 相比N-of-1試驗,MBDs試驗無需洗脫期,個體由基線期進入干預期,個體內無需進行多輪重復交叉試驗,則不需要考慮困擾科研人員的中藥復方的藥效動力學問題。② MBDs可用于評價干預措施的初始療效[20]。通常而言,對藥物的有效性和安全性評價要經過多期臨床試驗驗證。開展大型隨機對照試驗(randomized controlled trial,RCT)往往需要前期研究結果的支持,在充分獲得研究依據的基礎上才能設計好RCTs方案[26]。MBDs所需樣本量少,可以全程密切觀察受試者對藥物的療效和不良反應,以及藥物起效后隨著時間的動態變化特征。這可為在更多人群中開展大型RCTs提供依據,同時避免了人力、財力和物力的浪費。
2015年,劉志剛等[6]采用多基線單病例隨機對照試驗研究葛根湯治療痛經的有效性和安全性,為其臨床推廣應用提供參考。該試驗同時納入6例患者,中醫診斷皆為:痛經(寒濕凝滯)。經過4~6個月基線期后,治療組予葛根湯,對照組予安慰劑,治療和隨訪各3個月。統計分析采用圖示法、非趨勢模型、趨勢模型相結合。該研究為證明方藥的有效性提供了新的思路。Harris[27]在總結植物藥治療慢性失眠的綜述中,提出多基線試驗可用于觀察植物藥對慢性疾病的長期療效。不少植物藥對某些慢性疾病具有持久的改善作用,緩慢起效或后續效應時間長,而多基線試驗可觀察藥物效果隨著時間的動態變化趨勢,檢驗藥物的持久效果。
2.3 MBDs局限性
當把MBDs應用在中醫藥時,啟發我們以下思考:① MBDs的“個體化”程度不如N-of-1試驗:N-of-1試驗為研究中醫辨證論治的療效,為個人選擇最佳治療方案時,受試者間無需具有同質性,每個人的疾病、中醫證型都可不一樣。每個人都是一例單病例隨機對照試驗,這最大程度貼合中醫的“辨證論治”,使藥證相符,做到“一人一方”。MBDs的干預是在個體間重復復制,納入的受試者,其疾病、嚴重程度或中醫證型應該一致才能使干預結果具有可比性。② 干預方式是交錯引入患者中的,當基線等待時間長時,靠后層次的患者病情發生變化的風險性可能會增加[7],因此在基線達到平穩狀態時,當盡快實施干預。③ MBD可用于初步評價干預措施的療效,但樣本量相對較少,應當慎重把其試驗結果作為一級證據[28]。
3 N-of-1試驗、MBDs和交叉試驗的比較
交叉試驗(crossover designs)是我們熟知的臨床試驗,是按事先設計好的次序,在試驗對象上按各個時期逐一依次實施各項處理,以比較這些處理的作用[29]。交叉試驗與N-of-1試驗有相通之處,同樣需要洗脫期,適用于病情穩定的慢性病,藥物可以快速起效和終止的臨床研究[30]。二者皆為同一個體先后接受不同干預措施的處理,因此消除了個體差異對療效的影響。但交叉試驗在同一個體的干預雖亦是交叉,卻并非多次重復。就對個體而言,一輪的干預治療可初步為個體選擇合適的治療方案,亦不能排除偶然因素導致的偏差。但交叉試驗所需時間相對短,患者依從性相對較好。表1比較了N-of-1試驗、多基線試驗和交叉試驗。

在統計分析方面,N-of-1試驗在初期主要是個體統計。隨著N-of-1試驗方法學的不斷發展,發現一系列的單病例試驗,還可總結出相似群體或群體中一部分特定亞組的規律[31-32]。理想的系列單病例試驗統計,是個體統計結合群體統計:① 個體統計:單個病例的計量指標符合正態分布者,首選配對t檢驗,不符合正態分布者,可采用配對Wilcoxon秩和檢驗。大部分單病例研究采用配對t檢驗,亦有采用t檢驗(其統計效率低于配對t檢驗)[5]。由于相同的對象在不同時間接受多次治療及測量,屬于重復測量資料,有自身相關效應(auto-correlation)干擾結果,現代單病例試驗的開拓者Gordon Guyatt教授的對策為將一定時間中的數據取平均值(例如將7天的數據平均為一周的均值),再進行統計學處理[12,33]。② 群體統計:系列N-of-1試驗的群體統計常用方法有Meta分析、貝葉斯模型、或混合效應模型等[1]。貝葉斯模型和混合效應模型較為靈活,可處理缺失值,能很好控制Ⅰ類錯誤,估計值接近真實值。在存在殘留效應時,貝葉斯模型和混合效應模型更適合分析系列N-of-1試驗數據[16]。
多基線試驗采用視圖分析結合統計分析。視圖分析描繪了觀察指標隨時間的改變,強調了臨床意義[7]。在視圖分析基礎上進行統計分析時,需要評估試驗的趨勢(trend)[34]、穩定性(stability)、水平(level)、一致性(consistency)、重疊性(overlap)。統計分析可涉及到時間序列法(time series analysis)、中間分割法(split middle method)、Tau-U法[35],貝葉斯統計方法[36]、隨機化法。基線的趨勢性和階段數據間的重疊分析是難點。在基線數據的基礎上,采用中間分割法或貝葉斯方法[37]進行預估。重疊是指來自干預階段的數據點與來自基線階段的數據重疊的百分比[34]。Tau-U來源于Kendall’s Rank Correlation(Tau)和Mann-Whitney U檢驗[38],可檢驗階段間的數據不重疊的情況。當不重疊數據的百分比越高,說明干預效果越大[35]。目前MBDs的數學理論模型較為復雜。
4 試驗案例改進舉例
4.1 構建適合的統計模型
國內學者設想借助高效的統計方法來提高中醫藥N-of-1試驗敏感性的對策,包括個體與群體數據相結合,以及將殘留效應因素置入統計分析中。分層貝葉斯統計方法以其顯著的特點,已成為系列單病例試驗的主要統計方法之一[8]。貝葉斯模型將過去已經完成類似的n-1次試驗的數據作為先驗信息,結合樣本信息(現有數據),整理形成了后驗信息[36,39],在不增加試驗周期的情況下,提高N-of-1試驗的可靠性和敏感性。目前已有一個基于分層貝葉斯分析的中醫治療支氣管擴張癥單病例隨機對照試驗在研究中[17]。該研究擬選擇支氣管擴張癥穩定期患者,以患者最為關心的癥狀為主要指標(1~7分的Likert量表),以安慰劑為對照,與高度個體化的中醫辨證論治進行一系列單病例隨機對照試驗。在數據分析中采用分層貝葉斯模型,引入相關參數和變量如不同中醫證型、中藥殘留效應等,在分析中利用已有信息(如借鑒以往試驗結果),從個體與群體水平研究中醫辨證論治的療效,同時與配對t檢驗、Meta分析等傳統統計方法進行比較。
4.2 試驗方法組合
在臨床設計時,亦有研究者稍加創新。Nikles等[37]探討止痛藥對頸部揮鞭樣損傷(whiplash associated disorder,WAD)急性期的止痛效果,把N-of-1試驗與MBDs結合,在基礎治療上疊加不同的止痛藥物以比較藥物的差異,同時為患者選擇最適合的止痛藥,如圖3所示。

注:基礎治療為指南指導下的物理運動治療。干預C:對乙酰氨基酚+基礎治療;干預D:萘普生+基礎治療;干預E:對乙酰氨基酚+萘普生+基礎治療。試驗共納入15例患者,分入不同基線組,試驗包含3輪,每個輪次內隨機采用干預項C、D、E,期間不設置洗脫期。
試驗中,急性期病情隨著時間轉向慢性的過程中,疼痛癥狀具有一定的緩解傾向。眾所周知,N-of-1試驗適合慢性疾病穩定期,研究者把N-of-1試驗與多基線試驗相結合,通過視圖與數學模型分析,使N-of-1試驗用于疾病的急性期,是一種新的嘗試。研究中利用多基線試驗的基線趨勢,預估疼痛癥狀的緩解趨勢,使觀察指標的實際值與預估值相比較。該試驗主要觀察指標為每日頸部疼痛評分:NRS(numeric rating scale)量表,比較NRS量表的實際值與預估值,當高出1.5個點時,視為差異具有臨床意義。同時統計出個體水平和群體水平的差異。這啟示我們,這種結合模式與數學模型分析也可能為中醫藥研究所借鑒。
5 總結
單病例隨機對照試驗的優點是中醫藥發展的機遇,但目前仍面臨不少問題,中藥成分復雜,如何確定洗脫時間是難題。多基線試驗無需洗脫期,但“個體化”程度卻不如N-of-1試驗。構建適合于中醫藥單病例試驗研究的統計模型(如分層貝葉斯模型)可望提高中醫藥N-of-1試驗的敏感性,改進試驗方法(如多基線試驗與N-of-1試驗結合)拓展了N-of-1試驗適用的疾病范圍,也為中醫藥的個體化治療研究帶來啟示。如何將單病例試驗更好地與中醫藥結合仍是我們需要深入思考的問題。