引用本文: 陳繪佳, 王振偉, 張誼, 張恩絲, 年華, 馬瑩, 楊佩蘭, 陳新林, 黃海茵. 針對“殘留效應”混合效應模型的辨證論治方治療支氣管擴張癥的單病例隨機對照試驗. 中國循證醫學雜志, 2023, 23(5): 504-512. doi: 10.7507/1672-2531.202210022 復制
單病例隨機對照試驗(N-of-1 trials,以下簡稱“單病例試驗”)是在單個受試者自身進行反復的多次交叉、隨機對照、盲法的研究,觀察該病例對干預措施和對照的不同反應來判斷個體最佳干預措施。國外權威循證醫學機構已將其列為針對“個體”的最高級別依據[1]。系列單病例試驗,可以歸納出群體或群體一部分人群(亞組)特定的規律[2-3]。其顯著優勢在于:治療方案可以高度個體化,尤其適合于中醫的辨證論治特色(一人一方)。目前關于中醫藥單病例試驗及其方法學的文獻有增多趨勢[4-9],該研究方法可以體現辨證論治的特點,是中醫藥富有潛力的研究方法。
單病例試驗適用的病種特點:慢性、非自限性、需較長期服藥。治療輪次一般要求3輪或以上。支氣管擴張癥(以下簡稱“支擴”)[10]穩定期的患者持續存在咳嗽、咳痰、膿痰、氣喘等呼吸道癥狀,或伴有便秘、乏力、出汗等肺外癥狀,西醫以物理治療為主,患者常常會尋求中藥治療來增強免疫力、降低發作次數、提高生活質量[11]。支擴符合單病例試驗對病種的要求。我們前期的支擴中藥單病例試驗以辨證論治方與固定方作對比研究,結合預初試驗和臨床經驗設置洗脫期,研究結果表明中藥單病例試驗患者的依從性、可行性均較好,體現了中醫個體化治療的優勢,但敏感性較低,中藥復方在體內的代謝過程難以確定,很難獲得半衰期的數據,試驗中可能存在中藥的“殘留效應”(carryover effects)[12-14]。這并不利于經典單病例試驗的進行。單病例隨機對照試驗對個體受試者進行干預時,難以避免受個體自身因素的影響。由于研究數據內部可能具有自相關性,存在嵌套的隨機因素,Zucker等[2,15]提出混合效應模型對影響因素進行正確的估計和假設檢驗。陳新林等[16-18]在此基礎上考慮了階段效應和殘留效應,構建了改進的混合效應模型,認為當單病例試驗中存在殘留效應時,可以將其納入模型中,以避免或平衡殘留效應對中藥單病例研究的影響。
因此,本研究采用安慰劑作為對照組,提高試驗檢測靈敏度,檢測試驗藥物的絕對有效性和安全性,并采用改進的混合效應模型進行中醫殘留效應的分析。本研究的試驗假說基于:在單病例試驗的個體水平與群體水平上,試驗組(辨證論治方)的療效顯著優于對照組(安慰劑);改進的混合效應模型可以檢測中藥方劑的殘留效應,并將其計入統計分析中,提高敏感性。本研究探索建立一種體現中醫藥辨證論治特色,符合國際醫學發展趨勢,針對慢性病的中藥單病例臨床試驗方法。本研究已在ClinicalTrials.gov注冊,注冊號NCT03147443。
1 資料與方法
1.1 試驗設計
遵循單病例隨機對照試驗的國際規范[4,19]。啟動正式的單病例試驗之前,需要對每一位篩選入組的受試者開展預初試驗,即磨合期(run-in period),約4~8周,評估中藥辨證論治的起效、失效時間,初步觀察干預的療效,并停藥至基線水平。之后再進入正式試驗,參照以往研究[9,20],用藥順序隨機化確定,單個病例自身進行多次交叉、隨機對照、雙盲法的試驗,干預3輪次。每一輪包括兩個觀察期(即試驗期、對照期),順序隨機而定,各為4周。每個觀察期的停藥期我們統計主要指標及其他指標,在此之前為前一期藥物的洗脫期(washout period),即4周(圖1)。在未揭盲情況下,如果受試者感覺干預措施療效不佳并要求改換另一種干預措施。根據隨機順序進入下一階段用藥,其數據結果仍可納入分析[9,21]。若發生支擴癥狀急性加重,取消未完成的該輪次,進行常規抗感染、抗炎等有效治療后[10],待進入穩定期,研究者及受試者可根據情況重新開始新一輪試驗。本研究已經通過上海中醫藥大學附屬岳陽中西醫結合醫院倫理委員會審查(審批號:2016倫理審查102號)。每一位受試者均簽署知情同意書。

1.2 診斷標準
1.2.1 西醫診斷標準
根據2017年歐洲呼吸病學會公布的成人支氣管擴張癥診治指南[22]、2012年國內專家共識[10]的診斷標準,高分辨率CT(high resolution computed tomography,HRCT)明確診斷支擴。
1.2.2 中醫診斷標準
參照《中醫病癥診斷療效標準》[23]并結合文獻[24],支擴的中醫證型分類有肺脾氣虛證、氣陰兩虛證、痰熱壅肺證等。不同的中醫證型或具夾雜證者均可入組。至少具備兩項主癥或兼癥有兩項及以上,且具有與證型相符合的舌脈,即可做出診斷。為提高中醫辨證的質量,每一位受試者由兩位主任醫師共同辨證。對疑難受試者,請名老中醫指導辨證。
1.3 納入與排除標準
1.3.1 納入標準
① 符合上述中醫、西醫診斷標準;② 年齡18~70歲,性別不限;③ 處于穩定期,超過3周無急性發作;④ 支擴急性發作≤3次/年;⑤ 自愿參與并簽署知情同意書。
1.3.2 排除標準
① 已出現呼吸衰竭者,且預期生存期<1年;② 伴有咯血者;③ 合并活動性肺結核;④ 確認妊娠,心、肝、腎等重要臟器功能嚴重異常者;⑤ 近3個月內參與其他藥物臨床試驗,影響本研究的指標觀察者。
1.4 隨機化方法和盲法
采用SPSS 15.0軟件生成隨機數字表,進行隨機區組設計,設定區組數為2,確定每一受試者各個輪次的用藥順序,例如AB-AB-BA。研究人員、受試者及統計人員均對藥物保持盲態,辨證論治方和安慰劑的顆粒劑在標簽、規格、包裝等保持完全一致。試驗結束后兩次揭盲。研究人員(醫生)、發藥人員及統計人員各自獨立。醫生給該患者完成中醫辨證后,開出辨證論治方。設立專門發藥人員進行藥物發放、登記、回收等工作。發藥人員將完成編盲的盲底置于密封不透光的編號信封中,嚴格根據隨機化編碼發藥。密封盲底(隨機數、產生隨機數的參數及試驗藥物編碼)一式兩份,分別由中藥房一名專門發藥人員及中藥房主任保存[12]。
1.5 中醫治療
1.5.1 辨證論治方
支擴穩定期常用治則:扶正、化痰、清熱。基本方組成是:桔梗10 g、生黃芪20 g、麥冬15 g、白茯苓15 g、米仁30 g、開金鎖30 g[11]。結合辨證隨證加減:痰熱證明顯者,加黃芩、紫花地丁等;肺脾氣虛證者,加黨參、白術、白扁豆等;氣陰兩虛證者,加南沙參、北沙參等。其他癥狀如便秘、胃納差、皮疹等隨癥加減。辨證論治方與臨床實踐相同,體現中醫的“同病異治”。據臨床觀察,若無急性加重情況,穩定期支擴患者的中醫證型相對穩定。為了體現中醫“因時制宜”的高度靈活性,試驗真實模擬臨床實際情況,每次隨訪期間(一般為1~2周1次),可根據患者(受試者)的癥狀變化,調整辨證論治方。
1.5.2 安慰劑
安慰劑由糊精、苦味劑、調色劑等制成,并加入1/20的支擴基本方,與試驗組藥物在包裝、外觀等一致[25]。
辨證論治方和安慰劑均每日一劑,分2次服用。一般情況下,每一觀察期內,兩種顆粒劑均服用3周,停藥1周。中藥配方顆粒劑委托江陰天江藥業有限公司提供。
1.6 觀察指標
1.6.1 主要指標
自我評價的癥狀評分(7分制的李克特量表):參考Guyatt等[20]總結的經典方法制定評分。觀察指標是受試者最為關心的臨床癥狀,包括:呼吸道的常見癥狀,如咳嗽、黃膿痰、胸悶、胸痛、氣喘;及其他肺外癥狀,如便秘、出汗、失眠、乏力等[9,12]。結合目測模擬尺測量法,受試者根據每天的癥狀變化以日記形式進行評分,分值0~6分。日記本記錄的積分越高,說明受試者的癥狀越嚴重。統計數據取周平均值。癥狀的改善大于0.5分認為臨床上對該項有效,所有癥狀總積分平均值的改善≥0.5分,即認為臨床上對該病例總體有效,設定此為最小臨床顯著差異值(minimal clinically important difference,MCID)[21,26]。
1.6.2 其他指標
① CAT量表(chronic obstructive pulmonary disease assessment test,COPD評估測試量表):已證實適用于評價支擴患者及其他慢性疾病患者生活質量[27]。② 24小時痰量:每一個觀察期開始前的連續3天、及結束前連續3天,測定24小時痰量并取平均值。為保證測量的準確性,囑受試者將痰液收集至特制的帶刻度的痰杯,方便記錄。③ 中醫證候評分:根據《中藥新藥臨床研究指導原則》[28],對中醫證候進行評分,包括咳嗽、咯痰、氣喘、胃納、汗出、大便以及舌脈等。④ 安全性指標:為觀察受試者的一般健康狀況及藥物的安全性,正式試驗開始和結束時行如下檢查:血尿常規、肝腎功能、心電圖。
1.7 統計分析
試驗組與對照組的數據,分別進行單病例試驗個體與群體的統計分析(圖2)。個體數據采用SPSS 15.0軟件進行分析(每個病例至少完成2輪)。首先將計量資料進行正態性檢驗分析,符合正態分布的以表示,個體數據采用配對t檢驗[21],檢驗水準為α=0.05。群體單病例數據(每個病例至少完成1輪)采用SAS 9.1.3軟件行混合效應模型分析[18]。陳新林構建的混合效應模型以患者的個體效應作為隨機效應,干預效應、殘留效應、階段效應作為固定效應。如果個體效應沒有統計學意義,則模型中剔除個體效應;如果殘留效應(或階段效應)沒有統計學意義,則模型中剔除殘留效應。保留有統計學意義的效應后,可估計干預效應。

2 結果
2.1 研究對象的基線特征
2017年5月—2019年5月,在岳陽醫院支擴專科門診招募本研究的受試者。24位受試者參加了磨合期試驗,21例受試者正式入組該項研究(圖3)。21例受試者的基線特征如表1所示。


2.2 單病例個體數據統計結果
18例患者可行個體水平的單病例統計學分析,經單側配對t檢驗,在總體癥狀評分上3例差異有統計學意義,24小時痰量1例差異有統計學意義,CAT量表評分3例差異有統計學意義,中醫證候評分1例差異有統計學意義,均表明辨證論治方優于安慰劑(表2)。

2.3 群體水平的數據統計結果
2.3.1 初步觀察殘留效應
對試驗的病例數據進行分析,觀察群體水平總體癥狀與呼吸癥狀李克特量表評分變化趨勢,發現個體化方的第二輪與第三輪的均分均小于安慰劑,辨證論治方療效較好;安慰劑的第二輪與第三輪的均分均小于第1輪,顯示中藥可能有殘留效應,或安慰劑1/20支擴穩定方有一定的治療效果(圖4)。

2.3.2 殘留效應模型的數據統計結果
采用加入殘留效應參數的混合效應模型分析群體數據,辨證論治方和安慰劑對總體癥狀李克特量表評分、呼吸癥狀李克特量表評分、CAT量表評分的殘留效應的差異具有統計學意義(P<0.05)。群體病例的24小時痰量、中醫癥候評分,殘留效應無統計學意義(表3)。

2.3.3 干預效應的數據統計結果
采用改進的混合效應模型分析群體水平數據,辨證論治方和安慰劑對總體癥狀李克特量表評分、呼吸癥狀李克特量表評分、CAT量表評分、中醫癥候評分的干預效應的差異具有統計學意義(P<0.05)。群體病例24小時痰量的干預效應無統計學意義(表4)。

2.4 安全性指標結果
試驗過程中三輪均無不良反應。試驗前后血常規、尿常規,肝腎功能,心電圖等檢查無明顯異常。試驗結束后已經隨訪6個月及以上,全部正式入組試驗的21例受試者均未發生肝腎功能異常等不良反應。
3 討論
3.1 研究結果的總結分析
3.1.1 個體數據的結果分析
從個體水平上,本研究的統計學檢驗結果未達到最初設想,兩種方劑在各項規定指標中存在統計學差異的例數很少。病例4的支氣管擴張范圍較廣(雙側、多葉多段),入組前24小時痰量平均痰量接近100 mL,服藥期間24小時痰量的平均值逐漸減少,兩方在24小時痰量的差異有統計學意義。病例8的兩方在胃腸道癥狀(胃納、便溏)的評分上差異有統計學意義。病例9的兩方在便秘癥狀的評分上差異有統計學意義,在總體癥狀評分上差異有統計學意義。病例10的兩方的總體癥狀評分、呼吸癥狀評分、便秘癥狀評分差異有統計學意義,均證明了辨證論治方的療效。
3.1.2 群體數據的結果分析
采用混合效應模型分析群體數據,兩方在三項指標(總體癥狀李克特量表評分、呼吸癥狀李克特量表評分、CAT量表評分)上存在殘留效應,而在24小時痰量、中醫癥候評分上不存在殘留效應。針對“殘留效應”設計的混合效應模型分析兩種方劑的干預效應,患者總體癥狀、呼吸系統癥狀、CAT量表、中醫證候評分結果均表明辨證論治方優于安慰劑,而24小時痰量的結果表明,辨證論治方與安慰劑未見明顯的差異。
3.1.3 總體結果分析
在單個病例水平比較時只有少數病例在個別指標上顯示有統計學意義,而在群體水平分析時則顯示多個指標有統計學意義。我們考慮有以下幾個原因:① 單個病例水平的比較采用配對t檢驗,僅分析單個受試者2~3輪的數據,其統計學強度低,發生Ⅱ型錯誤的概率增高。② 中藥治療患者某些癥狀(如慢性便秘),其癥狀評分的差異往往有統計學意義。這類病例符合經典的單病例試驗要求(試驗藥物可以快速起效、快速失效)。但中藥復方制劑的半衰期很難明確,藥代學性質與經典的單病例試驗要求有一定差距。導致中藥對于大多數癥狀的起效時間與失效時間相對緩慢,出現“殘留效應”,成為只有少數病例在個別指標上顯示有統計學意義的又一個原因。③ 本中醫藥單病例試驗研究,根據預初試驗及臨床經驗,合理設置洗脫期,還采用改進的混合效應模型分析群體數據,仍然檢測出了中藥殘留效應。而中藥殘留效應的存在必然降低兩種方劑的統計學差異程度。在群體數據分析中,我們采用改進的混合效應模型剔除殘留效應,結果顯示總體癥狀、呼吸系統癥狀、CAT量表、中醫證候評分的干預效應差異有統計學意義。而在單個病例水平的統計學分析中無法采用混合效應模型剔除殘留效應。
因此,以上三個因素導致在單個病例水平比較時只有少數病例在個別指標上顯示有統計學意義,而在群體水平分析時則顯示多個指標有統計學意義。當存在此種情況時,如果單個病例水平得出統計學差異,其可靠性很高,對臨床決策有很好的指導意義。單個病例水平無統計學差異,要考慮統計學Ⅱ型錯誤概率增高的影響,不能確定兩種干預沒有差異,此時可以參考群體數據的統計學結果。
3.2 本研究的特點
本研究除了嚴格貫徹隨機、雙盲的高質量臨床試驗的要求之外,還具有以下特點:
3.2.1 充分體現中醫整體觀和辨證論治思想
試驗處方用藥與真實的臨床實踐相同,每次隨訪(一般為1~2周1次)時開具的辨證論治方是根據患者個體病情或癥狀變化而加減,更能體現“以人為本”的精髓,契合中醫學整體觀、辨證論治的思想。本研究充分發揮了單病例試驗的特點,不同的中醫證型或具夾雜證者均可入組。結局指標是受試者最關心的重要癥狀,通過患者的自身參與,真實反映受試者在研究期間的相關變化。這也是單病例隨機對照試驗用于中醫藥研究最為突出的優點之一。
3.2.2 以安慰劑為對照
以安慰劑為對照在國際臨床試驗中,包括單病例試驗很常見,主要因為安慰劑能檢測干預措施的絕對安全性和有效性,能提高靈敏度、減少偏倚[29]。本研究要求在中藥安慰劑制作方面具有比較豐富經驗的制藥公司生產中藥安慰劑顆粒,由糊精、苦味劑、調色劑及1/20的支擴穩定方組成。實際應用表明:絕大部分受試者的依從性良好,能夠完成辨證論治與安慰劑配方顆粒規定的療程。在絕大多數個體單病例試驗及部分群體單病例試驗的數據比較中,未見統計學差異,說明本研究的安慰劑對照總體上比較成功。然而必須承認,雖然本研究的中藥安慰劑顆粒能夠做到在包裝及外觀上與試驗藥顆粒完全一致,在氣味及口感方面仍然有一定的差異,有待今后進一步改進。
3.2.3 改進的混合效應模型處理殘留效應
在既往研究基礎上,我們根據預初試驗合理設置磨合期及洗脫期,觀察期的用藥期由4周減少為3周,停藥1周為不用藥的洗脫期,使實際洗脫期延長為4周。然而,混合效應模型仍檢測到中藥的“殘留效應”。
陳新林等[16-17]對比四種數學模型—配對t檢驗、混合效應模型、差值的混合效應模型、Meta分析,認為雖然配對t檢驗的擬合效果較優,但不適合存在相關關系的單病例試驗數據。當單病例試驗存在殘留效應時,混合效應模型最符合其設計的實際情況,這有助于校正個體自身因素和階段效應的影響,精確估計中醫藥的殘留效應對比兩種干預的效果,指導中醫藥單病例試驗的臨床研究。
陳新林構建的混合效應模型[16,18]可以計算三個效應:干預效應、階段效應和殘留效應,這也是本研究在統計學分析的優勢之一。Meta分析只計算群體的干預效應,且只完成了一輪,沒有標準差的(如總體癥狀李克特量表中病例6、20)單病例個體數據無法納入計算(包括自身對照組數據也會丟棄)。這些是Meta分析的弱點,可能產生偏倚。單病例試驗存在殘留效應時,混合效應模型的敏感性高于Meta分析。
3.3 不足與展望
本研究的局限性:① 樣本量偏小:群體水平的研究結果只能代表20例的支擴小群體,尚不能以此推廣應用于臨床,其結論的普遍適用性有待于進一步擴大樣本量以明確。② 中醫藥單病例試驗仍需優化:經典單病例試驗的某些要求(快速起效,且快速失效),與中藥復方的藥代學性質有一定差距。兩位伴有便秘的患者,通過三輪試驗,在總體癥狀評分上,得出了統計學差異。提示中藥治療某些癥狀(如慢性便秘),具有起效快,藥效消失亦快的特點,這類病例符合經典單病例試驗的要求。筆者認為,如果刻板地遵循經典單病例試驗的這一先決條件,則許多中藥可能失去一個評價個體化治療的循證醫學手段。考慮到單病例試驗對于中醫藥研究的獨特價值,值得探索其方法學的進一步優化。③ 統計學差異與臨床意義:雖然通過針對“殘留效應”設計的混合效應模型,發現在群體水平上,中醫辨證論治在主要的各項指標(總體癥狀評分,呼吸癥狀評分、中醫證候評分與CAT量表評分上)與安慰劑比較均有統計學意義。但李克特量表[21]的最小臨床顯著差異值應大于0.5分,而本研究中,總體癥狀與呼吸系統癥狀積分均值的差值分別為0.15、0.17,雖然有統計學差異,卻沒有達到臨床意義上的差異。試驗CAT評分的均值的差值也沒有達到最小臨床顯著差異值(2分)[12,30]。這也是今后在中醫單病例試驗中應當受到重視與改進的方面。
3.4 對今后單病例試驗研究的啟示
為了提高中藥單病例試驗的敏感度與可靠性,今后還可以采用實驗室指標,指標的選擇上可以兼顧測量簡便、系統誤差小、自然波動與主觀干擾較小、成本較低等因素。在本研究中,只有個別患者得出統計學差異,說明本統計學方法的敏感性有待進一步提高。目前分層貝葉斯模型統計方法[5,19,31]可以同步估計個體和群體數據。在一定條件下可以“借用”其他受試者的單病例試驗結果來提高該個體結果的準確度,即試驗的敏感性[13],值得深入研究。
綜上所述,本項中藥辨證論治支擴的單病例試驗研究,能充分體現中醫辨證論治的個體化治療特色,且方法簡便,可行性好。改進的混合效應模型,可以檢測出中藥單病例試驗的殘留效應,且敏感性高于Meta分析。然而,本研究方法在個體水平上,除了對于某些癥狀(如便秘)的中藥療效較為敏感外,對于總體癥狀及呼吸系統癥狀療效的敏感性偏低,有待更多的病例和病種的深入研究。
單病例隨機對照試驗(N-of-1 trials,以下簡稱“單病例試驗”)是在單個受試者自身進行反復的多次交叉、隨機對照、盲法的研究,觀察該病例對干預措施和對照的不同反應來判斷個體最佳干預措施。國外權威循證醫學機構已將其列為針對“個體”的最高級別依據[1]。系列單病例試驗,可以歸納出群體或群體一部分人群(亞組)特定的規律[2-3]。其顯著優勢在于:治療方案可以高度個體化,尤其適合于中醫的辨證論治特色(一人一方)。目前關于中醫藥單病例試驗及其方法學的文獻有增多趨勢[4-9],該研究方法可以體現辨證論治的特點,是中醫藥富有潛力的研究方法。
單病例試驗適用的病種特點:慢性、非自限性、需較長期服藥。治療輪次一般要求3輪或以上。支氣管擴張癥(以下簡稱“支擴”)[10]穩定期的患者持續存在咳嗽、咳痰、膿痰、氣喘等呼吸道癥狀,或伴有便秘、乏力、出汗等肺外癥狀,西醫以物理治療為主,患者常常會尋求中藥治療來增強免疫力、降低發作次數、提高生活質量[11]。支擴符合單病例試驗對病種的要求。我們前期的支擴中藥單病例試驗以辨證論治方與固定方作對比研究,結合預初試驗和臨床經驗設置洗脫期,研究結果表明中藥單病例試驗患者的依從性、可行性均較好,體現了中醫個體化治療的優勢,但敏感性較低,中藥復方在體內的代謝過程難以確定,很難獲得半衰期的數據,試驗中可能存在中藥的“殘留效應”(carryover effects)[12-14]。這并不利于經典單病例試驗的進行。單病例隨機對照試驗對個體受試者進行干預時,難以避免受個體自身因素的影響。由于研究數據內部可能具有自相關性,存在嵌套的隨機因素,Zucker等[2,15]提出混合效應模型對影響因素進行正確的估計和假設檢驗。陳新林等[16-18]在此基礎上考慮了階段效應和殘留效應,構建了改進的混合效應模型,認為當單病例試驗中存在殘留效應時,可以將其納入模型中,以避免或平衡殘留效應對中藥單病例研究的影響。
因此,本研究采用安慰劑作為對照組,提高試驗檢測靈敏度,檢測試驗藥物的絕對有效性和安全性,并采用改進的混合效應模型進行中醫殘留效應的分析。本研究的試驗假說基于:在單病例試驗的個體水平與群體水平上,試驗組(辨證論治方)的療效顯著優于對照組(安慰劑);改進的混合效應模型可以檢測中藥方劑的殘留效應,并將其計入統計分析中,提高敏感性。本研究探索建立一種體現中醫藥辨證論治特色,符合國際醫學發展趨勢,針對慢性病的中藥單病例臨床試驗方法。本研究已在ClinicalTrials.gov注冊,注冊號NCT03147443。
1 資料與方法
1.1 試驗設計
遵循單病例隨機對照試驗的國際規范[4,19]。啟動正式的單病例試驗之前,需要對每一位篩選入組的受試者開展預初試驗,即磨合期(run-in period),約4~8周,評估中藥辨證論治的起效、失效時間,初步觀察干預的療效,并停藥至基線水平。之后再進入正式試驗,參照以往研究[9,20],用藥順序隨機化確定,單個病例自身進行多次交叉、隨機對照、雙盲法的試驗,干預3輪次。每一輪包括兩個觀察期(即試驗期、對照期),順序隨機而定,各為4周。每個觀察期的停藥期我們統計主要指標及其他指標,在此之前為前一期藥物的洗脫期(washout period),即4周(圖1)。在未揭盲情況下,如果受試者感覺干預措施療效不佳并要求改換另一種干預措施。根據隨機順序進入下一階段用藥,其數據結果仍可納入分析[9,21]。若發生支擴癥狀急性加重,取消未完成的該輪次,進行常規抗感染、抗炎等有效治療后[10],待進入穩定期,研究者及受試者可根據情況重新開始新一輪試驗。本研究已經通過上海中醫藥大學附屬岳陽中西醫結合醫院倫理委員會審查(審批號:2016倫理審查102號)。每一位受試者均簽署知情同意書。

1.2 診斷標準
1.2.1 西醫診斷標準
根據2017年歐洲呼吸病學會公布的成人支氣管擴張癥診治指南[22]、2012年國內專家共識[10]的診斷標準,高分辨率CT(high resolution computed tomography,HRCT)明確診斷支擴。
1.2.2 中醫診斷標準
參照《中醫病癥診斷療效標準》[23]并結合文獻[24],支擴的中醫證型分類有肺脾氣虛證、氣陰兩虛證、痰熱壅肺證等。不同的中醫證型或具夾雜證者均可入組。至少具備兩項主癥或兼癥有兩項及以上,且具有與證型相符合的舌脈,即可做出診斷。為提高中醫辨證的質量,每一位受試者由兩位主任醫師共同辨證。對疑難受試者,請名老中醫指導辨證。
1.3 納入與排除標準
1.3.1 納入標準
① 符合上述中醫、西醫診斷標準;② 年齡18~70歲,性別不限;③ 處于穩定期,超過3周無急性發作;④ 支擴急性發作≤3次/年;⑤ 自愿參與并簽署知情同意書。
1.3.2 排除標準
① 已出現呼吸衰竭者,且預期生存期<1年;② 伴有咯血者;③ 合并活動性肺結核;④ 確認妊娠,心、肝、腎等重要臟器功能嚴重異常者;⑤ 近3個月內參與其他藥物臨床試驗,影響本研究的指標觀察者。
1.4 隨機化方法和盲法
采用SPSS 15.0軟件生成隨機數字表,進行隨機區組設計,設定區組數為2,確定每一受試者各個輪次的用藥順序,例如AB-AB-BA。研究人員、受試者及統計人員均對藥物保持盲態,辨證論治方和安慰劑的顆粒劑在標簽、規格、包裝等保持完全一致。試驗結束后兩次揭盲。研究人員(醫生)、發藥人員及統計人員各自獨立。醫生給該患者完成中醫辨證后,開出辨證論治方。設立專門發藥人員進行藥物發放、登記、回收等工作。發藥人員將完成編盲的盲底置于密封不透光的編號信封中,嚴格根據隨機化編碼發藥。密封盲底(隨機數、產生隨機數的參數及試驗藥物編碼)一式兩份,分別由中藥房一名專門發藥人員及中藥房主任保存[12]。
1.5 中醫治療
1.5.1 辨證論治方
支擴穩定期常用治則:扶正、化痰、清熱。基本方組成是:桔梗10 g、生黃芪20 g、麥冬15 g、白茯苓15 g、米仁30 g、開金鎖30 g[11]。結合辨證隨證加減:痰熱證明顯者,加黃芩、紫花地丁等;肺脾氣虛證者,加黨參、白術、白扁豆等;氣陰兩虛證者,加南沙參、北沙參等。其他癥狀如便秘、胃納差、皮疹等隨癥加減。辨證論治方與臨床實踐相同,體現中醫的“同病異治”。據臨床觀察,若無急性加重情況,穩定期支擴患者的中醫證型相對穩定。為了體現中醫“因時制宜”的高度靈活性,試驗真實模擬臨床實際情況,每次隨訪期間(一般為1~2周1次),可根據患者(受試者)的癥狀變化,調整辨證論治方。
1.5.2 安慰劑
安慰劑由糊精、苦味劑、調色劑等制成,并加入1/20的支擴基本方,與試驗組藥物在包裝、外觀等一致[25]。
辨證論治方和安慰劑均每日一劑,分2次服用。一般情況下,每一觀察期內,兩種顆粒劑均服用3周,停藥1周。中藥配方顆粒劑委托江陰天江藥業有限公司提供。
1.6 觀察指標
1.6.1 主要指標
自我評價的癥狀評分(7分制的李克特量表):參考Guyatt等[20]總結的經典方法制定評分。觀察指標是受試者最為關心的臨床癥狀,包括:呼吸道的常見癥狀,如咳嗽、黃膿痰、胸悶、胸痛、氣喘;及其他肺外癥狀,如便秘、出汗、失眠、乏力等[9,12]。結合目測模擬尺測量法,受試者根據每天的癥狀變化以日記形式進行評分,分值0~6分。日記本記錄的積分越高,說明受試者的癥狀越嚴重。統計數據取周平均值。癥狀的改善大于0.5分認為臨床上對該項有效,所有癥狀總積分平均值的改善≥0.5分,即認為臨床上對該病例總體有效,設定此為最小臨床顯著差異值(minimal clinically important difference,MCID)[21,26]。
1.6.2 其他指標
① CAT量表(chronic obstructive pulmonary disease assessment test,COPD評估測試量表):已證實適用于評價支擴患者及其他慢性疾病患者生活質量[27]。② 24小時痰量:每一個觀察期開始前的連續3天、及結束前連續3天,測定24小時痰量并取平均值。為保證測量的準確性,囑受試者將痰液收集至特制的帶刻度的痰杯,方便記錄。③ 中醫證候評分:根據《中藥新藥臨床研究指導原則》[28],對中醫證候進行評分,包括咳嗽、咯痰、氣喘、胃納、汗出、大便以及舌脈等。④ 安全性指標:為觀察受試者的一般健康狀況及藥物的安全性,正式試驗開始和結束時行如下檢查:血尿常規、肝腎功能、心電圖。
1.7 統計分析
試驗組與對照組的數據,分別進行單病例試驗個體與群體的統計分析(圖2)。個體數據采用SPSS 15.0軟件進行分析(每個病例至少完成2輪)。首先將計量資料進行正態性檢驗分析,符合正態分布的以表示,個體數據采用配對t檢驗[21],檢驗水準為α=0.05。群體單病例數據(每個病例至少完成1輪)采用SAS 9.1.3軟件行混合效應模型分析[18]。陳新林構建的混合效應模型以患者的個體效應作為隨機效應,干預效應、殘留效應、階段效應作為固定效應。如果個體效應沒有統計學意義,則模型中剔除個體效應;如果殘留效應(或階段效應)沒有統計學意義,則模型中剔除殘留效應。保留有統計學意義的效應后,可估計干預效應。

2 結果
2.1 研究對象的基線特征
2017年5月—2019年5月,在岳陽醫院支擴專科門診招募本研究的受試者。24位受試者參加了磨合期試驗,21例受試者正式入組該項研究(圖3)。21例受試者的基線特征如表1所示。


2.2 單病例個體數據統計結果
18例患者可行個體水平的單病例統計學分析,經單側配對t檢驗,在總體癥狀評分上3例差異有統計學意義,24小時痰量1例差異有統計學意義,CAT量表評分3例差異有統計學意義,中醫證候評分1例差異有統計學意義,均表明辨證論治方優于安慰劑(表2)。

2.3 群體水平的數據統計結果
2.3.1 初步觀察殘留效應
對試驗的病例數據進行分析,觀察群體水平總體癥狀與呼吸癥狀李克特量表評分變化趨勢,發現個體化方的第二輪與第三輪的均分均小于安慰劑,辨證論治方療效較好;安慰劑的第二輪與第三輪的均分均小于第1輪,顯示中藥可能有殘留效應,或安慰劑1/20支擴穩定方有一定的治療效果(圖4)。

2.3.2 殘留效應模型的數據統計結果
采用加入殘留效應參數的混合效應模型分析群體數據,辨證論治方和安慰劑對總體癥狀李克特量表評分、呼吸癥狀李克特量表評分、CAT量表評分的殘留效應的差異具有統計學意義(P<0.05)。群體病例的24小時痰量、中醫癥候評分,殘留效應無統計學意義(表3)。

2.3.3 干預效應的數據統計結果
采用改進的混合效應模型分析群體水平數據,辨證論治方和安慰劑對總體癥狀李克特量表評分、呼吸癥狀李克特量表評分、CAT量表評分、中醫癥候評分的干預效應的差異具有統計學意義(P<0.05)。群體病例24小時痰量的干預效應無統計學意義(表4)。

2.4 安全性指標結果
試驗過程中三輪均無不良反應。試驗前后血常規、尿常規,肝腎功能,心電圖等檢查無明顯異常。試驗結束后已經隨訪6個月及以上,全部正式入組試驗的21例受試者均未發生肝腎功能異常等不良反應。
3 討論
3.1 研究結果的總結分析
3.1.1 個體數據的結果分析
從個體水平上,本研究的統計學檢驗結果未達到最初設想,兩種方劑在各項規定指標中存在統計學差異的例數很少。病例4的支氣管擴張范圍較廣(雙側、多葉多段),入組前24小時痰量平均痰量接近100 mL,服藥期間24小時痰量的平均值逐漸減少,兩方在24小時痰量的差異有統計學意義。病例8的兩方在胃腸道癥狀(胃納、便溏)的評分上差異有統計學意義。病例9的兩方在便秘癥狀的評分上差異有統計學意義,在總體癥狀評分上差異有統計學意義。病例10的兩方的總體癥狀評分、呼吸癥狀評分、便秘癥狀評分差異有統計學意義,均證明了辨證論治方的療效。
3.1.2 群體數據的結果分析
采用混合效應模型分析群體數據,兩方在三項指標(總體癥狀李克特量表評分、呼吸癥狀李克特量表評分、CAT量表評分)上存在殘留效應,而在24小時痰量、中醫癥候評分上不存在殘留效應。針對“殘留效應”設計的混合效應模型分析兩種方劑的干預效應,患者總體癥狀、呼吸系統癥狀、CAT量表、中醫證候評分結果均表明辨證論治方優于安慰劑,而24小時痰量的結果表明,辨證論治方與安慰劑未見明顯的差異。
3.1.3 總體結果分析
在單個病例水平比較時只有少數病例在個別指標上顯示有統計學意義,而在群體水平分析時則顯示多個指標有統計學意義。我們考慮有以下幾個原因:① 單個病例水平的比較采用配對t檢驗,僅分析單個受試者2~3輪的數據,其統計學強度低,發生Ⅱ型錯誤的概率增高。② 中藥治療患者某些癥狀(如慢性便秘),其癥狀評分的差異往往有統計學意義。這類病例符合經典的單病例試驗要求(試驗藥物可以快速起效、快速失效)。但中藥復方制劑的半衰期很難明確,藥代學性質與經典的單病例試驗要求有一定差距。導致中藥對于大多數癥狀的起效時間與失效時間相對緩慢,出現“殘留效應”,成為只有少數病例在個別指標上顯示有統計學意義的又一個原因。③ 本中醫藥單病例試驗研究,根據預初試驗及臨床經驗,合理設置洗脫期,還采用改進的混合效應模型分析群體數據,仍然檢測出了中藥殘留效應。而中藥殘留效應的存在必然降低兩種方劑的統計學差異程度。在群體數據分析中,我們采用改進的混合效應模型剔除殘留效應,結果顯示總體癥狀、呼吸系統癥狀、CAT量表、中醫證候評分的干預效應差異有統計學意義。而在單個病例水平的統計學分析中無法采用混合效應模型剔除殘留效應。
因此,以上三個因素導致在單個病例水平比較時只有少數病例在個別指標上顯示有統計學意義,而在群體水平分析時則顯示多個指標有統計學意義。當存在此種情況時,如果單個病例水平得出統計學差異,其可靠性很高,對臨床決策有很好的指導意義。單個病例水平無統計學差異,要考慮統計學Ⅱ型錯誤概率增高的影響,不能確定兩種干預沒有差異,此時可以參考群體數據的統計學結果。
3.2 本研究的特點
本研究除了嚴格貫徹隨機、雙盲的高質量臨床試驗的要求之外,還具有以下特點:
3.2.1 充分體現中醫整體觀和辨證論治思想
試驗處方用藥與真實的臨床實踐相同,每次隨訪(一般為1~2周1次)時開具的辨證論治方是根據患者個體病情或癥狀變化而加減,更能體現“以人為本”的精髓,契合中醫學整體觀、辨證論治的思想。本研究充分發揮了單病例試驗的特點,不同的中醫證型或具夾雜證者均可入組。結局指標是受試者最關心的重要癥狀,通過患者的自身參與,真實反映受試者在研究期間的相關變化。這也是單病例隨機對照試驗用于中醫藥研究最為突出的優點之一。
3.2.2 以安慰劑為對照
以安慰劑為對照在國際臨床試驗中,包括單病例試驗很常見,主要因為安慰劑能檢測干預措施的絕對安全性和有效性,能提高靈敏度、減少偏倚[29]。本研究要求在中藥安慰劑制作方面具有比較豐富經驗的制藥公司生產中藥安慰劑顆粒,由糊精、苦味劑、調色劑及1/20的支擴穩定方組成。實際應用表明:絕大部分受試者的依從性良好,能夠完成辨證論治與安慰劑配方顆粒規定的療程。在絕大多數個體單病例試驗及部分群體單病例試驗的數據比較中,未見統計學差異,說明本研究的安慰劑對照總體上比較成功。然而必須承認,雖然本研究的中藥安慰劑顆粒能夠做到在包裝及外觀上與試驗藥顆粒完全一致,在氣味及口感方面仍然有一定的差異,有待今后進一步改進。
3.2.3 改進的混合效應模型處理殘留效應
在既往研究基礎上,我們根據預初試驗合理設置磨合期及洗脫期,觀察期的用藥期由4周減少為3周,停藥1周為不用藥的洗脫期,使實際洗脫期延長為4周。然而,混合效應模型仍檢測到中藥的“殘留效應”。
陳新林等[16-17]對比四種數學模型—配對t檢驗、混合效應模型、差值的混合效應模型、Meta分析,認為雖然配對t檢驗的擬合效果較優,但不適合存在相關關系的單病例試驗數據。當單病例試驗存在殘留效應時,混合效應模型最符合其設計的實際情況,這有助于校正個體自身因素和階段效應的影響,精確估計中醫藥的殘留效應對比兩種干預的效果,指導中醫藥單病例試驗的臨床研究。
陳新林構建的混合效應模型[16,18]可以計算三個效應:干預效應、階段效應和殘留效應,這也是本研究在統計學分析的優勢之一。Meta分析只計算群體的干預效應,且只完成了一輪,沒有標準差的(如總體癥狀李克特量表中病例6、20)單病例個體數據無法納入計算(包括自身對照組數據也會丟棄)。這些是Meta分析的弱點,可能產生偏倚。單病例試驗存在殘留效應時,混合效應模型的敏感性高于Meta分析。
3.3 不足與展望
本研究的局限性:① 樣本量偏小:群體水平的研究結果只能代表20例的支擴小群體,尚不能以此推廣應用于臨床,其結論的普遍適用性有待于進一步擴大樣本量以明確。② 中醫藥單病例試驗仍需優化:經典單病例試驗的某些要求(快速起效,且快速失效),與中藥復方的藥代學性質有一定差距。兩位伴有便秘的患者,通過三輪試驗,在總體癥狀評分上,得出了統計學差異。提示中藥治療某些癥狀(如慢性便秘),具有起效快,藥效消失亦快的特點,這類病例符合經典單病例試驗的要求。筆者認為,如果刻板地遵循經典單病例試驗的這一先決條件,則許多中藥可能失去一個評價個體化治療的循證醫學手段。考慮到單病例試驗對于中醫藥研究的獨特價值,值得探索其方法學的進一步優化。③ 統計學差異與臨床意義:雖然通過針對“殘留效應”設計的混合效應模型,發現在群體水平上,中醫辨證論治在主要的各項指標(總體癥狀評分,呼吸癥狀評分、中醫證候評分與CAT量表評分上)與安慰劑比較均有統計學意義。但李克特量表[21]的最小臨床顯著差異值應大于0.5分,而本研究中,總體癥狀與呼吸系統癥狀積分均值的差值分別為0.15、0.17,雖然有統計學差異,卻沒有達到臨床意義上的差異。試驗CAT評分的均值的差值也沒有達到最小臨床顯著差異值(2分)[12,30]。這也是今后在中醫單病例試驗中應當受到重視與改進的方面。
3.4 對今后單病例試驗研究的啟示
為了提高中藥單病例試驗的敏感度與可靠性,今后還可以采用實驗室指標,指標的選擇上可以兼顧測量簡便、系統誤差小、自然波動與主觀干擾較小、成本較低等因素。在本研究中,只有個別患者得出統計學差異,說明本統計學方法的敏感性有待進一步提高。目前分層貝葉斯模型統計方法[5,19,31]可以同步估計個體和群體數據。在一定條件下可以“借用”其他受試者的單病例試驗結果來提高該個體結果的準確度,即試驗的敏感性[13],值得深入研究。
綜上所述,本項中藥辨證論治支擴的單病例試驗研究,能充分體現中醫辨證論治的個體化治療特色,且方法簡便,可行性好。改進的混合效應模型,可以檢測出中藥單病例試驗的殘留效應,且敏感性高于Meta分析。然而,本研究方法在個體水平上,除了對于某些癥狀(如便秘)的中藥療效較為敏感外,對于總體癥狀及呼吸系統癥狀療效的敏感性偏低,有待更多的病例和病種的深入研究。