國內外眾多關于卒中干預措施的臨床試驗研究快速發展,臨床試驗的開展過程中結果評估環節至關重要。目前對患者功能情況的評估指標已經廣泛采用,并已成為監管機構對卒中臨床試驗審核的強制要求。該文回顧了功能指標的分類,及在卒中治療臨床試驗中功能指標的使用情況。目前最常用的功能評價指標為美國國立衛生研究院腦卒中量表、Barthel 指數、改良 Rankin 量表及復合量表,該文著重介紹了上述幾種量表的有效性、可靠性、反應性以及可行性等特點。在功能量表結果的統計分析中,二分法是最常用的手段,但對于良好/不良結局的切分點選取尚無統一共識。卒中試驗功能評分時間選擇方面存在巨大差異,目前最廣泛采用的時間為 3 個月。
引用本文: 劉子悅, 朱以誠. 腦卒中干預試驗中功能結局指標的發展. 華西醫學, 2020, 35(6): 637-641. doi: 10.7507/1002-0179.202005061 復制
隨著國內外眾多臨床試驗的快速發展,關于各種卒中干預措施的觀點令人應接不暇。臨床試驗旨在評估新的干預措施相比對照組的有效性,可能掀開卒中治療中令人興奮的新篇章,帶來臨床治療的新方法和新策略,但臨床試驗的開展過程相當艱辛,特別是卒中試驗的結果評估至關重要。試驗結果評估的方法差異很可能造成結果的差異,從而改變人們對相應干預措施的認識。為得到可靠的試驗結果,研究者均應該提供治療效果的量化評估。縱觀卒中治療臨床試驗的歷史,死亡或卒中事件復發等終點是最早且最廣泛應用的評估措施[1]。誠然,對于卒中一級和二級預防的試驗而言,這些“硬臨床終點”簡潔有效,但并未充分反映卒中損傷程度、致殘性的結局。因此,目前對患者功能情況的評估已得到廣泛采用,并且已成為監管機構對卒中臨床試驗審核的強制要求。至今多種卒中后功能測量指標已被開發,如美國國立衛生研究院腦卒中量表(National Institute of Health Stroke Scale,NIHSS)、Barthel 指數(Barthel Index,BI)、Rankin 量表(Rankin Scale,RS)及改良 Rankin 量表(modified Rankin Scale,mRS)等[2-4]。本文回顧了功能指標的分類及在卒中治療臨床試驗中功能指標的使用情況,并且簡要描述了幾項試驗中常用功能結果指標的特征;同時,討論了用于評估卒中功能結果的分析方法,如切分點相關問題;最后,在功能結局的時間選取方面進行了總結。
1 功能指標的分類
2001 年,世界衛生組織國際功能、失能和健康分類(World Health Organization International Classification of Functioning,Disability and Health,WHO-ICF)對功能結果分類進行了定義,即把功能結果分為對損傷、活動度(舊標準中的殘疾)及參與度(舊標準中的殘疾)3 個層級的描述[5]。“損傷”指軀體結構或功能的傷害,“活動度”定義為個體執行任務或活動中的表現,“參與度”指個體在實際社會生活中可能遇到的困難。
2018 年,Taylor-Rowan 等[6]在一篇總結急性卒中試驗的功能評估的文章中建議增加第 4 級,即對生活質量的描述,它是包含活動度、參與度等許多因素在內的評價工具,具有健康經濟分析等特殊用途。常用的 NIHSS 評分、BI 及 mRS 分屬于損傷、活動度及參與度 3 個層級(表 1)。

2 卒中治療臨床試驗中功能指標的使用情況
20 世紀 90 年代以來,越來越多的研究采用功能指標作為終點評估指標。回顧 2007 年—2010 年在 clinicaltrials.gov 注冊的腦卒中干預性研究(包括未發表的數據),共計 473 項試驗中共描述了 191 種結果測量形式,其中至少 63 項獨立量表被列為主要結局評價量表。其中使用是最普遍的是 mRS,并且最常用作主要結局指標;NIHSS 是第二大流行的測量量表;BI 排在第 3 位,僅在 8 項試驗中作為主要結局的測量指標;僅評估運動功能的 Fugl-Meyer 量表居第 4 位,且通常用于康復相關試驗中[7]。
Duncan 等[1]對 1980 年—2000 年所有已發表的急性卒中藥物干預隨機研究進行了系統評價,并記錄了結果評價措施。該研究共納入涉及 57 214 名受試者的 51 項研究,其中只有 29 項研究明確了主要終點的觀察措施和時限。結果表明,最常用的結局評估量表為 BI(n=27,53%),排在第 2、3、4 位的分別為 mRS(n=16,31%)、改良 Mathew 量表(n=10,19%)及 NIHSS(n=8,16%)。Quinn 等[8]回顧并總結了 2001 年—2006 年共計 126 項干預性卒中臨床試驗,包括早期假設研究到多中心試驗(第 1 階段:4 項;第 2 階段:46 項;第 3 階段:20 項;非研究性藥物研究:56 項),其中使用最多的量表前 3 位分別為 mRS(n=81,64.3%)、BI(n=51,40.5%)及 NIHSS(n=35,27.8%),同時以上 3 種量表在研究的主要終點中也是最常使用的。一項對中國急性腦卒中隨機對照試驗證據現狀的總結研究共納入了 1996 年—2010 年國內外發表的中國大陸地區急性腦卒中隨機對照治療試驗 9 061 項,結果表明在結局中評估損傷層級的比例顯著高于評估功能殘疾(包括活動度和參與度)的比例(85.1% vs. 22.5%,P<0.001);評估損傷的工具中,最常見的為中國卒中量表(類似于改良的愛丁堡-斯堪的納維亞卒中量表);至于對殘疾的評估,最常選擇的工具是 BI(74.6%,1 522/2 040),其次是 RS 或 mRS(15.0%,307/2 040);另外相比小型研究,大型研究則更傾向于選擇殘疾或死亡為終點[9]。
卒中一級和二級預防的隨機臨床試驗數量眾多且有高度異質性,特別是在研究結果的評估方面。這些試驗的目的通常為研究某些生活方式或治療方法的有效性,包括不同降壓藥物、降糖藥物、降膽固醇/甘油三酯藥物、抗血小板及抗凝藥物等的影響。在大多數試驗中,主要和次要終點通常采取復合終點。例如,在依普羅沙坦與尼群地平進行卒中二級預防(MOSES)研究中,主要終點是總死亡率、所有心血管及腦血管事件的總合[10];而在華法林-阿司匹林治療復發性卒中(WARSS)研究中,主要終點是任何原因導致的死亡或復發性缺血性卒中[11]。
總之,卒中治療臨床試驗中結局的評估方案及形式多種多樣,并無統一共識,且常常受研究人群、干預措施及客觀條件等多種因素影響。
3 常用指標的特征
即使在 WHO-ICF 的同一級別內,也有許多評估量表可供選擇,因此了解不同量表的特性對于臨床試驗終點評估工具的選擇非常重要。對臨床評估工具而言,重要的經典特性是有效性、可靠性、對變化的反應性以及可行性/可接受性(表 2)[12]。本部分對最常使用的 3 種評估量表,即 mRS、BI 及 NIHSS 的相關特征作一總結。

3.1 mRS
mRS 改編自最初于 1957 年發表的 Rankin 量表[2],是卒中試驗中使用的第一個功能性結果評估。mRS 采用 7 分的有序分層來衡量生活功能的獨立性,得分范圍為 0~6 分,0 分表示無癥狀,6 分表示死亡。mRS 是最常用的功能評估工具,并且已經由專業協會和監管機構推薦用于卒中試驗的結果評估。
由于 mRS 簡短而通俗,它具有良好的有效性及可行性。但相關研究顯示它的評估一致性并不高,一項 meta 分析表明,mRS 總體的評估者間一致性為低至中等(kappa 值為 0.25,加權 kappa 值為 0.71)[13]。當利用電話進行評估時,其可靠性可能會進一步受到影響[14]。這提示盡管 mRS 是一個非常容易使用的評估表格,研究者也有必要接受一致性的培訓。有研究報道這一缺點可能通過結構化訪談得到部分改善(kappa 值:0.56 vs. 0.78)[15]。對 mRS 的反應性相關研究較少,與其他功能量表相比,mRS 可能評測變化的反應性稍差[16]。
3.2 BI
BI 旨在衡量患者獨立生活的能力,最初用于協助評估非卒中患者的出院和長期護理計劃。BI 評定關于自理能力和軀體依賴程度,量化了日常生活(喂養、洗澡、梳理、穿衣、腸和膀胱功能、廁所使用)和活動(轉移、水平表面和樓梯上的移動)的 10 項基本活動的表現水平,總分為 0~100 分,其中最高分表示最大的獨立性[3]。
在既往研究中,BI 的可靠性為中等(kappa 值為 0.41~0.60)到高等(kappa 值為 0.81~1.00)[17-18]。然而,這些證據所涉及的研究在樣本量方面受到限制,在方法學和評估質量方面存在差異。由于 BI 量表結構復雜,評分項目多,其可行性受到較大影響,但是對于大規模的研究,研究者已經開發了更簡短的版本以提高其便捷程度[19]。
3.3 NIHSS
NIHSS 評分采用一個包含 15 項評分的量表來評定神經功能缺損,涵蓋對意識、眼球運動、視力、共濟功能、語言、感覺、上下肢肌力、面部肌肉功能以及半身忽視等方面的評估。NIHSS 在全球范圍已成為標準的腦卒中神經功能缺損量表,不僅被用于臨床試驗,還被納入了臨床診療實踐中[4]。
NIHSS 評分專注于特定的神經系統缺損表現,與梗死大小具有中度-高度相關性(Spearman 相關系數為 0.4~0.8)[20-21]。NIHSS 評分非常適合早期卒中嚴重程度評估,基線時的 NIHSS 評分對 7 d~3 個月時的結局有較高的預測價值[22]。另外,NIHSS 評分在評價者內一致性(組內相關系數為 0.95)和評價者間一致性(組內相關系數為 0.93)方面均具有優異的表現,且無論是通過經相關培訓或是未經培訓的觀察人員得到的評分數據都具有很高的可靠性[23]。同樣,由于 NIHSS 評分的評價項目較多,一次評估大約需要 5 min,其在大規模研究的患者隨訪的應用方面具有一定限制性。
3.4 復合終點指標
由于不同評估量表具有不同的結構,使用多個量表作為組合終點可能具有一定優勢。研究表明,卒中患者同時期的 BI 和 mRS 得分高度相關,且 BI 在區分更嚴重殘疾患者方面的表現更好,而 mRS 更適于評價輕度至中度功能障礙的對象[24]。在國家神經疾病和卒中研究所在關于重組組織型纖溶酶原激活劑療效的卒中試驗中,研究者聯合使用了 NIHSS、BI、mRS 和格拉斯哥預后量表等評分對結局進行綜合評估以增加檢驗效能[25]。但復合終點同樣有一定缺陷,如果患者經多種量表評估的結果不一致,從而造成事后選取評估量表的可能,有損最終結果的客觀性[26]。
4 常用指標的統計分析(切分點問題)
功能結果的統計分析方法可能會對樣本量、有效性以及最終試驗的結果產生重要影響。一篇系統性文獻綜述共回顧了 1955 年—2008 年發表的 44 項同時使用 BI 和 mRS 作為結果測量卒中藥物治療的研究,BI 和 mRS 分析切分點在不同研究中差別很大,BI≥95 分和 mRS≤2 分是最為常用的良好結局的切分點[24]。在 Uyttenboogaart 等[27]的研究中,對于評價日常生活依賴的具有最高的約登指數(評價篩查實驗效果的指標,約登指數等于靈敏度與特異度之和減 1)的 BI 截點為 95 分(靈敏度為 85.6%,特異度為 91.7%),與之功能水平一致的相應 mRS 截點分數為 1 分。
在歷史上,量表二分法是最簡潔而常用的結果評估手段,然而由于大幅減少了信息量,且在輕度和嚴重疾病患者中測量的結果分布不均,可能導致治療效果判斷不準確。目前,量表的分數分布逐漸取代量表二分法或三分法分析以評估用卒中治療的有利結局。另外,一些統計方法有利于實現對得分結果完整分布的分析方法,包括比例賠率模型、Cochran-Mantel-Haenszel 檢驗和移位分析等[28]。然而,以上統計方法的隱含假設為所有個體在量表的整個分數范圍內是均勻分布的,但在現實情況中這經常不是事實。顯然在 mRS 量表的中間范圍(mRS 2~4 分)中出現的分類錯誤可能最密集[14],當錯誤率高且不均勻時,與二分法相比,移位分析可能會降低分析效率[29]。
5 功能結局指標評價時間的選擇
在 Duncan 等[1]對 1980 年—2000 年發表的 51 項急性卒中藥物干預隨機研究中,測量結果的時間選擇方面存在巨大差異,盡管從基線起 3 個月是主要結果和最終隨訪測量中最常選擇的時間,但主要終點的評估時間點從 1 d 到 1 年不等,末次測量的時間點從 1 周到 1 年不等。Quinn 等[3]回顧并總結了 2001 年—2006 年共計 126 項干預性卒中臨床試驗,其中 13 項試驗提供了隨訪時間的信息,平均為 90 d(范圍為 2 d~5 年)。一項對近 15 年來中國大陸地區急性腦卒中隨機對照試驗的方法學研究中,各研究隨訪的中位時間是 21 d(四分位數區間為 14~30 d),所有研究中僅 14 項為大型多中心隨機臨床試驗,它們的隨訪時間均為 90 d 及以上[9]。但以上研究均未提示終點時間選取的趨勢。
至于為何選擇 3 個月功能評分作為通行卒中藥物試驗的評估方法,目前有眾多說法。許多觀點認為,卒中患者在起病后 3 個月內為實現功能恢復的最主要時期,而此后逐漸進入平臺期,且 3 個月后的恢復情況受到康復訓練、家庭支持等其他眾多因素而非急性期藥物治療方案的影響[30]。一項前瞻性觀察性隊列研究納入了 1992 年—2004 年入住雅典大學醫院的 1 816 例首次卒中患者,研究評估了患者 3 個月 mRS 評分及長期生存情況,結果發現在最終納入分析的 1 276 例中,3 個月的 mRS 評分是長期死亡率的強預測因子(調整患者特征和風險因素后),為 3 個月的 mRS 評分成為通用卒中藥物試驗終點提供了有力依據[31]。在一項對哈根市醫院 1 197 例急性卒中患者的前瞻性研究中,研究者每周檢查患者的損傷(斯堪的納維亞神經卒中量表)和功能殘疾(BI 評分)情況,結果發現 95% 的患者在卒中發病后 12.5 周[95% 置信區間(11.6,13.4)周]內完成功能恢復,表明在卒中發病后 12 周評估患者功能情況可以對預后作出可靠判斷[32]。
因此,不僅從結果的可靠性還是從經濟方便的角度考慮,3 個月功能評分已經成為最為廣泛使用的終點指標。
6 總結與展望
本文通過回顧急性卒中治療臨床試驗終點指標的特征及應用歷史,發現評估工具和時間的選取多種多樣,通常受研究目的及研究條件的影響。其中最常使用的指標為 90 d 的功能量表評分,如 BI 或 mRS。即使選擇了適當的結果測量和統計分析方案,證明卒中干預措施的有效性仍然充滿挑戰。另外,未來視聽和信息技術的發展可能對結果評估的效率及統一標準的實施有促進作用。
隨著國內外眾多臨床試驗的快速發展,關于各種卒中干預措施的觀點令人應接不暇。臨床試驗旨在評估新的干預措施相比對照組的有效性,可能掀開卒中治療中令人興奮的新篇章,帶來臨床治療的新方法和新策略,但臨床試驗的開展過程相當艱辛,特別是卒中試驗的結果評估至關重要。試驗結果評估的方法差異很可能造成結果的差異,從而改變人們對相應干預措施的認識。為得到可靠的試驗結果,研究者均應該提供治療效果的量化評估。縱觀卒中治療臨床試驗的歷史,死亡或卒中事件復發等終點是最早且最廣泛應用的評估措施[1]。誠然,對于卒中一級和二級預防的試驗而言,這些“硬臨床終點”簡潔有效,但并未充分反映卒中損傷程度、致殘性的結局。因此,目前對患者功能情況的評估已得到廣泛采用,并且已成為監管機構對卒中臨床試驗審核的強制要求。至今多種卒中后功能測量指標已被開發,如美國國立衛生研究院腦卒中量表(National Institute of Health Stroke Scale,NIHSS)、Barthel 指數(Barthel Index,BI)、Rankin 量表(Rankin Scale,RS)及改良 Rankin 量表(modified Rankin Scale,mRS)等[2-4]。本文回顧了功能指標的分類及在卒中治療臨床試驗中功能指標的使用情況,并且簡要描述了幾項試驗中常用功能結果指標的特征;同時,討論了用于評估卒中功能結果的分析方法,如切分點相關問題;最后,在功能結局的時間選取方面進行了總結。
1 功能指標的分類
2001 年,世界衛生組織國際功能、失能和健康分類(World Health Organization International Classification of Functioning,Disability and Health,WHO-ICF)對功能結果分類進行了定義,即把功能結果分為對損傷、活動度(舊標準中的殘疾)及參與度(舊標準中的殘疾)3 個層級的描述[5]。“損傷”指軀體結構或功能的傷害,“活動度”定義為個體執行任務或活動中的表現,“參與度”指個體在實際社會生活中可能遇到的困難。
2018 年,Taylor-Rowan 等[6]在一篇總結急性卒中試驗的功能評估的文章中建議增加第 4 級,即對生活質量的描述,它是包含活動度、參與度等許多因素在內的評價工具,具有健康經濟分析等特殊用途。常用的 NIHSS 評分、BI 及 mRS 分屬于損傷、活動度及參與度 3 個層級(表 1)。

2 卒中治療臨床試驗中功能指標的使用情況
20 世紀 90 年代以來,越來越多的研究采用功能指標作為終點評估指標。回顧 2007 年—2010 年在 clinicaltrials.gov 注冊的腦卒中干預性研究(包括未發表的數據),共計 473 項試驗中共描述了 191 種結果測量形式,其中至少 63 項獨立量表被列為主要結局評價量表。其中使用是最普遍的是 mRS,并且最常用作主要結局指標;NIHSS 是第二大流行的測量量表;BI 排在第 3 位,僅在 8 項試驗中作為主要結局的測量指標;僅評估運動功能的 Fugl-Meyer 量表居第 4 位,且通常用于康復相關試驗中[7]。
Duncan 等[1]對 1980 年—2000 年所有已發表的急性卒中藥物干預隨機研究進行了系統評價,并記錄了結果評價措施。該研究共納入涉及 57 214 名受試者的 51 項研究,其中只有 29 項研究明確了主要終點的觀察措施和時限。結果表明,最常用的結局評估量表為 BI(n=27,53%),排在第 2、3、4 位的分別為 mRS(n=16,31%)、改良 Mathew 量表(n=10,19%)及 NIHSS(n=8,16%)。Quinn 等[8]回顧并總結了 2001 年—2006 年共計 126 項干預性卒中臨床試驗,包括早期假設研究到多中心試驗(第 1 階段:4 項;第 2 階段:46 項;第 3 階段:20 項;非研究性藥物研究:56 項),其中使用最多的量表前 3 位分別為 mRS(n=81,64.3%)、BI(n=51,40.5%)及 NIHSS(n=35,27.8%),同時以上 3 種量表在研究的主要終點中也是最常使用的。一項對中國急性腦卒中隨機對照試驗證據現狀的總結研究共納入了 1996 年—2010 年國內外發表的中國大陸地區急性腦卒中隨機對照治療試驗 9 061 項,結果表明在結局中評估損傷層級的比例顯著高于評估功能殘疾(包括活動度和參與度)的比例(85.1% vs. 22.5%,P<0.001);評估損傷的工具中,最常見的為中國卒中量表(類似于改良的愛丁堡-斯堪的納維亞卒中量表);至于對殘疾的評估,最常選擇的工具是 BI(74.6%,1 522/2 040),其次是 RS 或 mRS(15.0%,307/2 040);另外相比小型研究,大型研究則更傾向于選擇殘疾或死亡為終點[9]。
卒中一級和二級預防的隨機臨床試驗數量眾多且有高度異質性,特別是在研究結果的評估方面。這些試驗的目的通常為研究某些生活方式或治療方法的有效性,包括不同降壓藥物、降糖藥物、降膽固醇/甘油三酯藥物、抗血小板及抗凝藥物等的影響。在大多數試驗中,主要和次要終點通常采取復合終點。例如,在依普羅沙坦與尼群地平進行卒中二級預防(MOSES)研究中,主要終點是總死亡率、所有心血管及腦血管事件的總合[10];而在華法林-阿司匹林治療復發性卒中(WARSS)研究中,主要終點是任何原因導致的死亡或復發性缺血性卒中[11]。
總之,卒中治療臨床試驗中結局的評估方案及形式多種多樣,并無統一共識,且常常受研究人群、干預措施及客觀條件等多種因素影響。
3 常用指標的特征
即使在 WHO-ICF 的同一級別內,也有許多評估量表可供選擇,因此了解不同量表的特性對于臨床試驗終點評估工具的選擇非常重要。對臨床評估工具而言,重要的經典特性是有效性、可靠性、對變化的反應性以及可行性/可接受性(表 2)[12]。本部分對最常使用的 3 種評估量表,即 mRS、BI 及 NIHSS 的相關特征作一總結。

3.1 mRS
mRS 改編自最初于 1957 年發表的 Rankin 量表[2],是卒中試驗中使用的第一個功能性結果評估。mRS 采用 7 分的有序分層來衡量生活功能的獨立性,得分范圍為 0~6 分,0 分表示無癥狀,6 分表示死亡。mRS 是最常用的功能評估工具,并且已經由專業協會和監管機構推薦用于卒中試驗的結果評估。
由于 mRS 簡短而通俗,它具有良好的有效性及可行性。但相關研究顯示它的評估一致性并不高,一項 meta 分析表明,mRS 總體的評估者間一致性為低至中等(kappa 值為 0.25,加權 kappa 值為 0.71)[13]。當利用電話進行評估時,其可靠性可能會進一步受到影響[14]。這提示盡管 mRS 是一個非常容易使用的評估表格,研究者也有必要接受一致性的培訓。有研究報道這一缺點可能通過結構化訪談得到部分改善(kappa 值:0.56 vs. 0.78)[15]。對 mRS 的反應性相關研究較少,與其他功能量表相比,mRS 可能評測變化的反應性稍差[16]。
3.2 BI
BI 旨在衡量患者獨立生活的能力,最初用于協助評估非卒中患者的出院和長期護理計劃。BI 評定關于自理能力和軀體依賴程度,量化了日常生活(喂養、洗澡、梳理、穿衣、腸和膀胱功能、廁所使用)和活動(轉移、水平表面和樓梯上的移動)的 10 項基本活動的表現水平,總分為 0~100 分,其中最高分表示最大的獨立性[3]。
在既往研究中,BI 的可靠性為中等(kappa 值為 0.41~0.60)到高等(kappa 值為 0.81~1.00)[17-18]。然而,這些證據所涉及的研究在樣本量方面受到限制,在方法學和評估質量方面存在差異。由于 BI 量表結構復雜,評分項目多,其可行性受到較大影響,但是對于大規模的研究,研究者已經開發了更簡短的版本以提高其便捷程度[19]。
3.3 NIHSS
NIHSS 評分采用一個包含 15 項評分的量表來評定神經功能缺損,涵蓋對意識、眼球運動、視力、共濟功能、語言、感覺、上下肢肌力、面部肌肉功能以及半身忽視等方面的評估。NIHSS 在全球范圍已成為標準的腦卒中神經功能缺損量表,不僅被用于臨床試驗,還被納入了臨床診療實踐中[4]。
NIHSS 評分專注于特定的神經系統缺損表現,與梗死大小具有中度-高度相關性(Spearman 相關系數為 0.4~0.8)[20-21]。NIHSS 評分非常適合早期卒中嚴重程度評估,基線時的 NIHSS 評分對 7 d~3 個月時的結局有較高的預測價值[22]。另外,NIHSS 評分在評價者內一致性(組內相關系數為 0.95)和評價者間一致性(組內相關系數為 0.93)方面均具有優異的表現,且無論是通過經相關培訓或是未經培訓的觀察人員得到的評分數據都具有很高的可靠性[23]。同樣,由于 NIHSS 評分的評價項目較多,一次評估大約需要 5 min,其在大規模研究的患者隨訪的應用方面具有一定限制性。
3.4 復合終點指標
由于不同評估量表具有不同的結構,使用多個量表作為組合終點可能具有一定優勢。研究表明,卒中患者同時期的 BI 和 mRS 得分高度相關,且 BI 在區分更嚴重殘疾患者方面的表現更好,而 mRS 更適于評價輕度至中度功能障礙的對象[24]。在國家神經疾病和卒中研究所在關于重組組織型纖溶酶原激活劑療效的卒中試驗中,研究者聯合使用了 NIHSS、BI、mRS 和格拉斯哥預后量表等評分對結局進行綜合評估以增加檢驗效能[25]。但復合終點同樣有一定缺陷,如果患者經多種量表評估的結果不一致,從而造成事后選取評估量表的可能,有損最終結果的客觀性[26]。
4 常用指標的統計分析(切分點問題)
功能結果的統計分析方法可能會對樣本量、有效性以及最終試驗的結果產生重要影響。一篇系統性文獻綜述共回顧了 1955 年—2008 年發表的 44 項同時使用 BI 和 mRS 作為結果測量卒中藥物治療的研究,BI 和 mRS 分析切分點在不同研究中差別很大,BI≥95 分和 mRS≤2 分是最為常用的良好結局的切分點[24]。在 Uyttenboogaart 等[27]的研究中,對于評價日常生活依賴的具有最高的約登指數(評價篩查實驗效果的指標,約登指數等于靈敏度與特異度之和減 1)的 BI 截點為 95 分(靈敏度為 85.6%,特異度為 91.7%),與之功能水平一致的相應 mRS 截點分數為 1 分。
在歷史上,量表二分法是最簡潔而常用的結果評估手段,然而由于大幅減少了信息量,且在輕度和嚴重疾病患者中測量的結果分布不均,可能導致治療效果判斷不準確。目前,量表的分數分布逐漸取代量表二分法或三分法分析以評估用卒中治療的有利結局。另外,一些統計方法有利于實現對得分結果完整分布的分析方法,包括比例賠率模型、Cochran-Mantel-Haenszel 檢驗和移位分析等[28]。然而,以上統計方法的隱含假設為所有個體在量表的整個分數范圍內是均勻分布的,但在現實情況中這經常不是事實。顯然在 mRS 量表的中間范圍(mRS 2~4 分)中出現的分類錯誤可能最密集[14],當錯誤率高且不均勻時,與二分法相比,移位分析可能會降低分析效率[29]。
5 功能結局指標評價時間的選擇
在 Duncan 等[1]對 1980 年—2000 年發表的 51 項急性卒中藥物干預隨機研究中,測量結果的時間選擇方面存在巨大差異,盡管從基線起 3 個月是主要結果和最終隨訪測量中最常選擇的時間,但主要終點的評估時間點從 1 d 到 1 年不等,末次測量的時間點從 1 周到 1 年不等。Quinn 等[3]回顧并總結了 2001 年—2006 年共計 126 項干預性卒中臨床試驗,其中 13 項試驗提供了隨訪時間的信息,平均為 90 d(范圍為 2 d~5 年)。一項對近 15 年來中國大陸地區急性腦卒中隨機對照試驗的方法學研究中,各研究隨訪的中位時間是 21 d(四分位數區間為 14~30 d),所有研究中僅 14 項為大型多中心隨機臨床試驗,它們的隨訪時間均為 90 d 及以上[9]。但以上研究均未提示終點時間選取的趨勢。
至于為何選擇 3 個月功能評分作為通行卒中藥物試驗的評估方法,目前有眾多說法。許多觀點認為,卒中患者在起病后 3 個月內為實現功能恢復的最主要時期,而此后逐漸進入平臺期,且 3 個月后的恢復情況受到康復訓練、家庭支持等其他眾多因素而非急性期藥物治療方案的影響[30]。一項前瞻性觀察性隊列研究納入了 1992 年—2004 年入住雅典大學醫院的 1 816 例首次卒中患者,研究評估了患者 3 個月 mRS 評分及長期生存情況,結果發現在最終納入分析的 1 276 例中,3 個月的 mRS 評分是長期死亡率的強預測因子(調整患者特征和風險因素后),為 3 個月的 mRS 評分成為通用卒中藥物試驗終點提供了有力依據[31]。在一項對哈根市醫院 1 197 例急性卒中患者的前瞻性研究中,研究者每周檢查患者的損傷(斯堪的納維亞神經卒中量表)和功能殘疾(BI 評分)情況,結果發現 95% 的患者在卒中發病后 12.5 周[95% 置信區間(11.6,13.4)周]內完成功能恢復,表明在卒中發病后 12 周評估患者功能情況可以對預后作出可靠判斷[32]。
因此,不僅從結果的可靠性還是從經濟方便的角度考慮,3 個月功能評分已經成為最為廣泛使用的終點指標。
6 總結與展望
本文通過回顧急性卒中治療臨床試驗終點指標的特征及應用歷史,發現評估工具和時間的選取多種多樣,通常受研究目的及研究條件的影響。其中最常使用的指標為 90 d 的功能量表評分,如 BI 或 mRS。即使選擇了適當的結果測量和統計分析方案,證明卒中干預措施的有效性仍然充滿挑戰。另外,未來視聽和信息技術的發展可能對結果評估的效率及統一標準的實施有促進作用。