引用本文: 魏旭煦, 劉巖, 胡嘉元, 蔣寅, 商洪才, 張弛, 段玉婷, 卞兆祥, 譯. 多臂平行對照隨機臨床試驗報告規范:CONSORT 2010 聲明擴展版. 中國循證醫學雜志, 2021, 21(2): 231-240. doi: 10.7507/1672-2531.202008175 復制
多臂隨機臨床試驗具有多種形式,但通常是多種要素的組合,包括多種陽性干預措施、陽性干預措施的組合、不同劑量(或不同給藥方式)的干預措施、安慰劑、無陽性干預措施或常規治療等。這些要素可以通過多種方式組合在一起,從而形成眾多可能的試驗結構。例如,在具有 3 個治療組的試驗中,A1 vs. A2 vs. A3 可以代表是對同一陽性干預措施的不同劑量的評價。另外,A1 vs. B1 vs. C1 的試驗可以代表對兩種不同陽性干預措施和安慰劑的比較。此外,比較 A1 vs. A2 vs. B1 的研究,可以代表對一種陽性干預的兩個不同劑量與另一種陽性干預措施的比校。
同時評價多于一種新型干預措施將增加發現有效干預措施的機會[1]。使用多臂(即多組)設計相比于連續進行雙臂(即 2 組)試驗提高了效率,且由于更合理地使用資源,亦會降低試驗成本。在大多數情況下,共享一個對照組相對于分別進行雙臂試驗會減少樣本量[2]。提高受試者被分配到新干預措施的可能性,可能會使得更多符合條件的受試者納入試驗。一些腫瘤治療的多臂試驗比類似的雙臂試驗招募速度更快[1]。對于多臂試驗的爭議,反對論點主要涉及統計效能,主要是因為已發表的試驗存在樣本量不足[3]。在潛在參與者數量有限的情況下,增加額外的治療組將進一步減弱本已不足的檢驗效能。
多臂試驗是相對常見的試驗類型。針對 2012 年 1 月期間發表在 PubMed 的所有隨機臨床試驗文章所作的詳細文獻綜述顯示:在 1 351 個臨床試驗中,1 062 個試驗(79%)為平行組試驗;在這 1 062 個平行組試驗中,有 149 個試驗(14%)有 3 個組別,76 個試驗(7%)有 4 個及以上的組別[4]。
本文根據 CONSORT 2010 聲明[5, 6],提出了用于報告多臂平行對照隨機臨床試驗的報告清單。其中包括與 CONSORT 主檢查清單不同條目的說明性示例和解釋。多臂試驗的定義為使用平行組設計但有 3 個或更多組的隨機對照臨床試驗。盡管這些報告指南中使用的是“多臂”這樣的術語,但術語“臂”或“組”可以互換使用,指的是臨床試驗中的干預措施組。其他多臂或多組設計(例如析因設計、多臂多階段設計和適應性設計)則提出了完全不同的問題,因此不在此考慮范圍內。
1 指南制訂方法
1.1 撰寫工作組
指南撰寫工作組(包括 E.J.、D.G.A.、S.H.和 K.S.)成立于 2014 年召開的 CONSORT 工作組會議之后。在 2014 至 2018 年間,牛津大學的作者每兩個月通過遠程電話會議或其他多種場合與美國作者會面,除此之外還通過電子郵件討論、制定和修改檢查清單及相應的示例和解釋。
1.2 檢索策略
為了確定與多臂隨機臨床試驗方法有關的文章,使用“multiarm”,“multi-arm”,“multiple arm”,“multiple treatment”和“multiplicity”與出版物類型“randomized controlled trial”相結合,確定了 247 篇可能潛在的文章。作者之一 Sally Hopewell 評估了文題和摘要與本 CONSORT 擴展版的相關性或潛在相關性。此外,也結合了作者的個人文獻資料,搜索與臨床試驗方法有關的書籍目錄,獲取報告多臂臨床試驗報告的相關信息。
1.3 審查和完善
在制定此 CONSORT 擴展清單時,沒有使用正式的德爾菲流程。本文的草稿于 2017 年 4 月發給了包含 36 名專家的 CONSORT 工作組及另外 5 名在臨床試驗領域的知名專家,以供他們審閱。收到了 14 名專家的反饋,工作組詳細考慮他們的反饋后,完成了擴展版清單的最終修訂版本及附帶解釋。
2 結果
表 1 顯示了修改后的清單,用于報告多臂平行對照隨機臨床試驗。一些條目擴展到涵蓋與多臂試驗設計有關的報告要求,以明確此設計帶來的額外復雜性。解釋了需從 CONSORT 2010 聲明中擴展的條目,并闡述了良好報告的示例。如果條目未提及,建議報告內容與雙臂平行對照隨機臨床試驗相同。

由于所有示例均取材于已發表的文章,因此難免有些示例不能體現良好報告的所有理想要素。在這種情況下,或當可能存在歧義時,將會指出示例中的良好報告的具體部分。在一些示例中,我們添加了方括號來解釋內容。CONSORT 2010 清單中用于報告隨機臨床試驗摘要的部分已有CONSORT for abstracts。擴展版沒有提出單獨的摘要清單,但是作者應在摘要中清楚地報告所有的研究目的并明確說明治療組的數量。
3 多臂試驗的 CONSORT 檢查清單擴展版
3.1 文題和摘要
條目 1a:原 CONSORT 條目:文題能識別是隨機臨床試驗。多臂試驗擴展條目:在文題中明確表示為多臂隨機臨床試驗,或指明受試者被隨機分配的治療組數量。
舉例:HARMONY3:對使用二甲雙胍的 2 型糖尿病患者服用阿昔洛肽相比于安慰劑、西他列汀和格列美脲的療效和安全性評價:104 周隨機、雙盲、安慰劑及陽性對照試驗[9]。口服利培酮、氟哌啶醇或安慰劑對姑息治療患者譫妄癥狀的療效:一項隨機臨床試驗[10]。繼發性進行性多發性硬化癥多臂隨機試驗(multiple sclerosis-secondary progressive multi-arm randomisation trial,MS-SMART):一項多臂 IIB 期隨機、雙盲、安慰劑對照臨床試驗,比較三種神經保護藥物對繼發進行性多發性硬化癥的療效[11]。
解釋:電子數據庫識別隨機試驗報告的能力在很大程度上取決這些臨床試驗報告是如何建立索引的。如果試驗的作者未明確報告此信息,索引器可能不會將這類報告歸類為隨機試驗[12]。為幫助確保對研究進行適當索引并易于識別,作者應在文題中使用“隨機”一詞并報告受試者隨機分配的治療組數量。這個問題也同樣適用于多臂試驗。文題通常有字數的限制,列出部分或所有干預措施很繁瑣,因此添加“多臂”(或多組)一詞能有效地提供有用信息。
3.2 背景和目的
條目 2a:原 CONSORT 條目:科學背景和對試驗理由的解釋。多臂試驗擴展條目:使用多臂設計的理由。
舉例:單藥治療對許多患者的療效不明顯,盡管證據不足,但仍經常推薦聯合用藥。一線單藥治療失敗后,通常建議使用鋰劑聯合丙戊酸鹽。如果這種組合具有可疊加的藥理作用,并證明比單一療法更好,那么它可能是一種合適的一線治療。本文報告了鋰劑與抗驚厥藥聯用預防雙相情感障礙復發是否優于其中任一單一藥物的隨機試驗[13]。
解釋:當一個試驗比較兩個平行組時,顯然是為了比較這兩個組。但是,對于 3 個或更多干預組,可能無法明確預期的主要比較或比較會變得不明確。由于各干預組只有在對特定研究問題有用的情況下才應被包括,所以每個干預組都至少應該對應一個預設的對照。作者應說明使用多臂設計的合理性,并在文章的引言部分指出他們選擇所研究的干預措施的原因,并明確哪些是計劃內的對照。例如,在某種情況下,如果計劃的干預措施之一是兩種陽性干預措施的組合,則作者應解釋不進行析因試驗的原因。通常,這種“不完整”的析因設計可能會用于某些情況,比如某組患者不采用陽性治療不符合倫理要求時。
條目 2b:原 CONSORT 條目:具體目的或假設。多臂試驗擴展條目:說明所有治療組的研究問題;明確陳述所有的檢驗假設和涉及的主要對照。
舉例:摘要(目的):比較利培酮、氟哌啶醇和安慰劑緩解姑息治療抑郁癥患者譫妄癥狀的療效。簡介:本研究的目的是確定利培酮或氟哌啶醇,除了對譫妄患者進行鎮定和提供個性化的支持性護理外,是否對減少譫妄的目標癥狀有額外的益處。最初的零假設是利培酮和安慰劑之間沒有差異,其次假設氟哌啶醇和安慰劑之間沒有差異[10]。
解釋:3 組試驗(A、B 和 C 組)產生 8 種可能的分析,其中大多數試驗包括 2 或 3 組(圖 1)。隨著干預組數量的增加,潛在比較的數量迅速增加;每組至少應出現在一個比較中。因此,除非目的只是一次性比較所有組(這不是一個特別明智的方法,除非是在量-效關系研究中),否則在與 K 個治療組的試驗分析中至少會進行 K-1 次比較。兩組或多臂試驗能形成的對照是 k×(k-1)/2 個配對/兩組比較(例如,對于四臂試驗,有 6 種可能的 2 組比較)。

因此,預先明確數據分析方法尤為重要,作者應報告所有計劃的主要、次要和探索性對照。否則,在沒有考慮大量可能分析的情況下,存在夸大所觀察到的差異并導致誤導的重大風險。在任何情況下,尤其是當計劃進行多次比較時,明確(一個或幾個)主要比較會非常有用。這些比較也應在計劃樣本量(條目 7a)的解釋中說明。計劃中的所有比較可能并不同等重要,如兩組比較可能是一個試驗的主要關注點。在考慮是否對多個比較進行調整時,這種區別是有意義的。另外,用分層方法進行假設檢驗可以防止多重比較出現的任何問題(條目 12a)。有的多臂試驗結合了優效性試驗和非劣效性試驗。例如,Foa 等[16]檢驗了對有創傷后應激障礙的現役軍人進行密集療法(2 周內 10 次延長暴露療法[一種以創傷為中心的認知行為療法]),其對癥狀的緩解程度是否優于最小接觸療法(對照組)及是否不劣于在 8 周內進行 10 次延長暴露療法(間隔療法)。
3.3 方法
條目 3a:原 CONSORT 條目:描述試驗設計(諸如平行設計、析因設計),包括受試者分配到各組的比例。多臂試驗擴展條目:說明治療組數。
舉例:在這個實用性開放性隨機試驗中,新診斷為帕金森病的患者被隨機分配(通過電話致電中心辦公室;比例 1∶1∶1)到左旋多巴后備治療組(多巴胺激動劑或 B 型單胺氧化酶抑制劑[monoamine oxidase type B inhibitors,MAOBI])和單獨使用左旋多巴組[17]。
這是一項于 2009 年 2 月 17 日至 2013 年 3 月 21 日期間進行的Ⅲ期、隨機、雙盲、安慰劑和陽性對照平行臨床試驗。根據 HbA1c 水平(<8.0% [<63.9 mmol/mol]vs. 8.0% [63.9 mmol/mol])、心肌梗死史(myocardial infarction,MI)和年齡(<65 歲vs. 65 歲)對符合條件的患者進行分層,并隨機分配(3∶3∶3∶1),在基線時接受二甲雙胍加上下列 4 種治療中的 1 種:阿必魯泰 30 mg,西他列汀 100 mg,格列美脲 2 mg,安慰劑。與阿必魯泰、西格列汀和格列美脲的相匹配的安慰劑用于維持對干預措施的盲法[9](解釋為什么使用 3∶3∶3∶1 分配將提高報告質量)。
解釋:為了可讀性和理解多臂試驗的設計和原理,明確治療組的數量至關重要。描述受試者分配比例會使報告更直觀、清晰,尤其是在選擇了不相等的分配比率時,對此進行解釋就十分有必要。闡明多臂試驗的結構和受試者流程圖能使讀者對試驗有更直觀的了解。補充資料中 eFigure 顯示了一個展示試驗結構和受試者流程的示例[9]。盡管如此,本示例中試驗結構和受試者流程的示意圖可以對標簽再作改進(例如,圖 A 中“隨訪”的位置),從隨機化框中引出的箭頭少了 2 個及對所提供信息的描述(例如,圖 B 中“被資助者終止”是什么意思?)。
條目 3b:原 CONSORT 條目:試驗開始后對試驗方法所做的重要改變(如納入標準),并說明原因。多臂試驗擴展條目:說明添加或剔除的任何治療組的詳細信息和原因(如果有),和/或受試者分配入各組比例的變化。
舉例(剔除一個治療組):原試驗為一個多中心、盲法、隨機、平行對照臨床試驗,其中受試者在接受 4 周心理社會治療后,被分配到利培酮組、多奈哌齊組或安慰劑組接受為期 12 周的治療。目標樣本量為 285 例阿爾茨海默癥患者。試驗于 2003 年 11 月開始招募受試者,但于 2004 年 3 月暫停,原因是英國藥物安全委員會的推薦意見指出:利培酮和奧氮平不適用于癡呆行為癥狀的治療。試驗于 2004 年 7 月重新進行,變更為兩組設計(多奈哌齊組和安慰劑組),招募于 2005 年 9 月結束[18]。
舉例(增加一個治療組):在美國 57 個臨床試驗中心共招募了 1 493 例精神分裂癥患者,并被隨機分配到奧氮平組(每日 7.5~30 mg)、奮乃靜組(每日 8~32 mg)、奎硫平組(每日 200~800 mg)或利培酮組(每日 1.5~6.0 mg)接受 18 個月的治療。經 FDA 批準增加了齊拉西酮組(每日 40~160 mg)。主要目的是明確這五種治療措施的總體療效差異[19]。
解釋:如果試驗中增加或減少治療組,可進行公正、有效比較的受試者數目將受到影響(如只有同時被隨機分組的受試者才可以作比較)。在上述一個治療組試驗被中止的實例中,受試者分配比例就從 1∶1 ∶1 變成了 1∶1(從受試者流程圖和結果表格中可以明顯看出),受試者接受某種干預措施的概率從 0.33 變成了 0.50,但是隨機化仍使干預措施被同等概率分配。在增加治療組的實例中,甚至沒有明確說明受試者分配比例的變化。
這一條目與傳統的多臂試驗有關,而與治療組可能會被預先設定的規則剔除的適應性設計有關。這樣的設計既提供了更高的效率,又使需要隨機化分組的受試者數量達到最小化。適應性試驗的報告指南將包含在適應性試驗 CONSORT 聲明擴展版中。
條目 7a:原 CONSORT 條目:如何確定樣本量。多臂試驗擴展條目:確定的樣本量,并詳述針對每一個主要對照,樣本量是如何確定的。
舉例:樣本量計算基于以下假設:34% 的安慰劑治療患者和 54%~64% 的他達拉非治療患者(每天一次,需要時)在藥物洗脫(drug-free washout,DFW)之后將達到一個國際勃起功能指數-勃起功能評分(international index of erectile function-erectile function,IIEF-EF)。412 例隨機分配患者提供 84% 的檢驗效能檢測兩個成對比較中他達拉非(每日一次)與安慰劑 20% 的療效差異(假定 20% 的脫落率)[21]。
由于需要足夠高的效益才能改變常規臨床實踐,我們在對照組估計發病率為 11% 的基礎上明確了 3.3% 的絕對減少量(30% 相對減少,比值比為 0.67)。兩項比較的檢驗效能為 90%,檢驗水準為 2.5%,并且考慮到 15% 的失訪率,我們需要為每個組別招募 2 345 例的受試者(總計 7 035 例受試者)。在試驗中,測試了銀合金導管對比聚四氟乙烯(polytetrafluoroethylene,PTFE)導管和呋喃西林導管對比 PTFE 導管兩個同等重要的對照[22]。
解釋:多臂試驗的樣本量應與計劃內的主要比較相對應(條目 2b)。計算樣本量的方法取決于待比較的干預措施的結構和計劃內分析的性質圖 1。當計劃成對比較時,通常確定的樣本量能提供足夠的檢驗效能來評價各個計劃進行的主要比較。如果研究者認為需要對多重比較進行校正,可能會需要更大的樣本量估計來適應該校正(條目 7a)。
條目 12a:原 CONSORT 條目:用于比較各組主要和次要結局指標的統計學方法。多臂試驗擴展條目:需清晰說明是否未對多重性進行校正;如果有,說明其使用方法。
舉例(未進行校正的案例):試驗假設:與傳統治療組相比,高發生率組、延遲治療組或兩者都會發生首次出現不適當治療風險降低。這兩個試驗是平行開展的,并且單獨進行比較,就多重比較進行校正并不合適[23]。
所有 P 值都是在未對多重比較進行校正的雙側檢驗的結果[24]。
舉例(進行校正的案例):我們用 Logistic 回歸評估尿路感染的結果,并使用絕對風險降低百分數和 OR 值為效應量,將兩者的 95%CI 計算為 97.5%CI 以校正這兩個比較。對于主要分析,我們認為 P=0.025 有統計學意義[22]。
對于視覺模擬評分(visual analogue scale,VAS)-即時疼痛評級和壓力數值,如果通過了 Shapiro-Wilk 正態性檢驗,則進行重復測量單因素方差分析(analysis of variance,ANOVA)與 Bofferroni 校正后的成對比較,以檢驗測試條件之間的差異是否有統計學意義(P<0.05)[25]。
我們計算出,需要在每組中招募 810 例患者進行研究,以獲得 90% 的檢驗效能來顯示阿哌沙班優于安慰劑,雙側 α 水平為 0.05,并使用 Hochberg 多重檢驗方法[26]。
解釋:一般來說,多臂試驗分析策略可能有兩個普遍的目的。一是研究人員需要檢驗幾種干預措施的療效差異,這可以通過一次比較所有組的總體分析來解決。這樣的分析不太可能完全令人滿意,因為它不會指出差異來自哪些組別。第二,如上所述,可以在特定組別之間進行 2 個或更多成對比較。在特定的試驗中,常進行兩種策略的分析比較。一種策略(通常在農業分析和其他實驗中推薦)是首先在所有組中進行總體統計檢驗,并且僅在總體檢驗結果具有統計學意義時才進行配對比較。對于臨床試驗的分析,這種策略似乎并不特別可取,因為臨床試驗需要更具針對性的評估方法來比較治療組的差異。
兩個更為復雜的問題也有可能出現。一是 2 組(或更多)治療方案可以是相同藥物或干預措施的不同劑量或不同持續時間。在這種情況下,檢驗是否存在劑量反應關系可能是最有意義的,而不僅僅檢驗治療方案之間差異是否有統計學意義。第二種情況是治療組中的兩組可能是分別接受同一基本干預的不同形式。例如,他們可能口服或靜脈注射相同的藥物。研究人員可能首先將這些組的組合與對照組(通常是安慰劑或標準治療)進行比較,然后再考慮這兩種同一基本干預的不同形式是否不同。接受不同劑量的組有時也可以這樣考慮。當計劃進行這類分析時,研究人員有時可能認為應該以 1∶1∶2 的比例分配這些組,以最大化首要比較的檢驗效能。多重比較的統計校正引起了方法學家之間的爭議,目前尚未就這一問題達成共識。有些人會使用這種校正,另一些人則從不使用校正[27, 28]。研究者可以通過分析方法避免多重性問題。包括:① 在比較組間差異時,使用單個總體假設檢驗(例如,在三臂試驗中比較 A vs. B vs. C),并避免多重比較。值得注意的是,對所有治療方法進行單個總體檢驗是有使用限制的[29]。② 建立劑量-反應關系模型并消除多重比較[30]。③ 使用按優先次序的逐步檢驗法。例如,研究人員可能決定將新的 300 mg 抗生素與標準治療作為優先試驗,如果該比較具有統計學意義,則繼續進行 200 mg 抗生素與標準治療的比較。按優先級排序的逐步法檢驗無需校正即可解決多重性問題[31]。④ 不對多重性進行校正,同時透明地報告所做的所有比較。許多多臂試驗設計用于將不相關的治療與對照組進行直接比較,例如,在 3 臂試驗中比較 A vs. C 和 B vs. C 的差異。在這樣的多臂試驗中,通常不需要進行多重比較校正[2, 15, 32, 33]。
有時多重比較校正是不可避免的。一些監管機構,如歐洲藥品管理局(European Medicines Agency),要求進行這樣的校正。歐洲藥品管理局在其臨床試驗指南中指出,“作為一般規則,可以說控制研究中的I 類錯誤(study-wise type I error)是臨床試驗肯定結論陳述的最低先決條件”[34]。然而,即使校正是適當的,在實施時也常常有爭論。Bonferroni 校正常常由于其簡易性而被推薦。然而,其他校正策略有時在 I 類錯誤率(通常稱為總 I 類錯誤[family-wise type-1-error,FEWR])的總體控制上表現更好[32, 35-37],而在假陽性率上表現更差[32]。校正經常導致多重性的過度校正,特別是采用了 Bonferroni 校正。當比較之間的相關性變得更高時,這種方法就過于保守。其他方法(包括 Holm、Hochberg、Dunnett 檢驗和校正的 Hochberg 方法),與 Bonferroni 方法比較發現,所有方法都顯示出較 Bonferroni 方法更低的保守性[32]。
3.4 結果
條目 14a:原 CONSORT 條目:招募期和隨訪時間的長短,并說明具體日期。多臂試驗擴展條目:如果各治療組的招募期和隨訪時間不同(例如,添加或減少治療組),應當描述各組具體招募期和隨訪時間、產生差異的原因及對統計結果產生的影響。
舉例:方法(研究設計):該研究于 2001 年 1 月至 2004 年 12 月在美國 57 個中心進行(16 個大學診所,10 個州立精神衛生機構,7 個退伍軍人事務醫療中心,6 個私人非營利機構,4 個私人執業地點,14 個混合系統地點)。患者最初被隨機分配在雙盲條件下接受奧氮平、奮乃靜、奎硫平或利培酮治療,并隨訪長達 18 個月或直到因任何原因停止治療(第 1 階段)(在研究開始后,FDA 批準使用齊拉西酮,并于 2002 年 1 月以外觀相同的齊拉西酮 40 mg 膠囊組被添加到研究中)。
方法(統計分析):在大約 40% 的患者入組后,齊拉西酮被添加到試驗中······涉及齊拉西酮組的比較僅限于加入齊拉西酮后進行隨機化分配的患者隊列(齊拉西酮隊列)。總體來說,該試驗具有 85% 的檢驗效能來確定 2 個非典型替代藥物之間的停用率的絕對差異為 12%;然而,它對于涉及齊拉西酮······較具有 58% 的檢驗效能······奧氮平組、奎硫平組、利培酮組和奮乃靜組之間的總體差異通過使用 3 個自由度的檢驗來評估。如果在 P 值小于 0.05 時,差異具有統計學意義,則通過向下逐步法檢驗或閉合檢驗將 3 個非典型藥物組相互比較,并認為在 P 值小于 0.05 時有統計學意義······。齊拉西酮組與齊拉西酮隊列中的其他 3 個非典型藥物組和奮乃靜組通過 4 個成對比較的 Hochberg 校正直接進行比較。結果中最小的 P 值與 0.013(0.05÷4)進行比較(在表 2 腳注和圖 2 圖例中重申了關于意向性分析人群中結局有效性評估的相關內容)。
結果(停止治療):在試驗中加入齊拉西酮后進行隨機分組的 889 例患者中,那些接受奧氮平治療的患者因任何原因停止治療之前的間隔時間都比齊拉西酮組的患者更長(HR=0.76,P=0.028)。然而,經過多重比較校正后,此差異并無統計學意義(所需 P 值≤0.013)[19]。
解釋:對于研究人員、監管機構和患者來說,將一種新興療法作為新的隨機干預組別納入公開招募的臨床試驗是可取的,這能確保試驗保持最新狀態,并盡可能快地評估新療法,最大限度地減少確定最佳療法的時間和成本[38]。應考慮到大量的方法學和統計學含義。這些影響包括:① 由于階段效應和多重性而進行的總體錯誤率控制;② 僅同期對照組數據用于與新增組別的無偏比較[39];③ 檢驗效能(與同期對照組數據比較需要足夠的檢驗效能);④ 分配比例和/或招募到每個組的時長(通過校正所需的受試者總數和回答主要假設所花費的招募時長可以實現效率的提高);⑤ 對照組的潛在變化(可能現有對照組已經顯示出劣效性,因此,在理論上可能需要改變對照組);⑥ 后勤方面的考慮(如額外的資助,所有必要的批準/修改所需的時間,采購藥物,更新試驗隨機化和臨床數據庫系統,對盲法可能的影響,試驗監督,受試者招募)[38]。需要考慮這些影響的程度取決于試驗的性質和結構。有些部分可能會與適應性設計的 CONSORT 聲明擴展版重疊[20]。
如果多臂試驗中超過 1 個治療組的招募過早停止,那么原因的說明就非常重要,因為這些原因可能有所不同。此外,關于 CONSORT 聲明之條目 15(即用一張表格列出每一組的基線數據,包括人口學資料和臨床特征),在對各治療組的招募不是同期進行的情況下,可以使用單個表格或多個基線表格。作者必須清楚地說明哪些受試者包括在各個組的哪些比較中。
條目 17a:原 CONSORT 條目:各組每一項主要和次要結局指標的結果,效應估計值及其精確性(如 95% 置信區間)。多臂試驗擴展條目:各個預先設計的治療組的比較結果。
舉例:主要結局:在 6 個月時,泡沫組的阿伯丁靜脈曲張問卷(Aberdeen varicose veins questionnaire,AVVQ)評分明顯高于手術組(表明疾病特異性生活質量更差),但差異中等[效應量為?1.74,95%CI(?2.97,?0.50),P=0.006]。激光組 AVVQ 評分的改善與手術組的差異無統計學意義。兩組之間在 EQ-5D 評分(一種一般健康狀況衡量標準化工具)或健康調查簡表(short form health survey,SF-36)身體成分評分方面差異無統計學意義。對于激光治療與泡沫治療的事后分析,唯一差異有統計學意義的是 SF-36 心理健康總分,激光組略高于(一般生活質量更好)泡沫治療組[效應量為 1.54,95%CI(0.01,3.06),P=0.048]。次要結局:生活質量。在 6 周時,組間差異有統計學意義(P<0.005)包括:激光組的 AVVQ 評分(表明疾病特異性生活質量更好)低于泡沫組[效應量為?2.3,95%CI(?3.7,?0.9)];激光組在身體疼痛領域的 SF-36 評分低于(表明一般生活質量較差)激光組[效應量為?2.7,95%CI(?4.4,?0.9)];活力[效應量為?2.3,95%CI(?3.9,?0.8)],情感問題所致的角色受限[效應量為?2.4,95%CI(?4.0,?0.8)]及由于軀體健康問題導致的角色受限[效應量為?3.5,95%CI(?5.2,?1.8)]。這 4 個 SF-36 領域評分在 6 個月時組間差異無統計學意義(當P<0.005 時,認為差異有統計學意義)。在激光治療與泡沫治療的事后比較中,泡沫組中只有 6 周時的 EQ-5D 評分明顯較低(表明一般生活質量較差)[效應量為 0.044,95%CI(0.014,0.074)][40]。
解釋:研究人員應計劃好要進行的比較,將其記錄在試驗方案和統計分析計劃中,并在試驗報告中以適當的解釋進行報告。如果在試驗期間添加或刪除了干預措施組,則在分析中應寫明這樣做的影響,這一點十分重要。如果研究者采用了一些措施來控制總體顯著性水平(例如,如果他們在比較組之間進行單個的總體顯著性檢驗,構建劑量反應關系模型,或使用按優先次序的逐步檢驗法),則應報告這些細節。如果研究者進行了正式的多重性校正分析,則應報告這些方法和限制。如前所述(條目 12a),多數的多臂試驗不會進行多重性校正分析。在這些情況下,研究者仍應透明地報告所有已進行的、計劃內的和非計劃內的比較,并對結果提供適當的解釋。
3.5 討論
條目 20a:原 CONSORT 條目:試驗的局限性,報告潛在偏倚和不精確的原因及出現多種分析結果的原因(如果有這種情況的話)。雖然這里不推薦對標準 CONSORT 條目進行具體擴展,但作者應該按圖 1 中具體內容來描述多臂試驗的優勢和局限性。
4 討論
多臂試驗需要仔細的思考和計劃。它提供了同時解決不止一個研究問題的機會,可以加快對新干預措施的評估,促進與競爭治療方案的直接比較,從而可能在優化資源配置同時使患者受益。對受試者和臨床醫生而言,多臂試驗可能比兩組平行試驗更有吸引力,因為通常在多臂試驗中接受實驗性干預措施而非標準治療方案的可能性增加。然而,研究者應始終牢記多臂試驗的效率優勢和在較短時間內評估更多干預措施的可能取決于所需數目受試者的招募情況和受試者臨床結果的采集。
多臂隨機試驗很常見,重要的是這些試驗的報告包括試驗設計特有特征的信息,以便讀者對試驗的進行和結果的解釋做出準確的評估。透明和完整的報告是重復性的關鍵先決條件。良好的報告還有助于在系統評價中識別和納入多臂試驗。然而,多臂試驗,尤其是具有 3 個以上治療臂的試驗,對設計和分析都十分具有挑戰性。
本文為已被廣泛接納的 CONSORT 2010 聲明提供了擬議的多臂試驗擴展版,以實現對多臂隨機試驗的全面和準確地報告。此類試驗需要清晰的目的和涉及所有治療組的假設,并明確需要進行的主要治療組的比較。樣本量應該預先指定,并且至少應明確指出多重檢驗校正的問題。如果不同治療組的招募和隨訪周期不同(例如,添加或減少治療組),則應報告差異的時間段和原因,并應說明其對統計結果的影響。
在多臂隨機試驗中,對組間的多個比較進行多重性校正分析仍然是一個具有挑戰性的問題。許多多臂試驗都是為了提高效率而進行的,它們將不同的治療/干預措施與一個對照組進行比較,這很容易在多個單獨的試驗中進行,而不是單一的多臂試驗。對于多個試驗干預共享一個對照臂的多臂試驗設計,該試驗集中于分別評估每個干預的研究問題。對一個比較結果的解釋通常與其他比較的解釋沒有直接關系。許多臨床試驗研究者/方法學家認為,在這種情況下沒有必要進行多重性校正分析,因為在單獨的試驗中比較這些干預措施時,也沒有必要進行這樣的校正[2, 15, 32, 33, 41, 42]。一些多臂試驗評估了同一藥物的幾種不同劑量的對照,這代表了相關的比較。在這種情況下,試驗者和方法學家傾向于進行多重性校正分析[2, 32, 33, 37]。
這種情況的一個例子是,向藥監部門提交藥物申報審查材料時,存在特定的決策標準,用以判定該研究是否需要進行多重性校正分析。如果申辦者指定了 1 個以上的治療比較,并提出在 1 個或多個劑量的組間比較具有統計學意義的情況下聲明其存在治療效應,此時大多數臨床試驗研究者和方法學家建議進行多重性校正分析[2, 15, 32, 33, 41, 42]。但應該忽視那些籠統地聲稱總是需要或永遠不需要進行多重性校正分析的聲音,是否要進行校正分析仍取決于試驗目的、設計和分析。
一些多臂試驗也可能具有其他具體特征,諸如交叉試驗、群組試驗或析因試驗。對于這樣的多臂試驗,可以參考所有相似試驗的具體建議。已經證明:CONSORT 聲明能夠提高兩組平行試驗報告質量[43]。對本 CONSORT 聲明擴展版的常規使用旨在促進類似的提升。
CONSORT 工作組將繼續監測和修訂其推薦意見,并正在制定對照檢查清單和流程圖,以幫助提高各種設計類型的臨床試驗報告質量。其他類似的擴展版和更新正在準備中,所有 CONSORT 建議的最新版本可以在 CONSORT 官方網站上找到(http://www.consort-statement.org)。
5 結論
CONSORT 2010 聲明的這一擴展版為多臂平行組隨機臨床試驗報告提供了具體指導,并有助于在報告這類臨床試驗中提供更大的透明度和準確性。
參考文獻
見原文。
多臂隨機臨床試驗具有多種形式,但通常是多種要素的組合,包括多種陽性干預措施、陽性干預措施的組合、不同劑量(或不同給藥方式)的干預措施、安慰劑、無陽性干預措施或常規治療等。這些要素可以通過多種方式組合在一起,從而形成眾多可能的試驗結構。例如,在具有 3 個治療組的試驗中,A1 vs. A2 vs. A3 可以代表是對同一陽性干預措施的不同劑量的評價。另外,A1 vs. B1 vs. C1 的試驗可以代表對兩種不同陽性干預措施和安慰劑的比較。此外,比較 A1 vs. A2 vs. B1 的研究,可以代表對一種陽性干預的兩個不同劑量與另一種陽性干預措施的比校。
同時評價多于一種新型干預措施將增加發現有效干預措施的機會[1]。使用多臂(即多組)設計相比于連續進行雙臂(即 2 組)試驗提高了效率,且由于更合理地使用資源,亦會降低試驗成本。在大多數情況下,共享一個對照組相對于分別進行雙臂試驗會減少樣本量[2]。提高受試者被分配到新干預措施的可能性,可能會使得更多符合條件的受試者納入試驗。一些腫瘤治療的多臂試驗比類似的雙臂試驗招募速度更快[1]。對于多臂試驗的爭議,反對論點主要涉及統計效能,主要是因為已發表的試驗存在樣本量不足[3]。在潛在參與者數量有限的情況下,增加額外的治療組將進一步減弱本已不足的檢驗效能。
多臂試驗是相對常見的試驗類型。針對 2012 年 1 月期間發表在 PubMed 的所有隨機臨床試驗文章所作的詳細文獻綜述顯示:在 1 351 個臨床試驗中,1 062 個試驗(79%)為平行組試驗;在這 1 062 個平行組試驗中,有 149 個試驗(14%)有 3 個組別,76 個試驗(7%)有 4 個及以上的組別[4]。
本文根據 CONSORT 2010 聲明[5, 6],提出了用于報告多臂平行對照隨機臨床試驗的報告清單。其中包括與 CONSORT 主檢查清單不同條目的說明性示例和解釋。多臂試驗的定義為使用平行組設計但有 3 個或更多組的隨機對照臨床試驗。盡管這些報告指南中使用的是“多臂”這樣的術語,但術語“臂”或“組”可以互換使用,指的是臨床試驗中的干預措施組。其他多臂或多組設計(例如析因設計、多臂多階段設計和適應性設計)則提出了完全不同的問題,因此不在此考慮范圍內。
1 指南制訂方法
1.1 撰寫工作組
指南撰寫工作組(包括 E.J.、D.G.A.、S.H.和 K.S.)成立于 2014 年召開的 CONSORT 工作組會議之后。在 2014 至 2018 年間,牛津大學的作者每兩個月通過遠程電話會議或其他多種場合與美國作者會面,除此之外還通過電子郵件討論、制定和修改檢查清單及相應的示例和解釋。
1.2 檢索策略
為了確定與多臂隨機臨床試驗方法有關的文章,使用“multiarm”,“multi-arm”,“multiple arm”,“multiple treatment”和“multiplicity”與出版物類型“randomized controlled trial”相結合,確定了 247 篇可能潛在的文章。作者之一 Sally Hopewell 評估了文題和摘要與本 CONSORT 擴展版的相關性或潛在相關性。此外,也結合了作者的個人文獻資料,搜索與臨床試驗方法有關的書籍目錄,獲取報告多臂臨床試驗報告的相關信息。
1.3 審查和完善
在制定此 CONSORT 擴展清單時,沒有使用正式的德爾菲流程。本文的草稿于 2017 年 4 月發給了包含 36 名專家的 CONSORT 工作組及另外 5 名在臨床試驗領域的知名專家,以供他們審閱。收到了 14 名專家的反饋,工作組詳細考慮他們的反饋后,完成了擴展版清單的最終修訂版本及附帶解釋。
2 結果
表 1 顯示了修改后的清單,用于報告多臂平行對照隨機臨床試驗。一些條目擴展到涵蓋與多臂試驗設計有關的報告要求,以明確此設計帶來的額外復雜性。解釋了需從 CONSORT 2010 聲明中擴展的條目,并闡述了良好報告的示例。如果條目未提及,建議報告內容與雙臂平行對照隨機臨床試驗相同。

由于所有示例均取材于已發表的文章,因此難免有些示例不能體現良好報告的所有理想要素。在這種情況下,或當可能存在歧義時,將會指出示例中的良好報告的具體部分。在一些示例中,我們添加了方括號來解釋內容。CONSORT 2010 清單中用于報告隨機臨床試驗摘要的部分已有CONSORT for abstracts。擴展版沒有提出單獨的摘要清單,但是作者應在摘要中清楚地報告所有的研究目的并明確說明治療組的數量。
3 多臂試驗的 CONSORT 檢查清單擴展版
3.1 文題和摘要
條目 1a:原 CONSORT 條目:文題能識別是隨機臨床試驗。多臂試驗擴展條目:在文題中明確表示為多臂隨機臨床試驗,或指明受試者被隨機分配的治療組數量。
舉例:HARMONY3:對使用二甲雙胍的 2 型糖尿病患者服用阿昔洛肽相比于安慰劑、西他列汀和格列美脲的療效和安全性評價:104 周隨機、雙盲、安慰劑及陽性對照試驗[9]。口服利培酮、氟哌啶醇或安慰劑對姑息治療患者譫妄癥狀的療效:一項隨機臨床試驗[10]。繼發性進行性多發性硬化癥多臂隨機試驗(multiple sclerosis-secondary progressive multi-arm randomisation trial,MS-SMART):一項多臂 IIB 期隨機、雙盲、安慰劑對照臨床試驗,比較三種神經保護藥物對繼發進行性多發性硬化癥的療效[11]。
解釋:電子數據庫識別隨機試驗報告的能力在很大程度上取決這些臨床試驗報告是如何建立索引的。如果試驗的作者未明確報告此信息,索引器可能不會將這類報告歸類為隨機試驗[12]。為幫助確保對研究進行適當索引并易于識別,作者應在文題中使用“隨機”一詞并報告受試者隨機分配的治療組數量。這個問題也同樣適用于多臂試驗。文題通常有字數的限制,列出部分或所有干預措施很繁瑣,因此添加“多臂”(或多組)一詞能有效地提供有用信息。
3.2 背景和目的
條目 2a:原 CONSORT 條目:科學背景和對試驗理由的解釋。多臂試驗擴展條目:使用多臂設計的理由。
舉例:單藥治療對許多患者的療效不明顯,盡管證據不足,但仍經常推薦聯合用藥。一線單藥治療失敗后,通常建議使用鋰劑聯合丙戊酸鹽。如果這種組合具有可疊加的藥理作用,并證明比單一療法更好,那么它可能是一種合適的一線治療。本文報告了鋰劑與抗驚厥藥聯用預防雙相情感障礙復發是否優于其中任一單一藥物的隨機試驗[13]。
解釋:當一個試驗比較兩個平行組時,顯然是為了比較這兩個組。但是,對于 3 個或更多干預組,可能無法明確預期的主要比較或比較會變得不明確。由于各干預組只有在對特定研究問題有用的情況下才應被包括,所以每個干預組都至少應該對應一個預設的對照。作者應說明使用多臂設計的合理性,并在文章的引言部分指出他們選擇所研究的干預措施的原因,并明確哪些是計劃內的對照。例如,在某種情況下,如果計劃的干預措施之一是兩種陽性干預措施的組合,則作者應解釋不進行析因試驗的原因。通常,這種“不完整”的析因設計可能會用于某些情況,比如某組患者不采用陽性治療不符合倫理要求時。
條目 2b:原 CONSORT 條目:具體目的或假設。多臂試驗擴展條目:說明所有治療組的研究問題;明確陳述所有的檢驗假設和涉及的主要對照。
舉例:摘要(目的):比較利培酮、氟哌啶醇和安慰劑緩解姑息治療抑郁癥患者譫妄癥狀的療效。簡介:本研究的目的是確定利培酮或氟哌啶醇,除了對譫妄患者進行鎮定和提供個性化的支持性護理外,是否對減少譫妄的目標癥狀有額外的益處。最初的零假設是利培酮和安慰劑之間沒有差異,其次假設氟哌啶醇和安慰劑之間沒有差異[10]。
解釋:3 組試驗(A、B 和 C 組)產生 8 種可能的分析,其中大多數試驗包括 2 或 3 組(圖 1)。隨著干預組數量的增加,潛在比較的數量迅速增加;每組至少應出現在一個比較中。因此,除非目的只是一次性比較所有組(這不是一個特別明智的方法,除非是在量-效關系研究中),否則在與 K 個治療組的試驗分析中至少會進行 K-1 次比較。兩組或多臂試驗能形成的對照是 k×(k-1)/2 個配對/兩組比較(例如,對于四臂試驗,有 6 種可能的 2 組比較)。

因此,預先明確數據分析方法尤為重要,作者應報告所有計劃的主要、次要和探索性對照。否則,在沒有考慮大量可能分析的情況下,存在夸大所觀察到的差異并導致誤導的重大風險。在任何情況下,尤其是當計劃進行多次比較時,明確(一個或幾個)主要比較會非常有用。這些比較也應在計劃樣本量(條目 7a)的解釋中說明。計劃中的所有比較可能并不同等重要,如兩組比較可能是一個試驗的主要關注點。在考慮是否對多個比較進行調整時,這種區別是有意義的。另外,用分層方法進行假設檢驗可以防止多重比較出現的任何問題(條目 12a)。有的多臂試驗結合了優效性試驗和非劣效性試驗。例如,Foa 等[16]檢驗了對有創傷后應激障礙的現役軍人進行密集療法(2 周內 10 次延長暴露療法[一種以創傷為中心的認知行為療法]),其對癥狀的緩解程度是否優于最小接觸療法(對照組)及是否不劣于在 8 周內進行 10 次延長暴露療法(間隔療法)。
3.3 方法
條目 3a:原 CONSORT 條目:描述試驗設計(諸如平行設計、析因設計),包括受試者分配到各組的比例。多臂試驗擴展條目:說明治療組數。
舉例:在這個實用性開放性隨機試驗中,新診斷為帕金森病的患者被隨機分配(通過電話致電中心辦公室;比例 1∶1∶1)到左旋多巴后備治療組(多巴胺激動劑或 B 型單胺氧化酶抑制劑[monoamine oxidase type B inhibitors,MAOBI])和單獨使用左旋多巴組[17]。
這是一項于 2009 年 2 月 17 日至 2013 年 3 月 21 日期間進行的Ⅲ期、隨機、雙盲、安慰劑和陽性對照平行臨床試驗。根據 HbA1c 水平(<8.0% [<63.9 mmol/mol]vs. 8.0% [63.9 mmol/mol])、心肌梗死史(myocardial infarction,MI)和年齡(<65 歲vs. 65 歲)對符合條件的患者進行分層,并隨機分配(3∶3∶3∶1),在基線時接受二甲雙胍加上下列 4 種治療中的 1 種:阿必魯泰 30 mg,西他列汀 100 mg,格列美脲 2 mg,安慰劑。與阿必魯泰、西格列汀和格列美脲的相匹配的安慰劑用于維持對干預措施的盲法[9](解釋為什么使用 3∶3∶3∶1 分配將提高報告質量)。
解釋:為了可讀性和理解多臂試驗的設計和原理,明確治療組的數量至關重要。描述受試者分配比例會使報告更直觀、清晰,尤其是在選擇了不相等的分配比率時,對此進行解釋就十分有必要。闡明多臂試驗的結構和受試者流程圖能使讀者對試驗有更直觀的了解。補充資料中 eFigure 顯示了一個展示試驗結構和受試者流程的示例[9]。盡管如此,本示例中試驗結構和受試者流程的示意圖可以對標簽再作改進(例如,圖 A 中“隨訪”的位置),從隨機化框中引出的箭頭少了 2 個及對所提供信息的描述(例如,圖 B 中“被資助者終止”是什么意思?)。
條目 3b:原 CONSORT 條目:試驗開始后對試驗方法所做的重要改變(如納入標準),并說明原因。多臂試驗擴展條目:說明添加或剔除的任何治療組的詳細信息和原因(如果有),和/或受試者分配入各組比例的變化。
舉例(剔除一個治療組):原試驗為一個多中心、盲法、隨機、平行對照臨床試驗,其中受試者在接受 4 周心理社會治療后,被分配到利培酮組、多奈哌齊組或安慰劑組接受為期 12 周的治療。目標樣本量為 285 例阿爾茨海默癥患者。試驗于 2003 年 11 月開始招募受試者,但于 2004 年 3 月暫停,原因是英國藥物安全委員會的推薦意見指出:利培酮和奧氮平不適用于癡呆行為癥狀的治療。試驗于 2004 年 7 月重新進行,變更為兩組設計(多奈哌齊組和安慰劑組),招募于 2005 年 9 月結束[18]。
舉例(增加一個治療組):在美國 57 個臨床試驗中心共招募了 1 493 例精神分裂癥患者,并被隨機分配到奧氮平組(每日 7.5~30 mg)、奮乃靜組(每日 8~32 mg)、奎硫平組(每日 200~800 mg)或利培酮組(每日 1.5~6.0 mg)接受 18 個月的治療。經 FDA 批準增加了齊拉西酮組(每日 40~160 mg)。主要目的是明確這五種治療措施的總體療效差異[19]。
解釋:如果試驗中增加或減少治療組,可進行公正、有效比較的受試者數目將受到影響(如只有同時被隨機分組的受試者才可以作比較)。在上述一個治療組試驗被中止的實例中,受試者分配比例就從 1∶1 ∶1 變成了 1∶1(從受試者流程圖和結果表格中可以明顯看出),受試者接受某種干預措施的概率從 0.33 變成了 0.50,但是隨機化仍使干預措施被同等概率分配。在增加治療組的實例中,甚至沒有明確說明受試者分配比例的變化。
這一條目與傳統的多臂試驗有關,而與治療組可能會被預先設定的規則剔除的適應性設計有關。這樣的設計既提供了更高的效率,又使需要隨機化分組的受試者數量達到最小化。適應性試驗的報告指南將包含在適應性試驗 CONSORT 聲明擴展版中。
條目 7a:原 CONSORT 條目:如何確定樣本量。多臂試驗擴展條目:確定的樣本量,并詳述針對每一個主要對照,樣本量是如何確定的。
舉例:樣本量計算基于以下假設:34% 的安慰劑治療患者和 54%~64% 的他達拉非治療患者(每天一次,需要時)在藥物洗脫(drug-free washout,DFW)之后將達到一個國際勃起功能指數-勃起功能評分(international index of erectile function-erectile function,IIEF-EF)。412 例隨機分配患者提供 84% 的檢驗效能檢測兩個成對比較中他達拉非(每日一次)與安慰劑 20% 的療效差異(假定 20% 的脫落率)[21]。
由于需要足夠高的效益才能改變常規臨床實踐,我們在對照組估計發病率為 11% 的基礎上明確了 3.3% 的絕對減少量(30% 相對減少,比值比為 0.67)。兩項比較的檢驗效能為 90%,檢驗水準為 2.5%,并且考慮到 15% 的失訪率,我們需要為每個組別招募 2 345 例的受試者(總計 7 035 例受試者)。在試驗中,測試了銀合金導管對比聚四氟乙烯(polytetrafluoroethylene,PTFE)導管和呋喃西林導管對比 PTFE 導管兩個同等重要的對照[22]。
解釋:多臂試驗的樣本量應與計劃內的主要比較相對應(條目 2b)。計算樣本量的方法取決于待比較的干預措施的結構和計劃內分析的性質圖 1。當計劃成對比較時,通常確定的樣本量能提供足夠的檢驗效能來評價各個計劃進行的主要比較。如果研究者認為需要對多重比較進行校正,可能會需要更大的樣本量估計來適應該校正(條目 7a)。
條目 12a:原 CONSORT 條目:用于比較各組主要和次要結局指標的統計學方法。多臂試驗擴展條目:需清晰說明是否未對多重性進行校正;如果有,說明其使用方法。
舉例(未進行校正的案例):試驗假設:與傳統治療組相比,高發生率組、延遲治療組或兩者都會發生首次出現不適當治療風險降低。這兩個試驗是平行開展的,并且單獨進行比較,就多重比較進行校正并不合適[23]。
所有 P 值都是在未對多重比較進行校正的雙側檢驗的結果[24]。
舉例(進行校正的案例):我們用 Logistic 回歸評估尿路感染的結果,并使用絕對風險降低百分數和 OR 值為效應量,將兩者的 95%CI 計算為 97.5%CI 以校正這兩個比較。對于主要分析,我們認為 P=0.025 有統計學意義[22]。
對于視覺模擬評分(visual analogue scale,VAS)-即時疼痛評級和壓力數值,如果通過了 Shapiro-Wilk 正態性檢驗,則進行重復測量單因素方差分析(analysis of variance,ANOVA)與 Bofferroni 校正后的成對比較,以檢驗測試條件之間的差異是否有統計學意義(P<0.05)[25]。
我們計算出,需要在每組中招募 810 例患者進行研究,以獲得 90% 的檢驗效能來顯示阿哌沙班優于安慰劑,雙側 α 水平為 0.05,并使用 Hochberg 多重檢驗方法[26]。
解釋:一般來說,多臂試驗分析策略可能有兩個普遍的目的。一是研究人員需要檢驗幾種干預措施的療效差異,這可以通過一次比較所有組的總體分析來解決。這樣的分析不太可能完全令人滿意,因為它不會指出差異來自哪些組別。第二,如上所述,可以在特定組別之間進行 2 個或更多成對比較。在特定的試驗中,常進行兩種策略的分析比較。一種策略(通常在農業分析和其他實驗中推薦)是首先在所有組中進行總體統計檢驗,并且僅在總體檢驗結果具有統計學意義時才進行配對比較。對于臨床試驗的分析,這種策略似乎并不特別可取,因為臨床試驗需要更具針對性的評估方法來比較治療組的差異。
兩個更為復雜的問題也有可能出現。一是 2 組(或更多)治療方案可以是相同藥物或干預措施的不同劑量或不同持續時間。在這種情況下,檢驗是否存在劑量反應關系可能是最有意義的,而不僅僅檢驗治療方案之間差異是否有統計學意義。第二種情況是治療組中的兩組可能是分別接受同一基本干預的不同形式。例如,他們可能口服或靜脈注射相同的藥物。研究人員可能首先將這些組的組合與對照組(通常是安慰劑或標準治療)進行比較,然后再考慮這兩種同一基本干預的不同形式是否不同。接受不同劑量的組有時也可以這樣考慮。當計劃進行這類分析時,研究人員有時可能認為應該以 1∶1∶2 的比例分配這些組,以最大化首要比較的檢驗效能。多重比較的統計校正引起了方法學家之間的爭議,目前尚未就這一問題達成共識。有些人會使用這種校正,另一些人則從不使用校正[27, 28]。研究者可以通過分析方法避免多重性問題。包括:① 在比較組間差異時,使用單個總體假設檢驗(例如,在三臂試驗中比較 A vs. B vs. C),并避免多重比較。值得注意的是,對所有治療方法進行單個總體檢驗是有使用限制的[29]。② 建立劑量-反應關系模型并消除多重比較[30]。③ 使用按優先次序的逐步檢驗法。例如,研究人員可能決定將新的 300 mg 抗生素與標準治療作為優先試驗,如果該比較具有統計學意義,則繼續進行 200 mg 抗生素與標準治療的比較。按優先級排序的逐步法檢驗無需校正即可解決多重性問題[31]。④ 不對多重性進行校正,同時透明地報告所做的所有比較。許多多臂試驗設計用于將不相關的治療與對照組進行直接比較,例如,在 3 臂試驗中比較 A vs. C 和 B vs. C 的差異。在這樣的多臂試驗中,通常不需要進行多重比較校正[2, 15, 32, 33]。
有時多重比較校正是不可避免的。一些監管機構,如歐洲藥品管理局(European Medicines Agency),要求進行這樣的校正。歐洲藥品管理局在其臨床試驗指南中指出,“作為一般規則,可以說控制研究中的I 類錯誤(study-wise type I error)是臨床試驗肯定結論陳述的最低先決條件”[34]。然而,即使校正是適當的,在實施時也常常有爭論。Bonferroni 校正常常由于其簡易性而被推薦。然而,其他校正策略有時在 I 類錯誤率(通常稱為總 I 類錯誤[family-wise type-1-error,FEWR])的總體控制上表現更好[32, 35-37],而在假陽性率上表現更差[32]。校正經常導致多重性的過度校正,特別是采用了 Bonferroni 校正。當比較之間的相關性變得更高時,這種方法就過于保守。其他方法(包括 Holm、Hochberg、Dunnett 檢驗和校正的 Hochberg 方法),與 Bonferroni 方法比較發現,所有方法都顯示出較 Bonferroni 方法更低的保守性[32]。
3.4 結果
條目 14a:原 CONSORT 條目:招募期和隨訪時間的長短,并說明具體日期。多臂試驗擴展條目:如果各治療組的招募期和隨訪時間不同(例如,添加或減少治療組),應當描述各組具體招募期和隨訪時間、產生差異的原因及對統計結果產生的影響。
舉例:方法(研究設計):該研究于 2001 年 1 月至 2004 年 12 月在美國 57 個中心進行(16 個大學診所,10 個州立精神衛生機構,7 個退伍軍人事務醫療中心,6 個私人非營利機構,4 個私人執業地點,14 個混合系統地點)。患者最初被隨機分配在雙盲條件下接受奧氮平、奮乃靜、奎硫平或利培酮治療,并隨訪長達 18 個月或直到因任何原因停止治療(第 1 階段)(在研究開始后,FDA 批準使用齊拉西酮,并于 2002 年 1 月以外觀相同的齊拉西酮 40 mg 膠囊組被添加到研究中)。
方法(統計分析):在大約 40% 的患者入組后,齊拉西酮被添加到試驗中······涉及齊拉西酮組的比較僅限于加入齊拉西酮后進行隨機化分配的患者隊列(齊拉西酮隊列)。總體來說,該試驗具有 85% 的檢驗效能來確定 2 個非典型替代藥物之間的停用率的絕對差異為 12%;然而,它對于涉及齊拉西酮······較具有 58% 的檢驗效能······奧氮平組、奎硫平組、利培酮組和奮乃靜組之間的總體差異通過使用 3 個自由度的檢驗來評估。如果在 P 值小于 0.05 時,差異具有統計學意義,則通過向下逐步法檢驗或閉合檢驗將 3 個非典型藥物組相互比較,并認為在 P 值小于 0.05 時有統計學意義······。齊拉西酮組與齊拉西酮隊列中的其他 3 個非典型藥物組和奮乃靜組通過 4 個成對比較的 Hochberg 校正直接進行比較。結果中最小的 P 值與 0.013(0.05÷4)進行比較(在表 2 腳注和圖 2 圖例中重申了關于意向性分析人群中結局有效性評估的相關內容)。
結果(停止治療):在試驗中加入齊拉西酮后進行隨機分組的 889 例患者中,那些接受奧氮平治療的患者因任何原因停止治療之前的間隔時間都比齊拉西酮組的患者更長(HR=0.76,P=0.028)。然而,經過多重比較校正后,此差異并無統計學意義(所需 P 值≤0.013)[19]。
解釋:對于研究人員、監管機構和患者來說,將一種新興療法作為新的隨機干預組別納入公開招募的臨床試驗是可取的,這能確保試驗保持最新狀態,并盡可能快地評估新療法,最大限度地減少確定最佳療法的時間和成本[38]。應考慮到大量的方法學和統計學含義。這些影響包括:① 由于階段效應和多重性而進行的總體錯誤率控制;② 僅同期對照組數據用于與新增組別的無偏比較[39];③ 檢驗效能(與同期對照組數據比較需要足夠的檢驗效能);④ 分配比例和/或招募到每個組的時長(通過校正所需的受試者總數和回答主要假設所花費的招募時長可以實現效率的提高);⑤ 對照組的潛在變化(可能現有對照組已經顯示出劣效性,因此,在理論上可能需要改變對照組);⑥ 后勤方面的考慮(如額外的資助,所有必要的批準/修改所需的時間,采購藥物,更新試驗隨機化和臨床數據庫系統,對盲法可能的影響,試驗監督,受試者招募)[38]。需要考慮這些影響的程度取決于試驗的性質和結構。有些部分可能會與適應性設計的 CONSORT 聲明擴展版重疊[20]。
如果多臂試驗中超過 1 個治療組的招募過早停止,那么原因的說明就非常重要,因為這些原因可能有所不同。此外,關于 CONSORT 聲明之條目 15(即用一張表格列出每一組的基線數據,包括人口學資料和臨床特征),在對各治療組的招募不是同期進行的情況下,可以使用單個表格或多個基線表格。作者必須清楚地說明哪些受試者包括在各個組的哪些比較中。
條目 17a:原 CONSORT 條目:各組每一項主要和次要結局指標的結果,效應估計值及其精確性(如 95% 置信區間)。多臂試驗擴展條目:各個預先設計的治療組的比較結果。
舉例:主要結局:在 6 個月時,泡沫組的阿伯丁靜脈曲張問卷(Aberdeen varicose veins questionnaire,AVVQ)評分明顯高于手術組(表明疾病特異性生活質量更差),但差異中等[效應量為?1.74,95%CI(?2.97,?0.50),P=0.006]。激光組 AVVQ 評分的改善與手術組的差異無統計學意義。兩組之間在 EQ-5D 評分(一種一般健康狀況衡量標準化工具)或健康調查簡表(short form health survey,SF-36)身體成分評分方面差異無統計學意義。對于激光治療與泡沫治療的事后分析,唯一差異有統計學意義的是 SF-36 心理健康總分,激光組略高于(一般生活質量更好)泡沫治療組[效應量為 1.54,95%CI(0.01,3.06),P=0.048]。次要結局:生活質量。在 6 周時,組間差異有統計學意義(P<0.005)包括:激光組的 AVVQ 評分(表明疾病特異性生活質量更好)低于泡沫組[效應量為?2.3,95%CI(?3.7,?0.9)];激光組在身體疼痛領域的 SF-36 評分低于(表明一般生活質量較差)激光組[效應量為?2.7,95%CI(?4.4,?0.9)];活力[效應量為?2.3,95%CI(?3.9,?0.8)],情感問題所致的角色受限[效應量為?2.4,95%CI(?4.0,?0.8)]及由于軀體健康問題導致的角色受限[效應量為?3.5,95%CI(?5.2,?1.8)]。這 4 個 SF-36 領域評分在 6 個月時組間差異無統計學意義(當P<0.005 時,認為差異有統計學意義)。在激光治療與泡沫治療的事后比較中,泡沫組中只有 6 周時的 EQ-5D 評分明顯較低(表明一般生活質量較差)[效應量為 0.044,95%CI(0.014,0.074)][40]。
解釋:研究人員應計劃好要進行的比較,將其記錄在試驗方案和統計分析計劃中,并在試驗報告中以適當的解釋進行報告。如果在試驗期間添加或刪除了干預措施組,則在分析中應寫明這樣做的影響,這一點十分重要。如果研究者采用了一些措施來控制總體顯著性水平(例如,如果他們在比較組之間進行單個的總體顯著性檢驗,構建劑量反應關系模型,或使用按優先次序的逐步檢驗法),則應報告這些細節。如果研究者進行了正式的多重性校正分析,則應報告這些方法和限制。如前所述(條目 12a),多數的多臂試驗不會進行多重性校正分析。在這些情況下,研究者仍應透明地報告所有已進行的、計劃內的和非計劃內的比較,并對結果提供適當的解釋。
3.5 討論
條目 20a:原 CONSORT 條目:試驗的局限性,報告潛在偏倚和不精確的原因及出現多種分析結果的原因(如果有這種情況的話)。雖然這里不推薦對標準 CONSORT 條目進行具體擴展,但作者應該按圖 1 中具體內容來描述多臂試驗的優勢和局限性。
4 討論
多臂試驗需要仔細的思考和計劃。它提供了同時解決不止一個研究問題的機會,可以加快對新干預措施的評估,促進與競爭治療方案的直接比較,從而可能在優化資源配置同時使患者受益。對受試者和臨床醫生而言,多臂試驗可能比兩組平行試驗更有吸引力,因為通常在多臂試驗中接受實驗性干預措施而非標準治療方案的可能性增加。然而,研究者應始終牢記多臂試驗的效率優勢和在較短時間內評估更多干預措施的可能取決于所需數目受試者的招募情況和受試者臨床結果的采集。
多臂隨機試驗很常見,重要的是這些試驗的報告包括試驗設計特有特征的信息,以便讀者對試驗的進行和結果的解釋做出準確的評估。透明和完整的報告是重復性的關鍵先決條件。良好的報告還有助于在系統評價中識別和納入多臂試驗。然而,多臂試驗,尤其是具有 3 個以上治療臂的試驗,對設計和分析都十分具有挑戰性。
本文為已被廣泛接納的 CONSORT 2010 聲明提供了擬議的多臂試驗擴展版,以實現對多臂隨機試驗的全面和準確地報告。此類試驗需要清晰的目的和涉及所有治療組的假設,并明確需要進行的主要治療組的比較。樣本量應該預先指定,并且至少應明確指出多重檢驗校正的問題。如果不同治療組的招募和隨訪周期不同(例如,添加或減少治療組),則應報告差異的時間段和原因,并應說明其對統計結果的影響。
在多臂隨機試驗中,對組間的多個比較進行多重性校正分析仍然是一個具有挑戰性的問題。許多多臂試驗都是為了提高效率而進行的,它們將不同的治療/干預措施與一個對照組進行比較,這很容易在多個單獨的試驗中進行,而不是單一的多臂試驗。對于多個試驗干預共享一個對照臂的多臂試驗設計,該試驗集中于分別評估每個干預的研究問題。對一個比較結果的解釋通常與其他比較的解釋沒有直接關系。許多臨床試驗研究者/方法學家認為,在這種情況下沒有必要進行多重性校正分析,因為在單獨的試驗中比較這些干預措施時,也沒有必要進行這樣的校正[2, 15, 32, 33, 41, 42]。一些多臂試驗評估了同一藥物的幾種不同劑量的對照,這代表了相關的比較。在這種情況下,試驗者和方法學家傾向于進行多重性校正分析[2, 32, 33, 37]。
這種情況的一個例子是,向藥監部門提交藥物申報審查材料時,存在特定的決策標準,用以判定該研究是否需要進行多重性校正分析。如果申辦者指定了 1 個以上的治療比較,并提出在 1 個或多個劑量的組間比較具有統計學意義的情況下聲明其存在治療效應,此時大多數臨床試驗研究者和方法學家建議進行多重性校正分析[2, 15, 32, 33, 41, 42]。但應該忽視那些籠統地聲稱總是需要或永遠不需要進行多重性校正分析的聲音,是否要進行校正分析仍取決于試驗目的、設計和分析。
一些多臂試驗也可能具有其他具體特征,諸如交叉試驗、群組試驗或析因試驗。對于這樣的多臂試驗,可以參考所有相似試驗的具體建議。已經證明:CONSORT 聲明能夠提高兩組平行試驗報告質量[43]。對本 CONSORT 聲明擴展版的常規使用旨在促進類似的提升。
CONSORT 工作組將繼續監測和修訂其推薦意見,并正在制定對照檢查清單和流程圖,以幫助提高各種設計類型的臨床試驗報告質量。其他類似的擴展版和更新正在準備中,所有 CONSORT 建議的最新版本可以在 CONSORT 官方網站上找到(http://www.consort-statement.org)。
5 結論
CONSORT 2010 聲明的這一擴展版為多臂平行組隨機臨床試驗報告提供了具體指導,并有助于在報告這類臨床試驗中提供更大的透明度和準確性。
參考文獻
見原文。