近年來,傘式試驗在腫瘤藥物臨床試驗設計中受到越來越多的關注,其將單一疾病根據預測標志物或其他預測性因素分為多個亞層,并同時評估多種靶向治療的療效。相對于傳統的從Ⅰ期到Ⅱ期再到Ⅲ期隨機對照試驗的藥物研發模式,傘式試驗是一種更為科學的試驗設計,能夠加快藥物評估速度,以解決眾多待評估藥物與缺乏有效治療方案的疾病之間的矛盾問題。本文將重點探討傘式試驗的概念、主要特點、準入條件、設計和統計考慮要點、倫理考慮及未來發展方向,旨在為腫瘤藥物臨床試驗設計提供方法學參考。
引用本文: 周小芹, 劉慧珍, 王婷, 李旭, 施帆帆, 康德英. 腫瘤藥物臨床試驗設計之傘式試驗. 中國胸心血管外科臨床雜志, 2023, 30(9): 1228-1234. doi: 10.7507/1007-4848.202303024 復制
近年來,隨著全基因測序技術、大數據分析技術等的興起與發展,以個體分子特征及其差異為重點的精準醫學越來越受到關注。為進一步獲得更快更精準的個性化診療證據,與精準醫學思路相應的臨床試驗設計類型也應運而生,其中傘式試驗(umbrella trial)就是其中之一。其是以患者為中心的一種臨床試驗,從入組標準到藥物療效的評價標準都是完全由生物標志物來指導,即Biomarker-guided trials[1-2]。雖然傘式試驗在臨床腫瘤中具有潛在應用前景,但國內對其方法學和應用的全面介紹相對較少,現有的文獻[3-4]主要是概念介紹及舉例說明其運用場景。因此,本文將重點圍繞傘式試驗的概念、主要特點、準入條件、設計和統計考慮要點、倫理考慮及未來發展方向等方面進行探討,以期為后續傘式試驗的方法學創新提供參考借鑒。
1 傘式試驗概念及主要特點
1.1 概念及設計模式
傘式試驗最早于2014年在美國癌癥研究學會(AACR)上提及,是指針對一種疾病多種潛在靶點進行治療的前瞻性臨床試驗,對同一種疾病基于預測性生物標志物或其他預測性患者危險因素分層為多個子研究/子組進行前瞻性治療[5],本質就是一種腫瘤對應不同藥物,類似于中醫理論中的“同病異治”[6]。概念中的“傘”是一種形象比喻,它將一種疾病按照其分子特征分為不同的亞型,隨后根據每個亞型特征選擇不同的精準靶向藥物進行治療。例如:在BATTLE試驗[7]中,把具有不同驅動基因EGFR、KRAS/BRAF、VEGF、RXR/CycD1的難治性非小細胞肺癌患者集中在一起,然后根據不同的靶基因精準分配靶向治療藥物。此外,在某些情況下,對于那些沒有特定標志物的患者會被分配到標準治療組作為對照(也稱為“default arm”)[8]。簡要的傘式試驗設計模式見圖1。

1.2 主要特點及運用
傘式試驗的核心優勢在于,針對特定的單一疾病人群,可在同一個臨床試驗中研究多個生物標志物的作用,從而提高治療效果,對于分子靶點可能不太常見的患者,可通過傘式試驗來豐富具有這些突變類型的患者[9]。同時,由于是通過對分子目標將患者進行分層,這可能會導致很難招募到罕見分子亞型的患者,是傘式試驗面臨的主要難點之一。具體的特點和優劣見表1[1,3,10-13]。

傘式試驗目前主要用于腫瘤領域,少數研究也有探索其在慢性疾病、感染性疾病和內分泌系統疾病等方面的應用。2023年,Haslam等[14]一項關于傘式試驗在腫瘤領域運用的系統評價中,研究檢索了PubMed、EMbase和clinicaltrials.gov,共納入73項傘式試驗或方案,其中28項已有初步試驗結果,40項(54.8%)為Ⅱ期臨床試驗,15項(20.5%)采用隨機對照設計,46項(63%)采用單臂設計,疾病主要集中于肺癌、乳腺癌、結直腸癌等,且基本都用于新藥開發研究。表2列舉了部分腫瘤領域代表性的傘式試驗。

2 傘式試驗準入條件的考慮
在腫瘤患者中開展傘式試驗需要滿足傳統臨床試驗開展的一些條件,如研究設計和方法學要求、倫理審批和相關法規要求等。此外,還需要進一步考慮目標疾病的以下條件:(1)疾病異質性較高,包括不同亞型或分期在臨床表現、預后等方面存在差異;(2)存在多個潛在治療靶點,缺乏足夠的證據支持其中某一種靶向治療策略的優劣;(3)具有可靠的生物標志物,能夠對目標疾病亞型或分期進行精確定位和分類,并預測不同亞型或分期對不同治療策略的反應;另外,開展多中心臨床試驗時,需建立標準化操作程序,使用共同的篩查機制對患者進行識別;(4)招募足夠規模的患者,以確保每種亞型或分期的患者數量均足夠,從而保證研究結果的可靠性。如果以上條件能滿足,可以考慮開展傘式試驗來探索不同亞型或分期的患者對于不同治療策略的應答,并有望為疾病治療提供更為精準的指導。
3 傘式試驗設計和統計的關鍵考慮
傘式試驗相比傳統的臨床試驗設計,具有更高的設計要求和統計復雜性。傘式試驗設計的關鍵是從對潛在疾病的精確定義開始,包括組織學或病理學、試驗的階段、生物標志物的選擇、試驗設計的自適應性等,這就增加了設計復雜性,因為其在臨床實踐中都可能具有挑戰性[9]。另外,在傘式試驗中,也需要確保統計策略的正確性和合理性,其中涉及多個因素,如樣本量大小、子研究間是否涉及多重性等,以便獲得可靠的試驗結果。
3.1 生物標志物的合理篩選與驗證
在傘式試驗中,生物標志物是評估治療效果的關鍵指標。因此,在試驗設計過程中,生物標志物的篩選和驗證是至關重要的步驟之一,可用于生物標志物驗證的評估方法有很多,如熒光原位雜交、免疫組織化學和下一代測序等。合理正確的選擇生物標志物需要充分考慮多個因素,如生物學假設的合理性;該生物標志物人群的患病率;生物標本采集的可行性、組織要求;生物標志物檢測的精確性、科學性、重現性、相關性和可操作性;相關的經濟成本等[1]。但如何確定適當的目標人群、準確合適地選擇生物標志物、確保一致且合適的診斷方法,及腫瘤與生物標志物的治療相關性等,仍然是傘式試驗面臨的重要挑戰[15]。
3.2 試驗設計的自適應性
傘式試驗的自適應性是指在試驗進行過程中,可以根據試驗結果進行調整和優化,以提高試驗效率和準確性,允許有希望的治療措施盡早停止試驗并聲稱有效,進入試驗的下一階段以收集更多證據,或允許無效的治療措施退出試驗并聲稱無效。這些決策規則可以基于預先指定的統計度量,如P值、后驗概率或預測概率等[16]。基于此,傘式試驗的研究設計類型可為單階段設計,如Fleming單階段設計、A'Hern單階段設計;多階段設計,如最優二階段設計、自適應二階段設計、Bayesian二階段設計、最優三階段設計等[17]。其中二階段設計較為廣泛,相比單階段設計,二階段設計可以在試驗第一階段對數據進行分析并判斷藥物是否有效/無效以提前終止試驗。
3.3 樣本量估算
在傳統的臨床試驗設計中,樣本量的估算是綜合考慮多個因素的結果,比如:效應量、Ⅰ類錯誤(α)、檢驗效能(1-β)、主要結局變量的變異程度、隨訪時間、脫落/退出/失訪等[18]。而在傘式試驗中,招募患者較為困難,樣本量估算除了以上這些因素外,還需要考慮每個子研究/子組的樣本量大小、生物標志物檢測的假陽性、生物標志物的患病率、試驗不同的分期等[1,19]。因此,傘式試驗總體估算樣本量相對不常見,樣本量估算通常需要針對每個子研究/子組進行設計。目前缺乏一種適用于不同傘形設計樣本量估算的通用方法,如采用隨機化設計,一般需要比單臂設計試驗更大的樣本量;如采用單臂設計,則計劃的樣本量也應足以排除臨床重要的治療效果[1]。為此,傘式試驗的樣本量估算也可采用特殊的統計方法,如Simon二階段設計和Bayesian設計等,以保證其準確性和可靠性。
3.4 子研究間是否涉及多重性
對于以確證性為目的的傘式試驗,其涵蓋多種藥物,若同時開展多個子研究,可能涉及多重性問題。如果這些子研究是獨立的研究且回答特定的臨床問題,如適用疾病、目標人群等,因為監管機構可以同時獨立評估用于相同適應證的不同藥品的上市許可申請,故一般不會導致總Ⅰ類錯誤率(FWER)膨脹,就不需要在子研究之間進行補充多重性調整策略[20-23]。此時,各子研究內部的比較,常用的方法包括單因素方差分析、χ2檢驗和logistic回歸、Cox回歸分析等。
但對于子研究的復雜設計,如果目標人群之間有較大重疊,或對于多個子研究使用同一個對照組,可能會導致FWER膨脹。在這種情況下,應該根據具體情況來判斷是否需要進行多重性調整,并建議申辦方與監管機構進行充分溝通[18]。Bretz等[24]認為,是否需要調整多重性是基于“治療方式之間的區別程度”,確定是否進行多重性調整并不是一個純粹的方法學問題,需要所有利益相關者就其拒絕的后果進行仔細評估,經綜合權衡后達成共識。如需進行多重性調整,可采用一般性多重性調整方法,如Bonferroni、Holm-Bonferroni、FDR等方法進行多重性校正[20,24-26]。如傘式試驗中同時采用了響應適應性隨機化或其他適應性設計,多重性問題的控制將更為復雜。例如,2011年,Gutjahr等[27]針對多臂的響應自適應二階段設計提出了一種不依賴于模擬來控制FWER的方法;2019年,Robertson等[28]基于迭代應用條件不變性原則提出了一個響應自適應測試程序來控制FWER。因此,在設計和分析傘式試驗時,需要充分了解和應用相關統計方法,并仔細考慮每個環節的細節,選擇適當的統計方法和數據分析策略,以提高試驗的成功率和結果的準確性。
4 傘式試驗倫理的特殊考慮
在倫理方面,Emanuel等[29]針對傳統臨床試驗提出了7項要求。而傘式試驗是以患者為中心,體現個體化的治療,相對于傳統臨床試驗在科學有效性、獲益風險比、知情同意、尊重受試者這些方面需要更多的考慮[30]。例如:(1)科學有效性:由于經驗不足,罕見的惡性腫瘤受試者可能分配到不適當的治療組而造成潛在傷害,或由于樣本量不足和替代終點的使用可能導致藥物批準沒有證實療效;(2)獲益風險比:臨床研究要求對參與者的利益最大化和危害最小化,傘式試驗新的臨床試驗結果可能產生對腫瘤有效的治療方法,但患者在等待基因篩選的結果過程中可能會產生壓力、焦慮,而且納入存在多個突變類型的患者也容易引起爭議;(3)知情同意:傘式試驗可能涉及多種亞型的疾病或病程,因此需要確保每位參與者都理解試驗的整體設計和所處的子組,以便知情同意;(4)尊重受試者:傘式試驗在進行生物標志物篩選和長期隨訪過程中,涉及生物樣本的采集,因此需要提供適當的保護措施,保護隱私和個人信息安全,并定期提供必要的醫療保健服務。
5 展望與未來發展方向
5.1 開展兼具傘式與籃式試驗特點的“平臺試驗”
傘式和籃式試驗都屬于主方案臨床試驗設計,其中傘式試驗可以評估針對同一種疾病的多個生物標志物進行多種靶向治療的臨床效果,而籃式試驗則可以評估不同疾病用一種靶向藥物進行治療的臨床效果,如將這兩種設計結合,開展類似于主方案設計中的“平臺試驗”設計,可評估多種治療方法在某一疾病不同亞型的多個子研究中的臨床效果,這既優化了治療策略,提高治療效果,又可以降低研究成本,縮短研究時間,提高研究效率。例如:2015年7月,由美國國家癌癥研究院發起的NCI-MATCH試驗(NCT02465060)[31],這項試驗就是在籃式試驗設計框架下結合使用了傘式設計進行延伸分析,將患者的基因組變異和靶向藥物治療進行精準配對,既了解了靶向治療對特定分子特征的臨床效果,又分析了不同腫瘤類型的基因異常情況,實現了1+1>2的效果。這種結合的試驗設計Rasheed也將其稱為“Super Umbrella Trials”[32],如何進一步結合達到效果最大化,仍是后續開展類似臨床試驗需進一步探索的重點。
5.2 貝葉斯理論在傘式試驗中的運用
在腫瘤Ⅱ期臨床試驗中常提及的基于頻率論的Simon二階段設計,存在明顯不足,比如僅適用于二分類結局且無法借用歷史數據和先驗信息、僅允許一次期中分析等[33]。貝葉斯理論有助于將試驗內部或外部獲得的信息納入分析,或將不同來源的歷史對照信息可被確定為穩健的先驗。然而,歷史信息的借用在傘式試驗中還沒有得到廣泛的探索應用。Ouma等[34]的系統評價表明,在報道了統計學框架的傘式試驗中,88.8%(16/18)采用的是頻率論框架,而已有的關于貝葉斯方法的研究基本也只是利用貝葉斯理論來優化試驗的某些特征,這可能也與目前關于針對傘式試驗借用技術方法有限有關。Kang等[35]提出了一種包含多個生物標志物亞組的分層貝葉斯聚類設計(HCOMBS),這種設計允許對非隨機Ⅱ期傘式試驗的中期和最終分析進行聚類。Zang等[36]提出了一種貝葉斯自適應設計,該設計是一種考慮了生物標志物信息的貝葉斯層次模型,可以指導治療措施分配,檢驗亞組治療效果及預測標志物效果。鑒于傘式試驗設計的復雜性,后續需要探索更多可以用于借用信息的方法,進一步探索貝葉斯理論在傘式試驗中的深入應用。
5.3 針對新療法的傘式試驗開展衛生技術評估
2020年底,加拿大藥物與衛生技術局(CADTH)進行了網絡研討會,圍繞創新性臨床研究包括傘式試驗、籃式試驗和平臺試驗的衛生技術評估問題,從患者、臨床醫生、公共支付者、私人支付者和行業的角度,討論了這些研究設計相關的臨床、衛生經濟、患者價值和倫理等問題,建議需要多方利益相關者共同創建一個生態系統以在整個生命周期對衛生技術進行評估[9]。在衛生經濟學評價中,不同治療之間的增量成本與效益的比較是必須的,但是由于傘式試驗設計的特殊性,需要對每個潛在的治療和適應證進行單獨分析,這給相關腫瘤新療法的經濟學評價帶來了很大挑戰,特別是在沒有比較組的傘式試驗中,因為如果沒有比較組或具有相同基因突變或生物標志物狀態的現有人群,治療益處就不能合理地與生物標志物或基因本身導致的預后差異分開[37]。目前國內外尚無公開發表的針對傘式試驗腫瘤藥物經濟學評價的方法學研究和指南,迫切需要提出針對傘式試驗的衛生技術評估框架。
5.4 開發或改良傘式試驗的偏倚風險評估工具和報告規范指南
目前,尚無針對傘式試驗的偏倚風險評估工具,2020年Park 等[1]提及針對采用隨機或非隨機試驗設計的傘式試驗,可分別采用Cochrane現有的RoB 2及ROBINS-I兩種偏倚風險評估工具進行偏倚風險評估。針對報告規范,可參考CONSORT和TREND中的部分條目,同時,鑒于傘式試驗具有特殊性,在報告中也應充分體現子研究/子組的設計、生物標志物的篩選和驗證過程、特殊樣本量估算方法、隊列的動態調整過程等內容。Strzebonska等[38]的研究表明,傘式試驗報告的透明度存在嚴重問題,在納入的非隨機試驗中,59%(16/27)研究的總體風險被評估為嚴重或致命風險,主要原因可能是選擇性報告結果,比如:多數傘式試驗子研究/子組中途結束而沒有任何解釋,也沒有結果報告等。所以迫切需要開發或改良關于傘式試驗特定的偏倚風險評估工具和報告規范指南,這將有助于確保傘式試驗結果的可信度和可重復性,提高傘式試驗的透明度、規范性。
綜上,傘式試驗實質上是將精準醫學理念應用于臨床實踐,具有創新性,但目前仍存在一些挑戰,由于試驗涉及不同亞組,其風險獲益也可能存在爭議。要充分發揮傘式試驗的潛力,仍需進一步的方法學研究,且全面考慮傘式研究的各個方面,以指導開展更多優化、精準的臨床試驗,為人類健康事業作出更有意義的貢獻。此外,值得注意的是,這些觀點是我們目前的見解,隨著監管機構、申辦方等多方的實踐,這些考慮可能會隨著時間的推移而演變。
利益沖突:無。
作者貢獻:周小芹提出文章初步構思、提取數據、作圖、負責文章的撰寫與修改;劉慧珍、李旭、王婷、施帆帆調研整理文獻、核實數據;康德英提出文章選題、設計文章框架、終審文章。所有作者均參與文章框架討論及修訂。所有作者都閱讀并同意文章的最終文本。
致謝 感謝四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》編輯部編輯劉雪梅對文章的修改提出的建議。
近年來,隨著全基因測序技術、大數據分析技術等的興起與發展,以個體分子特征及其差異為重點的精準醫學越來越受到關注。為進一步獲得更快更精準的個性化診療證據,與精準醫學思路相應的臨床試驗設計類型也應運而生,其中傘式試驗(umbrella trial)就是其中之一。其是以患者為中心的一種臨床試驗,從入組標準到藥物療效的評價標準都是完全由生物標志物來指導,即Biomarker-guided trials[1-2]。雖然傘式試驗在臨床腫瘤中具有潛在應用前景,但國內對其方法學和應用的全面介紹相對較少,現有的文獻[3-4]主要是概念介紹及舉例說明其運用場景。因此,本文將重點圍繞傘式試驗的概念、主要特點、準入條件、設計和統計考慮要點、倫理考慮及未來發展方向等方面進行探討,以期為后續傘式試驗的方法學創新提供參考借鑒。
1 傘式試驗概念及主要特點
1.1 概念及設計模式
傘式試驗最早于2014年在美國癌癥研究學會(AACR)上提及,是指針對一種疾病多種潛在靶點進行治療的前瞻性臨床試驗,對同一種疾病基于預測性生物標志物或其他預測性患者危險因素分層為多個子研究/子組進行前瞻性治療[5],本質就是一種腫瘤對應不同藥物,類似于中醫理論中的“同病異治”[6]。概念中的“傘”是一種形象比喻,它將一種疾病按照其分子特征分為不同的亞型,隨后根據每個亞型特征選擇不同的精準靶向藥物進行治療。例如:在BATTLE試驗[7]中,把具有不同驅動基因EGFR、KRAS/BRAF、VEGF、RXR/CycD1的難治性非小細胞肺癌患者集中在一起,然后根據不同的靶基因精準分配靶向治療藥物。此外,在某些情況下,對于那些沒有特定標志物的患者會被分配到標準治療組作為對照(也稱為“default arm”)[8]。簡要的傘式試驗設計模式見圖1。

1.2 主要特點及運用
傘式試驗的核心優勢在于,針對特定的單一疾病人群,可在同一個臨床試驗中研究多個生物標志物的作用,從而提高治療效果,對于分子靶點可能不太常見的患者,可通過傘式試驗來豐富具有這些突變類型的患者[9]。同時,由于是通過對分子目標將患者進行分層,這可能會導致很難招募到罕見分子亞型的患者,是傘式試驗面臨的主要難點之一。具體的特點和優劣見表1[1,3,10-13]。

傘式試驗目前主要用于腫瘤領域,少數研究也有探索其在慢性疾病、感染性疾病和內分泌系統疾病等方面的應用。2023年,Haslam等[14]一項關于傘式試驗在腫瘤領域運用的系統評價中,研究檢索了PubMed、EMbase和clinicaltrials.gov,共納入73項傘式試驗或方案,其中28項已有初步試驗結果,40項(54.8%)為Ⅱ期臨床試驗,15項(20.5%)采用隨機對照設計,46項(63%)采用單臂設計,疾病主要集中于肺癌、乳腺癌、結直腸癌等,且基本都用于新藥開發研究。表2列舉了部分腫瘤領域代表性的傘式試驗。

2 傘式試驗準入條件的考慮
在腫瘤患者中開展傘式試驗需要滿足傳統臨床試驗開展的一些條件,如研究設計和方法學要求、倫理審批和相關法規要求等。此外,還需要進一步考慮目標疾病的以下條件:(1)疾病異質性較高,包括不同亞型或分期在臨床表現、預后等方面存在差異;(2)存在多個潛在治療靶點,缺乏足夠的證據支持其中某一種靶向治療策略的優劣;(3)具有可靠的生物標志物,能夠對目標疾病亞型或分期進行精確定位和分類,并預測不同亞型或分期對不同治療策略的反應;另外,開展多中心臨床試驗時,需建立標準化操作程序,使用共同的篩查機制對患者進行識別;(4)招募足夠規模的患者,以確保每種亞型或分期的患者數量均足夠,從而保證研究結果的可靠性。如果以上條件能滿足,可以考慮開展傘式試驗來探索不同亞型或分期的患者對于不同治療策略的應答,并有望為疾病治療提供更為精準的指導。
3 傘式試驗設計和統計的關鍵考慮
傘式試驗相比傳統的臨床試驗設計,具有更高的設計要求和統計復雜性。傘式試驗設計的關鍵是從對潛在疾病的精確定義開始,包括組織學或病理學、試驗的階段、生物標志物的選擇、試驗設計的自適應性等,這就增加了設計復雜性,因為其在臨床實踐中都可能具有挑戰性[9]。另外,在傘式試驗中,也需要確保統計策略的正確性和合理性,其中涉及多個因素,如樣本量大小、子研究間是否涉及多重性等,以便獲得可靠的試驗結果。
3.1 生物標志物的合理篩選與驗證
在傘式試驗中,生物標志物是評估治療效果的關鍵指標。因此,在試驗設計過程中,生物標志物的篩選和驗證是至關重要的步驟之一,可用于生物標志物驗證的評估方法有很多,如熒光原位雜交、免疫組織化學和下一代測序等。合理正確的選擇生物標志物需要充分考慮多個因素,如生物學假設的合理性;該生物標志物人群的患病率;生物標本采集的可行性、組織要求;生物標志物檢測的精確性、科學性、重現性、相關性和可操作性;相關的經濟成本等[1]。但如何確定適當的目標人群、準確合適地選擇生物標志物、確保一致且合適的診斷方法,及腫瘤與生物標志物的治療相關性等,仍然是傘式試驗面臨的重要挑戰[15]。
3.2 試驗設計的自適應性
傘式試驗的自適應性是指在試驗進行過程中,可以根據試驗結果進行調整和優化,以提高試驗效率和準確性,允許有希望的治療措施盡早停止試驗并聲稱有效,進入試驗的下一階段以收集更多證據,或允許無效的治療措施退出試驗并聲稱無效。這些決策規則可以基于預先指定的統計度量,如P值、后驗概率或預測概率等[16]。基于此,傘式試驗的研究設計類型可為單階段設計,如Fleming單階段設計、A'Hern單階段設計;多階段設計,如最優二階段設計、自適應二階段設計、Bayesian二階段設計、最優三階段設計等[17]。其中二階段設計較為廣泛,相比單階段設計,二階段設計可以在試驗第一階段對數據進行分析并判斷藥物是否有效/無效以提前終止試驗。
3.3 樣本量估算
在傳統的臨床試驗設計中,樣本量的估算是綜合考慮多個因素的結果,比如:效應量、Ⅰ類錯誤(α)、檢驗效能(1-β)、主要結局變量的變異程度、隨訪時間、脫落/退出/失訪等[18]。而在傘式試驗中,招募患者較為困難,樣本量估算除了以上這些因素外,還需要考慮每個子研究/子組的樣本量大小、生物標志物檢測的假陽性、生物標志物的患病率、試驗不同的分期等[1,19]。因此,傘式試驗總體估算樣本量相對不常見,樣本量估算通常需要針對每個子研究/子組進行設計。目前缺乏一種適用于不同傘形設計樣本量估算的通用方法,如采用隨機化設計,一般需要比單臂設計試驗更大的樣本量;如采用單臂設計,則計劃的樣本量也應足以排除臨床重要的治療效果[1]。為此,傘式試驗的樣本量估算也可采用特殊的統計方法,如Simon二階段設計和Bayesian設計等,以保證其準確性和可靠性。
3.4 子研究間是否涉及多重性
對于以確證性為目的的傘式試驗,其涵蓋多種藥物,若同時開展多個子研究,可能涉及多重性問題。如果這些子研究是獨立的研究且回答特定的臨床問題,如適用疾病、目標人群等,因為監管機構可以同時獨立評估用于相同適應證的不同藥品的上市許可申請,故一般不會導致總Ⅰ類錯誤率(FWER)膨脹,就不需要在子研究之間進行補充多重性調整策略[20-23]。此時,各子研究內部的比較,常用的方法包括單因素方差分析、χ2檢驗和logistic回歸、Cox回歸分析等。
但對于子研究的復雜設計,如果目標人群之間有較大重疊,或對于多個子研究使用同一個對照組,可能會導致FWER膨脹。在這種情況下,應該根據具體情況來判斷是否需要進行多重性調整,并建議申辦方與監管機構進行充分溝通[18]。Bretz等[24]認為,是否需要調整多重性是基于“治療方式之間的區別程度”,確定是否進行多重性調整并不是一個純粹的方法學問題,需要所有利益相關者就其拒絕的后果進行仔細評估,經綜合權衡后達成共識。如需進行多重性調整,可采用一般性多重性調整方法,如Bonferroni、Holm-Bonferroni、FDR等方法進行多重性校正[20,24-26]。如傘式試驗中同時采用了響應適應性隨機化或其他適應性設計,多重性問題的控制將更為復雜。例如,2011年,Gutjahr等[27]針對多臂的響應自適應二階段設計提出了一種不依賴于模擬來控制FWER的方法;2019年,Robertson等[28]基于迭代應用條件不變性原則提出了一個響應自適應測試程序來控制FWER。因此,在設計和分析傘式試驗時,需要充分了解和應用相關統計方法,并仔細考慮每個環節的細節,選擇適當的統計方法和數據分析策略,以提高試驗的成功率和結果的準確性。
4 傘式試驗倫理的特殊考慮
在倫理方面,Emanuel等[29]針對傳統臨床試驗提出了7項要求。而傘式試驗是以患者為中心,體現個體化的治療,相對于傳統臨床試驗在科學有效性、獲益風險比、知情同意、尊重受試者這些方面需要更多的考慮[30]。例如:(1)科學有效性:由于經驗不足,罕見的惡性腫瘤受試者可能分配到不適當的治療組而造成潛在傷害,或由于樣本量不足和替代終點的使用可能導致藥物批準沒有證實療效;(2)獲益風險比:臨床研究要求對參與者的利益最大化和危害最小化,傘式試驗新的臨床試驗結果可能產生對腫瘤有效的治療方法,但患者在等待基因篩選的結果過程中可能會產生壓力、焦慮,而且納入存在多個突變類型的患者也容易引起爭議;(3)知情同意:傘式試驗可能涉及多種亞型的疾病或病程,因此需要確保每位參與者都理解試驗的整體設計和所處的子組,以便知情同意;(4)尊重受試者:傘式試驗在進行生物標志物篩選和長期隨訪過程中,涉及生物樣本的采集,因此需要提供適當的保護措施,保護隱私和個人信息安全,并定期提供必要的醫療保健服務。
5 展望與未來發展方向
5.1 開展兼具傘式與籃式試驗特點的“平臺試驗”
傘式和籃式試驗都屬于主方案臨床試驗設計,其中傘式試驗可以評估針對同一種疾病的多個生物標志物進行多種靶向治療的臨床效果,而籃式試驗則可以評估不同疾病用一種靶向藥物進行治療的臨床效果,如將這兩種設計結合,開展類似于主方案設計中的“平臺試驗”設計,可評估多種治療方法在某一疾病不同亞型的多個子研究中的臨床效果,這既優化了治療策略,提高治療效果,又可以降低研究成本,縮短研究時間,提高研究效率。例如:2015年7月,由美國國家癌癥研究院發起的NCI-MATCH試驗(NCT02465060)[31],這項試驗就是在籃式試驗設計框架下結合使用了傘式設計進行延伸分析,將患者的基因組變異和靶向藥物治療進行精準配對,既了解了靶向治療對特定分子特征的臨床效果,又分析了不同腫瘤類型的基因異常情況,實現了1+1>2的效果。這種結合的試驗設計Rasheed也將其稱為“Super Umbrella Trials”[32],如何進一步結合達到效果最大化,仍是后續開展類似臨床試驗需進一步探索的重點。
5.2 貝葉斯理論在傘式試驗中的運用
在腫瘤Ⅱ期臨床試驗中常提及的基于頻率論的Simon二階段設計,存在明顯不足,比如僅適用于二分類結局且無法借用歷史數據和先驗信息、僅允許一次期中分析等[33]。貝葉斯理論有助于將試驗內部或外部獲得的信息納入分析,或將不同來源的歷史對照信息可被確定為穩健的先驗。然而,歷史信息的借用在傘式試驗中還沒有得到廣泛的探索應用。Ouma等[34]的系統評價表明,在報道了統計學框架的傘式試驗中,88.8%(16/18)采用的是頻率論框架,而已有的關于貝葉斯方法的研究基本也只是利用貝葉斯理論來優化試驗的某些特征,這可能也與目前關于針對傘式試驗借用技術方法有限有關。Kang等[35]提出了一種包含多個生物標志物亞組的分層貝葉斯聚類設計(HCOMBS),這種設計允許對非隨機Ⅱ期傘式試驗的中期和最終分析進行聚類。Zang等[36]提出了一種貝葉斯自適應設計,該設計是一種考慮了生物標志物信息的貝葉斯層次模型,可以指導治療措施分配,檢驗亞組治療效果及預測標志物效果。鑒于傘式試驗設計的復雜性,后續需要探索更多可以用于借用信息的方法,進一步探索貝葉斯理論在傘式試驗中的深入應用。
5.3 針對新療法的傘式試驗開展衛生技術評估
2020年底,加拿大藥物與衛生技術局(CADTH)進行了網絡研討會,圍繞創新性臨床研究包括傘式試驗、籃式試驗和平臺試驗的衛生技術評估問題,從患者、臨床醫生、公共支付者、私人支付者和行業的角度,討論了這些研究設計相關的臨床、衛生經濟、患者價值和倫理等問題,建議需要多方利益相關者共同創建一個生態系統以在整個生命周期對衛生技術進行評估[9]。在衛生經濟學評價中,不同治療之間的增量成本與效益的比較是必須的,但是由于傘式試驗設計的特殊性,需要對每個潛在的治療和適應證進行單獨分析,這給相關腫瘤新療法的經濟學評價帶來了很大挑戰,特別是在沒有比較組的傘式試驗中,因為如果沒有比較組或具有相同基因突變或生物標志物狀態的現有人群,治療益處就不能合理地與生物標志物或基因本身導致的預后差異分開[37]。目前國內外尚無公開發表的針對傘式試驗腫瘤藥物經濟學評價的方法學研究和指南,迫切需要提出針對傘式試驗的衛生技術評估框架。
5.4 開發或改良傘式試驗的偏倚風險評估工具和報告規范指南
目前,尚無針對傘式試驗的偏倚風險評估工具,2020年Park 等[1]提及針對采用隨機或非隨機試驗設計的傘式試驗,可分別采用Cochrane現有的RoB 2及ROBINS-I兩種偏倚風險評估工具進行偏倚風險評估。針對報告規范,可參考CONSORT和TREND中的部分條目,同時,鑒于傘式試驗具有特殊性,在報告中也應充分體現子研究/子組的設計、生物標志物的篩選和驗證過程、特殊樣本量估算方法、隊列的動態調整過程等內容。Strzebonska等[38]的研究表明,傘式試驗報告的透明度存在嚴重問題,在納入的非隨機試驗中,59%(16/27)研究的總體風險被評估為嚴重或致命風險,主要原因可能是選擇性報告結果,比如:多數傘式試驗子研究/子組中途結束而沒有任何解釋,也沒有結果報告等。所以迫切需要開發或改良關于傘式試驗特定的偏倚風險評估工具和報告規范指南,這將有助于確保傘式試驗結果的可信度和可重復性,提高傘式試驗的透明度、規范性。
綜上,傘式試驗實質上是將精準醫學理念應用于臨床實踐,具有創新性,但目前仍存在一些挑戰,由于試驗涉及不同亞組,其風險獲益也可能存在爭議。要充分發揮傘式試驗的潛力,仍需進一步的方法學研究,且全面考慮傘式研究的各個方面,以指導開展更多優化、精準的臨床試驗,為人類健康事業作出更有意義的貢獻。此外,值得注意的是,這些觀點是我們目前的見解,隨著監管機構、申辦方等多方的實踐,這些考慮可能會隨著時間的推移而演變。
利益沖突:無。
作者貢獻:周小芹提出文章初步構思、提取數據、作圖、負責文章的撰寫與修改;劉慧珍、李旭、王婷、施帆帆調研整理文獻、核實數據;康德英提出文章選題、設計文章框架、終審文章。所有作者均參與文章框架討論及修訂。所有作者都閱讀并同意文章的最終文本。
致謝 感謝四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》編輯部編輯劉雪梅對文章的修改提出的建議。