傳統的隨機對照試驗與真實世界研究在內部有效性和外部可推廣性方面各占優勢,隨著循證衛生決策的發展,隨機對照試驗不再是干預性臨床證據的唯一金標準,真實世界研究證據正逐漸參與到衛生決策中來。本文通過梳理英國 NICE 在衛生項目有效性評估過程中對證據的要求和證據實際應用現狀,發現目前 NICE 仍將隨機對照試驗結果作為主要依據,真實世界研究雖近年來發展火熱,但由于本身設計存在潛在偏倚且受限于很多因素,在衛生決策中仍使用較少。但近年來,在創新藥或者缺乏治療藥物的疾病領域,真實世界證據則發揮了較大作用。隨著真實世界研究在試驗設計和數據分析等方面的逐步完善,相信其將在衛生決策中發揮更重要的作用。
引用本文: 田磊, 徐赫, 孟蕊, 馬愛霞. 不同類型臨床證據在衛生決策中的應用進展:以英國 NICE 為例. 中國循證醫學雜志, 2020, 20(1): 112-118. doi: 10.7507/1672-2531.201909026 復制
隨著疾病譜的改變和醫學技術的快速發展,衛生決策者對藥品或治療方案的有效性、安全性和經濟性的評估要求也進一步提升,不同類型的研究設計、不同來源證據被更多地納入到衛生決策考評體系中。為完善藥品臨床使用和向醫療保險機構提供保險給付參考,許多發達國家都建立了藥品綜合評價機構,形成了規范化的證據評價流程和體系,如美國藥品效果審評計劃(The Drug Effectiveness Review Project,DERP)、英國國家衛生與服務優化研究院(National Institute for Health and Care Excellence,NICE)、加拿大 CDR 系統、澳大利亞 PBS 計劃等[1]。通過發布相關指南,對醫療技術評估的格式和內容方面都提出了具體要求[2, 3],且配備科學評審團隊,對企業遞交的臨床報告和衛生經濟分析材料進行評審并給出相應意見。臨床有效性和安全性的證據來源包括臨床試驗證據和真實世界證據,經濟性則因涉及到醫保資金可持續的問題,可單獨評估或與臨床證據相結合構成藥物經濟學和預算影響分析結果來呈現。通過對有效性、安全性和經濟性證據的綜合考量,各衛生決策機構給出相應的醫療技術使用和報銷建議。
我國正處于醫改第二個十年的起始階段,對醫療衛生體系的各方面建設仍在不斷地探索和完善中,尤其是在藥品醫保目錄的制定、醫療器械的管理、醫保制度的完善等方面。在以上衛生決策過程中,離不開對臨床證據的評估,故本研究旨在通過梳理英國 NICE 在衛生決策中對臨床證據的要求,并對 NICE 在 2016~2018 年發布的衛生技術評估指南中證據實際應用情況進行總結,為我國衛生決策部門提供相應參考與借鑒。
1 NICE 與 NICE 指南
1.1 NICE 簡介
NICE 成立于 1999 年,是英國的非部屬公共機構。作為一個特殊的衛生機構,它的主要職責是利用現有最佳證據,發布全國性的社會保健服務指南和制定質量標準,為改善健康和社會保健提出建議[4]。英國國民衛生服務系統(national health service,NHS)有法律義務為 NICE 評估推薦的藥物和治療提供資金和資源支持,當 NICE 推薦一種治療可作為治療選擇時,NHS 必須確保在指南發布起三個月內遵守報告中的建議[5]。自 2000 年,NICE 相繼發布了技術評估等系列指南(圖 1)。

1.2 NICE 指南介紹
NICE 的 9 種指南共分為 6 個大類,NICE 指南、技術評估指南、介入治療指南、醫療技術指南、診斷指南和高度專業化的技術指南[6]。NICE 指南涵蓋了藥物實踐指南、癌癥服務指南、臨床指南、抗菌藥物處方指南、公共健康指南和社會保健指南[7],它針對廣泛的主題提出基于證據的建議,從疾病預防、藥物使用到向公眾提供社會護理,在更寬泛的角度上對衛生服務進行規劃和制定干預措施,以提高公眾健康水平。
技術評估指南中包含的衛生技術項目包括:醫藥產品、醫療設備、診斷技術、外科手術或其他治療技術、醫藥產品以外的治療技術、系統護理和篩查工具。衛生技術評估包括三種:單技術評估、多技術評估和快速技術評估。單技術評估指南是涵蓋單一藥物或單一適應癥的治療指南。多技術評估指南是指治療一種疾病的多種藥物或治療方法或適用于多種疾病的一種藥物或治療方法的評估指南。當單技術評估需要在多種藥品或治療方式之間進行比較時也可以使用此技術評估。快速技術評估是對滿足一定要求的藥物或技術進行快速評估。可以通過快速評估過程的技術應滿足:基礎情況分析中增量成本效果比(incremental cost- effectiveness ratio,ICER)少于 10 000 英鎊/質量調整生命年(quality adjusted life year,QALY),考慮不確定性后 ICER 少于 20 000 英鎊/QALY 且極少可能超過 30 000 英鎊/QALY,或可以證明對于相同的適應癥,相較于目前已在指南中推薦的藥品,它可以提供更多的健康效益或消耗更少的成本[8]。
以上技術評估指南通過評估臨床技術的臨床效果和成本效果,確保所有 NHS 患者都能公平地獲得最具臨床效果和成本效果的治療,當癌癥藥物的增量成本效果高于可接受閾值時,仍有機會進入癌癥藥物基金(cancer drugs fund,CDF)。CDF 作為英國癌癥藥物的資金來源之一,曾在 2011 年建立了一種早期臨時支付方案,為患者提供最具前景的新型癌癥治療方法,確保納稅人支付稅金的使用更有價值,同時也為定價合理的制藥公司提供了一條獲得 NHS 資助的捷徑,但由于實踐中不確定藥品應如何以及何時退出 CDF,給英國政府帶來了不可持續的財政壓力,后由 NICE 和 NHS 的共同開發,于 2016 年推出了 CDF 新的資助模式。對于之前已在 CDF 許可中的藥品,NICE 啟動了一項快速復議程序對所有藥品進行評估,幫助完成新舊模式的過渡。對遞交審批的癌癥藥品,在評審委員會上給出:推薦在 NHS 常規使用、推薦在 CDF 中使用或不推薦三種建議。
介入治療指南評估用于診斷和治療的項目,對穿刺、激光治療或深部腦刺激等介入治療程序是否足夠有效和安全提供建議。醫療技術指南對新的醫療設備給出建議,使更多好的技術和設備可以進入 NHS。診斷指南旨在使 NHS 能夠快速、持續地采用符合臨床和具有成本效果的診斷技術。高度專業化的技術指南是對新的和現有高度專業化的罕見病藥物和治療方式提出建議。
2 NICE 衛生決策的實施
2.1 NICE 衛生決策流程
NICE 評估的眾多項目在被納入指南前,大體需經過三步流程,分別為審視期(評判項目評估必要性)、評估期(對企業提交的證據進行審查)、批準期(產生最終推薦結果)[4]。
以醫療技術評估過程為例[4, 9, 10],NICE 以開放的平臺接受潛在的待評估申請,衛生保健專業人員、研究人員和患者等均可以聯系英國國立健康研究創新觀察所(National Institute for Health Research Innovation Observatory,NIHRIO)來推薦潛在醫療技術。在審視期,NICE 對推薦技術進行審查確定符合審查范圍后,將聯系企業撰寫包括目標人群、擬用模型、數據來源等信息在內的評估草案,經過顧問與評論員的審查和研討后,將結果報告上報衛生部,對經審批同意開展評估的項目進行評估。在評估期,NICE 將接受來自企業及非企業咨詢人員遞交的臨床和成本效果證據,并以此作為評價的基礎,對證據的分析和解釋具有嚴格的標準和透明度。隨機對照試驗(randomized controlled trial,RCT)、非隨機或控制試驗和定性研究均應該被納入進行有效性證據系統評價,并識別潛在偏倚。待評估技術和對照方案對生存、疾病進展和生活質量的影響應以量化的形式體現,以便計算 QALYs。成本方面,需用適當的價格和單位費用以貨幣形式來呈現。以上的數據涵蓋了成本效果評估所需數據,但對已發表的成本效果研究進行系統評價和對重要參數進行敏感性分析仍是必要的。證據審評小組專家對遞交證據材料進行審查后將提交分析報告。在批準期,證據評價結果可分為評估咨詢和最終評估兩種情況:前者需要補充證據后再進行最終評估;若現有證據已足夠支持決策則進行最終評估并得出結果。在 NICE 指南制定負責人對評估流程及報告進行最終審查后,若其滿足衛生部要求,則可代表 NICE 發表該項評估。
2.2 NICE 在衛生決策中對證據的考量
為在評估各衛生項目時有統一的規則與標準可遵循,NICE 發布了方法手冊,說明開發、維護和更新各指南的過程與方法。由于各衛生項目的特點和適用情景不同,NICE 在對各類衛生項目進行評估時要求提供的證據也有所差異。
2014 年以前 NICE 發布的方法手冊包括公共健康、社會保健、臨床、技術評估、介入治療、醫療技術、診斷指南等方面,2014 年 10 月 NICE 以統一的指南方法手冊,整合了公共衛生指南、社會護理指南和臨床指南的方法手冊[11]。該方法手冊中提出,在對以上這些項目的有效性進行評估時應首先考慮可用的 RCT 證據,因為非隨機對照試驗會存在較大偏倚,但在涉及到長期效果時,非隨機對照試驗的證據應該被更多考慮[12]。此外對于許多衛生和社會保健干預措施來說,將試驗對象進行隨機分組存在困難或不符合倫理要求,這種情況下非隨機對照試驗設計可能是評估關聯性或因果關系更合適的方法,并且在 Meta 分析時應納入非隨機對照研究[11]。
技術評估主要是為 NHS 中新藥和現有治療方法的使用提出建議。來自 RCT 的數據被認為可以將結果以最小偏差的形式呈現,是最適合衡量相對治療效果的證據。然而,方法手冊指出,RCT 并不總是能提供出足夠的證據來量化治療效果,因此需要來自非隨機研究的數據進行補充,在 Meta 分析時也應納入包括非隨機研究在內的所有相關證據,但需要謹慎對待觀察性研究的潛在偏倚[10, 11]。
在對介入治療方法進行評估時,來自 RCT 的安全性和有效性證據為首選,但非隨機化研究、非對照研究(例如病例系列或病例報告)或注冊表數據在滿足一定標準時也可考慮納入[13]。
醫療技術評估的目的在于對醫療技術的使用提出建議,在對證據進行定量分析時可包括已發表的研究和未發表的研究(包括觀察性研究、專業機構或制造商贊助的注冊等級表等)[13]。因為醫療技術的實施效果與醫務人員的操作熟練程度有關,所以其有效性存在變量,故醫學技術很少采用 RCT 進行評估,更多的是結合多渠道證據來比較各技術的效果。與其他方法手冊相比,醫療技術手冊中對評價方法的定義較少,對已發表與未發表研究的偏倚也沒有具體的評估建議,且沒有指明從登記中獲得的觀測數據應如何更適當地作為證據提供。
診斷技術包括篩查、檢查和排除疾病,評估疾病嚴重程度和監測病情變化。診斷指南方法手冊中指出[14],對于檢驗和監測技術的評估在審評中主要考慮技術有效性、準確性和副作用的證據。治療有效性的最高級別證據則是高質量的系統評價,其次是 RCT 證據。其他設計類型研究如隊列研究和病例對照研究,也可能提供有用的證據,但存在較高的偏倚風險。診斷準確性證據的來源通常是前瞻性隊列研究、橫斷面研究或回顧性病例對照研究,因為對準確度的考量是比較有疾病的人與無疾病的人的測試結果,大多數是將感興趣的指標結果與參考標準進行比較。副作用方面,可從 RCT 和其他比較研究中確定,但值得注意的是,橫斷面研究、病例研究和患者登記的不良反應數據更有價值。
高度專業化的技術因為只包含較少的領域,具有特殊性且面臨著具體的方法問題,目前在評估時采用的是臨時方法。
綜上,除醫療技術外,其余項目在評估時都明確表示優先采用 RCT 證據,但現在也普遍認為,在進行系統評價時應納入非隨機對照研究的證據。該方法手冊沒有提供當只有單臂/病例系列的對照組證據可用時,如何將待評估的技術與其進行比較的方法,這使得 RCT 與真實世界證據的應用銜接存在斷層[11]。
3 衛生技術過程中證據應用現狀
因技術評估發展歷史最久,方法和體系較成熟且評估對象以藥品為主,應用范圍較廣,其證據應用情況具有代表性。2016 年 1 月 1 日至 2018 年 12 月 31 日 NICE 官網共發布技術評估指南 189 篇,其中有 16 篇由于制藥公司無法提供可靠的臨床證據并進行有效的成本效果分析或因其他原因未提交相關證據而終止評估。我們對 2016~2018 年 NICE 技術評估指南中的證據情況進行了總結。結果顯示 NICE 于 2016 年發布技術評估指南 53 篇,2017 年 58 篇,2018 年 62 篇,呈逐年上漲趨勢(包括 9 篇報告不全或無法讀取)。3 年間評估藥品涉及的疾病種類包括白血病、癌癥、腫瘤、肝炎、銀屑病、骨質疏松及各種炎癥等,其中白血病治療評價通過的藥品或治療方案最多,達 15 種,癌癥中通過藥品最多的是非小細胞肺癌,腫瘤中則是黑色素瘤。共有 135 種藥品或治療方案被推薦或可限制情況下在 NHS 中使用,21 種藥品或治療方案被推薦在癌癥藥物基金中使用,17 種藥品由于成本效果閾值高出 NICE 可接受范圍而不被推薦。
藥品證據來源方面,可分為隨機對照試驗和非隨機對照試驗,嚴格的隨機對照試驗是指在實驗設計時遵守隨機化、盲法和對照原則[15],但隨著科研經驗的積累和考慮臨床實踐中的具體情況,一些特殊模式的 RCT 相繼產生,如半隨機、組群隨機等方法[16],根據試驗階段可以分為 Ι 期、Π 期和Ш期臨床試驗。非隨機對照試驗包括開放標簽試驗、單臂研究、拓展研究、觀察性研究(前瞻性研究、擴展隊列研究和歷史對照研究)[17]。試驗目的以確定藥品的安全性、有效性和耐受性為主,少數研究目的為確定劑量。
隨機和非隨機對照試驗既可以單獨作為證據來源也可以彼此結合作為證據來源,提供證據的試驗數量沒有限制。如 Alirocumab 用于治療原發性高膽固醇血癥和混合性血脂異常,其效果來源就是 10 個 RCT。27 種(16.5%)藥品通過提供非隨機對照試驗證據與隨機對照試驗證據相結合的方式通過評估,66 種(40.2%)藥品以非隨機對照試驗作為唯一證據來源,43.3% 的藥品評估均是基于 RCT(表 1)。單臂研究的參照對象是“外部對照”,是采用他人或過去的研究結果,與試驗組進行對照比較。開放標簽試驗指對受試者和研究人員均不設置盲法,除研究設計本身原因外,有些治療方案如比較不同治療設備、內外科治療方法等亦無法設置盲法。表 1 結果顯示,以 RCT 單獨作為證據來源的占比最多,其次是以單臂/開放標簽研究,而單獨將真實世界觀察性研究做為證據來源或與其他研究設計結合使用的數量還很少。證據質量方面,在 196 項 RCT 中有 78 項(39.8%)被認為是高質量,167 項非隨機對照試驗證據中有 49 項(29.3%)被認為是高質量,其中包括 1 篇前瞻性真實世界研究(自體軟骨細胞植入治療癥狀性膝關節軟骨缺損)。試驗階段方面,僅提供 Ι/Π 期或 Π 期試驗證據就通過評估的僅 56 種藥品,涉及 34 類疾病包括癌癥、白血病等(圖 2)。多數仍是以Ш期臨床試驗結果為證據來源(n=111)。


RCT 仍是目前 NICE 評估臨床效果證據的主要來源且證據質量較高,但真實世界研究證據正逐漸參與到評估中來;當涉及到具有突破性效果的藥品或針對缺少有效治療方式的疾病時,Ι/Π 期試驗數據證據也被納入考慮。評估對試驗設計的靈活性正逐漸增強,設計形式也多樣化發展,但科學地控制非隨機對照研究的偏倚,提高其證據質量和應用程度,仍是試驗設計者需重點考慮的問題。
4 討論與展望
4.1 研究質量或與研究設計相關
對于研究質量,目前多采用相關量表進行評價。傳統的 RCT 常使用 CONSORT、GRADE 等量表;非隨機或非控制試驗,則多使用適當且經過驗證的質量或報告評估工具進行評估,如 TREND 報告規范、STROBE 聲明等[18, 19]。NICE 在審查提供臨床效果的 RCT 和非隨機對照試驗時,不僅需要試驗人群、納排標準和結果等詳細的試驗基本信息,還會對報告本身研究質量進行評判。因在報告中未全部說明證據被判斷為高質量的理由,根據 NICE 手冊提供的臨床試驗需考慮問題[18, 19],可認為研究質量與研究設計及實施嚴謹程度有關。
4.2 RCT 證據在衛生決策中仍為主要證據來源
在試驗設計方面,RCT 通過控制患者基線特征、治療干預措施等因素,將混雜因素帶來的偏倚降到最低,因此可以盡可能的體現藥品或治療方式的真實效果,雖然近年來真實世界數據的快速發展促使人們回過頭思考傳統 RCT 存在外部性較低、涉及倫理問題等局限性,但真實世界數據亦存在干擾因素多、數據真實性待考量等弊端,目前還沒有對真實世界數據的偏倚處理形成統一的共識。有研究對英國 NICE、蘇格蘭醫藥協會 SMC、加拿大藥品及衛生技術評估組織 CDR/pCODR、澳大利亞藥品補償咨詢委員會 PBAC、法國國家衛生管理局 HAS 及德國聯邦聯合委員會 G-BA 等衛生組織在決策時采納的證據形式進行了統計,在排除了無明確決策、無臨床數據及不清楚是否采用了觀察性數據的衛生技術評估決策后,在 1 840 項衛生技術評估決策中,94% 的決策證據來源均仍為 RCT[20]。
4.3 Ι/Π 期或 Π 期試驗證據在創新藥物和療法中起到重要作用
在本文提取的僅以 Ι/Π 期或 Π 期試驗單獨作為證據來源的 34 種藥品評估中,絕大部分為創新藥物或療法,如 holoclar 是歐洲首個干細胞療法,tisagenlecleucel 為全球首個 CAR-T 細胞療法,替尼類、單抗類等新型靶向腫瘤藥物。可以看出對于治療重大疾病領域的新藥或缺乏治療手段疾病的藥物,NICE 在評估時對試驗研究設計類型和所處階段都有所放寬。美國和歐盟等也具有加速新藥審批途徑、并采取獨占保護期和資金政策支持等一系列激勵措施[21]。中國在創新藥審評審批方面對此也多有借鑒,2017 年國家食品藥品監督管理總局發布《關于鼓勵藥品創新實行優先審評審批的意見》,以療效創新為基礎將具有臨床價值和治療優勢的新藥、仿制藥、罕見病用藥等納入優先審評審批行列,對于“治療嚴重危及生命的疾病且尚無有效治療手段、對解決臨床需求具有重大意義的新藥”進行“有條件批準”[22],允許其在完成Ⅲ期臨床試驗前有條件上市,如有條件批準 Daratumumab 上市用于治療難治性和復發性多發性骨髓瘤。
4.4 非隨機對照試驗證據將在更廣的范圍得到應用
隨著真實世界數據質量的提高、真實世界數據向證據轉化的完善,非隨機對照實驗證據將發揮越來越重要的作用,目前除了在生物、化學藥物評估中的應用,在中藥治療領域、藥械評價方面,非隨機對照實驗證據也多有應用,如將真實世界研究用于中藥治療領域,例如冠心病、慢阻肺等[20]。美國發布《真實世界證據方案框架》、《使用真實世界證據支持醫療器械監管》等真實世界證據應用規范[23, 24],擴大真實世界數據應用范圍。中國也在證據應用方面不斷推進,2019 年 4 月發布了實施中國藥品監管科學行動計劃,把“將真實世界數據用于醫療器械臨床評價的方法學研究”列為項目之一,5 月發布關于《真實世界證據支持藥物研發的基本考慮》的征求意見稿,標志著中國藥品監管部門正式啟動將真實世界數據和證據用于審評審批方面的探索與研究[25]。
綜上所述,包括真實世界證據在內的非隨機對照實驗證據近年來正快速發展,其重要性已成為各國衛生決策部門的共識,未來隨著真實世界研究在減少偏倚、與 RCT 證據的銜接、數據的有效性和準確性等方面的提升,相信其應用程度將進一步提高,與 RCT 一同為決策部門提供更多依據。
隨著疾病譜的改變和醫學技術的快速發展,衛生決策者對藥品或治療方案的有效性、安全性和經濟性的評估要求也進一步提升,不同類型的研究設計、不同來源證據被更多地納入到衛生決策考評體系中。為完善藥品臨床使用和向醫療保險機構提供保險給付參考,許多發達國家都建立了藥品綜合評價機構,形成了規范化的證據評價流程和體系,如美國藥品效果審評計劃(The Drug Effectiveness Review Project,DERP)、英國國家衛生與服務優化研究院(National Institute for Health and Care Excellence,NICE)、加拿大 CDR 系統、澳大利亞 PBS 計劃等[1]。通過發布相關指南,對醫療技術評估的格式和內容方面都提出了具體要求[2, 3],且配備科學評審團隊,對企業遞交的臨床報告和衛生經濟分析材料進行評審并給出相應意見。臨床有效性和安全性的證據來源包括臨床試驗證據和真實世界證據,經濟性則因涉及到醫保資金可持續的問題,可單獨評估或與臨床證據相結合構成藥物經濟學和預算影響分析結果來呈現。通過對有效性、安全性和經濟性證據的綜合考量,各衛生決策機構給出相應的醫療技術使用和報銷建議。
我國正處于醫改第二個十年的起始階段,對醫療衛生體系的各方面建設仍在不斷地探索和完善中,尤其是在藥品醫保目錄的制定、醫療器械的管理、醫保制度的完善等方面。在以上衛生決策過程中,離不開對臨床證據的評估,故本研究旨在通過梳理英國 NICE 在衛生決策中對臨床證據的要求,并對 NICE 在 2016~2018 年發布的衛生技術評估指南中證據實際應用情況進行總結,為我國衛生決策部門提供相應參考與借鑒。
1 NICE 與 NICE 指南
1.1 NICE 簡介
NICE 成立于 1999 年,是英國的非部屬公共機構。作為一個特殊的衛生機構,它的主要職責是利用現有最佳證據,發布全國性的社會保健服務指南和制定質量標準,為改善健康和社會保健提出建議[4]。英國國民衛生服務系統(national health service,NHS)有法律義務為 NICE 評估推薦的藥物和治療提供資金和資源支持,當 NICE 推薦一種治療可作為治療選擇時,NHS 必須確保在指南發布起三個月內遵守報告中的建議[5]。自 2000 年,NICE 相繼發布了技術評估等系列指南(圖 1)。

1.2 NICE 指南介紹
NICE 的 9 種指南共分為 6 個大類,NICE 指南、技術評估指南、介入治療指南、醫療技術指南、診斷指南和高度專業化的技術指南[6]。NICE 指南涵蓋了藥物實踐指南、癌癥服務指南、臨床指南、抗菌藥物處方指南、公共健康指南和社會保健指南[7],它針對廣泛的主題提出基于證據的建議,從疾病預防、藥物使用到向公眾提供社會護理,在更寬泛的角度上對衛生服務進行規劃和制定干預措施,以提高公眾健康水平。
技術評估指南中包含的衛生技術項目包括:醫藥產品、醫療設備、診斷技術、外科手術或其他治療技術、醫藥產品以外的治療技術、系統護理和篩查工具。衛生技術評估包括三種:單技術評估、多技術評估和快速技術評估。單技術評估指南是涵蓋單一藥物或單一適應癥的治療指南。多技術評估指南是指治療一種疾病的多種藥物或治療方法或適用于多種疾病的一種藥物或治療方法的評估指南。當單技術評估需要在多種藥品或治療方式之間進行比較時也可以使用此技術評估。快速技術評估是對滿足一定要求的藥物或技術進行快速評估。可以通過快速評估過程的技術應滿足:基礎情況分析中增量成本效果比(incremental cost- effectiveness ratio,ICER)少于 10 000 英鎊/質量調整生命年(quality adjusted life year,QALY),考慮不確定性后 ICER 少于 20 000 英鎊/QALY 且極少可能超過 30 000 英鎊/QALY,或可以證明對于相同的適應癥,相較于目前已在指南中推薦的藥品,它可以提供更多的健康效益或消耗更少的成本[8]。
以上技術評估指南通過評估臨床技術的臨床效果和成本效果,確保所有 NHS 患者都能公平地獲得最具臨床效果和成本效果的治療,當癌癥藥物的增量成本效果高于可接受閾值時,仍有機會進入癌癥藥物基金(cancer drugs fund,CDF)。CDF 作為英國癌癥藥物的資金來源之一,曾在 2011 年建立了一種早期臨時支付方案,為患者提供最具前景的新型癌癥治療方法,確保納稅人支付稅金的使用更有價值,同時也為定價合理的制藥公司提供了一條獲得 NHS 資助的捷徑,但由于實踐中不確定藥品應如何以及何時退出 CDF,給英國政府帶來了不可持續的財政壓力,后由 NICE 和 NHS 的共同開發,于 2016 年推出了 CDF 新的資助模式。對于之前已在 CDF 許可中的藥品,NICE 啟動了一項快速復議程序對所有藥品進行評估,幫助完成新舊模式的過渡。對遞交審批的癌癥藥品,在評審委員會上給出:推薦在 NHS 常規使用、推薦在 CDF 中使用或不推薦三種建議。
介入治療指南評估用于診斷和治療的項目,對穿刺、激光治療或深部腦刺激等介入治療程序是否足夠有效和安全提供建議。醫療技術指南對新的醫療設備給出建議,使更多好的技術和設備可以進入 NHS。診斷指南旨在使 NHS 能夠快速、持續地采用符合臨床和具有成本效果的診斷技術。高度專業化的技術指南是對新的和現有高度專業化的罕見病藥物和治療方式提出建議。
2 NICE 衛生決策的實施
2.1 NICE 衛生決策流程
NICE 評估的眾多項目在被納入指南前,大體需經過三步流程,分別為審視期(評判項目評估必要性)、評估期(對企業提交的證據進行審查)、批準期(產生最終推薦結果)[4]。
以醫療技術評估過程為例[4, 9, 10],NICE 以開放的平臺接受潛在的待評估申請,衛生保健專業人員、研究人員和患者等均可以聯系英國國立健康研究創新觀察所(National Institute for Health Research Innovation Observatory,NIHRIO)來推薦潛在醫療技術。在審視期,NICE 對推薦技術進行審查確定符合審查范圍后,將聯系企業撰寫包括目標人群、擬用模型、數據來源等信息在內的評估草案,經過顧問與評論員的審查和研討后,將結果報告上報衛生部,對經審批同意開展評估的項目進行評估。在評估期,NICE 將接受來自企業及非企業咨詢人員遞交的臨床和成本效果證據,并以此作為評價的基礎,對證據的分析和解釋具有嚴格的標準和透明度。隨機對照試驗(randomized controlled trial,RCT)、非隨機或控制試驗和定性研究均應該被納入進行有效性證據系統評價,并識別潛在偏倚。待評估技術和對照方案對生存、疾病進展和生活質量的影響應以量化的形式體現,以便計算 QALYs。成本方面,需用適當的價格和單位費用以貨幣形式來呈現。以上的數據涵蓋了成本效果評估所需數據,但對已發表的成本效果研究進行系統評價和對重要參數進行敏感性分析仍是必要的。證據審評小組專家對遞交證據材料進行審查后將提交分析報告。在批準期,證據評價結果可分為評估咨詢和最終評估兩種情況:前者需要補充證據后再進行最終評估;若現有證據已足夠支持決策則進行最終評估并得出結果。在 NICE 指南制定負責人對評估流程及報告進行最終審查后,若其滿足衛生部要求,則可代表 NICE 發表該項評估。
2.2 NICE 在衛生決策中對證據的考量
為在評估各衛生項目時有統一的規則與標準可遵循,NICE 發布了方法手冊,說明開發、維護和更新各指南的過程與方法。由于各衛生項目的特點和適用情景不同,NICE 在對各類衛生項目進行評估時要求提供的證據也有所差異。
2014 年以前 NICE 發布的方法手冊包括公共健康、社會保健、臨床、技術評估、介入治療、醫療技術、診斷指南等方面,2014 年 10 月 NICE 以統一的指南方法手冊,整合了公共衛生指南、社會護理指南和臨床指南的方法手冊[11]。該方法手冊中提出,在對以上這些項目的有效性進行評估時應首先考慮可用的 RCT 證據,因為非隨機對照試驗會存在較大偏倚,但在涉及到長期效果時,非隨機對照試驗的證據應該被更多考慮[12]。此外對于許多衛生和社會保健干預措施來說,將試驗對象進行隨機分組存在困難或不符合倫理要求,這種情況下非隨機對照試驗設計可能是評估關聯性或因果關系更合適的方法,并且在 Meta 分析時應納入非隨機對照研究[11]。
技術評估主要是為 NHS 中新藥和現有治療方法的使用提出建議。來自 RCT 的數據被認為可以將結果以最小偏差的形式呈現,是最適合衡量相對治療效果的證據。然而,方法手冊指出,RCT 并不總是能提供出足夠的證據來量化治療效果,因此需要來自非隨機研究的數據進行補充,在 Meta 分析時也應納入包括非隨機研究在內的所有相關證據,但需要謹慎對待觀察性研究的潛在偏倚[10, 11]。
在對介入治療方法進行評估時,來自 RCT 的安全性和有效性證據為首選,但非隨機化研究、非對照研究(例如病例系列或病例報告)或注冊表數據在滿足一定標準時也可考慮納入[13]。
醫療技術評估的目的在于對醫療技術的使用提出建議,在對證據進行定量分析時可包括已發表的研究和未發表的研究(包括觀察性研究、專業機構或制造商贊助的注冊等級表等)[13]。因為醫療技術的實施效果與醫務人員的操作熟練程度有關,所以其有效性存在變量,故醫學技術很少采用 RCT 進行評估,更多的是結合多渠道證據來比較各技術的效果。與其他方法手冊相比,醫療技術手冊中對評價方法的定義較少,對已發表與未發表研究的偏倚也沒有具體的評估建議,且沒有指明從登記中獲得的觀測數據應如何更適當地作為證據提供。
診斷技術包括篩查、檢查和排除疾病,評估疾病嚴重程度和監測病情變化。診斷指南方法手冊中指出[14],對于檢驗和監測技術的評估在審評中主要考慮技術有效性、準確性和副作用的證據。治療有效性的最高級別證據則是高質量的系統評價,其次是 RCT 證據。其他設計類型研究如隊列研究和病例對照研究,也可能提供有用的證據,但存在較高的偏倚風險。診斷準確性證據的來源通常是前瞻性隊列研究、橫斷面研究或回顧性病例對照研究,因為對準確度的考量是比較有疾病的人與無疾病的人的測試結果,大多數是將感興趣的指標結果與參考標準進行比較。副作用方面,可從 RCT 和其他比較研究中確定,但值得注意的是,橫斷面研究、病例研究和患者登記的不良反應數據更有價值。
高度專業化的技術因為只包含較少的領域,具有特殊性且面臨著具體的方法問題,目前在評估時采用的是臨時方法。
綜上,除醫療技術外,其余項目在評估時都明確表示優先采用 RCT 證據,但現在也普遍認為,在進行系統評價時應納入非隨機對照研究的證據。該方法手冊沒有提供當只有單臂/病例系列的對照組證據可用時,如何將待評估的技術與其進行比較的方法,這使得 RCT 與真實世界證據的應用銜接存在斷層[11]。
3 衛生技術過程中證據應用現狀
因技術評估發展歷史最久,方法和體系較成熟且評估對象以藥品為主,應用范圍較廣,其證據應用情況具有代表性。2016 年 1 月 1 日至 2018 年 12 月 31 日 NICE 官網共發布技術評估指南 189 篇,其中有 16 篇由于制藥公司無法提供可靠的臨床證據并進行有效的成本效果分析或因其他原因未提交相關證據而終止評估。我們對 2016~2018 年 NICE 技術評估指南中的證據情況進行了總結。結果顯示 NICE 于 2016 年發布技術評估指南 53 篇,2017 年 58 篇,2018 年 62 篇,呈逐年上漲趨勢(包括 9 篇報告不全或無法讀取)。3 年間評估藥品涉及的疾病種類包括白血病、癌癥、腫瘤、肝炎、銀屑病、骨質疏松及各種炎癥等,其中白血病治療評價通過的藥品或治療方案最多,達 15 種,癌癥中通過藥品最多的是非小細胞肺癌,腫瘤中則是黑色素瘤。共有 135 種藥品或治療方案被推薦或可限制情況下在 NHS 中使用,21 種藥品或治療方案被推薦在癌癥藥物基金中使用,17 種藥品由于成本效果閾值高出 NICE 可接受范圍而不被推薦。
藥品證據來源方面,可分為隨機對照試驗和非隨機對照試驗,嚴格的隨機對照試驗是指在實驗設計時遵守隨機化、盲法和對照原則[15],但隨著科研經驗的積累和考慮臨床實踐中的具體情況,一些特殊模式的 RCT 相繼產生,如半隨機、組群隨機等方法[16],根據試驗階段可以分為 Ι 期、Π 期和Ш期臨床試驗。非隨機對照試驗包括開放標簽試驗、單臂研究、拓展研究、觀察性研究(前瞻性研究、擴展隊列研究和歷史對照研究)[17]。試驗目的以確定藥品的安全性、有效性和耐受性為主,少數研究目的為確定劑量。
隨機和非隨機對照試驗既可以單獨作為證據來源也可以彼此結合作為證據來源,提供證據的試驗數量沒有限制。如 Alirocumab 用于治療原發性高膽固醇血癥和混合性血脂異常,其效果來源就是 10 個 RCT。27 種(16.5%)藥品通過提供非隨機對照試驗證據與隨機對照試驗證據相結合的方式通過評估,66 種(40.2%)藥品以非隨機對照試驗作為唯一證據來源,43.3% 的藥品評估均是基于 RCT(表 1)。單臂研究的參照對象是“外部對照”,是采用他人或過去的研究結果,與試驗組進行對照比較。開放標簽試驗指對受試者和研究人員均不設置盲法,除研究設計本身原因外,有些治療方案如比較不同治療設備、內外科治療方法等亦無法設置盲法。表 1 結果顯示,以 RCT 單獨作為證據來源的占比最多,其次是以單臂/開放標簽研究,而單獨將真實世界觀察性研究做為證據來源或與其他研究設計結合使用的數量還很少。證據質量方面,在 196 項 RCT 中有 78 項(39.8%)被認為是高質量,167 項非隨機對照試驗證據中有 49 項(29.3%)被認為是高質量,其中包括 1 篇前瞻性真實世界研究(自體軟骨細胞植入治療癥狀性膝關節軟骨缺損)。試驗階段方面,僅提供 Ι/Π 期或 Π 期試驗證據就通過評估的僅 56 種藥品,涉及 34 類疾病包括癌癥、白血病等(圖 2)。多數仍是以Ш期臨床試驗結果為證據來源(n=111)。


RCT 仍是目前 NICE 評估臨床效果證據的主要來源且證據質量較高,但真實世界研究證據正逐漸參與到評估中來;當涉及到具有突破性效果的藥品或針對缺少有效治療方式的疾病時,Ι/Π 期試驗數據證據也被納入考慮。評估對試驗設計的靈活性正逐漸增強,設計形式也多樣化發展,但科學地控制非隨機對照研究的偏倚,提高其證據質量和應用程度,仍是試驗設計者需重點考慮的問題。
4 討論與展望
4.1 研究質量或與研究設計相關
對于研究質量,目前多采用相關量表進行評價。傳統的 RCT 常使用 CONSORT、GRADE 等量表;非隨機或非控制試驗,則多使用適當且經過驗證的質量或報告評估工具進行評估,如 TREND 報告規范、STROBE 聲明等[18, 19]。NICE 在審查提供臨床效果的 RCT 和非隨機對照試驗時,不僅需要試驗人群、納排標準和結果等詳細的試驗基本信息,還會對報告本身研究質量進行評判。因在報告中未全部說明證據被判斷為高質量的理由,根據 NICE 手冊提供的臨床試驗需考慮問題[18, 19],可認為研究質量與研究設計及實施嚴謹程度有關。
4.2 RCT 證據在衛生決策中仍為主要證據來源
在試驗設計方面,RCT 通過控制患者基線特征、治療干預措施等因素,將混雜因素帶來的偏倚降到最低,因此可以盡可能的體現藥品或治療方式的真實效果,雖然近年來真實世界數據的快速發展促使人們回過頭思考傳統 RCT 存在外部性較低、涉及倫理問題等局限性,但真實世界數據亦存在干擾因素多、數據真實性待考量等弊端,目前還沒有對真實世界數據的偏倚處理形成統一的共識。有研究對英國 NICE、蘇格蘭醫藥協會 SMC、加拿大藥品及衛生技術評估組織 CDR/pCODR、澳大利亞藥品補償咨詢委員會 PBAC、法國國家衛生管理局 HAS 及德國聯邦聯合委員會 G-BA 等衛生組織在決策時采納的證據形式進行了統計,在排除了無明確決策、無臨床數據及不清楚是否采用了觀察性數據的衛生技術評估決策后,在 1 840 項衛生技術評估決策中,94% 的決策證據來源均仍為 RCT[20]。
4.3 Ι/Π 期或 Π 期試驗證據在創新藥物和療法中起到重要作用
在本文提取的僅以 Ι/Π 期或 Π 期試驗單獨作為證據來源的 34 種藥品評估中,絕大部分為創新藥物或療法,如 holoclar 是歐洲首個干細胞療法,tisagenlecleucel 為全球首個 CAR-T 細胞療法,替尼類、單抗類等新型靶向腫瘤藥物。可以看出對于治療重大疾病領域的新藥或缺乏治療手段疾病的藥物,NICE 在評估時對試驗研究設計類型和所處階段都有所放寬。美國和歐盟等也具有加速新藥審批途徑、并采取獨占保護期和資金政策支持等一系列激勵措施[21]。中國在創新藥審評審批方面對此也多有借鑒,2017 年國家食品藥品監督管理總局發布《關于鼓勵藥品創新實行優先審評審批的意見》,以療效創新為基礎將具有臨床價值和治療優勢的新藥、仿制藥、罕見病用藥等納入優先審評審批行列,對于“治療嚴重危及生命的疾病且尚無有效治療手段、對解決臨床需求具有重大意義的新藥”進行“有條件批準”[22],允許其在完成Ⅲ期臨床試驗前有條件上市,如有條件批準 Daratumumab 上市用于治療難治性和復發性多發性骨髓瘤。
4.4 非隨機對照試驗證據將在更廣的范圍得到應用
隨著真實世界數據質量的提高、真實世界數據向證據轉化的完善,非隨機對照實驗證據將發揮越來越重要的作用,目前除了在生物、化學藥物評估中的應用,在中藥治療領域、藥械評價方面,非隨機對照實驗證據也多有應用,如將真實世界研究用于中藥治療領域,例如冠心病、慢阻肺等[20]。美國發布《真實世界證據方案框架》、《使用真實世界證據支持醫療器械監管》等真實世界證據應用規范[23, 24],擴大真實世界數據應用范圍。中國也在證據應用方面不斷推進,2019 年 4 月發布了實施中國藥品監管科學行動計劃,把“將真實世界數據用于醫療器械臨床評價的方法學研究”列為項目之一,5 月發布關于《真實世界證據支持藥物研發的基本考慮》的征求意見稿,標志著中國藥品監管部門正式啟動將真實世界數據和證據用于審評審批方面的探索與研究[25]。
綜上所述,包括真實世界證據在內的非隨機對照實驗證據近年來正快速發展,其重要性已成為各國衛生決策部門的共識,未來隨著真實世界研究在減少偏倚、與 RCT 證據的銜接、數據的有效性和準確性等方面的提升,相信其應用程度將進一步提高,與 RCT 一同為決策部門提供更多依據。