與傳統醫療器械相比,人工智能醫療器械由于具有人工智能技術的相關特性,在開展臨床試驗過程中面臨著更大挑戰。本文針對輔助診斷類人工智能醫療器械在臨床試驗各階段面臨的挑戰和風險,提出相應的應對策略,旨在為我國開展高質量的人工智能醫療器械臨床試驗、縮短臨床試驗周期提供借鑒和參考。
引用本文: 龍囿霖, 王心怡, 郭瓊, 林逸飛, 黃進, 杜亮. 人工智能醫療器械臨床試驗設計與實施的挑戰與對策. 中國循證醫學雜志, 2022, 22(12): 1453-1458. doi: 10.7507/1672-2531.202208108 復制
人工智能(arti?cial intelligence,AI)醫療器械,是指器械在工作流程優化、數據處理、輔助診斷等方面為實現其醫療用途,采用以深度學習、神經網絡為代表的數據驅動方式訓練人工智能算法的新一代AI技術的醫療器械[1-2],主要分為AI獨立軟件(智能軟件)和AI軟件組件(智能硬件)兩種類型[3]。相較于傳統醫療器械靜態模式,AI醫療器械以海量數據、黑盒算法和高算力為核心,具有可實現精準化醫療、個性化醫療、遠程診斷的優勢,能提高醫生診療效率、有效緩解醫療資源缺乏問題[4]。但由于其具有數據或算法驅動導致動態變化及更新迭代快的特性,加劇了AI醫療器械安全性和有效性的不確定性風險[5]。
2017年,國務院在《新一代人工智能發展規劃》中明確提出,AI作為新一輪產業變革的核心驅動力,需將發展新一代AI上升至國家戰略高度[6]。我國AI技術雖起步較晚,但近年來發展迅猛[7]。2020年中國AI醫療核心軟件市場規模為29億元,預計到2025年將達到179億元,整個AI醫療器械市場規模呈快速增長趨勢[8]。截至2022年1月,我國已批準36款AI醫療器械軟件上市[9-10]。AI醫療器械正式上市需經過6個步驟,包括產品定型、檢測、臨床試驗、注冊申報、技術審評和行政審批[11]。
在醫療器械產品開發過程中,臨床試驗的失敗率高是其主要障礙[12]。截至2019年5月,美國與中國在ClinicalTrials.gov注冊的AI醫療臨床試驗分別為271項與68項,歐美國家在AI臨床試驗研究中處于領先地位,我國雖然存在巨大潛力,但仍需迎頭趕上[7,13]。由于醫學影像領域是目前AI醫療器械應用最多、最成熟的領域,輔助診斷產品是影像類AI醫療器械涉及最早、競爭尤為激烈、上線較多的品類[8]。本文從輔助診斷類AI醫療器械臨床試驗各個階段出發,總結各階段可能出現的挑戰與風險,并在此基礎上提出相應的應對策略,以期為我國開展高質量AI醫療器械臨床試驗、縮短臨床試驗周期提供借鑒和參考。
1 試驗設計
1.1 設計類型
目前用于輔助診斷類的AI醫療器械臨床試驗較多,其研究設計遵循診斷試驗思路,一般可選擇平行對照或多閱片者多病例(multireader multicase,MRMC)設計[14]。考慮到真實使用場景和對象的差異,目前國家監管和有關評審部門建議采用MRMC設計,其樣本量計算可采用R軟件(MRMCaov R package)[15]。對于統計過程中假設的設計類型,國家監管部門建議優先選擇同品種產品或臨床參考標準進行非劣效設計,若無同品種產品且難以獲取臨床參考標準時可選擇用戶結合AI醫療器械的聯合決策與用戶單獨決策比較進行優效設計[16]。
1.2 金標準的選擇與偏倚控制
影像圖片結果的判讀受閱片者水平、患者個體差異、AI醫療器械性能變化及其交互作用的影響,因此需注重對閱片者選擇偏倚、評閱偏倚和閱片順序偏倚的控制。例如,可采用交叉或部分交叉閱片設計,選擇10名以上的閱片者同時設置4~6周的洗脫期[17-18]。在選擇將醫生判讀結果作為“金標準”時,可考慮采用高年資醫師組成的閱片專家組的綜合意見,但應注意在一般情況下不應將AI標記結果提供給閱片組;若樣本量較大時,可將包含和不包含AI標記結果的數據同時提供給專家組且需設盲;在專家閱片結果不一致時應提前設定處理方法[14]。此外,開展多中心臨床試驗時,可采用中心閱片方式以減少不同閱片者對閱片結果的主觀偏倚[19]。
1.3 評價指標
因為多數AI臨床試驗難以對患者設盲,應盡量減少需患者主觀判斷的評價指標[20]。MRMC設計下的統計學評價指標通常為基于受試者工作特征曲線下面積(area under the curve of receiver operating characteristic,ROC-AUC)及其衍生曲線(FROC、LROC、AFROC等),診斷類評價指標通常為靈敏度和特異度等[19]。AI醫療器械在臨床使用的有效性主要通過算法性能評價來評估,包括驗證算法模型的準確度、魯棒性等性能[9]。已有學者嘗試構建AI醫療器械的評價指標體系,如李曼等[9]基于AI醫學影像輔助診斷產品提出了一套基于回顧性數據集的算法性能評測體系;劉雅茹[20]構建了AI輔助診斷醫療軟件指標體系,從軟件性能、知識庫、功能應用及運行效果四個一級指標維度綜合評價,下設11個二級指標,38個三級指標。
2 倫理審查
AI醫療器械臨床試驗因AI技術特性可能導致諸多倫理問題,這給倫理審查帶來了極大挑戰,因此在開展對AI醫療器械臨床試驗的倫理審查時,除需滿足基本的倫理原則外,還需考慮額外的倫理問題(表1)。盡管國內外已有應用較廣泛的AI倫理共識,但是多數屬于基礎原則性條款,仍缺乏針對AI醫療器械的具體可操作的倫理審查機制和相關法律規范;同時,現有醫學倫理委員會在實際AI醫療器械倫理審查中,存在由于缺少AI、算法、統計、信息安全領域專家而導致無法保障審查某些要點的問題[21-22]。未來應盡快完善AI醫療器械倫理審查機制、原則和法律法規,為倫理審查提供理論支撐,并進一步培養與吸納復合型人才,組建由多學科團隊構成的倫理委員會[23]。

3 環境支撐
與傳統醫療器械相比,AI醫療器械運行AI算法依賴于操作環境,一般需要硬件(如計算機組件、服務器等)和軟件支撐。在開展AI醫療器械臨床試驗時,針對研究場所應考慮以下問題以保證環境支撐:第一,是否需要有專門的計算硬件;第二,是否必須支持云集成;第三,是否需要特定的供應商設備;第四,實施過程中是否需更改算法(如針對本地數據進行算法微調)[32]。例如,當AI醫療器械需要高性能計算的算力支撐時,醫院采用了超算平臺,影像設備和IT系統可借助網絡連接到具有AI能力的中央工作站,此時對器械的計算性能需求較低,只需具備聯網能力即可。此外,由于目前AI醫療器械領域尚未建立環境試驗專用要求,當在開發環境之外應用AI算法時,還需考慮溫度、濕度等環境條件對算法迭代效率和準確性的潛在影響[33]。
4 試驗實施
4.1 患者來源和招募
AI醫療器械臨床試驗的實際樣本量較小是其一大挑戰[34-35],這主要是由于患者招募相比傳統醫療器械的臨床試驗更困難。招募困難主要體現在兩個方面:一是AI臨床試驗一般有較嚴格的納入與排除標準[20];二是AI醫療器械的臨床應用仍處于初級階段,且AI技術存在黑箱特性,當受試者認識到其可能存在的風險,加之不信任自己無法理解的事物,更容易拒絕參與AI臨床試驗[36]。因此,建立對AI的信任是關鍵,可創建國家監管機構或行業評價標準以促進AI臨床試驗全程透明化、創建數據質量標準以減少風險和避免歧視等[37]。此外,為提高AI醫療器械臨床試驗結果的外推性,應盡可能納入來自不同機構、不同地域的受試者,全面評價算法的泛化能力[2,38-39]。臨床試驗要確保納入人群與適用范圍相匹配,同時明確干預所需輸入數據的納入與排除標準,當采用臨床已有數據作為支撐時必須更加嚴格控制偏倚。
4.2 試驗周期
AI技術具有快速迭代的特性,因此相對于傳統醫療器械,AI醫療器械更需縮短臨床試驗周期。制約臨床試驗周期時長的主要因素包括招募過程、干預過程和隨訪過程。相對于其他臨床試驗,AI醫療器械臨床試驗周期較長主要是因患者招募效率較低,致使產品無法快速上市,不利于AI醫療器械產品的創新和產業的發展。因此,如何提高臨床試驗效率、縮短試驗周期是AI醫療器械臨床試驗的一大挑戰[9]。未來應更積極將AI技術應用到AI醫療器械臨床試驗中,可采用整合自然語義處理、計算機視覺相關算法、區塊鏈的智能合約功能等多種技術的招募系統,實現自動匹配和招募受試者等功能,以加速患者招募進程[40]。
5 數據管理與安全
AI醫療器械臨床試驗的數據管理主要包括數據采集、數據儲存、數據處理、數據傳輸、數據共享、數據歸檔和備份等。對于有網絡需求的AI醫療器械,若系統存在缺陷可能發生被黑客攻擊、造成數據泄露的問題,因此必須保障網絡安全風險防控能力,例如建立安全網和防火墻來防止入侵等[41-42]。對于基于云平臺儲存或采用云計算處理數據的AI醫療器械臨床試驗,由于數據位于醫院監控范圍之外,如何避免數據在傳輸、歸檔、備份、存儲、共享過程中(特別是通過公共互聯網傳輸患者隱私敏感數據)發生泄露及被非法使用是當前的一大挑戰[19,41]。首先,AI醫療器械臨床試驗在收集患者數據時應遵循最小必要原則,數據收集之后應盡快進行匿名化處理并需防止匿名化數據被重新識別,對于私密性較強數據應設定一套精密的訪問程序、進行二次加密處理以防信息泄露[42]。其次,當患者、醫護工作者與醫院供應鏈信息存在交互時,可進行授權管理并采用訪問控制、數據顯示限制、數據加密、數據使用共享限制等多種技術保障數據安全。最后,未來應持續完善相應的技術標準和法律規范,制定數據采集規范條例和信息保護辦法,對AI醫療器械臨床試驗數據進行規范化管理[23]。
目前開展多中心的AI醫療器械臨床試驗也存在諸多痛點:第一,偽造和輸入錯誤可能發生在多個臨床試驗中心與申辦者或申辦者與監管機構之間,基于中心化數據庫進行數據存儲的方式存在數據被篡改的風險,難以確保實時資料的真實性及可信存證[40];第二,中心式存儲不僅易遭受數據丟失、更改和攻擊,而且難以兼顧在隱私保護下的數據安全共享,容易因各中心的醫院信息化系統復雜多樣致使出現“數據孤島”,要打破“數據孤島”從而實現中心數據高效流通,需付出較大成本來改造現有系統[42];第三,患者病歷原件一般歸檔于醫療機構,而傳統數據庫具有封閉性,外部系統難以查看或核驗臨床試驗相關數據,患者難以直接、實時地詳盡了解病歷記錄,可能對診療造成負面影響。
區塊鏈基于“去中心化”的核心架構,并集成了對等網絡、哈希算法和鏈式結構、公鑰加密、默克爾樹結構、共識算法、智能合約等多種技術,可應用到AI醫療器械臨床試驗中,使監管機構能實時接收原始數據以確保數據不可篡改、免受惡意攻擊、避免損壞等;允許個人或患者本人實時查詢自己的醫療信息,同時可打破信息孤島,實現數據高效互通;數據共享會在區塊鏈上留下完整記錄,確保在對數據真實性存疑時可追溯查詢,增強臨床試驗的透明度和公眾信任度;借助隱私保護技術實現數據最小化披露與數據加密分享,以在確保數據安全情況下最大效率利用數據[40,43]。
6 全程風險防控
6.1 不良事件防控措施和應對流程缺乏
AI技術中的黑盒算法,僅能反映相關性而非因果性,存在不確定風險,可能無意中造成患者傷害,忽視這些問題可能會造成嚴重醫療后果[2,44]。當AI算法開發時基于的人群對臨床試驗應用人群缺乏代表性時,可能會出現嚴重誤差,同樣可能對患者造成潛在、無意的傷害[45]。此外,部分AI醫療器械在使用過程中,會根據數據量提升不斷改變其算法,這種改變對醫療實踐是正向的還是負向難以預料[19]。因此,如何防止和減少在AI醫療器械臨床試驗中發生安全性事件、一旦發生如何快速應對是關鍵[20]。
開展AI醫療器械臨床試驗前,應充分預估其風險程度和安全性(如過擬合和欠擬合等算法風險、假陰性和假陽性等醫療決策風險、進口產品考慮中外差異風險、算法歧視風險等,預設試驗過程中出現運行錯誤時的處理計劃,并確定風險控制策略(包括如何實施防控策略及針對哪些人群使用)和不良措施快速應對流程[44,46]。另外,從各種AI醫療器械安全事故或不良事件中總結分析風險關鍵點,可為臨床試驗和評審工作提供參考依據[47]。
6.2 不良事件風險責任不明確
在AI醫療器械臨床試驗發生不良事件時,若是算法出現問題AI研發公司是否要承擔全部責任?若是醫生依靠AI出現診療錯誤醫生應承擔什么責任?相關法律法規還未完善[48-49]。目前AI通常僅是輔助醫生診療,最終診療結果還是由醫生決策,但AI的“誤導”可能成為醫院與醫療器械企業未來的糾紛點[19]。目前,我國尚無專門針對AI醫療器械算法的完善法律法規,我國應在充分借鑒國外先進經驗的基礎上盡快完善AI醫療領域的立法規范[25,37,46,50]。
7 全程質量控制
AI醫療器械的有效性與安全性在不同條件下可能出現不同程度、不同方式的波動,影響臨床試驗最終結果,因此必須做好全面質控。例如,AI系統的性能可能會因輸入數據質量差或缺失而受到影響,質控措施則應對輸入數據在研究場所的處理流程進行標準化、預設輸入數據的最低要求標準及未達到最低標準時的處理措施[32]。目前國內外尚未建立AI醫療器械臨床試驗的質量控制與標準規范,但有學者嘗試提出了各個階段質控的要點,如針對醫學影像AI醫療器械,王浩等[51-52]提出在傳統醫療器械通用質控措施基礎上,還應著重關注人員、設備、材料(數據集)、方法、環境5個質控要點。
8 試驗透明化推進
在AI醫療器械臨床試驗中推進試驗全程透明化是保障研究結果可信度的關鍵,除可借助區塊鏈技術促進中間過程數據的公開與共享外,還應分別從入口和出口把關研究的注冊方案發表與研究結果報告的規范性。世界衛生組織于2005年發布了關于臨床試驗注冊的聲明,提出所有臨床試驗都應注冊,以降低選擇性報告試驗結果、主觀變更試驗方案、對研究結果的過度分析等風險。AI醫療器械臨床試驗也應在研究開始前,通過臨床試驗注冊平臺進行預注冊,并事先制定、公開統計分析計劃。此外,由于臨床試驗注冊所需填寫信息相對簡單,發表研究方案是一種比較好的補充方式,而撰寫AI醫療器械臨床試驗的研究方案目前推薦參考2020年《涉及AI干預的臨床試驗研究方案報告規范指南(SPIRIT-AI)》[37]。同時,為保證AI醫療器械臨床試驗結果報告的規范性,目前推薦撰寫研究論文時參考《人工智能干預性臨床試驗報告規范(CONSORT-AI)》[52],以促進試驗研究設計和方法的透明度,提高結果的可信性和推廣度。
9 小結
在開展臨床試驗過程中AI醫療器械因其具有的AI特性,相比傳統醫療器械會存在更大的挑戰。AI醫療器械臨床試驗目前仍以影像診斷類為主,未來會不斷向其它類型的AI醫療器械拓展。我國研究者應重視規范化AI醫療器械臨床試驗的設計與實施流程,構建試驗所需各種標準規范,以積極應對臨床試驗全程可能出現的挑戰與風險,在保障AI臨床試驗醫療器械研究結果真實性、可靠性、準確性和透明性的基礎上,著力于縮短整個臨床試驗周期。同時,我國應盡快完善AI醫療器械在法律層面的立法規范,明確AI醫療器械風險責任主體,在保證安全的基礎上構建患者和臨床醫生對AI醫療器械的信任,從而最大化發揮AI醫療器械作用,更好改善社會醫療保健和保障人民最大福祉。
人工智能(arti?cial intelligence,AI)醫療器械,是指器械在工作流程優化、數據處理、輔助診斷等方面為實現其醫療用途,采用以深度學習、神經網絡為代表的數據驅動方式訓練人工智能算法的新一代AI技術的醫療器械[1-2],主要分為AI獨立軟件(智能軟件)和AI軟件組件(智能硬件)兩種類型[3]。相較于傳統醫療器械靜態模式,AI醫療器械以海量數據、黑盒算法和高算力為核心,具有可實現精準化醫療、個性化醫療、遠程診斷的優勢,能提高醫生診療效率、有效緩解醫療資源缺乏問題[4]。但由于其具有數據或算法驅動導致動態變化及更新迭代快的特性,加劇了AI醫療器械安全性和有效性的不確定性風險[5]。
2017年,國務院在《新一代人工智能發展規劃》中明確提出,AI作為新一輪產業變革的核心驅動力,需將發展新一代AI上升至國家戰略高度[6]。我國AI技術雖起步較晚,但近年來發展迅猛[7]。2020年中國AI醫療核心軟件市場規模為29億元,預計到2025年將達到179億元,整個AI醫療器械市場規模呈快速增長趨勢[8]。截至2022年1月,我國已批準36款AI醫療器械軟件上市[9-10]。AI醫療器械正式上市需經過6個步驟,包括產品定型、檢測、臨床試驗、注冊申報、技術審評和行政審批[11]。
在醫療器械產品開發過程中,臨床試驗的失敗率高是其主要障礙[12]。截至2019年5月,美國與中國在ClinicalTrials.gov注冊的AI醫療臨床試驗分別為271項與68項,歐美國家在AI臨床試驗研究中處于領先地位,我國雖然存在巨大潛力,但仍需迎頭趕上[7,13]。由于醫學影像領域是目前AI醫療器械應用最多、最成熟的領域,輔助診斷產品是影像類AI醫療器械涉及最早、競爭尤為激烈、上線較多的品類[8]。本文從輔助診斷類AI醫療器械臨床試驗各個階段出發,總結各階段可能出現的挑戰與風險,并在此基礎上提出相應的應對策略,以期為我國開展高質量AI醫療器械臨床試驗、縮短臨床試驗周期提供借鑒和參考。
1 試驗設計
1.1 設計類型
目前用于輔助診斷類的AI醫療器械臨床試驗較多,其研究設計遵循診斷試驗思路,一般可選擇平行對照或多閱片者多病例(multireader multicase,MRMC)設計[14]。考慮到真實使用場景和對象的差異,目前國家監管和有關評審部門建議采用MRMC設計,其樣本量計算可采用R軟件(MRMCaov R package)[15]。對于統計過程中假設的設計類型,國家監管部門建議優先選擇同品種產品或臨床參考標準進行非劣效設計,若無同品種產品且難以獲取臨床參考標準時可選擇用戶結合AI醫療器械的聯合決策與用戶單獨決策比較進行優效設計[16]。
1.2 金標準的選擇與偏倚控制
影像圖片結果的判讀受閱片者水平、患者個體差異、AI醫療器械性能變化及其交互作用的影響,因此需注重對閱片者選擇偏倚、評閱偏倚和閱片順序偏倚的控制。例如,可采用交叉或部分交叉閱片設計,選擇10名以上的閱片者同時設置4~6周的洗脫期[17-18]。在選擇將醫生判讀結果作為“金標準”時,可考慮采用高年資醫師組成的閱片專家組的綜合意見,但應注意在一般情況下不應將AI標記結果提供給閱片組;若樣本量較大時,可將包含和不包含AI標記結果的數據同時提供給專家組且需設盲;在專家閱片結果不一致時應提前設定處理方法[14]。此外,開展多中心臨床試驗時,可采用中心閱片方式以減少不同閱片者對閱片結果的主觀偏倚[19]。
1.3 評價指標
因為多數AI臨床試驗難以對患者設盲,應盡量減少需患者主觀判斷的評價指標[20]。MRMC設計下的統計學評價指標通常為基于受試者工作特征曲線下面積(area under the curve of receiver operating characteristic,ROC-AUC)及其衍生曲線(FROC、LROC、AFROC等),診斷類評價指標通常為靈敏度和特異度等[19]。AI醫療器械在臨床使用的有效性主要通過算法性能評價來評估,包括驗證算法模型的準確度、魯棒性等性能[9]。已有學者嘗試構建AI醫療器械的評價指標體系,如李曼等[9]基于AI醫學影像輔助診斷產品提出了一套基于回顧性數據集的算法性能評測體系;劉雅茹[20]構建了AI輔助診斷醫療軟件指標體系,從軟件性能、知識庫、功能應用及運行效果四個一級指標維度綜合評價,下設11個二級指標,38個三級指標。
2 倫理審查
AI醫療器械臨床試驗因AI技術特性可能導致諸多倫理問題,這給倫理審查帶來了極大挑戰,因此在開展對AI醫療器械臨床試驗的倫理審查時,除需滿足基本的倫理原則外,還需考慮額外的倫理問題(表1)。盡管國內外已有應用較廣泛的AI倫理共識,但是多數屬于基礎原則性條款,仍缺乏針對AI醫療器械的具體可操作的倫理審查機制和相關法律規范;同時,現有醫學倫理委員會在實際AI醫療器械倫理審查中,存在由于缺少AI、算法、統計、信息安全領域專家而導致無法保障審查某些要點的問題[21-22]。未來應盡快完善AI醫療器械倫理審查機制、原則和法律法規,為倫理審查提供理論支撐,并進一步培養與吸納復合型人才,組建由多學科團隊構成的倫理委員會[23]。

3 環境支撐
與傳統醫療器械相比,AI醫療器械運行AI算法依賴于操作環境,一般需要硬件(如計算機組件、服務器等)和軟件支撐。在開展AI醫療器械臨床試驗時,針對研究場所應考慮以下問題以保證環境支撐:第一,是否需要有專門的計算硬件;第二,是否必須支持云集成;第三,是否需要特定的供應商設備;第四,實施過程中是否需更改算法(如針對本地數據進行算法微調)[32]。例如,當AI醫療器械需要高性能計算的算力支撐時,醫院采用了超算平臺,影像設備和IT系統可借助網絡連接到具有AI能力的中央工作站,此時對器械的計算性能需求較低,只需具備聯網能力即可。此外,由于目前AI醫療器械領域尚未建立環境試驗專用要求,當在開發環境之外應用AI算法時,還需考慮溫度、濕度等環境條件對算法迭代效率和準確性的潛在影響[33]。
4 試驗實施
4.1 患者來源和招募
AI醫療器械臨床試驗的實際樣本量較小是其一大挑戰[34-35],這主要是由于患者招募相比傳統醫療器械的臨床試驗更困難。招募困難主要體現在兩個方面:一是AI臨床試驗一般有較嚴格的納入與排除標準[20];二是AI醫療器械的臨床應用仍處于初級階段,且AI技術存在黑箱特性,當受試者認識到其可能存在的風險,加之不信任自己無法理解的事物,更容易拒絕參與AI臨床試驗[36]。因此,建立對AI的信任是關鍵,可創建國家監管機構或行業評價標準以促進AI臨床試驗全程透明化、創建數據質量標準以減少風險和避免歧視等[37]。此外,為提高AI醫療器械臨床試驗結果的外推性,應盡可能納入來自不同機構、不同地域的受試者,全面評價算法的泛化能力[2,38-39]。臨床試驗要確保納入人群與適用范圍相匹配,同時明確干預所需輸入數據的納入與排除標準,當采用臨床已有數據作為支撐時必須更加嚴格控制偏倚。
4.2 試驗周期
AI技術具有快速迭代的特性,因此相對于傳統醫療器械,AI醫療器械更需縮短臨床試驗周期。制約臨床試驗周期時長的主要因素包括招募過程、干預過程和隨訪過程。相對于其他臨床試驗,AI醫療器械臨床試驗周期較長主要是因患者招募效率較低,致使產品無法快速上市,不利于AI醫療器械產品的創新和產業的發展。因此,如何提高臨床試驗效率、縮短試驗周期是AI醫療器械臨床試驗的一大挑戰[9]。未來應更積極將AI技術應用到AI醫療器械臨床試驗中,可采用整合自然語義處理、計算機視覺相關算法、區塊鏈的智能合約功能等多種技術的招募系統,實現自動匹配和招募受試者等功能,以加速患者招募進程[40]。
5 數據管理與安全
AI醫療器械臨床試驗的數據管理主要包括數據采集、數據儲存、數據處理、數據傳輸、數據共享、數據歸檔和備份等。對于有網絡需求的AI醫療器械,若系統存在缺陷可能發生被黑客攻擊、造成數據泄露的問題,因此必須保障網絡安全風險防控能力,例如建立安全網和防火墻來防止入侵等[41-42]。對于基于云平臺儲存或采用云計算處理數據的AI醫療器械臨床試驗,由于數據位于醫院監控范圍之外,如何避免數據在傳輸、歸檔、備份、存儲、共享過程中(特別是通過公共互聯網傳輸患者隱私敏感數據)發生泄露及被非法使用是當前的一大挑戰[19,41]。首先,AI醫療器械臨床試驗在收集患者數據時應遵循最小必要原則,數據收集之后應盡快進行匿名化處理并需防止匿名化數據被重新識別,對于私密性較強數據應設定一套精密的訪問程序、進行二次加密處理以防信息泄露[42]。其次,當患者、醫護工作者與醫院供應鏈信息存在交互時,可進行授權管理并采用訪問控制、數據顯示限制、數據加密、數據使用共享限制等多種技術保障數據安全。最后,未來應持續完善相應的技術標準和法律規范,制定數據采集規范條例和信息保護辦法,對AI醫療器械臨床試驗數據進行規范化管理[23]。
目前開展多中心的AI醫療器械臨床試驗也存在諸多痛點:第一,偽造和輸入錯誤可能發生在多個臨床試驗中心與申辦者或申辦者與監管機構之間,基于中心化數據庫進行數據存儲的方式存在數據被篡改的風險,難以確保實時資料的真實性及可信存證[40];第二,中心式存儲不僅易遭受數據丟失、更改和攻擊,而且難以兼顧在隱私保護下的數據安全共享,容易因各中心的醫院信息化系統復雜多樣致使出現“數據孤島”,要打破“數據孤島”從而實現中心數據高效流通,需付出較大成本來改造現有系統[42];第三,患者病歷原件一般歸檔于醫療機構,而傳統數據庫具有封閉性,外部系統難以查看或核驗臨床試驗相關數據,患者難以直接、實時地詳盡了解病歷記錄,可能對診療造成負面影響。
區塊鏈基于“去中心化”的核心架構,并集成了對等網絡、哈希算法和鏈式結構、公鑰加密、默克爾樹結構、共識算法、智能合約等多種技術,可應用到AI醫療器械臨床試驗中,使監管機構能實時接收原始數據以確保數據不可篡改、免受惡意攻擊、避免損壞等;允許個人或患者本人實時查詢自己的醫療信息,同時可打破信息孤島,實現數據高效互通;數據共享會在區塊鏈上留下完整記錄,確保在對數據真實性存疑時可追溯查詢,增強臨床試驗的透明度和公眾信任度;借助隱私保護技術實現數據最小化披露與數據加密分享,以在確保數據安全情況下最大效率利用數據[40,43]。
6 全程風險防控
6.1 不良事件防控措施和應對流程缺乏
AI技術中的黑盒算法,僅能反映相關性而非因果性,存在不確定風險,可能無意中造成患者傷害,忽視這些問題可能會造成嚴重醫療后果[2,44]。當AI算法開發時基于的人群對臨床試驗應用人群缺乏代表性時,可能會出現嚴重誤差,同樣可能對患者造成潛在、無意的傷害[45]。此外,部分AI醫療器械在使用過程中,會根據數據量提升不斷改變其算法,這種改變對醫療實踐是正向的還是負向難以預料[19]。因此,如何防止和減少在AI醫療器械臨床試驗中發生安全性事件、一旦發生如何快速應對是關鍵[20]。
開展AI醫療器械臨床試驗前,應充分預估其風險程度和安全性(如過擬合和欠擬合等算法風險、假陰性和假陽性等醫療決策風險、進口產品考慮中外差異風險、算法歧視風險等,預設試驗過程中出現運行錯誤時的處理計劃,并確定風險控制策略(包括如何實施防控策略及針對哪些人群使用)和不良措施快速應對流程[44,46]。另外,從各種AI醫療器械安全事故或不良事件中總結分析風險關鍵點,可為臨床試驗和評審工作提供參考依據[47]。
6.2 不良事件風險責任不明確
在AI醫療器械臨床試驗發生不良事件時,若是算法出現問題AI研發公司是否要承擔全部責任?若是醫生依靠AI出現診療錯誤醫生應承擔什么責任?相關法律法規還未完善[48-49]。目前AI通常僅是輔助醫生診療,最終診療結果還是由醫生決策,但AI的“誤導”可能成為醫院與醫療器械企業未來的糾紛點[19]。目前,我國尚無專門針對AI醫療器械算法的完善法律法規,我國應在充分借鑒國外先進經驗的基礎上盡快完善AI醫療領域的立法規范[25,37,46,50]。
7 全程質量控制
AI醫療器械的有效性與安全性在不同條件下可能出現不同程度、不同方式的波動,影響臨床試驗最終結果,因此必須做好全面質控。例如,AI系統的性能可能會因輸入數據質量差或缺失而受到影響,質控措施則應對輸入數據在研究場所的處理流程進行標準化、預設輸入數據的最低要求標準及未達到最低標準時的處理措施[32]。目前國內外尚未建立AI醫療器械臨床試驗的質量控制與標準規范,但有學者嘗試提出了各個階段質控的要點,如針對醫學影像AI醫療器械,王浩等[51-52]提出在傳統醫療器械通用質控措施基礎上,還應著重關注人員、設備、材料(數據集)、方法、環境5個質控要點。
8 試驗透明化推進
在AI醫療器械臨床試驗中推進試驗全程透明化是保障研究結果可信度的關鍵,除可借助區塊鏈技術促進中間過程數據的公開與共享外,還應分別從入口和出口把關研究的注冊方案發表與研究結果報告的規范性。世界衛生組織于2005年發布了關于臨床試驗注冊的聲明,提出所有臨床試驗都應注冊,以降低選擇性報告試驗結果、主觀變更試驗方案、對研究結果的過度分析等風險。AI醫療器械臨床試驗也應在研究開始前,通過臨床試驗注冊平臺進行預注冊,并事先制定、公開統計分析計劃。此外,由于臨床試驗注冊所需填寫信息相對簡單,發表研究方案是一種比較好的補充方式,而撰寫AI醫療器械臨床試驗的研究方案目前推薦參考2020年《涉及AI干預的臨床試驗研究方案報告規范指南(SPIRIT-AI)》[37]。同時,為保證AI醫療器械臨床試驗結果報告的規范性,目前推薦撰寫研究論文時參考《人工智能干預性臨床試驗報告規范(CONSORT-AI)》[52],以促進試驗研究設計和方法的透明度,提高結果的可信性和推廣度。
9 小結
在開展臨床試驗過程中AI醫療器械因其具有的AI特性,相比傳統醫療器械會存在更大的挑戰。AI醫療器械臨床試驗目前仍以影像診斷類為主,未來會不斷向其它類型的AI醫療器械拓展。我國研究者應重視規范化AI醫療器械臨床試驗的設計與實施流程,構建試驗所需各種標準規范,以積極應對臨床試驗全程可能出現的挑戰與風險,在保障AI臨床試驗醫療器械研究結果真實性、可靠性、準確性和透明性的基礎上,著力于縮短整個臨床試驗周期。同時,我國應盡快完善AI醫療器械在法律層面的立法規范,明確AI醫療器械風險責任主體,在保證安全的基礎上構建患者和臨床醫生對AI醫療器械的信任,從而最大化發揮AI醫療器械作用,更好改善社會醫療保健和保障人民最大福祉。