研究數據真實、準確、可追溯是高質量臨床研究的核心要素,也是目前臨床研究透明化理念宣傳較為薄弱的環節。如何提高我國臨床研究數據質量是各方關注的重要問題。本文梳理和剖析臨床研究數據收集過程,認為提高研究數據質量的核心環節是促進臨床研究源數據的電子化,尤其是需打通臨床診療數據與臨床研究系統的壁壘;同時總結了現有國內外的經驗及不足,提出適用于提高我國臨床研究數據質量的解決方案,即建立醫院臨床研究源數據平臺,構建臨床研究源數據通用管理流程,加強醫院臨床研究源數據管理。
引用本文: 董沖亞, 姚晨, 高嵩, 閻小妍, 晉菲斐, 朱賽楠. 加強醫院臨床研究源數據管理,提高我國臨床研究數據質量. 中國循證醫學雜志, 2019, 19(11): 1255-1261. doi: 10.7507/1672-2531.201908047 復制
臨床研究是推動醫學進步的重要環節,其研究結果在很大程度上影響對疾病的預防、診斷和治療[1]。因此臨床研究在其醫學科學研究的本質上多了一重公眾健康層面的倫理意義。正因臨床研究的這一本質,提高研究質量、確保研究結論的可靠性成了研究者和公眾共同關注的核心問題。促進臨床研究的透明化,使得臨床研究的利益相關方,如受試者、研究者、倫理審查者、研究監管者、期刊雜志編輯和審稿人等,能夠全面地獲得所需的研究相關信息重構或重現研究,是評估研究質量、提高研究結論可靠性的重要手段[2]。當前,臨床研究透明化往往集中在研究的開頭和結尾:即研究的注冊及報告發表兩個環節。而研究過程類似“黑箱子”,只看到大體輪廓,看不到實際內容。研究者也缺乏對研究過程的重視,導致研究數據可溯源性差而影響了對研究真實性和準確性的評估,引發了一些研究結果不可重現、甚至是科研誠信問題[3, 4]。醫院作為臨床研究的重要實施場所,應擔負起對在其開展的臨床研究的監管義務,同時為研究者創造提高研究數據質量的便利條件。本文將從梳理臨床研究數據采集的過程出發,凝練出提高研究數據質量的核心,總結現有經驗及不足,并提出適用于我國醫院環境的解決方案,以提高我國臨床研究數據質量。
1 臨床研究數據產生、采集過程梳理
盡管臨床研究涉及到多種研究設計類型,而不同研究設計所解決的問題及研究方法存在較大差異,但臨床研究數據的形成過程存在較強共性:① 源數據的產生:記錄患者健康、診療行為或以特定研究為目的的日常記錄或專門產生原始數據;② 研究數據的采集:研究者通過數據采集手段采集臨床研究相關數據至病歷報告表(case report form,CRF)、收集患者自報結局數據(electronic patient reported outcomes,ePRO)系統、研究數據庫等研究數據收集媒介。
1.1 源數據的產生
臨床研究數據的產生來源可以是人(如:研究者、患者本人)、設備(如:體重計、心電圖機)、系統[如:存儲院內診療記錄的電子病歷(electronic medical records,EMR)、在醫療機構間互聯互通的電子健康檔案(electronic health records,EHR)的各類醫療信息系統、醫保系統]等[5]。這些數據構成了臨床研究的源數據,而體現這些源數據的產生者、產生時間、數值及其他信息的資料就是臨床研究的原始記錄[5, 6]。原始記錄的載體可以是紙質書寫形式也可以是電子化記錄形式。源數據、原始記錄是體現研究過程、重現研究的重要信息。確保研究原始資料的保存、研究數據與源數據的可追溯是臨床研究質量控制的核心環節。
歐洲藥品管理局在其國際人用藥品注冊技術協調會指導原則《ICH E8(R1):臨床研究的一般考慮》中指出,按照數據產生的目的可以將臨床研究的數據來源分為兩大類:① 研究以外來源的數據;② 為研究專門產生的數據[7]。其中研究以外來源的數據不以研究目的而產生,主要為記錄患者健康、診療行為而常規收集的健康數據。例如:EMR/EHR、醫保、可穿戴健康設備等,也是目前廣受臨床研究領域所重視的真實世界數據(real-world data,RWD)[8, 9]。
相同的研究數據,可以通過多個來源獲得,例如患者病史可能在研究過程中通過研究者對患者的問詢采集,也可以在患者的既往 EMR 記錄中獲得。同樣,在不同的情境下,產生相同的數據也可以基于不同的目的,例如患者就診時做的血生化檢查是常規收集的數據,而患者參加臨床試驗做的血生化檢查就是為研究特定目的而產生的數據。研究者應對研究數據的來源特征進行深入了解。常見的臨床研究數據及其來源特征示例見表 1。

1.2 從源數據采集研究數據
將產生的源數據提取、收集至 CRF 中的過程為數據采集過程。源數據采集的載體是 CRF,可為紙質數據采集(如紙質 CRF)或電子化數據采集(electronic data capture,EDC)[如電子化 CRF(eCRF)、研究數據庫]兩種形式。其中紙質形式仍需要進行數據轉錄最終形成電子化的數據庫,而利用 eCRF 則可實現 EDC。數據采集的方式分為人工錄入和數據傳輸兩種。人工錄入的方式主要發生在以下兩種情形中:① 在不借助設備、系統時,研究者對患者進行問詢、評估或患者自我報告數據,需要將數據人工填寫在紙質 CRF 或 eCRF 中;② 當源數據與 CRF 無法互通時,如:使用紙質 CRF,或使用 eCRF 但數據無法電子化交換,即使源數據是以電子化形式采集的,研究數據仍需要以人工錄入的方式采集至 eCRF 中。只有 EDC 系統和產生源數據的設備或系統能直接形成數據交換時,直接的數據傳輸才可以實現[5, 10]。
數據采集時間方向按數據是否已在研究啟動前產生分為回顧性采集和前瞻性采集。回顧性采集一般在回顧性研究中使用,對既有數據進行回顧和收集。前瞻性采集一般用于前瞻性研究及所有研究中為研究專門產生的新數據。由于前瞻性數據采集可在研究啟動前根據研究目的對數據采集進行規劃,在源數據產生時及時采集,還可在數據收集過程中把控質量,因此相對于回顧性采集,可以有效降低數據不準確、數據缺失等問題的發生。常見的各類型臨床研究收集數據模式見圖 1。

2 臨床研究數據質量標準和提高研究數據質量的核心
2.1 臨床研究數據質量標準
ALCOA+CCEA 標準在多個監管機構的指導原則[5, 11, 12]及行業規范[6, 13]中作為臨床試驗數據質量的通用標準,旨在降低在收集研究數據過程中產生的誤差及信息偏倚。該標準被認為是高質量臨床研究應具備的數據標準。具體內容及解析見表 2。

以新藥、醫療器械注冊為目的的臨床試驗,監管機構對數據質量、可溯源性,研究的完整記錄有著最高要求[12]。而其他類型的臨床研究也在期刊雜志對研究透明化及嚴格質量要求下,向注冊臨床試驗的高標準看齊[14, 15]。加拿大衛生部在其發布的《真實世界數據/證據質量核心要點》中提及真實世界研究中對于前瞻性收集的 RWD,應參照傳統隨機對照試驗的數據質量標準,需要具備清晰定義的流程及完全的透明化(即滿足 ALCOA+CCEA 標準)。對于回顧性采集數據,盡管部分標準難以達到前瞻性數據收集的標準,但所有數據均具備可溯源性,且源數據應在需要時可用于審閱[16]。我國國家藥品監督管理局在《真實世界證據支持藥物研發的基本考慮(征求意見稿)》也提及數據完整性、準確性及數據質量保證、質量控制措施對于真實世界研究數據質量的重要意義[17]。
2.2 提高研究數據質量的核心
參與研究的各方不斷投入人力、物力,并改進流程使得研究數據達到 ALCOA+CCEA 標準。以目前注冊臨床試驗為例,除研究者外,還需監查團隊進行現場質控,確保研究數據記錄完整、準確,研究數據與原始資料記錄一致。同時,數據管理團隊在后臺全面對數據進行質量控制,及時發現錯誤數據、疑問數據并與研究團隊反饋,修正錯誤,確保最終研究數據達到完整準確。盡管投入了大量人力物力成本,但當前研究數據質控的效率較為低下,大部分數據仍需要人工謄錄、核對,無法保證數據的完整性和準確性。而對于研究者發起的臨床研究,很多情況下研究者沒有相應充足的人力物力來確保研究數據質量控制;對于真實世界研究而言(如圖 1 中除傳統臨床試驗的其他類型研究),大量數據來自于常規采集的數據。如仍采用人工謄錄,人工核對數據將更加耗時費力,甚至不具備可操作性。因此有必要改進目前臨床研究數據采集的工具和流程,而核心環節就是推動源數據的電子化,促進研究的透明化[18]。
EDC 相比人工謄錄數據有諸多優勢。人工謄錄數據容易產生填寫和錄入錯誤(不論是有意造假還是無意出錯),數據的準確性無法完全保證。其次人工謄錄需消耗大量的人力和資源進行源數據核查。而 EDC 在源數據產生時進行電子化記錄,如有數據格式化和清理的過程,電子化系統仍可以自動保留數據產生和修改過程中的所有痕跡[5, 13]。
源數據的電子化分為兩個層次,首先是利用電子化設備和系統實現數據產生及采集的電子化。此技術目前已基本成熟,例如,醫院與診療相關的病歷、處方、各項檢查結果都以電子化形式產生并儲存于 EMR 中,電子血壓計、體重計、可穿戴設備,以及電子日記卡、ePRO、手機等也逐漸取代傳統紙質記錄產生源數據。同時數據采集方式也由紙質數據采集方式逐漸被 EDC(電子數據庫、EDC 系統、eCRF)取代。第二個層次是在實現源數據產生和采集電子化的基礎上,實現各設備、系統間可以實現數據交換,從而具備互操作性[10],即實現數據的直接傳輸,避免電子化產生的數據再進行人工二次轉錄。這才是實現源數據電子化的核心意義。
3 推動源數據電子化的現有經驗及不足
各國藥監機構、工業界、醫學信息領域在近年來不斷推動臨床研究源數據的電子化進程。美國 FDA 接連發布相關指南倡導利用計算機信息技術開展研究并在不同指導文件中強調電子化源數據的優勢[10]。在技術的進步和各方的推動下,電子化的數據采集及 EDC 系統與電子設備,電子隨訪系統、ePRO 等設備及系統的數據交換已基本實現并成熟應用。但作為臨床研究數據來源最重要的組成部分,如何將存儲在醫院信息系統中的 EMR、EHR 數據直接與臨床研究數據采集系統實現數據互通仍未有廣泛應用的解決方案。由于診療醫療數據的高度敏感性,業務系統一般為封閉管理,導致利用 EMR/EHR 數據開展研究、導出或傳輸 EMR/EHR 數據均存在較大障礙。同時數據分散于各業務系統,存在大量非結構化數據難以利用、數據質量差等問題,這是當前阻礙源數據電子化的最大障礙。
3.1 推動源數據電子化的現有經驗
美國國家衛生信息技術協調辦公室(the Office of the National Coordinator for Health Information Technology,ONC)于 2010 年啟動衛生信息技術認證項目,旨在提高 EHR 系統的標準化,促進 EHR 系統的互操作性[19]。美國 FDA 也針對利用 EHR 數據開展臨床研究發布了指南文件,其強調了通過 ONC 認證對于 EHR 系統與臨床研究數據采集系統實現數據交換的優勢[20]。目前在美國開展的臨床試驗,部分醫院已實現了將實驗室檢查結果等結構化數據直接傳輸至 eCRF。在歐盟委員會的支持下,歐洲范圍內于 2011 年啟動了電子健康記錄應用于臨床研究項目(Electronic Health Records for Clinical Research,EHR4CR),在 35 家機構范圍內探索直接將 EHR 數據應用于研究的技術方案,并于 2016 年完成項目結題[21]。同時在 EHR4CR 項目基礎上開啟項目的第二階段,連接電子健康記錄和電子數據采集系統(From Electronic Health Records to Electronic Data Capture systems,EHR2EDC),旨在實現 EHR 系統與臨床研究 EDC 系統的互聯互通[22]。隨著我國醫院信息化建設的推進,醫院對于臨床科研重視程度的加強,許多醫院都在積極搭建科研數據平臺,通過信息技術公司的服務,對院內 EMR 數據進行整合、清理,對非結構化數據通過自然語言技術進行結構化處理并標準化,從而方便院內臨床醫生利用 EMR 數據開展臨床科研[23]。我國在國家層面也在積極促進健康醫療大數據的治理,也在區域范圍內對上述院內的電子數據治理工作進行試點,形成區域醫療大數據[24],未來可能成為臨床研究的數據來源。
3.2 推動源數據電子化現有經驗的不足之處
在上述嘗試中,美國的經驗更偏重于改進、標準化現有的 EHR,使其較為統一化。歐洲的經驗更偏重于打通 EHR 與臨床試驗系統互通的技術屏障。而中國相對于美國、歐洲而言,尚未形成醫院間互聯互通的 EHR 模式,因此患者的診療信息仍多封閉存儲在各醫院的 EMR 中,且中國的存儲 EMR 數據的醫院信息系統供應商繁多、標準不統一的現象更加嚴重,這個狀態在短時間內較難改善。在我國源數據電子化的阻力更多的是管理阻力而不僅是技術障礙:出于數據敏感性及數據安全的顧慮,醫院管理層及信息管理部門對于操作導出 EMR 數據的顧慮較大。因此,美國、歐洲的經驗模式難以解決我國的問題。
我國目前的嘗試方向偏重于對院內既有 EMR 數據的治理,形成獨立的科研數據平臺。這種模式更適用于醫療大數據挖掘這種研究方式,偏重于以數據為導向而不是研究目的為導向的研究模式。但 EMR 數據本身存在質量和內容缺陷,在數據處理過程中往往喪失了數據的可追溯性,研究者較難去發現問題、核對及修正,導致研究數據質量遠不能達到 ALCOA+CCEA 的標準。高質量的臨床研究需要事先的設計,僅靠日常診療數據能夠解決的研究問題有限,需要為不同研究目的專門采集不同的重要信息。另一方面,盡管目前科研平臺的建立充分考慮到了醫院對診療數據敏感性的顧慮,平臺一般建立在院內,由醫院獨立管理運營,但獨立、封閉的系統也導致其無法整合外部來源數據,更無法和外部臨床研究數據采集系統實現數據交換,達不到實現源數據電子化的目的。
4 適合我國的解決方案—構建醫院臨床研究源數據管理平臺
基于上述討論,參考國外經驗,以實現 EMR 數據與研究數據互聯互通,實現臨床研究源數據電子化為目的,同時兼顧我國醫院對診療數據敏感性的顧慮,并針對診療系統供應商繁多、標準不一的現況,現提出在我國實現源數據電子化較為通用的解決方案:由醫院主導構建臨床研究源數據管理平臺,與診療系統相對獨立但保持可控的數據傳輸,整合院內、院外所有來源的臨床研究電子化源數據,實現研究源數據的電子化采集、管理以及與傳統臨床研究數據采集系統實現電子化數據傳輸。同時,構建并采用源數據通用管理流程,實現醫院內開展臨床研究的全流程管理。對于 EMR 數據的使用(包括患者的范圍、使用的數據范圍)等進行審批和監管,打消管理者對數據安全、敏感數據使用的顧慮。將技術頂層設計和管理頂層設計兩方面結合,以源數據管理平臺作為診療數據與目前常用臨床研究數據采集系統之間互通的橋梁,實現源數據的電子化。
4.1 構建源數據管理平臺的核心考慮
構建源數據管理平臺需參考以下幾方面問題:① 源數據管理平臺應由醫院主導建設管理,且應與診療系統相對獨立。② 平臺功能定位以服務臨床科研為核心,一方面服務醫生,成為其開展臨床研究管理研究數據的便利工具。另一方面服務醫院管理部門,集中一體化管理院內醫生臨床科研的全流程,確保研究質量及科研誠信。同時確保醫生在開展研究時合理、可控地使用 EMR 數據。③ 平臺具備集中化管理不同來源的院內及院外臨床研究源數據的功能,包括與其他數據源的數據交換(從 EMR 或從其他設備、系統產生的常規來源數據)和直接記錄、收集為研究專門產生的源數據(如在研究過程中直接記錄研究者對患者的問詢、評價、隨訪)。④ 平臺具備與診療業務系統進行數據交換功能,針對診療業務系統中的 EMR 數據進行同步備份產生核證副本數據庫。同時對核證部分數據進行一定程度的預處理(數據匯集、標準化、非結構數據的結構化)供具體研究提取使用。⑤ 應以研究問題為導向(明確研究人群及研究目的)申請 EMR 數據的使用,經過倫理審查和信息科批準可使用的 EMR 數據范圍(特定患者的特定數據)。通過智能化手段自動提取配合人工對 EMR 數據核對、重新判讀,完成 EMR 數據的收集。數據處理、提取、轉換的過程完整記錄、可控,確保數據的可追溯性。⑥ 平臺具備訪問權限管理,研究涉及的源數據可以經授權被研究相關的院外研究團隊訪問。⑦ 存儲在平臺的源數據具備統一的數據標準,具備與外部系統(如 eCRF)進行數據直接傳輸的接口,供多中心研究和數據共享。
4.2 基于該平臺的臨床研究源數據通用管理流程
平臺對于源數據的通用管理流程體現在兩個層面,第一個是研究源數據產生、研究數據采集的數據層面,另一個是對研究全過程監督、控制的監管層面。
數據層面,應對研究中不同來源的數據加以區分,并分別處理。研究中來自于 EMR 的數據是研究數據的重要組成部分。在研究前應明確需使用的 EMR 范圍(特定患者的特定數據),經過批準使用后,這部分 EMR 數據可以核證副本的形式同步至源數據平臺中。經平臺處理,數據轉化為標準化的、結構化的源數據,通過智能化手段配合人工核對,完成研究數據的匹配與提取。相同流程也用于其他來源的源數據,平臺與其他設備、系統完成數據交換后,經相同處理方式完成研究數據采集。為研究特定采集的數據,研究者可通過平臺直接在數據產生時進行采集,此時平臺的功能相當于電子化的數據采集系統或 eCRF。在此過程中,所有數據的產生、處理、修改均以電子化的形式自動記錄留痕,并可追溯至原始資料,保證數據的可溯源性。所有匯集的研究源數據采用相同的數據標準進行存儲(如臨床試驗通用的 CDSIC 標準),在標準化、去隱私化后可以導出形成研究數據(單中心研究),也可以與外部系統實現數據傳輸,匯集到傳統多中心臨床研究數據采集系統或數據庫中(多中心研究)。如圖 2 上部分所示。

監管層面,對研究的各個環節實行集中化、電子化的管理,貫穿從研究項目的立項、數據準備、研究進行、研究結束的各個階段。其中監管環節重視研究的倫理審查、EMR 數據使用的審查,同時由于研究者的研究行為均在平臺上產生,因此系統可以完整、自動地記錄研究者臨床研究過程源數據產生情況,同時可以對研究數據與源數據進行相互核對、稽查,填補了醫院對于研究過程監管缺乏合理手段的空白。如圖 2 下部分所示。
5 展望
醫院在構建科研平臺時,可參照上述模式建立臨床研究源數據管理平臺。平臺的建立將成為研究者開展臨床研究的便利工具,借助診療系統數據與臨床研究平臺的互聯互通,將大大提高研究者收集數據的效率。從前研究者在電腦前一邊查電子病歷或翻閱紙質病歷,一邊人工謄錄數據的情形將會成為歷史。臨床研究源數據管理平臺的建立也將成為醫院管理者促進研究者開展研究,并對研究進行質量監管的有效手段。研究過程的留痕記錄清晰體現研究者對于研究的貢獻,可以作為醫院進行科研績效評價的重要參考。借助平臺實現源數據的電子化,將解決當前注冊臨床試驗的“痛點”即將大量的人力物力成本耗費在低效的現場監查、數據管理環節。借助此平臺,電子化的源數據可實現直接的數據傳輸,降低人工轉錄過程的錯誤,同時源數據的集中管理也將大幅提高試驗質量控制的效率,甚至可以實現遠程質控。而對于真實世界研究而言,由于常規收集的電子化數據是真實世界研究的核心研究數據來源,利用平臺助力研究者高效開展高質量真實世界研究的潛力更大。
目前,國內多個醫院已啟動相關工作,聯合醫院信息領域專家、臨床研究領域專家、臨床醫生、相關信息技術公司共同以該理念建設臨床研究源數據管理平臺。期望該模式可以作為其他醫院在構建臨床研究平臺時的參考范本。盡管醫院采用不同的診療系統供應商,構建平臺采用不同的技術團隊,但按照共同的透明化理念,相同的數據標準去做頂層設計,可以產生高質量的、可溯源的、標準相同的研究數據,最終實現提高我國整體臨床研究數據質量的愿景。
臨床研究是推動醫學進步的重要環節,其研究結果在很大程度上影響對疾病的預防、診斷和治療[1]。因此臨床研究在其醫學科學研究的本質上多了一重公眾健康層面的倫理意義。正因臨床研究的這一本質,提高研究質量、確保研究結論的可靠性成了研究者和公眾共同關注的核心問題。促進臨床研究的透明化,使得臨床研究的利益相關方,如受試者、研究者、倫理審查者、研究監管者、期刊雜志編輯和審稿人等,能夠全面地獲得所需的研究相關信息重構或重現研究,是評估研究質量、提高研究結論可靠性的重要手段[2]。當前,臨床研究透明化往往集中在研究的開頭和結尾:即研究的注冊及報告發表兩個環節。而研究過程類似“黑箱子”,只看到大體輪廓,看不到實際內容。研究者也缺乏對研究過程的重視,導致研究數據可溯源性差而影響了對研究真實性和準確性的評估,引發了一些研究結果不可重現、甚至是科研誠信問題[3, 4]。醫院作為臨床研究的重要實施場所,應擔負起對在其開展的臨床研究的監管義務,同時為研究者創造提高研究數據質量的便利條件。本文將從梳理臨床研究數據采集的過程出發,凝練出提高研究數據質量的核心,總結現有經驗及不足,并提出適用于我國醫院環境的解決方案,以提高我國臨床研究數據質量。
1 臨床研究數據產生、采集過程梳理
盡管臨床研究涉及到多種研究設計類型,而不同研究設計所解決的問題及研究方法存在較大差異,但臨床研究數據的形成過程存在較強共性:① 源數據的產生:記錄患者健康、診療行為或以特定研究為目的的日常記錄或專門產生原始數據;② 研究數據的采集:研究者通過數據采集手段采集臨床研究相關數據至病歷報告表(case report form,CRF)、收集患者自報結局數據(electronic patient reported outcomes,ePRO)系統、研究數據庫等研究數據收集媒介。
1.1 源數據的產生
臨床研究數據的產生來源可以是人(如:研究者、患者本人)、設備(如:體重計、心電圖機)、系統[如:存儲院內診療記錄的電子病歷(electronic medical records,EMR)、在醫療機構間互聯互通的電子健康檔案(electronic health records,EHR)的各類醫療信息系統、醫保系統]等[5]。這些數據構成了臨床研究的源數據,而體現這些源數據的產生者、產生時間、數值及其他信息的資料就是臨床研究的原始記錄[5, 6]。原始記錄的載體可以是紙質書寫形式也可以是電子化記錄形式。源數據、原始記錄是體現研究過程、重現研究的重要信息。確保研究原始資料的保存、研究數據與源數據的可追溯是臨床研究質量控制的核心環節。
歐洲藥品管理局在其國際人用藥品注冊技術協調會指導原則《ICH E8(R1):臨床研究的一般考慮》中指出,按照數據產生的目的可以將臨床研究的數據來源分為兩大類:① 研究以外來源的數據;② 為研究專門產生的數據[7]。其中研究以外來源的數據不以研究目的而產生,主要為記錄患者健康、診療行為而常規收集的健康數據。例如:EMR/EHR、醫保、可穿戴健康設備等,也是目前廣受臨床研究領域所重視的真實世界數據(real-world data,RWD)[8, 9]。
相同的研究數據,可以通過多個來源獲得,例如患者病史可能在研究過程中通過研究者對患者的問詢采集,也可以在患者的既往 EMR 記錄中獲得。同樣,在不同的情境下,產生相同的數據也可以基于不同的目的,例如患者就診時做的血生化檢查是常規收集的數據,而患者參加臨床試驗做的血生化檢查就是為研究特定目的而產生的數據。研究者應對研究數據的來源特征進行深入了解。常見的臨床研究數據及其來源特征示例見表 1。

1.2 從源數據采集研究數據
將產生的源數據提取、收集至 CRF 中的過程為數據采集過程。源數據采集的載體是 CRF,可為紙質數據采集(如紙質 CRF)或電子化數據采集(electronic data capture,EDC)[如電子化 CRF(eCRF)、研究數據庫]兩種形式。其中紙質形式仍需要進行數據轉錄最終形成電子化的數據庫,而利用 eCRF 則可實現 EDC。數據采集的方式分為人工錄入和數據傳輸兩種。人工錄入的方式主要發生在以下兩種情形中:① 在不借助設備、系統時,研究者對患者進行問詢、評估或患者自我報告數據,需要將數據人工填寫在紙質 CRF 或 eCRF 中;② 當源數據與 CRF 無法互通時,如:使用紙質 CRF,或使用 eCRF 但數據無法電子化交換,即使源數據是以電子化形式采集的,研究數據仍需要以人工錄入的方式采集至 eCRF 中。只有 EDC 系統和產生源數據的設備或系統能直接形成數據交換時,直接的數據傳輸才可以實現[5, 10]。
數據采集時間方向按數據是否已在研究啟動前產生分為回顧性采集和前瞻性采集。回顧性采集一般在回顧性研究中使用,對既有數據進行回顧和收集。前瞻性采集一般用于前瞻性研究及所有研究中為研究專門產生的新數據。由于前瞻性數據采集可在研究啟動前根據研究目的對數據采集進行規劃,在源數據產生時及時采集,還可在數據收集過程中把控質量,因此相對于回顧性采集,可以有效降低數據不準確、數據缺失等問題的發生。常見的各類型臨床研究收集數據模式見圖 1。

2 臨床研究數據質量標準和提高研究數據質量的核心
2.1 臨床研究數據質量標準
ALCOA+CCEA 標準在多個監管機構的指導原則[5, 11, 12]及行業規范[6, 13]中作為臨床試驗數據質量的通用標準,旨在降低在收集研究數據過程中產生的誤差及信息偏倚。該標準被認為是高質量臨床研究應具備的數據標準。具體內容及解析見表 2。

以新藥、醫療器械注冊為目的的臨床試驗,監管機構對數據質量、可溯源性,研究的完整記錄有著最高要求[12]。而其他類型的臨床研究也在期刊雜志對研究透明化及嚴格質量要求下,向注冊臨床試驗的高標準看齊[14, 15]。加拿大衛生部在其發布的《真實世界數據/證據質量核心要點》中提及真實世界研究中對于前瞻性收集的 RWD,應參照傳統隨機對照試驗的數據質量標準,需要具備清晰定義的流程及完全的透明化(即滿足 ALCOA+CCEA 標準)。對于回顧性采集數據,盡管部分標準難以達到前瞻性數據收集的標準,但所有數據均具備可溯源性,且源數據應在需要時可用于審閱[16]。我國國家藥品監督管理局在《真實世界證據支持藥物研發的基本考慮(征求意見稿)》也提及數據完整性、準確性及數據質量保證、質量控制措施對于真實世界研究數據質量的重要意義[17]。
2.2 提高研究數據質量的核心
參與研究的各方不斷投入人力、物力,并改進流程使得研究數據達到 ALCOA+CCEA 標準。以目前注冊臨床試驗為例,除研究者外,還需監查團隊進行現場質控,確保研究數據記錄完整、準確,研究數據與原始資料記錄一致。同時,數據管理團隊在后臺全面對數據進行質量控制,及時發現錯誤數據、疑問數據并與研究團隊反饋,修正錯誤,確保最終研究數據達到完整準確。盡管投入了大量人力物力成本,但當前研究數據質控的效率較為低下,大部分數據仍需要人工謄錄、核對,無法保證數據的完整性和準確性。而對于研究者發起的臨床研究,很多情況下研究者沒有相應充足的人力物力來確保研究數據質量控制;對于真實世界研究而言(如圖 1 中除傳統臨床試驗的其他類型研究),大量數據來自于常規采集的數據。如仍采用人工謄錄,人工核對數據將更加耗時費力,甚至不具備可操作性。因此有必要改進目前臨床研究數據采集的工具和流程,而核心環節就是推動源數據的電子化,促進研究的透明化[18]。
EDC 相比人工謄錄數據有諸多優勢。人工謄錄數據容易產生填寫和錄入錯誤(不論是有意造假還是無意出錯),數據的準確性無法完全保證。其次人工謄錄需消耗大量的人力和資源進行源數據核查。而 EDC 在源數據產生時進行電子化記錄,如有數據格式化和清理的過程,電子化系統仍可以自動保留數據產生和修改過程中的所有痕跡[5, 13]。
源數據的電子化分為兩個層次,首先是利用電子化設備和系統實現數據產生及采集的電子化。此技術目前已基本成熟,例如,醫院與診療相關的病歷、處方、各項檢查結果都以電子化形式產生并儲存于 EMR 中,電子血壓計、體重計、可穿戴設備,以及電子日記卡、ePRO、手機等也逐漸取代傳統紙質記錄產生源數據。同時數據采集方式也由紙質數據采集方式逐漸被 EDC(電子數據庫、EDC 系統、eCRF)取代。第二個層次是在實現源數據產生和采集電子化的基礎上,實現各設備、系統間可以實現數據交換,從而具備互操作性[10],即實現數據的直接傳輸,避免電子化產生的數據再進行人工二次轉錄。這才是實現源數據電子化的核心意義。
3 推動源數據電子化的現有經驗及不足
各國藥監機構、工業界、醫學信息領域在近年來不斷推動臨床研究源數據的電子化進程。美國 FDA 接連發布相關指南倡導利用計算機信息技術開展研究并在不同指導文件中強調電子化源數據的優勢[10]。在技術的進步和各方的推動下,電子化的數據采集及 EDC 系統與電子設備,電子隨訪系統、ePRO 等設備及系統的數據交換已基本實現并成熟應用。但作為臨床研究數據來源最重要的組成部分,如何將存儲在醫院信息系統中的 EMR、EHR 數據直接與臨床研究數據采集系統實現數據互通仍未有廣泛應用的解決方案。由于診療醫療數據的高度敏感性,業務系統一般為封閉管理,導致利用 EMR/EHR 數據開展研究、導出或傳輸 EMR/EHR 數據均存在較大障礙。同時數據分散于各業務系統,存在大量非結構化數據難以利用、數據質量差等問題,這是當前阻礙源數據電子化的最大障礙。
3.1 推動源數據電子化的現有經驗
美國國家衛生信息技術協調辦公室(the Office of the National Coordinator for Health Information Technology,ONC)于 2010 年啟動衛生信息技術認證項目,旨在提高 EHR 系統的標準化,促進 EHR 系統的互操作性[19]。美國 FDA 也針對利用 EHR 數據開展臨床研究發布了指南文件,其強調了通過 ONC 認證對于 EHR 系統與臨床研究數據采集系統實現數據交換的優勢[20]。目前在美國開展的臨床試驗,部分醫院已實現了將實驗室檢查結果等結構化數據直接傳輸至 eCRF。在歐盟委員會的支持下,歐洲范圍內于 2011 年啟動了電子健康記錄應用于臨床研究項目(Electronic Health Records for Clinical Research,EHR4CR),在 35 家機構范圍內探索直接將 EHR 數據應用于研究的技術方案,并于 2016 年完成項目結題[21]。同時在 EHR4CR 項目基礎上開啟項目的第二階段,連接電子健康記錄和電子數據采集系統(From Electronic Health Records to Electronic Data Capture systems,EHR2EDC),旨在實現 EHR 系統與臨床研究 EDC 系統的互聯互通[22]。隨著我國醫院信息化建設的推進,醫院對于臨床科研重視程度的加強,許多醫院都在積極搭建科研數據平臺,通過信息技術公司的服務,對院內 EMR 數據進行整合、清理,對非結構化數據通過自然語言技術進行結構化處理并標準化,從而方便院內臨床醫生利用 EMR 數據開展臨床科研[23]。我國在國家層面也在積極促進健康醫療大數據的治理,也在區域范圍內對上述院內的電子數據治理工作進行試點,形成區域醫療大數據[24],未來可能成為臨床研究的數據來源。
3.2 推動源數據電子化現有經驗的不足之處
在上述嘗試中,美國的經驗更偏重于改進、標準化現有的 EHR,使其較為統一化。歐洲的經驗更偏重于打通 EHR 與臨床試驗系統互通的技術屏障。而中國相對于美國、歐洲而言,尚未形成醫院間互聯互通的 EHR 模式,因此患者的診療信息仍多封閉存儲在各醫院的 EMR 中,且中國的存儲 EMR 數據的醫院信息系統供應商繁多、標準不統一的現象更加嚴重,這個狀態在短時間內較難改善。在我國源數據電子化的阻力更多的是管理阻力而不僅是技術障礙:出于數據敏感性及數據安全的顧慮,醫院管理層及信息管理部門對于操作導出 EMR 數據的顧慮較大。因此,美國、歐洲的經驗模式難以解決我國的問題。
我國目前的嘗試方向偏重于對院內既有 EMR 數據的治理,形成獨立的科研數據平臺。這種模式更適用于醫療大數據挖掘這種研究方式,偏重于以數據為導向而不是研究目的為導向的研究模式。但 EMR 數據本身存在質量和內容缺陷,在數據處理過程中往往喪失了數據的可追溯性,研究者較難去發現問題、核對及修正,導致研究數據質量遠不能達到 ALCOA+CCEA 的標準。高質量的臨床研究需要事先的設計,僅靠日常診療數據能夠解決的研究問題有限,需要為不同研究目的專門采集不同的重要信息。另一方面,盡管目前科研平臺的建立充分考慮到了醫院對診療數據敏感性的顧慮,平臺一般建立在院內,由醫院獨立管理運營,但獨立、封閉的系統也導致其無法整合外部來源數據,更無法和外部臨床研究數據采集系統實現數據交換,達不到實現源數據電子化的目的。
4 適合我國的解決方案—構建醫院臨床研究源數據管理平臺
基于上述討論,參考國外經驗,以實現 EMR 數據與研究數據互聯互通,實現臨床研究源數據電子化為目的,同時兼顧我國醫院對診療數據敏感性的顧慮,并針對診療系統供應商繁多、標準不一的現況,現提出在我國實現源數據電子化較為通用的解決方案:由醫院主導構建臨床研究源數據管理平臺,與診療系統相對獨立但保持可控的數據傳輸,整合院內、院外所有來源的臨床研究電子化源數據,實現研究源數據的電子化采集、管理以及與傳統臨床研究數據采集系統實現電子化數據傳輸。同時,構建并采用源數據通用管理流程,實現醫院內開展臨床研究的全流程管理。對于 EMR 數據的使用(包括患者的范圍、使用的數據范圍)等進行審批和監管,打消管理者對數據安全、敏感數據使用的顧慮。將技術頂層設計和管理頂層設計兩方面結合,以源數據管理平臺作為診療數據與目前常用臨床研究數據采集系統之間互通的橋梁,實現源數據的電子化。
4.1 構建源數據管理平臺的核心考慮
構建源數據管理平臺需參考以下幾方面問題:① 源數據管理平臺應由醫院主導建設管理,且應與診療系統相對獨立。② 平臺功能定位以服務臨床科研為核心,一方面服務醫生,成為其開展臨床研究管理研究數據的便利工具。另一方面服務醫院管理部門,集中一體化管理院內醫生臨床科研的全流程,確保研究質量及科研誠信。同時確保醫生在開展研究時合理、可控地使用 EMR 數據。③ 平臺具備集中化管理不同來源的院內及院外臨床研究源數據的功能,包括與其他數據源的數據交換(從 EMR 或從其他設備、系統產生的常規來源數據)和直接記錄、收集為研究專門產生的源數據(如在研究過程中直接記錄研究者對患者的問詢、評價、隨訪)。④ 平臺具備與診療業務系統進行數據交換功能,針對診療業務系統中的 EMR 數據進行同步備份產生核證副本數據庫。同時對核證部分數據進行一定程度的預處理(數據匯集、標準化、非結構數據的結構化)供具體研究提取使用。⑤ 應以研究問題為導向(明確研究人群及研究目的)申請 EMR 數據的使用,經過倫理審查和信息科批準可使用的 EMR 數據范圍(特定患者的特定數據)。通過智能化手段自動提取配合人工對 EMR 數據核對、重新判讀,完成 EMR 數據的收集。數據處理、提取、轉換的過程完整記錄、可控,確保數據的可追溯性。⑥ 平臺具備訪問權限管理,研究涉及的源數據可以經授權被研究相關的院外研究團隊訪問。⑦ 存儲在平臺的源數據具備統一的數據標準,具備與外部系統(如 eCRF)進行數據直接傳輸的接口,供多中心研究和數據共享。
4.2 基于該平臺的臨床研究源數據通用管理流程
平臺對于源數據的通用管理流程體現在兩個層面,第一個是研究源數據產生、研究數據采集的數據層面,另一個是對研究全過程監督、控制的監管層面。
數據層面,應對研究中不同來源的數據加以區分,并分別處理。研究中來自于 EMR 的數據是研究數據的重要組成部分。在研究前應明確需使用的 EMR 范圍(特定患者的特定數據),經過批準使用后,這部分 EMR 數據可以核證副本的形式同步至源數據平臺中。經平臺處理,數據轉化為標準化的、結構化的源數據,通過智能化手段配合人工核對,完成研究數據的匹配與提取。相同流程也用于其他來源的源數據,平臺與其他設備、系統完成數據交換后,經相同處理方式完成研究數據采集。為研究特定采集的數據,研究者可通過平臺直接在數據產生時進行采集,此時平臺的功能相當于電子化的數據采集系統或 eCRF。在此過程中,所有數據的產生、處理、修改均以電子化的形式自動記錄留痕,并可追溯至原始資料,保證數據的可溯源性。所有匯集的研究源數據采用相同的數據標準進行存儲(如臨床試驗通用的 CDSIC 標準),在標準化、去隱私化后可以導出形成研究數據(單中心研究),也可以與外部系統實現數據傳輸,匯集到傳統多中心臨床研究數據采集系統或數據庫中(多中心研究)。如圖 2 上部分所示。

監管層面,對研究的各個環節實行集中化、電子化的管理,貫穿從研究項目的立項、數據準備、研究進行、研究結束的各個階段。其中監管環節重視研究的倫理審查、EMR 數據使用的審查,同時由于研究者的研究行為均在平臺上產生,因此系統可以完整、自動地記錄研究者臨床研究過程源數據產生情況,同時可以對研究數據與源數據進行相互核對、稽查,填補了醫院對于研究過程監管缺乏合理手段的空白。如圖 2 下部分所示。
5 展望
醫院在構建科研平臺時,可參照上述模式建立臨床研究源數據管理平臺。平臺的建立將成為研究者開展臨床研究的便利工具,借助診療系統數據與臨床研究平臺的互聯互通,將大大提高研究者收集數據的效率。從前研究者在電腦前一邊查電子病歷或翻閱紙質病歷,一邊人工謄錄數據的情形將會成為歷史。臨床研究源數據管理平臺的建立也將成為醫院管理者促進研究者開展研究,并對研究進行質量監管的有效手段。研究過程的留痕記錄清晰體現研究者對于研究的貢獻,可以作為醫院進行科研績效評價的重要參考。借助平臺實現源數據的電子化,將解決當前注冊臨床試驗的“痛點”即將大量的人力物力成本耗費在低效的現場監查、數據管理環節。借助此平臺,電子化的源數據可實現直接的數據傳輸,降低人工轉錄過程的錯誤,同時源數據的集中管理也將大幅提高試驗質量控制的效率,甚至可以實現遠程質控。而對于真實世界研究而言,由于常規收集的電子化數據是真實世界研究的核心研究數據來源,利用平臺助力研究者高效開展高質量真實世界研究的潛力更大。
目前,國內多個醫院已啟動相關工作,聯合醫院信息領域專家、臨床研究領域專家、臨床醫生、相關信息技術公司共同以該理念建設臨床研究源數據管理平臺。期望該模式可以作為其他醫院在構建臨床研究平臺時的參考范本。盡管醫院采用不同的診療系統供應商,構建平臺采用不同的技術團隊,但按照共同的透明化理念,相同的數據標準去做頂層設計,可以產生高質量的、可溯源的、標準相同的研究數據,最終實現提高我國整體臨床研究數據質量的愿景。