引用本文: 李雪迎, 沙若琪, 姚晨, 晉菲斐, 王熙誠, 閻小妍, 朱賽楠, 尚美霞. 面向真實世界數據的臨床研究數據治理模式選擇. 中國循證醫學雜志, 2020, 20(10): 1150-1156. doi: 10.7507/1672-2531.202003122 復制
在醫學研究中,數據科學的作用日益凸顯,在循證醫學原則和數據可溯源性要求的大背景下,數據管理與應用成為臨床驗證中重要的環節[1],也成為眾多學者工作的重要目標。特別是在真實世界研究日益重要的今天[2, 3],臨床研究數據的來源更加廣泛多樣,如何充分利用現有的醫學健康信息系統資源,實現數據共享,對數據的獲取、存儲和應用策略及相應的方法學優化提出了新的挑戰[4]。數據科學的發展一直是在信息技術進步的推動下完成的。在發展過程中,數據體系需要不斷地完善,提升以滿足不斷提高的數據需求。數據治理是對數據進行處置,格式化和規范化的過程。數據治理是數據和數據系統管理的基本要素[5]。
長久以來,隨著臨床研究和信息技術的發展,臨床研究數據的可靠性問題日益凸顯。同時在海量真實世界數據的研究環境下,如何有效準確地獲取臨床數據備受關注[6, 7]。2007 年美國食品藥品監督管理局在其指南中提及了以可溯源性(attributable)、同時性(contemporaneous)、原始性(original)和準確性(accurate)為基本要求的數據質量標準,簡稱為 ALCOA 標準[8]。其后通過實踐反饋又補充了完整性(complete)、一致性(consistent)、持久性(enduring)、可用性(available)標準,簡稱為 CCEA 數據質量補充要求。最終,逐漸形成了 ALCOA+CCEA 標準,并被多個監管機構制定的指導原則和行業規范所采用,成為了臨床研究數據公認的質量標準[9-11]。
在眾多應用領域,數據治理都是提升數據質量和數據可利用性的重要工作。但針對不同專業領域的應用需求和數據基礎,數據治理的總體架構[12-16]及治理核心任務則呈現了各自專業的需求特征,各不相同[17, 18]。針對醫學研究的數據管理[9],傳統的運行模式主要集中在針對個案獨立構建數據體系,完成數據獲取和存儲的功能。這種方式的好處在于目標明確,數據結構簡單明了,易于構建。同時由于臨床研究的特點,大量數據產生于臨床醫療過程中,獨立地二次獲取數據不僅增加了錯誤機會,也給數據溯源帶來了更大的工作量。特別是依托醫療信息化建設以及信息技術的推進,臨床研究信息獲取方式同樣與時俱進,真實世界數據[19]驅動的真實世界研究廣受重視[20-22],同時從循證證據的可溯源性要求看,現有的臨床研究數據體系亟待整合完善以適應研究需要。但面向臨床研究的數據管理工作顯然滯后于其他相關領域。鮮有關于臨床研究過程的數據治理的方法學探討,而且由于功能需求的特點,臨床研究數據治理并不能簡單地套用針對臨床醫療的數據治理框架。本文將針對臨床研究的數據治理框架的要素展開分析,以期為臨床研究數據治理提供可行,可靠的數據治理策略。
1 資料與方法
1.1 臨床研究數據現況調查
采用分層目的抽樣方法對來自北京市 6 所三級甲等醫院來自不同臨床專業,不同年資(包括高級、中級和初級職稱)且具有科研經歷的醫生完成半結構式訪談。了解他們在臨床研究中對于臨床數據的獲取方法、存儲方式及電子病歷系統等真實世界醫療數據的利用現狀。探討現有臨床研究過程所存在的問題。解析現存的主要問題與 ALCOA+CCEA 中的逐項標準的對應關系,明確現有數據應用過程及數據利用方法對數據質量的主要影響。并針對當前問題,提出建立符合 ALCOA+CCEA 標準的臨床研究數據系統,以及需要完成的主要任務項。
1.2 基于臨床數據質量標準的數據系統構建任務分析
實現臨床研究數據質量的 ALCOA+CCEA 標準,是臨床研究數據管理工作的目標。在明確針對現有問題的數據系統構建任務項的基礎上。對 ALCOA+CCEA 標準的目標要求給予準確描述。結合現有醫療數據信息系統及目前臨床研究數據的多途徑特征,明確各數據系統構建任務項與 ALCOA+CCEA 標準的映射關系,為進一步提煉形成數據治理體系奠定基礎。
1.3 明確臨床研究數據治理任務領域
對于目前各種數據治理框架下的數據治理領域及其相應的治理目標進行梳理。結合針對現有數據問題所獲得的 10 個任務項形成映射關系。結合臨床數據系統的特點和最終目標,逐一判讀各數據治理領域的重要性,做出合理取舍,確定臨床研究數據治理的任務領域,提出針對臨床研究的數據治理模式。
2 結果
2.1 臨床研究數據體系的數據來源與面臨的主要問題
共有 46 名臨床醫師參與了調查(表 1)。其中高級職稱 15 人(32.6%)、中級職稱 14 人(30.5%)、初級職稱 17 人(36.9%);平均年齡 36.55±8.23 歲(年齡范圍為 24~58 歲);男性 15 人(32.6%)、女性 31 人(67.4%);平均工作年限為 11.84±10.50 年(工齡范圍為 1~46 年)。納入的臨床科室包括創傷外科、兒科、放射科、婦產科、淋巴瘤科、麻醉科、皮膚科、普通外科、心內科、口腔修復科、眼科和腫瘤科共 12 個科室。

臨床研究中,參研醫師的臨床數據獲取存儲調查結果見表 2。在數據獲取方面,雖然電子病歷(electronic medical records,EMR)系統在醫院中普遍運行良好,但手工謄錄病例中的醫學信息仍然是最主要的獲取方式(39 人,84.4%)。究其原因,研究者提及的主要原因包括:無法導出、申請手續復雜、不同系統數據格式不一導致合并困難。手工轉錄方式不僅帶來龐大的工作量同時也給準確性、可溯源性帶來潛在的巨大風險。少數研究者(3 人,6.5%)能夠有機會利用有效的數據管理系統,在保障數據準確、可靠、安全的情況下從現有電子醫療信息中獲得研究數據并充分利用。同時手工謄錄的巨大工作量使 27 人(58.7%)認為他們研究工作中時間投入最多的環節是信息收集工作。

在數據存儲方面,目前仍存在研究數據用簡單的電子表格保存于個人電腦的方式及以依靠紙質文件為主要原始記錄保存方式的研究管理方式(21 人,45.7%)。此類方式存在較明顯的安全性漏洞,很可能造成數據遺失及數據誤操作等可能損害數據安全性與準確性。
從臨床研究數據管理工作現狀可見,主要影響研究數據質量的工作現狀問題包括:手工錄入、多系統數據合并困難及數據管理缺少安全性措施。對照 ALCOA+CCEA 標準的要求,每一項標準均受到一定損害。針對諸項標準要求,以目前的數據利用工作現狀為出發點,解析相應的數據信息系統構建任務項。每一項先轉問題的解決均需通過多項任務目標實現,具體對應關系見表 3。

2.2 臨床研究數據系統構建的主要任務需求
從臨床研究數據獲取過程看,臨床研究數據的獲取包括了多種途徑:可收集自記錄臨床醫療過程的電子病歷、電子健康檔案(electronic health records,EHR)、醫療保險數據庫等;記錄醫學信息的數據系統;針對特定的研究目的研究者主動收集的醫學相關信息;以及基于可穿戴設備等信息化途徑獲得的院外醫學和行為學數據等。
由于數據獲取途徑的多樣性,來自不同數據系統的數據往往彼此封閉,且管理機制、數據標準各不相同,在彼此割裂的情況下無法實現有效的數據關聯和分析,因此明確研究數據構成及其關聯屬性,實現不同來源數據的準確安全合并,消除信息孤島,控制冗余,實現數據的可利用性是數據科學必須面對的問題。對問題解析所明確的數據系統構建任務進行合并同類項,我們將臨床研究數據庫構建的數據處理核心技術任務解析為:數據質控、數據清洗、術語映射、數據抽取、數據結構化、數據整合、數據存儲、數據脫敏、數據加密和數據傳輸共 10 個任務項。臨床研究數據庫建設可以視為目標導向性工作。實現 ALCOA+CCEA 數據質量標準,是數據庫建設的最終目標。通過對不同標準完成準確描述,明確各任務項與各項標準之間的對應關系,每一項質量標準的實現均與一項或多項數據系統建設任務項相對應,具體對應關系見表 4。

2.3 面向醫療真實世界數據治理的任務領域規劃
為實現數據治理目標,需要將治理任務明確為相對應的核心治理任務領域。在主題任務相同的前提下,不同的應用領域、核心領域及其重要程度可能因具體應用需求不同有所不同。考查一般數據管理治理過程及針對臨床研究數據治理的特點,我們考慮需要考慮的治理領域包括:數據架構、數據模型、數據標準、數據質量、主數據、時效性管理、生命周期管理、元數據、數據安全和數據洞察[16]。對于臨床研究數據治理,我們對不同的可能涉及的領域一一判讀其重要性,最終形成臨床研究數據治理領域規范建議(表 5)。數據質量標準與數據管理任務數據治理要素的功能對應關系圖見圖 1。


由于臨床研究數據信息的特殊性,治理領域與其他專業應用過程不僅有所不同,而且在通用治理領域中,其重要性及內涵也不盡相同。其中最為突出的不同之處表現在以下幾個領域:① 數據架構:對于所有的數據治理過程都具有頂層設計的意義。它明確了數據治理的范疇及數據的來源,從而體現數據體系的總規劃。在臨床研究中,數據溯源具有極其重要的意義[23]。因此,源數據(source data)在臨床研究數據管理中的地位遠遠高于其他應用場景。這也使得數據架構領域的工作在臨床研究數據治理中尤為重要。② 元數據:對數據集中的每一個字段給出明確定義和屬性說明。在針對研究數據的管理中,對科研誠信的考查日益被重視,因此研究過程的數據留痕成為誠信評估的重要證據。因此,臨床研究數據信息的元數據不僅包括了面向臨床信息的數據留存,同時也包括了研究過程的數據項,從而使研究數據庫同時具有了研究過程信息存儲能力。③ 生命周期管理和數據洞察在很多數據治理體系中都是重要的組成部分,而對于臨床研究,臨床信息的取得往往需要永久保存;另外,臨床研究的數據分析往往有獨立的嚴格定義,而并非數據系統本身的職責。故而,這兩部分我們未列其中。
除以上之外,數據治理領域還包括:數據模型,以明確數據關聯;數據標準,統一標準實現數據共享;數據質量,提高效率和實現質量評價;主數據,形成可靠穩定的數據關聯;時效性管理,保障數據一致性以及數據安全,實現權限管理防止數據篡改等等。以上各領域對于數據系統建設具有普遍意義,且與實現 ALCOA+CCEA 數據質量標準的多個數據系統建設任務項有明確的對應關系,故全部納入臨床研究數據治理框架體系。
3 討論
數據治理并非僅針對現有數據利用的改善,更是通過對數據系統的完善從根本上促進臨床數據的存儲和利用。更完善的數據管理體系,能夠大大提升數據管理效率,通過數據架構梳理,明確數據溯源,定位源數據。
臨床研究的數據獲取及存儲現狀表明,電子醫療信息獲取存在困難,仍需要完成大量的手工數據轉錄,缺少安全考慮的存儲方式以及多系統來源數據合并困難,這都給臨床數據的溯源、準確性、完整性等帶來嚴重問題,特別是在面向真實世界數據的情況下,亟待構建基于真實世界數據來源通過數據治理構建方便安全高效的臨床研究數據管理體系。數據質量是臨床研究證據能力的重要基礎。ALCOA+CCEA 標準作為公認的臨床研究數據質量標準為我們明確了數據管理工作的任務目標和評價標準。但隨著信息技術發展,特別是在面向真實世界的臨床研究場景下,不斷出現的新的數據獲取方式,對數據獲取、存儲和利用不斷提出新的挑戰。如何充分利用整合多樣的數據途徑,更新和完善數據管理體系,構建符合確保數據質量目標,是目前臨床研究數據治理工作的當務之急。數據治理不僅僅是對現有數據和數據體系的整合梳理,同樣是對未來數據系統的規劃和提升。因此,數據治理工作應具有足夠地前瞻性,從而促進數據系統的穩定和發展。
通過數據治理,將全面提升數據整合能力,提高可利用性。為達成這一目標必將使標準化數據結構提出更高的要求。同時針對臨床醫療過程,如何更完整、有效地捕捉源數據,改善其可利用性,也將成為重要的研究主題和發展方向。其中結構化病例報告已經成為很多學科領域探索前進的方向[24, 25],通過病例結構化,不僅能夠使通過自然語言識別的數據提取變得更快捷、準確,同時也提高了臨床醫療的工作效率,改進工作速度,防止信息錯漏。實際上信息技術的發展給我們帶來的變化是多方面的,其作用遠遠不止于信息的收集和保存本身,它還將對我們的工作方式產生有益的推進作用。期待數據科學發展能引導我們走向臨床數據與研究數據的充分整合,以數據信息系統為中心,提供更為高效的醫學信息利用方式,提高診療研究效率,服務醫學科學發展。
在保證臨床信息的可溯源性的同時,數據系統的提升及其應用也給科研活動本身提供了溯源的可能。通過數據操作過程的痕跡保存,使得我們更有機會了解和記錄數據產生和處理的操作脈絡,這一點同樣可以應用于科研工作量和工作效率評估以及科研誠信的監察與證據信息保存,實現了臨床醫療及科研過程的全面記錄。
綜上,通過數據治理所實現的數據體系完善,基于 ALCOA+CCEA 標準充分保障研究數據質量。使我們有機會實現以數據倉庫為核心的臨床醫療和臨床科研信息管理體系。并最終將臨床醫療和臨床科研以及過程誠信監察。
在醫學研究中,數據科學的作用日益凸顯,在循證醫學原則和數據可溯源性要求的大背景下,數據管理與應用成為臨床驗證中重要的環節[1],也成為眾多學者工作的重要目標。特別是在真實世界研究日益重要的今天[2, 3],臨床研究數據的來源更加廣泛多樣,如何充分利用現有的醫學健康信息系統資源,實現數據共享,對數據的獲取、存儲和應用策略及相應的方法學優化提出了新的挑戰[4]。數據科學的發展一直是在信息技術進步的推動下完成的。在發展過程中,數據體系需要不斷地完善,提升以滿足不斷提高的數據需求。數據治理是對數據進行處置,格式化和規范化的過程。數據治理是數據和數據系統管理的基本要素[5]。
長久以來,隨著臨床研究和信息技術的發展,臨床研究數據的可靠性問題日益凸顯。同時在海量真實世界數據的研究環境下,如何有效準確地獲取臨床數據備受關注[6, 7]。2007 年美國食品藥品監督管理局在其指南中提及了以可溯源性(attributable)、同時性(contemporaneous)、原始性(original)和準確性(accurate)為基本要求的數據質量標準,簡稱為 ALCOA 標準[8]。其后通過實踐反饋又補充了完整性(complete)、一致性(consistent)、持久性(enduring)、可用性(available)標準,簡稱為 CCEA 數據質量補充要求。最終,逐漸形成了 ALCOA+CCEA 標準,并被多個監管機構制定的指導原則和行業規范所采用,成為了臨床研究數據公認的質量標準[9-11]。
在眾多應用領域,數據治理都是提升數據質量和數據可利用性的重要工作。但針對不同專業領域的應用需求和數據基礎,數據治理的總體架構[12-16]及治理核心任務則呈現了各自專業的需求特征,各不相同[17, 18]。針對醫學研究的數據管理[9],傳統的運行模式主要集中在針對個案獨立構建數據體系,完成數據獲取和存儲的功能。這種方式的好處在于目標明確,數據結構簡單明了,易于構建。同時由于臨床研究的特點,大量數據產生于臨床醫療過程中,獨立地二次獲取數據不僅增加了錯誤機會,也給數據溯源帶來了更大的工作量。特別是依托醫療信息化建設以及信息技術的推進,臨床研究信息獲取方式同樣與時俱進,真實世界數據[19]驅動的真實世界研究廣受重視[20-22],同時從循證證據的可溯源性要求看,現有的臨床研究數據體系亟待整合完善以適應研究需要。但面向臨床研究的數據管理工作顯然滯后于其他相關領域。鮮有關于臨床研究過程的數據治理的方法學探討,而且由于功能需求的特點,臨床研究數據治理并不能簡單地套用針對臨床醫療的數據治理框架。本文將針對臨床研究的數據治理框架的要素展開分析,以期為臨床研究數據治理提供可行,可靠的數據治理策略。
1 資料與方法
1.1 臨床研究數據現況調查
采用分層目的抽樣方法對來自北京市 6 所三級甲等醫院來自不同臨床專業,不同年資(包括高級、中級和初級職稱)且具有科研經歷的醫生完成半結構式訪談。了解他們在臨床研究中對于臨床數據的獲取方法、存儲方式及電子病歷系統等真實世界醫療數據的利用現狀。探討現有臨床研究過程所存在的問題。解析現存的主要問題與 ALCOA+CCEA 中的逐項標準的對應關系,明確現有數據應用過程及數據利用方法對數據質量的主要影響。并針對當前問題,提出建立符合 ALCOA+CCEA 標準的臨床研究數據系統,以及需要完成的主要任務項。
1.2 基于臨床數據質量標準的數據系統構建任務分析
實現臨床研究數據質量的 ALCOA+CCEA 標準,是臨床研究數據管理工作的目標。在明確針對現有問題的數據系統構建任務項的基礎上。對 ALCOA+CCEA 標準的目標要求給予準確描述。結合現有醫療數據信息系統及目前臨床研究數據的多途徑特征,明確各數據系統構建任務項與 ALCOA+CCEA 標準的映射關系,為進一步提煉形成數據治理體系奠定基礎。
1.3 明確臨床研究數據治理任務領域
對于目前各種數據治理框架下的數據治理領域及其相應的治理目標進行梳理。結合針對現有數據問題所獲得的 10 個任務項形成映射關系。結合臨床數據系統的特點和最終目標,逐一判讀各數據治理領域的重要性,做出合理取舍,確定臨床研究數據治理的任務領域,提出針對臨床研究的數據治理模式。
2 結果
2.1 臨床研究數據體系的數據來源與面臨的主要問題
共有 46 名臨床醫師參與了調查(表 1)。其中高級職稱 15 人(32.6%)、中級職稱 14 人(30.5%)、初級職稱 17 人(36.9%);平均年齡 36.55±8.23 歲(年齡范圍為 24~58 歲);男性 15 人(32.6%)、女性 31 人(67.4%);平均工作年限為 11.84±10.50 年(工齡范圍為 1~46 年)。納入的臨床科室包括創傷外科、兒科、放射科、婦產科、淋巴瘤科、麻醉科、皮膚科、普通外科、心內科、口腔修復科、眼科和腫瘤科共 12 個科室。

臨床研究中,參研醫師的臨床數據獲取存儲調查結果見表 2。在數據獲取方面,雖然電子病歷(electronic medical records,EMR)系統在醫院中普遍運行良好,但手工謄錄病例中的醫學信息仍然是最主要的獲取方式(39 人,84.4%)。究其原因,研究者提及的主要原因包括:無法導出、申請手續復雜、不同系統數據格式不一導致合并困難。手工轉錄方式不僅帶來龐大的工作量同時也給準確性、可溯源性帶來潛在的巨大風險。少數研究者(3 人,6.5%)能夠有機會利用有效的數據管理系統,在保障數據準確、可靠、安全的情況下從現有電子醫療信息中獲得研究數據并充分利用。同時手工謄錄的巨大工作量使 27 人(58.7%)認為他們研究工作中時間投入最多的環節是信息收集工作。

在數據存儲方面,目前仍存在研究數據用簡單的電子表格保存于個人電腦的方式及以依靠紙質文件為主要原始記錄保存方式的研究管理方式(21 人,45.7%)。此類方式存在較明顯的安全性漏洞,很可能造成數據遺失及數據誤操作等可能損害數據安全性與準確性。
從臨床研究數據管理工作現狀可見,主要影響研究數據質量的工作現狀問題包括:手工錄入、多系統數據合并困難及數據管理缺少安全性措施。對照 ALCOA+CCEA 標準的要求,每一項標準均受到一定損害。針對諸項標準要求,以目前的數據利用工作現狀為出發點,解析相應的數據信息系統構建任務項。每一項先轉問題的解決均需通過多項任務目標實現,具體對應關系見表 3。

2.2 臨床研究數據系統構建的主要任務需求
從臨床研究數據獲取過程看,臨床研究數據的獲取包括了多種途徑:可收集自記錄臨床醫療過程的電子病歷、電子健康檔案(electronic health records,EHR)、醫療保險數據庫等;記錄醫學信息的數據系統;針對特定的研究目的研究者主動收集的醫學相關信息;以及基于可穿戴設備等信息化途徑獲得的院外醫學和行為學數據等。
由于數據獲取途徑的多樣性,來自不同數據系統的數據往往彼此封閉,且管理機制、數據標準各不相同,在彼此割裂的情況下無法實現有效的數據關聯和分析,因此明確研究數據構成及其關聯屬性,實現不同來源數據的準確安全合并,消除信息孤島,控制冗余,實現數據的可利用性是數據科學必須面對的問題。對問題解析所明確的數據系統構建任務進行合并同類項,我們將臨床研究數據庫構建的數據處理核心技術任務解析為:數據質控、數據清洗、術語映射、數據抽取、數據結構化、數據整合、數據存儲、數據脫敏、數據加密和數據傳輸共 10 個任務項。臨床研究數據庫建設可以視為目標導向性工作。實現 ALCOA+CCEA 數據質量標準,是數據庫建設的最終目標。通過對不同標準完成準確描述,明確各任務項與各項標準之間的對應關系,每一項質量標準的實現均與一項或多項數據系統建設任務項相對應,具體對應關系見表 4。

2.3 面向醫療真實世界數據治理的任務領域規劃
為實現數據治理目標,需要將治理任務明確為相對應的核心治理任務領域。在主題任務相同的前提下,不同的應用領域、核心領域及其重要程度可能因具體應用需求不同有所不同。考查一般數據管理治理過程及針對臨床研究數據治理的特點,我們考慮需要考慮的治理領域包括:數據架構、數據模型、數據標準、數據質量、主數據、時效性管理、生命周期管理、元數據、數據安全和數據洞察[16]。對于臨床研究數據治理,我們對不同的可能涉及的領域一一判讀其重要性,最終形成臨床研究數據治理領域規范建議(表 5)。數據質量標準與數據管理任務數據治理要素的功能對應關系圖見圖 1。


由于臨床研究數據信息的特殊性,治理領域與其他專業應用過程不僅有所不同,而且在通用治理領域中,其重要性及內涵也不盡相同。其中最為突出的不同之處表現在以下幾個領域:① 數據架構:對于所有的數據治理過程都具有頂層設計的意義。它明確了數據治理的范疇及數據的來源,從而體現數據體系的總規劃。在臨床研究中,數據溯源具有極其重要的意義[23]。因此,源數據(source data)在臨床研究數據管理中的地位遠遠高于其他應用場景。這也使得數據架構領域的工作在臨床研究數據治理中尤為重要。② 元數據:對數據集中的每一個字段給出明確定義和屬性說明。在針對研究數據的管理中,對科研誠信的考查日益被重視,因此研究過程的數據留痕成為誠信評估的重要證據。因此,臨床研究數據信息的元數據不僅包括了面向臨床信息的數據留存,同時也包括了研究過程的數據項,從而使研究數據庫同時具有了研究過程信息存儲能力。③ 生命周期管理和數據洞察在很多數據治理體系中都是重要的組成部分,而對于臨床研究,臨床信息的取得往往需要永久保存;另外,臨床研究的數據分析往往有獨立的嚴格定義,而并非數據系統本身的職責。故而,這兩部分我們未列其中。
除以上之外,數據治理領域還包括:數據模型,以明確數據關聯;數據標準,統一標準實現數據共享;數據質量,提高效率和實現質量評價;主數據,形成可靠穩定的數據關聯;時效性管理,保障數據一致性以及數據安全,實現權限管理防止數據篡改等等。以上各領域對于數據系統建設具有普遍意義,且與實現 ALCOA+CCEA 數據質量標準的多個數據系統建設任務項有明確的對應關系,故全部納入臨床研究數據治理框架體系。
3 討論
數據治理并非僅針對現有數據利用的改善,更是通過對數據系統的完善從根本上促進臨床數據的存儲和利用。更完善的數據管理體系,能夠大大提升數據管理效率,通過數據架構梳理,明確數據溯源,定位源數據。
臨床研究的數據獲取及存儲現狀表明,電子醫療信息獲取存在困難,仍需要完成大量的手工數據轉錄,缺少安全考慮的存儲方式以及多系統來源數據合并困難,這都給臨床數據的溯源、準確性、完整性等帶來嚴重問題,特別是在面向真實世界數據的情況下,亟待構建基于真實世界數據來源通過數據治理構建方便安全高效的臨床研究數據管理體系。數據質量是臨床研究證據能力的重要基礎。ALCOA+CCEA 標準作為公認的臨床研究數據質量標準為我們明確了數據管理工作的任務目標和評價標準。但隨著信息技術發展,特別是在面向真實世界的臨床研究場景下,不斷出現的新的數據獲取方式,對數據獲取、存儲和利用不斷提出新的挑戰。如何充分利用整合多樣的數據途徑,更新和完善數據管理體系,構建符合確保數據質量目標,是目前臨床研究數據治理工作的當務之急。數據治理不僅僅是對現有數據和數據體系的整合梳理,同樣是對未來數據系統的規劃和提升。因此,數據治理工作應具有足夠地前瞻性,從而促進數據系統的穩定和發展。
通過數據治理,將全面提升數據整合能力,提高可利用性。為達成這一目標必將使標準化數據結構提出更高的要求。同時針對臨床醫療過程,如何更完整、有效地捕捉源數據,改善其可利用性,也將成為重要的研究主題和發展方向。其中結構化病例報告已經成為很多學科領域探索前進的方向[24, 25],通過病例結構化,不僅能夠使通過自然語言識別的數據提取變得更快捷、準確,同時也提高了臨床醫療的工作效率,改進工作速度,防止信息錯漏。實際上信息技術的發展給我們帶來的變化是多方面的,其作用遠遠不止于信息的收集和保存本身,它還將對我們的工作方式產生有益的推進作用。期待數據科學發展能引導我們走向臨床數據與研究數據的充分整合,以數據信息系統為中心,提供更為高效的醫學信息利用方式,提高診療研究效率,服務醫學科學發展。
在保證臨床信息的可溯源性的同時,數據系統的提升及其應用也給科研活動本身提供了溯源的可能。通過數據操作過程的痕跡保存,使得我們更有機會了解和記錄數據產生和處理的操作脈絡,這一點同樣可以應用于科研工作量和工作效率評估以及科研誠信的監察與證據信息保存,實現了臨床醫療及科研過程的全面記錄。
綜上,通過數據治理所實現的數據體系完善,基于 ALCOA+CCEA 標準充分保障研究數據質量。使我們有機會實現以數據倉庫為核心的臨床醫療和臨床科研信息管理體系。并最終將臨床醫療和臨床科研以及過程誠信監察。