元數據標準是描述某類資源的具體對象時所有規則的集合,用來規范數據采集、存儲、傳輸、計算和展示等過程,能有效提高數據處理效率和質量。本文從已有數據標準特點和應用等角度,對臨床研究領域現有元數據標準情況進行整理,為進一步推進相關研究提供參考,以期促進臨床研究規范化、療效評價客觀科學化。
引用本文: 馬琳, 鄧宏勇. 國內外臨床研究元數據標準:特點及現狀. 中國循證醫學雜志, 2023, 23(4): 478-484. doi: 10.7507/1672-2531.202210043 復制
元數據(metadata)是關于數據的數據,對資源對象具有描述與管理的作用[1]。對元數據設立一定的標準,并對元數據格式、長度、域信息等進行規范,可以在一定程度上杜絕元數據雜亂無章的現象[2],從而規范數據采集、存儲、傳輸、計算和展示等過程,有效提高數據處理效率和質量。元數據標準(metadata standard,又稱元數據規范)通常是數據驅動研究發現的關鍵,是至關重要的基礎設施。2020年7月,Nature刊文指出,新型冠狀病毒感染的流行揭示了忽略元數據標準的危險性,強調元數據標準對科學數據的發現、共享、再利用具有至關重要的作用[3]。
元數據標準在臨床研究領域具有廣闊的應用前景。通過制定和使用元數據標準,可以對臨床試驗信息和結果進行規范化的提取和處理,形成適合進行大數據分析、系統評價等研究的結構化數據,有助于實現異源、異構醫學信息資源整合,提高證據轉化效率,實現信息系統的互操作和知識資源的共享,協助醫學專家、患者和普通民眾發現所需的知識資源,并保證知識資源檢索的質量和相關性[4]。
本文從已有數據標準特點和應用等角度,對臨床研究領域現有元數據標準情況進行整理,為相關元數據標準的進一步研究提供參考,以期促進臨床研究規范化、療效評價客觀科學化。
1 元數據標準的定義及分類
元數據標準的定義有廣義與狹義之分。廣義上來說,所有對元數據設立的規范均可稱為元數據標準;狹義上來說,元數據標準是描述某類資源的具體對象時所有規則的集合[5-6]。元數據標準有多種分類方式,常見的劃分依據有以下幾類:① 應用的學科領域;② 專指度和通用程度;③ 互操作級別(圖1)。

1.1 根據應用領域劃分元數據標準
元數據標準的制定總是在特定應用下開展,反映不同領域的實踐和原則,適應不同領域用戶的需求。因此,應為不同領域制定不同的元數據標準[7]。目前,醫療衛生領域存在信息大范圍數字化、各種異構醫院臨床數據大量增長等問題[8]。臨床研究方面,由于研究目的、研究類型、病例收集范圍不同,對數據內容與系統功能需求不同,產生了應用于不同領域的元數據標準,例如用于支持藥物、器械或治療方法的前瞻性臨床試驗研究的臨床試驗元數據標準、用于支持疾病或治療措施的觀察性研究的病例注冊元數據標準等[9]。
1.2 根據專指度和通用性劃分元數據標準
專指度和通用性是元數據標準設計原則之一。專指度是指由于各類資源的特性不盡相同,需要根據具體的資源實體來確定相應的元數據標準;通用性指應盡可能覆蓋多種相似或有相近特性的對象[10]。根據專指度和通用性,元數據標準可被分為通用(型)元數據標準(generic/general/cross-disciplinary metadata standard)和專門元數據標準(domain-specific/domain metadata standard)[11-13]。通用型元數據的關鍵特征是覆蓋對象多,可被廣泛映射[14],往往簡潔易用,元素語義相對穩定。專門元數據標準則面向描述單一數字對象的內容、屬性及外在特征的元數據[6]所設立,專指度高,描述深度良好,應用范圍相對固定[15]。“通用”與“專門”的界定具有相對性。
1.3 根據互操作級別劃分元數據標準
醫療衛生信息和管理系統協會(Healthcare Information and Management Systems Society,HIMSS)將“互操作性”定義為不同信息系統和軟件應用之間的通訊能力、數據交換能力、信息使用能力,并推薦將健康醫療信息技術互操作性劃分為基礎(foundational)、結構(structural)和語義(semantic)[16]三個級別。據此,元數據標準可分為基礎/技術、結構、語義標準三種[17]。技術/基礎標準(technical/foundational standard)用于滿足從一個信息系統到另一個系統的數據傳輸需求,所對應的是彼此交換數據的能力;結構標準(structure standard)即元數據元素集等,定義數據在系統之間交換的結構和格式;語義標準(semantic standard)是對數據編碼的規范,配合結構標準,可以實現系統對數據的解讀。
本文解讀對象為應用于臨床研究領域的具有代表性的廣義上的元數據標準。
2 臨床研究元數據標準特點
為實現異源異構醫學信息資源整合、提高數據價值的實現,目前已有部分針對臨床研究元數據的規范發布。還有一些通用型標準雖然不是針對臨床研究設立,但對該領域元數據標準有重要參考意義。受篇幅限制,本文僅介紹部分代表性元數據標準。
2.1 通用型元數據標準
2.1.1 都柏林核心元數據元素集(Dublin coreTM metadata element set,DCMES)
簡稱都柏林核心元數據集,是面向數字資源的元數據結構標準,由都柏林核心元數據啟動計劃(Dublin core metadata initiative,DCMI)主持制定并維護。DCMES創建維護簡便、術語被普遍理解、國際認同度高、可擴展[6,18-20],能用于描述幾乎任何類型的數字對象;但也缺乏特異性,很難充分描述數字對象的復雜性。在多數情況下,解決方法是創建一個混合方案:以DCMES為基礎,使用其他字段來描述細微差別[21]。
2.1.2 ISO/IEC 11179《信息技術—元數據登記》(information technology—metadata registries,MDR)
元數據登記(metadata registry,MR或MDR)指在開放登記系統中對元數據規范及其應用規則進行的標準化注冊[6],以ISO/IEC 11179 MDR為代表。該標準由國際標準化組織(International Organization for Standardization,ISO)發布,旨在通過記錄單個數據元素的語義來支持系統之間的數據交換。
2.2 專門元數據標準
2.2.1 臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)標準
CDISC成立于1997年,致力于臨床試驗數據標準化,以優化藥物研發流程,進而促進人類健康。已發布的CDISC標準主要分為四類:
① 基礎標準(foundational standards):是其他CDISC標準的基礎,側重于定義數據標準的核心原則,支持臨床研究全流程的數據收集、管理、分析與報告。例如SEND、PRM、CDASH、SDTM、ADaM等。
② 數據交換標準(data exchange standards):用于在不同信息系統之間共享結構化數據。例如ODM-XML、Define-XML、CTR-XML等。
③ 治療領域(therapeutic areas)標準:是對基礎標準的擴展,以表示與特定疾病領域相關的數據。
④ 受控術語(controlled terminology):是一組由CDISC開發或采用的標準表達式(值),用于CDISC定義的數據集中的數據項,確保一致地收集和記錄數據[22]。
2.2.2 觀測指標標識符邏輯命名與編碼系統(logical observation on identifiers names and codes,LOINC)
LOINC是一項標識實驗室及臨床觀察、觀測指標的元數據語義標準,于1994年由Regenstrief研究院發布[23]。LOINC每年發布兩次新版本,目前版本已覆蓋實驗室測試全范圍(化學、微生物學等)和大量臨床觀測內容(如生命體征、心電圖、患者報告結果、臨床文件標題、放射學報告等)。
2.2.3 開放式電子健康檔案(open electronic health record,openEHR)
openEHR是由openEHR基金會(openEHR foundation)[24]提出的一項元數據結構標準和共享的醫療信息規范,其目標是通過制定標準的醫療信息模型,實現醫療信息的語義互操作,并且設計靈活的醫療信息系統架構,使醫療信息系統能夠適應醫療信息的發展變化,降低醫療信息系統開發維護的難度[25]。
2.2.4 醫療健康信息傳輸與交換標準(health level seven standards,HL7)
HL7小組旨在為電子化醫療保健信息的交換、管理及整合創建標準。其發布HL7標準的基本目標是為醫療保健服務計算機應用軟件之間的數據交換提供標準,并消除或在很大程度上減少用戶接口編程和必要的程序維護。該標準采用消息傳遞方式實現不同軟件模塊之間的互聯,適用于不同的系統環境中的應用和數據結構之間的通信,已獲得美國國家標準學會(American National Standards Institute,ANSI)的認可并擁有標準發展組織(Standards Developing Organizations,SDOs)資格,多個發達國家的政府機構及大型企業均采用HL7[26]。
2.2.5 MEDLINE?/PubMed?數據元素(字段)說明
MEDLINE?/PubMed?數據元素(字段)說明描述了在PubMed/MEDLINE記錄的MEDLINE顯示格式中出現的主要元素或字段[27]。KoreaMed、J-STAGE(Japan science and technology information aggregator, electronic)及日本綜合學術信息數據庫CiNii等醫學文獻檢索系統所使用的元數據格式均與PubMed有較多重合[28]。
2.2.6 北美臨床試驗注冊中心干預性及觀察性臨床試驗方案注冊數據元素說明
北美臨床試驗中心(ClinicalTrials.gov)是目前國際上最具影響力的臨床試驗注冊機構之一,被視為透明化、國際化臨床試驗注冊的典范。其注冊條目內容設計合理可行,被多個臨床試驗注冊規范列為參考[29]。其發布的干預性及觀察性臨床試驗方案注冊數據元素說明(ClinicalTrials.gov protocol registration data element definitions for interventional and observational studies)大部分參照美國衛生與公眾服務部(U.S. Department of Health and Human Services,HHS)于2017年正式施行的《臨床試驗注冊及結果信息提交》規范(clinical trials registration and results information submission)第11部分設定[30-31]。
2.2.7 ISO 13119《健康信息學—臨床知識資源—元數據》
隨著互聯網的發展,如何通過網絡數據庫和其他電子文檔檢索與目的密切相關的合適的知識資源、如何評估知識資源的質量與真實性,成為亟待解決的問題。為此,歐洲標準化委員會(European Committee for Standardization,CEN)與ISO合作出臺了ISO 13119《健康信息學-知識資源-元數據》。該標準定義的元數據元素能對醫學知識資源的重要特征進行準確、規范的描述,適用于各類數字化文檔,用于支持醫學文獻和自動推理[32]。
部分代表性元數據標準的特點見表1。

2.3 國內臨床研究元數據標準
我國國家藥品監督管理局于2003年發布了《藥物臨床試驗質量管理規范》,對臨床試驗數據管理提出了原則性要求,作為臨床數據管理規范沿用至今;又于2016年頒布了《臨床試驗的電子數據采集技術指導原則》《臨床試驗數據管理工作技術指南》以及《藥物臨床試驗數據管理與統計分析的計劃和報告指導原則》[33],從數據管理相關人員的職責、資質和培訓、管理系統的要求、試驗數據的標準化、數據管理工作的主要內容以及數據質量的保障和評估、安全性數據及嚴重不良事件等6個方面提出具體操作要求[34]。
第二軍醫大學徐維等學者[35-36]的《臨床路徑核心元數據體系的語義結構》和《前瞻性臨床研究元數據語義結構體系的建構》參考臨床醫學元數據標準和電子病歷元數據標準,構建臨床醫學的元數據語義架構體系(openPCR),建立了前瞻性臨床研究數據庫的語義結構體系,為前瞻性臨床研究的數據標準化、數據交換與共享以及與電子病歷系統的兼容奠定了基礎[37]。
我國在中醫藥方面,已發表和產生了大量的科學研究與數據[38],但面臨著標準化程度不高、數據定義不一致造成的信息孤島、數據鴻溝等問題。近年來,一系列相關標準陸續發布。2014年,ISO發布了ISO/TS 17938:2014《健康信息學—中醫藥學語言系統語義網絡框架》(health informatics—semantic network framework of traditional Chinese medicine language system);2020年,我國市場監督管理總局、國家標準化管理委員會聯合發布了GB/T 38324-2019《健康信息學 中醫藥學語言系統語義網絡框架》。中醫藥學語言系統(traditional Chinese medicine language system,TCMLS)旨在建立規范化、一體化的中醫藥術語體系,以支持中醫藥文獻與數據資源的合理組織和有效檢索。該標準的核心內容是一個中醫藥領域的規范化頂層本,即TCMLS Semantic Network,包括語義類型和語義關系兩大部分。TCMLS Semantic Network列舉了中醫藥領域中最基本的96種語義類型,并對其進行了定義和限定;定義了58種基本的語義關系,用于建立TCMLS概念之間的邏輯關系[39]。該標準不僅規范和支持了TCMLS的建設,還為中醫藥學術與系統和本體創建提供了語義標準,對中醫藥學術與信息的交換具有重要意義[40]。
ISO還發布了ISO/TS 17948:2014《健康信息學—中醫藥文獻元數據》(health informatics—traditional Chinese medicine literature metadata)。該標準由中國中醫科學院中醫藥信息研究所研制,規定了中醫藥文獻元數據標準化的基本原則和方法,覆蓋中醫藥學領域具有共性的全部元數據內容,為中醫藥學的文獻資源提供了一套通用的描述元素。它能夠規范、科學、合理地描述中醫藥學文獻,提供有關中醫學科學文獻的標識、內容、分發、質量、限制和維護信息,以支持中醫藥文獻的收集、存儲、檢索和使用,促進資源交流與共享,對于中醫藥文獻資源的系統保護和深度利用具有重要意義[41]。
此外,已有學者從多個方面對中醫藥類元數據標準化展開了深入研究,如中醫古籍元數據[42]、面向中醫診療知識庫的醫案元數據模型[43]、中醫文獻元數據標準體系[44-45]、中醫藥隨機對照試驗元數據完整性客觀評價模型[46]等。
3 臨床研究元數據標準應用現狀
標準化的出發點是“獲得最佳秩序,促進共同效益”,需要在科學技術進步和人類實踐經驗深化的過程中不斷重新修訂、貫徹標準,達到新的統一[47]。臨床研究元數據標準的價值直接體現在臨床研究數據管理中,也需要根據臨床研究數據管理實踐的反饋不斷評價及完善自身。
臨床研究元數據標準的應用可分為兩個方面:直接應用于臨床研究數據管理,以及作為其他元數據標準的基礎或參考、協助建立新標準。從應用情況來看,已有較多關于臨床研究元數據標準建立的研究開展,但在臨床科研數據管理的過程中得到廣泛推廣應用的標準仍較少;從通用角度來看,不同組織研究目的、要求不同,臨床研究數據管理過程中所使用的標準也不盡相同。
目前,臨床研究領域國際認同度較高、應用較廣泛的元數據標準主要以DCMES、CDISC以及HL7為代表,其應用現狀簡介如下。
3.1 DCMES在臨床研究中的應用
DCMES比較全面地概括了電子資源的主要特征,支持對任何學科領域的資源進行描述。為了加強各領域元數據標準溝通和兼容,實現跨領域檢索,許多專門元數據標準的制定都以DCMES為基礎[32]。在臨床應用過程中,DCMES通常被用作專門元數據標準建立的基礎,例如ISO 13119和ISO/TS 17948:2014都是在絕大部分使用DCMES的基礎上,對部分元數據元素進行了細化與解釋,又根據各自的原則與特點增加了需要的元素。
3.2 CDISC標準在臨床研究中的應用
自CDISC成立以來,美國食品藥品監督管理局(Food and Drug Administration,FDA)就與其密切合作,以確保所建立的標準能讓監管審查人員更有效地接收、處理、審查及歸檔數據;提交給FDA的監管文件必須符合相應的CDISC標準。日本獨立行政法人醫藥品醫療器械綜合機構(Pharmaceuticals and Medical Devices Agency,PMDA)同樣采用CDISC標準[48-49]。我國食品藥品監督管理總局發布的《臨床試驗數據管理工作技術指南》[50]、藥品審評中心發布的《eCTD中臨床試驗數據庫及相關資料的申報要求(征求意見稿)》[51]和《藥物臨床試驗數據遞交指導原則(試行)》[52]均鼓勵申辦方參照CDISC標準遞交臨床試驗數據及相關的申報資料。
3.3 HL7在臨床研究中的應用
在電子病歷、區域衛生信息化建設中,HL7是支撐互操作性、互聯互通能力的基礎標準之一。HHS發布的醫療信息技術(health information technology,HIT)最終規則明確選用了一系列HL7標準。在美國,HL7實際上已成為一個強制性標準[53],涉及病房和患者信息管理、化驗系統、放射系統等各個方面。近年來,FDA、HL7小組等多個標準組織正致力于研發一個主要在CDISC和HL7參考信息模型(reference information model,RIM)之間建立映射關系的生物醫學研究綜合領域組(biomedical research integrated domain group,BRIDG)模型,以促進醫療信息與臨床研究信息之間的語義互通[54-55]。
4 結論
元數據是識別、描述和處理信息的強大工具。總體來看,隨著多國家、機構、學者深入合作,醫藥衛生領域的元數據標準不斷完善,覆蓋領域不斷擴大。
縱觀國際臨床研究元數據標準研究與應用,具備以下特點:從數據來源上看,不同元數據標準適用范圍有所不同;從互操作層面來看,各標準所規范的內容也存在差異;從發布組織和實際應用情況來看,在多方面資金、技術等的支持下,領頭研究組織已發布了部分得到廣泛認可與推薦的元數據標準,但受臨床研究數據多源異構、數量龐大等特點的影響,其應用仍需進一步推動。
在我國,隨著云計算技術的成熟以及大數據在臨床研究領域的深化應用,臨床數字化的可操作性與便捷性提升,為我國臨床研究領域進入智能平臺時代構建了堅定的基石。中國食品藥品監督管理局于2015年發布《關于開展藥物臨床研究數據自查核查工作的公告》,對數據核查提出了嚴格要求,自此,臨床研究數字化系統逐漸普及使用[56],臨床研究元數據標準化研究越發受到重視,發展迅速。
目前,臨床研究元數據仍缺乏通用的標準,其主要原因包括:① 背景條件不同:不同單位的人才基礎、資金投入、政策扶持等不同,對不同指標數據的重視程度、臨床數據采集方式與存儲格式不同;② 研究對象不同:不同疾病的特征差異較大,需要應用不同研究方法;③ 已有標準基礎不同:不同地區采用的術語等標準存在差異。
此外,隨著信息化的發展,臨床研究數據倫理與法律體系尚不完善、數據管理制度缺乏合理、隱私數據保護措施不足等也間接對臨床研究元數據標準的研發與使用造成了不良影響[57]。
與其他領域的科學數據相比,臨床研究數據具有專業特征,也存在基礎共性;其元數據標準的制定不僅需要權威單位牽頭,更需要諸多不同領域學術團體共同參與;不僅需要通用型標準作為基礎,也需要針對不同研究方法與對象的專門標準進行補充,并在實踐中不斷修訂;不僅需要研究如何建立標準,也要研究如何推廣應用。
針對上述挑戰與特征,從外界支持角度,業界將需要更多的政策指導與資金扶持,以推進臨床研究元數據標準的建立、完善與應用;從標準制訂角度,相關單位應推進多學科人才參與,遵循更為嚴格的數據管理計劃,以體現科學數據共性與臨床研究數據特性。
元數據標準對于數據的發現、共享、再利用起著舉足輕重的作用,承載著現代醫學發展的重任。隨著越來越多學者、機構的參與,醫學信息化與循證決策必將得到進一步發展,進一步推動世界臨床研究,惠及更多人群。
元數據(metadata)是關于數據的數據,對資源對象具有描述與管理的作用[1]。對元數據設立一定的標準,并對元數據格式、長度、域信息等進行規范,可以在一定程度上杜絕元數據雜亂無章的現象[2],從而規范數據采集、存儲、傳輸、計算和展示等過程,有效提高數據處理效率和質量。元數據標準(metadata standard,又稱元數據規范)通常是數據驅動研究發現的關鍵,是至關重要的基礎設施。2020年7月,Nature刊文指出,新型冠狀病毒感染的流行揭示了忽略元數據標準的危險性,強調元數據標準對科學數據的發現、共享、再利用具有至關重要的作用[3]。
元數據標準在臨床研究領域具有廣闊的應用前景。通過制定和使用元數據標準,可以對臨床試驗信息和結果進行規范化的提取和處理,形成適合進行大數據分析、系統評價等研究的結構化數據,有助于實現異源、異構醫學信息資源整合,提高證據轉化效率,實現信息系統的互操作和知識資源的共享,協助醫學專家、患者和普通民眾發現所需的知識資源,并保證知識資源檢索的質量和相關性[4]。
本文從已有數據標準特點和應用等角度,對臨床研究領域現有元數據標準情況進行整理,為相關元數據標準的進一步研究提供參考,以期促進臨床研究規范化、療效評價客觀科學化。
1 元數據標準的定義及分類
元數據標準的定義有廣義與狹義之分。廣義上來說,所有對元數據設立的規范均可稱為元數據標準;狹義上來說,元數據標準是描述某類資源的具體對象時所有規則的集合[5-6]。元數據標準有多種分類方式,常見的劃分依據有以下幾類:① 應用的學科領域;② 專指度和通用程度;③ 互操作級別(圖1)。

1.1 根據應用領域劃分元數據標準
元數據標準的制定總是在特定應用下開展,反映不同領域的實踐和原則,適應不同領域用戶的需求。因此,應為不同領域制定不同的元數據標準[7]。目前,醫療衛生領域存在信息大范圍數字化、各種異構醫院臨床數據大量增長等問題[8]。臨床研究方面,由于研究目的、研究類型、病例收集范圍不同,對數據內容與系統功能需求不同,產生了應用于不同領域的元數據標準,例如用于支持藥物、器械或治療方法的前瞻性臨床試驗研究的臨床試驗元數據標準、用于支持疾病或治療措施的觀察性研究的病例注冊元數據標準等[9]。
1.2 根據專指度和通用性劃分元數據標準
專指度和通用性是元數據標準設計原則之一。專指度是指由于各類資源的特性不盡相同,需要根據具體的資源實體來確定相應的元數據標準;通用性指應盡可能覆蓋多種相似或有相近特性的對象[10]。根據專指度和通用性,元數據標準可被分為通用(型)元數據標準(generic/general/cross-disciplinary metadata standard)和專門元數據標準(domain-specific/domain metadata standard)[11-13]。通用型元數據的關鍵特征是覆蓋對象多,可被廣泛映射[14],往往簡潔易用,元素語義相對穩定。專門元數據標準則面向描述單一數字對象的內容、屬性及外在特征的元數據[6]所設立,專指度高,描述深度良好,應用范圍相對固定[15]。“通用”與“專門”的界定具有相對性。
1.3 根據互操作級別劃分元數據標準
醫療衛生信息和管理系統協會(Healthcare Information and Management Systems Society,HIMSS)將“互操作性”定義為不同信息系統和軟件應用之間的通訊能力、數據交換能力、信息使用能力,并推薦將健康醫療信息技術互操作性劃分為基礎(foundational)、結構(structural)和語義(semantic)[16]三個級別。據此,元數據標準可分為基礎/技術、結構、語義標準三種[17]。技術/基礎標準(technical/foundational standard)用于滿足從一個信息系統到另一個系統的數據傳輸需求,所對應的是彼此交換數據的能力;結構標準(structure standard)即元數據元素集等,定義數據在系統之間交換的結構和格式;語義標準(semantic standard)是對數據編碼的規范,配合結構標準,可以實現系統對數據的解讀。
本文解讀對象為應用于臨床研究領域的具有代表性的廣義上的元數據標準。
2 臨床研究元數據標準特點
為實現異源異構醫學信息資源整合、提高數據價值的實現,目前已有部分針對臨床研究元數據的規范發布。還有一些通用型標準雖然不是針對臨床研究設立,但對該領域元數據標準有重要參考意義。受篇幅限制,本文僅介紹部分代表性元數據標準。
2.1 通用型元數據標準
2.1.1 都柏林核心元數據元素集(Dublin coreTM metadata element set,DCMES)
簡稱都柏林核心元數據集,是面向數字資源的元數據結構標準,由都柏林核心元數據啟動計劃(Dublin core metadata initiative,DCMI)主持制定并維護。DCMES創建維護簡便、術語被普遍理解、國際認同度高、可擴展[6,18-20],能用于描述幾乎任何類型的數字對象;但也缺乏特異性,很難充分描述數字對象的復雜性。在多數情況下,解決方法是創建一個混合方案:以DCMES為基礎,使用其他字段來描述細微差別[21]。
2.1.2 ISO/IEC 11179《信息技術—元數據登記》(information technology—metadata registries,MDR)
元數據登記(metadata registry,MR或MDR)指在開放登記系統中對元數據規范及其應用規則進行的標準化注冊[6],以ISO/IEC 11179 MDR為代表。該標準由國際標準化組織(International Organization for Standardization,ISO)發布,旨在通過記錄單個數據元素的語義來支持系統之間的數據交換。
2.2 專門元數據標準
2.2.1 臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)標準
CDISC成立于1997年,致力于臨床試驗數據標準化,以優化藥物研發流程,進而促進人類健康。已發布的CDISC標準主要分為四類:
① 基礎標準(foundational standards):是其他CDISC標準的基礎,側重于定義數據標準的核心原則,支持臨床研究全流程的數據收集、管理、分析與報告。例如SEND、PRM、CDASH、SDTM、ADaM等。
② 數據交換標準(data exchange standards):用于在不同信息系統之間共享結構化數據。例如ODM-XML、Define-XML、CTR-XML等。
③ 治療領域(therapeutic areas)標準:是對基礎標準的擴展,以表示與特定疾病領域相關的數據。
④ 受控術語(controlled terminology):是一組由CDISC開發或采用的標準表達式(值),用于CDISC定義的數據集中的數據項,確保一致地收集和記錄數據[22]。
2.2.2 觀測指標標識符邏輯命名與編碼系統(logical observation on identifiers names and codes,LOINC)
LOINC是一項標識實驗室及臨床觀察、觀測指標的元數據語義標準,于1994年由Regenstrief研究院發布[23]。LOINC每年發布兩次新版本,目前版本已覆蓋實驗室測試全范圍(化學、微生物學等)和大量臨床觀測內容(如生命體征、心電圖、患者報告結果、臨床文件標題、放射學報告等)。
2.2.3 開放式電子健康檔案(open electronic health record,openEHR)
openEHR是由openEHR基金會(openEHR foundation)[24]提出的一項元數據結構標準和共享的醫療信息規范,其目標是通過制定標準的醫療信息模型,實現醫療信息的語義互操作,并且設計靈活的醫療信息系統架構,使醫療信息系統能夠適應醫療信息的發展變化,降低醫療信息系統開發維護的難度[25]。
2.2.4 醫療健康信息傳輸與交換標準(health level seven standards,HL7)
HL7小組旨在為電子化醫療保健信息的交換、管理及整合創建標準。其發布HL7標準的基本目標是為醫療保健服務計算機應用軟件之間的數據交換提供標準,并消除或在很大程度上減少用戶接口編程和必要的程序維護。該標準采用消息傳遞方式實現不同軟件模塊之間的互聯,適用于不同的系統環境中的應用和數據結構之間的通信,已獲得美國國家標準學會(American National Standards Institute,ANSI)的認可并擁有標準發展組織(Standards Developing Organizations,SDOs)資格,多個發達國家的政府機構及大型企業均采用HL7[26]。
2.2.5 MEDLINE?/PubMed?數據元素(字段)說明
MEDLINE?/PubMed?數據元素(字段)說明描述了在PubMed/MEDLINE記錄的MEDLINE顯示格式中出現的主要元素或字段[27]。KoreaMed、J-STAGE(Japan science and technology information aggregator, electronic)及日本綜合學術信息數據庫CiNii等醫學文獻檢索系統所使用的元數據格式均與PubMed有較多重合[28]。
2.2.6 北美臨床試驗注冊中心干預性及觀察性臨床試驗方案注冊數據元素說明
北美臨床試驗中心(ClinicalTrials.gov)是目前國際上最具影響力的臨床試驗注冊機構之一,被視為透明化、國際化臨床試驗注冊的典范。其注冊條目內容設計合理可行,被多個臨床試驗注冊規范列為參考[29]。其發布的干預性及觀察性臨床試驗方案注冊數據元素說明(ClinicalTrials.gov protocol registration data element definitions for interventional and observational studies)大部分參照美國衛生與公眾服務部(U.S. Department of Health and Human Services,HHS)于2017年正式施行的《臨床試驗注冊及結果信息提交》規范(clinical trials registration and results information submission)第11部分設定[30-31]。
2.2.7 ISO 13119《健康信息學—臨床知識資源—元數據》
隨著互聯網的發展,如何通過網絡數據庫和其他電子文檔檢索與目的密切相關的合適的知識資源、如何評估知識資源的質量與真實性,成為亟待解決的問題。為此,歐洲標準化委員會(European Committee for Standardization,CEN)與ISO合作出臺了ISO 13119《健康信息學-知識資源-元數據》。該標準定義的元數據元素能對醫學知識資源的重要特征進行準確、規范的描述,適用于各類數字化文檔,用于支持醫學文獻和自動推理[32]。
部分代表性元數據標準的特點見表1。

2.3 國內臨床研究元數據標準
我國國家藥品監督管理局于2003年發布了《藥物臨床試驗質量管理規范》,對臨床試驗數據管理提出了原則性要求,作為臨床數據管理規范沿用至今;又于2016年頒布了《臨床試驗的電子數據采集技術指導原則》《臨床試驗數據管理工作技術指南》以及《藥物臨床試驗數據管理與統計分析的計劃和報告指導原則》[33],從數據管理相關人員的職責、資質和培訓、管理系統的要求、試驗數據的標準化、數據管理工作的主要內容以及數據質量的保障和評估、安全性數據及嚴重不良事件等6個方面提出具體操作要求[34]。
第二軍醫大學徐維等學者[35-36]的《臨床路徑核心元數據體系的語義結構》和《前瞻性臨床研究元數據語義結構體系的建構》參考臨床醫學元數據標準和電子病歷元數據標準,構建臨床醫學的元數據語義架構體系(openPCR),建立了前瞻性臨床研究數據庫的語義結構體系,為前瞻性臨床研究的數據標準化、數據交換與共享以及與電子病歷系統的兼容奠定了基礎[37]。
我國在中醫藥方面,已發表和產生了大量的科學研究與數據[38],但面臨著標準化程度不高、數據定義不一致造成的信息孤島、數據鴻溝等問題。近年來,一系列相關標準陸續發布。2014年,ISO發布了ISO/TS 17938:2014《健康信息學—中醫藥學語言系統語義網絡框架》(health informatics—semantic network framework of traditional Chinese medicine language system);2020年,我國市場監督管理總局、國家標準化管理委員會聯合發布了GB/T 38324-2019《健康信息學 中醫藥學語言系統語義網絡框架》。中醫藥學語言系統(traditional Chinese medicine language system,TCMLS)旨在建立規范化、一體化的中醫藥術語體系,以支持中醫藥文獻與數據資源的合理組織和有效檢索。該標準的核心內容是一個中醫藥領域的規范化頂層本,即TCMLS Semantic Network,包括語義類型和語義關系兩大部分。TCMLS Semantic Network列舉了中醫藥領域中最基本的96種語義類型,并對其進行了定義和限定;定義了58種基本的語義關系,用于建立TCMLS概念之間的邏輯關系[39]。該標準不僅規范和支持了TCMLS的建設,還為中醫藥學術與系統和本體創建提供了語義標準,對中醫藥學術與信息的交換具有重要意義[40]。
ISO還發布了ISO/TS 17948:2014《健康信息學—中醫藥文獻元數據》(health informatics—traditional Chinese medicine literature metadata)。該標準由中國中醫科學院中醫藥信息研究所研制,規定了中醫藥文獻元數據標準化的基本原則和方法,覆蓋中醫藥學領域具有共性的全部元數據內容,為中醫藥學的文獻資源提供了一套通用的描述元素。它能夠規范、科學、合理地描述中醫藥學文獻,提供有關中醫學科學文獻的標識、內容、分發、質量、限制和維護信息,以支持中醫藥文獻的收集、存儲、檢索和使用,促進資源交流與共享,對于中醫藥文獻資源的系統保護和深度利用具有重要意義[41]。
此外,已有學者從多個方面對中醫藥類元數據標準化展開了深入研究,如中醫古籍元數據[42]、面向中醫診療知識庫的醫案元數據模型[43]、中醫文獻元數據標準體系[44-45]、中醫藥隨機對照試驗元數據完整性客觀評價模型[46]等。
3 臨床研究元數據標準應用現狀
標準化的出發點是“獲得最佳秩序,促進共同效益”,需要在科學技術進步和人類實踐經驗深化的過程中不斷重新修訂、貫徹標準,達到新的統一[47]。臨床研究元數據標準的價值直接體現在臨床研究數據管理中,也需要根據臨床研究數據管理實踐的反饋不斷評價及完善自身。
臨床研究元數據標準的應用可分為兩個方面:直接應用于臨床研究數據管理,以及作為其他元數據標準的基礎或參考、協助建立新標準。從應用情況來看,已有較多關于臨床研究元數據標準建立的研究開展,但在臨床科研數據管理的過程中得到廣泛推廣應用的標準仍較少;從通用角度來看,不同組織研究目的、要求不同,臨床研究數據管理過程中所使用的標準也不盡相同。
目前,臨床研究領域國際認同度較高、應用較廣泛的元數據標準主要以DCMES、CDISC以及HL7為代表,其應用現狀簡介如下。
3.1 DCMES在臨床研究中的應用
DCMES比較全面地概括了電子資源的主要特征,支持對任何學科領域的資源進行描述。為了加強各領域元數據標準溝通和兼容,實現跨領域檢索,許多專門元數據標準的制定都以DCMES為基礎[32]。在臨床應用過程中,DCMES通常被用作專門元數據標準建立的基礎,例如ISO 13119和ISO/TS 17948:2014都是在絕大部分使用DCMES的基礎上,對部分元數據元素進行了細化與解釋,又根據各自的原則與特點增加了需要的元素。
3.2 CDISC標準在臨床研究中的應用
自CDISC成立以來,美國食品藥品監督管理局(Food and Drug Administration,FDA)就與其密切合作,以確保所建立的標準能讓監管審查人員更有效地接收、處理、審查及歸檔數據;提交給FDA的監管文件必須符合相應的CDISC標準。日本獨立行政法人醫藥品醫療器械綜合機構(Pharmaceuticals and Medical Devices Agency,PMDA)同樣采用CDISC標準[48-49]。我國食品藥品監督管理總局發布的《臨床試驗數據管理工作技術指南》[50]、藥品審評中心發布的《eCTD中臨床試驗數據庫及相關資料的申報要求(征求意見稿)》[51]和《藥物臨床試驗數據遞交指導原則(試行)》[52]均鼓勵申辦方參照CDISC標準遞交臨床試驗數據及相關的申報資料。
3.3 HL7在臨床研究中的應用
在電子病歷、區域衛生信息化建設中,HL7是支撐互操作性、互聯互通能力的基礎標準之一。HHS發布的醫療信息技術(health information technology,HIT)最終規則明確選用了一系列HL7標準。在美國,HL7實際上已成為一個強制性標準[53],涉及病房和患者信息管理、化驗系統、放射系統等各個方面。近年來,FDA、HL7小組等多個標準組織正致力于研發一個主要在CDISC和HL7參考信息模型(reference information model,RIM)之間建立映射關系的生物醫學研究綜合領域組(biomedical research integrated domain group,BRIDG)模型,以促進醫療信息與臨床研究信息之間的語義互通[54-55]。
4 結論
元數據是識別、描述和處理信息的強大工具。總體來看,隨著多國家、機構、學者深入合作,醫藥衛生領域的元數據標準不斷完善,覆蓋領域不斷擴大。
縱觀國際臨床研究元數據標準研究與應用,具備以下特點:從數據來源上看,不同元數據標準適用范圍有所不同;從互操作層面來看,各標準所規范的內容也存在差異;從發布組織和實際應用情況來看,在多方面資金、技術等的支持下,領頭研究組織已發布了部分得到廣泛認可與推薦的元數據標準,但受臨床研究數據多源異構、數量龐大等特點的影響,其應用仍需進一步推動。
在我國,隨著云計算技術的成熟以及大數據在臨床研究領域的深化應用,臨床數字化的可操作性與便捷性提升,為我國臨床研究領域進入智能平臺時代構建了堅定的基石。中國食品藥品監督管理局于2015年發布《關于開展藥物臨床研究數據自查核查工作的公告》,對數據核查提出了嚴格要求,自此,臨床研究數字化系統逐漸普及使用[56],臨床研究元數據標準化研究越發受到重視,發展迅速。
目前,臨床研究元數據仍缺乏通用的標準,其主要原因包括:① 背景條件不同:不同單位的人才基礎、資金投入、政策扶持等不同,對不同指標數據的重視程度、臨床數據采集方式與存儲格式不同;② 研究對象不同:不同疾病的特征差異較大,需要應用不同研究方法;③ 已有標準基礎不同:不同地區采用的術語等標準存在差異。
此外,隨著信息化的發展,臨床研究數據倫理與法律體系尚不完善、數據管理制度缺乏合理、隱私數據保護措施不足等也間接對臨床研究元數據標準的研發與使用造成了不良影響[57]。
與其他領域的科學數據相比,臨床研究數據具有專業特征,也存在基礎共性;其元數據標準的制定不僅需要權威單位牽頭,更需要諸多不同領域學術團體共同參與;不僅需要通用型標準作為基礎,也需要針對不同研究方法與對象的專門標準進行補充,并在實踐中不斷修訂;不僅需要研究如何建立標準,也要研究如何推廣應用。
針對上述挑戰與特征,從外界支持角度,業界將需要更多的政策指導與資金扶持,以推進臨床研究元數據標準的建立、完善與應用;從標準制訂角度,相關單位應推進多學科人才參與,遵循更為嚴格的數據管理計劃,以體現科學數據共性與臨床研究數據特性。
元數據標準對于數據的發現、共享、再利用起著舉足輕重的作用,承載著現代醫學發展的重任。隨著越來越多學者、機構的參與,醫學信息化與循證決策必將得到進一步發展,進一步推動世界臨床研究,惠及更多人群。