中醫藥真實世界數據有巨大的臨床價值,因其數據類型多樣、標準不一、數據孤島現象嚴重,導致中醫藥真實世界研究面臨諸多挑戰。真實世界數據轉化為真實世界證據,數據治理是關鍵,數據轉化作為數據治理的最后一步,其流程方法尚未形成規范。本文基于中醫藥真實世界數據的特征及目前數據轉化技術的發展現狀,探討數據分類、自然語言處理、標準化、數據體系建設及衍生變量等數據轉化關鍵技術方法。同時對數據轉化的安全控制、質量控制等方面提出建議,并結合中醫藥數據特點,初步構建中醫藥真實世界研究數據轉化體系,為中醫藥真實世界研究提供參考。
隨機對照試驗(randomized controlled trial,RCT)作為最高等級的臨床證據標準,為保證內部真實性,采用嚴格的納入與排除標準,針對單一病種采用相對單一的干預措施進行研究。而真實世界研究(real world study,RWS)基于真實環境,納入與排除標準較寬泛,覆蓋人群廣,根據患者的具體情況采取不同的治療措施,更契合中醫辨證論治的特點[1]。在臨床實踐中發現問題、探索解決方案、總結臨床經驗、升華中醫理論再回到臨床實踐是中醫學發展的基本模式,可以說中醫學是我國最早開展RWS的領域之一。2022年4月國家藥品監督管理局食品藥品審核查驗中心發布《基于人用經驗的中藥復方制劑新藥臨床研發指導原則》[2]提出:基于既往獲得的人用經驗數據而產生的高質量證據可以代替臨床試驗,可直接作為支撐新藥上市的關鍵性證據。表明利用真實世界數據的中醫藥研究已成為未來的重點發展方向。
隨著科學技術的發展,電子醫療系統的不斷完善,中醫藥相關醫療數據呈爆發性增長勢態,中醫藥RWS也將向多中心、數據密集型研究發展。但由于各數據資源的產生目的、建設時期及采用的數據標準不同,導致真實世界數據整合難度大,資源利用效率低。2021年國家藥品監督管理局藥品審評中心出臺《用于產生真實世界證據的真實世界數據指導原則(試行)》[3],提出了真實世界數據治理的科學范式,其中數據轉化是將經過數據清洗后原始數據的數據格式標準、醫學術語、編碼標準、衍生變量計算,按照分析數據庫中對應標準進行統一轉化為適用真實世界數據的過程,是針對回顧性真實世界數據進行數據治理的第三個步驟。但針對數據轉化具體的流程方法,尚未形成規范。本文將基于對中醫藥真實世界數據特點及數據轉化應用現狀分析,探索中醫藥RWS數據轉化技術方法,以期為今后相關研究提供參考。
1 中醫藥真實世界數據的特征
中醫藥真實世界數據突出特點就是具有上千年豐富的人用經驗,中醫人用經驗是在中醫基礎理論指導下的具有規律性和可重復性的臨床實踐經驗,包含古籍醫案、名老中醫經驗、中醫醫療機構制劑的臨床數據等[4],是“三結合審評證據體系”的重要一環[5],而來源于臨床實踐的人用經驗數據多具有以下幾個特征。
1.1 數據結構類型多樣
與西醫真實世界數據相比,中醫藥數據結構類型更加多樣,比如,中醫醫院的醫院信息系統(hospital information system,HIS)中患者的就診日期數據是由數字及文本兩種結構數據組成,除數字化的日期外,還包含發病節氣,其所蘊含的五運六氣信息,是中醫藥整體觀念研究的重要數據。此外,中醫藥真實世界數據中除了記錄患者的一般信息、診斷信息、檢查信息,還需收集患者望、聞、問、切的四診信息。隨著四診信息客觀化采集和處理技術的不斷發展,會產生大量以文本、影像、圖像等非結構化的方式存儲的醫療數據,類型更加多樣[6]。在真實世界數據中,非結構化文本數據其實存儲了大量有價值的醫療信息,但不同結構數據之間缺乏共同的框架,并且存在許多錯誤,例如文本分段不明確、語法使用不當,拼寫錯誤,當地方言和語義歧義等,增加了數據處理和分析的復雜性[7]。
1.2 術語標準不一
在日常醫療環境中,中醫診療強調辨證施治,因醫師診斷治療水平、方法及習慣的不同,導致治療信息均顯示出個體化特征,例如對同一含義術語的不同表達,或對同一中醫診斷或癥狀有不同的采集或記錄方式,文本數據缺乏統一的標準[8]。而中醫病、證、治之間,也不是一一對應的關系,同一個疾病包含多種證型,同一證型可見于多種疾病診斷中,其治法也存在“同病異治”、“異病同治”多種情況,增加了不同中醫藥臨床數據庫之間的轉化難度。
在中醫臨床研究場景下,研究采用的醫學術語由研究者主觀選擇,不同研究可能執行不同的術語標準,或采用同一標準,但版本不一,例如當前在全世界使用廣泛又互相認可的《國際疾病分類》(international classification of diseases,ICD),至今已形成了11個版本,尤其是ICD-11相對于ICD-10來說,變化巨大,編碼體系完全不一致,造成標準不能互認的問題[9]。另外還存在研究者采用的術語標準不符合數據遞交規范的情況,這些都成為不同數據源整合、共享的障礙。
1.3 數據孤島現象嚴重
目前開展的中醫藥RWS多以HIS系統數據或醫院形成的特定疾病專業數據庫為主要數據來源,因其包含大量患者個人信息,具有高度敏感性,醫院一般將其封閉管理,訪問困難,不能推廣到其他領域。此外不同的數據庫各自儲存、獨立維護、可用數據定義不一,彼此相互孤立,形成眾多數據孤島。盡管當前臨床研究的數據是標準化程度不斷增高,但這些數據庫中的數據元素依然彼此差異很大[10],這將導致無法利用多個數據庫來回答特定的臨床研究問題。
2 中醫藥真實世界相關數據轉化現狀
中醫學者率先在國內引入了RWS這一理念[1],并將其應用于中醫藥研究,中醫藥RWS數量在逐年增多[11],數據轉化的應用也逐漸增多,但整體質量不高,數據轉化在中醫藥RWS中的應用現狀如下。
2.1 數據轉化內容單一
目前已發表的中醫藥真實世界數據研究的文獻,對數據轉化這一過程,描述較為簡單,多數研究僅包含對診斷名稱、藥品名稱等進行術語標準化處理內容[12-13]。
2.2 數據轉化方式耗時
有的研究需要對多個數據源進行整合時,采用按照預先設定的標準格式以人工重新錄入的方式進行轉化[14],此過程一般需要多人參與,耗時較長。
2.3 數據轉化的質量較低
部分研究僅提及對數據進行了轉化,未提及具體的方法、步驟[15]。絕大部分研究對準確性、透明性等數據轉化質量均沒有進行描述,提示數據轉化在中醫藥RWS領域尚未形成系統的規范流程。
這一現狀可能因為現有中醫藥RWS所利用的數據庫類型相對單一,對數據轉化的重視度不高[16]。而隨著中醫專病數據庫[17]、名老中醫經驗數據庫[18-19]等數據庫的不斷發展,中醫藥數據來源更加豐富,利用中醫藥臨床信息數據庫與科研數據庫多種數據庫開展中醫藥RWS將成為發展的熱點,規范化及系統化的數據轉化技術作為不同數據庫整合橋梁,在中醫藥RWS中將發揮著至關重要的作用,故本研究基于對目前數據轉化關鍵技術的應用總結并結合中醫藥真實世界數據的特點,初步構建數據轉化框架與流程,具體見圖1。

3 數據轉化的關鍵技術
3.1 根據數據特征進行分類
數據轉換前要對數據源的內容和結構深入分析,針對不同類型數據選擇不同的數據轉化方法可以提高數據治理效率。中醫藥真實世界數據可以分為三類:① 結構化、質量高的數據,比如患者的年齡、性別、職業等以分類變量形式采集的信息,此類數據可以直接進行映射、抽取,無需進行轉化;② 多為半結構或非結構性數據,對于半結構化數據如四診信息(如癥、體質、舌診、脈診)、診斷信息(中西醫診斷、證型診斷)、治療信息(中藥組成、中醫特色療法)等可基于公認的術語編碼標準進行轉化,人工錄入的長文本數據及其他以圖片、音頻等格式儲存的非結構化數據,如主訴、既往史及檢查報告等,需要先進行自然語言處理實現(natural language processing,NLP)結構化,再進行數據的標準化等處理;③ 以多病歷來源、跨文本、有邏輯關系為特點的數據,是在1級和2級數據的基礎上增加邏輯計算得出的結果[20],此類數據可以進行衍生變量計算,借助自然語言處理或使用通用數據模型(common data model,CDM)進行數據轉化。
3.2 運用自然語言技術實現結構化
中醫藥數據庫中的非結構化數據蘊含大量中醫特色信息,尤其是臨床數據庫中的病歷數據,若在臨床實踐中完全使用標準化數據元素收集數據,與臨床醫生的病歷書寫習慣不符,無法體現完整診療思維及真實診療記錄[21],所以真實世界數據仍需要收集大量非結構化的文本數據,這些數據可以使用NLP技術轉換為計算機可讀結構化數據[22]。在處理醫學文本數據時,NLP比傳統人工數據處理方式更加高效,姚晨團隊在實踐中發現即使NLP需要人工進行文本的標注與校驗,但其所用時間僅為人工錄入時間的十分之一,數據管理員還可以對NLP處理過的數據進行線上溯源[23]。
醫學文本NLP的任務主要有電子病歷信息抽取(醫療實體抽取、時間事件抽取、實體關系抽取和實體歸一化)、電子病歷表示學習、臨床結局預測、電子病歷計算表型、電子病歷數據脫敏[24],涉及的關鍵技術包括命名實體識別(named entity recognition,NER)和關系提取(relation extraction,RE)[25]。NLP通過機器學習構建命名實體識別模型和關系抽取模型,提取文本中的實體和關系。其中實體指文本中的信息字段,可分為疾病診斷、時間、中藥名、癥狀表現、值等,關系指兩個或多個實體之間存在的邏輯關系[24]。文本數據結構化后需要針對NER模型和RE模型的可信度進行驗證,主要用準確率、召回率、F1值3個指標衡量文本數據結構化處理效果,3個衡量指標均超過90%則認為NLP處理質量達到要求[26]。
在NLP過程中可選擇BERT、ERNIE、ABCNN等不同模型進行訓練,根據衡量指標選擇最優模型或模型組合[25]。其中BERT模型,因其強大的特征提取能力及在多個自然語言處理任務中的出色性能,被廣泛應用于醫學領域解決相關問題[24]。目前已有研究者基于BERT模型探討了中醫臨床病歷文本表型概念譜的抽取方法[27]。對中醫藥文本數據進行數據結構轉化時,推薦使用NLP技術,提高轉化準確性同時保證其可溯源性。
3.3 多維度實現數據標準化
3.3.1 術語編碼標準化
術語標準是數據標準中的基礎標準,是數據分享的“語言”,同時也是代碼標準制定的參照和依據。在實現術語編碼標準化時,一般先將術語進行標準化處理,再進行醫學編碼。國際醫學術語編碼發展較為完備,并且在我國科研人員的不斷努力下,國際標準也不斷增加中醫藥學相關內容。醫學臨床用語可使用醫學系統命名法—醫學術語(systematized nomenclature of medicine - clinical terms,SNOMED CT),是目前使用范圍最廣的臨床醫學術語標準,囊括了19個層級體系[28-29];臨床診斷術語可使用ICD,其主要用于死亡和重要疾病的歸類統計,2019年第11次修訂本新增加了傳統醫學的內容,使疾病診斷編碼第一次覆蓋中醫疾病診斷,中醫診斷編碼水平大幅度提升[9];藥品術語可使用世界衛生組織藥物詞典(World Health Organization drug dictionaries,WHODrug),包括300多萬種醫療產品,涵蓋了各國傳統藥物、植物藥和常規藥物,每年更新2次[30];實驗室檢查及影像結果可使用觀測指標標識邏輯命名與編碼系統(logical observation identifiers names and codes,LOINC)進行術語標準處理,LOINC涵蓋臨床醫療護理、結局管理和臨床研究等各種臨床觀測指標[29-31]。不良反應可使用監管活動醫學詞典(medical dictionary for regulatory activities,MedDRA),包含75 000多個術語,有詳細的編碼指導原則,基于MedDRA補充中醫學不良反應編碼術語集對促進中醫藥真實世界數據不良反應的規范編碼、分析、監管及數據共享具有十分積極的意義。
隨著國家和行業對中醫藥領域的標準化體系建設重視程度升高,中醫藥行業的術語標準化工作正在不斷發展中,目前已形成系列術語標準[32-33](表1)及中醫編碼標準[32](表2)。此外,還有學者制定了中醫藥真實世界惡性腫瘤[34]、中風[35]、臨床心系疾病[36]等術語編碼規范,為后續中醫藥真實世界術語的研制提供了思路與方法。形成中醫藥真實世界術語編碼標準體系,對減少因語義不清晰、定義不規范造成的數據偏差具有重要意義。


3.3.2 醫學數字影像標準化
隨著醫療技術的不斷發展,醫學影像數據體量不斷增加,據互聯網數據中心的統計數據顯示,醫學影像數據(X線、超聲、CT、MRI等)約占2020年全球醫療數據量的80%[37],因醫學影像數據具有復雜多樣、隱私敏感、長尾突發、分散度高等特征[38],阻礙了科研人員對影像數據的有效利用,醫學影像的標準化處理成為挖掘影像數據的關鍵。DICOM(digital imaging and communications in medicine)是國際上廣泛認可的醫學圖像和相關信息的國際標準,其定義了一套醫學文件的數據編碼規范,規定了數據的特定結構,并提供.dcm為后綴的DICOM文件格式。此文件包含患者的影像信息、治療信息以及年齡性別等基本信息,另外DICOM格式的醫學圖像文件,還包含圖像大小、寬度、高度、每個像素占位數等信息[39]。目前基于DICOM的數據已應用于半月板3D重建的輔助診斷[40]、鼻咽癌放療計劃劑量限制的自動勾畫[41]等領域。隨著舌象、脈象采集技術的發展,中醫特色診斷技術也將從主觀文字采集發展至客觀圖像采集,可借鑒DICOM標準,建立標準中醫學影像文件,使不同儀器產生的舌、脈等影像數據可以傳輸、共享,形成標準化中醫診斷信息數據庫,促進中醫診斷數據的客觀化,提高中醫藥真實世界數據的質量。
3.3.3 值域標準化
真實世界數據中存在大量的數值數據,比如實驗室指標變量,雖然其屬于結構化數據,但指標都有不同的性質、量綱和數量級等特征。尤其是多指標綜合評價模型中,無法直接對不同指標進行處理,需要將其轉化為無量綱、無數量級差異的標準化數值,消除不同指標之間因屬性不同帶來的影響,保證結果的可比性。常用的無量綱化的方法有歸一化標準法、Z-score標準化法、線性比例標準化法、log函數標準化法等,前兩種最常用[42]。歸一化是將數據映射到指定范圍,去除不同維度數據的量及量綱單位,常見的歸一方法有Min-Max歸一化、均值歸一化、小數定標歸一化、向量歸一化等;Z-score標準化法,也叫標準差標準化法,適用于某個指標最大值、最小值未知,或存在超出取值范圍的離群數值的情況[43]。例如在對兒童營養狀況進行評價時可使用Z-score標準化法將兒童身高實測值與同年齡、同性別參考人群升高中位數之差和該參考人群身高標準差進行比較,得出年齡別身高Z評分,通過Z-score對營養狀況進行過低、正常或過高的評價[44]。
3.4 建立數據標準體系
3.4.1 探索中醫藥CDM
CDM是多學科合作模式下對多源異構數據進行快速集中和標準化處理的數據模型,可規范健康醫療數據的格式和內容,是將不同數據庫包含的數據轉換為通用格式及應用統一術語以便跨數據庫/數據集進行數據整合。美國和我國食品藥品監督管理局發布的指導原則都推薦使用CDM來協助數據轉化[45]。目前發展較為成熟的CDM是由觀察性健康醫療數據科學與信息學(observational health data sciences and informatics,OHDSI)計劃開發的觀察性醫療結果合作組織(Observational Medical Outcomes Partnership,OMOP)的CDM,OMOP CDM是一個面向觀察性醫學研究的全球標準,并在全球得到廣泛的應用[46]。2019年多家研究機構通過OMOP CDM對490萬患者的真實世界數據進行分析,檢驗5類降壓藥的有效性和安全性[47]。我國也有一些應用OMOP CDM進行腫瘤大數據的研究[48]。OMOP CDM來源于國外,由于應用場景的不同,使得OMOP CDM在我國醫學研究實踐中存在一些問題,比如OMOP CDM所包含的標準為英文標準,中文標準資源較為匱乏,而且特定疾病的診療和術語存在不能儲存和準確映射的情況。而中醫藥領域CDM的應用尚在起步階段,應借鑒OMOP CDM的先進經驗,統一數據模型和醫學術語表達,對不同來源的數據以統一標準進行整合。同時不斷開發中醫藥標準化術語集與中文醫學數據模型,建設契合中醫藥特點的CDM,這將是未來中醫藥數據轉化發展的重要方向。
3.4.2 開發具有中醫藥特色的系列標準
當前國際上為提高臨床數據質量與交流共享開發了多個數據標準,對臨床試驗數據標準化作用較為直接和突出的是臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)系列標準(包括核心標準、數據交換標準、治療領域標準及術語集)[49-50],該標準可與其他數據標準內容保持兼容和一致性。CDISC在組織真實世界數據方面的調研和研究時發現,運用標準框架有助于真實世界數據推動數據共享、提升數據治理能力、提高數據一致性、開發新療法、強化隱私保護[51]。美國食品藥品監督管理局發布《用于藥品和生物制品提交的真實世界數據標準行業指南》,建議在提交真實世界數據文件時應使用恰當的CDISC標準以確保完成數據提交[52]。我國國家藥品監督管理局在數據提交標準指導原則中推薦使用CDISC標準遞交原始數據庫和分析數據庫[53]。對中醫藥臨床試驗數據進行標準化時可應用CDISC標準,積極與CDISC組織合作,加強交流與創新,將中醫特色元素融入CDISC規范流程中,補充CDISC標準的中醫藥特色內容。目前已有學者以冠心病心絞痛為例開發CDISC標準中醫藥治療領域數據標準[54],對其他中醫藥專病CDISC標準的開發具有較好的示范作用。
3.5 衍生變量計算
分析數據庫除了原始數據還有衍生數據。衍生數據可以是根據原始數據按照一定規則計算出來數據。用好衍生變量,能有效提高數據模型的效果,例如單個Scheimpflug和譜域光學相干層析成像(spectral domain-optical coherence tomography,SD-OCT)指標很難區分正常和不對稱的角膜圓錐眼。然而,將Scheimpflug的衍生數據前曲率和不對稱指數與SD-OCT的衍生數據區域總厚度和上皮厚度變異性指標相結合時可以清楚地區分這兩個群體[55]。目前越來越多的研究表明人體測量學指標對于心血管疾病[56]、糖尿病[57]等常見疾病的預測模型具有重要意義,而人體測量學指標中的脂質蓄積指數、內臟脂肪指數、錐削度指數、身體質量指數、腰臀比、腰圍比等均屬于衍生變量。在衍生變量計算時,最重要的是要保證數據的準確性和可溯源性,需明確用于計算的原始數據變量及變量值、計算方法及衍生變量的定義[3],并進行時間戳管理。需記錄衍生過程的觀測記錄、相應算法及程序代碼,確保在進行數據遞交審查時,對原始數據進行相同計算時,可得到相同的衍生變量結果。
4 數據轉化過程中的數據安全與質量控制
4.1 數據安全控制
在數據轉化過程中應依照國家法律法規、行業監管要求等做好數據安全管理工作。安全管理應覆蓋數據標準化、數據數字化、數據格式化等數據轉化的全過程,針對性的提出安全管理規范。對于不同來源、內容、用途的數據采用不同的保護措施;同時需要對數據的全部操作都應該記錄操作員和訪問者的身份信息,安全措施對數據的訪問行為進行審計,任何對數據操作和訪問行為都應該可以追溯到個人[58]。可以采用進行數據加密不可逆及使用安全秘鑰等措施保障數據的物理安全、網絡安全、服務器安全和數據庫安全。
4.2 數據轉化質量控制
以ALCOA+CCEA為原則(可歸因性、易讀性、同時性、原始性、準確性、完整性、一致性、持久性和可用性)建立完整的質量管理體系[59];為確保真實世界數據的質量,建立覆蓋真實世界數據全生命周期管理的操作流程;建立完善的人員管理制度,數據轉化人員應獲得相應的培訓,符合職責能力要求,并對人員的權限進行標準化管理;建立從數據轉化至數據遞交各環節的風險管理流程;制定標準的信息與文檔管理規范(紙質、電子介質),確保真實世界數據處理流程記錄完整、準確、透明[3]。
4.3 數據轉化流程相關文檔
為更好的保障數據轉化的安全與質量,體現真實性和準確性,在數據轉化的全過程需要留存以下文檔:數據治理計劃書,描述用于管理和準備最終特定研究分析數據集的全部流程;安全措施和溯源措施的具體流程報告,以確保患者數據的安全性與真實性;處理非結構化數據的流程文檔;數據治理師的培訓記錄或資質證明;數據轉化過程中應用的所有編寫程序,應附有完整的、每個步驟的注釋。
5 結語
在中醫藥RWS中,數據質量是不能回避的核心問題,通過數據治理,提高真實世界數據質量,是得到高質量數據證據的前提。數據轉化作為數據治理的最后一步,將直接影響數據質量,故本文針對中醫藥數據轉化的關鍵技術及流程進行探索。通過不同的數據轉化方法,多維度提高數據質量,對數據特征分類,不同的數據采用不同的數據轉化方法,引入人工智能技術,以NLP處理非結構化數據,提高數據轉化的效率及準確率。對術語數據,參照相關公認標準進行統一轉化,解決醫學術語表述與理解不一致的問題,打破不同數據庫之間的信息壁壘,提高數據的一致性;使用統一醫學編碼使標準化后的術語在標準術語字典中進行匹配,選擇最相符的唯一確定編碼,提高數據的唯一性;應用國際公認的術語編碼集,促進國際數據資料的交換和共享,提高數據的共享性;借鑒DICOM標準,建立標準中醫學影像文件,提高中醫診斷數據的客觀性;對實驗室指標數據數值進行無量綱化處理,實現數值值域標準化,提高數據的可比性。同時借鑒國際經驗,開發中醫藥CDM用于觀察性研究數據,開發中醫藥特色的CDISC系列標準用于臨床試驗數據,另外還可根據研究目的進行衍生變量計算。最后建立全流程的數據安全與數據質量控制體系,保障數據質量。相信隨著大數據時代的到來以及數據治理技術的不斷發展,中醫藥真實世界數據研究將成為中醫藥發展的新引擎。
隨機對照試驗(randomized controlled trial,RCT)作為最高等級的臨床證據標準,為保證內部真實性,采用嚴格的納入與排除標準,針對單一病種采用相對單一的干預措施進行研究。而真實世界研究(real world study,RWS)基于真實環境,納入與排除標準較寬泛,覆蓋人群廣,根據患者的具體情況采取不同的治療措施,更契合中醫辨證論治的特點[1]。在臨床實踐中發現問題、探索解決方案、總結臨床經驗、升華中醫理論再回到臨床實踐是中醫學發展的基本模式,可以說中醫學是我國最早開展RWS的領域之一。2022年4月國家藥品監督管理局食品藥品審核查驗中心發布《基于人用經驗的中藥復方制劑新藥臨床研發指導原則》[2]提出:基于既往獲得的人用經驗數據而產生的高質量證據可以代替臨床試驗,可直接作為支撐新藥上市的關鍵性證據。表明利用真實世界數據的中醫藥研究已成為未來的重點發展方向。
隨著科學技術的發展,電子醫療系統的不斷完善,中醫藥相關醫療數據呈爆發性增長勢態,中醫藥RWS也將向多中心、數據密集型研究發展。但由于各數據資源的產生目的、建設時期及采用的數據標準不同,導致真實世界數據整合難度大,資源利用效率低。2021年國家藥品監督管理局藥品審評中心出臺《用于產生真實世界證據的真實世界數據指導原則(試行)》[3],提出了真實世界數據治理的科學范式,其中數據轉化是將經過數據清洗后原始數據的數據格式標準、醫學術語、編碼標準、衍生變量計算,按照分析數據庫中對應標準進行統一轉化為適用真實世界數據的過程,是針對回顧性真實世界數據進行數據治理的第三個步驟。但針對數據轉化具體的流程方法,尚未形成規范。本文將基于對中醫藥真實世界數據特點及數據轉化應用現狀分析,探索中醫藥RWS數據轉化技術方法,以期為今后相關研究提供參考。
1 中醫藥真實世界數據的特征
中醫藥真實世界數據突出特點就是具有上千年豐富的人用經驗,中醫人用經驗是在中醫基礎理論指導下的具有規律性和可重復性的臨床實踐經驗,包含古籍醫案、名老中醫經驗、中醫醫療機構制劑的臨床數據等[4],是“三結合審評證據體系”的重要一環[5],而來源于臨床實踐的人用經驗數據多具有以下幾個特征。
1.1 數據結構類型多樣
與西醫真實世界數據相比,中醫藥數據結構類型更加多樣,比如,中醫醫院的醫院信息系統(hospital information system,HIS)中患者的就診日期數據是由數字及文本兩種結構數據組成,除數字化的日期外,還包含發病節氣,其所蘊含的五運六氣信息,是中醫藥整體觀念研究的重要數據。此外,中醫藥真實世界數據中除了記錄患者的一般信息、診斷信息、檢查信息,還需收集患者望、聞、問、切的四診信息。隨著四診信息客觀化采集和處理技術的不斷發展,會產生大量以文本、影像、圖像等非結構化的方式存儲的醫療數據,類型更加多樣[6]。在真實世界數據中,非結構化文本數據其實存儲了大量有價值的醫療信息,但不同結構數據之間缺乏共同的框架,并且存在許多錯誤,例如文本分段不明確、語法使用不當,拼寫錯誤,當地方言和語義歧義等,增加了數據處理和分析的復雜性[7]。
1.2 術語標準不一
在日常醫療環境中,中醫診療強調辨證施治,因醫師診斷治療水平、方法及習慣的不同,導致治療信息均顯示出個體化特征,例如對同一含義術語的不同表達,或對同一中醫診斷或癥狀有不同的采集或記錄方式,文本數據缺乏統一的標準[8]。而中醫病、證、治之間,也不是一一對應的關系,同一個疾病包含多種證型,同一證型可見于多種疾病診斷中,其治法也存在“同病異治”、“異病同治”多種情況,增加了不同中醫藥臨床數據庫之間的轉化難度。
在中醫臨床研究場景下,研究采用的醫學術語由研究者主觀選擇,不同研究可能執行不同的術語標準,或采用同一標準,但版本不一,例如當前在全世界使用廣泛又互相認可的《國際疾病分類》(international classification of diseases,ICD),至今已形成了11個版本,尤其是ICD-11相對于ICD-10來說,變化巨大,編碼體系完全不一致,造成標準不能互認的問題[9]。另外還存在研究者采用的術語標準不符合數據遞交規范的情況,這些都成為不同數據源整合、共享的障礙。
1.3 數據孤島現象嚴重
目前開展的中醫藥RWS多以HIS系統數據或醫院形成的特定疾病專業數據庫為主要數據來源,因其包含大量患者個人信息,具有高度敏感性,醫院一般將其封閉管理,訪問困難,不能推廣到其他領域。此外不同的數據庫各自儲存、獨立維護、可用數據定義不一,彼此相互孤立,形成眾多數據孤島。盡管當前臨床研究的數據是標準化程度不斷增高,但這些數據庫中的數據元素依然彼此差異很大[10],這將導致無法利用多個數據庫來回答特定的臨床研究問題。
2 中醫藥真實世界相關數據轉化現狀
中醫學者率先在國內引入了RWS這一理念[1],并將其應用于中醫藥研究,中醫藥RWS數量在逐年增多[11],數據轉化的應用也逐漸增多,但整體質量不高,數據轉化在中醫藥RWS中的應用現狀如下。
2.1 數據轉化內容單一
目前已發表的中醫藥真實世界數據研究的文獻,對數據轉化這一過程,描述較為簡單,多數研究僅包含對診斷名稱、藥品名稱等進行術語標準化處理內容[12-13]。
2.2 數據轉化方式耗時
有的研究需要對多個數據源進行整合時,采用按照預先設定的標準格式以人工重新錄入的方式進行轉化[14],此過程一般需要多人參與,耗時較長。
2.3 數據轉化的質量較低
部分研究僅提及對數據進行了轉化,未提及具體的方法、步驟[15]。絕大部分研究對準確性、透明性等數據轉化質量均沒有進行描述,提示數據轉化在中醫藥RWS領域尚未形成系統的規范流程。
這一現狀可能因為現有中醫藥RWS所利用的數據庫類型相對單一,對數據轉化的重視度不高[16]。而隨著中醫專病數據庫[17]、名老中醫經驗數據庫[18-19]等數據庫的不斷發展,中醫藥數據來源更加豐富,利用中醫藥臨床信息數據庫與科研數據庫多種數據庫開展中醫藥RWS將成為發展的熱點,規范化及系統化的數據轉化技術作為不同數據庫整合橋梁,在中醫藥RWS中將發揮著至關重要的作用,故本研究基于對目前數據轉化關鍵技術的應用總結并結合中醫藥真實世界數據的特點,初步構建數據轉化框架與流程,具體見圖1。

3 數據轉化的關鍵技術
3.1 根據數據特征進行分類
數據轉換前要對數據源的內容和結構深入分析,針對不同類型數據選擇不同的數據轉化方法可以提高數據治理效率。中醫藥真實世界數據可以分為三類:① 結構化、質量高的數據,比如患者的年齡、性別、職業等以分類變量形式采集的信息,此類數據可以直接進行映射、抽取,無需進行轉化;② 多為半結構或非結構性數據,對于半結構化數據如四診信息(如癥、體質、舌診、脈診)、診斷信息(中西醫診斷、證型診斷)、治療信息(中藥組成、中醫特色療法)等可基于公認的術語編碼標準進行轉化,人工錄入的長文本數據及其他以圖片、音頻等格式儲存的非結構化數據,如主訴、既往史及檢查報告等,需要先進行自然語言處理實現(natural language processing,NLP)結構化,再進行數據的標準化等處理;③ 以多病歷來源、跨文本、有邏輯關系為特點的數據,是在1級和2級數據的基礎上增加邏輯計算得出的結果[20],此類數據可以進行衍生變量計算,借助自然語言處理或使用通用數據模型(common data model,CDM)進行數據轉化。
3.2 運用自然語言技術實現結構化
中醫藥數據庫中的非結構化數據蘊含大量中醫特色信息,尤其是臨床數據庫中的病歷數據,若在臨床實踐中完全使用標準化數據元素收集數據,與臨床醫生的病歷書寫習慣不符,無法體現完整診療思維及真實診療記錄[21],所以真實世界數據仍需要收集大量非結構化的文本數據,這些數據可以使用NLP技術轉換為計算機可讀結構化數據[22]。在處理醫學文本數據時,NLP比傳統人工數據處理方式更加高效,姚晨團隊在實踐中發現即使NLP需要人工進行文本的標注與校驗,但其所用時間僅為人工錄入時間的十分之一,數據管理員還可以對NLP處理過的數據進行線上溯源[23]。
醫學文本NLP的任務主要有電子病歷信息抽取(醫療實體抽取、時間事件抽取、實體關系抽取和實體歸一化)、電子病歷表示學習、臨床結局預測、電子病歷計算表型、電子病歷數據脫敏[24],涉及的關鍵技術包括命名實體識別(named entity recognition,NER)和關系提取(relation extraction,RE)[25]。NLP通過機器學習構建命名實體識別模型和關系抽取模型,提取文本中的實體和關系。其中實體指文本中的信息字段,可分為疾病診斷、時間、中藥名、癥狀表現、值等,關系指兩個或多個實體之間存在的邏輯關系[24]。文本數據結構化后需要針對NER模型和RE模型的可信度進行驗證,主要用準確率、召回率、F1值3個指標衡量文本數據結構化處理效果,3個衡量指標均超過90%則認為NLP處理質量達到要求[26]。
在NLP過程中可選擇BERT、ERNIE、ABCNN等不同模型進行訓練,根據衡量指標選擇最優模型或模型組合[25]。其中BERT模型,因其強大的特征提取能力及在多個自然語言處理任務中的出色性能,被廣泛應用于醫學領域解決相關問題[24]。目前已有研究者基于BERT模型探討了中醫臨床病歷文本表型概念譜的抽取方法[27]。對中醫藥文本數據進行數據結構轉化時,推薦使用NLP技術,提高轉化準確性同時保證其可溯源性。
3.3 多維度實現數據標準化
3.3.1 術語編碼標準化
術語標準是數據標準中的基礎標準,是數據分享的“語言”,同時也是代碼標準制定的參照和依據。在實現術語編碼標準化時,一般先將術語進行標準化處理,再進行醫學編碼。國際醫學術語編碼發展較為完備,并且在我國科研人員的不斷努力下,國際標準也不斷增加中醫藥學相關內容。醫學臨床用語可使用醫學系統命名法—醫學術語(systematized nomenclature of medicine - clinical terms,SNOMED CT),是目前使用范圍最廣的臨床醫學術語標準,囊括了19個層級體系[28-29];臨床診斷術語可使用ICD,其主要用于死亡和重要疾病的歸類統計,2019年第11次修訂本新增加了傳統醫學的內容,使疾病診斷編碼第一次覆蓋中醫疾病診斷,中醫診斷編碼水平大幅度提升[9];藥品術語可使用世界衛生組織藥物詞典(World Health Organization drug dictionaries,WHODrug),包括300多萬種醫療產品,涵蓋了各國傳統藥物、植物藥和常規藥物,每年更新2次[30];實驗室檢查及影像結果可使用觀測指標標識邏輯命名與編碼系統(logical observation identifiers names and codes,LOINC)進行術語標準處理,LOINC涵蓋臨床醫療護理、結局管理和臨床研究等各種臨床觀測指標[29-31]。不良反應可使用監管活動醫學詞典(medical dictionary for regulatory activities,MedDRA),包含75 000多個術語,有詳細的編碼指導原則,基于MedDRA補充中醫學不良反應編碼術語集對促進中醫藥真實世界數據不良反應的規范編碼、分析、監管及數據共享具有十分積極的意義。
隨著國家和行業對中醫藥領域的標準化體系建設重視程度升高,中醫藥行業的術語標準化工作正在不斷發展中,目前已形成系列術語標準[32-33](表1)及中醫編碼標準[32](表2)。此外,還有學者制定了中醫藥真實世界惡性腫瘤[34]、中風[35]、臨床心系疾病[36]等術語編碼規范,為后續中醫藥真實世界術語的研制提供了思路與方法。形成中醫藥真實世界術語編碼標準體系,對減少因語義不清晰、定義不規范造成的數據偏差具有重要意義。


3.3.2 醫學數字影像標準化
隨著醫療技術的不斷發展,醫學影像數據體量不斷增加,據互聯網數據中心的統計數據顯示,醫學影像數據(X線、超聲、CT、MRI等)約占2020年全球醫療數據量的80%[37],因醫學影像數據具有復雜多樣、隱私敏感、長尾突發、分散度高等特征[38],阻礙了科研人員對影像數據的有效利用,醫學影像的標準化處理成為挖掘影像數據的關鍵。DICOM(digital imaging and communications in medicine)是國際上廣泛認可的醫學圖像和相關信息的國際標準,其定義了一套醫學文件的數據編碼規范,規定了數據的特定結構,并提供.dcm為后綴的DICOM文件格式。此文件包含患者的影像信息、治療信息以及年齡性別等基本信息,另外DICOM格式的醫學圖像文件,還包含圖像大小、寬度、高度、每個像素占位數等信息[39]。目前基于DICOM的數據已應用于半月板3D重建的輔助診斷[40]、鼻咽癌放療計劃劑量限制的自動勾畫[41]等領域。隨著舌象、脈象采集技術的發展,中醫特色診斷技術也將從主觀文字采集發展至客觀圖像采集,可借鑒DICOM標準,建立標準中醫學影像文件,使不同儀器產生的舌、脈等影像數據可以傳輸、共享,形成標準化中醫診斷信息數據庫,促進中醫診斷數據的客觀化,提高中醫藥真實世界數據的質量。
3.3.3 值域標準化
真實世界數據中存在大量的數值數據,比如實驗室指標變量,雖然其屬于結構化數據,但指標都有不同的性質、量綱和數量級等特征。尤其是多指標綜合評價模型中,無法直接對不同指標進行處理,需要將其轉化為無量綱、無數量級差異的標準化數值,消除不同指標之間因屬性不同帶來的影響,保證結果的可比性。常用的無量綱化的方法有歸一化標準法、Z-score標準化法、線性比例標準化法、log函數標準化法等,前兩種最常用[42]。歸一化是將數據映射到指定范圍,去除不同維度數據的量及量綱單位,常見的歸一方法有Min-Max歸一化、均值歸一化、小數定標歸一化、向量歸一化等;Z-score標準化法,也叫標準差標準化法,適用于某個指標最大值、最小值未知,或存在超出取值范圍的離群數值的情況[43]。例如在對兒童營養狀況進行評價時可使用Z-score標準化法將兒童身高實測值與同年齡、同性別參考人群升高中位數之差和該參考人群身高標準差進行比較,得出年齡別身高Z評分,通過Z-score對營養狀況進行過低、正常或過高的評價[44]。
3.4 建立數據標準體系
3.4.1 探索中醫藥CDM
CDM是多學科合作模式下對多源異構數據進行快速集中和標準化處理的數據模型,可規范健康醫療數據的格式和內容,是將不同數據庫包含的數據轉換為通用格式及應用統一術語以便跨數據庫/數據集進行數據整合。美國和我國食品藥品監督管理局發布的指導原則都推薦使用CDM來協助數據轉化[45]。目前發展較為成熟的CDM是由觀察性健康醫療數據科學與信息學(observational health data sciences and informatics,OHDSI)計劃開發的觀察性醫療結果合作組織(Observational Medical Outcomes Partnership,OMOP)的CDM,OMOP CDM是一個面向觀察性醫學研究的全球標準,并在全球得到廣泛的應用[46]。2019年多家研究機構通過OMOP CDM對490萬患者的真實世界數據進行分析,檢驗5類降壓藥的有效性和安全性[47]。我國也有一些應用OMOP CDM進行腫瘤大數據的研究[48]。OMOP CDM來源于國外,由于應用場景的不同,使得OMOP CDM在我國醫學研究實踐中存在一些問題,比如OMOP CDM所包含的標準為英文標準,中文標準資源較為匱乏,而且特定疾病的診療和術語存在不能儲存和準確映射的情況。而中醫藥領域CDM的應用尚在起步階段,應借鑒OMOP CDM的先進經驗,統一數據模型和醫學術語表達,對不同來源的數據以統一標準進行整合。同時不斷開發中醫藥標準化術語集與中文醫學數據模型,建設契合中醫藥特點的CDM,這將是未來中醫藥數據轉化發展的重要方向。
3.4.2 開發具有中醫藥特色的系列標準
當前國際上為提高臨床數據質量與交流共享開發了多個數據標準,對臨床試驗數據標準化作用較為直接和突出的是臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)系列標準(包括核心標準、數據交換標準、治療領域標準及術語集)[49-50],該標準可與其他數據標準內容保持兼容和一致性。CDISC在組織真實世界數據方面的調研和研究時發現,運用標準框架有助于真實世界數據推動數據共享、提升數據治理能力、提高數據一致性、開發新療法、強化隱私保護[51]。美國食品藥品監督管理局發布《用于藥品和生物制品提交的真實世界數據標準行業指南》,建議在提交真實世界數據文件時應使用恰當的CDISC標準以確保完成數據提交[52]。我國國家藥品監督管理局在數據提交標準指導原則中推薦使用CDISC標準遞交原始數據庫和分析數據庫[53]。對中醫藥臨床試驗數據進行標準化時可應用CDISC標準,積極與CDISC組織合作,加強交流與創新,將中醫特色元素融入CDISC規范流程中,補充CDISC標準的中醫藥特色內容。目前已有學者以冠心病心絞痛為例開發CDISC標準中醫藥治療領域數據標準[54],對其他中醫藥專病CDISC標準的開發具有較好的示范作用。
3.5 衍生變量計算
分析數據庫除了原始數據還有衍生數據。衍生數據可以是根據原始數據按照一定規則計算出來數據。用好衍生變量,能有效提高數據模型的效果,例如單個Scheimpflug和譜域光學相干層析成像(spectral domain-optical coherence tomography,SD-OCT)指標很難區分正常和不對稱的角膜圓錐眼。然而,將Scheimpflug的衍生數據前曲率和不對稱指數與SD-OCT的衍生數據區域總厚度和上皮厚度變異性指標相結合時可以清楚地區分這兩個群體[55]。目前越來越多的研究表明人體測量學指標對于心血管疾病[56]、糖尿病[57]等常見疾病的預測模型具有重要意義,而人體測量學指標中的脂質蓄積指數、內臟脂肪指數、錐削度指數、身體質量指數、腰臀比、腰圍比等均屬于衍生變量。在衍生變量計算時,最重要的是要保證數據的準確性和可溯源性,需明確用于計算的原始數據變量及變量值、計算方法及衍生變量的定義[3],并進行時間戳管理。需記錄衍生過程的觀測記錄、相應算法及程序代碼,確保在進行數據遞交審查時,對原始數據進行相同計算時,可得到相同的衍生變量結果。
4 數據轉化過程中的數據安全與質量控制
4.1 數據安全控制
在數據轉化過程中應依照國家法律法規、行業監管要求等做好數據安全管理工作。安全管理應覆蓋數據標準化、數據數字化、數據格式化等數據轉化的全過程,針對性的提出安全管理規范。對于不同來源、內容、用途的數據采用不同的保護措施;同時需要對數據的全部操作都應該記錄操作員和訪問者的身份信息,安全措施對數據的訪問行為進行審計,任何對數據操作和訪問行為都應該可以追溯到個人[58]。可以采用進行數據加密不可逆及使用安全秘鑰等措施保障數據的物理安全、網絡安全、服務器安全和數據庫安全。
4.2 數據轉化質量控制
以ALCOA+CCEA為原則(可歸因性、易讀性、同時性、原始性、準確性、完整性、一致性、持久性和可用性)建立完整的質量管理體系[59];為確保真實世界數據的質量,建立覆蓋真實世界數據全生命周期管理的操作流程;建立完善的人員管理制度,數據轉化人員應獲得相應的培訓,符合職責能力要求,并對人員的權限進行標準化管理;建立從數據轉化至數據遞交各環節的風險管理流程;制定標準的信息與文檔管理規范(紙質、電子介質),確保真實世界數據處理流程記錄完整、準確、透明[3]。
4.3 數據轉化流程相關文檔
為更好的保障數據轉化的安全與質量,體現真實性和準確性,在數據轉化的全過程需要留存以下文檔:數據治理計劃書,描述用于管理和準備最終特定研究分析數據集的全部流程;安全措施和溯源措施的具體流程報告,以確保患者數據的安全性與真實性;處理非結構化數據的流程文檔;數據治理師的培訓記錄或資質證明;數據轉化過程中應用的所有編寫程序,應附有完整的、每個步驟的注釋。
5 結語
在中醫藥RWS中,數據質量是不能回避的核心問題,通過數據治理,提高真實世界數據質量,是得到高質量數據證據的前提。數據轉化作為數據治理的最后一步,將直接影響數據質量,故本文針對中醫藥數據轉化的關鍵技術及流程進行探索。通過不同的數據轉化方法,多維度提高數據質量,對數據特征分類,不同的數據采用不同的數據轉化方法,引入人工智能技術,以NLP處理非結構化數據,提高數據轉化的效率及準確率。對術語數據,參照相關公認標準進行統一轉化,解決醫學術語表述與理解不一致的問題,打破不同數據庫之間的信息壁壘,提高數據的一致性;使用統一醫學編碼使標準化后的術語在標準術語字典中進行匹配,選擇最相符的唯一確定編碼,提高數據的唯一性;應用國際公認的術語編碼集,促進國際數據資料的交換和共享,提高數據的共享性;借鑒DICOM標準,建立標準中醫學影像文件,提高中醫診斷數據的客觀性;對實驗室指標數據數值進行無量綱化處理,實現數值值域標準化,提高數據的可比性。同時借鑒國際經驗,開發中醫藥CDM用于觀察性研究數據,開發中醫藥特色的CDISC系列標準用于臨床試驗數據,另外還可根據研究目的進行衍生變量計算。最后建立全流程的數據安全與數據質量控制體系,保障數據質量。相信隨著大數據時代的到來以及數據治理技術的不斷發展,中醫藥真實世界數據研究將成為中醫藥發展的新引擎。