大數據技術是信息化時代的必然結果,其不僅促進了生物醫學發展,也為中醫藥的發展開辟了新途徑。本文分析近年來大數據技術在中醫藥領域中的應用現狀,提出思考與展望,以期為中醫藥未來的發展方向提供新思路與新方法。
引用本文: 劉艷飛, 孫明月, 姚賀之, 柴露露, 高蕊. 大數據技術在中醫藥領域中的應用現狀及思考. 中國循證醫學雜志, 2018, 18(11): 1180-1185. doi: 10.7507/1672-2531.201804072 復制
1 大數據技術的定義
大數據(big data)最初僅指大量的數據,多作為一種概念及研究術語進行使用[1]。隨著大數據概念的不斷發展,其定義也呈現多元化。國際數據中心將大數據定義為:“從大規模多樣化的數據中通過高速捕獲、發現和分析技術提取數據的價值”,從而概括出大數據具有體量大、數據類型多樣、數據處理速度快和數據價值密度低等 4 個核心特點[2]。Gartner 研究機構認為大數據是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產[3]。美國國家標準和技術研究院(NIST)將大數據分為大數據科學(big data science)和大數據框架(big data frameworks)兩大類,前者主要包括大數據的獲取、調節和評估技術的研究;后者指計算單元集群間解決大數據問題的分布式處理和分析的軟件庫及算法[4]。此外,還有很多關于大數據定義的討論[5]。大數據是數字信息化時代帶來的必然結果,雖然其定義尚無法達成共識,但我們更關注的是大數據所帶來的應用價值[6, 7]。
2012 年美國率先提出將大數據作為國家重要的戰略資源之一,繼而全球各國紛紛開展大數據技術的推進工作。大數據時代的到來,給生物醫學的發展帶來了機遇與挑戰,結合高通量芯片、深度測序技術及計算機技術可進行不同層面的基因組學研究,進而發現疾病進程中不同的分子標志物及調控機制,這是大數據帶給生物醫學的機遇。但在研究過程中如何有效整合產生的海量多水平組學數據,則是大數據帶給生物醫學界的巨大挑戰[8]。生物醫學大數據處于蓬勃發展的狀態,適用于生物醫學大數據的技術方法一旦發展成熟,將更有利于全方位分析、預測醫學發展趨勢,更好地探究生命的本質及其規律,為人類的健康提供更全面的服務[9]。
大數據促進了生物醫學發展,也為中醫藥發展開辟新途徑。大數據技術是人工智能的理論與實踐基礎。近年來,人工智能在中醫藥領域的開拓思維不斷顯現,大數據依托計算機技術可以把中醫典籍和臨床診治經驗轉換為數據,形成海量中醫大數據,這使得個性化、碎片化中醫臨床經驗可采用科學方式進行呈現[10]。同時基于真實世界醫學臨床研究方法,借助云平臺與互聯網+技術,建立標準化的中醫健康大數據庫,這將把中醫健康管理帶入人工智能新時代,也是中醫藥未來發展趨勢之一[11]。因此,將大數據技術應用于中醫藥領域,把傳統中醫理論及臨床實踐以數學化、科學化的方式進行闡釋,將更好地促進中醫藥學的發展。本文從中醫診斷、中醫證候研究、中醫學術經驗傳承、中醫臨床研究等幾個方面系統探討近年來大數據技術在中醫藥領域中的應用現狀。
2 大數據技術在中醫藥領域中的應用現狀
2.1 大數據技術與中醫脈診及中醫證候研究
脈診是中醫四診“望、聞、問、切”中極為重要的一環。“只可意會不可言傳”、“心中了了,指下難明”經常用來形容中醫醫者學習中醫脈診的無奈,傳統脈診結果更多是依靠中醫醫者的經驗做出判斷。有學者利用大數據技術對脈象進行特征分析并總結規律,如李磊等[12]利用大數據原理,提出一種結合脈診的大數據分析的中醫診斷疾病方法。首先采集常見的幾種中醫脈象證型,如氣虛、氣陰兩虛、氣滯和氣滯血瘀等證的脈圖,利用功率譜基頻 F0(脈搏跳動的基本頻率)、倒譜波特征 RC(脈象倒譜波的類型)、倒譜零分量 Cx0(脈搏的強度)、譜能比 SER(脈搏能量與頻率之間的關系)、倒譜波幅度與倒譜零分量的比值 Cx1/Cx0(脈搏的順暢程度)、共振峰的平均距離 ΔF(傳遞函數中共振峰的平均距離)、傳遞函數中共振峰的數目 M(人體脈象共振的特性)8 個參數進行脈象自身特征的可識別性分析,并分類和關聯疾病特征。基于海量數據,利用脈象不同的特征參數、三層前向型 BP 網絡建立中醫脈象辨識智能判斷模型。用中醫脈象信息采集系統收集不同人群、不同疾病的脈診信息形成大數據環境,對中醫脈象辨識智能判斷模型進行測試,測試結果表明利用大數據對脈象進行識別,能夠提高脈象辨識的準確率。大數據時代下,中醫脈診不是小樣本的數據分析,而是盡可能地搜集總體樣本的數據信息,能夠從根本上反映總體樣本情況,從一個全新的角度去探索中醫脈診。
李貴華等[13]用醫院 HIS 數據庫提取住院患者信息,并對數據進行標準化,納入第一診斷為冠心病的住院患者,利用頻數分析法對 84 697 例患者的信息進行描述性分析,采用關聯原則分析患者合并用藥情況,結果發現該數據庫的冠心病患者,以老年男性居多,最常見的合并病為高血壓、糖尿病、腦梗死、血脂異常等。中醫證候以氣陰兩虛、氣虛血瘀最為常見,其中血瘀是占比最高的證候要素,其次為氣虛、痰濁、陰虛等。胡金亮等[14, 15]將 2011 年 8 月~2013 年 1 月的 3 000 份格式化病歷導入臨床醫療科研信息共享系統構建慢性阻塞性肺疾病急性加重期(AECOPD)數據庫,數據挖掘結果發現:基于復雜網絡的 AECOPD 中醫證候分布有 22 個,居于前 3 位的是痰熱壅肺證、痰濁阻肺證、肺腎氣虛證。基于復雜網絡進行中醫證-癥相關性研究,各中醫證候對應的臨床癥狀頻數較多的為咳嗽、咳痰、胸悶、喘息、納差、乏力、神疲、動則喘甚等。基于中醫證-癥相關性分析研究,可為 AECOPD 中醫證候診斷標準的修訂提供參考及方法學研究。李小茜等[16]在前期制定的充血性心力衰竭(CHF)的中醫證候量表[17]的基礎上,收集多中心 450 例 CHF 住院患者,對用專業術語建立的中醫證候量表進行信度、效度評價,結果發現 CHF 中醫證候量表具有較好的信度、效度,可行性良好,為 CHF 中醫證候研究提供了一定的依據。
大數據技術在中醫藥領域中的應用具有相通之處,不論是脈診還是證候的研究,其最終目的是為了指導臨床應用。研究者在虛擬網絡中,采用人工神經網絡技術,通過網絡訓練和學習,確認“證候”到治法“方劑”的復雜線性關系,實現“證候”到治法“方劑”的相對準確對應,為中醫客觀化探索提供了一種新的規范化論治的研究方法[18, 19]。大數據、云平臺也為中醫藥規范化診治提供了技術支撐,實現隱性知識的發掘,如能結合真實世界的研究方法,將有效地提高中醫臨床的決策水平。
2.2 大數據技術與中醫學術經驗傳承研究
名老中醫的學術思想及臨床經驗是中醫不斷發展創新的動力,對名老中醫的臨床經驗進行傳承是中醫不斷發展的重要環節。近年來,國家重點研發計劃設立了專題項目對名老中醫學術經驗的傳承方法進行了系統研究。大數據技術為挖掘名老中醫學術經驗,傳承其學術思想提供了較為可行的技術支持。
蔡永敏等[20]以現代名老中醫治療肺系疾病的臨床醫案為數據來源,設計建立了肺系疾病數據庫,共錄入 34 414 條數據,在此基礎上可針對某一具體的肺系疾病查詢其具體的中醫病因、病機、中醫證候分型、癥狀、脈象,用不同字段進行不同適應性的挖掘分析,從而探尋各種肺系疾病的診治規律,該研究構建了大樣本臨床醫案的癥-證-方藥之間的關系,依托大數據技術實現名老中醫學術經驗的傳承。
田甜等[21]用本體構建以五臟為中心的中醫藥領域知識模型,納入中醫術語 15 040 條,建立概念之間的關系 77 615 條,實現中醫學知識的重建與共享,并且應用本體推理技術對“肺與大腸相表里”理論的相關古代文獻進行數據挖掘。結果發現“肅降失職”是中醫特色理論—“肺與大腸相表里”的主要病機,中醫證候以肺熱移腸證、痰熱壅肺證、肺熱熾盛證、腸熱氣滯證、熱毒閉肺證等熱性病證為多;治法以清法(清熱瀉肺、清瀉腸熱、清熱化痰、清熱生津等)為主;治療以清熱藥(黃連、黃芩、梔子、大黃等)頻數最多,其次為理氣藥(杏仁、桔梗等)、補氣藥(甘草、人參、茯苓等)和補血藥(當歸、白芍等);藥物歸經中歸肺經最多。基于大數據建立本體推理技術,并對古代文獻進行數據挖掘,能夠從不同角度全面揭示中醫藥臨床辨證、處方用藥的隱形知識及規律,更好地應用及傳承古代醫學經典。
運用大數據技術對名老中醫的醫案進行保存和分析,選擇名老中醫的醫案,將病名、病因、病機、病位、證型、藥物劑量等進行標準化處理,選擇合適的算法對數據進行整理和挖掘,通過數據統計、分析解釋中醫臨證用藥規律,將規律性內容形成中醫文獻,并再運用到中醫臨床中去。從而實現名老中醫的臨證經驗傳承,從而指導臨床[19, 22]。
2.3 大數據技術與中醫臨床研究
結合大數據研究思維和方法能夠幫助改善目前中醫臨床研究中遇到的問題,建立符合中醫特色的中醫臨床試驗系統,中醫臨床診療信息數據化會增強研究的臨床真實性,促進研究者進行更貼近臨床實際的研究,揭示疾病的發生發展規律,有效指導臨床實踐,從而擴大中醫的臨床應用范圍和信心,為中醫的國際推廣起到助力作用[23, 24]。
郜明月等[25]分析了 2004 ~2014 年來自全國 25 家三甲醫院因腰椎疾病接受鹿瓜多肽注射液的 6 990 例患者的電子醫療數據,結果顯示患者年齡以 45~64 歲最多(3 883 例,55.55%),腰椎疾病以腰椎間盤突出癥最多(5 519 例,82.5%),中醫證候以氣滯血瘀證為主,為臨床使用鹿瓜多肽提供了一定的指導。夏中尚等[26]分析了 1995~2015 年間發表的 1 341 篇文獻,結果發現,臨床治療糖尿病排名前 3 類的中藥為補虛藥、清熱藥、活血化瘀藥,單味藥頻次較高的是黃芪、丹參、山藥、當歸、茯苓、川芎等,據結果可了解如何隨證加減用藥,更好地發揮中藥治療糖尿病的優勢。王連心等[27]將來自國家藥品不良反應中心 4 220 例數據及參麥注射液上市后臨床安全監測的 32 358 例數據進行分析,發現參麥注射液不良反應發生率為 0.093%,主要癥狀為胸悶、畏寒、皮膚瘙癢、心悸、發熱、惡心等,原發病為慢性肺心病、甲狀腺疾病及合并腦血管疾病的患者,使用參麥注射液前連續使用前列地爾、環磷腺苷、喹諾酮類、青霉素類藥物是參麥注射液不良反應發生的可疑影響因素,這一結果能夠促進臨床更合理使用參麥注射液。馬金輝等[28]分析了全國 16 家三甲醫院第一診斷為高血壓的 30 034 例住院患者,應用頻數分析和關聯規則進行數據分析發現:高血壓住院患者以老年人為主,平均年齡為 64 歲,男女比例 1.1∶1,多數患者合并冠心病、血脂蛋白紊亂,中醫證候以痰瘀互結和肝腎陰虛居多,中藥以活血化瘀藥物為主,西醫治療基本符合指南要求,聯合用藥較多。該結果提示在高血壓的治療中應該注意聯合用藥方案的藥物種類,結合使用化痰祛瘀的中藥,減少靶器官損害及并發癥,為臨床防治高血壓提供了參考。
大數據時代的到來對針灸、推拿的臨床研究具有一定推動作用和啟示。現在針灸、推拿臨床研究以隨機對照試驗(RCT)為主,因樣本量限制無法具體分析疾病的全貌,因此有研究者提出以 RCT 為指導、以大數據應用方法開展的臨床研究為今后臨床研究的方向[29]。余韻揚等[30]以大數據研究模式為依托,探索了針灸推拿治療功能性便秘的臨床選穴規律,該研究檢索了近 5 年收錄于 PubMed、The Cochrane Library、CBM、CNKI、WanFang Data 和 VIP 數據庫中有關針灸推拿治療功能性便秘的臨床研究,對數據進行分類并建立數據庫對其進行統計分析,共納入 112 篇文獻,發現使用的有效穴位有 63 個,使用頻次較多的穴位依次為天樞、上巨虛、中脘、大腸俞、足三里、腹結等,使用頻次較多的經絡依次為胃經、任脈、膀胱經、脾經等,以腹部和下肢部的穴位使用較為頻繁。該結果歸納出針灸推拿治療功能性便秘臨床選穴的規律性,有利于后期指導臨床針灸應用。總之,大數據對于中醫針灸、推拿臨床研究的試驗設計、數據采集及其分析、共享等方面均將發揮影響作用[31]。
3 展望
“科學始于數據,挖掘滲透理論”[32],中醫研究者可從大量的臨床數據中挖掘其潛在的客觀規律,在一定程度上可為闡述中醫診療疾病的科學性提供證據。在中醫藥領域,中醫古今文獻資料、名老中醫專家經驗等大量數據均呈分散存在,未進行科學化處理。如何對現有中醫資料進行數據網絡化、規范化,建立中醫藥應用大數據平臺,實現數據的挖掘與共享,是未來中醫藥發展的重要途徑。但在將大數據技術應用到中醫藥領域前,首先必須對中醫藥內容進行數據化、名詞術語規范化,以更好地挖掘其隱性知識。2012 年 4 月啟動的科技部科技基礎性工作專項重點項目“中醫藥基礎學科名詞術語規范研究項目”將規范中藥、方劑、針灸、推拿、養生、康復、醫史文獻等多個學科的名詞術語,并建設了中醫藥同義詞查詢庫[33],待項目完成后,規范化的中醫藥名詞術語將達 1.3 萬條,可為大數據在中醫藥領域的應用打下基礎。未來,以大數據為基礎的數據挖掘應聯合計算機、統計學的科研人員與廣大醫務工作者,基于預警性、預測性、個體化、共享性進行,從海量的知識中發現中醫隱藏規律[34]。
大數據時代下的中醫臨床研究的數據主要來源于醫療機構的電子病歷。電子病歷的應用范圍日趨廣泛,但不同的系統數據合并困難,非結構化的數據模式給資料的提取造成了困難,電子病歷中可能存在數據重復、缺失等混雜因素,文本數據的收集和醫療數據清洗及整理為后續的數據分析增加了許多困難和時間成本,所以規范臨床醫療數據的收集將對大數據的分析有積極幫助。大數據分析的方法還需要更多創新,數據分析的結果存在“知識垃圾”現象,許多分析出來的結果并無臨床價值,應建立基于臨床需求的分析方法和策略,并確保分析結果得到專業醫生的解讀。基于真實世界獲得的結果和證據更接近于臨床實際,也更有助于正確的臨床決策,基于大數據的臨床決策也是現階段循證醫學發展的主要內容[35]。
如何保證中藥產品的安全性、有效性是中醫藥發展過程中面臨的又一大挑戰。中藥從田間到加工車間,從天然藥材到中藥產品,從藥企到醫院再到患者,這一系列過程產生了海量數據,采用大數據技術對各類數據進行關聯分析,將有助于改進和完善中藥質量控制及質量監管體系[36]。加強中藥生產監管的同時,應對已上市的中藥藥物進行再評價。可用于中藥上市后研究的數據主要有四期臨床試驗證據、被動監測證據、主動監測證據、醫療數據和文獻數據等,將各類數據進行整合,更有利于全面了解上市中藥的安全性及有效性,從而為臨床合理用藥提供更有價值的參考[37]。
在臨床應用時最先采集的數據被稱為原始數據或基礎數據。這些數據是非結構化的,對這些原始數據進行專業化處理后才能進行數據分析和挖掘。數據處理過程中一方面通過對數據格式和內容的調整,使數據更符合挖掘的需要;另一方面可通過不同的技術手段對已有數據進行清洗。現有研究表明可通過數據清洗、數據集成、數據變換、數據規約等預處理,清除冗余數據、糾正錯誤數據、完善殘缺數據,挑選出必需的數據進行集成,達到數據信息精練化、數據格式一致化和數據存儲集中化[38, 39]。數據處理的目的是為了更好地獲取結果,但是數據處理的過程也面臨著諸多的問題,如數據處理該遵循何種原則、如何保護患者隱私等。
大數據技術的開展離不開計算機技術的支持,“互聯網”思維也改變了中醫藥的研究思路。基于計算機技術的網絡藥理學融合了系統生物學、多向藥理學、計算生物學、網絡分析等多學科的技術和內容[40, 41],在“疾病-基因-靶點-藥物”網絡的基礎上,充分利用基因、靶點等大數據,系統綜合地觀察藥物對疾病網絡的干預機制[42]。網絡藥理學日漸成為中醫藥研究的學科前沿,其常用數據庫 DrugBank,截止到 2018 年 3 月,至少收錄了 11 037 個藥物條目,包括 2 524 個獲得批準的小分子藥物,951 個獲得批準的生物技術藥物,112 個保健品和 5 152 個正在實驗的藥物。常用分析工具 Cytoscape[43]可根據基本數據生成龐大的可視化網絡結構,提供基礎的功能布局和網絡查詢功能,研究者可分析預測藥物的活性成分、潛在作用機制及其藥物安全性。在大數據時代下,網絡藥理學將為中醫藥的發展提供新的思路。
在網絡藥理學大數據的基礎上進行中藥藥物重定位的研究,是新藥研發策略中,最快捷、有效的策略之一。我們前期對人參皂苷、川芎嗪、黃連素、青蒿素等中藥單體藥物重定位的研究現狀進行了評價,并基于小分子(或配體)、藥物靶點、網絡理論 3 種研究策略用網絡藥理學的方法分析了中藥藥物重定位研究,以期為中醫藥的新藥研發提供新的研究思路[44]。Zhao 等[45]根據核心成分-靶點-通路網絡獲取加味四妙丸中 30 個主要活性成分,證實其可通過炎性細胞因子、尿酸合成酶、轉運蛋白通路途達到治療痛風的效果,后期的動物實驗也證明這些核心成分可明顯增強 HUVEC 的活性、減弱 ICAM-1 的表達,從而減輕痛風癥狀。該研究通過網絡藥理學的方法預測了加味四妙丸的活性成分,并解釋了活性成分和靶點之間的相互作用,為中草藥的研究提供了另一種途徑。Hong 等[46]運用網絡藥理學方法預測中草藥潛在肝損傷靶點,選用代表性中醫方劑小柴胡湯和單味藥何首烏進行分析,從 TCMSP 數據庫和 TCM @Taiwan 數據庫篩選化學成分,建立化學成分數據庫,按照藥代動力學 ADME 原則對化學成分進行評估篩選,利用在線軟件 STITCH、Chemicals and Proteins Herbal Ingredients Targets(HIT)數據庫預測小柴胡湯潛在的作用靶標,將活性藥物成分及小柴胡湯的作用靶標在 Cytoscape 中進行網絡構建,發現可引起肝損傷的活性物質中,kaempferol 和 thymol 含量最多,其可能是作用于 Caspase3(CASP3)、peroxisome proliferator-activated receptor gamma(PPARG)、myeloid cell leukemia-1(MCL1)3 個靶標引起肝損傷。現有研究者以中醫藥大數據為支撐,采用人工智能、數據挖掘、網絡科學的方法和技術建立中藥整合藥理數據和計算平臺,具有較好的應用前景,能夠促進中醫藥的現代化發展[47]。
科技發展改變著世界,也影響了中醫,在中醫藥發展過程中產生的海量數據,其中蘊含了大量有用信息,目前利用大數據技術開展中醫藥的研究的方法及思路越來越多,如何利用大數據技術高效地研究、發展中醫藥,將中醫藥通過開放、共享的方式推向全球是所有中醫人面臨的一大挑戰。
1 大數據技術的定義
大數據(big data)最初僅指大量的數據,多作為一種概念及研究術語進行使用[1]。隨著大數據概念的不斷發展,其定義也呈現多元化。國際數據中心將大數據定義為:“從大規模多樣化的數據中通過高速捕獲、發現和分析技術提取數據的價值”,從而概括出大數據具有體量大、數據類型多樣、數據處理速度快和數據價值密度低等 4 個核心特點[2]。Gartner 研究機構認為大數據是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產[3]。美國國家標準和技術研究院(NIST)將大數據分為大數據科學(big data science)和大數據框架(big data frameworks)兩大類,前者主要包括大數據的獲取、調節和評估技術的研究;后者指計算單元集群間解決大數據問題的分布式處理和分析的軟件庫及算法[4]。此外,還有很多關于大數據定義的討論[5]。大數據是數字信息化時代帶來的必然結果,雖然其定義尚無法達成共識,但我們更關注的是大數據所帶來的應用價值[6, 7]。
2012 年美國率先提出將大數據作為國家重要的戰略資源之一,繼而全球各國紛紛開展大數據技術的推進工作。大數據時代的到來,給生物醫學的發展帶來了機遇與挑戰,結合高通量芯片、深度測序技術及計算機技術可進行不同層面的基因組學研究,進而發現疾病進程中不同的分子標志物及調控機制,這是大數據帶給生物醫學的機遇。但在研究過程中如何有效整合產生的海量多水平組學數據,則是大數據帶給生物醫學界的巨大挑戰[8]。生物醫學大數據處于蓬勃發展的狀態,適用于生物醫學大數據的技術方法一旦發展成熟,將更有利于全方位分析、預測醫學發展趨勢,更好地探究生命的本質及其規律,為人類的健康提供更全面的服務[9]。
大數據促進了生物醫學發展,也為中醫藥發展開辟新途徑。大數據技術是人工智能的理論與實踐基礎。近年來,人工智能在中醫藥領域的開拓思維不斷顯現,大數據依托計算機技術可以把中醫典籍和臨床診治經驗轉換為數據,形成海量中醫大數據,這使得個性化、碎片化中醫臨床經驗可采用科學方式進行呈現[10]。同時基于真實世界醫學臨床研究方法,借助云平臺與互聯網+技術,建立標準化的中醫健康大數據庫,這將把中醫健康管理帶入人工智能新時代,也是中醫藥未來發展趨勢之一[11]。因此,將大數據技術應用于中醫藥領域,把傳統中醫理論及臨床實踐以數學化、科學化的方式進行闡釋,將更好地促進中醫藥學的發展。本文從中醫診斷、中醫證候研究、中醫學術經驗傳承、中醫臨床研究等幾個方面系統探討近年來大數據技術在中醫藥領域中的應用現狀。
2 大數據技術在中醫藥領域中的應用現狀
2.1 大數據技術與中醫脈診及中醫證候研究
脈診是中醫四診“望、聞、問、切”中極為重要的一環。“只可意會不可言傳”、“心中了了,指下難明”經常用來形容中醫醫者學習中醫脈診的無奈,傳統脈診結果更多是依靠中醫醫者的經驗做出判斷。有學者利用大數據技術對脈象進行特征分析并總結規律,如李磊等[12]利用大數據原理,提出一種結合脈診的大數據分析的中醫診斷疾病方法。首先采集常見的幾種中醫脈象證型,如氣虛、氣陰兩虛、氣滯和氣滯血瘀等證的脈圖,利用功率譜基頻 F0(脈搏跳動的基本頻率)、倒譜波特征 RC(脈象倒譜波的類型)、倒譜零分量 Cx0(脈搏的強度)、譜能比 SER(脈搏能量與頻率之間的關系)、倒譜波幅度與倒譜零分量的比值 Cx1/Cx0(脈搏的順暢程度)、共振峰的平均距離 ΔF(傳遞函數中共振峰的平均距離)、傳遞函數中共振峰的數目 M(人體脈象共振的特性)8 個參數進行脈象自身特征的可識別性分析,并分類和關聯疾病特征。基于海量數據,利用脈象不同的特征參數、三層前向型 BP 網絡建立中醫脈象辨識智能判斷模型。用中醫脈象信息采集系統收集不同人群、不同疾病的脈診信息形成大數據環境,對中醫脈象辨識智能判斷模型進行測試,測試結果表明利用大數據對脈象進行識別,能夠提高脈象辨識的準確率。大數據時代下,中醫脈診不是小樣本的數據分析,而是盡可能地搜集總體樣本的數據信息,能夠從根本上反映總體樣本情況,從一個全新的角度去探索中醫脈診。
李貴華等[13]用醫院 HIS 數據庫提取住院患者信息,并對數據進行標準化,納入第一診斷為冠心病的住院患者,利用頻數分析法對 84 697 例患者的信息進行描述性分析,采用關聯原則分析患者合并用藥情況,結果發現該數據庫的冠心病患者,以老年男性居多,最常見的合并病為高血壓、糖尿病、腦梗死、血脂異常等。中醫證候以氣陰兩虛、氣虛血瘀最為常見,其中血瘀是占比最高的證候要素,其次為氣虛、痰濁、陰虛等。胡金亮等[14, 15]將 2011 年 8 月~2013 年 1 月的 3 000 份格式化病歷導入臨床醫療科研信息共享系統構建慢性阻塞性肺疾病急性加重期(AECOPD)數據庫,數據挖掘結果發現:基于復雜網絡的 AECOPD 中醫證候分布有 22 個,居于前 3 位的是痰熱壅肺證、痰濁阻肺證、肺腎氣虛證。基于復雜網絡進行中醫證-癥相關性研究,各中醫證候對應的臨床癥狀頻數較多的為咳嗽、咳痰、胸悶、喘息、納差、乏力、神疲、動則喘甚等。基于中醫證-癥相關性分析研究,可為 AECOPD 中醫證候診斷標準的修訂提供參考及方法學研究。李小茜等[16]在前期制定的充血性心力衰竭(CHF)的中醫證候量表[17]的基礎上,收集多中心 450 例 CHF 住院患者,對用專業術語建立的中醫證候量表進行信度、效度評價,結果發現 CHF 中醫證候量表具有較好的信度、效度,可行性良好,為 CHF 中醫證候研究提供了一定的依據。
大數據技術在中醫藥領域中的應用具有相通之處,不論是脈診還是證候的研究,其最終目的是為了指導臨床應用。研究者在虛擬網絡中,采用人工神經網絡技術,通過網絡訓練和學習,確認“證候”到治法“方劑”的復雜線性關系,實現“證候”到治法“方劑”的相對準確對應,為中醫客觀化探索提供了一種新的規范化論治的研究方法[18, 19]。大數據、云平臺也為中醫藥規范化診治提供了技術支撐,實現隱性知識的發掘,如能結合真實世界的研究方法,將有效地提高中醫臨床的決策水平。
2.2 大數據技術與中醫學術經驗傳承研究
名老中醫的學術思想及臨床經驗是中醫不斷發展創新的動力,對名老中醫的臨床經驗進行傳承是中醫不斷發展的重要環節。近年來,國家重點研發計劃設立了專題項目對名老中醫學術經驗的傳承方法進行了系統研究。大數據技術為挖掘名老中醫學術經驗,傳承其學術思想提供了較為可行的技術支持。
蔡永敏等[20]以現代名老中醫治療肺系疾病的臨床醫案為數據來源,設計建立了肺系疾病數據庫,共錄入 34 414 條數據,在此基礎上可針對某一具體的肺系疾病查詢其具體的中醫病因、病機、中醫證候分型、癥狀、脈象,用不同字段進行不同適應性的挖掘分析,從而探尋各種肺系疾病的診治規律,該研究構建了大樣本臨床醫案的癥-證-方藥之間的關系,依托大數據技術實現名老中醫學術經驗的傳承。
田甜等[21]用本體構建以五臟為中心的中醫藥領域知識模型,納入中醫術語 15 040 條,建立概念之間的關系 77 615 條,實現中醫學知識的重建與共享,并且應用本體推理技術對“肺與大腸相表里”理論的相關古代文獻進行數據挖掘。結果發現“肅降失職”是中醫特色理論—“肺與大腸相表里”的主要病機,中醫證候以肺熱移腸證、痰熱壅肺證、肺熱熾盛證、腸熱氣滯證、熱毒閉肺證等熱性病證為多;治法以清法(清熱瀉肺、清瀉腸熱、清熱化痰、清熱生津等)為主;治療以清熱藥(黃連、黃芩、梔子、大黃等)頻數最多,其次為理氣藥(杏仁、桔梗等)、補氣藥(甘草、人參、茯苓等)和補血藥(當歸、白芍等);藥物歸經中歸肺經最多。基于大數據建立本體推理技術,并對古代文獻進行數據挖掘,能夠從不同角度全面揭示中醫藥臨床辨證、處方用藥的隱形知識及規律,更好地應用及傳承古代醫學經典。
運用大數據技術對名老中醫的醫案進行保存和分析,選擇名老中醫的醫案,將病名、病因、病機、病位、證型、藥物劑量等進行標準化處理,選擇合適的算法對數據進行整理和挖掘,通過數據統計、分析解釋中醫臨證用藥規律,將規律性內容形成中醫文獻,并再運用到中醫臨床中去。從而實現名老中醫的臨證經驗傳承,從而指導臨床[19, 22]。
2.3 大數據技術與中醫臨床研究
結合大數據研究思維和方法能夠幫助改善目前中醫臨床研究中遇到的問題,建立符合中醫特色的中醫臨床試驗系統,中醫臨床診療信息數據化會增強研究的臨床真實性,促進研究者進行更貼近臨床實際的研究,揭示疾病的發生發展規律,有效指導臨床實踐,從而擴大中醫的臨床應用范圍和信心,為中醫的國際推廣起到助力作用[23, 24]。
郜明月等[25]分析了 2004 ~2014 年來自全國 25 家三甲醫院因腰椎疾病接受鹿瓜多肽注射液的 6 990 例患者的電子醫療數據,結果顯示患者年齡以 45~64 歲最多(3 883 例,55.55%),腰椎疾病以腰椎間盤突出癥最多(5 519 例,82.5%),中醫證候以氣滯血瘀證為主,為臨床使用鹿瓜多肽提供了一定的指導。夏中尚等[26]分析了 1995~2015 年間發表的 1 341 篇文獻,結果發現,臨床治療糖尿病排名前 3 類的中藥為補虛藥、清熱藥、活血化瘀藥,單味藥頻次較高的是黃芪、丹參、山藥、當歸、茯苓、川芎等,據結果可了解如何隨證加減用藥,更好地發揮中藥治療糖尿病的優勢。王連心等[27]將來自國家藥品不良反應中心 4 220 例數據及參麥注射液上市后臨床安全監測的 32 358 例數據進行分析,發現參麥注射液不良反應發生率為 0.093%,主要癥狀為胸悶、畏寒、皮膚瘙癢、心悸、發熱、惡心等,原發病為慢性肺心病、甲狀腺疾病及合并腦血管疾病的患者,使用參麥注射液前連續使用前列地爾、環磷腺苷、喹諾酮類、青霉素類藥物是參麥注射液不良反應發生的可疑影響因素,這一結果能夠促進臨床更合理使用參麥注射液。馬金輝等[28]分析了全國 16 家三甲醫院第一診斷為高血壓的 30 034 例住院患者,應用頻數分析和關聯規則進行數據分析發現:高血壓住院患者以老年人為主,平均年齡為 64 歲,男女比例 1.1∶1,多數患者合并冠心病、血脂蛋白紊亂,中醫證候以痰瘀互結和肝腎陰虛居多,中藥以活血化瘀藥物為主,西醫治療基本符合指南要求,聯合用藥較多。該結果提示在高血壓的治療中應該注意聯合用藥方案的藥物種類,結合使用化痰祛瘀的中藥,減少靶器官損害及并發癥,為臨床防治高血壓提供了參考。
大數據時代的到來對針灸、推拿的臨床研究具有一定推動作用和啟示。現在針灸、推拿臨床研究以隨機對照試驗(RCT)為主,因樣本量限制無法具體分析疾病的全貌,因此有研究者提出以 RCT 為指導、以大數據應用方法開展的臨床研究為今后臨床研究的方向[29]。余韻揚等[30]以大數據研究模式為依托,探索了針灸推拿治療功能性便秘的臨床選穴規律,該研究檢索了近 5 年收錄于 PubMed、The Cochrane Library、CBM、CNKI、WanFang Data 和 VIP 數據庫中有關針灸推拿治療功能性便秘的臨床研究,對數據進行分類并建立數據庫對其進行統計分析,共納入 112 篇文獻,發現使用的有效穴位有 63 個,使用頻次較多的穴位依次為天樞、上巨虛、中脘、大腸俞、足三里、腹結等,使用頻次較多的經絡依次為胃經、任脈、膀胱經、脾經等,以腹部和下肢部的穴位使用較為頻繁。該結果歸納出針灸推拿治療功能性便秘臨床選穴的規律性,有利于后期指導臨床針灸應用。總之,大數據對于中醫針灸、推拿臨床研究的試驗設計、數據采集及其分析、共享等方面均將發揮影響作用[31]。
3 展望
“科學始于數據,挖掘滲透理論”[32],中醫研究者可從大量的臨床數據中挖掘其潛在的客觀規律,在一定程度上可為闡述中醫診療疾病的科學性提供證據。在中醫藥領域,中醫古今文獻資料、名老中醫專家經驗等大量數據均呈分散存在,未進行科學化處理。如何對現有中醫資料進行數據網絡化、規范化,建立中醫藥應用大數據平臺,實現數據的挖掘與共享,是未來中醫藥發展的重要途徑。但在將大數據技術應用到中醫藥領域前,首先必須對中醫藥內容進行數據化、名詞術語規范化,以更好地挖掘其隱性知識。2012 年 4 月啟動的科技部科技基礎性工作專項重點項目“中醫藥基礎學科名詞術語規范研究項目”將規范中藥、方劑、針灸、推拿、養生、康復、醫史文獻等多個學科的名詞術語,并建設了中醫藥同義詞查詢庫[33],待項目完成后,規范化的中醫藥名詞術語將達 1.3 萬條,可為大數據在中醫藥領域的應用打下基礎。未來,以大數據為基礎的數據挖掘應聯合計算機、統計學的科研人員與廣大醫務工作者,基于預警性、預測性、個體化、共享性進行,從海量的知識中發現中醫隱藏規律[34]。
大數據時代下的中醫臨床研究的數據主要來源于醫療機構的電子病歷。電子病歷的應用范圍日趨廣泛,但不同的系統數據合并困難,非結構化的數據模式給資料的提取造成了困難,電子病歷中可能存在數據重復、缺失等混雜因素,文本數據的收集和醫療數據清洗及整理為后續的數據分析增加了許多困難和時間成本,所以規范臨床醫療數據的收集將對大數據的分析有積極幫助。大數據分析的方法還需要更多創新,數據分析的結果存在“知識垃圾”現象,許多分析出來的結果并無臨床價值,應建立基于臨床需求的分析方法和策略,并確保分析結果得到專業醫生的解讀。基于真實世界獲得的結果和證據更接近于臨床實際,也更有助于正確的臨床決策,基于大數據的臨床決策也是現階段循證醫學發展的主要內容[35]。
如何保證中藥產品的安全性、有效性是中醫藥發展過程中面臨的又一大挑戰。中藥從田間到加工車間,從天然藥材到中藥產品,從藥企到醫院再到患者,這一系列過程產生了海量數據,采用大數據技術對各類數據進行關聯分析,將有助于改進和完善中藥質量控制及質量監管體系[36]。加強中藥生產監管的同時,應對已上市的中藥藥物進行再評價。可用于中藥上市后研究的數據主要有四期臨床試驗證據、被動監測證據、主動監測證據、醫療數據和文獻數據等,將各類數據進行整合,更有利于全面了解上市中藥的安全性及有效性,從而為臨床合理用藥提供更有價值的參考[37]。
在臨床應用時最先采集的數據被稱為原始數據或基礎數據。這些數據是非結構化的,對這些原始數據進行專業化處理后才能進行數據分析和挖掘。數據處理過程中一方面通過對數據格式和內容的調整,使數據更符合挖掘的需要;另一方面可通過不同的技術手段對已有數據進行清洗。現有研究表明可通過數據清洗、數據集成、數據變換、數據規約等預處理,清除冗余數據、糾正錯誤數據、完善殘缺數據,挑選出必需的數據進行集成,達到數據信息精練化、數據格式一致化和數據存儲集中化[38, 39]。數據處理的目的是為了更好地獲取結果,但是數據處理的過程也面臨著諸多的問題,如數據處理該遵循何種原則、如何保護患者隱私等。
大數據技術的開展離不開計算機技術的支持,“互聯網”思維也改變了中醫藥的研究思路。基于計算機技術的網絡藥理學融合了系統生物學、多向藥理學、計算生物學、網絡分析等多學科的技術和內容[40, 41],在“疾病-基因-靶點-藥物”網絡的基礎上,充分利用基因、靶點等大數據,系統綜合地觀察藥物對疾病網絡的干預機制[42]。網絡藥理學日漸成為中醫藥研究的學科前沿,其常用數據庫 DrugBank,截止到 2018 年 3 月,至少收錄了 11 037 個藥物條目,包括 2 524 個獲得批準的小分子藥物,951 個獲得批準的生物技術藥物,112 個保健品和 5 152 個正在實驗的藥物。常用分析工具 Cytoscape[43]可根據基本數據生成龐大的可視化網絡結構,提供基礎的功能布局和網絡查詢功能,研究者可分析預測藥物的活性成分、潛在作用機制及其藥物安全性。在大數據時代下,網絡藥理學將為中醫藥的發展提供新的思路。
在網絡藥理學大數據的基礎上進行中藥藥物重定位的研究,是新藥研發策略中,最快捷、有效的策略之一。我們前期對人參皂苷、川芎嗪、黃連素、青蒿素等中藥單體藥物重定位的研究現狀進行了評價,并基于小分子(或配體)、藥物靶點、網絡理論 3 種研究策略用網絡藥理學的方法分析了中藥藥物重定位研究,以期為中醫藥的新藥研發提供新的研究思路[44]。Zhao 等[45]根據核心成分-靶點-通路網絡獲取加味四妙丸中 30 個主要活性成分,證實其可通過炎性細胞因子、尿酸合成酶、轉運蛋白通路途達到治療痛風的效果,后期的動物實驗也證明這些核心成分可明顯增強 HUVEC 的活性、減弱 ICAM-1 的表達,從而減輕痛風癥狀。該研究通過網絡藥理學的方法預測了加味四妙丸的活性成分,并解釋了活性成分和靶點之間的相互作用,為中草藥的研究提供了另一種途徑。Hong 等[46]運用網絡藥理學方法預測中草藥潛在肝損傷靶點,選用代表性中醫方劑小柴胡湯和單味藥何首烏進行分析,從 TCMSP 數據庫和 TCM @Taiwan 數據庫篩選化學成分,建立化學成分數據庫,按照藥代動力學 ADME 原則對化學成分進行評估篩選,利用在線軟件 STITCH、Chemicals and Proteins Herbal Ingredients Targets(HIT)數據庫預測小柴胡湯潛在的作用靶標,將活性藥物成分及小柴胡湯的作用靶標在 Cytoscape 中進行網絡構建,發現可引起肝損傷的活性物質中,kaempferol 和 thymol 含量最多,其可能是作用于 Caspase3(CASP3)、peroxisome proliferator-activated receptor gamma(PPARG)、myeloid cell leukemia-1(MCL1)3 個靶標引起肝損傷。現有研究者以中醫藥大數據為支撐,采用人工智能、數據挖掘、網絡科學的方法和技術建立中藥整合藥理數據和計算平臺,具有較好的應用前景,能夠促進中醫藥的現代化發展[47]。
科技發展改變著世界,也影響了中醫,在中醫藥發展過程中產生的海量數據,其中蘊含了大量有用信息,目前利用大數據技術開展中醫藥的研究的方法及思路越來越多,如何利用大數據技術高效地研究、發展中醫藥,將中醫藥通過開放、共享的方式推向全球是所有中醫人面臨的一大挑戰。