大數據時代的來臨,帶來了生活、工作與思維的大變革。在醫學領域,21世紀以來,隨著社會經濟的發展和醫療衛生的進步,人類疾病譜正在發生改變,疾病種類不斷增多,病因、診斷及治療的復雜性也在逐漸增加。為提高人類的健康水平,探索疾病的發生、發展規律,需要我們不斷探究,通過對醫學大數據的充分挖掘和利用,從海量的知識中發現隱藏其中的規律。這對于提高醫學信息管理水平,為診斷和治療疾病提供理論和方法學的支持,促進臨床實踐和決策將發揮重要的作用。本文以大數據為背景,對大數據的由來、意義、分類、特征、數據挖掘和醫學數據挖掘的研究進展、應用和未來發展進行綜述
引用本文: 秦文哲, 陳進, 董力. 大數據背景下醫學數據挖掘的研究進展及應用. 中國胸心血管外科臨床雜志, 2016, 23(1): 55-60. doi: 10.7507/1007-4848.20160013 復制
進入21世紀,隨著計算機、互聯網技術、云計算、移動終端、數據儲存方式的高速發展和變化,一個新的時代——大數據時代,正在強烈沖擊著我們社會、生產和生活的方方面面,帶來了生活、工作與思維的大變革。醫學和其他領域一樣,在經歷了僅依賴經驗、理論、假設和價值觀去發現未知世界的規律的“無數據時代”和通過有意識地收集數據,依賴抽樣數據、局部數據和片面數據,支持相關的判斷和決策的“樣本數據時代”后,開啟了一次重大的時代轉型——大數據時代。如何充分認識、挖掘和利用醫學大數據,從中發現有價值的信息,使其為臨床實踐和決策服務,是當前值得深入探討的課題。
1 大數據時代
1.1 大數據的由來
2002年8月apache.org的開源項目Nutch最早開始引用“大數據”這個術語。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。網上交易、電子郵件、視頻文件、搜索查詢、健康檔案、社交互動、科學數據以及傳感器和移動電話的應用等都促進了大數據的產生。
人、機、物三元世界的高度融合引發了數據規模的爆炸式增長和數據模式的高度復雜化,世界從此進入大數據(Big Data)時代,吸引了越來越多的關注[1]。在過去的20年里,數據開始在各領域大規模增加。國際數據公司(IDC)的一份報告顯示,在2011年,整個世界上創建和復制數據量是1.8 zb,這相當于全球每個人每天都去做2.15億次高分辨率的核磁共振檢查所產生的數據總量,這些數據在五年內增加了近9倍[2]。事實上,全球知名咨詢公司麥肯錫最早提出了“大數據”時代已經到來。該機構在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素。
1.2 大數據的定義
大數據是一個抽象的概念,盡管其重要性已經被公認,但各領域對它的定義各不相同,目前比較認可的有如下幾種:維基百科認為大數據是指難以用現有的數據庫管理工具處理的兼具海量特征和復雜性特征的數據集成。一般意義上,大數據是指無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合[3]。Apache Hadoop (2010年)指出:在通用計算機可接受的范圍內,不能被捕獲,管理和處理的數據集。在此定義的基礎上2011年5月,麥肯錫集團宣布大數據是下一個創新力、競爭力和生產力的前沿。IDC報告(2011年)[2]指出,“大數據技術描述了新一代的技術和架構,通過啟用高速捕捉,發現和分析技術,從大量的各種各樣的數據中提取有價值的信息。NIST (美國國家標準與技術研究院,2012年)認為,“大數據指的是數據的數量、采集速度或者那些無法用傳統的方法來進行有效分析的數據,或者是可以用重要的橫向放大技術進行有效處理的數據”,它關注的是大數據的技術方面。此外,產業界和學術界對大數據的定義也有相當多的其他討論。
總之,無論哪種定義,都說明大數據不是一種新產品或新技術,它只是數字化時代出現的一種現象或特征。我們最應該關注的不是其定義,而是它所帶來的價值。相比現有的其他技術,大數據具有“廉價、迅速、優化”的優點。通過對海量數據進行分析和存儲,增加了供人類分析和使用的數據量;同時,數據的交換、整合和分析,可以幫助人類發現新知識,創造新價值,帶來“大知識”和“大發展”。
1.3 大數據的分類
依據數字集合的結構狀態分類,大數據可分為:(1)結構化數據,如企業的財務系統、人事系統;(2)半結構化數據,如電子郵件、HTML網頁;(3)非結構化數據,如視頻、移動終端、傳感器等產生的數據。依據數據的應用類型,也可以將大數據分為海量交易數據、海量交互數據以及將交易和交互數據糅合起來進行處理的海量處理數據三類。依據數據的來源,大數據可分為行政記錄數據、商業記錄數據、互聯網及搜索引擎數據三大類[4]。
1.4 大數據的特征
大數據的特征一般概括為四個“V”:(1)volume即“數量體積巨大”,從TB級躍升到PB級(1PB相當于50%的全美國圖書館藏書量),隨著數據的大量生成和收集,數據的規模變得越來越大,已經超出了傳統的存儲和分析的技術[5]。(2)velocity即“速度”,也就是大數據的及時性,這意味著數據的收集和分析,必須迅速和及時的進行[6]。一般要求在秒級時間范圍內給出分析結果,以最大化地利用它的價值。(3)variability即“數據類型繁多”,包括半結構化和非結構化數據,如音頻、視頻、網頁和文本,以及傳統的結構化數據[6]。(4)value即“價值”,集中體現在價值密度低,而商用價值高。大數據多為非結構化和半結構化的數據,用于分析時會花費過多時間和金錢,以監控錄像為例,連續不間斷監控過程中,有用的數據可能僅僅有一兩秒[7]。近年,在四“V”特征的基礎上,又增加了數據獲取與發送的方式便捷(vender)、準確(veracity)和繁復(complexity)三個特征。在利用大數據時關鍵的問題就是如何從一個規模巨大、生成迅速和種類繁多的數據集中發現價值。如果不利用收集到的數據,你只能擁有“一堆數據”而不是“大數據”。綜合大數據的定義、類型、價值、特征等維度進行考察可以看出,大數據具有預警性、預測性、差異性、共享性和動態性等特性。
2 數據挖掘
伴隨著大數據時代的來臨,DM (數據挖掘)應運而生。數據挖掘是指通過對大量有噪聲的模糊數據,以及隨機的實際應用數據的自動和半自動化分析和探索,來發現其中有意義的模式和規則。最早于1989年舉行的第11屆AAAI(美國人工智能)協會學術會議上提出,是近年來隨著人工智能和數據庫技術的發展而出現的一門新興技術[8]。
與傳統的統計分析技術相比,數據挖掘有著自身的本質特征。DM是在沒有明確假設的前提下去挖掘信息并發現知識。DM所得到的信息應具有先前未知、有效以及可實用三個特征[9]。數據挖掘的出現不是為了替代傳統的統計分析技術;相反,它是統計分析方法學的延伸和擴展[10]。
DM的應用通常有兩大類:預測和描述。預測任務主要是根據其他屬性的值,預測特定屬性的值,主要有分類和回歸2種模式。描述任務的目標是概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常),主要有關聯分析、聚類分析、異常檢測3種模式[11]。在DM算法的理論基礎上,一些重要的數據挖掘技術包括:關聯規則法、聚類分析、鏈分析、決策樹、人工神經網絡、遺傳算法、概率論、數理統計、粗糙集和模糊處理技術等[12]。
3 數據挖掘在醫學中的應用
3.1 數據挖掘在醫學實踐中的意義
隨著信息時代的到來,數據挖掘被越來越多地應用于臨床實踐。利用信息技術,醫療記錄和隨訪數據可以更有效地被存儲和提取。同時,從醫學數據中尋找潛在的關系或規律,從而獲得有效的對病人進行診斷、治療的知識;增加對疾病的預測準確性,在早期發現疾病,提高治愈率。數據挖掘對醫學實踐的重要性主要體現在四個方面:(1)醫學數據挖掘會大大增加產生新知識的速度,利用計算機技術分析電子病歷中包含的非結構化數據能夠更好的進行自動化的數據采集。(2)醫學數據挖掘可以幫助進行知識傳播,大量的研究使得知識的轉化非常困難,大部分臨床醫生難以跟上最新的證據來指導臨床實踐。這個問題可以通過分析現有的電子病歷產生一個儀表板來指導臨床決策。如IBM的沃森超級計算機與斯隆凱特林癌癥中心合作,利用這個方法來輔助臨床醫生對癌癥患者做出診斷和提出治療方案。(3)通過整合系統生物學與電子病歷數據,醫學數據挖掘可以為個性化醫療計劃轉變為臨床實踐提供機會[13]。(4)通過直接向病人提供信息來轉化衛生保健知識,讓病人在治療過程中發揮更積極的作用。
3.2 醫學數據挖掘的特點
臨床醫學地位特殊,醫療結果生死攸關。這使得臨床數據庫在進行數據挖掘時,有其自身的特點。原始的臨床數據數量巨大并且具有異質性,這些數據大多來自于電子病歷、醫學影像、病歷參數、化驗結果以及臨床醫生的觀察和解釋[14]。這些臨床信息具有多樣性、隱私性、冗余性、不完整性、缺乏數學性質等自身的特殊性和復雜性,并且涉及到倫理和法律問題,使得醫學DM與常規DM之間存在較大差異。首先,就臨床研究而言,基于大數據的臨床研究不同于以往的RCT (隨機對照試驗)。毫無疑問,隨機對照試驗處于證據金字塔的頂部,可以提供高水平的證據來證明干預的有效性[15]。然而,隨機對照試驗并不能解決所有的臨床問題[16]。隨機對照試驗本身存在固有的局限性,RCT往往是在理想狀態下進行,和真實的臨床實際存在許多差異,不能代表日常醫療中遇到患者的真實情況,通常采用抽樣的方法獲取樣本,并且存在嚴格的納入排除標準,研究中所包含的病患往往只是一部分符合特定要求的群體,存在樣本代表性和外部真實性等問題。大數據的整體性和海量信息特性,彌補了隨機對照試驗的上述不足,為解決臨床問題提供了“真實”的臨床環境,基于此“真實世界”所獲得的結果和證據更接近臨床實際,也更有助于正確的臨床決策。其次,由于個體差異的存在,使得醫學數據挖掘具有區別常規數據挖掘的本質特征。數據挖掘來自于統計學的概率抽樣、估計和假設檢驗。理論上基本情況相同時,病人對疾病或藥物的反應是相似的,而病人個體因為先天或后天因素有少數人會出現在性質和數量上有顯著差異的反應,如高敏性、低敏性以及特異質性等反應。因此,醫學數據挖掘可以針對病人個體進行個體化預測,給出個體化的治療方案。其次,醫學數據挖掘的另一特點是底層數據結構很難進行數學表示。相較于可以將數據直接代入公式、模型來反應數據之間關系的物理科學,醫學數據挖掘沒有一個正式的可比的結構供數據挖掘者組織信息。雖然,隨著計算機技術的發展以及新的數據挖掘技術的出現這一難題會逐漸被克服,但這仍舊是醫學數據挖掘的一個重要特征。再次,醫學數據挖掘存在倫理性、法律性和社會性問題。數據的所有權,數據的隱私和安全,預期收益以及行政事務等都使得醫學數據挖掘與常規數據挖掘存在不同。
人類疾病的復雜性、健康的重要性和醫學數據的特殊性,個人、團體和人群水平上疾病后果的嚴重性,以及我們處理這些復雜情況的能力促進了數據挖掘技術的進步。同時,數據挖掘技術的進步也可以為一些臨床研究提供假設[17]。然而基于真實世界的臨床環境,許多內部和外部的因素,如病人的個體化特征、醫療設施、獲得衛生保健的途徑等,使得在對臨床數據進行分析時,數據挖掘技術的應用相對有限。近年來,ANN (人工神經網絡)依靠其高度的并行性、良好的容錯性與聯想記憶功能以及十分強的自適應、自學習能力,開始越來越多的應用到臨床數據的分析中,其主要包括分類、診斷、成像、波形分析和結果預測等。
3.3 大數據背景下的醫學數據挖掘應用
3.3.1 預警性
大數據的預警性在于相對于提前設置的標準,當數據發生異常時,通過一定的機制可以發出警告,從而迅速采取相應措施,及時解決問題。滕琪等[18]通過運用新興的尖端云計算技術,設計研發了健康云平臺。采用分布式云存儲技術存儲大規模的異構多模態生理信號數據,將數據挖掘模型(L1-Logistic)整合至MapReduce框架中,快速挖掘用戶的健康信息以及重大疾病高風險因子,讓用戶能實時地了解自己的身體狀況,同時對用戶的異常狀況給出預警信息,并通知其前往醫院就醫,實現了對重大突發疾病的早期預警。麻省理工學院、密歇根大學和一家婦女醫院創建了一個計算機模型,用于分析心臟病患者的心電圖數據,預測未來一年內患者心臟病的發病幾率。通過機器學習和數據挖掘,該模型可以通過累積的數據進行分析,發現高風險指標,從而改變了過去醫生由于缺乏對之前數據的比較分析,導致對70%的心臟病患者是否再度發病缺乏預判的現象[19]。
3.3.2 預測性
正如Viktor Mayer-Sch?nberger所說:“預測,大數據的核心”。數據挖掘在臨床實踐中也更多地被用于預測建模,使用患者的特定信息來預測疾病的結果,輔助疾病診斷和推薦治療措施,從而支持臨床決策。
預測建模(predictive modeling)主要是利用自變量函數的方式來為目標變量建立模型,包括2種模式:分類和回歸。分類是對離散的數據進行預測。在臨床醫學中,疾病的診斷就是典型的分類過程。劉娟[20]對數據挖掘的三種分類預測算法(C5.0、BP-人工神經網絡和TAN貝葉斯網絡)進行研究和探討,構建較為適合的模型,用于胃癌的早期預警、診斷和分類的自動化。回歸主要是對連續和有序的數據進行預測,可以廣泛的應用于疾病的診斷、預后的判別和藥物劑量預測等。如Consortium等[21]采用最小二乘法回歸模型建立華法林劑量預測算法,來預測華法林的穩定維持劑量。
谷歌公司利用人們在網上的搜索記錄和與流感密切相關的檢索詞條,建立了特定的系統和4.5億個數學模型來預測流感的傳播,甚至預測流感發生的地方。將得出的預測結果與美國CDC記錄的實際流感病例進行對比后,他們的預測與官方數據的相關性高達97%。這種預測就是建立在大數據基礎上的,這是當今社會所獨有的一種新型能力——以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品、服務以及深刻的洞見[22]。
3.3.3 個體化
大數據的差異性凸顯醫療服務的個性化。基因測序是醫療服務個性化的代表,Bina Technology公司利用大數據來分析人類的基因序列,發現基因中罕見的病變信息。隨著從基因測序中獲得越來越多的遺傳信息,這一技術將對我們的健康產生極大影響。
基因測序技術的不斷發展,促進了個性化藥物研發等新型的疾病治療措施的出現。蘋果公司總裁喬布斯在與癌癥斗爭的過程中,對自身所有DNA和腫瘤DNA進行排序,使得醫生們能夠基于他的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫生可以及時更換另一種藥。通過個性化用藥,將他的生命延長了好幾年。
英國醫療保健局宣布將建立世界最大癌癥患者數據庫,為個性化的癌癥治療提供基礎支撐。建立這個數據庫的目的是推動“個性化醫療”,針對每位患者的癌癥類別和具體情況對癥用藥。數據來自英國各地醫療機構的病例和1 100萬份歷史檔案記錄,并與威爾士、蘇格蘭和北愛爾蘭的醫療保健數據庫共享信息(姜國平.大數據醫療實例分享. http://chuansong.me/n/512148.)。
3.3.4 共享性
數據共享是大數據應用的基石,與大數據的“四V特征”是相輔相成的。通過信息共享,連接各個信息孤島,最大程度上增加數據量,為更多、更新的應用提供數據支撐。使用者可以接觸到更多種類、更多時序的數據內容,為分析決策提供更加可靠的依據,大大加快信息流通速度,增加其時效性和可用性,同時產生更大的價值。
醫學領域積累了海量的數據,但是大部分數據資源分散在不同國家、研究單位和研究者手中。我國于2004年4月正式啟動“國家醫藥衛生科學數據共享工程”。包括1個網、6個數據中心、40個左右的主體數據庫和300個左右的數據庫(數據集系列),在這個框架中包含了多種不同層次的數據整合與資源組織方式。為政府衛生決策、醫學科技創新、醫療保健、醫學人才培養,以及全民健康提供數據資源和信息服務(共享國際生物醫學數據.科學時報. http://www.bioon.com/biology/news/289239.shtml.)。國際層面的醫學數據共享不斷發展,1997年人類腦計劃在美國正式啟動,有20余家著名的研究所和大學參加。其目標是建立一個有關神經系統所有知識的全球管理系統和網絡協同研究環境,使得有關腦的實驗數據和研究結果能夠靈活有效地被管理,從而最大限度地利用這些實驗數據和結果,共享國際神經信息學資源,減少不必要的重復性研究和人力物力的浪費。
3.4 以數據庫為基礎的臨床數據挖掘實例
臨床數據庫、電子病歷與醫學圖像等半結構化的數據一樣,都是大數據在臨床醫學中的具體體現。與后兩者不同的是,數據庫采集信息的過程是有目的的、主動的,有專業人員進行信息的錄入,整理并統一結構。因此,基于數據庫所做的研究也更加的方便可行。數據庫應用于臨床工作是一種創新,臨床研究不再僅僅局限于前瞻性的RCTs,而是更加注重反映真實世界的情況,逐步從RCTs過渡到BCT(Big-data Clinical Trial),可以預料到大數據時代的臨床研究BCT將會取代RCTs成為主導的研究類型[16]。
成立于1989年的美國胸外科協會(STS)數據庫,至今已經涵蓋了美國95%的心臟手術,收集了500萬條手術記錄[23]。其中的先天性心臟手術(CHSD)數據庫是STS數據庫的重要組成部分,是北美最大的關注兒童先天性心臟畸形的數據庫,被認為是醫學專業臨床結果數據庫的金標準。近年來,基于CHSD數據庫所進行的數據挖掘不斷增加,大型數據庫對提高醫療質量所起到的正向作用正在日益凸顯。如Welke等[24]基于CHSD數據庫,探討小兒心臟外科病例數量和死亡率之間的復雜關系;Pasquali等[25]基于CHSD數據庫探討新生兒Blalock—taussig分流術后的死亡率;Jacobs等[26]基于CHSD數據庫采用多變量分析方法來研究病人術前因素的重要性;Dibardino等[27]基于CHSD數據庫,采用多變量分析的方法來探討性別和種族對進行先天性心臟手術結果的影響。
近年來,國內外心血管外科領域相繼涌現出一系列高質量的臨床數據庫,如英國胸心外科協會(SCTS)數據庫、澳大利亞和新西蘭心胸外科數據庫以及阜外心血管病醫院的中國成人心外科數據庫都極大的提高了心血管外科治療的成功率。四川大學華西醫院所建立的中國人心臟瓣膜置換術后抗凝治療數據庫,搜集了數萬例心臟瓣膜置換術后患者有關抗凝治療的住院及隨訪數據,為我國進行心臟瓣膜置換術后抗凝治療的研究提供了堅實的數據支持[28]。大型數據庫的建立可以更好的支持臨床數據挖掘工作,從而形成臨床數據收集—挖掘—臨床決策支持的閉環,達到醫療質量持續改進和提高的目的[29]。
4 醫學數據挖掘的趨勢與展望
以大數據為基礎的醫學數據挖掘是一門涉及面廣、技術難度大的新型交叉學科,是計算機技術、人工智能和現代醫學相結合的產物,需要從事計算機、統計學的科研人員與廣大醫務工作者之間的通力合作。數據挖掘具有自身獨有的理念,給人們解決問題提供了一種新的思路和方法。因此,隨著理論研究的深入和進一步的實踐探索,醫學數據挖掘必將在疾病的診療、醫學科研與教學以及醫院管理等方面發揮強有力的作用。
進入21世紀,隨著計算機、互聯網技術、云計算、移動終端、數據儲存方式的高速發展和變化,一個新的時代——大數據時代,正在強烈沖擊著我們社會、生產和生活的方方面面,帶來了生活、工作與思維的大變革。醫學和其他領域一樣,在經歷了僅依賴經驗、理論、假設和價值觀去發現未知世界的規律的“無數據時代”和通過有意識地收集數據,依賴抽樣數據、局部數據和片面數據,支持相關的判斷和決策的“樣本數據時代”后,開啟了一次重大的時代轉型——大數據時代。如何充分認識、挖掘和利用醫學大數據,從中發現有價值的信息,使其為臨床實踐和決策服務,是當前值得深入探討的課題。
1 大數據時代
1.1 大數據的由來
2002年8月apache.org的開源項目Nutch最早開始引用“大數據”這個術語。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。網上交易、電子郵件、視頻文件、搜索查詢、健康檔案、社交互動、科學數據以及傳感器和移動電話的應用等都促進了大數據的產生。
人、機、物三元世界的高度融合引發了數據規模的爆炸式增長和數據模式的高度復雜化,世界從此進入大數據(Big Data)時代,吸引了越來越多的關注[1]。在過去的20年里,數據開始在各領域大規模增加。國際數據公司(IDC)的一份報告顯示,在2011年,整個世界上創建和復制數據量是1.8 zb,這相當于全球每個人每天都去做2.15億次高分辨率的核磁共振檢查所產生的數據總量,這些數據在五年內增加了近9倍[2]。事實上,全球知名咨詢公司麥肯錫最早提出了“大數據”時代已經到來。該機構在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素。
1.2 大數據的定義
大數據是一個抽象的概念,盡管其重要性已經被公認,但各領域對它的定義各不相同,目前比較認可的有如下幾種:維基百科認為大數據是指難以用現有的數據庫管理工具處理的兼具海量特征和復雜性特征的數據集成。一般意義上,大數據是指無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合[3]。Apache Hadoop (2010年)指出:在通用計算機可接受的范圍內,不能被捕獲,管理和處理的數據集。在此定義的基礎上2011年5月,麥肯錫集團宣布大數據是下一個創新力、競爭力和生產力的前沿。IDC報告(2011年)[2]指出,“大數據技術描述了新一代的技術和架構,通過啟用高速捕捉,發現和分析技術,從大量的各種各樣的數據中提取有價值的信息。NIST (美國國家標準與技術研究院,2012年)認為,“大數據指的是數據的數量、采集速度或者那些無法用傳統的方法來進行有效分析的數據,或者是可以用重要的橫向放大技術進行有效處理的數據”,它關注的是大數據的技術方面。此外,產業界和學術界對大數據的定義也有相當多的其他討論。
總之,無論哪種定義,都說明大數據不是一種新產品或新技術,它只是數字化時代出現的一種現象或特征。我們最應該關注的不是其定義,而是它所帶來的價值。相比現有的其他技術,大數據具有“廉價、迅速、優化”的優點。通過對海量數據進行分析和存儲,增加了供人類分析和使用的數據量;同時,數據的交換、整合和分析,可以幫助人類發現新知識,創造新價值,帶來“大知識”和“大發展”。
1.3 大數據的分類
依據數字集合的結構狀態分類,大數據可分為:(1)結構化數據,如企業的財務系統、人事系統;(2)半結構化數據,如電子郵件、HTML網頁;(3)非結構化數據,如視頻、移動終端、傳感器等產生的數據。依據數據的應用類型,也可以將大數據分為海量交易數據、海量交互數據以及將交易和交互數據糅合起來進行處理的海量處理數據三類。依據數據的來源,大數據可分為行政記錄數據、商業記錄數據、互聯網及搜索引擎數據三大類[4]。
1.4 大數據的特征
大數據的特征一般概括為四個“V”:(1)volume即“數量體積巨大”,從TB級躍升到PB級(1PB相當于50%的全美國圖書館藏書量),隨著數據的大量生成和收集,數據的規模變得越來越大,已經超出了傳統的存儲和分析的技術[5]。(2)velocity即“速度”,也就是大數據的及時性,這意味著數據的收集和分析,必須迅速和及時的進行[6]。一般要求在秒級時間范圍內給出分析結果,以最大化地利用它的價值。(3)variability即“數據類型繁多”,包括半結構化和非結構化數據,如音頻、視頻、網頁和文本,以及傳統的結構化數據[6]。(4)value即“價值”,集中體現在價值密度低,而商用價值高。大數據多為非結構化和半結構化的數據,用于分析時會花費過多時間和金錢,以監控錄像為例,連續不間斷監控過程中,有用的數據可能僅僅有一兩秒[7]。近年,在四“V”特征的基礎上,又增加了數據獲取與發送的方式便捷(vender)、準確(veracity)和繁復(complexity)三個特征。在利用大數據時關鍵的問題就是如何從一個規模巨大、生成迅速和種類繁多的數據集中發現價值。如果不利用收集到的數據,你只能擁有“一堆數據”而不是“大數據”。綜合大數據的定義、類型、價值、特征等維度進行考察可以看出,大數據具有預警性、預測性、差異性、共享性和動態性等特性。
2 數據挖掘
伴隨著大數據時代的來臨,DM (數據挖掘)應運而生。數據挖掘是指通過對大量有噪聲的模糊數據,以及隨機的實際應用數據的自動和半自動化分析和探索,來發現其中有意義的模式和規則。最早于1989年舉行的第11屆AAAI(美國人工智能)協會學術會議上提出,是近年來隨著人工智能和數據庫技術的發展而出現的一門新興技術[8]。
與傳統的統計分析技術相比,數據挖掘有著自身的本質特征。DM是在沒有明確假設的前提下去挖掘信息并發現知識。DM所得到的信息應具有先前未知、有效以及可實用三個特征[9]。數據挖掘的出現不是為了替代傳統的統計分析技術;相反,它是統計分析方法學的延伸和擴展[10]。
DM的應用通常有兩大類:預測和描述。預測任務主要是根據其他屬性的值,預測特定屬性的值,主要有分類和回歸2種模式。描述任務的目標是概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常),主要有關聯分析、聚類分析、異常檢測3種模式[11]。在DM算法的理論基礎上,一些重要的數據挖掘技術包括:關聯規則法、聚類分析、鏈分析、決策樹、人工神經網絡、遺傳算法、概率論、數理統計、粗糙集和模糊處理技術等[12]。
3 數據挖掘在醫學中的應用
3.1 數據挖掘在醫學實踐中的意義
隨著信息時代的到來,數據挖掘被越來越多地應用于臨床實踐。利用信息技術,醫療記錄和隨訪數據可以更有效地被存儲和提取。同時,從醫學數據中尋找潛在的關系或規律,從而獲得有效的對病人進行診斷、治療的知識;增加對疾病的預測準確性,在早期發現疾病,提高治愈率。數據挖掘對醫學實踐的重要性主要體現在四個方面:(1)醫學數據挖掘會大大增加產生新知識的速度,利用計算機技術分析電子病歷中包含的非結構化數據能夠更好的進行自動化的數據采集。(2)醫學數據挖掘可以幫助進行知識傳播,大量的研究使得知識的轉化非常困難,大部分臨床醫生難以跟上最新的證據來指導臨床實踐。這個問題可以通過分析現有的電子病歷產生一個儀表板來指導臨床決策。如IBM的沃森超級計算機與斯隆凱特林癌癥中心合作,利用這個方法來輔助臨床醫生對癌癥患者做出診斷和提出治療方案。(3)通過整合系統生物學與電子病歷數據,醫學數據挖掘可以為個性化醫療計劃轉變為臨床實踐提供機會[13]。(4)通過直接向病人提供信息來轉化衛生保健知識,讓病人在治療過程中發揮更積極的作用。
3.2 醫學數據挖掘的特點
臨床醫學地位特殊,醫療結果生死攸關。這使得臨床數據庫在進行數據挖掘時,有其自身的特點。原始的臨床數據數量巨大并且具有異質性,這些數據大多來自于電子病歷、醫學影像、病歷參數、化驗結果以及臨床醫生的觀察和解釋[14]。這些臨床信息具有多樣性、隱私性、冗余性、不完整性、缺乏數學性質等自身的特殊性和復雜性,并且涉及到倫理和法律問題,使得醫學DM與常規DM之間存在較大差異。首先,就臨床研究而言,基于大數據的臨床研究不同于以往的RCT (隨機對照試驗)。毫無疑問,隨機對照試驗處于證據金字塔的頂部,可以提供高水平的證據來證明干預的有效性[15]。然而,隨機對照試驗并不能解決所有的臨床問題[16]。隨機對照試驗本身存在固有的局限性,RCT往往是在理想狀態下進行,和真實的臨床實際存在許多差異,不能代表日常醫療中遇到患者的真實情況,通常采用抽樣的方法獲取樣本,并且存在嚴格的納入排除標準,研究中所包含的病患往往只是一部分符合特定要求的群體,存在樣本代表性和外部真實性等問題。大數據的整體性和海量信息特性,彌補了隨機對照試驗的上述不足,為解決臨床問題提供了“真實”的臨床環境,基于此“真實世界”所獲得的結果和證據更接近臨床實際,也更有助于正確的臨床決策。其次,由于個體差異的存在,使得醫學數據挖掘具有區別常規數據挖掘的本質特征。數據挖掘來自于統計學的概率抽樣、估計和假設檢驗。理論上基本情況相同時,病人對疾病或藥物的反應是相似的,而病人個體因為先天或后天因素有少數人會出現在性質和數量上有顯著差異的反應,如高敏性、低敏性以及特異質性等反應。因此,醫學數據挖掘可以針對病人個體進行個體化預測,給出個體化的治療方案。其次,醫學數據挖掘的另一特點是底層數據結構很難進行數學表示。相較于可以將數據直接代入公式、模型來反應數據之間關系的物理科學,醫學數據挖掘沒有一個正式的可比的結構供數據挖掘者組織信息。雖然,隨著計算機技術的發展以及新的數據挖掘技術的出現這一難題會逐漸被克服,但這仍舊是醫學數據挖掘的一個重要特征。再次,醫學數據挖掘存在倫理性、法律性和社會性問題。數據的所有權,數據的隱私和安全,預期收益以及行政事務等都使得醫學數據挖掘與常規數據挖掘存在不同。
人類疾病的復雜性、健康的重要性和醫學數據的特殊性,個人、團體和人群水平上疾病后果的嚴重性,以及我們處理這些復雜情況的能力促進了數據挖掘技術的進步。同時,數據挖掘技術的進步也可以為一些臨床研究提供假設[17]。然而基于真實世界的臨床環境,許多內部和外部的因素,如病人的個體化特征、醫療設施、獲得衛生保健的途徑等,使得在對臨床數據進行分析時,數據挖掘技術的應用相對有限。近年來,ANN (人工神經網絡)依靠其高度的并行性、良好的容錯性與聯想記憶功能以及十分強的自適應、自學習能力,開始越來越多的應用到臨床數據的分析中,其主要包括分類、診斷、成像、波形分析和結果預測等。
3.3 大數據背景下的醫學數據挖掘應用
3.3.1 預警性
大數據的預警性在于相對于提前設置的標準,當數據發生異常時,通過一定的機制可以發出警告,從而迅速采取相應措施,及時解決問題。滕琪等[18]通過運用新興的尖端云計算技術,設計研發了健康云平臺。采用分布式云存儲技術存儲大規模的異構多模態生理信號數據,將數據挖掘模型(L1-Logistic)整合至MapReduce框架中,快速挖掘用戶的健康信息以及重大疾病高風險因子,讓用戶能實時地了解自己的身體狀況,同時對用戶的異常狀況給出預警信息,并通知其前往醫院就醫,實現了對重大突發疾病的早期預警。麻省理工學院、密歇根大學和一家婦女醫院創建了一個計算機模型,用于分析心臟病患者的心電圖數據,預測未來一年內患者心臟病的發病幾率。通過機器學習和數據挖掘,該模型可以通過累積的數據進行分析,發現高風險指標,從而改變了過去醫生由于缺乏對之前數據的比較分析,導致對70%的心臟病患者是否再度發病缺乏預判的現象[19]。
3.3.2 預測性
正如Viktor Mayer-Sch?nberger所說:“預測,大數據的核心”。數據挖掘在臨床實踐中也更多地被用于預測建模,使用患者的特定信息來預測疾病的結果,輔助疾病診斷和推薦治療措施,從而支持臨床決策。
預測建模(predictive modeling)主要是利用自變量函數的方式來為目標變量建立模型,包括2種模式:分類和回歸。分類是對離散的數據進行預測。在臨床醫學中,疾病的診斷就是典型的分類過程。劉娟[20]對數據挖掘的三種分類預測算法(C5.0、BP-人工神經網絡和TAN貝葉斯網絡)進行研究和探討,構建較為適合的模型,用于胃癌的早期預警、診斷和分類的自動化。回歸主要是對連續和有序的數據進行預測,可以廣泛的應用于疾病的診斷、預后的判別和藥物劑量預測等。如Consortium等[21]采用最小二乘法回歸模型建立華法林劑量預測算法,來預測華法林的穩定維持劑量。
谷歌公司利用人們在網上的搜索記錄和與流感密切相關的檢索詞條,建立了特定的系統和4.5億個數學模型來預測流感的傳播,甚至預測流感發生的地方。將得出的預測結果與美國CDC記錄的實際流感病例進行對比后,他們的預測與官方數據的相關性高達97%。這種預測就是建立在大數據基礎上的,這是當今社會所獨有的一種新型能力——以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品、服務以及深刻的洞見[22]。
3.3.3 個體化
大數據的差異性凸顯醫療服務的個性化。基因測序是醫療服務個性化的代表,Bina Technology公司利用大數據來分析人類的基因序列,發現基因中罕見的病變信息。隨著從基因測序中獲得越來越多的遺傳信息,這一技術將對我們的健康產生極大影響。
基因測序技術的不斷發展,促進了個性化藥物研發等新型的疾病治療措施的出現。蘋果公司總裁喬布斯在與癌癥斗爭的過程中,對自身所有DNA和腫瘤DNA進行排序,使得醫生們能夠基于他的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫生可以及時更換另一種藥。通過個性化用藥,將他的生命延長了好幾年。
英國醫療保健局宣布將建立世界最大癌癥患者數據庫,為個性化的癌癥治療提供基礎支撐。建立這個數據庫的目的是推動“個性化醫療”,針對每位患者的癌癥類別和具體情況對癥用藥。數據來自英國各地醫療機構的病例和1 100萬份歷史檔案記錄,并與威爾士、蘇格蘭和北愛爾蘭的醫療保健數據庫共享信息(姜國平.大數據醫療實例分享. http://chuansong.me/n/512148.)。
3.3.4 共享性
數據共享是大數據應用的基石,與大數據的“四V特征”是相輔相成的。通過信息共享,連接各個信息孤島,最大程度上增加數據量,為更多、更新的應用提供數據支撐。使用者可以接觸到更多種類、更多時序的數據內容,為分析決策提供更加可靠的依據,大大加快信息流通速度,增加其時效性和可用性,同時產生更大的價值。
醫學領域積累了海量的數據,但是大部分數據資源分散在不同國家、研究單位和研究者手中。我國于2004年4月正式啟動“國家醫藥衛生科學數據共享工程”。包括1個網、6個數據中心、40個左右的主體數據庫和300個左右的數據庫(數據集系列),在這個框架中包含了多種不同層次的數據整合與資源組織方式。為政府衛生決策、醫學科技創新、醫療保健、醫學人才培養,以及全民健康提供數據資源和信息服務(共享國際生物醫學數據.科學時報. http://www.bioon.com/biology/news/289239.shtml.)。國際層面的醫學數據共享不斷發展,1997年人類腦計劃在美國正式啟動,有20余家著名的研究所和大學參加。其目標是建立一個有關神經系統所有知識的全球管理系統和網絡協同研究環境,使得有關腦的實驗數據和研究結果能夠靈活有效地被管理,從而最大限度地利用這些實驗數據和結果,共享國際神經信息學資源,減少不必要的重復性研究和人力物力的浪費。
3.4 以數據庫為基礎的臨床數據挖掘實例
臨床數據庫、電子病歷與醫學圖像等半結構化的數據一樣,都是大數據在臨床醫學中的具體體現。與后兩者不同的是,數據庫采集信息的過程是有目的的、主動的,有專業人員進行信息的錄入,整理并統一結構。因此,基于數據庫所做的研究也更加的方便可行。數據庫應用于臨床工作是一種創新,臨床研究不再僅僅局限于前瞻性的RCTs,而是更加注重反映真實世界的情況,逐步從RCTs過渡到BCT(Big-data Clinical Trial),可以預料到大數據時代的臨床研究BCT將會取代RCTs成為主導的研究類型[16]。
成立于1989年的美國胸外科協會(STS)數據庫,至今已經涵蓋了美國95%的心臟手術,收集了500萬條手術記錄[23]。其中的先天性心臟手術(CHSD)數據庫是STS數據庫的重要組成部分,是北美最大的關注兒童先天性心臟畸形的數據庫,被認為是醫學專業臨床結果數據庫的金標準。近年來,基于CHSD數據庫所進行的數據挖掘不斷增加,大型數據庫對提高醫療質量所起到的正向作用正在日益凸顯。如Welke等[24]基于CHSD數據庫,探討小兒心臟外科病例數量和死亡率之間的復雜關系;Pasquali等[25]基于CHSD數據庫探討新生兒Blalock—taussig分流術后的死亡率;Jacobs等[26]基于CHSD數據庫采用多變量分析方法來研究病人術前因素的重要性;Dibardino等[27]基于CHSD數據庫,采用多變量分析的方法來探討性別和種族對進行先天性心臟手術結果的影響。
近年來,國內外心血管外科領域相繼涌現出一系列高質量的臨床數據庫,如英國胸心外科協會(SCTS)數據庫、澳大利亞和新西蘭心胸外科數據庫以及阜外心血管病醫院的中國成人心外科數據庫都極大的提高了心血管外科治療的成功率。四川大學華西醫院所建立的中國人心臟瓣膜置換術后抗凝治療數據庫,搜集了數萬例心臟瓣膜置換術后患者有關抗凝治療的住院及隨訪數據,為我國進行心臟瓣膜置換術后抗凝治療的研究提供了堅實的數據支持[28]。大型數據庫的建立可以更好的支持臨床數據挖掘工作,從而形成臨床數據收集—挖掘—臨床決策支持的閉環,達到醫療質量持續改進和提高的目的[29]。
4 醫學數據挖掘的趨勢與展望
以大數據為基礎的醫學數據挖掘是一門涉及面廣、技術難度大的新型交叉學科,是計算機技術、人工智能和現代醫學相結合的產物,需要從事計算機、統計學的科研人員與廣大醫務工作者之間的通力合作。數據挖掘具有自身獨有的理念,給人們解決問題提供了一種新的思路和方法。因此,隨著理論研究的深入和進一步的實踐探索,醫學數據挖掘必將在疾病的診療、醫學科研與教學以及醫院管理等方面發揮強有力的作用。