計算機技術的發展,促進醫療數據由傳統的紙質模式發展成電子模式,信息化后的醫療數據的有效利用將帶動醫療事業的發展。本文首先闡述醫學數據挖掘現狀與特點,然后從分類、聚類與預測三個方面論述了醫學數據挖掘的關鍵方法,并介紹了決策樹、聚類分析、關聯規則、智能算法及混合算法在內的五類算法在醫學數據挖掘中的應用及評價,最后對數據挖掘技術在醫學領域的應用前景進行了展望。
引用本文: 劉嬋楨, 王友俊. 醫學數據挖掘技術與應用研究. 生物醫學工程學雜志, 2014, 31(5): 1182-1186. doi: 10.7507/1001-5515.20140224 復制
引言
醫院信息化建設日益成熟,由最初的醫院信息系統到現在以電子病歷為中心的各種信息系統,均以直線增長方式上線運行。數字化醫院信息系統的廣泛采用使醫學數據,特別是圖像數據以TB級的容量膨脹。如何充分利用經衛生部及醫院巨額投資的各個信息系統所獲取的海量與零散數據,已成為醫療行業迫切需要解決的問題。
目前數據挖掘廣泛應用于銀行、商業、工業、氣象及電信等行業并已取得顯著的成果,國內外研究機構對醫學數據挖掘技術的研究也取得一定進展。但是,目前還面臨著醫學信息領域人才少且不精,以及醫學數據挖掘難度較大、知識涉及面廣、信息量大等諸多難關,在一定程度上阻礙了數據挖掘技術在醫學信息領域的應用,特別是國內數據挖掘技術在醫學領域的應用剛剛起步,有待進一步發展。
1 醫學數據挖掘現狀
數據挖掘技術在中醫和醫學圖像方面的應用日益成熟,并將進一步應用于醫院管理、檢驗系統的流程分析等新系統,如臨床路徑等。生物信息與基因是目前醫學數據挖掘的研究熱點之一。數據挖掘技術的發展將推動醫學數據挖掘邁向成熟。
2 醫學數據挖掘特點
在對醫學原始數據進行挖掘之前,需要進行一些預處理,因為原始數據含有大量模糊的、不完整的、帶有噪聲和冗余的信息,而且涉及到患者隱私,所以必須對這些數據進行清理、過濾及加密等,以確保數據的一致性和確定性。醫學原始數據處理的內容有:對基礎數據如患者基本信息等進行變換;清理不完整數據;對私密數據如人類免疫缺陷病毒(human immunodeficiency virus,HIV)檢驗結果、特殊人物的檢驗與檢查結果進行加密。
文獻[1]數據預處理方法中的數據變換涉及以下內容:去掉數據中的噪音;對數據進行匯總和聚集;數據泛化與規范化;屬性構造。數據清理技術包括填充遺漏值、將噪音數據轉為平滑數據、聚類與回歸。文獻[2]針對隱私數據挖掘的保護問題,提出一種基于完全同態加密的挖掘算法,使加密的數據在被挖掘時很好地保護了數據的隱私性。
文獻[3]將醫學數據特點歸納為以下幾點:① 模式多態性:醫學信息包括圖像數據、字符型或數字型檢驗結果、體征參數、臨床診斷文字數據等多種數據形式。② 不完整性:患者的疾病具有系統性,表現出的癥狀不一定與某一類疾病有關,并且一個癥狀是否會出現也不確定,造成信息的不完整性。由于人為操作錯誤或系統故障原因也會使數據庫記錄不完整。③ 時間性:在不同的時間上,患者癥狀表現不同,檢查結果也有差異;在病因上也與四季的時間相關。④ 冗余性:醫學信息是一個龐大的數據資源,在檢驗、檢查結果以及表現癥狀與用藥情況等方面都會有大量相同或部分相同的數據。⑤ 隱私性:對于一些具有特殊身份或者特殊病情患者的醫學數據需要加以保護,使這部分的數據被挖掘出來后是己加密信息。醫學數據挖掘具有隱私性的特點,特別值得研究者關注。
由于醫學數據的模式多態性,將數據整合挖掘時,需要應用文本數據挖掘技術、圖像數據挖掘技術、數字數據挖掘技術等多種技術;醫學數據的不完整性與冗余性將導致數據的預處理較困難;挖掘含有隱私信息的醫學數據時,需要對數據進行加密與解密的處理。由此可見,醫學信息自身具有特殊性與復雜性,醫學數據挖掘在挖掘對象的廣泛性、挖掘算法的高效性、提供知識或決策的準確性方面也有更高的要求,使得醫學數據挖掘要突破的關鍵技術較多。
3 醫學數據挖掘的關鍵方法
目前國內使用的醫學數據挖掘方法很多,最常用的方法包括ID3等決策樹算法、以Apriori最為經典的關聯規則算法、應用于大量未知類別數據分類的聚類方法以及適用于醫學數據特點的模糊算法等。近年來,學者將智能算法如遺傳算法、神經網絡等應用于醫學的數據挖掘,并提出粗糙集和遺傳算法結合、粗糙集和神經網絡結合的結合算法。下面將從三方面介紹醫學數據挖掘的關鍵方法。
3.1 分類
決策樹是一種分類算法,它是從一組無次序、無規則的事例中推理出決策樹表示形式的分類規則[4]。在使用決策樹生成知識的過程當中,可使用一些剪枝算法提高知識結果的價值;也可應用置信度函數或粗糙集理論提高分類效果[5];還可基于云計算的核心計算模式MapReduce架構解決多值偏向問題[6],從而使決策樹能處理大規模數據分類問題。蟻群優化算法是一種具有較強魯棒性、可擴展、高性能的分類算法[7],雖然將此算法應用于數據挖掘分類問題的研究很少,但其算法的優勢使其具有很強的研究意義和應用價值,對降低具有不完整性與時間性的醫學數據分類造成的概率偏差有一定的適用性。
3.2 聚類
聚類分析的主要任務是將數據無監督地劃分到不同的簇中,使同一簇中數據相似度最大,不同簇中數據相似性最小[8]。近年來,聚類算法成為醫學圖像中的熱門算法,如馬爾可夫隨機場模糊聚類算法[9]、動態加權模糊核聚類算法[10]、混合模型聚類算法、雙聚類算法及譜聚類算法等。雙聚類方法是當前分析基因表達數據的一個重要手段,它允許在基因和實驗條件兩個維度上同時對基因表達數據進行聚類,從而能夠找出哪些基因在哪些實驗條件下具有相似的表達水平或者關系密切[11]。
3.3 預測
醫學數據挖掘中的預測方法是從醫學數據中發現潛在的、未知的知識。例如:李晶等[12]基于蛋白質交互網絡,融合基因表達數據信息構建PPI權值網絡,預測PPI網絡中未知的蛋白質交互信息。任永功等[13]提出基于矩陣的數據流頻繁模式預測算法,用過去和當前數據預測未來數據狀態。
4 醫學數據挖掘方法的應用與評價
4.1 決策樹
決策樹算法是以分類為基礎的歸納學習算法,以其易于提取顯示規則、計算量相對較小、可顯示重要決策屬性和較高分類準確率等優點而應用廣泛[14]。
吳保華等[15]使用決策樹C4.5算法,對出生監測數據庫中隨機抽取的8個屬性15 096條樣本進行訓練與測試。結果表明該算法判別準確率高達90.1%,判別正常類F度量值為93.9%,判別缺陷類F度量值為74.1%,均高于樸素貝葉斯網絡的判別效果。
喻為民[16] 采用決策樹C4.5算法對中國腫瘤防治數據庫山西子宮頸癌醫學數據集提取出比較有意義的規則,發現了容易導致感染人乳頭瘤病毒(human papilloma virus,HPV)的因素,比如初次性行為年齡過小、具有婚外性行為、異性伴侶較多等。
此外,決策樹算法也被用于監測醫務人員配藥情況,以便及時發現和制止惡意配藥的不良行為。同時,該技術還可以應用于不同病歷之間的相關性,挖掘醫院患者的并發癥等情況[17]。
4.2 聚類分析
聚類分析是研究分類問題的一種統計分析方法,由多元分析技術引入數值分類學形成,該類方法趨向用于大量未知類別數據的分類[18]。
馮敏等[19]運用圖像像素聚類的孤立點分析算法,分析提取醫學圖像數據集中隱藏、不為人注意、易被拋棄的有用信息,找出其中的醫學診斷規則和模式,從而輔助醫生進行疾病診斷。實驗證明該算法對于發現腦部病變是切實可行的。
沈培等[18]以廣東省115例甲型病毒性肝炎患者產生醫療費用原因的數據為研究對象,分別采用中位數分類方法和K-means聚類方法作為預處理方法,對醫療費用這一呈偏態分布的變量進行分類,通過比較模型的預測精度、模型收益以及影響因素的篩選結果,確定最優的預處理方法。采用中位數與聚類分析進行數據預處理時,篩選出的影響因素結果顯示了對醫療費用影響最大的7個變量。兩種方法經處理得到的預測精度分別為91.30%與97.39%。聚類分析的收益圖表陡峭地升高到100.00%,然后漸漸平緩,顯示模型收益良好,影響因素篩選結果更加科學合理,符合實際情況,具有良好的應用性。
李曉園等[20]采用雙聚類的DiCluster算法,同時在基因和條件兩個維度上分析基因表達數據,發現具有生物學意義的轉錄因子等信息。結果表明,DiCluster算法不僅比己有算法具有更高的效率,而且挖掘出的結果具有更好的統計學和生物學意義。
文獻[21]用聚類算法對醫療費用進行統計分析,從而使醫院的社會和經濟效益達到最優。
4.3 關聯規則
關聯規則是通過數據找尋兩個或幾個不相關屬性間的相互依賴關系[22]。在醫療信息中這種關聯數據也存在,如某種疾病可表現出兩種以上的癥狀,這些癥狀之間相互關聯;某種疾病表現的癥狀可能與診斷用藥有關等。
曾勇[23]采用改進的Apriori算法,以廣東三九腦科醫院2011年度電子病歷系統中出院患者病歷數據為對象,分析癲癇及相關疾病間的關系,提取出癲癇疾病和海馬硬化、腦炎、海綿狀血管瘤、精神發育遲緩、大腦發育不全及腦萎縮等疾病之間的關系。從計算規則看,改進后的Apriori算法具有一定的實用性、有效性,能為醫療輔助決策和臨床智能診療提供便利和幫助。
劉尚輝等[24]以某醫院2000年~2009年的甲狀腺結節住院病例數據為對象,利用Apriori算法進行關聯規則挖掘,結果表明該方法有利于將目前醫院中的大量醫療病例轉變為實用新知識,為醫院大量病案信息提供新的研究方法。
王曙燕等[25]利用關聯規則挖掘算法對165例乳腺癌典型病例數據進行挖掘,結果表明,對乳腺癌典型病例數據分類準確率達83%,測試準確率達80%。
陳炯華等[26]基于江蘇省不良反應自發報告數據,使用貝葉斯置信傳播神經網絡(Bayesian confidence propagation neural network,BCPNN) 法和傳統頻數法研究雙黃連注射劑的不良反應監測,結果顯示,兩種方法預警結果一致程度較高,但在報告數較小時(小于3例),傳統頻數法估計誤差很大,導致假陽性結果高于BCPNN法。
4.4 智能算法
作為計算機科學的分支,人工智能的目標是要讓機器的行為看起來像人所表現出來的智能行為一樣[27]。智能算法如遺傳算法、人工神經網絡等都有一些共同的特性,比如模擬自然過程。智能算法一般用于解決一些復雜的工程問題,作為一種新穎算法,在醫學數據挖掘方面也取得一定的效果。
彭海強[28]嘗試將遺傳算法、粒子群算法、免疫算法三種智能算法應用到中醫中風病證診斷量表的權重優化中,通過對中風病的證候和與之相對應的望、聞、問、切四診信息權重進行優化,從而建立新的中風病證診斷標準。通過數據實驗發現,使用這三種智能算法進行權重優化所得權重的效果,優于中醫專家依據經驗所制定權重量表的結果,說明基于智能算法的醫學數據挖掘是可行、高效且有實際意義的。
高燕等[29]搜集了跨度幾千年的大部分針灸處方數據,利用遺傳算法獲得優化后的針灸處方。結果表明遺傳算法尋找最優處方,客觀性較強,每一處方中均包含了特定年代的優秀思想,以致于最后所得結果是各個年代的最優選結果。從臨床實踐看,眾多醫生都認可尋優后推薦的處方方案。
林雯等[30]將混合遺傳算法、自適應遺傳算法和育種算法相結合,提出復合遺傳算法,準確地實現多模醫學圖像配準,并對無噪聲圖像和有噪聲圖像進行配準,實驗表明該算法在醫學圖像配準中具有可行性。嚴計超等[31]針對計算機斷層掃描圖像中前列腺器官邊緣分割較模糊的問題,采用遺傳算法來演化分割輪廓。將專家畫好的測試圖像的分割輪廓與遺傳算法得到的分割輪廓比較,平均差異率在2%~4%。
高磊等[32]以濟南市急救中心2007年~2008年的急診病例和同期天氣資料為實驗數據,利用BP人工神經網絡預測模型預測氣象因素及其變化與各種急癥的發病關系,結果表明除CO中毒預測準確率較低外(46%),其余各類急癥的預測準確率為76%~89%。
4.5 混合算法
混合算法是將兩種或多種不同類型算法相結合的一種算法,因其在實際應用中可利用各類算法的優缺點取長補短,受到學者們的青睞。
王剛等[33]提出一種基于粗糙集與支持向量機的肝炎診斷方法。利用粗糙集對原始特征進行約減,得到多個特征子集,使用支持向量機對新的數據集進行訓練和預測。結果表明,方法具有較高的準確率,可以較準確地判斷數據是否呈陽性。
肖光磊等[34]設計了一種基于遺傳算法的正相關關聯規則挖掘算法,應用于名老中醫臨證經驗分析挖掘的實際問題。通過對所挖掘的關聯規則進行分析,可以很好地了解該中醫專家在治療慢性胃炎方面的用藥特點,獲取從醫經驗,發現客觀有用的新知識以豐富專家經驗和中醫理論,有助于中醫的傳承發展。
程顯毅等[35]提出一種混合優化蟻群和動態模糊C-均值的混合算法,并將該算法應用于醫學圖像分割,實驗表明,混合算法具有很強的模糊邊緣和微細邊緣分割能力。
梁君婷等[36]將小波變換與混合遺傳算法結合起來,對計算機斷層掃描圖像和磁共振圖像進行配準。結果表明,該方法能夠解決遺傳算法早熟收斂問題,有效地克服信息函數的局部極值,實現圖像的自動配準,具有匹配精確、魯棒性好及效率高等優點。趙鳳霞[37]結合復雜網絡的部分理論成果和K-means聚類算法的思想,提出了基于加權復雜網絡聚類的醫學圖像分類器,有效地克服了傳統K-means聚類算法對初始化選值敏感性的問題。通過對某醫院系統中的部分腦部磁共振圖片進行分類,顯示該方法的分類精度比傳統的K-means聚類算法平均提高了8%左右。戴麗麗等[38]構建了一種醫學圖像的t混合模型,將遺傳算法與K-均值算法相結合,實現對醫學圖像的初始劃分,從而獲得混合模型的初始參數,有效地克服了混合模型對參數初始值選擇的敏感性問題,用EM算法多次迭代估計t混合模型參數,最后根據得到的混合模型對醫學圖像進行聚類。實驗表明,醫學圖像聚類平均正確率為94.24%,平均誤判率為1.25%,有較好的穩定性和通用性。
5 結束語
隨著醫療信息化的發展,將海量醫學數據轉化為有用信息會越來越受到關注與重視。自從Google提出云計算概念后,云計算作為一種基于因特網的超級計算模式也將在醫學中得到應用。云平臺能為海量的醫學數據提供統一的數據標準,通過資源池可解決醫學數據的不完整性問題,因而云技術興起將改變醫療行業數據挖掘的形式與方法,同時使醫學數據挖掘展現更加光明的前景。除了醫學數據挖掘技術,醫學數據挖掘的成功還與醫學知識的有效利用息息相關,在具體的應用中,如數據分類預測的精確度的提高等,還需要與醫療行業的專家進一步合作,以便掌握合理的輸入條件,提高數據的可解釋性與相關性。
引言
醫院信息化建設日益成熟,由最初的醫院信息系統到現在以電子病歷為中心的各種信息系統,均以直線增長方式上線運行。數字化醫院信息系統的廣泛采用使醫學數據,特別是圖像數據以TB級的容量膨脹。如何充分利用經衛生部及醫院巨額投資的各個信息系統所獲取的海量與零散數據,已成為醫療行業迫切需要解決的問題。
目前數據挖掘廣泛應用于銀行、商業、工業、氣象及電信等行業并已取得顯著的成果,國內外研究機構對醫學數據挖掘技術的研究也取得一定進展。但是,目前還面臨著醫學信息領域人才少且不精,以及醫學數據挖掘難度較大、知識涉及面廣、信息量大等諸多難關,在一定程度上阻礙了數據挖掘技術在醫學信息領域的應用,特別是國內數據挖掘技術在醫學領域的應用剛剛起步,有待進一步發展。
1 醫學數據挖掘現狀
數據挖掘技術在中醫和醫學圖像方面的應用日益成熟,并將進一步應用于醫院管理、檢驗系統的流程分析等新系統,如臨床路徑等。生物信息與基因是目前醫學數據挖掘的研究熱點之一。數據挖掘技術的發展將推動醫學數據挖掘邁向成熟。
2 醫學數據挖掘特點
在對醫學原始數據進行挖掘之前,需要進行一些預處理,因為原始數據含有大量模糊的、不完整的、帶有噪聲和冗余的信息,而且涉及到患者隱私,所以必須對這些數據進行清理、過濾及加密等,以確保數據的一致性和確定性。醫學原始數據處理的內容有:對基礎數據如患者基本信息等進行變換;清理不完整數據;對私密數據如人類免疫缺陷病毒(human immunodeficiency virus,HIV)檢驗結果、特殊人物的檢驗與檢查結果進行加密。
文獻[1]數據預處理方法中的數據變換涉及以下內容:去掉數據中的噪音;對數據進行匯總和聚集;數據泛化與規范化;屬性構造。數據清理技術包括填充遺漏值、將噪音數據轉為平滑數據、聚類與回歸。文獻[2]針對隱私數據挖掘的保護問題,提出一種基于完全同態加密的挖掘算法,使加密的數據在被挖掘時很好地保護了數據的隱私性。
文獻[3]將醫學數據特點歸納為以下幾點:① 模式多態性:醫學信息包括圖像數據、字符型或數字型檢驗結果、體征參數、臨床診斷文字數據等多種數據形式。② 不完整性:患者的疾病具有系統性,表現出的癥狀不一定與某一類疾病有關,并且一個癥狀是否會出現也不確定,造成信息的不完整性。由于人為操作錯誤或系統故障原因也會使數據庫記錄不完整。③ 時間性:在不同的時間上,患者癥狀表現不同,檢查結果也有差異;在病因上也與四季的時間相關。④ 冗余性:醫學信息是一個龐大的數據資源,在檢驗、檢查結果以及表現癥狀與用藥情況等方面都會有大量相同或部分相同的數據。⑤ 隱私性:對于一些具有特殊身份或者特殊病情患者的醫學數據需要加以保護,使這部分的數據被挖掘出來后是己加密信息。醫學數據挖掘具有隱私性的特點,特別值得研究者關注。
由于醫學數據的模式多態性,將數據整合挖掘時,需要應用文本數據挖掘技術、圖像數據挖掘技術、數字數據挖掘技術等多種技術;醫學數據的不完整性與冗余性將導致數據的預處理較困難;挖掘含有隱私信息的醫學數據時,需要對數據進行加密與解密的處理。由此可見,醫學信息自身具有特殊性與復雜性,醫學數據挖掘在挖掘對象的廣泛性、挖掘算法的高效性、提供知識或決策的準確性方面也有更高的要求,使得醫學數據挖掘要突破的關鍵技術較多。
3 醫學數據挖掘的關鍵方法
目前國內使用的醫學數據挖掘方法很多,最常用的方法包括ID3等決策樹算法、以Apriori最為經典的關聯規則算法、應用于大量未知類別數據分類的聚類方法以及適用于醫學數據特點的模糊算法等。近年來,學者將智能算法如遺傳算法、神經網絡等應用于醫學的數據挖掘,并提出粗糙集和遺傳算法結合、粗糙集和神經網絡結合的結合算法。下面將從三方面介紹醫學數據挖掘的關鍵方法。
3.1 分類
決策樹是一種分類算法,它是從一組無次序、無規則的事例中推理出決策樹表示形式的分類規則[4]。在使用決策樹生成知識的過程當中,可使用一些剪枝算法提高知識結果的價值;也可應用置信度函數或粗糙集理論提高分類效果[5];還可基于云計算的核心計算模式MapReduce架構解決多值偏向問題[6],從而使決策樹能處理大規模數據分類問題。蟻群優化算法是一種具有較強魯棒性、可擴展、高性能的分類算法[7],雖然將此算法應用于數據挖掘分類問題的研究很少,但其算法的優勢使其具有很強的研究意義和應用價值,對降低具有不完整性與時間性的醫學數據分類造成的概率偏差有一定的適用性。
3.2 聚類
聚類分析的主要任務是將數據無監督地劃分到不同的簇中,使同一簇中數據相似度最大,不同簇中數據相似性最小[8]。近年來,聚類算法成為醫學圖像中的熱門算法,如馬爾可夫隨機場模糊聚類算法[9]、動態加權模糊核聚類算法[10]、混合模型聚類算法、雙聚類算法及譜聚類算法等。雙聚類方法是當前分析基因表達數據的一個重要手段,它允許在基因和實驗條件兩個維度上同時對基因表達數據進行聚類,從而能夠找出哪些基因在哪些實驗條件下具有相似的表達水平或者關系密切[11]。
3.3 預測
醫學數據挖掘中的預測方法是從醫學數據中發現潛在的、未知的知識。例如:李晶等[12]基于蛋白質交互網絡,融合基因表達數據信息構建PPI權值網絡,預測PPI網絡中未知的蛋白質交互信息。任永功等[13]提出基于矩陣的數據流頻繁模式預測算法,用過去和當前數據預測未來數據狀態。
4 醫學數據挖掘方法的應用與評價
4.1 決策樹
決策樹算法是以分類為基礎的歸納學習算法,以其易于提取顯示規則、計算量相對較小、可顯示重要決策屬性和較高分類準確率等優點而應用廣泛[14]。
吳保華等[15]使用決策樹C4.5算法,對出生監測數據庫中隨機抽取的8個屬性15 096條樣本進行訓練與測試。結果表明該算法判別準確率高達90.1%,判別正常類F度量值為93.9%,判別缺陷類F度量值為74.1%,均高于樸素貝葉斯網絡的判別效果。
喻為民[16] 采用決策樹C4.5算法對中國腫瘤防治數據庫山西子宮頸癌醫學數據集提取出比較有意義的規則,發現了容易導致感染人乳頭瘤病毒(human papilloma virus,HPV)的因素,比如初次性行為年齡過小、具有婚外性行為、異性伴侶較多等。
此外,決策樹算法也被用于監測醫務人員配藥情況,以便及時發現和制止惡意配藥的不良行為。同時,該技術還可以應用于不同病歷之間的相關性,挖掘醫院患者的并發癥等情況[17]。
4.2 聚類分析
聚類分析是研究分類問題的一種統計分析方法,由多元分析技術引入數值分類學形成,該類方法趨向用于大量未知類別數據的分類[18]。
馮敏等[19]運用圖像像素聚類的孤立點分析算法,分析提取醫學圖像數據集中隱藏、不為人注意、易被拋棄的有用信息,找出其中的醫學診斷規則和模式,從而輔助醫生進行疾病診斷。實驗證明該算法對于發現腦部病變是切實可行的。
沈培等[18]以廣東省115例甲型病毒性肝炎患者產生醫療費用原因的數據為研究對象,分別采用中位數分類方法和K-means聚類方法作為預處理方法,對醫療費用這一呈偏態分布的變量進行分類,通過比較模型的預測精度、模型收益以及影響因素的篩選結果,確定最優的預處理方法。采用中位數與聚類分析進行數據預處理時,篩選出的影響因素結果顯示了對醫療費用影響最大的7個變量。兩種方法經處理得到的預測精度分別為91.30%與97.39%。聚類分析的收益圖表陡峭地升高到100.00%,然后漸漸平緩,顯示模型收益良好,影響因素篩選結果更加科學合理,符合實際情況,具有良好的應用性。
李曉園等[20]采用雙聚類的DiCluster算法,同時在基因和條件兩個維度上分析基因表達數據,發現具有生物學意義的轉錄因子等信息。結果表明,DiCluster算法不僅比己有算法具有更高的效率,而且挖掘出的結果具有更好的統計學和生物學意義。
文獻[21]用聚類算法對醫療費用進行統計分析,從而使醫院的社會和經濟效益達到最優。
4.3 關聯規則
關聯規則是通過數據找尋兩個或幾個不相關屬性間的相互依賴關系[22]。在醫療信息中這種關聯數據也存在,如某種疾病可表現出兩種以上的癥狀,這些癥狀之間相互關聯;某種疾病表現的癥狀可能與診斷用藥有關等。
曾勇[23]采用改進的Apriori算法,以廣東三九腦科醫院2011年度電子病歷系統中出院患者病歷數據為對象,分析癲癇及相關疾病間的關系,提取出癲癇疾病和海馬硬化、腦炎、海綿狀血管瘤、精神發育遲緩、大腦發育不全及腦萎縮等疾病之間的關系。從計算規則看,改進后的Apriori算法具有一定的實用性、有效性,能為醫療輔助決策和臨床智能診療提供便利和幫助。
劉尚輝等[24]以某醫院2000年~2009年的甲狀腺結節住院病例數據為對象,利用Apriori算法進行關聯規則挖掘,結果表明該方法有利于將目前醫院中的大量醫療病例轉變為實用新知識,為醫院大量病案信息提供新的研究方法。
王曙燕等[25]利用關聯規則挖掘算法對165例乳腺癌典型病例數據進行挖掘,結果表明,對乳腺癌典型病例數據分類準確率達83%,測試準確率達80%。
陳炯華等[26]基于江蘇省不良反應自發報告數據,使用貝葉斯置信傳播神經網絡(Bayesian confidence propagation neural network,BCPNN) 法和傳統頻數法研究雙黃連注射劑的不良反應監測,結果顯示,兩種方法預警結果一致程度較高,但在報告數較小時(小于3例),傳統頻數法估計誤差很大,導致假陽性結果高于BCPNN法。
4.4 智能算法
作為計算機科學的分支,人工智能的目標是要讓機器的行為看起來像人所表現出來的智能行為一樣[27]。智能算法如遺傳算法、人工神經網絡等都有一些共同的特性,比如模擬自然過程。智能算法一般用于解決一些復雜的工程問題,作為一種新穎算法,在醫學數據挖掘方面也取得一定的效果。
彭海強[28]嘗試將遺傳算法、粒子群算法、免疫算法三種智能算法應用到中醫中風病證診斷量表的權重優化中,通過對中風病的證候和與之相對應的望、聞、問、切四診信息權重進行優化,從而建立新的中風病證診斷標準。通過數據實驗發現,使用這三種智能算法進行權重優化所得權重的效果,優于中醫專家依據經驗所制定權重量表的結果,說明基于智能算法的醫學數據挖掘是可行、高效且有實際意義的。
高燕等[29]搜集了跨度幾千年的大部分針灸處方數據,利用遺傳算法獲得優化后的針灸處方。結果表明遺傳算法尋找最優處方,客觀性較強,每一處方中均包含了特定年代的優秀思想,以致于最后所得結果是各個年代的最優選結果。從臨床實踐看,眾多醫生都認可尋優后推薦的處方方案。
林雯等[30]將混合遺傳算法、自適應遺傳算法和育種算法相結合,提出復合遺傳算法,準確地實現多模醫學圖像配準,并對無噪聲圖像和有噪聲圖像進行配準,實驗表明該算法在醫學圖像配準中具有可行性。嚴計超等[31]針對計算機斷層掃描圖像中前列腺器官邊緣分割較模糊的問題,采用遺傳算法來演化分割輪廓。將專家畫好的測試圖像的分割輪廓與遺傳算法得到的分割輪廓比較,平均差異率在2%~4%。
高磊等[32]以濟南市急救中心2007年~2008年的急診病例和同期天氣資料為實驗數據,利用BP人工神經網絡預測模型預測氣象因素及其變化與各種急癥的發病關系,結果表明除CO中毒預測準確率較低外(46%),其余各類急癥的預測準確率為76%~89%。
4.5 混合算法
混合算法是將兩種或多種不同類型算法相結合的一種算法,因其在實際應用中可利用各類算法的優缺點取長補短,受到學者們的青睞。
王剛等[33]提出一種基于粗糙集與支持向量機的肝炎診斷方法。利用粗糙集對原始特征進行約減,得到多個特征子集,使用支持向量機對新的數據集進行訓練和預測。結果表明,方法具有較高的準確率,可以較準確地判斷數據是否呈陽性。
肖光磊等[34]設計了一種基于遺傳算法的正相關關聯規則挖掘算法,應用于名老中醫臨證經驗分析挖掘的實際問題。通過對所挖掘的關聯規則進行分析,可以很好地了解該中醫專家在治療慢性胃炎方面的用藥特點,獲取從醫經驗,發現客觀有用的新知識以豐富專家經驗和中醫理論,有助于中醫的傳承發展。
程顯毅等[35]提出一種混合優化蟻群和動態模糊C-均值的混合算法,并將該算法應用于醫學圖像分割,實驗表明,混合算法具有很強的模糊邊緣和微細邊緣分割能力。
梁君婷等[36]將小波變換與混合遺傳算法結合起來,對計算機斷層掃描圖像和磁共振圖像進行配準。結果表明,該方法能夠解決遺傳算法早熟收斂問題,有效地克服信息函數的局部極值,實現圖像的自動配準,具有匹配精確、魯棒性好及效率高等優點。趙鳳霞[37]結合復雜網絡的部分理論成果和K-means聚類算法的思想,提出了基于加權復雜網絡聚類的醫學圖像分類器,有效地克服了傳統K-means聚類算法對初始化選值敏感性的問題。通過對某醫院系統中的部分腦部磁共振圖片進行分類,顯示該方法的分類精度比傳統的K-means聚類算法平均提高了8%左右。戴麗麗等[38]構建了一種醫學圖像的t混合模型,將遺傳算法與K-均值算法相結合,實現對醫學圖像的初始劃分,從而獲得混合模型的初始參數,有效地克服了混合模型對參數初始值選擇的敏感性問題,用EM算法多次迭代估計t混合模型參數,最后根據得到的混合模型對醫學圖像進行聚類。實驗表明,醫學圖像聚類平均正確率為94.24%,平均誤判率為1.25%,有較好的穩定性和通用性。
5 結束語
隨著醫療信息化的發展,將海量醫學數據轉化為有用信息會越來越受到關注與重視。自從Google提出云計算概念后,云計算作為一種基于因特網的超級計算模式也將在醫學中得到應用。云平臺能為海量的醫學數據提供統一的數據標準,通過資源池可解決醫學數據的不完整性問題,因而云技術興起將改變醫療行業數據挖掘的形式與方法,同時使醫學數據挖掘展現更加光明的前景。除了醫學數據挖掘技術,醫學數據挖掘的成功還與醫學知識的有效利用息息相關,在具體的應用中,如數據分類預測的精確度的提高等,還需要與醫療行業的專家進一步合作,以便掌握合理的輸入條件,提高數據的可解釋性與相關性。