肺癌是全球發病率和死亡率最高的癌癥之一,也是患者人數增長最快的惡性腫瘤,嚴重威脅人類的生命。如何提高肺癌的精確診療及生存預后顯得尤為重要。機器學習是一門多學科交叉專業,涵蓋概率論知識、統計學知識、近似理論知識和復雜算法知識,使用計算機作為工具并致力于模擬人類學習方式,將現有內容進行知識結構劃分來有效提高學習效率,能夠將計算機科學和統計學融合到醫療問題中。通過引入算法,吸收輸入數據,應用計算機分析來預測可接受精度范圍內的輸出值,識別數據中的模式和趨勢,最后從以前的經驗中得以學習,該技術的發展為肺癌的診療帶來全新方向。本文將對不同類型機器學習算法在肺癌臨床診斷及生存預后分析中的效能比對以及應用前景做一綜述。
引用本文: 徐嘉昕, 錢凱, 蔣立虹. 機器學習算法在肺癌臨床診斷及生存預后分析中的應用. 中國胸心血管外科臨床雜志, 2022, 29(6): 777-781. doi: 10.7507/1007-4848.202102036 復制
目前病理結果是肺癌診斷的金標準,但由于病理檢查為侵入性操作,限制了其臨床應用。肺癌腫瘤標志物及影像學診斷廣泛應用于臨床,但部分標志物如癌胚抗原的特異性不高,易造成臨床診斷的誤差。影像學診斷(如胸部 X 線片、CT、磁共振成像等)對診斷具有一定價值,但部分微小肺小結節或淋巴結轉移由于顯影不佳容易導致漏診。近年來,大數據時代迅速發展,醫療數據規模巨大,種類繁多,難以儲存、分析和利用。因此,我們需要一種新的技術來應對臨床大數據時代帶給我們的機遇與挑戰。機器學習算法具有分析和梳理醫療大數據的能力,通過自動識別患者的臨床變量和指標,對患者的醫療數據進行分析和挖掘,從而推動精準醫療的發展。目前已有許多機器學習算法被廣泛應用于肺癌的篩查、診斷和預后,并取得了顯著的臨床價值;深度學習是一種特殊的機器學習,它通過學習將數據表示為嵌套的概念層次結構來實現強大的功能和靈活性。本文將對傳統機器學習及深度學習算法如邏輯回歸、支持向量機、人工神經網絡、卷積神經網絡(convolutional neural networks,CNN)、樸素貝葉斯、K-鄰近算法、決策樹、隨機森林等進行簡單歸納;見表 1。

1 機器學習算法應用于肺癌早期篩查
1.1 職業危險因素
肺癌是職業性腫瘤中最常見的腫瘤之一,有效挖掘肺癌的職業危險因素可提高肺癌的早期預防。Wu[1]采用統計學方法邏輯回歸模型對礦區肺癌患者和對照組人群的生活條件、居住環境、吸煙以及職業暴露因素等 24 個危險變量進行單因素分析,發現 9 個危險變量有統計學意義。再經等級變換后進行多元條件邏輯回歸分析得出結論:礦區肺癌高發主要與冶煉、井下采礦、下井年齡和吸煙有關,且這些危險因素之間有協同作用。在早期對疾病危險因素分析中,多數學者采用統計學方法如邏輯回歸等,通過觀測樣本概率分數,以一定標準值對結果進行分類進而了解其相關危險因素。近年來,隨著機器學習不斷深入發展,由統計學中邏輯回歸發展而來的邏輯回歸算法被廣泛應用于疾病危險因素預測分析[2-3];Hotzy 等[4]的研究則應用邏輯回歸算法、支持向量機和決策樹等算法分析強迫癥的危險因素,結果顯示邏輯回歸算法性能最佳(準確性為 75%,敏感性為 71%,特異性為 79%);該算法是一種用于解決二分類問題的算法模型,通過引入 Sigmoid 函數將輸入的任意實數值映射到介于 0~1 之間的值,再使用閾值分類器轉化為 0 或 1,將輸入的實數二值化以進行預測。邏輯回歸算法易于實現、計算量小、速度快,還可以在普通最小二乘法的基礎上,將代價函數加一個正則化項,優化多重共線性帶來的問題。但該算法對于非線性數據性能不佳,對部分異常值也需及時處理,以保證算法預測的準確性。
1.2 基因多態性
肺癌屬于多基因和多通路相互作用導致的復雜疾病。Podolsky 等[5]評估了不同機器學習算法在基因表達水平的肺癌分類任務中的有效性,選取了 4 個公開的數據集。包括丹娜法伯癌癥研究院數據集的 203 個樣本,對 4 種癌癥類型和健全的組織樣本分類;密歇根大學數據集的 96 個樣本,對腺癌和非腫瘤組織進行二分類賦值;多倫多大學數據集的 39 個樣本,任務是檢測復發;布列根和婦女醫院數據集的 181 個樣本,對惡性胸膜間皮瘤和腺癌進行二分類賦值。該研究使用馬修斯相關系數(Matthews correlation coefficient,MCC)評價 K-鄰近算法、樸素貝葉斯、支持向量機和決策樹 4 種不同算法在每一個數據集中的有效性。結果顯示支持向量機算法在丹娜法伯癌癥研究院和布列根和婦女醫院數據集上顯示了最好的結果。較高的 MCC 值證明基于基因表達水平評估的支持向量機可以用于肺癌的組織學分類,也可以用于腺癌和間皮瘤的分類;決策樹在多倫多大學的數據集中表現出最好的結果,其它算法效率較低的原因可能是樣本數量較少。基于血漿 miRNAs 分子生物標志物,分別運用支持向量機和決策樹來輔助肺癌的診斷和分類,均取得較高的診斷效能[6-7]。在臨床大數據中,決策樹模型通過“是”與“否”來分類數據,僅適用于小規模數據集,而支持向量機則能夠很好地避免這一局限性。相比較其它機器學習算法而言,支持向量機可以很好地處理特征數較復雜的數據集,通過對大量數據集的訓練,可最終轉化為凸優化問題,保證算法的全局最優性,但需要選擇合適的核函數且訓練時間較長。對于復雜的基因特征分析而言具有其獨特的優勢。
1.3 人工嗅覺傳感器
值得一提的是,人工嗅覺傳感器最近被研究發現可能為早期肺癌的最佳篩查工具。目前國內外多項研究[8-10]分別使用邏輯回歸算法、人工神經網絡以及支持向量機對肺癌患者呼出氣體中的揮發性有機化合物檢測來應用于肺癌的預測。由于預測變量不僅包括高維時間依賴性或功能性揮發性有機化合物,而且還包括與時間無關的臨床變量。當特征空間維數增加時,則會增加邏輯回歸處理數據集的難度。人工神經網絡模型在此時則容易發生過度擬合現象,而支持向量機則引用核函數,通過將輸入的非線性問題映射到高維特征空間中在高維空間中構造線性函數判別,通過大量數據集的訓練,引入適當的核函數和超參數來增強其泛化能力,減少擬合現象,適用于設計和開發肺癌的人工嗅覺傳感器分析系統。
2 機器學習算法應用于肺癌臨床資料
2.1 基于醫學生物標志物的機器學習算法
高敏感性和特異性腫瘤標志物測試的發展有助于提高肺癌的臨床診斷和分類。一些早期的研究僅能運用統計學方法邏輯回歸評估某些腫瘤標記物(如癌胚抗原、甲胎蛋白、鐵蛋白、神經元特異性烯醇化酶)對肺癌診斷的價值[11]。Xie 等[12]應用 K-鄰近算法、樸素貝葉斯、AdaBoost、支持向量機、隨機森林和人工神經網絡 6 種機器學習算法基于代謝組學生物標志物特征的早期肺腫瘤預測。結果顯示在肺癌預測特異性方面,樸素貝葉斯、人工神經網絡、K-鄰近算法、AdaBoost 和支持向量機算法均達到 100%;在靈敏度方面樸素貝葉斯和隨機森林的性能更佳,達到 100%,支持向量機和人工神經網絡僅為 90.9%;除 AdaBoost 算法外,其余 5 種算法的準確率均為 100%,樸素貝葉斯是靈敏度、特異性和準確性最高的最佳模型。樸素貝葉斯是一種簡單的概率分類器,它基于貝葉斯定理,具有很強的獨立性和特征間的正態性假設,但要求每個輸入變量的特征都具有獨立性。可作為一種基于生物學標志物的早期肺癌預測工具。
2.2 基于醫學影像學的機器學習算法
CT是臨床上早期發現肺癌最常用的非侵入性診斷工具。Zhang 等[13]使用大量的影像數據來訓練CNN模型以進行肺結節的檢測和分類,并與病理學和實驗室證明的結果進行比對。該模型的敏感性和特異性分別為 84.4% 和 83.0%,該模型的診斷性能優于臨床醫生的手動評估。Moitra 等[14]提出一個CNN與循環神經網絡相結合的方法,用于非小細胞肺癌的美國癌癥聯合委員會自動分期并與其它算法進行比較,結果顯示該模型幾乎勝過了所有其它機器學習算法;Onishi 等[15]進行了一項基于深度CNN和生成對抗網絡對 CT 圖像中的肺結節分類進行多平面分析,評估的結果是特異性為 77.8%,敏感性為 93.9%,使得基于多平面圖像的識別方法的有效性得到明顯改善。Baldwin 等[16]應用肺癌預測卷積神經網絡(lung cancer prediction convolutional neural networks,LCP-CNN)與英國指南中建議的布魯克大學模型進行了比較。結果顯示 LCP-CNN 能夠提高風險預測。Gao 等[17]的研究則選擇運用支持向量機對 CT 圖像中肺結節的三維紋理特征進行分析,結果也取得較高的肺癌診斷準確率(95.4%),但在二維模型中的表現則欠佳。CNN模型通過在輸入層和輸出層之間使用隱藏層來對數據的中間表征建模并使用修正線性單元作為激活函數來模擬人腦運行,能夠很好地處理多維數據集且適用于各種數據類型,但CNN全連接模式過于復雜,因此需要大量的數據集及參數來進行訓練以保證其穩定性能。對 CT 圖像的三維紋理特征進行分析時,CNN和支持向量機具有相同出色的診斷效能,但在二維模型中CNN的表現則更加出色。
2.3 基于病理學圖像的機器學習算法
病理是肺癌診斷的金標準。國內的兩項研究[18-19]使用CNN從被診斷的受試者針穿刺活檢標本圖像中識別肺癌細胞,進而對肺癌亞型進行精確分類,均表現出較高的整體識別率,而且實現了低誤診率。典型的 CNN 由輸入層、任務特定的輸出層和多個隱藏層組成。每個隱藏層都由許多卷積濾波器(參數)組成,它們在輸入圖像的各個位置處逐一應用相同的局部變換,實現 CNN 模型的有效參數化;CNN 其獨特優勢在于特征檢測與識別,但在特征理解方面稍弱。因此,CNN在腫瘤區域識別、腫瘤微環境表征、轉移檢測等病理圖像分析任務方面顯示出巨大的潛力。
值得一提的是,運用機器學習的方法在基于支氣管鏡圖像色調飽和度(hue saturation value,HSV)紋理的基礎上,可為肺癌類型的臨床診斷提供指導建議[20]。該方法利用肺癌患者的氣孔鏡圖像,將這些圖像從紅-綠-藍轉換為 HSV 顏色空間,以獲得更有意義的顏色紋理。通過在機器學習分類器中結合重要的紋理特征,建立惡性類型的預測模型,具有良好的應用前景。
3 機器學習算法在肺癌生存分析中的應用
準確有效地分析各個因素對于肺癌患者生存預后的影響,對于提高患者生活質量、延長生存時間至關重要。Sim 等[21-22]的兩項研究分別比較了多種機器學習算法評估肺癌患者生存率的性能,結果分別顯示出隨機森林具有最優的預測性能。而 Doppalapudi 等[23]則將 3 種常用的深度學習算法:人工神經網絡、CNN和遞歸神經網絡,同時與傳統機器學習的性能進行比較,結果顯示人工神經網絡模型是性能最高的模型,其準確度達到 71.18%,略高于遞歸神經網絡和 CNN 模型。人工神經網絡相對傳統機器學習算法而言,能有效處理各種非線性問題,但訓練需要大量數據集和很高的硬件配置,且模型處于黑箱狀態,難以理解內部機制。該算法適用于病理圖像、免疫組織化學和臨床參數等不同數據類型,可用于評估肺癌患者的預后以及生存分析。
4 總結與展望
隨著機器學習算法的不斷發展,其在醫學各個領域的應用也越來越廣泛。如識別醫學影像、病理切片、皮膚損傷、視網膜圖像、心電圖、內窺鏡檢查等以及對生命體征的實時監測[24];通過復雜的關聯技術對臨床大數據進行對比和分析,更精確地預測疾病的發生發展過程以及預后情況[25]。目前機器學習在醫學領域應用的局限性主要包括:(1)數據共享的局限性:在構建人工算法時,需要持續的數據供應來進行訓練、驗證和改進人工智能算法。隨著這種規模擴大,網絡安全措施對于不當使用數據集、不準確或者不恰當披露的風險將變得越來越重要[26];(2)異構數據的智能利用:由于大多數來源于臨床的數據結構,類型十分復雜并且信息量巨大,所以我們需要對基于機器學習的應用來規定一套標準術語以促進不同算法之間的集成和在不同設備上的運行[27]。未來,機器學習在醫療領域將發揮重要作用,甚至改變醫療模式,逐步推動我國醫療向自動化的方向發展,相信機器學習將成為未來醫療創新和改革的強大推動力。
利益沖突:無。
作者貢獻:徐嘉昕、錢凱參與本文的撰寫和修改;蔣立虹對文章的相關內容進行指導和修正。
目前病理結果是肺癌診斷的金標準,但由于病理檢查為侵入性操作,限制了其臨床應用。肺癌腫瘤標志物及影像學診斷廣泛應用于臨床,但部分標志物如癌胚抗原的特異性不高,易造成臨床診斷的誤差。影像學診斷(如胸部 X 線片、CT、磁共振成像等)對診斷具有一定價值,但部分微小肺小結節或淋巴結轉移由于顯影不佳容易導致漏診。近年來,大數據時代迅速發展,醫療數據規模巨大,種類繁多,難以儲存、分析和利用。因此,我們需要一種新的技術來應對臨床大數據時代帶給我們的機遇與挑戰。機器學習算法具有分析和梳理醫療大數據的能力,通過自動識別患者的臨床變量和指標,對患者的醫療數據進行分析和挖掘,從而推動精準醫療的發展。目前已有許多機器學習算法被廣泛應用于肺癌的篩查、診斷和預后,并取得了顯著的臨床價值;深度學習是一種特殊的機器學習,它通過學習將數據表示為嵌套的概念層次結構來實現強大的功能和靈活性。本文將對傳統機器學習及深度學習算法如邏輯回歸、支持向量機、人工神經網絡、卷積神經網絡(convolutional neural networks,CNN)、樸素貝葉斯、K-鄰近算法、決策樹、隨機森林等進行簡單歸納;見表 1。

1 機器學習算法應用于肺癌早期篩查
1.1 職業危險因素
肺癌是職業性腫瘤中最常見的腫瘤之一,有效挖掘肺癌的職業危險因素可提高肺癌的早期預防。Wu[1]采用統計學方法邏輯回歸模型對礦區肺癌患者和對照組人群的生活條件、居住環境、吸煙以及職業暴露因素等 24 個危險變量進行單因素分析,發現 9 個危險變量有統計學意義。再經等級變換后進行多元條件邏輯回歸分析得出結論:礦區肺癌高發主要與冶煉、井下采礦、下井年齡和吸煙有關,且這些危險因素之間有協同作用。在早期對疾病危險因素分析中,多數學者采用統計學方法如邏輯回歸等,通過觀測樣本概率分數,以一定標準值對結果進行分類進而了解其相關危險因素。近年來,隨著機器學習不斷深入發展,由統計學中邏輯回歸發展而來的邏輯回歸算法被廣泛應用于疾病危險因素預測分析[2-3];Hotzy 等[4]的研究則應用邏輯回歸算法、支持向量機和決策樹等算法分析強迫癥的危險因素,結果顯示邏輯回歸算法性能最佳(準確性為 75%,敏感性為 71%,特異性為 79%);該算法是一種用于解決二分類問題的算法模型,通過引入 Sigmoid 函數將輸入的任意實數值映射到介于 0~1 之間的值,再使用閾值分類器轉化為 0 或 1,將輸入的實數二值化以進行預測。邏輯回歸算法易于實現、計算量小、速度快,還可以在普通最小二乘法的基礎上,將代價函數加一個正則化項,優化多重共線性帶來的問題。但該算法對于非線性數據性能不佳,對部分異常值也需及時處理,以保證算法預測的準確性。
1.2 基因多態性
肺癌屬于多基因和多通路相互作用導致的復雜疾病。Podolsky 等[5]評估了不同機器學習算法在基因表達水平的肺癌分類任務中的有效性,選取了 4 個公開的數據集。包括丹娜法伯癌癥研究院數據集的 203 個樣本,對 4 種癌癥類型和健全的組織樣本分類;密歇根大學數據集的 96 個樣本,對腺癌和非腫瘤組織進行二分類賦值;多倫多大學數據集的 39 個樣本,任務是檢測復發;布列根和婦女醫院數據集的 181 個樣本,對惡性胸膜間皮瘤和腺癌進行二分類賦值。該研究使用馬修斯相關系數(Matthews correlation coefficient,MCC)評價 K-鄰近算法、樸素貝葉斯、支持向量機和決策樹 4 種不同算法在每一個數據集中的有效性。結果顯示支持向量機算法在丹娜法伯癌癥研究院和布列根和婦女醫院數據集上顯示了最好的結果。較高的 MCC 值證明基于基因表達水平評估的支持向量機可以用于肺癌的組織學分類,也可以用于腺癌和間皮瘤的分類;決策樹在多倫多大學的數據集中表現出最好的結果,其它算法效率較低的原因可能是樣本數量較少。基于血漿 miRNAs 分子生物標志物,分別運用支持向量機和決策樹來輔助肺癌的診斷和分類,均取得較高的診斷效能[6-7]。在臨床大數據中,決策樹模型通過“是”與“否”來分類數據,僅適用于小規模數據集,而支持向量機則能夠很好地避免這一局限性。相比較其它機器學習算法而言,支持向量機可以很好地處理特征數較復雜的數據集,通過對大量數據集的訓練,可最終轉化為凸優化問題,保證算法的全局最優性,但需要選擇合適的核函數且訓練時間較長。對于復雜的基因特征分析而言具有其獨特的優勢。
1.3 人工嗅覺傳感器
值得一提的是,人工嗅覺傳感器最近被研究發現可能為早期肺癌的最佳篩查工具。目前國內外多項研究[8-10]分別使用邏輯回歸算法、人工神經網絡以及支持向量機對肺癌患者呼出氣體中的揮發性有機化合物檢測來應用于肺癌的預測。由于預測變量不僅包括高維時間依賴性或功能性揮發性有機化合物,而且還包括與時間無關的臨床變量。當特征空間維數增加時,則會增加邏輯回歸處理數據集的難度。人工神經網絡模型在此時則容易發生過度擬合現象,而支持向量機則引用核函數,通過將輸入的非線性問題映射到高維特征空間中在高維空間中構造線性函數判別,通過大量數據集的訓練,引入適當的核函數和超參數來增強其泛化能力,減少擬合現象,適用于設計和開發肺癌的人工嗅覺傳感器分析系統。
2 機器學習算法應用于肺癌臨床資料
2.1 基于醫學生物標志物的機器學習算法
高敏感性和特異性腫瘤標志物測試的發展有助于提高肺癌的臨床診斷和分類。一些早期的研究僅能運用統計學方法邏輯回歸評估某些腫瘤標記物(如癌胚抗原、甲胎蛋白、鐵蛋白、神經元特異性烯醇化酶)對肺癌診斷的價值[11]。Xie 等[12]應用 K-鄰近算法、樸素貝葉斯、AdaBoost、支持向量機、隨機森林和人工神經網絡 6 種機器學習算法基于代謝組學生物標志物特征的早期肺腫瘤預測。結果顯示在肺癌預測特異性方面,樸素貝葉斯、人工神經網絡、K-鄰近算法、AdaBoost 和支持向量機算法均達到 100%;在靈敏度方面樸素貝葉斯和隨機森林的性能更佳,達到 100%,支持向量機和人工神經網絡僅為 90.9%;除 AdaBoost 算法外,其余 5 種算法的準確率均為 100%,樸素貝葉斯是靈敏度、特異性和準確性最高的最佳模型。樸素貝葉斯是一種簡單的概率分類器,它基于貝葉斯定理,具有很強的獨立性和特征間的正態性假設,但要求每個輸入變量的特征都具有獨立性。可作為一種基于生物學標志物的早期肺癌預測工具。
2.2 基于醫學影像學的機器學習算法
CT是臨床上早期發現肺癌最常用的非侵入性診斷工具。Zhang 等[13]使用大量的影像數據來訓練CNN模型以進行肺結節的檢測和分類,并與病理學和實驗室證明的結果進行比對。該模型的敏感性和特異性分別為 84.4% 和 83.0%,該模型的診斷性能優于臨床醫生的手動評估。Moitra 等[14]提出一個CNN與循環神經網絡相結合的方法,用于非小細胞肺癌的美國癌癥聯合委員會自動分期并與其它算法進行比較,結果顯示該模型幾乎勝過了所有其它機器學習算法;Onishi 等[15]進行了一項基于深度CNN和生成對抗網絡對 CT 圖像中的肺結節分類進行多平面分析,評估的結果是特異性為 77.8%,敏感性為 93.9%,使得基于多平面圖像的識別方法的有效性得到明顯改善。Baldwin 等[16]應用肺癌預測卷積神經網絡(lung cancer prediction convolutional neural networks,LCP-CNN)與英國指南中建議的布魯克大學模型進行了比較。結果顯示 LCP-CNN 能夠提高風險預測。Gao 等[17]的研究則選擇運用支持向量機對 CT 圖像中肺結節的三維紋理特征進行分析,結果也取得較高的肺癌診斷準確率(95.4%),但在二維模型中的表現則欠佳。CNN模型通過在輸入層和輸出層之間使用隱藏層來對數據的中間表征建模并使用修正線性單元作為激活函數來模擬人腦運行,能夠很好地處理多維數據集且適用于各種數據類型,但CNN全連接模式過于復雜,因此需要大量的數據集及參數來進行訓練以保證其穩定性能。對 CT 圖像的三維紋理特征進行分析時,CNN和支持向量機具有相同出色的診斷效能,但在二維模型中CNN的表現則更加出色。
2.3 基于病理學圖像的機器學習算法
病理是肺癌診斷的金標準。國內的兩項研究[18-19]使用CNN從被診斷的受試者針穿刺活檢標本圖像中識別肺癌細胞,進而對肺癌亞型進行精確分類,均表現出較高的整體識別率,而且實現了低誤診率。典型的 CNN 由輸入層、任務特定的輸出層和多個隱藏層組成。每個隱藏層都由許多卷積濾波器(參數)組成,它們在輸入圖像的各個位置處逐一應用相同的局部變換,實現 CNN 模型的有效參數化;CNN 其獨特優勢在于特征檢測與識別,但在特征理解方面稍弱。因此,CNN在腫瘤區域識別、腫瘤微環境表征、轉移檢測等病理圖像分析任務方面顯示出巨大的潛力。
值得一提的是,運用機器學習的方法在基于支氣管鏡圖像色調飽和度(hue saturation value,HSV)紋理的基礎上,可為肺癌類型的臨床診斷提供指導建議[20]。該方法利用肺癌患者的氣孔鏡圖像,將這些圖像從紅-綠-藍轉換為 HSV 顏色空間,以獲得更有意義的顏色紋理。通過在機器學習分類器中結合重要的紋理特征,建立惡性類型的預測模型,具有良好的應用前景。
3 機器學習算法在肺癌生存分析中的應用
準確有效地分析各個因素對于肺癌患者生存預后的影響,對于提高患者生活質量、延長生存時間至關重要。Sim 等[21-22]的兩項研究分別比較了多種機器學習算法評估肺癌患者生存率的性能,結果分別顯示出隨機森林具有最優的預測性能。而 Doppalapudi 等[23]則將 3 種常用的深度學習算法:人工神經網絡、CNN和遞歸神經網絡,同時與傳統機器學習的性能進行比較,結果顯示人工神經網絡模型是性能最高的模型,其準確度達到 71.18%,略高于遞歸神經網絡和 CNN 模型。人工神經網絡相對傳統機器學習算法而言,能有效處理各種非線性問題,但訓練需要大量數據集和很高的硬件配置,且模型處于黑箱狀態,難以理解內部機制。該算法適用于病理圖像、免疫組織化學和臨床參數等不同數據類型,可用于評估肺癌患者的預后以及生存分析。
4 總結與展望
隨著機器學習算法的不斷發展,其在醫學各個領域的應用也越來越廣泛。如識別醫學影像、病理切片、皮膚損傷、視網膜圖像、心電圖、內窺鏡檢查等以及對生命體征的實時監測[24];通過復雜的關聯技術對臨床大數據進行對比和分析,更精確地預測疾病的發生發展過程以及預后情況[25]。目前機器學習在醫學領域應用的局限性主要包括:(1)數據共享的局限性:在構建人工算法時,需要持續的數據供應來進行訓練、驗證和改進人工智能算法。隨著這種規模擴大,網絡安全措施對于不當使用數據集、不準確或者不恰當披露的風險將變得越來越重要[26];(2)異構數據的智能利用:由于大多數來源于臨床的數據結構,類型十分復雜并且信息量巨大,所以我們需要對基于機器學習的應用來規定一套標準術語以促進不同算法之間的集成和在不同設備上的運行[27]。未來,機器學習在醫療領域將發揮重要作用,甚至改變醫療模式,逐步推動我國醫療向自動化的方向發展,相信機器學習將成為未來醫療創新和改革的強大推動力。
利益沖突:無。
作者貢獻:徐嘉昕、錢凱參與本文的撰寫和修改;蔣立虹對文章的相關內容進行指導和修正。