結核病是嚴重危害人類健康的重大傳染病之一,自 2014 年開始已超過人類免疫缺陷病毒感染/獲得性免疫缺陷綜合征位居由單一病原引起患者死亡的傳染病之首。我國是全球第三大結核病高負擔國家,2016 年新發結核病例約為 90 萬人。我國面臨著嚴峻的結核疫情,尤其對于結核病的早期診斷和疑難結核病誤診漏診更導致治療的延遲和結核病的傳播。隨著人工智能在醫學領域的應用,機器學習和深度學習方法在結核病的診斷中體現了重要價值。該文闡述了機器學習和深度學習在結核病診斷中的應用現狀和未來的發展方向。
引用本文: 焦琳, 胡雪姣, 應斌武. 基于人工智能策略優化結核病診斷. 華西醫學, 2018, 33(8): 935-938. doi: 10.7507/1002-0179.201807067 復制
有效的藥物治療使結核病的發生率和致死率在 20 世紀初期時開始發生下降,致使很多人認為結核病是一個歷史性的疾病。盡管在疾病控制和治療中取得了巨大的成功,結核病至今仍舊還是感染性疾病中的頭號殺手。2016 年,全球新發結核病患者數量約為 104 萬,其中 90% 發生在成年人[1]。中國是一個結核病大國,每年新發結核病將近 100 萬人,累積病例每年在 500 萬左右。我們面臨著嚴峻的結核疫情和耐藥趨勢,目前的檢查手段遠不能滿足早期準確診斷的需求,尤其對于疑難結核病(結核性腦膜炎、菌陰肺結核、耐藥結核病)的滯后診斷和誤診漏診更易導致治療的延遲和結核病的傳播。結合新的技術方法來發現新的有效的生物標志物,探索結核病診療模式的優化和革新,已成為目前結核病防治領域研究的重點與熱點。
人工智能(artificial intelligence,AI),是在神經心理學、控制論、信息論等多種學科的配合作用下形成的一門綜合性強的交叉學科。AI 中的機器學習和深度學習等算法在醫學領域中的應用也炙手可熱,已經取得突破性的進展,例如在腫瘤等疾病中利用這些算法對海量數據深度挖掘出高價值的參考信息,從而輔助臨床診療決策,顯示出巨大的優勢。AI 算法在結核病研究領域也開始嶄露頭角,對促進結核病的精準診療顯示出巨大的潛力和優勢。本文圍繞機器學習和深度學習算法在結核病診斷中的應用現狀和進展等方面進行評述。
1 機器學習與深度學習的概況
機器學習是一門關于計算機從各式各樣龐大數據中較快獲得有價值的信息和知識能力的學科,大數據環境下機器學習的目的是要從多源異構、動態多變的數據中找出其隱藏在背后的規律,使數據能發揮最大程度的價值[2]。機器學習分為有監督的學習和無監督的學習。有監督機器學習最終會輸出一個有預測性的結果,例如對數據的分類;無監督機器學習則無預測性結果輸出,擅長從多維的數據提取特征,例如自編碼器(autoencoder,AE)技術。深度學習是機器學習研究中一個新的領域,是通過多層神經網絡擬合訓練樣本分布的一種機器學習方法,通過組合多維特征形成更加精簡的低維屬性類別或特征,建立準確的分類預測模型[3]。深度學習與機器學習的區別在于傳統的機器學習方法需要多位專家設計特征提取方法將多維數據轉化為低維數據,才能讓機器在輸入的時候識別和分類。而深度學習可直接從數據中獲取高等級的特征。所以,深度學習的出現是機器學習的一次重要革命[4]。機器學習和深度學習的特性決定了其可以通過解讀大量、復雜的信息幫助革新醫學診斷方法。
2 結核病的診斷現狀
目前結核病的臨床診斷主要是綜合分析患者臨床表現、影像學資料和實驗室檢查結果等信息作出判斷,其中實驗室檢查主要包括細菌學、免疫學、分子學診斷法。細菌學診斷方法以涂片法、培養法為代表,其缺點是無法區分死菌和活菌,陽性率不高,檢驗時間長。免疫學診斷方法包括血清學檢測、結核菌素皮膚試驗、γ-干擾素釋放試驗(interferon gamma release assay,IGRA)。但臨床醫生卻普遍認為,皮膚測試準確性不夠,血清學診斷存在假陽性和假陰性問題,雖然 IGRA 法特異性好,但價格昂貴[5-6]。分子診斷方法主要以聚合酶鏈反應(polymerase chain reaction,PCR)檢測技術為應用,具有特異性好、速度快和無培養依賴性等優點。但其缺點是突變或缺失位點的定位和突變缺失數量可能影響實驗的靈敏度。影像學診斷法包括胸部 X 線和 CT 檢查,胸部 X 線檢查可顯示肺部和縱隔的淋巴結病變或粟粒樣改變等病灶,CT 分辨率較高,可對結核病變作詳細評價,也可為是否為耐藥結核病、活動性結核病提供依據。流行病學調查發現,疾病癥狀的出現與臨床表現或結核病診斷之間有較大的延遲,找到快速便捷的早期診斷手段將有利于提高結核病的早期診斷效率。此外,在我國,菌陰肺結核患者占活動性肺結核的 73.5%[7],而結核性腦膜炎屬于致死致殘率最高的結核病[8],這兩類結核病的樣本異質性大,含菌量少,實驗室細菌學證據(主要通過涂片、培養、逆轉錄 PCR 或者 GeneXpert 檢測)常為陰性,臨床表征和影像表現不典型,屬于臨床診斷最為棘手的疑難結核病。因結核病,特別是疑難結核病有復雜性和多樣性的特點,所以臨床上多種檢測報告加上醫生的經驗仍具有局限性。
3 機器學習和深度學習在結核病診斷中的臨床研究
3.1 醫學圖像分析
圖像識別是機器學習最早嘗試的應用領域,近年來深度學習在醫學圖像分析領域取得了令人振奮的成就,迅速成為了當下的研究熱點。例如,皮膚癌是一種在美國人群中高發的惡性腫瘤,其主要通過皮膚檢查和活組織檢查來進行診斷。過去的機器輔助診斷必須依賴標準的實驗室皮膚鏡照片和組織學圖像進行分類,而深度學習可以克服智能手機拍攝的照片存在的放大倍數、角度和光照不同等問題。研究者們利用深度學習卷積神經網絡模型對近 13 萬張包括痣、皮疹和其他皮膚病變的圖像訓練可識別其中的皮膚癌癥狀,對皮膚癌的診斷準確率達 91% 以上[9];在臨床上糖尿病視網膜病變的篩查是通過人工對視網膜圖片的觀察,用深度學習對視網膜病變自動分類不僅簡單方便,提高效率,保持一致性,還可以幫助患者實現早診斷早治療,解決目前依賴人工篩查出現的問題。研究者們發現用深度學習從 1 萬多份視網膜眼底照片中對糖尿病視網膜病變進行識別和分級,靈敏度達到 90.3%,特異度為 98.1%,不僅媲美人類醫生,還大大地提高了眼科評估的效率和準確率[10]。
機器學習和深度學習在結核病診斷中也有初探。影像學檢查是結核病早期診斷的一個重要檢測手段,而胸部 X 線檢查是常用的檢測方法。胸部 X 線片不僅可以早期發現結核病,還可以確定病灶的部位、性質、范圍,了解發病情況及用于治療效果的判斷。2017 年,Lakhani 等[11]研究者采用兩種名為 AlexNet 和 GoogLeNet 的深度卷積神經網絡模型對 1 007 張胸部 X 線片進行建模,實現了對肺結核和健康對照的自動鑒別,曲線下面積達到 0.99。2018 年,Becker 等[12]還進行了一項可行性研究,根據胸部 X 線片用深度學習技術對 138 例合并了人類免疫缺陷病毒感染的結核病患者進行分類,該研究將胸腔積液與實質性的變化很好地區分開。這兩項研究的出現,可以幫助提高臨床對結核病的早期診斷效率,但缺點在于,雖然兩者都可以達到較高的診斷效能,但前者研究只能區分結核病和健康對照,未能達到鑒別診斷的臨床價值,后者研究在區分空洞、實變、間質等類別上發生了較多的錯誤。改進患者人群的入組標準,提高預測診斷模型的分類效果,是進一步完善深度學習在結核病診斷中的發展方向。
結核病耐藥的出現是導致結核病控制失敗的另一個原因。早期的耐藥診斷不僅可以幫助患者及時有效地調整治療方案,還可以幫助實現對人群范圍內結核桿菌增殖的控制。機器學習在結核耐藥預測中的應用也有研究。2018 年,Gao 等[13]根據 230 例對藥物敏感的結核病患者的胸部 CT 影像,聯合卷積神經網絡模型和支持向量機建模,預測患者多重耐藥的發生,分類準確率可達 91.11%。該研究仍存在一些不足:納入的耐藥人群少,人群單一,不能確保建立模型的可靠性和泛化能力;結核病耐藥的模式有多種,未能預測對哪些一線藥物或者二線藥物耐藥。
3.2 多組學數據挖掘
隨著分子學技術的發展,大量的基因、蛋白、代謝水平等數據得以被挖掘,機器學習與高通量組學數據的結合是目前大數據挖掘的另一種形式。研究者們嘗試著從組學數據中尋找新的生物標志物來闡明結核病的疾病機制,找到結核病臨床鑒別診斷的方法。結核病領域也展開了相應的研究,主要包括基因組、轉錄組、蛋白組等幾個方面。例如,Zak 等[14]發現并驗證了 16 個基因轉錄本組合可作為預測潛伏感染發展成活動性結核的標志物(靈敏度:53.7%,特異度:82.8%);Berry 等[15]發現 393 和 86 個轉錄本組合可分別用于結核病患者與潛伏感染及健康人、其他炎性疾病的鑒別(靈敏度:90.0%,特異度:83.0%)。由于疾病生物學特性的復雜性,過去發現的生物標志物敏感性和特異性都不高,而利用機器學習模型對高通量測序數據的整合分析尋找生物標志物可以提高疾病的診斷效能。Agranoff 等[5]根據活動性結核病患者血清來源的蛋白質組學信息用支持向量機模型算法將人群分類為結核病患者和正常對照,特異度達 94.9%,準確率達 94%,最后通過 4 個生物標志物聯合診斷,準確度可達 78%;Yang 等[16]用機器學習算法,根據 1 839 株結核桿菌的全基因組信息,建立了 8 種常用抗結核藥物的耐藥預測機器學習模型,以藥物敏感性試驗為金標準,發現機器學習模型相比以前的分析方法,對 8 種常用抗結核藥物耐藥分析的敏感性和診斷效能都有了較大提高。不僅限于單組學信息,機器學習和深度學習將多組學數據整合在一起可以建立更好的診斷、監管、預后分析模型。例如,Chaudhary 等[17]對多組學信息(RNA 表達、非編碼短鏈 RNA 表達、甲基化)進行整合,用深度學習 AE 模型將肝癌患者分為了兩類生存期差異人群,且具有明顯的統計學差異,最終深度學習可以用于測序肝癌患者的預后。目前尚沒有結核病相關的多組學研究報道,因此機器學習和深度學習在結核病多組學數據挖掘中存在較大的發展空間。多組學研究在結核病分子標志物的篩選中具有廣闊的前景。
3.3 機器學習和深度學習在結核病診斷中的不足
機器學習和深度學習在結核病診斷已有前期探索,獲得較好的診斷效率,但仍有一些不足:① 絕大多數研究局限于單組學,缺乏多角度、多層次的研究思維,所發現的分子標志物單一,難以全面準確地反映結核病的真實病理狀態。② 受樣本量、人群遺傳異質性、環境因素差異、疾病亞型的復雜性等因素影響,不同群體的研究結果不一致或重復性差,而且多數缺乏前瞻性的大樣本量驗證,限制了研究結果的推廣。③ 沒有考慮到宿主與病原體的交互作用、機體的免疫應答、菌體的活性強弱、活動性疾病還是隱匿感染。④ 臨床診斷最關注的是如何進行結核病的鑒別診斷和早期準確診斷,然而,大多數的研究基于結核和健康對照或潛伏感染的比較,僅少量報道了區分結核病與類似疾病的標志物;未能鑒別診斷在臨床中最困難的菌陰結核以及結核性腦膜炎。未來機器學習對同一疾病不同數據來源的整合分析,有利于系統地研究疾病發病機制、尋找疾病診療的最佳靶點。
4 機器學習和深度學習在結核病診斷中的發展展望
由于結核病的多樣性和復雜性,在我國,結核病疫情和結核耐藥的形勢依然險峻。新的、特異的、準確的診斷方法將成為結核病診斷的主要發展趨勢。而機器學習和深度學習在對海量數據挖掘、輔助結核病的臨床診療決策中,顯示出了巨大的優勢。
機器學習和深度學習在結核病診斷中的發展方向可以被總結為以下幾點:① 設計前瞻性大規模、多中心的研究,注重機器學習和深度學習建模的泛化性。② 多組學標志物組合簡單化,適合低成本的檢測手段,更注重臨床適用性。③ 能對疑難結核病(結核性腦膜炎、菌陰肺結核、耐藥結核、特殊人群結核)進行診斷分類。④ 機器學習和深度學習建立診斷模型時整合臨床信息和生物學信息,包括電子病歷、影像學資料、檢驗報告、病理報告、組學測序結果等,基于其中一種或是以多種為輸入構建診斷模型,促進臨床決策,減少人為的醫療錯誤,更好地提高醫療質量和患者安全。⑤ 實現個體化 AI 策略分析,動態跟蹤。例如,對耐藥患者進行動態監控,如果發現結核桿菌出現了病變,就需要結合在治療中患者出現的轉變,例如痰涂片有沒有陰轉,運用胸部 X 線片觀察病情,分析組學測序數據差異、藥物耐藥史分析等等。利用機器學習或者深度學習整合多維數據實現對結核患者用藥療效的預測、結核耐藥的管理。⑥ 機器學習建模過程應更加標準化和透明化(減少“黑箱建模”),研發智能的臨床輔助決策系統,促使其產業化,解決邊遠省份和經濟欠發達地區醫療資源分配不均的問題。⑦ 機器學習和深度學習在醫學上的發展方向不僅要實現對單一病種的識別和診斷,還要實現跨病種、跨影像學數據類型的 AI 平臺。未來機器學習和深度學習將體現綜合能力更強的 AI,既能分類,又能判斷是否異常,還能告訴醫生作出這一判斷的依據。
有效的藥物治療使結核病的發生率和致死率在 20 世紀初期時開始發生下降,致使很多人認為結核病是一個歷史性的疾病。盡管在疾病控制和治療中取得了巨大的成功,結核病至今仍舊還是感染性疾病中的頭號殺手。2016 年,全球新發結核病患者數量約為 104 萬,其中 90% 發生在成年人[1]。中國是一個結核病大國,每年新發結核病將近 100 萬人,累積病例每年在 500 萬左右。我們面臨著嚴峻的結核疫情和耐藥趨勢,目前的檢查手段遠不能滿足早期準確診斷的需求,尤其對于疑難結核病(結核性腦膜炎、菌陰肺結核、耐藥結核病)的滯后診斷和誤診漏診更易導致治療的延遲和結核病的傳播。結合新的技術方法來發現新的有效的生物標志物,探索結核病診療模式的優化和革新,已成為目前結核病防治領域研究的重點與熱點。
人工智能(artificial intelligence,AI),是在神經心理學、控制論、信息論等多種學科的配合作用下形成的一門綜合性強的交叉學科。AI 中的機器學習和深度學習等算法在醫學領域中的應用也炙手可熱,已經取得突破性的進展,例如在腫瘤等疾病中利用這些算法對海量數據深度挖掘出高價值的參考信息,從而輔助臨床診療決策,顯示出巨大的優勢。AI 算法在結核病研究領域也開始嶄露頭角,對促進結核病的精準診療顯示出巨大的潛力和優勢。本文圍繞機器學習和深度學習算法在結核病診斷中的應用現狀和進展等方面進行評述。
1 機器學習與深度學習的概況
機器學習是一門關于計算機從各式各樣龐大數據中較快獲得有價值的信息和知識能力的學科,大數據環境下機器學習的目的是要從多源異構、動態多變的數據中找出其隱藏在背后的規律,使數據能發揮最大程度的價值[2]。機器學習分為有監督的學習和無監督的學習。有監督機器學習最終會輸出一個有預測性的結果,例如對數據的分類;無監督機器學習則無預測性結果輸出,擅長從多維的數據提取特征,例如自編碼器(autoencoder,AE)技術。深度學習是機器學習研究中一個新的領域,是通過多層神經網絡擬合訓練樣本分布的一種機器學習方法,通過組合多維特征形成更加精簡的低維屬性類別或特征,建立準確的分類預測模型[3]。深度學習與機器學習的區別在于傳統的機器學習方法需要多位專家設計特征提取方法將多維數據轉化為低維數據,才能讓機器在輸入的時候識別和分類。而深度學習可直接從數據中獲取高等級的特征。所以,深度學習的出現是機器學習的一次重要革命[4]。機器學習和深度學習的特性決定了其可以通過解讀大量、復雜的信息幫助革新醫學診斷方法。
2 結核病的診斷現狀
目前結核病的臨床診斷主要是綜合分析患者臨床表現、影像學資料和實驗室檢查結果等信息作出判斷,其中實驗室檢查主要包括細菌學、免疫學、分子學診斷法。細菌學診斷方法以涂片法、培養法為代表,其缺點是無法區分死菌和活菌,陽性率不高,檢驗時間長。免疫學診斷方法包括血清學檢測、結核菌素皮膚試驗、γ-干擾素釋放試驗(interferon gamma release assay,IGRA)。但臨床醫生卻普遍認為,皮膚測試準確性不夠,血清學診斷存在假陽性和假陰性問題,雖然 IGRA 法特異性好,但價格昂貴[5-6]。分子診斷方法主要以聚合酶鏈反應(polymerase chain reaction,PCR)檢測技術為應用,具有特異性好、速度快和無培養依賴性等優點。但其缺點是突變或缺失位點的定位和突變缺失數量可能影響實驗的靈敏度。影像學診斷法包括胸部 X 線和 CT 檢查,胸部 X 線檢查可顯示肺部和縱隔的淋巴結病變或粟粒樣改變等病灶,CT 分辨率較高,可對結核病變作詳細評價,也可為是否為耐藥結核病、活動性結核病提供依據。流行病學調查發現,疾病癥狀的出現與臨床表現或結核病診斷之間有較大的延遲,找到快速便捷的早期診斷手段將有利于提高結核病的早期診斷效率。此外,在我國,菌陰肺結核患者占活動性肺結核的 73.5%[7],而結核性腦膜炎屬于致死致殘率最高的結核病[8],這兩類結核病的樣本異質性大,含菌量少,實驗室細菌學證據(主要通過涂片、培養、逆轉錄 PCR 或者 GeneXpert 檢測)常為陰性,臨床表征和影像表現不典型,屬于臨床診斷最為棘手的疑難結核病。因結核病,特別是疑難結核病有復雜性和多樣性的特點,所以臨床上多種檢測報告加上醫生的經驗仍具有局限性。
3 機器學習和深度學習在結核病診斷中的臨床研究
3.1 醫學圖像分析
圖像識別是機器學習最早嘗試的應用領域,近年來深度學習在醫學圖像分析領域取得了令人振奮的成就,迅速成為了當下的研究熱點。例如,皮膚癌是一種在美國人群中高發的惡性腫瘤,其主要通過皮膚檢查和活組織檢查來進行診斷。過去的機器輔助診斷必須依賴標準的實驗室皮膚鏡照片和組織學圖像進行分類,而深度學習可以克服智能手機拍攝的照片存在的放大倍數、角度和光照不同等問題。研究者們利用深度學習卷積神經網絡模型對近 13 萬張包括痣、皮疹和其他皮膚病變的圖像訓練可識別其中的皮膚癌癥狀,對皮膚癌的診斷準確率達 91% 以上[9];在臨床上糖尿病視網膜病變的篩查是通過人工對視網膜圖片的觀察,用深度學習對視網膜病變自動分類不僅簡單方便,提高效率,保持一致性,還可以幫助患者實現早診斷早治療,解決目前依賴人工篩查出現的問題。研究者們發現用深度學習從 1 萬多份視網膜眼底照片中對糖尿病視網膜病變進行識別和分級,靈敏度達到 90.3%,特異度為 98.1%,不僅媲美人類醫生,還大大地提高了眼科評估的效率和準確率[10]。
機器學習和深度學習在結核病診斷中也有初探。影像學檢查是結核病早期診斷的一個重要檢測手段,而胸部 X 線檢查是常用的檢測方法。胸部 X 線片不僅可以早期發現結核病,還可以確定病灶的部位、性質、范圍,了解發病情況及用于治療效果的判斷。2017 年,Lakhani 等[11]研究者采用兩種名為 AlexNet 和 GoogLeNet 的深度卷積神經網絡模型對 1 007 張胸部 X 線片進行建模,實現了對肺結核和健康對照的自動鑒別,曲線下面積達到 0.99。2018 年,Becker 等[12]還進行了一項可行性研究,根據胸部 X 線片用深度學習技術對 138 例合并了人類免疫缺陷病毒感染的結核病患者進行分類,該研究將胸腔積液與實質性的變化很好地區分開。這兩項研究的出現,可以幫助提高臨床對結核病的早期診斷效率,但缺點在于,雖然兩者都可以達到較高的診斷效能,但前者研究只能區分結核病和健康對照,未能達到鑒別診斷的臨床價值,后者研究在區分空洞、實變、間質等類別上發生了較多的錯誤。改進患者人群的入組標準,提高預測診斷模型的分類效果,是進一步完善深度學習在結核病診斷中的發展方向。
結核病耐藥的出現是導致結核病控制失敗的另一個原因。早期的耐藥診斷不僅可以幫助患者及時有效地調整治療方案,還可以幫助實現對人群范圍內結核桿菌增殖的控制。機器學習在結核耐藥預測中的應用也有研究。2018 年,Gao 等[13]根據 230 例對藥物敏感的結核病患者的胸部 CT 影像,聯合卷積神經網絡模型和支持向量機建模,預測患者多重耐藥的發生,分類準確率可達 91.11%。該研究仍存在一些不足:納入的耐藥人群少,人群單一,不能確保建立模型的可靠性和泛化能力;結核病耐藥的模式有多種,未能預測對哪些一線藥物或者二線藥物耐藥。
3.2 多組學數據挖掘
隨著分子學技術的發展,大量的基因、蛋白、代謝水平等數據得以被挖掘,機器學習與高通量組學數據的結合是目前大數據挖掘的另一種形式。研究者們嘗試著從組學數據中尋找新的生物標志物來闡明結核病的疾病機制,找到結核病臨床鑒別診斷的方法。結核病領域也展開了相應的研究,主要包括基因組、轉錄組、蛋白組等幾個方面。例如,Zak 等[14]發現并驗證了 16 個基因轉錄本組合可作為預測潛伏感染發展成活動性結核的標志物(靈敏度:53.7%,特異度:82.8%);Berry 等[15]發現 393 和 86 個轉錄本組合可分別用于結核病患者與潛伏感染及健康人、其他炎性疾病的鑒別(靈敏度:90.0%,特異度:83.0%)。由于疾病生物學特性的復雜性,過去發現的生物標志物敏感性和特異性都不高,而利用機器學習模型對高通量測序數據的整合分析尋找生物標志物可以提高疾病的診斷效能。Agranoff 等[5]根據活動性結核病患者血清來源的蛋白質組學信息用支持向量機模型算法將人群分類為結核病患者和正常對照,特異度達 94.9%,準確率達 94%,最后通過 4 個生物標志物聯合診斷,準確度可達 78%;Yang 等[16]用機器學習算法,根據 1 839 株結核桿菌的全基因組信息,建立了 8 種常用抗結核藥物的耐藥預測機器學習模型,以藥物敏感性試驗為金標準,發現機器學習模型相比以前的分析方法,對 8 種常用抗結核藥物耐藥分析的敏感性和診斷效能都有了較大提高。不僅限于單組學信息,機器學習和深度學習將多組學數據整合在一起可以建立更好的診斷、監管、預后分析模型。例如,Chaudhary 等[17]對多組學信息(RNA 表達、非編碼短鏈 RNA 表達、甲基化)進行整合,用深度學習 AE 模型將肝癌患者分為了兩類生存期差異人群,且具有明顯的統計學差異,最終深度學習可以用于測序肝癌患者的預后。目前尚沒有結核病相關的多組學研究報道,因此機器學習和深度學習在結核病多組學數據挖掘中存在較大的發展空間。多組學研究在結核病分子標志物的篩選中具有廣闊的前景。
3.3 機器學習和深度學習在結核病診斷中的不足
機器學習和深度學習在結核病診斷已有前期探索,獲得較好的診斷效率,但仍有一些不足:① 絕大多數研究局限于單組學,缺乏多角度、多層次的研究思維,所發現的分子標志物單一,難以全面準確地反映結核病的真實病理狀態。② 受樣本量、人群遺傳異質性、環境因素差異、疾病亞型的復雜性等因素影響,不同群體的研究結果不一致或重復性差,而且多數缺乏前瞻性的大樣本量驗證,限制了研究結果的推廣。③ 沒有考慮到宿主與病原體的交互作用、機體的免疫應答、菌體的活性強弱、活動性疾病還是隱匿感染。④ 臨床診斷最關注的是如何進行結核病的鑒別診斷和早期準確診斷,然而,大多數的研究基于結核和健康對照或潛伏感染的比較,僅少量報道了區分結核病與類似疾病的標志物;未能鑒別診斷在臨床中最困難的菌陰結核以及結核性腦膜炎。未來機器學習對同一疾病不同數據來源的整合分析,有利于系統地研究疾病發病機制、尋找疾病診療的最佳靶點。
4 機器學習和深度學習在結核病診斷中的發展展望
由于結核病的多樣性和復雜性,在我國,結核病疫情和結核耐藥的形勢依然險峻。新的、特異的、準確的診斷方法將成為結核病診斷的主要發展趨勢。而機器學習和深度學習在對海量數據挖掘、輔助結核病的臨床診療決策中,顯示出了巨大的優勢。
機器學習和深度學習在結核病診斷中的發展方向可以被總結為以下幾點:① 設計前瞻性大規模、多中心的研究,注重機器學習和深度學習建模的泛化性。② 多組學標志物組合簡單化,適合低成本的檢測手段,更注重臨床適用性。③ 能對疑難結核病(結核性腦膜炎、菌陰肺結核、耐藥結核、特殊人群結核)進行診斷分類。④ 機器學習和深度學習建立診斷模型時整合臨床信息和生物學信息,包括電子病歷、影像學資料、檢驗報告、病理報告、組學測序結果等,基于其中一種或是以多種為輸入構建診斷模型,促進臨床決策,減少人為的醫療錯誤,更好地提高醫療質量和患者安全。⑤ 實現個體化 AI 策略分析,動態跟蹤。例如,對耐藥患者進行動態監控,如果發現結核桿菌出現了病變,就需要結合在治療中患者出現的轉變,例如痰涂片有沒有陰轉,運用胸部 X 線片觀察病情,分析組學測序數據差異、藥物耐藥史分析等等。利用機器學習或者深度學習整合多維數據實現對結核患者用藥療效的預測、結核耐藥的管理。⑥ 機器學習建模過程應更加標準化和透明化(減少“黑箱建模”),研發智能的臨床輔助決策系統,促使其產業化,解決邊遠省份和經濟欠發達地區醫療資源分配不均的問題。⑦ 機器學習和深度學習在醫學上的發展方向不僅要實現對單一病種的識別和診斷,還要實現跨病種、跨影像學數據類型的 AI 平臺。未來機器學習和深度學習將體現綜合能力更強的 AI,既能分類,又能判斷是否異常,還能告訴醫生作出這一判斷的依據。