引用本文: 路朋宇, 黃偉. 機器學習在膿毒癥及危重癥患者預后評估中的應用. 中國呼吸與危重監護雜志, 2023, 22(9): 660-665. doi: 10.7507/1671-6205.202304075 復制
膿毒癥是機體對感染的反應失調而導致危及生命的器官功能障礙,是一種危及生命的急性綜合征,如果不及時診斷和治療,組織損傷和死亡都將序貫發生[1]。2017年,全球膿毒癥的發病例數約4 890萬例,死亡1 100萬例,膿毒癥占全球死亡總數的近20%[2]。同時,膿毒癥也是危重癥患者最常見的病因、合并癥及主要死因,由此共同產生住院成本的顯著增加和經濟與精神負擔的加重[3]。
膿毒癥與危重癥的不良病程及其所帶來的嚴重的經濟負擔和不良結局促成了多種基于生命體征、實驗室指標和電子病例系統記錄(electronic health records,EHRs)的評分系統、診斷模型和預后評價模型的研發,成為臨床客觀評價患者病情程度并預測結局的有利工具。近年來,以生物醫療大數據為基礎的機器學習(machine learning,ML)技術突飛猛進,作為ML分支之一的深度學習(deep Learning,DL)不斷產生創新性的發現和應用。本文主要收集近年來ML和DL在膿毒癥及危重癥預后評估中的應用進展,對其實施效果、應用挑戰和未來發展做一闡述。需要指出的是,ML和DL的衍化繁雜,算法眾多,本文著重于梳理脈絡,著眼臨床應用,模型的數學機制則不做介紹。
1 機器學習與深度學習概述
ML模型可分為有監督(supervised)、無監督(unsupervised)、半監督(semi-supervised)和強化學習(reinforcement learning)四種[4]。傳統上,監督型學習是指模型學習時有經人工標注的特定標記,用數學函數將輸入數據(例如入院時的患者特征和嚴重程度)和標記(膿毒癥)聯系起來,主要用做分類或者回歸,早期絕大多數的診斷與預后評價模型就是基于監督學習。監督學習模型常用的算法有邏輯回歸(logistic regression,LR)、隨機森林(random forests,RF)、神經網絡(neural network,NN)、梯度提升(gradient boosting,GB)、極限梯度提升(extreme gboosted,XGBoost)、支持向量機(support vector machines,SVM)、樸素貝葉斯(naive bayes,NB)、k-近鄰算法(k-nearest neighbors,KNN)等。以上部分算法并非只限定于監督型學習模型,同樣可用于ML的其他模型,反之亦然。監督學習的缺點是需要大量人工標記的數據,模型只能預測已知類別,不能預測未知類別的數據。無監督學習則是指從無標簽的高維數據中提取出有用的信息和結構的機器學習方式,主要解決的是聚類和降維問題。膿毒癥與危重癥本質上都是異質性的綜合征,非監督學習模型可很好地用于其表型的分類或發現“異常”類型者。聚類的算法主要有K均值聚類(k-means)、分層聚類算法(hierachical Cluster analysis,HCA)。降維的算法有主成分分析(principal component analysis,PCA)、奇異值分解(singular value decomposition,SVD)等。無監督學習不需要大量標記,降低了數據標記成本,并自動發現數據的結構和模式,適合解決諸如異常檢測或聚定性類的問題。但由于未利用標記的數據進行訓練,其預測結果可能不夠準確,且難以驗證和解釋,需要進一步的人工分析。半監督學習是監督學習與無監督學習相結合的一種學習方法,也是模式識別和機器學習領域研究的重點問題。強化學習是一種用于訓練智能代理的機器學習方法,目標是使代理學會在給定環境中執行正確的操作,以最大化預期的累積獎勵。常見的強化學習算法包括Q-learning和深度Q網絡(deep Q network,DQN)等。ML、DL分類及其與人工智能的關聯可參見圖1,機器學習的數據處理模式參見圖2。


DL則適用于上述任何ML類別,它指的是使用深度人工神經網絡來執行學習任務,尤其是用于處理非線性關系和圖像處理。深度學習涉及的經典算法有卷積神經網絡(convolutional neural network,CNN),主要用于圖像和視頻等視覺處理任務。循環神經網絡(recurrent neural network,RNN)主要用于處理序列數據,如文本和語音。常見的RNN類型包括長短期記憶(long short-term memory,LSTM)、循環門單元(gated recurrent unit,GRU)和神經圖靈機(Neural Turing machines,NTM)等。生成對抗網絡(generative adversarial network,GAN)是一種無監督的學習算法,可以用于生成具有高度逼真度的圖像、音頻和視頻等數據,其算法有深度生成模型(deep generative model,DGM)等。DL涉及的算法迭代非常快,文獻常見的算法還有前饋神經網絡(feed forward neural networks,FF or FFNN)、玻爾茲曼機(Boltzmann machines,BM)、深度信念網絡(Deep belief networks,DBN)、自編碼器(autoencoder,AE)和圖神經網絡(graph neural network,GNN)以及Google團隊推出的基于自注意力機制的神經網絡的Transformer等。
ML/DL的開發依賴于電子數據源,重癥醫學領域最常采用的公共EHR為麻省理工學院的單中心重癥監護醫學信息數據集(medical information mart for intensive care,MIMIC)[5],現已發布到第Ⅳ版(MIMIC-Ⅳ,V2.2),記錄了2001年—2019年期間波士頓貝斯以色列女執事醫療中心7.3萬多例重癥監護病房(intensive care unit,ICU)患者的電子醫療數據。另一個公共EHR是eICU-CRD數據庫,目前版本v2.0,覆蓋北美近300個ICU,20余萬例患者的多中心資料。上述數據庫,尤其MIMIC,其數據結構復雜,需要有一定的學習成本,并有準入要求。除數據庫外,ML/DL預測模型的表現,主要是基于與經典的危重癥評分系統的比較,包括全身炎癥反應綜合征評分(systemic inflammatory response syndrome,SIRS)、簡化急性生理學評分Ⅱ(simplified acute physiology score Ⅱ,SAPS-Ⅱ)和SAPS-Ⅲ、序貫性器官功能衰竭評分(sequential organ failure assessment,SOFA)、快速SOFA評分(qSOFA)、急性生理學和慢性健康狀況評價(acute physiology and chronic health evaluation Ⅱ,APACHE-Ⅱ)和APACHE-Ⅲ、國家早期預警評分(national early warning score,NEWS)、校正的早期預警評分(modified early warning score,MEWS)等。對比時最常用指標為受試者操作特征(receiver operating characteristic,ROC)曲線和ROC的曲線下面積(area under ROC curve,AUC)。
2 機器學習用于膿毒癥及危重癥患者的預后評價
2.1 隨機森林(random forests,RF)
Hu等[6]利用MIMIC-Ⅳ考察了九種流行的ML模型預測再次ICU住院的膿毒癥患者的病死率。研究還采用了Shapley補充解釋(Shapley additive explanations,SHAP)和模型無關的局部解釋(local interpretable model-agnostic explanations,LIME)提高最優模型的可解釋性。結果顯示,47個臨床因素中的31個用于模型構建。9個模型中RF模型性能最佳,AUC為0.81,準確率為85%,SHAP匯總分析顯示,格拉斯哥昏迷量表評分、尿量、血尿素氮、乳酸、血小板計數和收縮壓是影響RF模型的前6個最重要因素。
2.2 XGBoost
Li等[7]利用機器學習提取大型三級醫院ICU 24 h內相關參數建立預測危重膿毒癥患者的院內病死率模型,并在“基礎+實驗室”、“基礎+干預”和“整體”特征集三種策略下進行模型開發。經過訓練和微調,XGBoost在整體特征集的AUC為0.85,表現最佳。
Liu等[8]則開發出包含時間維度的改進型SOFA機器學習模型(T-SOFA),用于預測危重患者的病死率。研究數據來自eICU-CRD和MIMIC-Ⅲ,將兩個數據集的數據進行混合以用于模型開發。MIMIC-Ⅳ和南京金陵醫院外科ICU數據庫分別作為外部測試集A和B組。采用了XGBoost算法的T-SOFA M3結合了時間維度特征,在驗證集中的表現顯著優于原始SOFA評分(AUC 0.800比0.693,P<0.01),在測試集A和B同樣保持良好的鑒別和校準,AUC分別為0.803和0.830。以上結果表明該模型可顯著提高傳統SOFA評分的預測性能。
2.3 梯度提升決策樹(gradient boosting decision tree,GBDT)
不同機器學習算法的創建與其在臨床實踐中的實施之間存在差距。Li等[9]利用MIMIC-Ⅲ比較了GBDT、LR、KNN、RF和SVM等機器學習算法預測ICU內重癥患者的病死率的效能。GBDT模型表現出最佳性能,AUC為0.992;RF、SVM 、KNN和LR的AUC分別為0.980、0.898和0.877和0.876。
2.4 貝葉斯網絡
西班牙學者Delgado等[10]報道,通過使用帶權重的平均集成標準構建了5種基本基于貝葉斯分類器的機器學習分層模型集合,命名為集成加權平均值(ensemble weighted average,EWA)。通過自身的電子數據庫,將EWA與機器學習預測模型(NN、SVM和RF)和傳統評分系統進行比較,結果表明EWA預測ICU病死率的表現更好。
2.5 SHAP法
人工智能是通過黑盒(black-box)開發,其操作過程未知或無法用人類可以理解的語義來描述的。因為黑盒的存在,人工智能就需要有可解釋性(interpretability)。解決可解釋性還是依賴算法,常用的就是前述的SHAP、LIME和反事實解釋(counterfactual explanations)。Jiang等[11]報道使用MIMIC-Ⅲ數據庫,利用機器學習確定膿毒癥幸存者在ICU再入院后其死亡的危險因素,并使用SHAP法的Shapley值可視化個體危險因素與死亡率之間的定量關系。結果顯示,機器學習算法確定了與死亡風險相關的18個特征,其中14個具有相應閾值的特定參數與ICU再入院期間膿毒癥幸存者的院內病死率相關。
2.6 堆疊集成模型(Stacked Ensemble Model)
Ren等[12]使用堆疊集成模型,通過結合臨床嚴重程度評分結果來預測ICU的病死率。其中使用幾種機器學習算法(LR、NB、XGBoost)來比較性能。結果表明堆疊集成模型取得了較好的性能,其嚴重性評分結果的AUC為0.879。為了提高預測性能,基于不同的特征選擇技術獲得了兩個特征子集,標記為SetS和SetT。評估結果表明,SetS可達成較高的AUC分值(0.879)。
2.7 動態指標的數據挖掘
膿毒癥是一個動態演變的過程,基于靜態數據(例如危重癥評分)的學習模型可能無法在短時間內對快速進展的病情進行準確預判。膿毒性休克發生前的生命體征(心率、血壓等)包含了豐富的信息,這些動態時間數據更有助于準確預測關鍵事件。采用時間模式挖掘方法(temporal pattern mining methods)預測患者的預后就引起了人們的極大興趣。Ghosh等[13]等采用MIMIC-Ⅱ對膿毒癥患者平均動脈壓、心率和呼吸頻率的連續時間序列數據分別建立支持向量機(support vector machine,SVM)模型和隱馬爾可夫模型(hidden Markov models,HMM)兩種基礎模型,并與基于單通道模式的HMM(SCP-HMM)和基于多通道模式的耦合HMM(MCP-HMM)模型進行比較,結果顯示MCP-HMM在預測膿毒性休克方面具有很強的競爭準確性。這證明MAP、HR等生理學指標的動態變化可通過基于序列的生理模式標記結合序貫HMM模型習得,并由此建立有力的膿毒性休克風險分級模型。
3 深度學習在重癥患者預后評價中的應用
3.1 卷積神經網絡(convolutional neural networks,CNN)
臺灣學者Cheng等[14]僅使用年齡、性別、收縮壓、舒張壓、心率、呼吸頻率和體溫7個生命體征的回顧性數據,比較CNN、LSTM和RF模型預測急診科膿毒癥患者48 h內院內死亡風險。在事件前6 h,三者的準確率分別為0.905、0.817和0.835,AUC分別為0.840、0.761和0.770。在事件前48 h,三者準確率依次為0.828、0759和0.805,AUC分別為0.811、0.734和0.776。說明機器學習模型可以預測膿毒癥患者入院后6~48 h內的病死率。如果提前期更接近事件,則測試模型的性能更準確。
Caicedo-Torres等[15]開發了視覺化解釋的深度學習框架,命名為“ISEEU”,使用深度多尺度CNN和Shapley值預測ICU病死率。同樣使用MIMIC-Ⅲ數據集訓練。根據聯盟博弈論的概念設計的算法,結果顯示AUC達到0.8735,可與同期經MIMIC-III訓練的最先進的深度學習死亡率預測模型競爭,同時保持可解釋性。
3.2 循環神經網絡(recurrent neural network,RNN)
為提高在現實世界的實用性,Wernly等[16]回顧性了多中心的eICU和單中心的MIMIC-Ⅱ兩個數據集,納入48 h內存活者,利用RNN中用于處理縱向時間序列數據的LSTM算法開發了僅根據血氣分析數據判斷96 h病死率的預測模型。結果顯示,SOFA評分在多中心和單中心的表現僅為中等,AUC分別為0.72和0.76;乳酸預測96 h病死率的AUC分別為0.80和0.70;LR為0.82和0.81;而LSTM的表現較好,AUC分別達到0.88和0.85。以上結果提示基于RNN的模型可以幫助醫生對預后不良的患者進行篩選。
3.3 時間卷積網絡(temporal convolution network,TNN)
高維度、采樣間隔的不確定性和其他問題,造成使用時間序列數據對ICU患者死亡風險進行動態預測受到限制。Chen等[17]利用TNN建模,使用MIMIC-Ⅲ數據集的時間序列數據集中的17個生理變量來預測收入ICU入院后48 h的死亡風險。結果顯示其AUC達0.837,優于傳統人工智能。
4 混合模式
英國學者Awad等[18]在2017年介紹了基于機器學習的重癥監護病房患者早期病死率預測框架(Early Mortality Prediction for Intensive Care Unit patients,EMPICU)。EMPICU框架集成了RF,預測決策樹(decision trees,DT),概率樸素貝葉斯(probabilistic Naive Bayes,NB)和基于規則的投射自適應共振理論(projective adaptive resonance theory,PART)模型,通過MIMIC-Ⅱ數據建模。作者的首要目的是對比EMPICU與重癥醫學其他標準評分系統(SOFA、SAPS-I、APACHE-Ⅱ、NEWS和qSOFA)預測住院病死率的情況。結果表明,盡管缺失了ICU入院前數小時的值,但EMPICU框架仍有足夠的效能,其AUC優于標準評分系統,并能有效預測入院前6 h的病死率。框架中的EMPICU隨機森林(EMPICU-RF)表現最佳,可為ICU患者入院早期構建了性能優良且新穎的病死率預測模型。
2018年Purushotham等[19]介紹了使用整合有LR、回歸樹、隨機森林、淺層神經網絡機器和加性模型(additive models)的超級學習器算法,仍然基于MIMIC-Ⅲ數據庫。對標測試(benchmarking)結果表明該超級學習器算法在病死率、住院時間和國際疾病分類-9(ICD-9)分組預測上始終優于SAPS-Ⅱ、SOFA等方法。
Tang等[20]采用Cox回歸、隨機生存森林(random survival forest,RSF)和DL方法建立ICU患者生存概率預測模型,共收集40個變量用于模型開發。預測性能在MIMIC-Ⅲ、eICU和上海肺科醫院數據庫(SPH)中獨立評估,模型將患者準確地分層為不同的生存概率組,在MIMIC-Ⅲ,eICU和SPH中的C指數為>0.7,表現優于其他模型。
為了預測ICU患者的器官衰竭(用SOFA評分變化量,delta-SOFA表示),Ma等[21]利用MIMIC-Ⅲ數據庫,開發基于數據驅動和知識驅動的機器學習方法(DKM)的實時Delta SOFA分數預測模型。模型包含改進的深度學習時間卷積網絡(S-TCN)和基于醫學知識圖譜的圖嵌入特征提取方法為預測提供解釋。結果顯示DKM的AUC達到0.973,精度為0.923,F1得分為0.927,顯著優于基線方法。顯示出了良好的潛力。
Davoodi等[22]提出了一種創新的基于深度規則的模糊系統(Deep Rule-Based Fuzzy System,DRBFS),對ICU患者進行準確的院內病死率預測。研究仍然使用MIMIC-Ⅲ,結果表明其AUC為0.739,優于樸素貝葉斯,決策樹,梯度提升,DBN和D-TSK-FC等。
Chen等[23]使用MIMIC-Ⅲ數據集,綜合遞歸神經網絡(recursive neural network,RNN)和注意力機制開發了一種可分析解釋的深度學習模型(AMRNN),并使用單個長短期記憶(long short-term memory,LSTM)單元來學習多變量時間序列中每個器官系統的生理屬性,目的是預測ICU患者的疾病嚴重程度及其死亡風險。結果顯示AMRNN的AUC值均優于一系列最先進的深度學習模型。
An等[24]提出了一種基于Transformer的分層注意力網絡(time-aware transformer-based hierarchical attention network,TERTIAN)用于預測病死率。該模型旨在克服EHR中大量不規則的異構多變量時間序列數據(例如實驗室測試和生命體征)造成的建模困難,并挖掘多種類型醫療數據間的交互與相關性。通過與包括ISSEU[15]在內的7種最新的深度學習模型在MIMIC-Ⅲ和MIMIC-Ⅳ中的比較,TERTIAN的表現(包括AUC)均最佳。
最后是薈萃分析的證據。Barboi等[25]對2000—2020年發表的疾病嚴重程度評分與ML在預測ICU病死率方面的文獻進行綜述和薈萃分析。共納入20項(4.3%)進行綜述研究,這些研究基于7種算法開發了47個ML模型,并將其與3種疾病嚴重程度評分系統(SOFA、SAPS-Ⅱ和APACHE-Ⅱ)進行了比較。ML模型的AUC范圍在0.728~0.99,評分系統則在0.58~0.86。作者認為ML模型能夠準確預測ICU病死率,可作為傳統評分模型的替代方案。盡管ML模型的性能范圍優于疾病嚴重程度評分,但由于高度異質性,結果無法一概而論。
5 當前不足
ML/DL等在膿毒癥與危重癥診斷、治療和預后的所有方面都顯示出令人矚目的性能,但應該清楚地認識到當前仍存在不足。首先,目前上述模型主要都是基于單一數據庫開發且多數均處于試驗研究階段,尚不存在勝任所有膿毒癥和/或重癥患者的最佳預后評價模型。其次,ML/DL仍存在局限性,并面臨各種挑戰[26]。由于并非所有從ICU收集的數據都是高質量的,這使得數據預處理十分困難且耗時。而且ML/DL均嚴重依賴數據量,模型越復雜,所需的樣本量就越大,需調整的參數和投入的算力就越多,成本也就越昂貴。如若樣本量有限則使用復雜模型會受限。對深度學習模型而言,更容易受到對抗性輸入的影響,數據分布如從訓練數據集就有偏差就會導致完全不同的模型輸出。其三,深度學習始終存在可解釋性問題,深度學習模型固有的“黑匣子”特性造成在處理風險分層和預后預測等高級任務時,模型缺乏對行為、決策過程和結果的合理闡釋。第四,如上所述,已有的模型多是基于MIMIC這一單中心回顧性數據集,而MIMIC和eICU-CRD等數據庫均為西方發達國家開發,納入的病患及其指標顯然不能完全代表全球不同地區和人種,因此模型的普適性存疑。最后,當前所有模型均未進入前瞻性臨床研究的評估階段,也沒有官方公認的與SOFA等經典評分系統類似的深度學習模型或平臺,這些都造成模型的泛化性和可解釋性的困難和技術與語義互操作性的短缺,使不同中心患者數據的協調成本增加。
6 未來方向
未來還將不斷有新的算法涌現,并最終確定標準模型,以創新性地協助重癥醫生解決臨床問題。而更為強大的認知計算(cognitive computing)[27]、量子計算(quantum computing)[28]也會不斷提升對重癥患者海量非結構化數據處理能力,提高對診斷和預后的評價能力。無論怎樣,任何模型用于臨床實踐之前,均需要進行額外的外部和前瞻性驗證以及隨機臨床試驗,只有如此,臨床醫生才可能更有信心接受模型結果并根據該模型的建議采取行動。最后,監管機構也應該制定新的指導方針,以更好地規范人工智能技術的快速發展及其在臨床實踐中的部署。
7 結語
當前基于人工智能的膿毒癥和(或)危重癥患者預后評價體系的研發水平還處于快速發展和驗證階段,諸多的模型和算法已有超越各種經典評分系統的表現,顯示出較為光明的前景。未來,解決了解釋性、異質性的深度學習預測模型在決策輔助中的作用和價值進一步得到躍升。
利益沖突:本文不涉及任何利益沖突。
膿毒癥是機體對感染的反應失調而導致危及生命的器官功能障礙,是一種危及生命的急性綜合征,如果不及時診斷和治療,組織損傷和死亡都將序貫發生[1]。2017年,全球膿毒癥的發病例數約4 890萬例,死亡1 100萬例,膿毒癥占全球死亡總數的近20%[2]。同時,膿毒癥也是危重癥患者最常見的病因、合并癥及主要死因,由此共同產生住院成本的顯著增加和經濟與精神負擔的加重[3]。
膿毒癥與危重癥的不良病程及其所帶來的嚴重的經濟負擔和不良結局促成了多種基于生命體征、實驗室指標和電子病例系統記錄(electronic health records,EHRs)的評分系統、診斷模型和預后評價模型的研發,成為臨床客觀評價患者病情程度并預測結局的有利工具。近年來,以生物醫療大數據為基礎的機器學習(machine learning,ML)技術突飛猛進,作為ML分支之一的深度學習(deep Learning,DL)不斷產生創新性的發現和應用。本文主要收集近年來ML和DL在膿毒癥及危重癥預后評估中的應用進展,對其實施效果、應用挑戰和未來發展做一闡述。需要指出的是,ML和DL的衍化繁雜,算法眾多,本文著重于梳理脈絡,著眼臨床應用,模型的數學機制則不做介紹。
1 機器學習與深度學習概述
ML模型可分為有監督(supervised)、無監督(unsupervised)、半監督(semi-supervised)和強化學習(reinforcement learning)四種[4]。傳統上,監督型學習是指模型學習時有經人工標注的特定標記,用數學函數將輸入數據(例如入院時的患者特征和嚴重程度)和標記(膿毒癥)聯系起來,主要用做分類或者回歸,早期絕大多數的診斷與預后評價模型就是基于監督學習。監督學習模型常用的算法有邏輯回歸(logistic regression,LR)、隨機森林(random forests,RF)、神經網絡(neural network,NN)、梯度提升(gradient boosting,GB)、極限梯度提升(extreme gboosted,XGBoost)、支持向量機(support vector machines,SVM)、樸素貝葉斯(naive bayes,NB)、k-近鄰算法(k-nearest neighbors,KNN)等。以上部分算法并非只限定于監督型學習模型,同樣可用于ML的其他模型,反之亦然。監督學習的缺點是需要大量人工標記的數據,模型只能預測已知類別,不能預測未知類別的數據。無監督學習則是指從無標簽的高維數據中提取出有用的信息和結構的機器學習方式,主要解決的是聚類和降維問題。膿毒癥與危重癥本質上都是異質性的綜合征,非監督學習模型可很好地用于其表型的分類或發現“異常”類型者。聚類的算法主要有K均值聚類(k-means)、分層聚類算法(hierachical Cluster analysis,HCA)。降維的算法有主成分分析(principal component analysis,PCA)、奇異值分解(singular value decomposition,SVD)等。無監督學習不需要大量標記,降低了數據標記成本,并自動發現數據的結構和模式,適合解決諸如異常檢測或聚定性類的問題。但由于未利用標記的數據進行訓練,其預測結果可能不夠準確,且難以驗證和解釋,需要進一步的人工分析。半監督學習是監督學習與無監督學習相結合的一種學習方法,也是模式識別和機器學習領域研究的重點問題。強化學習是一種用于訓練智能代理的機器學習方法,目標是使代理學會在給定環境中執行正確的操作,以最大化預期的累積獎勵。常見的強化學習算法包括Q-learning和深度Q網絡(deep Q network,DQN)等。ML、DL分類及其與人工智能的關聯可參見圖1,機器學習的數據處理模式參見圖2。


DL則適用于上述任何ML類別,它指的是使用深度人工神經網絡來執行學習任務,尤其是用于處理非線性關系和圖像處理。深度學習涉及的經典算法有卷積神經網絡(convolutional neural network,CNN),主要用于圖像和視頻等視覺處理任務。循環神經網絡(recurrent neural network,RNN)主要用于處理序列數據,如文本和語音。常見的RNN類型包括長短期記憶(long short-term memory,LSTM)、循環門單元(gated recurrent unit,GRU)和神經圖靈機(Neural Turing machines,NTM)等。生成對抗網絡(generative adversarial network,GAN)是一種無監督的學習算法,可以用于生成具有高度逼真度的圖像、音頻和視頻等數據,其算法有深度生成模型(deep generative model,DGM)等。DL涉及的算法迭代非常快,文獻常見的算法還有前饋神經網絡(feed forward neural networks,FF or FFNN)、玻爾茲曼機(Boltzmann machines,BM)、深度信念網絡(Deep belief networks,DBN)、自編碼器(autoencoder,AE)和圖神經網絡(graph neural network,GNN)以及Google團隊推出的基于自注意力機制的神經網絡的Transformer等。
ML/DL的開發依賴于電子數據源,重癥醫學領域最常采用的公共EHR為麻省理工學院的單中心重癥監護醫學信息數據集(medical information mart for intensive care,MIMIC)[5],現已發布到第Ⅳ版(MIMIC-Ⅳ,V2.2),記錄了2001年—2019年期間波士頓貝斯以色列女執事醫療中心7.3萬多例重癥監護病房(intensive care unit,ICU)患者的電子醫療數據。另一個公共EHR是eICU-CRD數據庫,目前版本v2.0,覆蓋北美近300個ICU,20余萬例患者的多中心資料。上述數據庫,尤其MIMIC,其數據結構復雜,需要有一定的學習成本,并有準入要求。除數據庫外,ML/DL預測模型的表現,主要是基于與經典的危重癥評分系統的比較,包括全身炎癥反應綜合征評分(systemic inflammatory response syndrome,SIRS)、簡化急性生理學評分Ⅱ(simplified acute physiology score Ⅱ,SAPS-Ⅱ)和SAPS-Ⅲ、序貫性器官功能衰竭評分(sequential organ failure assessment,SOFA)、快速SOFA評分(qSOFA)、急性生理學和慢性健康狀況評價(acute physiology and chronic health evaluation Ⅱ,APACHE-Ⅱ)和APACHE-Ⅲ、國家早期預警評分(national early warning score,NEWS)、校正的早期預警評分(modified early warning score,MEWS)等。對比時最常用指標為受試者操作特征(receiver operating characteristic,ROC)曲線和ROC的曲線下面積(area under ROC curve,AUC)。
2 機器學習用于膿毒癥及危重癥患者的預后評價
2.1 隨機森林(random forests,RF)
Hu等[6]利用MIMIC-Ⅳ考察了九種流行的ML模型預測再次ICU住院的膿毒癥患者的病死率。研究還采用了Shapley補充解釋(Shapley additive explanations,SHAP)和模型無關的局部解釋(local interpretable model-agnostic explanations,LIME)提高最優模型的可解釋性。結果顯示,47個臨床因素中的31個用于模型構建。9個模型中RF模型性能最佳,AUC為0.81,準確率為85%,SHAP匯總分析顯示,格拉斯哥昏迷量表評分、尿量、血尿素氮、乳酸、血小板計數和收縮壓是影響RF模型的前6個最重要因素。
2.2 XGBoost
Li等[7]利用機器學習提取大型三級醫院ICU 24 h內相關參數建立預測危重膿毒癥患者的院內病死率模型,并在“基礎+實驗室”、“基礎+干預”和“整體”特征集三種策略下進行模型開發。經過訓練和微調,XGBoost在整體特征集的AUC為0.85,表現最佳。
Liu等[8]則開發出包含時間維度的改進型SOFA機器學習模型(T-SOFA),用于預測危重患者的病死率。研究數據來自eICU-CRD和MIMIC-Ⅲ,將兩個數據集的數據進行混合以用于模型開發。MIMIC-Ⅳ和南京金陵醫院外科ICU數據庫分別作為外部測試集A和B組。采用了XGBoost算法的T-SOFA M3結合了時間維度特征,在驗證集中的表現顯著優于原始SOFA評分(AUC 0.800比0.693,P<0.01),在測試集A和B同樣保持良好的鑒別和校準,AUC分別為0.803和0.830。以上結果表明該模型可顯著提高傳統SOFA評分的預測性能。
2.3 梯度提升決策樹(gradient boosting decision tree,GBDT)
不同機器學習算法的創建與其在臨床實踐中的實施之間存在差距。Li等[9]利用MIMIC-Ⅲ比較了GBDT、LR、KNN、RF和SVM等機器學習算法預測ICU內重癥患者的病死率的效能。GBDT模型表現出最佳性能,AUC為0.992;RF、SVM 、KNN和LR的AUC分別為0.980、0.898和0.877和0.876。
2.4 貝葉斯網絡
西班牙學者Delgado等[10]報道,通過使用帶權重的平均集成標準構建了5種基本基于貝葉斯分類器的機器學習分層模型集合,命名為集成加權平均值(ensemble weighted average,EWA)。通過自身的電子數據庫,將EWA與機器學習預測模型(NN、SVM和RF)和傳統評分系統進行比較,結果表明EWA預測ICU病死率的表現更好。
2.5 SHAP法
人工智能是通過黑盒(black-box)開發,其操作過程未知或無法用人類可以理解的語義來描述的。因為黑盒的存在,人工智能就需要有可解釋性(interpretability)。解決可解釋性還是依賴算法,常用的就是前述的SHAP、LIME和反事實解釋(counterfactual explanations)。Jiang等[11]報道使用MIMIC-Ⅲ數據庫,利用機器學習確定膿毒癥幸存者在ICU再入院后其死亡的危險因素,并使用SHAP法的Shapley值可視化個體危險因素與死亡率之間的定量關系。結果顯示,機器學習算法確定了與死亡風險相關的18個特征,其中14個具有相應閾值的特定參數與ICU再入院期間膿毒癥幸存者的院內病死率相關。
2.6 堆疊集成模型(Stacked Ensemble Model)
Ren等[12]使用堆疊集成模型,通過結合臨床嚴重程度評分結果來預測ICU的病死率。其中使用幾種機器學習算法(LR、NB、XGBoost)來比較性能。結果表明堆疊集成模型取得了較好的性能,其嚴重性評分結果的AUC為0.879。為了提高預測性能,基于不同的特征選擇技術獲得了兩個特征子集,標記為SetS和SetT。評估結果表明,SetS可達成較高的AUC分值(0.879)。
2.7 動態指標的數據挖掘
膿毒癥是一個動態演變的過程,基于靜態數據(例如危重癥評分)的學習模型可能無法在短時間內對快速進展的病情進行準確預判。膿毒性休克發生前的生命體征(心率、血壓等)包含了豐富的信息,這些動態時間數據更有助于準確預測關鍵事件。采用時間模式挖掘方法(temporal pattern mining methods)預測患者的預后就引起了人們的極大興趣。Ghosh等[13]等采用MIMIC-Ⅱ對膿毒癥患者平均動脈壓、心率和呼吸頻率的連續時間序列數據分別建立支持向量機(support vector machine,SVM)模型和隱馬爾可夫模型(hidden Markov models,HMM)兩種基礎模型,并與基于單通道模式的HMM(SCP-HMM)和基于多通道模式的耦合HMM(MCP-HMM)模型進行比較,結果顯示MCP-HMM在預測膿毒性休克方面具有很強的競爭準確性。這證明MAP、HR等生理學指標的動態變化可通過基于序列的生理模式標記結合序貫HMM模型習得,并由此建立有力的膿毒性休克風險分級模型。
3 深度學習在重癥患者預后評價中的應用
3.1 卷積神經網絡(convolutional neural networks,CNN)
臺灣學者Cheng等[14]僅使用年齡、性別、收縮壓、舒張壓、心率、呼吸頻率和體溫7個生命體征的回顧性數據,比較CNN、LSTM和RF模型預測急診科膿毒癥患者48 h內院內死亡風險。在事件前6 h,三者的準確率分別為0.905、0.817和0.835,AUC分別為0.840、0.761和0.770。在事件前48 h,三者準確率依次為0.828、0759和0.805,AUC分別為0.811、0.734和0.776。說明機器學習模型可以預測膿毒癥患者入院后6~48 h內的病死率。如果提前期更接近事件,則測試模型的性能更準確。
Caicedo-Torres等[15]開發了視覺化解釋的深度學習框架,命名為“ISEEU”,使用深度多尺度CNN和Shapley值預測ICU病死率。同樣使用MIMIC-Ⅲ數據集訓練。根據聯盟博弈論的概念設計的算法,結果顯示AUC達到0.8735,可與同期經MIMIC-III訓練的最先進的深度學習死亡率預測模型競爭,同時保持可解釋性。
3.2 循環神經網絡(recurrent neural network,RNN)
為提高在現實世界的實用性,Wernly等[16]回顧性了多中心的eICU和單中心的MIMIC-Ⅱ兩個數據集,納入48 h內存活者,利用RNN中用于處理縱向時間序列數據的LSTM算法開發了僅根據血氣分析數據判斷96 h病死率的預測模型。結果顯示,SOFA評分在多中心和單中心的表現僅為中等,AUC分別為0.72和0.76;乳酸預測96 h病死率的AUC分別為0.80和0.70;LR為0.82和0.81;而LSTM的表現較好,AUC分別達到0.88和0.85。以上結果提示基于RNN的模型可以幫助醫生對預后不良的患者進行篩選。
3.3 時間卷積網絡(temporal convolution network,TNN)
高維度、采樣間隔的不確定性和其他問題,造成使用時間序列數據對ICU患者死亡風險進行動態預測受到限制。Chen等[17]利用TNN建模,使用MIMIC-Ⅲ數據集的時間序列數據集中的17個生理變量來預測收入ICU入院后48 h的死亡風險。結果顯示其AUC達0.837,優于傳統人工智能。
4 混合模式
英國學者Awad等[18]在2017年介紹了基于機器學習的重癥監護病房患者早期病死率預測框架(Early Mortality Prediction for Intensive Care Unit patients,EMPICU)。EMPICU框架集成了RF,預測決策樹(decision trees,DT),概率樸素貝葉斯(probabilistic Naive Bayes,NB)和基于規則的投射自適應共振理論(projective adaptive resonance theory,PART)模型,通過MIMIC-Ⅱ數據建模。作者的首要目的是對比EMPICU與重癥醫學其他標準評分系統(SOFA、SAPS-I、APACHE-Ⅱ、NEWS和qSOFA)預測住院病死率的情況。結果表明,盡管缺失了ICU入院前數小時的值,但EMPICU框架仍有足夠的效能,其AUC優于標準評分系統,并能有效預測入院前6 h的病死率。框架中的EMPICU隨機森林(EMPICU-RF)表現最佳,可為ICU患者入院早期構建了性能優良且新穎的病死率預測模型。
2018年Purushotham等[19]介紹了使用整合有LR、回歸樹、隨機森林、淺層神經網絡機器和加性模型(additive models)的超級學習器算法,仍然基于MIMIC-Ⅲ數據庫。對標測試(benchmarking)結果表明該超級學習器算法在病死率、住院時間和國際疾病分類-9(ICD-9)分組預測上始終優于SAPS-Ⅱ、SOFA等方法。
Tang等[20]采用Cox回歸、隨機生存森林(random survival forest,RSF)和DL方法建立ICU患者生存概率預測模型,共收集40個變量用于模型開發。預測性能在MIMIC-Ⅲ、eICU和上海肺科醫院數據庫(SPH)中獨立評估,模型將患者準確地分層為不同的生存概率組,在MIMIC-Ⅲ,eICU和SPH中的C指數為>0.7,表現優于其他模型。
為了預測ICU患者的器官衰竭(用SOFA評分變化量,delta-SOFA表示),Ma等[21]利用MIMIC-Ⅲ數據庫,開發基于數據驅動和知識驅動的機器學習方法(DKM)的實時Delta SOFA分數預測模型。模型包含改進的深度學習時間卷積網絡(S-TCN)和基于醫學知識圖譜的圖嵌入特征提取方法為預測提供解釋。結果顯示DKM的AUC達到0.973,精度為0.923,F1得分為0.927,顯著優于基線方法。顯示出了良好的潛力。
Davoodi等[22]提出了一種創新的基于深度規則的模糊系統(Deep Rule-Based Fuzzy System,DRBFS),對ICU患者進行準確的院內病死率預測。研究仍然使用MIMIC-Ⅲ,結果表明其AUC為0.739,優于樸素貝葉斯,決策樹,梯度提升,DBN和D-TSK-FC等。
Chen等[23]使用MIMIC-Ⅲ數據集,綜合遞歸神經網絡(recursive neural network,RNN)和注意力機制開發了一種可分析解釋的深度學習模型(AMRNN),并使用單個長短期記憶(long short-term memory,LSTM)單元來學習多變量時間序列中每個器官系統的生理屬性,目的是預測ICU患者的疾病嚴重程度及其死亡風險。結果顯示AMRNN的AUC值均優于一系列最先進的深度學習模型。
An等[24]提出了一種基于Transformer的分層注意力網絡(time-aware transformer-based hierarchical attention network,TERTIAN)用于預測病死率。該模型旨在克服EHR中大量不規則的異構多變量時間序列數據(例如實驗室測試和生命體征)造成的建模困難,并挖掘多種類型醫療數據間的交互與相關性。通過與包括ISSEU[15]在內的7種最新的深度學習模型在MIMIC-Ⅲ和MIMIC-Ⅳ中的比較,TERTIAN的表現(包括AUC)均最佳。
最后是薈萃分析的證據。Barboi等[25]對2000—2020年發表的疾病嚴重程度評分與ML在預測ICU病死率方面的文獻進行綜述和薈萃分析。共納入20項(4.3%)進行綜述研究,這些研究基于7種算法開發了47個ML模型,并將其與3種疾病嚴重程度評分系統(SOFA、SAPS-Ⅱ和APACHE-Ⅱ)進行了比較。ML模型的AUC范圍在0.728~0.99,評分系統則在0.58~0.86。作者認為ML模型能夠準確預測ICU病死率,可作為傳統評分模型的替代方案。盡管ML模型的性能范圍優于疾病嚴重程度評分,但由于高度異質性,結果無法一概而論。
5 當前不足
ML/DL等在膿毒癥與危重癥診斷、治療和預后的所有方面都顯示出令人矚目的性能,但應該清楚地認識到當前仍存在不足。首先,目前上述模型主要都是基于單一數據庫開發且多數均處于試驗研究階段,尚不存在勝任所有膿毒癥和/或重癥患者的最佳預后評價模型。其次,ML/DL仍存在局限性,并面臨各種挑戰[26]。由于并非所有從ICU收集的數據都是高質量的,這使得數據預處理十分困難且耗時。而且ML/DL均嚴重依賴數據量,模型越復雜,所需的樣本量就越大,需調整的參數和投入的算力就越多,成本也就越昂貴。如若樣本量有限則使用復雜模型會受限。對深度學習模型而言,更容易受到對抗性輸入的影響,數據分布如從訓練數據集就有偏差就會導致完全不同的模型輸出。其三,深度學習始終存在可解釋性問題,深度學習模型固有的“黑匣子”特性造成在處理風險分層和預后預測等高級任務時,模型缺乏對行為、決策過程和結果的合理闡釋。第四,如上所述,已有的模型多是基于MIMIC這一單中心回顧性數據集,而MIMIC和eICU-CRD等數據庫均為西方發達國家開發,納入的病患及其指標顯然不能完全代表全球不同地區和人種,因此模型的普適性存疑。最后,當前所有模型均未進入前瞻性臨床研究的評估階段,也沒有官方公認的與SOFA等經典評分系統類似的深度學習模型或平臺,這些都造成模型的泛化性和可解釋性的困難和技術與語義互操作性的短缺,使不同中心患者數據的協調成本增加。
6 未來方向
未來還將不斷有新的算法涌現,并最終確定標準模型,以創新性地協助重癥醫生解決臨床問題。而更為強大的認知計算(cognitive computing)[27]、量子計算(quantum computing)[28]也會不斷提升對重癥患者海量非結構化數據處理能力,提高對診斷和預后的評價能力。無論怎樣,任何模型用于臨床實踐之前,均需要進行額外的外部和前瞻性驗證以及隨機臨床試驗,只有如此,臨床醫生才可能更有信心接受模型結果并根據該模型的建議采取行動。最后,監管機構也應該制定新的指導方針,以更好地規范人工智能技術的快速發展及其在臨床實踐中的部署。
7 結語
當前基于人工智能的膿毒癥和(或)危重癥患者預后評價體系的研發水平還處于快速發展和驗證階段,諸多的模型和算法已有超越各種經典評分系統的表現,顯示出較為光明的前景。未來,解決了解釋性、異質性的深度學習預測模型在決策輔助中的作用和價值進一步得到躍升。
利益沖突:本文不涉及任何利益沖突。