引用本文: 鄭萍, 劉寧. 機器學習應用于院外心臟驟停神經系統預后預測模型的系統評價. 中國胸心血管外科臨床雜志, 2022, 29(9): 1172-1180. doi: 10.7507/1007-4848.202201044 復制
院外心臟驟停(out-of-hospital cardiac arrest,OHCA)是一種常見的公共健康安全負擔疾病。全球成人OHCA每年的發病率約為95.9/100 000。歐洲因來源不同,每年發病率為16/100 000~119/100 000[1]。我國OHCA發病人數居全球之首,每年有38萬例[2]。隨著醫療水平不斷進步,眾多新技術被應用于OHCA患者的早期搶救與中后期治療,如公共場所除顫方案、醫療優先調度系統、目標體溫管理(target temperature management,TTM)、體外膜肺氧合,這些舉措提高了OHCA患者存活率,改善了神經系統結局。但近30年世界各個地區的OHCA總體預后與神經系統結局較差[3],因此預測OHCA后神經系統結局研究得到重視。隨著大數據及智慧醫療不斷發展與完善,患者、醫務人員、醫療機構、醫療器械間數據共享的大數據醫療庫逐步完善,形成了以患者為中心的信息化和智能化醫療服務平臺[4]。由此,醫務人員能獲得OHCA患者各個階段的臨床數據,使預測患者的神經系統結局成為可能。在預測模型方面,臨床上多使用傳統預測評分表或經典統計學算法,如傳統OHCA評分、心臟驟停醫院預后評分、TTM評分和邏輯回歸模型。但都存在共同的問題:第一,預測準確性不高,有誤報的風險;第二,這些模型不適用于患者復雜的病情變化[5]。這些問題限制了預測模型的應用。
機器學習(machine learning,ML)能學習和分析海量數據,通過使用算法與數據“訓練機器”達到自主預測[6]。近年來,大數據技術配合醫院信息化系統,成功實現了數據可視化分析、算法挖掘,完成數據增值。與使用選定變量再進行計算的傳統預測模型不同,ML可以利用計算機輕松地合并大量變量,提高預測的準確性[7]。隨著ML的迅速發展,相關研究成果對臨床決策具有較高的指導價值。基于此,本研究將系統評價近10年ML用于預測OHCA后神經系統結局的文獻,歸納并分析模型的算法和臨床特征。同時基于受試者工作特征曲線下面積(area under the receiver operating characteristic curve,AUC)與預測準確度,比較ML與其它經典算法之間的差異。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 近10年ML用于預測OHCA后神經系統的研究;② 研究對象為OHCA患者;③ 文中清晰描述ML模型的AUC與準確度;④ 患者符合我國2019年版心臟驟停診斷標準[8]。
1.1.2 排除標準
① 未提供明確的數據來源或者使用虛擬數據;② 未說明具體ML算法;③ 動物實驗;④ 會議摘要、綜述類文獻;⑤ 無法獲取全文。
1.2 文獻檢索策略
計算機檢索PubMed、Web of Science、EMbase、中國知網、萬方數據庫。搜集關于ML用于OHCA后神經系統結果預測的研究,檢索時限從2011年1月1日—2021年11月24日。中文檢索詞為:人工智能、機器學習、院外心臟驟停、預測模型、神經系統;英文檢索詞:artificial intelligence、machine learning、out-of-hospital cardiac arrest、predictive modeling、nervous system。
1.3 文獻篩選與資料提取
由2名研究者獨立篩選文獻、提取資料,如有分歧,咨詢第3名研究人員。文獻篩選時根據題目與摘要,排除不相關文獻。選擇是否進一步閱讀全文,以決定是否納入。文獻內容不全的,與作者進行電子郵件溝通。資料提取內容為:① 第一作者與發表年份;② 樣本量;③ 運用的算法;④ 數據來源;⑤ 結局指標;⑥ 模型準確度與AUC;⑦ 用于偏倚風險評價的關鍵要素;⑧ 預測因子。
1.4 納入文獻的偏倚風險評估
目前尚無專門評估ML類文獻偏倚風險的工具,因此,本文參考以往研究,選用QUADAS-2標準[9]評估納入文獻的偏倚分險。該標準是診斷試驗中的偏倚評估工具,它包括4個方面:納入的患者、待評價試驗、金標準、診斷過程和試驗與金標準之間時間間隔。由2名研究者獨立評估,如遇分歧,咨詢第3名研究人員。
1.5 統計學分析
本研究從AUC與準確度2個方面評價納入的文獻。若預測模型在不同時間段多次預測,將采用均數報告指標,評估模型綜合情況。
2 結果
2.1 文獻篩選流程及結果
初檢出2 813篇文獻,經過逐層篩查,最終納入20個研究[10-30],文獻篩選過程見圖1。

2.2 納入研究的基本特征和偏倚風險評價結果
納入研究的基本特征見表1,納入研究的偏倚評價結果見圖2。20篇文獻均報告了模型預測的準確性,14篇文獻[11,14-20,22-23,25,27-28,30]記錄了AUC。11篇[14-16,18-19,21-23,26-29]來自開源數據庫,9篇[10-13,17,20,24-25]來自回顧性研究,2篇[20,30,30,]進行了外部驗證。有15篇[10-11,14,16-18,20-27,30]文獻直接預測OHCA后神經系統結局、4篇[19,28-30]預測OHCA后進行TTM的神經系統預后。在最終納入的20篇研究中,均使用了腦功能分類量表(cerebral performance category scales,CPC)作為結局指標之一,有5篇[11,16,18,26-27]以生存率為結局指標之一,有1篇[25]以腦鈉肽預測神經系統結局。ML方面,共采用了7種算法,其中使用頻率最高的為神經網絡(n=5),其次為支持向量機和隨機森林(n=4);見圖3。納入的預測模型中共有50個輸入特征,使用頻次最高的輸入特征為年齡(n=19,38%),其次為初始心率(n=17,34%)和性別(n=13,26%);見圖4。共有4篇文獻[14-15,26,30]比較了ML與其它經典統計學模型的預測價值,且ML模型的AUC值普遍高于經典統計學模型。



NN:神經網絡;RF:隨機森林;SVM:支持向量機;XGB:極限梯度提升;CART:分類與回歸樹;DL:深度學習

CPR:心臟復蘇術
選用QUADAS-2標準[9]評估納入文獻的偏倚風險,在Review Manager 5.2中繪制偏倚風險圖;見圖2。在“病例選擇”領域,每篇文獻均有明確的納入和排除標準,但有些文獻的病例排除過程不透明;在“待評價的診斷試驗”領域,每篇文獻均有明確的結局指標,但有些文獻沒有制定閾值;在“金標準”領域,每篇文獻均報告了預測模型的準確度,但只有少部分文獻進行了外部驗證;在“流程和診斷與金標準的時間間隔”領域,尚無權威文獻明確提出適當的時間間隔為多久,在納入的文獻中多以1個月為時間間隔,以患者出院后1個月的CPC值作為結局指標之一,有些研究還在出院后3個月再次隨訪評估患者CPC值。因此,總體而言,本次研究納入的20篇文獻偏倚風險較低。
2.3 機器學習模型表現
在納入的文獻中,患者突發OHCA后接受了不同的治療方式,ML模型根據不同情況預測患者神經系統結局。因此,本研究將從患者是否接受TTM治療的視角出發,從模型的準確性和AUC角度評價模型的臨床價值。
2.3.1 ML用于TTM治療后的預測
共有4篇文獻[19,28-30]利用ML預測TTM治療后患者的神經系統預后情況,均來自開源數據庫,其中有2篇文獻[19,29]報道了模型的準確性,分別為90.78%、100%;有4篇文獻[15,19,28,30]報告了AUC值,分別為0.90、0.911、0.95和0.90。Kim等[19]將單一的模型進行組合后,開發了一款序貫模型。該模型利用分類與回歸樹算法從腦部CT、血清神經元特異性烯醇化酶、電生理檢查情況、神經功能檢查情況和腦部增強核磁共振圖片5個方面預測神經系統結局,發現其預測效果比單一模型更好。Pareek等[15]開發了一款名為“MIRACLE2”的預測模型。該模型有7個獨立因素:無人目擊發生OHCA、最初的非休克性節律、瞳孔無反應、高齡、心律改變、pH值<7.20、使用腎上腺素。在患者入院時使用該模型,能簡單方便地預測OHCA術后早期不良神經預后的風險。
2.3.2 ML用于常規治療后的預測
共有15篇文獻[10-12,14,16-18,20-27]利用ML預測常規治療后神經系統預后情況,其中有8篇[11,14,16,18,21-23,26]來自開源數據庫,7篇[10,12,17,20,24-25,27]來自醫院回顧性收集患者數據。有8篇[12,16-17,20,22,24,26-27]報道了準確性,為78%~100%。有12篇[10-12,14,16-18,20-23,25]報道了AUC值,為0.797~0.950。Cheong等[26]利用邏輯回歸對比了基礎生命支持(basic life support,BLS)與高級生命支持(advanced life support,ALS)之間的差異。Dutta等[25]以血清中腦鈉肽水平預測患者神經系統預后;Heo等[20]運用隨機森林、支持向量機、神經網絡和極限梯度提升4種算法,測得內部驗證準確度為0.9620,AUC為0.9800;外部驗證準確度為0.8509,AUC為0.9301。Park等[14]運用邏輯回歸、極限梯度提升、支持向量機、隨機森林和神經網絡5種算法,比較得出邏輯回歸、極限梯度提升和神經網絡3個模型均顯示出最高的分辨能力,AUC為0.949。且3個模型均經過良好校正,極限梯度提升模型優于邏輯回歸模型,而神經網絡模型優于邏輯回歸模型。Pérez-Castellanos等[12]運用邏輯回歸算法,在多家醫院間進行了內部與外部驗證,測得內部驗證特異性0.846,AUC為0.90,外部驗證的特異性為0.786,AUC為0.82。Shih等[10]研究的數據來自國內中國醫科大學附屬醫院,具有本土特征,測得AUC為0.8213。
2.4 機器學習算法與其它經典算法的比較
有4個研究[12,14-15,26]將不同算法進行對比;見圖5。其中ML算法包括極限梯度提升、支持向量機、隨機森林和神經網絡。經典模型有邏輯回歸、OHCA預后評分表、醫院心臟驟停預后評分表和TTM風險模型等[31]。Cheong等[26]比較了不同研究中BLS、ALS終止復蘇試驗的特點,發現均具有較高的特異性,但該研究沒有報道AUC值。Pareek等[15]將MIRACLE2與OHCA預后評分表、醫院心臟驟停預后評分表和TTM風險模型進行對比,發現OHCA預后評分表、醫院心臟驟停預后評分表和TTM風險模型AUC均低于MIRACLE2,中位AUC分別為0.83(0.818,0.840),校正為0.797(P<0.001);0.87(0.860,0.870)(P=0.001);0.88(0.876,0.887)(P=0.092)。Pérez-Castellanos等[12]比較了適用于心臟驟停患者預后評估的不同預測模型,發現許多模型沒有經過外部驗證,在推廣沒有經過外部驗證的模型時應小心。除了考慮模型的預測能力外,還應該考慮其在臨床中的易用性。Pérez-Castellanos團隊發明了一個公式,只要通過簡單計算分數就能達到預測結果,適用于ICU高強度的工作環境。預測模型包括5個變量:休克節律、年齡、乳酸水平、恢復自發性循環所需時間和糖尿病。內部驗證時敏感性為0.796,特異性為0.846,假陽性率為0.125,AUC為0.90;在外部驗證時,預測模型的敏感性為0.735,特異性為0.786,AUC為0.82。

a:準確度比較;b:AUC比較;NN:神經網絡;LR:邏輯回歸;GRACE:全球急性冠狀動脈事件登記處;C-GRApH:目標溫度管理治療后神經系統預后;AUC:曲線下面積;BLS:基礎生命支持;ALS:高級生命支持;TTM:目標體溫管理;OHCA:院外心臟驟停
3 討論
本系統評價納入了20個研究,分別報告了ML預測OHCA后TTM治療后神經系統結局與常規治療后神經系統結局的準確性和AUC。在數據來源方面,9篇研究是來自醫院的病歷數據庫,有11篇來自各個國家與地區的開源數據庫。在特征層面,研究者使用頻率最高的變量是年齡、搶救時初始心率、性別。在眾多ML算法中,使用頻率最高的是神經網絡。神經網絡是一種模擬人體神經系統結構的數學模型,它由多個神經元組成,每個神經元代表一種數學關系,各個神經元之間通過函數關系間的權重鏈接,可用于輸入量與結果之間的相關性,廣泛應用于醫學影像的診斷試驗[32]。與傳統算法相比,ML能更高效地處理大量且復雜的數據,提高了模型預測的效率與準確性[33]。通過ML,以CPC評分作為結局指標,預測神經系統預后情況,CPC評分<2表明神經系統功能良好,使用ML預測OHCA患者神經系統預后的準確度更高。能合理分配醫療資源,患者得到及時有效的治療,CPC評分<2的患者增多。
此外,與既往研究不同,本次系統評價還發現,雖然邏輯回歸、極限梯度提升和神經網絡3個模型均顯示出最高的分辨能力且3個模型均經過良好校正,但極限梯度提升和神經網絡模型優于邏輯回歸模型。OHCA的預后與多種因素有關,傳統預測模型,因計算能力有限,只能選用個別因素進行預測,而ML可以利用人工智能納入多個因素[34],如Seki等[11]用隨機森林的算法開發預測模型,輸入特征為35個變量時,AUC為0.943;輸入特征為53個變量時,AUC為0.958,認為輸入特征的數量與預測的準確性呈正相關關系。
人工智能和ML的商業應用近年來取得了顯著的進展,特別是在圖像識別、自然語音處理、語言翻譯、文本分析和自學習等領域[35]。然而醫學領域與其它領域不同,因為醫學的特殊性,對ML的準確性要求更高[36]。大數據時代下,臨床數據呈現出數據量大、更新周期短的特點[37]。ML模型在選擇特征時,可以先通過正則化系數(least absolute shrinkage and selection operator,LASSO)回歸、嶺回歸和彈性網絡、聚類分析方法[K均值聚類、PAM(partitioning around medoids)法、層次聚類]、主成分分析等方法篩查變量,提高算法的準確率和使用效率[38]。但這些辦法只能從單個變量的角度篩查,忽略了各變量之間的交互作用與實際的臨床意義。在ML快速發展的近10年,其弊端也不斷顯現,其中討論最多的是“黑盒效應”[39],即雖然ML能利用計算機及大數據,驗算大量數據,且算法的準確性、AUC值高于傳統算法,但臨床不僅需要運算的結果,還需要知道各個變量之間的關系、對結果影響的權重、如何正確解釋結果、如何準確運用于具體實踐中,在這些方面ML不如真人判斷。ML無法做到創新、不能個性化分析臨床數據、做不到舉一反三。雖然近年來,人工智能與可視化技術交互發展,這在一定程度上提高了ML的可解釋性,但這項技術還不成熟[40]。另外,ML還存在一個令人擔憂的問題,即數據安全問題[41]。若模型后臺遭到惡意攻擊,患者及其家屬的隱私會被泄漏,對他們的生活造成困擾。
本研究的局限性:① 影響神經系統預后的一個重要因素是OHCA患者是否在第一時間接受心肺復蘇。在納入分析的研究中,對此記錄存在很多的差異:一部分研究完整記錄了患者接受心肺復蘇的情況,而一部分研究完全沒有提及此方面的內容;② 假陽性率是反映預測模型準確性的重要指標,但本次納入的20篇文獻中,只有4篇(20%)完整報告了假陽性率。沒有計算假陽性率會增加AUC值計算出現偏倚的風險;③ 外部驗證是驗證預測模型準確性的重要途徑,但本次納入的20個研究中只有3篇(15%)報告了外部驗證,缺少外部驗證降低了模型的外推性;④ 本次研究進行的偏移風險評估中缺少發表偏倚與結果偏倚評估。
現今有許多團隊制作了OHCA患者進行TTM治療后的預測模型,在OHCA預后預測模型上進行了細化,這增加了模型的準確性,也更適用于接受TTM治療的患者[42]。但針對其它治療手段的結果預測模型較少,希望在未來能有針對其它治療手段的結果預測模型。綜上所述,ML 在預測 OHCA患者神經系統預后結局方面有很大的潛力,ML 的整體性能優于傳統統計學模型,它強大的計算能力與極高的準確性能指導臨床工作。但還需強化模型的外部驗證與可解釋性,增強外推性。
利益沖突:無。
作者貢獻:鄭萍負責論文設計,數據整理與分析,論文初稿撰寫;劉寧負責論文審閱與修改。
院外心臟驟停(out-of-hospital cardiac arrest,OHCA)是一種常見的公共健康安全負擔疾病。全球成人OHCA每年的發病率約為95.9/100 000。歐洲因來源不同,每年發病率為16/100 000~119/100 000[1]。我國OHCA發病人數居全球之首,每年有38萬例[2]。隨著醫療水平不斷進步,眾多新技術被應用于OHCA患者的早期搶救與中后期治療,如公共場所除顫方案、醫療優先調度系統、目標體溫管理(target temperature management,TTM)、體外膜肺氧合,這些舉措提高了OHCA患者存活率,改善了神經系統結局。但近30年世界各個地區的OHCA總體預后與神經系統結局較差[3],因此預測OHCA后神經系統結局研究得到重視。隨著大數據及智慧醫療不斷發展與完善,患者、醫務人員、醫療機構、醫療器械間數據共享的大數據醫療庫逐步完善,形成了以患者為中心的信息化和智能化醫療服務平臺[4]。由此,醫務人員能獲得OHCA患者各個階段的臨床數據,使預測患者的神經系統結局成為可能。在預測模型方面,臨床上多使用傳統預測評分表或經典統計學算法,如傳統OHCA評分、心臟驟停醫院預后評分、TTM評分和邏輯回歸模型。但都存在共同的問題:第一,預測準確性不高,有誤報的風險;第二,這些模型不適用于患者復雜的病情變化[5]。這些問題限制了預測模型的應用。
機器學習(machine learning,ML)能學習和分析海量數據,通過使用算法與數據“訓練機器”達到自主預測[6]。近年來,大數據技術配合醫院信息化系統,成功實現了數據可視化分析、算法挖掘,完成數據增值。與使用選定變量再進行計算的傳統預測模型不同,ML可以利用計算機輕松地合并大量變量,提高預測的準確性[7]。隨著ML的迅速發展,相關研究成果對臨床決策具有較高的指導價值。基于此,本研究將系統評價近10年ML用于預測OHCA后神經系統結局的文獻,歸納并分析模型的算法和臨床特征。同時基于受試者工作特征曲線下面積(area under the receiver operating characteristic curve,AUC)與預測準確度,比較ML與其它經典算法之間的差異。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 近10年ML用于預測OHCA后神經系統的研究;② 研究對象為OHCA患者;③ 文中清晰描述ML模型的AUC與準確度;④ 患者符合我國2019年版心臟驟停診斷標準[8]。
1.1.2 排除標準
① 未提供明確的數據來源或者使用虛擬數據;② 未說明具體ML算法;③ 動物實驗;④ 會議摘要、綜述類文獻;⑤ 無法獲取全文。
1.2 文獻檢索策略
計算機檢索PubMed、Web of Science、EMbase、中國知網、萬方數據庫。搜集關于ML用于OHCA后神經系統結果預測的研究,檢索時限從2011年1月1日—2021年11月24日。中文檢索詞為:人工智能、機器學習、院外心臟驟停、預測模型、神經系統;英文檢索詞:artificial intelligence、machine learning、out-of-hospital cardiac arrest、predictive modeling、nervous system。
1.3 文獻篩選與資料提取
由2名研究者獨立篩選文獻、提取資料,如有分歧,咨詢第3名研究人員。文獻篩選時根據題目與摘要,排除不相關文獻。選擇是否進一步閱讀全文,以決定是否納入。文獻內容不全的,與作者進行電子郵件溝通。資料提取內容為:① 第一作者與發表年份;② 樣本量;③ 運用的算法;④ 數據來源;⑤ 結局指標;⑥ 模型準確度與AUC;⑦ 用于偏倚風險評價的關鍵要素;⑧ 預測因子。
1.4 納入文獻的偏倚風險評估
目前尚無專門評估ML類文獻偏倚風險的工具,因此,本文參考以往研究,選用QUADAS-2標準[9]評估納入文獻的偏倚分險。該標準是診斷試驗中的偏倚評估工具,它包括4個方面:納入的患者、待評價試驗、金標準、診斷過程和試驗與金標準之間時間間隔。由2名研究者獨立評估,如遇分歧,咨詢第3名研究人員。
1.5 統計學分析
本研究從AUC與準確度2個方面評價納入的文獻。若預測模型在不同時間段多次預測,將采用均數報告指標,評估模型綜合情況。
2 結果
2.1 文獻篩選流程及結果
初檢出2 813篇文獻,經過逐層篩查,最終納入20個研究[10-30],文獻篩選過程見圖1。

2.2 納入研究的基本特征和偏倚風險評價結果
納入研究的基本特征見表1,納入研究的偏倚評價結果見圖2。20篇文獻均報告了模型預測的準確性,14篇文獻[11,14-20,22-23,25,27-28,30]記錄了AUC。11篇[14-16,18-19,21-23,26-29]來自開源數據庫,9篇[10-13,17,20,24-25]來自回顧性研究,2篇[20,30,30,]進行了外部驗證。有15篇[10-11,14,16-18,20-27,30]文獻直接預測OHCA后神經系統結局、4篇[19,28-30]預測OHCA后進行TTM的神經系統預后。在最終納入的20篇研究中,均使用了腦功能分類量表(cerebral performance category scales,CPC)作為結局指標之一,有5篇[11,16,18,26-27]以生存率為結局指標之一,有1篇[25]以腦鈉肽預測神經系統結局。ML方面,共采用了7種算法,其中使用頻率最高的為神經網絡(n=5),其次為支持向量機和隨機森林(n=4);見圖3。納入的預測模型中共有50個輸入特征,使用頻次最高的輸入特征為年齡(n=19,38%),其次為初始心率(n=17,34%)和性別(n=13,26%);見圖4。共有4篇文獻[14-15,26,30]比較了ML與其它經典統計學模型的預測價值,且ML模型的AUC值普遍高于經典統計學模型。



NN:神經網絡;RF:隨機森林;SVM:支持向量機;XGB:極限梯度提升;CART:分類與回歸樹;DL:深度學習

CPR:心臟復蘇術
選用QUADAS-2標準[9]評估納入文獻的偏倚風險,在Review Manager 5.2中繪制偏倚風險圖;見圖2。在“病例選擇”領域,每篇文獻均有明確的納入和排除標準,但有些文獻的病例排除過程不透明;在“待評價的診斷試驗”領域,每篇文獻均有明確的結局指標,但有些文獻沒有制定閾值;在“金標準”領域,每篇文獻均報告了預測模型的準確度,但只有少部分文獻進行了外部驗證;在“流程和診斷與金標準的時間間隔”領域,尚無權威文獻明確提出適當的時間間隔為多久,在納入的文獻中多以1個月為時間間隔,以患者出院后1個月的CPC值作為結局指標之一,有些研究還在出院后3個月再次隨訪評估患者CPC值。因此,總體而言,本次研究納入的20篇文獻偏倚風險較低。
2.3 機器學習模型表現
在納入的文獻中,患者突發OHCA后接受了不同的治療方式,ML模型根據不同情況預測患者神經系統結局。因此,本研究將從患者是否接受TTM治療的視角出發,從模型的準確性和AUC角度評價模型的臨床價值。
2.3.1 ML用于TTM治療后的預測
共有4篇文獻[19,28-30]利用ML預測TTM治療后患者的神經系統預后情況,均來自開源數據庫,其中有2篇文獻[19,29]報道了模型的準確性,分別為90.78%、100%;有4篇文獻[15,19,28,30]報告了AUC值,分別為0.90、0.911、0.95和0.90。Kim等[19]將單一的模型進行組合后,開發了一款序貫模型。該模型利用分類與回歸樹算法從腦部CT、血清神經元特異性烯醇化酶、電生理檢查情況、神經功能檢查情況和腦部增強核磁共振圖片5個方面預測神經系統結局,發現其預測效果比單一模型更好。Pareek等[15]開發了一款名為“MIRACLE2”的預測模型。該模型有7個獨立因素:無人目擊發生OHCA、最初的非休克性節律、瞳孔無反應、高齡、心律改變、pH值<7.20、使用腎上腺素。在患者入院時使用該模型,能簡單方便地預測OHCA術后早期不良神經預后的風險。
2.3.2 ML用于常規治療后的預測
共有15篇文獻[10-12,14,16-18,20-27]利用ML預測常規治療后神經系統預后情況,其中有8篇[11,14,16,18,21-23,26]來自開源數據庫,7篇[10,12,17,20,24-25,27]來自醫院回顧性收集患者數據。有8篇[12,16-17,20,22,24,26-27]報道了準確性,為78%~100%。有12篇[10-12,14,16-18,20-23,25]報道了AUC值,為0.797~0.950。Cheong等[26]利用邏輯回歸對比了基礎生命支持(basic life support,BLS)與高級生命支持(advanced life support,ALS)之間的差異。Dutta等[25]以血清中腦鈉肽水平預測患者神經系統預后;Heo等[20]運用隨機森林、支持向量機、神經網絡和極限梯度提升4種算法,測得內部驗證準確度為0.9620,AUC為0.9800;外部驗證準確度為0.8509,AUC為0.9301。Park等[14]運用邏輯回歸、極限梯度提升、支持向量機、隨機森林和神經網絡5種算法,比較得出邏輯回歸、極限梯度提升和神經網絡3個模型均顯示出最高的分辨能力,AUC為0.949。且3個模型均經過良好校正,極限梯度提升模型優于邏輯回歸模型,而神經網絡模型優于邏輯回歸模型。Pérez-Castellanos等[12]運用邏輯回歸算法,在多家醫院間進行了內部與外部驗證,測得內部驗證特異性0.846,AUC為0.90,外部驗證的特異性為0.786,AUC為0.82。Shih等[10]研究的數據來自國內中國醫科大學附屬醫院,具有本土特征,測得AUC為0.8213。
2.4 機器學習算法與其它經典算法的比較
有4個研究[12,14-15,26]將不同算法進行對比;見圖5。其中ML算法包括極限梯度提升、支持向量機、隨機森林和神經網絡。經典模型有邏輯回歸、OHCA預后評分表、醫院心臟驟停預后評分表和TTM風險模型等[31]。Cheong等[26]比較了不同研究中BLS、ALS終止復蘇試驗的特點,發現均具有較高的特異性,但該研究沒有報道AUC值。Pareek等[15]將MIRACLE2與OHCA預后評分表、醫院心臟驟停預后評分表和TTM風險模型進行對比,發現OHCA預后評分表、醫院心臟驟停預后評分表和TTM風險模型AUC均低于MIRACLE2,中位AUC分別為0.83(0.818,0.840),校正為0.797(P<0.001);0.87(0.860,0.870)(P=0.001);0.88(0.876,0.887)(P=0.092)。Pérez-Castellanos等[12]比較了適用于心臟驟停患者預后評估的不同預測模型,發現許多模型沒有經過外部驗證,在推廣沒有經過外部驗證的模型時應小心。除了考慮模型的預測能力外,還應該考慮其在臨床中的易用性。Pérez-Castellanos團隊發明了一個公式,只要通過簡單計算分數就能達到預測結果,適用于ICU高強度的工作環境。預測模型包括5個變量:休克節律、年齡、乳酸水平、恢復自發性循環所需時間和糖尿病。內部驗證時敏感性為0.796,特異性為0.846,假陽性率為0.125,AUC為0.90;在外部驗證時,預測模型的敏感性為0.735,特異性為0.786,AUC為0.82。

a:準確度比較;b:AUC比較;NN:神經網絡;LR:邏輯回歸;GRACE:全球急性冠狀動脈事件登記處;C-GRApH:目標溫度管理治療后神經系統預后;AUC:曲線下面積;BLS:基礎生命支持;ALS:高級生命支持;TTM:目標體溫管理;OHCA:院外心臟驟停
3 討論
本系統評價納入了20個研究,分別報告了ML預測OHCA后TTM治療后神經系統結局與常規治療后神經系統結局的準確性和AUC。在數據來源方面,9篇研究是來自醫院的病歷數據庫,有11篇來自各個國家與地區的開源數據庫。在特征層面,研究者使用頻率最高的變量是年齡、搶救時初始心率、性別。在眾多ML算法中,使用頻率最高的是神經網絡。神經網絡是一種模擬人體神經系統結構的數學模型,它由多個神經元組成,每個神經元代表一種數學關系,各個神經元之間通過函數關系間的權重鏈接,可用于輸入量與結果之間的相關性,廣泛應用于醫學影像的診斷試驗[32]。與傳統算法相比,ML能更高效地處理大量且復雜的數據,提高了模型預測的效率與準確性[33]。通過ML,以CPC評分作為結局指標,預測神經系統預后情況,CPC評分<2表明神經系統功能良好,使用ML預測OHCA患者神經系統預后的準確度更高。能合理分配醫療資源,患者得到及時有效的治療,CPC評分<2的患者增多。
此外,與既往研究不同,本次系統評價還發現,雖然邏輯回歸、極限梯度提升和神經網絡3個模型均顯示出最高的分辨能力且3個模型均經過良好校正,但極限梯度提升和神經網絡模型優于邏輯回歸模型。OHCA的預后與多種因素有關,傳統預測模型,因計算能力有限,只能選用個別因素進行預測,而ML可以利用人工智能納入多個因素[34],如Seki等[11]用隨機森林的算法開發預測模型,輸入特征為35個變量時,AUC為0.943;輸入特征為53個變量時,AUC為0.958,認為輸入特征的數量與預測的準確性呈正相關關系。
人工智能和ML的商業應用近年來取得了顯著的進展,特別是在圖像識別、自然語音處理、語言翻譯、文本分析和自學習等領域[35]。然而醫學領域與其它領域不同,因為醫學的特殊性,對ML的準確性要求更高[36]。大數據時代下,臨床數據呈現出數據量大、更新周期短的特點[37]。ML模型在選擇特征時,可以先通過正則化系數(least absolute shrinkage and selection operator,LASSO)回歸、嶺回歸和彈性網絡、聚類分析方法[K均值聚類、PAM(partitioning around medoids)法、層次聚類]、主成分分析等方法篩查變量,提高算法的準確率和使用效率[38]。但這些辦法只能從單個變量的角度篩查,忽略了各變量之間的交互作用與實際的臨床意義。在ML快速發展的近10年,其弊端也不斷顯現,其中討論最多的是“黑盒效應”[39],即雖然ML能利用計算機及大數據,驗算大量數據,且算法的準確性、AUC值高于傳統算法,但臨床不僅需要運算的結果,還需要知道各個變量之間的關系、對結果影響的權重、如何正確解釋結果、如何準確運用于具體實踐中,在這些方面ML不如真人判斷。ML無法做到創新、不能個性化分析臨床數據、做不到舉一反三。雖然近年來,人工智能與可視化技術交互發展,這在一定程度上提高了ML的可解釋性,但這項技術還不成熟[40]。另外,ML還存在一個令人擔憂的問題,即數據安全問題[41]。若模型后臺遭到惡意攻擊,患者及其家屬的隱私會被泄漏,對他們的生活造成困擾。
本研究的局限性:① 影響神經系統預后的一個重要因素是OHCA患者是否在第一時間接受心肺復蘇。在納入分析的研究中,對此記錄存在很多的差異:一部分研究完整記錄了患者接受心肺復蘇的情況,而一部分研究完全沒有提及此方面的內容;② 假陽性率是反映預測模型準確性的重要指標,但本次納入的20篇文獻中,只有4篇(20%)完整報告了假陽性率。沒有計算假陽性率會增加AUC值計算出現偏倚的風險;③ 外部驗證是驗證預測模型準確性的重要途徑,但本次納入的20個研究中只有3篇(15%)報告了外部驗證,缺少外部驗證降低了模型的外推性;④ 本次研究進行的偏移風險評估中缺少發表偏倚與結果偏倚評估。
現今有許多團隊制作了OHCA患者進行TTM治療后的預測模型,在OHCA預后預測模型上進行了細化,這增加了模型的準確性,也更適用于接受TTM治療的患者[42]。但針對其它治療手段的結果預測模型較少,希望在未來能有針對其它治療手段的結果預測模型。綜上所述,ML 在預測 OHCA患者神經系統預后結局方面有很大的潛力,ML 的整體性能優于傳統統計學模型,它強大的計算能力與極高的準確性能指導臨床工作。但還需強化模型的外部驗證與可解釋性,增強外推性。
利益沖突:無。
作者貢獻:鄭萍負責論文設計,數據整理與分析,論文初稿撰寫;劉寧負責論文審閱與修改。