引用本文: 吳秋碩, 陸宗慶, 劉瑜, 許耀華, 張金, 肖文艷, 楊旻. 機器學習應用于心臟驟停早期預測模型的系統評價. 中國循證醫學雜志, 2021, 21(8): 942-952. doi: 10.7507/1672-2531.202103082 復制
心臟驟停(cardiac arrest,CA)是一種常見的全球性公共健康安全負擔疾病。據 2020 年美國心臟協會(American Heart Association,AHA)心肺復蘇指南報道,在美國每年有超過 347 000 成人發生院外 CA,而院內 CA 的發生率更高達 9.7/1 000[1]。在我國,每年有約 54.4 萬人發生 CA,已接近發達國家水平,并呈逐年增長趨勢[2]。隨著相關研究的不斷深入,一系列新的技術手段與治療理念被使用到 CA 臨床治療中,如目標體溫管理技術與復蘇后腦保護,并在降低 CA 患者死亡率方面取得了長足進步。但目前總體而言,CA 患者的預后仍不容樂觀。相較于 CA 發生后的救治與康復措施,早期識別與預測 CA 的發生可能讓患者的受益更加顯著,因此研究者們日益重視 CA 的早期預警研究。隨著電子病歷(electronic health records,EHRs)的不斷發展與普及,涵蓋了患者急診、住院甚至是社區醫療信息的大數據庫正在建立[3]。通過 EHRs,醫務人員可迅速地獲取到大量不同時段的臨床相關資料,進而使得 CA 的早期預測成為可能。在此方面,臨床中常用的多是一些早期預警評分表,以及通過傳統邏輯回歸(logistic regression,LR)、COX 比例風險模型計算患者發生 CA 的相關風險因素及其概率[4, 5]。但上述幾種方法都面臨著共同的問題,首先是預測精度較低且存在誤報的風險。在臨床環境中,準確性是評價算法優劣最為重要的指標,較高的誤報發生率將會導致醫療資源的浪費甚至會引發過度治療。其次,上述大多數算法只能對某一特定時刻展開預測,而非根據病情變化進行實時預測,因此極大地限制了預測模型的臨床應用。
機器學習(machine learning,ML)作為人工智能學習方法的一個重要分支,可對海量數據的輸入特征進行分析,自主學習并做出推斷與預測。其一個重要特性是使用大量的算法與數據來“訓練”機器[6]。近年來,計算機與大數據技術的進步極大地擴展了 ML 的適用范疇,且臨床中每天所產生的大量結構化與非結構化數據十分適合 ML 的應用[7]。通過 ML 的不斷訓練,研究人員及臨床醫生可對復雜且動態的臨床資料進行選擇并探尋出其與預后之間的相關性,進而有望提高疾病預警的準確度,實現早期預防和改善患者生存率的目標。此外,ML 的發展迅速,近年的研究成果對臨床實踐具有更好的指導價值。鑒于此,本研究系統評價近年來 ML 在 CA 發生早期預警中的應用,統計和分析用于模型構建的各種算法和臨床特征。同時基于受試者工作特征曲線下面積(area under the receiver operating characteristic curves,AUC)與診斷準確度,探究機器學習與其他經典算法的預測表現差異。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
近年 ML 用于 CA 預測的研究。
1.1.2 研究對象
有 CA 風險的患者。
1.1.3 納入標準
① 年齡≥18 歲;② 采用 ML 進行 CA 預測;③ 考慮到惡性心率失常的發生與 CA 有密切的關系,例如室顫與室性心動過速,本次系統評價同樣納入預測惡性心率失常的研究。
1.1.4 排除標準
① 使用虛擬數據,或未標明數據來源;② 兒童 CA 預測;③ 文中未指明具體算法;④ 數據來源為動物實驗;⑤ 會議摘要、缺乏全文或非中、英文文獻。
1.1.5 結局指標
ML 模型的 AUC 與準確度。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、WanFang Data 和 CNKI 數據庫,搜集關于 ML 用于 CA 預測的研究,檢索時限均從 2015 年 1 月至 2021 年 2 月。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻[8]。檢索采取主題詞和自由詞相結合的方式。中文檢索詞包括:人工智能、機器學習、心臟驟停、心室顫動、預測模型、早期預警;英文檢索詞包括:artificial intelligence、machine learning、cardiac arrest、ventricular fibrillation、prediction model、early-warning。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容主要包括:① 第一作者、發表年份;② 數據集的大小;③ 具體算法;④ 目標疾病;⑤ 輸入的特征參數;⑥ 目標人群和數據集來源;⑦ 模型預測性能;⑧ 偏倚風險評價的關鍵要素。
1.4 納入研究的偏倚風險評價
由于目前并未開發出特定的清單評估 ML 類文章的偏倚風險,且所有的研究都評估了 ML 對于 CA 診斷的準確性,因而本文參考以往研究報道使用診斷試驗偏倚風險評價的 QUADAS-2 標準對所有納入研究進行偏倚風險評價,評估包括 4 個方面,分別為病例選擇、待評價試驗、金標準、病例流程和進展情況[9]。由 2 名研究者分別進行偏倚風險評價,如遇分歧,則咨詢第三方協助判斷。
1.5 統計分析
本次研究從 AUC 及準確性 2 個方面對所納入的各個模型進行評價,所需注意的是,由于關于 CA 的預測大多采用不同時段分段預測,故在模型表現報告部分會標明模型在不同時間段所對應的指標,如遇此種情況,本研究將以均數形式報告模型指標,進而得到模型的綜合表現。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻 2 807 篇,經逐層篩選后,最終納入 38 個研究[10-47]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征和偏倚風險評價結果
納入研究的基本特征見表 1,納入研究的偏倚風險評價結果見圖 2。13 個研究[10-20, 22, 23]報道了模型的準確性,29 個研究[12, 17-19, 24-30, 48]報道了 AUC。而在數據來源方面,13 個研究[10-13, 15, 16, 19-23, 32, 41]數據來源于開源數據庫,25 個研究[14, 24-31, 33, 34, 48]回顧性收集了患者資料,同時 2 個研究[39, 40]使用了不同醫院數據對所開發模型進行了外部驗證。大多數研究在住院病房中開展(n=20,52.6%),其次是急診(n=6,15.8%)與 ICU(n=4,10.5%)。在最終納入的 38 個研究中,大部分研究結局指標為預測心臟驟停的發生(n=29,60%)[12, 14, 17-19, 21-45],3 個研究預測了惡性心律失常的發生,例如室性心動過速(n=2,12.8%)[15, 33]與心室電風暴(n=1,2.6%)[18],此外有 9 個研究(25.6%)對心源性猝死的發生進行了預測[10-13, 15, 16, 20, 21, 46]。


在機器學習算法種類方面,38 個研究共采用了 51 種模型,其中人工神經網絡(artificial neural network,ANN)的出現頻率最高,為 11 次(21.6%),其次為隨機森林(random forest,RF)(n=9,17.4%)、支持向量機(support vector machine,SVM)(n=5,9.8%)和深度學習(deep learning,DL)(n=5,9.8%)(圖 3)。模型中輸入的特征包含有心電圖參數(electrocardiogram,ECG)、心率變異率、生理參數(性別、年齡、體重指數)、生命體征(如收縮壓、舒張壓、心率、呼吸頻率、脈壓差、尿量、氧飽和指數等)、實驗室檢查(如血糖、血鈉、血鉀、乳酸、陰離子間隙、血尿素氮等)、心超檢查參數、相關病史(如致命性心律失常史、心衰史、心肌肥厚病史、暈厥史等)、服用藥物史、患者主訴及各項疾病嚴重評分(如 SOFA、VitalPAC 預警評分、killip 分級等),共計 61 個。在上述各個模型輸入特征中,采用最多的為心電圖參數(n=20,51.3%),其次分別為年齡(n=12,30.8%)、心率變異率(n=10,25.6%)、心率(n=10,25.6%)(圖 4)。

ANN:人工神經網絡;DL:深度學習;DT:決策樹;KNN:k 近鄰分類算法;LR:邏輯回歸;RF:隨機森林;SVM:支持向量機。

2.3 機器學習模型表現
由于納入研究所設定的預測目標及其采用的評價指標不同,本研究將從心臟驟停預測、相關惡性心率失常預測與心源性猝死預測 3 個方面,分別采用準確性及 AUC 對模型的預測價值進行評價。
2.3.1 機器學習用于心臟驟停的預測
共有 21 個研究[17, 22, 23, 27-41, 43, 44, 47]采用 ML 進行心臟驟停的預測,預測時間從 CA 發生前 5 分鐘至 1 年,納入人群包含肥厚性心肌病患者、心衰患者、Brugada 綜合征患者、急性冠脈綜合征患者、膿毒癥患者及術后患者。其中有 3 個研究[17, 22, 23]報道了模型的準確性,準確性大小從 75% 到 97%,中位數為 87.5%(IQR:78.5%~93%)。共有 20 個研究[17, 23, 27-41, 43, 44, 47]報道了 AUC 值(0.61~0.96),中位數為 0.86(IQR:0.82~0.94)。Frolov、Taye 及 Bhattacharya 等的研究將 CA 與室性心動過速同時作為預測目標[14, 19, 25],其準確性從 72% 到 94%,AUC 值從 0.71 到 0.99。與此同時,Cadrin-Tourigny 與 Oliver 等則將 CA 與心源性猝死同時作為預測目標[26, 45],模型的 AUC 值從 0.77 到 0.91。
2.3.2 機器學習用于心源性猝死的預測
共有 9 個研究[10-13, 15, 16, 20, 21, 46]采用機器學習進行心源性猝死的預測,預測時間從心源性猝死發生前 1 分鐘至 5 年,數據來源為 Sudden Cardiac Death Holter 數據庫、MITBIH 數據和肥厚性心肌病患者。其中 6 個研究[10-13, 15, 20]報道了模型的準確性,準確性大小從 87% 到 96%,中位數為 93.5%(IQR:90%~95.5%)。共有 3 個研究[12, 21, 46]報道了 AUC 值(0.81~0.95)。
2.3.3 機器學習用于 CA 相關惡性心律失常預測
共有 3 個研究[18, 24, 42]分別采用 4 種模型對 CA 相關惡性心律失常的發生進行了預測,并報告了預測模型的 AUC 與準確度。Shakibfar 等[18]的研究基于 19 935 例植入心律轉復除顫器患者的 ECG 參數,分別采用 RF 預測患者發生心室電風暴的風險,并對模型進行了內部驗證。結果表明模型的準確性為 96%,AUC 值為 0.80。Au-Yeung 等[24]則基于 788 例心衰患者的心率變異率數據,采用 RF 與 SVM 兩個模型于室性心動過速發生前 5 分鐘至 10 秒對其進行預測,AUC 結果顯示上述模型在發生前 5 分鐘與前 10 秒均有較好的表現(RF:前 5 min 的 AUC 為 0.81,前 10 s 的 AUC 為 0.88;SVM:前 5 min 的 AUC 為 0.81,前 10 s 的 AUC 為 0.87)。在 2016 年,Lee 等[42]開發了一種 ANN 旨在提前 1 小時預測住院患者室性心動過速的發生,ANN 由單個隱藏層組成,并包含 13 個神經元,其基于 104 例患者的 14 個心率變異率與呼吸頻率變異率參數開發而成,并進行了內部驗證,結果表明該模型在室性心動過速發生前 1 小時預測的 AUC 值達到 0.93。
2.4 機器學習算法與其他經典算法的比較
共有 6 個研究[18, 23, 33, 35, 36, 40]比較了 ML 與其他經典統計學算法的預測性能(圖 5),其包含有 LR 模型、COX 比例風險模型與早期預警評分系統。首先,在預測 CA 方面,有 5 個研究[23, 33, 35, 36, 40]比較了 ML 模型與 LR 模型,2 個研究[35, 40]對比了 ML 模型與早期預警評分系統,1 個研究[36]對比了 ML 模型與 COX 比例風險模型。Hong 等[33]的一個基于 214307 例急診患者數據的研究表明,使用 RF 或 ANN 模型進行預測的 AUC 均大于 LR 模型(AUC:RF 0.97,ANN 0.95,LR 0.92),且 P 值均小于 0.001。Jang 等[35]的研究也表明 ML 模型更加適用于急診患者的 CA 預測。該研究分別構建了多層感知器(multilayer perceptron,MLP)、長短期記憶(long-short-term memory,LSTM)與混合(hybrid)三種神經網絡模型,同時對比了 RF、LR 與早期預警評分系統,但文中未報道 P 值,僅報告三種 ANN 與 RF 模型的 AUC 值(MLP 0.929,LSTM 0.933,Hybird 0.936,RF 0.923,LR 0.914,EWS 0.886)均高于經典 LR 與早期預警評分系統。Kwon 等收集了 2 家醫院共 52 131 例住院患者的 EHRs[40],開發了一種基于 DL 算法的新型心臟驟停早期預警評分系統,并將其與 RF、LR 和其他早期預警評分系統進行比較,結果表明該新型預警評分系統 AUC 值最大(AUC:DL-EWS 0.84,RF 0.82,LR 0.78,EWS 0.78),且當每個患者各小時的平均報警次數控制在 0 到 0.5 之間時,該模型的敏感性均大于 LR。Jeffery 等[36]的研究結果也與之相同。但值得注意的是,在王之等[23]的研究中,無論是基于 ECG 參數還是心率變異率所開發的 LR 模型,其預測表現均為最佳,AUC 值分別達到 0.995 與 0.886,同時準確性分別為 96.5 與 83.3。其次,在預測 CA 相關惡性心律失常方面,有 1 個研究[18]基于植入心律轉復除顫器患者的 ECG 記錄信號,比較了 ML 與 LR 在預測心室電風暴上的表現,結果表明所采用的 RF 算法要明顯優于 LR(AUC:0.80 vs. 0.75,P<0.05)。

(A)AUR 比較,(B)準確性比較;ANN:人工神經網絡;DL:深度學習;DT:決策樹;KNN:k 近鄰分類算法;LR:邏輯回歸;RF:隨機森林;SVM:支持向量機;BPNN:前饋性神經網絡;ECG:心電圖;HRV:心率變異率。
3 討論
本系統評價納入了 38 個研究,分別報告了 ML 對 CA、心源性猝死和 CA 相關性心律失常的早期預測模型的 AUC 和準確性。在數據來源方面,大多數研究是利用住院患者的 EHRs 數據開展,有 13 個使用了開源數據庫的數據,其中 MITBIH 數據庫出現頻次最高。在特征層面,我們發現研究者使用了多種變量來預測 CA,包括 ECG 參數、心率變異率、實驗室檢查和生命體征等。對于患者的 ECG 信號,多先采用濾波器,如巴特沃斯濾波器或移動平均濾波器進行降噪處理以消除呼吸頻率及電源頻率干擾,隨后消除基線漂移,最后對 ECG 特征進行提取。而在 ML 分類器模型方面 ANN 使用頻次最高,ANN 是一種模擬自然神經元的數學模型,可由單層或多層組成,每一層包含若干個神經元,其中每一個神經元代表一種特定的輸入函數,各神經元之間通過可變權重的有向弧連接。ANN 通過對已有數據的反復學習,不斷調整神經元之間的連接權重,進而探究輸入與輸出之間的相關性,相較于傳統的統計學模型,其在處理大量且結構復雜的模糊數據、隨機性數據及非線性數據方面具有獨特的優勢,被廣泛用于醫學中影像圖像的輔助識別診斷及文本數據處理。但本系統評價發現,ANN 模型在預測 CA 方面的表現并不一致,在 Jang 等[35]的研究中,不同 ANN 模型的 AUC 均高于 LR、樹模型及早期預警評分系統,但在 Hong 和王之等[23, 33]的研究中,使用相同的輸入特征,ANN 的表現卻弱于 LR 和樹模型,考慮到不同模型所使用的數據集及結構不同,ANN 對于數據文本的處理效能仍需后續研究加以驗證。
經過數 10 年的發展,ML 已被廣泛應用于生物信息學、流行病學研究,并逐步在臨床醫學中展現活力。但相較以往,臨床數據有自己獨特之處,例如它的復雜性與時間演化性。在進行 ML 模型特征選擇時,我們可通過卡方系數、最大信息系數、遞歸消除法等來去除一些無關變量,亦可通過相關性濾波器、主成分分析、RF 等方法對數據進行降維處理,進而優化模型結構與運算速度。但在大多數情況下,上述判斷僅僅依據統計學效應量,往往會忽略不同臨床變量之間的相關性及各變量的臨床實際意義,在這方面尤其凸顯出交叉學科的重要性。其次,隨著 ML 的進展,一系列集成算法與強化學習表現出很高的性能,但對模型的臨床解釋愈發顯得困難,即所謂的“黑盒效應”。當處理臨床數據或對預后進行預測時,臨床醫生不單單需要知道模型輸出,更需要知道危險因素有哪些、各自所占權重是多少、如何對輸出加以正確的解釋以及如何指導臨床實踐,因而不能片面追求準確性高而忽略了臨床實際意義。早期一些可視化工具可很方便地展現出模型的處理過程,比如說決策樹、列線圖、網頁評分系統,但這些工具往往只適用于某些特定模型。近年來,對于某些集成樹模型如 XGBoost,我們逐步用 SHAP 方法取代了以往基于重要性的特征排序,讓模型的解釋更加合理。在此后一段時間中,合理解釋臨床 ML 模型與開發更多可解釋模型依舊是大數據時代臨床工作者與科研人員需關注的焦點,亦是推動臨床 ML 模型不斷發展與完善的關鍵。
本研究存在的局限性:① 影響模型預測 CA 精度的一個重要因素是預測起始時間。但所納入研究的預測時間差異十分大,長則為 CA 發生前一年,短則為發生前數秒,同時眾多研究將預測時間進行分段,并提供了不同時段模型的表現。而在本次系統評價中,我們采用均數對同一模型不同時段的預測結果進行統計,以大致展示該模型的平均表現,但此方法必將導致偏倚的增加及準確度的降低,同時降低了研究結果的外推性;② 評估一個預警模型很重要的指標是誤報率,即假陽性率,較高的假陽性率會嚴重影響模型的實際使用造成不必要的資源浪費,但本次所納入的 38 個研究中僅有一個研究報道了在不同時段敏感性下模型的真實報警次數,部分研究(31.6%)甚至并未報道假陽性率。因此假陽性率的報告缺乏可能會導致 AUC 結果的偏倚;③ 不同研究的發表偏倚與結果偏倚亦值得我們關注,因為較好的 ML 模型研究和結果測量可能會更多地被發表或報道。
綜上所述,ML 在預測 CA 方面有很大的潛力,在一些特定情況中 ML 的性能優于傳統統計學模型,其強大的表現可幫助臨床醫生及早做出決策與處理。但研究間的異質性限制了對結果的評估,上述結論尚待更多高質量研究予以驗證,同時加強模型的外部驗證并給予合理的解釋是未來的研究方向。
心臟驟停(cardiac arrest,CA)是一種常見的全球性公共健康安全負擔疾病。據 2020 年美國心臟協會(American Heart Association,AHA)心肺復蘇指南報道,在美國每年有超過 347 000 成人發生院外 CA,而院內 CA 的發生率更高達 9.7/1 000[1]。在我國,每年有約 54.4 萬人發生 CA,已接近發達國家水平,并呈逐年增長趨勢[2]。隨著相關研究的不斷深入,一系列新的技術手段與治療理念被使用到 CA 臨床治療中,如目標體溫管理技術與復蘇后腦保護,并在降低 CA 患者死亡率方面取得了長足進步。但目前總體而言,CA 患者的預后仍不容樂觀。相較于 CA 發生后的救治與康復措施,早期識別與預測 CA 的發生可能讓患者的受益更加顯著,因此研究者們日益重視 CA 的早期預警研究。隨著電子病歷(electronic health records,EHRs)的不斷發展與普及,涵蓋了患者急診、住院甚至是社區醫療信息的大數據庫正在建立[3]。通過 EHRs,醫務人員可迅速地獲取到大量不同時段的臨床相關資料,進而使得 CA 的早期預測成為可能。在此方面,臨床中常用的多是一些早期預警評分表,以及通過傳統邏輯回歸(logistic regression,LR)、COX 比例風險模型計算患者發生 CA 的相關風險因素及其概率[4, 5]。但上述幾種方法都面臨著共同的問題,首先是預測精度較低且存在誤報的風險。在臨床環境中,準確性是評價算法優劣最為重要的指標,較高的誤報發生率將會導致醫療資源的浪費甚至會引發過度治療。其次,上述大多數算法只能對某一特定時刻展開預測,而非根據病情變化進行實時預測,因此極大地限制了預測模型的臨床應用。
機器學習(machine learning,ML)作為人工智能學習方法的一個重要分支,可對海量數據的輸入特征進行分析,自主學習并做出推斷與預測。其一個重要特性是使用大量的算法與數據來“訓練”機器[6]。近年來,計算機與大數據技術的進步極大地擴展了 ML 的適用范疇,且臨床中每天所產生的大量結構化與非結構化數據十分適合 ML 的應用[7]。通過 ML 的不斷訓練,研究人員及臨床醫生可對復雜且動態的臨床資料進行選擇并探尋出其與預后之間的相關性,進而有望提高疾病預警的準確度,實現早期預防和改善患者生存率的目標。此外,ML 的發展迅速,近年的研究成果對臨床實踐具有更好的指導價值。鑒于此,本研究系統評價近年來 ML 在 CA 發生早期預警中的應用,統計和分析用于模型構建的各種算法和臨床特征。同時基于受試者工作特征曲線下面積(area under the receiver operating characteristic curves,AUC)與診斷準確度,探究機器學習與其他經典算法的預測表現差異。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
近年 ML 用于 CA 預測的研究。
1.1.2 研究對象
有 CA 風險的患者。
1.1.3 納入標準
① 年齡≥18 歲;② 采用 ML 進行 CA 預測;③ 考慮到惡性心率失常的發生與 CA 有密切的關系,例如室顫與室性心動過速,本次系統評價同樣納入預測惡性心率失常的研究。
1.1.4 排除標準
① 使用虛擬數據,或未標明數據來源;② 兒童 CA 預測;③ 文中未指明具體算法;④ 數據來源為動物實驗;⑤ 會議摘要、缺乏全文或非中、英文文獻。
1.1.5 結局指標
ML 模型的 AUC 與準確度。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、WanFang Data 和 CNKI 數據庫,搜集關于 ML 用于 CA 預測的研究,檢索時限均從 2015 年 1 月至 2021 年 2 月。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻[8]。檢索采取主題詞和自由詞相結合的方式。中文檢索詞包括:人工智能、機器學習、心臟驟停、心室顫動、預測模型、早期預警;英文檢索詞包括:artificial intelligence、machine learning、cardiac arrest、ventricular fibrillation、prediction model、early-warning。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷,缺乏的資料盡量與作者聯系予以補充。文獻篩選時首先閱讀文題和摘要,在排除明顯不相關的文獻后,進一步閱讀全文,以確定最終是否納入。資料提取內容主要包括:① 第一作者、發表年份;② 數據集的大小;③ 具體算法;④ 目標疾病;⑤ 輸入的特征參數;⑥ 目標人群和數據集來源;⑦ 模型預測性能;⑧ 偏倚風險評價的關鍵要素。
1.4 納入研究的偏倚風險評價
由于目前并未開發出特定的清單評估 ML 類文章的偏倚風險,且所有的研究都評估了 ML 對于 CA 診斷的準確性,因而本文參考以往研究報道使用診斷試驗偏倚風險評價的 QUADAS-2 標準對所有納入研究進行偏倚風險評價,評估包括 4 個方面,分別為病例選擇、待評價試驗、金標準、病例流程和進展情況[9]。由 2 名研究者分別進行偏倚風險評價,如遇分歧,則咨詢第三方協助判斷。
1.5 統計分析
本次研究從 AUC 及準確性 2 個方面對所納入的各個模型進行評價,所需注意的是,由于關于 CA 的預測大多采用不同時段分段預測,故在模型表現報告部分會標明模型在不同時間段所對應的指標,如遇此種情況,本研究將以均數形式報告模型指標,進而得到模型的綜合表現。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻 2 807 篇,經逐層篩選后,最終納入 38 個研究[10-47]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 納入研究的基本特征和偏倚風險評價結果
納入研究的基本特征見表 1,納入研究的偏倚風險評價結果見圖 2。13 個研究[10-20, 22, 23]報道了模型的準確性,29 個研究[12, 17-19, 24-30, 48]報道了 AUC。而在數據來源方面,13 個研究[10-13, 15, 16, 19-23, 32, 41]數據來源于開源數據庫,25 個研究[14, 24-31, 33, 34, 48]回顧性收集了患者資料,同時 2 個研究[39, 40]使用了不同醫院數據對所開發模型進行了外部驗證。大多數研究在住院病房中開展(n=20,52.6%),其次是急診(n=6,15.8%)與 ICU(n=4,10.5%)。在最終納入的 38 個研究中,大部分研究結局指標為預測心臟驟停的發生(n=29,60%)[12, 14, 17-19, 21-45],3 個研究預測了惡性心律失常的發生,例如室性心動過速(n=2,12.8%)[15, 33]與心室電風暴(n=1,2.6%)[18],此外有 9 個研究(25.6%)對心源性猝死的發生進行了預測[10-13, 15, 16, 20, 21, 46]。


在機器學習算法種類方面,38 個研究共采用了 51 種模型,其中人工神經網絡(artificial neural network,ANN)的出現頻率最高,為 11 次(21.6%),其次為隨機森林(random forest,RF)(n=9,17.4%)、支持向量機(support vector machine,SVM)(n=5,9.8%)和深度學習(deep learning,DL)(n=5,9.8%)(圖 3)。模型中輸入的特征包含有心電圖參數(electrocardiogram,ECG)、心率變異率、生理參數(性別、年齡、體重指數)、生命體征(如收縮壓、舒張壓、心率、呼吸頻率、脈壓差、尿量、氧飽和指數等)、實驗室檢查(如血糖、血鈉、血鉀、乳酸、陰離子間隙、血尿素氮等)、心超檢查參數、相關病史(如致命性心律失常史、心衰史、心肌肥厚病史、暈厥史等)、服用藥物史、患者主訴及各項疾病嚴重評分(如 SOFA、VitalPAC 預警評分、killip 分級等),共計 61 個。在上述各個模型輸入特征中,采用最多的為心電圖參數(n=20,51.3%),其次分別為年齡(n=12,30.8%)、心率變異率(n=10,25.6%)、心率(n=10,25.6%)(圖 4)。

ANN:人工神經網絡;DL:深度學習;DT:決策樹;KNN:k 近鄰分類算法;LR:邏輯回歸;RF:隨機森林;SVM:支持向量機。

2.3 機器學習模型表現
由于納入研究所設定的預測目標及其采用的評價指標不同,本研究將從心臟驟停預測、相關惡性心率失常預測與心源性猝死預測 3 個方面,分別采用準確性及 AUC 對模型的預測價值進行評價。
2.3.1 機器學習用于心臟驟停的預測
共有 21 個研究[17, 22, 23, 27-41, 43, 44, 47]采用 ML 進行心臟驟停的預測,預測時間從 CA 發生前 5 分鐘至 1 年,納入人群包含肥厚性心肌病患者、心衰患者、Brugada 綜合征患者、急性冠脈綜合征患者、膿毒癥患者及術后患者。其中有 3 個研究[17, 22, 23]報道了模型的準確性,準確性大小從 75% 到 97%,中位數為 87.5%(IQR:78.5%~93%)。共有 20 個研究[17, 23, 27-41, 43, 44, 47]報道了 AUC 值(0.61~0.96),中位數為 0.86(IQR:0.82~0.94)。Frolov、Taye 及 Bhattacharya 等的研究將 CA 與室性心動過速同時作為預測目標[14, 19, 25],其準確性從 72% 到 94%,AUC 值從 0.71 到 0.99。與此同時,Cadrin-Tourigny 與 Oliver 等則將 CA 與心源性猝死同時作為預測目標[26, 45],模型的 AUC 值從 0.77 到 0.91。
2.3.2 機器學習用于心源性猝死的預測
共有 9 個研究[10-13, 15, 16, 20, 21, 46]采用機器學習進行心源性猝死的預測,預測時間從心源性猝死發生前 1 分鐘至 5 年,數據來源為 Sudden Cardiac Death Holter 數據庫、MITBIH 數據和肥厚性心肌病患者。其中 6 個研究[10-13, 15, 20]報道了模型的準確性,準確性大小從 87% 到 96%,中位數為 93.5%(IQR:90%~95.5%)。共有 3 個研究[12, 21, 46]報道了 AUC 值(0.81~0.95)。
2.3.3 機器學習用于 CA 相關惡性心律失常預測
共有 3 個研究[18, 24, 42]分別采用 4 種模型對 CA 相關惡性心律失常的發生進行了預測,并報告了預測模型的 AUC 與準確度。Shakibfar 等[18]的研究基于 19 935 例植入心律轉復除顫器患者的 ECG 參數,分別采用 RF 預測患者發生心室電風暴的風險,并對模型進行了內部驗證。結果表明模型的準確性為 96%,AUC 值為 0.80。Au-Yeung 等[24]則基于 788 例心衰患者的心率變異率數據,采用 RF 與 SVM 兩個模型于室性心動過速發生前 5 分鐘至 10 秒對其進行預測,AUC 結果顯示上述模型在發生前 5 分鐘與前 10 秒均有較好的表現(RF:前 5 min 的 AUC 為 0.81,前 10 s 的 AUC 為 0.88;SVM:前 5 min 的 AUC 為 0.81,前 10 s 的 AUC 為 0.87)。在 2016 年,Lee 等[42]開發了一種 ANN 旨在提前 1 小時預測住院患者室性心動過速的發生,ANN 由單個隱藏層組成,并包含 13 個神經元,其基于 104 例患者的 14 個心率變異率與呼吸頻率變異率參數開發而成,并進行了內部驗證,結果表明該模型在室性心動過速發生前 1 小時預測的 AUC 值達到 0.93。
2.4 機器學習算法與其他經典算法的比較
共有 6 個研究[18, 23, 33, 35, 36, 40]比較了 ML 與其他經典統計學算法的預測性能(圖 5),其包含有 LR 模型、COX 比例風險模型與早期預警評分系統。首先,在預測 CA 方面,有 5 個研究[23, 33, 35, 36, 40]比較了 ML 模型與 LR 模型,2 個研究[35, 40]對比了 ML 模型與早期預警評分系統,1 個研究[36]對比了 ML 模型與 COX 比例風險模型。Hong 等[33]的一個基于 214307 例急診患者數據的研究表明,使用 RF 或 ANN 模型進行預測的 AUC 均大于 LR 模型(AUC:RF 0.97,ANN 0.95,LR 0.92),且 P 值均小于 0.001。Jang 等[35]的研究也表明 ML 模型更加適用于急診患者的 CA 預測。該研究分別構建了多層感知器(multilayer perceptron,MLP)、長短期記憶(long-short-term memory,LSTM)與混合(hybrid)三種神經網絡模型,同時對比了 RF、LR 與早期預警評分系統,但文中未報道 P 值,僅報告三種 ANN 與 RF 模型的 AUC 值(MLP 0.929,LSTM 0.933,Hybird 0.936,RF 0.923,LR 0.914,EWS 0.886)均高于經典 LR 與早期預警評分系統。Kwon 等收集了 2 家醫院共 52 131 例住院患者的 EHRs[40],開發了一種基于 DL 算法的新型心臟驟停早期預警評分系統,并將其與 RF、LR 和其他早期預警評分系統進行比較,結果表明該新型預警評分系統 AUC 值最大(AUC:DL-EWS 0.84,RF 0.82,LR 0.78,EWS 0.78),且當每個患者各小時的平均報警次數控制在 0 到 0.5 之間時,該模型的敏感性均大于 LR。Jeffery 等[36]的研究結果也與之相同。但值得注意的是,在王之等[23]的研究中,無論是基于 ECG 參數還是心率變異率所開發的 LR 模型,其預測表現均為最佳,AUC 值分別達到 0.995 與 0.886,同時準確性分別為 96.5 與 83.3。其次,在預測 CA 相關惡性心律失常方面,有 1 個研究[18]基于植入心律轉復除顫器患者的 ECG 記錄信號,比較了 ML 與 LR 在預測心室電風暴上的表現,結果表明所采用的 RF 算法要明顯優于 LR(AUC:0.80 vs. 0.75,P<0.05)。

(A)AUR 比較,(B)準確性比較;ANN:人工神經網絡;DL:深度學習;DT:決策樹;KNN:k 近鄰分類算法;LR:邏輯回歸;RF:隨機森林;SVM:支持向量機;BPNN:前饋性神經網絡;ECG:心電圖;HRV:心率變異率。
3 討論
本系統評價納入了 38 個研究,分別報告了 ML 對 CA、心源性猝死和 CA 相關性心律失常的早期預測模型的 AUC 和準確性。在數據來源方面,大多數研究是利用住院患者的 EHRs 數據開展,有 13 個使用了開源數據庫的數據,其中 MITBIH 數據庫出現頻次最高。在特征層面,我們發現研究者使用了多種變量來預測 CA,包括 ECG 參數、心率變異率、實驗室檢查和生命體征等。對于患者的 ECG 信號,多先采用濾波器,如巴特沃斯濾波器或移動平均濾波器進行降噪處理以消除呼吸頻率及電源頻率干擾,隨后消除基線漂移,最后對 ECG 特征進行提取。而在 ML 分類器模型方面 ANN 使用頻次最高,ANN 是一種模擬自然神經元的數學模型,可由單層或多層組成,每一層包含若干個神經元,其中每一個神經元代表一種特定的輸入函數,各神經元之間通過可變權重的有向弧連接。ANN 通過對已有數據的反復學習,不斷調整神經元之間的連接權重,進而探究輸入與輸出之間的相關性,相較于傳統的統計學模型,其在處理大量且結構復雜的模糊數據、隨機性數據及非線性數據方面具有獨特的優勢,被廣泛用于醫學中影像圖像的輔助識別診斷及文本數據處理。但本系統評價發現,ANN 模型在預測 CA 方面的表現并不一致,在 Jang 等[35]的研究中,不同 ANN 模型的 AUC 均高于 LR、樹模型及早期預警評分系統,但在 Hong 和王之等[23, 33]的研究中,使用相同的輸入特征,ANN 的表現卻弱于 LR 和樹模型,考慮到不同模型所使用的數據集及結構不同,ANN 對于數據文本的處理效能仍需后續研究加以驗證。
經過數 10 年的發展,ML 已被廣泛應用于生物信息學、流行病學研究,并逐步在臨床醫學中展現活力。但相較以往,臨床數據有自己獨特之處,例如它的復雜性與時間演化性。在進行 ML 模型特征選擇時,我們可通過卡方系數、最大信息系數、遞歸消除法等來去除一些無關變量,亦可通過相關性濾波器、主成分分析、RF 等方法對數據進行降維處理,進而優化模型結構與運算速度。但在大多數情況下,上述判斷僅僅依據統計學效應量,往往會忽略不同臨床變量之間的相關性及各變量的臨床實際意義,在這方面尤其凸顯出交叉學科的重要性。其次,隨著 ML 的進展,一系列集成算法與強化學習表現出很高的性能,但對模型的臨床解釋愈發顯得困難,即所謂的“黑盒效應”。當處理臨床數據或對預后進行預測時,臨床醫生不單單需要知道模型輸出,更需要知道危險因素有哪些、各自所占權重是多少、如何對輸出加以正確的解釋以及如何指導臨床實踐,因而不能片面追求準確性高而忽略了臨床實際意義。早期一些可視化工具可很方便地展現出模型的處理過程,比如說決策樹、列線圖、網頁評分系統,但這些工具往往只適用于某些特定模型。近年來,對于某些集成樹模型如 XGBoost,我們逐步用 SHAP 方法取代了以往基于重要性的特征排序,讓模型的解釋更加合理。在此后一段時間中,合理解釋臨床 ML 模型與開發更多可解釋模型依舊是大數據時代臨床工作者與科研人員需關注的焦點,亦是推動臨床 ML 模型不斷發展與完善的關鍵。
本研究存在的局限性:① 影響模型預測 CA 精度的一個重要因素是預測起始時間。但所納入研究的預測時間差異十分大,長則為 CA 發生前一年,短則為發生前數秒,同時眾多研究將預測時間進行分段,并提供了不同時段模型的表現。而在本次系統評價中,我們采用均數對同一模型不同時段的預測結果進行統計,以大致展示該模型的平均表現,但此方法必將導致偏倚的增加及準確度的降低,同時降低了研究結果的外推性;② 評估一個預警模型很重要的指標是誤報率,即假陽性率,較高的假陽性率會嚴重影響模型的實際使用造成不必要的資源浪費,但本次所納入的 38 個研究中僅有一個研究報道了在不同時段敏感性下模型的真實報警次數,部分研究(31.6%)甚至并未報道假陽性率。因此假陽性率的報告缺乏可能會導致 AUC 結果的偏倚;③ 不同研究的發表偏倚與結果偏倚亦值得我們關注,因為較好的 ML 模型研究和結果測量可能會更多地被發表或報道。
綜上所述,ML 在預測 CA 方面有很大的潛力,在一些特定情況中 ML 的性能優于傳統統計學模型,其強大的表現可幫助臨床醫生及早做出決策與處理。但研究間的異質性限制了對結果的評估,上述結論尚待更多高質量研究予以驗證,同時加強模型的外部驗證并給予合理的解釋是未來的研究方向。