引用本文: 雷諾揚帆, 童琪, 張譯文, 王政捷, 李濤, 潘帆, 錢永軍, 趙啟軍. 利用電子健康記錄分析心臟瓣膜疾病合并心房顫動的機器學習模型. 中國胸心血管外科臨床雜志, 2022, 29(8): 953-962. doi: 10.7507/1007-4848.202204048 復制
心房顫動(房顫)是最常見的心律失常之一,由于其高發病率和潛在的危害性,在全球范圍內越來越受到關注。據全球衛生統計,2017年全球共有304.6萬例新發房顫患者,2017年房顫的全球發病率估計403/100萬,相比于1997年的發病率高出31%,預計到2050年,房顫的負擔會增加60%[1]。現如今,房顫仍然是威脅人類健康的主要疾病之一。房顫是心房規則有序的電活動喪失,而代之以快速無序的顫動波。房顫早期可能呈現出無癥狀特點,即無癥狀房顫,它指的是發作性房顫的亞臨床無癥狀發作的發生和檢測。因此,房顫早期的檢出率可能比實際低[2]。房顫的主要危害是相關并發癥,如血栓栓塞導致腦梗死、肢體缺血等。無癥狀房顫的亞臨床無癥狀性可能使患者并未早期對房顫引起重視,導致在房顫無癥狀發作期間患者未能采取早期、及時的抗心律失常及抗凝治療。因此,房顫的早期診斷及干預對房顫治療的預后十分重要。
房顫的臨床類型包括陣發性房顫、持續性房顫、永久性房顫。臨床上對房顫診斷的金標準為普通心電圖或24 h動態心電圖。雖然普通心電圖常被用作心律失常的主要篩查工具,但是對于陣發性房顫患者,在房顫發生的間歇期可能未被及時檢出,導致房顫的實際檢出率偏低,這是普通心電圖的局限,此時需要24 h動態心電圖進一步檢測。雖然這一診斷手段會彌補部分不足,但會增加額外的檢查費用,并且長時間佩戴心電監測儀器所帶來的不適感會導致患者的依從性下降,影響診斷的準確性。因此,對房顫進行早期的預測、診斷以提高房顫的早期檢出率,及時干預治療,對改善患者的預后十分重要。
目前臨床上針對房顫發生的預測手段主要依靠一系列風險評分系統,包括FHS[3]、ARIC[4]、CHARGE-AF[5]、C2HEST[6]和HATCH[7]評分,其與房顫發生相關的風險因素包括年齡、性別、冠狀動脈(冠脈)疾病、高血壓、糖尿病、吸煙等[8]。但是以上風險評分系統有待進一步完善,要提高房顫發生風險預測的準確性,需要更多的與之有關的臨床變量引入到評分系統模型中,并且需要更多的臨床樣本加以驗證。近年來,機器學習作為一種大數據分析方法,在醫療健康領域被用來預測不良事件的發生上越來越受到親睞。機器學習是一種基于大數據分析的方法,可以在不事先指定關系的情況下識別變量之間潛在和復雜的相互作用[9]。目前,已有研究評估機器學習模型使用電子健康數據用以預測房顫的發生風險。Tiwari等[10]將機器學習模型應用于200多個最常見的健康記錄的特征變量,包括人口統計學和合并癥相關數據,推導出一個受試者工作特征曲線下面積(area under the curve/receiver operating characteristic,AUC/ROC)為0.79的模型,以在6個月的時間內檢測事件房顫, 這與非機器學習臨床房顫風險評分一致。此外,Sekelj等[11]在一項基于200多萬名初級保健患者的電子健康數據開發了一種機器學習模型,在驗證數據集中AUC值高達0.87,與傳統評分相比顯示出了更優異的預測性能。
被心臟影像檢查顯示出的心臟結構及血流動力血指標的異常與房顫發生有關。如心臟CT評估的左心房厚度這一指標已被證明與陣發性房顫向慢性房顫的過渡風險增加有關[12]。晚期釓增強心臟磁共振成像顯示的左心房纖維化已被證明與新發房顫有關[13]。然而,在心臟影像檢查數據中,尚未應用機器學習模型對房顫發生進行預測。臨床上房顫發生常與心臟瓣膜疾病相關,如風濕性二尖瓣疾病[14]。但其它瓣膜疾病如主動脈、三尖瓣疾病是否能作為房顫發生的預測風險因素尚未明確。瓣膜疾病的常用檢查手段為超聲心動圖。目前還沒有使用基于心臟瓣膜病患者心臟超聲的影像量化數據構建一種機器學習方法評估心臟瓣膜病患者發生房顫的風險。因此,我們開發了一個基于機器學習方法的房顫風險分析框架,以篩查心臟瓣膜病患者中發生房顫的高風險因素,推進臨床監測和干預[15]。此外,我們的模型可以對預測結果進行充分的解釋,揭示整體或個體層面可能存在的風險特征,將有助于指導臨床決策,并開辟有關房顫風險的進一步研究課題。
1 資料與方法
1.1 數據采集和特征處理
我們收集四川大學華西醫院及其分院心臟瓣膜疾病的患者電子健康記錄。患者納入標準:體表心臟超聲或食管超聲診斷為瓣膜性心臟病的患者。心臟瓣膜疾病包括主動脈瓣、肺動脈瓣、二尖瓣、三尖瓣狹窄和/或關閉不全。在這項研究中,心臟瓣膜性疾病合并房顫定義為患有瓣膜性心臟疾病的患者,并通過心電圖診斷為房顫。排除標準:以前有心臟瓣膜置換史或數據缺失的患者。缺失值超過5%的特征被排除在外。我們的研究最終排除了36個特征,患者的基線資料見表1。


1.2 整體框架
我們提出了一個房顫診斷和特征分析的框架;見圖1。包括4個過程:數據預處理、模型設計與集成、性能驗證和模型解釋。我們使用數據清洗、向量表示和數據增強的方法來獲得包含更多房顫樣本的訓練集。我們將這個訓練集與原始訓練集一起作為驗證和解釋的輸入。我們總共測試了包括經典的logistic回歸在內的7個模型。最后,為了提供詳細和可靠的臨床指導,我們選擇了兩個性能優異的模型來承載可解釋的算法。我們建立了由多個機器學習模型、數據增強算法和可解釋算法整合的房顫分析模型。

1.3 數據預處理
我們對電子健康記錄中的分類特征使用獨熱編碼。對二元分類特征,如吸煙、糖尿病和高血壓等,樣本具有該特征則編碼為1,否則為0。而多分類特征,如心臟功能分類,則被編碼為從1~4的數字。為了確保數據的高度準確性,我們沒有使用均值或KNN(K-Nearest Neighbor)填充法,而是選擇排除了有特征值缺失的樣本。
經過預處理的數據集包含1 740條記錄。我們采用了兩種方式來劃分數據。(1) 按照5折交叉驗證法將數據分為8∶2的訓練集和測試集,并保證兩組樣本中房顫與非房顫樣本的比例相同;(2) 將整個數據集隨機分為訓練集和測試集,比例固定為7∶3。我們用(1)來獲得模型預測性能,用(2)來進行可解釋性分析。
1.4 不平衡問題處理
由于瓣膜性心臟病患者的房顫發病率問題,房顫樣本約占樣本總數的34%。在分類預測中,模型會有關注多數類樣本的趨勢。使用模型的預測結果來分析房顫,需要提高模型對房顫的檢測率,為分析結果提供足夠的說服力。考慮到房顫誤分類的代價,我們在EE(easy ensemble)算法與SMOTE(synthetic minority oversampling technique)算法的基礎上引入SMOTEEN算法[16]。SMOTEEN算法利用過采樣和欠采樣的組合來解決少數類樣本的缺乏以及噪聲干擾的問題。
1.5 機器學習模型
針對結構化類型的數據,我們選擇了3種基于Bagging[17]或Boosting[18]方法的標準監督機器學習模型:隨機森林(random forest,RF)[19]、XGBoost[20]、LightGBM[21],和3種集成機器學習模型:Weight模型、Stack模型、Weight-Stack模型。標準機器學習模型是通過調用Python中的開源包得到的:Scikit-Learn 0.24.1版,XGBoost 1.4.2版,LightGBM 3.2.1版。在此基礎上,我們建立了結合Bagging和Boosting方法的集成模型,以達到更好的預測性能,并保持良好的可解釋性。此外,我們使用統計學中的經典logistic回歸模型作為性能參考。
Weight模型:預測概率由RF、XGBoost和LightGBM各自的F1分數加權融合,以獲得3種標準機器學習模型的聯合預測概率。
Stack模型:使用5折交叉驗證的兩級堆疊算法,將RF、XGBoost和LightGBM的預測結果作為輸入值,并在二級學習器中進行二次學習,以結合各標準機器學習模型的優勢。
Weight-Stack模型:根據F1分數,用Stack模型結合表現較好的標準機器學習模型重新進行加權,在保證檢出率的情況下增加對非房顫患者的關注程度。
1.6 模型可解釋性
機器學習模型通常在預測問題上有很好的表現,但在解釋預測結果方面表現不佳。例如,我們可以預測某例患者是否患有房顫,但我們無法知道患者身上的哪些特征對其最有影響,以及它們對預測結果起積極還是消極作用。
我們在模型中使用SHAP(Shapley Additive Explanations)算法,根據其加載的模型獲得所有患者的SHAP值,并對其進行匯總和平均,在群體和個體層面提供豐富的可解釋性:顯著特征、特征和結果之間的正/負相關,以及對個體患者實例的可視化解釋[22]。臨床管理人員可以將這些結果與通過醫學中的傳統統計方法所獲得的結果進行比較,以驗證結果或得到新的發現。
1.7 統計學分析
為了評估模型的性能,確保特征分析的可靠性,我們報告了模型的ROC曲線[23]。針對本研究的樣本比例,我們還報告了精確率-召回率(precision recall,PR)曲線,以更多地關注數量偏小的樣本[24]。
基于ROC和PR,我們報告每個模型的AUC/ROC和PR曲線下面積(area under the curve/precision recall,AUC/PR)[23,25]。對于發生房顫的相關分析,我們的一個重要任務是正確分類數據集中的房顫患者。我們還報告了敏感性(true positive rate,TPR)、特異性(true negative rate,TNR)、準確性、陽性預測值(positive predictive value,PPV)、陰性預測值(negative predictive value,NPV)和F1分數。
1.8 倫理審查與臨床試驗注冊
此研究經華西醫院倫理委員會批準,批準號:2018-301;并在中國臨床試驗注冊中心注冊,注冊號: ChiCTR1800019870。
2 結果
2.1 模型性能
圖1首先顯示了基于5折交叉驗證的經典logistic回歸、標準機器學習模型以及集成模型的AUC/ROC和AUC/PR。我們通過網格搜索法調整了標準機器學習模型的部分超參數。考慮到通用性,我們在Stack模型中僅使用了超參數中的最大迭代次數,且SMOTEEN算法只加載在Stack模型中。首先,所有使用機器學習方法的6種模型(AUC/ROC:87%~89.6%,AUC/PR:72.6%~78.6%)比統計學中的經典logistic回歸(AUC/ROC:86.2%,AUC/PR:71.8%)具有更高的AUC性能。其次,LightGBM和Weight-Stack模型在AUC方面的表現稍好。然而,ROC和PR曲線反映的是模型預測每個閾值的性能,并不代表模型整體性能。我們應該更加關注每個模型的最佳分類閾值點。
其次,表2還顯示了在95%置信區間下房顫檢測的模型性能指標。配備SMOTEEN的Stack模型在犧牲了部分特異性(TNR=78.4%)的情況下獲得了最高的房顫敏感性(TPR=85.6%)。另外,分別與具有最高敏感性和特異性的基準模型相比,Stack模型比XGBoost的敏感性高13.7%,特異性比logistic回歸低9.3%。其次,正如我們所設想的,Weight-Stack模型在保證房顫敏感性(TPR=84.3%)的同時,提高了對非房顫患者的關注程度(TNR=80.2%)。最后,使用Stack算法的集成模型具有最好的F1分數、敏感性和陰性預測值性能。基于這些結果,我們從標準的機器學習模型中選擇了XGBoost,從集成模型中選擇了Stack來進行SHAP可解釋性分析。

在通過5折交叉驗證獲得AUC/ROC指標后,我們按照機器學習中數據集常用的劃分準則,以7∶3的比例重新隨機劃分了整個數據集進行對比驗證。在此基礎上,我們繪制了ROC曲線以檢驗模型的性能;見圖2。我們發現,AUC/ROC對于5折交叉驗證和7∶3劃分數據集都顯示出相同的模式。此外,不同模型的ROC曲線也有相似的走勢。

2.2 模型可解釋性分析結果
圖3顯示了XGBoost和Stack模型在群體水平上的前20個特征貢獻情況。兩種模型都認為左心房內徑(left atrial diameter,LAD)、二尖瓣E峰流速(mitral valve E-peak flow velocity,Emv)和右心房內徑(right atrial diameter,RAD)是在預測房顫中排名靠前的重要特征,但在心功能分級和每搏輸出量(stroke volume,SV)的重要程度方面有不同意見。此外,XGBoost和Stack模型報告縮短分數(fractional shortening,FS)、升主動脈內徑、射血分數(ejection fraction,EF)、舒張末期容積、年齡和主動脈瓣流速等特征也發揮了重要影響(圖3a、3b)。

針對XGBoost采用樹狀解釋方法,Stack模型采用核狀解釋方法。相同解釋方法中,SHAP值越高代表該特征影響越大,但不同解釋方法之間,SHAP值不直接存在大小對比關系;a、b:預測中對模型影響最大的前20個特征,排名越靠前的特征越重要;c、d:模型中對房顫預測影響最大的前20個特征之間的相關性匯總圖。每個點是1例患者,從紅到藍的顏色表示該項特征相應的高值到低值。數字基線(SHAP值為0)左側的點代表對患有房顫做消極貢獻,而右側的點代表對患有房顫做積極貢獻,離基線越遠影響程度越大;LAD:左心房內徑;Emv:二尖瓣 E 峰流速;RAD:右心房內徑;SV:每搏輸出量;EDV:舒張期末容積;AAO:升主動脈內徑;EF:射血分數;FS:縮短分數;AV:主動脈瓣流速;LVD:左心室內徑;EDD:舒張期末直徑;ESV:收縮末期容積;IVS:室間隔厚度
根據SHAP相關匯總圖,XGBoost和Stack模型均認為LAD、Emv、RAD、心功能分級、年齡和膽固醇與房顫呈正相關,而SV、舒張末期容積、升主動脈內徑、EF、FS和主動脈瓣流速呈負相關(圖3c,3d)。基于在群體層面上獲得的發現,可進一步了解這兩個模型中的特征對單例患者的具體影響,以指導臨床管理人員對個體情況進行干預。
在整體的SHAP分析基礎上,我們可以在單個實例的層面對房顫預測做出解釋。如圖4a中的房顫患者,LAD、RAD增大(LAD=52.0 mm,RAD=42.0 mm),瓣膜處血流速度增加(Emv=2.3 m/s),血肌酐值上升到100.0 mmol/L,這些特征顯著增加了房顫幾率,而SV=92.0 mL緩解了幾率增加的趨勢,但模型仍認為患者有98%的房顫概率。 圖4b中患者LAD較正常(LAD=41.0 mm),瓣膜處血流速度較正常(Emv=1.2 m/s),這使患房顫的概率降低到2%。臨床管理人員可以靈活地選擇在整體和個體層面進行房顫分析。

SHAP算法計算出每個樣本的預期SHAP值,取其平均值作為單個實例的基準;圖中的每個特征被用作增加或減少基準值的驅動因素;紅色特征增加了患者患房顫的概率,而藍色特征則相反。此外,特征條的長度表示該特征的影響強度;a:1例瓣膜性房顫患者示例;b:1例無瓣膜型房顫患者示例
3 討論
這是第一個使用機器學習集成模型并應用解釋性方法分析房顫的框架。我們使用3種標準機器學習和3種集成機器學習方法構建分析框架,在標準機器學習和集成機器學習中分別選擇XGBoost和Stack模型作為診斷房顫的最佳表現模型,進一步進行可解釋分析。Stack模型因其出色的房顫檢出率和普適性而具有良好的臨床應用前景。此外,Stack模型比經典的logistic回歸模型有大幅度性能改進。最后,XGBoost和Stack模型都認為LAD、Emv、RAD和心功能分級是與房顫相關的重要特征。
XGBoost和Stack模型都顯示LAD與房顫有關。正如以前的研究[26]顯示,左心房容積隨著房顫進展表型的增加而增加。此外,另一項研究[27]顯示,左心房前后徑的增加對陣發性房顫的發生有促進作用。左心房大小增加表明左心房結構重塑以及心房纖維化[28-29]。LAD的擴張是新發房顫的一個獨立預測因素[30]。而在我們的研究中,LAD的大小也可以預測瓣膜性心臟病患者的房顫。同樣,RAD也被報道與房顫有關。RAD>87 mm被認為是導管消融術后房顫復發的預測因素[31]。心房大小的增加可能表明結構重構,這是房顫發生的基質。有研究[32]表明,RAD重構也參與了房顫的發展。左心房和右心房的擴張,表明結構重構是房顫的風險和預測因素。在瓣膜性心臟病中,心臟瓣膜功能障礙引起的血流動力學變化加重了心臟負荷,導致心肌重構,這可能成為房顫發生的潛在因素。
我們的研究發現,與房顫相關的另一個重要風險因素是心功能分級。在我們的研究中,心功能差成為房顫的高風險因素。心力衰竭被認為是房顫的一個危險因素,房顫患病率的增加與較高的心功能分級有關。在FHS(Framingham心臟研究)中,心力衰竭與較高的房顫風險有關。對于心力衰竭患者,與神經激素和促炎癥激活有關的機制可能會誘發心肌炎癥和纖維化,這將造成心力衰竭和房顫之間的緊密聯系[33]。
與傳統統計學方法相比,我們的框架有3個優勢。首先,在處理多個特征之間的復雜關系方面,機器學習優于經典的logistic回歸,使用機器學習方法構建的框架在房顫診斷分析方面有更好的性能。其次,集成模型融合了多個標準機器學習模型的優點,在處理數據增強后的數據集方面仍可保留足夠的泛化性能,并有出色的房顫診斷性能。最后,SHAP算法彌補了目前機器學習解釋性差的問題,在不影響模型性能的前提下,為群體或個體的臨床干預提供了優秀的指導能力。
我們提出的房顫分析框架具有潛在的臨床意義。第一,我們的機器學習模型可以幫助醫生發現哪些沒有檢測到房顫的瓣膜性心臟病患者可能是房顫的高危人群,這部分患者應該延長心臟監測。也可以減少部分群體不必要的進一步醫療檢查,避免醫療資源的浪費。至于無癥狀性房顫,研究[34-36]表明,延長植入式心臟監測器的檢測時間會具有檢測以前未診斷房顫的優勢,并且與標準監測相比,房顫檢測率明顯提高。然而,長期植入式心臟監測的成本-效益受質疑。考慮到對所有瓣膜性心臟病患者用長時間的心臟監測進行檢測是不現實的, 因此,我們的研究可以為篩查瓣膜性心臟病患者中的房顫高危人群提供一種更具成本-效益的合適方法。第二,通過我們的機器學習方法可以檢測房顫以提供后續干預,推薦他們進行房顫的早期抗凝治療,預防卒中和血栓栓塞事件。第三,我們的模型所確定的一些有用的獨立預測因子可以幫助醫生更加關注其它臨床信息。例如,在我們的機器學習中,EF被認為是房顫的負面預測因素,根據我們的結論來看,較低的EF可能會提高房顫發生風險。因此,那些患有心力衰竭且EF值較低的患者將受到更多關注。改善EF值的藥物,如洋地黃,可降低瓣膜性心臟病和心力衰竭患者的房顫風險。此外,血液中的膽固醇和肌酐水平可能會增加瓣膜性心臟病患者的房顫風險。然而,血膽固醇、血肌酐水平和房顫風險之間的關系需要通過更多的臨床試驗來驗證。
我們進行的這項研究是一項回顧性研究,研究對象只涉及瓣膜性心臟病患者。所以我們只能對院內的瓣膜性心臟病患者進行相關分析。值得注意的是,我們的機器學習模型具有篩查高危房顫患者的優勢,可以建議他們接受必要的監測和預防卒中和血栓栓塞癥。與心電圖等房顫的金標準相比,我們的機器學習模型的優勢在于通過分析患者的電子健康記錄,包括病史記錄、生理數據以及體檢數據,來識別更多的房顫高危患者。此外,我們的機器學習模型可以幫助醫生制定合理、經濟的心電圖監測計劃,合理分配醫療資源。
我們根據容易獲得的瓣膜性心臟病患者的電子健康記錄數據,使用一系列有可解釋性的機器學習方法,展現其在預測房顫方面的優異性能。我們發現,標準機器學習模型和集成機器學習模型的表現都優于經典logistic回歸。相較傳統心電圖,我們對房顫的風險預測、風險因素分析從另一個角度提供了有意義的臨床指導。XGBoost、Stack模型可以為臨床醫生監測瓣膜性心臟病患者節省資源,而且準確、方便。我們的模型可以作為一個指導工具,篩選出高風險房顫患者,作為連續心電圖監測的最佳適用人群進行臨床干預。最后,我們需要外部驗證來進一步驗證該框架的實際功效。
利益沖突:無。
作者貢獻:錢永軍組織研究,收集數據,修改論文;趙啟軍設計、組織研究,修改論文;雷諾揚帆設計、執行研究,撰寫論文;童琪參與設計、執行研究,收集數據;張譯文收集、分析數據;王政捷收集、分析數據;潘帆設計、組織研究;李濤收集數據。
心房顫動(房顫)是最常見的心律失常之一,由于其高發病率和潛在的危害性,在全球范圍內越來越受到關注。據全球衛生統計,2017年全球共有304.6萬例新發房顫患者,2017年房顫的全球發病率估計403/100萬,相比于1997年的發病率高出31%,預計到2050年,房顫的負擔會增加60%[1]。現如今,房顫仍然是威脅人類健康的主要疾病之一。房顫是心房規則有序的電活動喪失,而代之以快速無序的顫動波。房顫早期可能呈現出無癥狀特點,即無癥狀房顫,它指的是發作性房顫的亞臨床無癥狀發作的發生和檢測。因此,房顫早期的檢出率可能比實際低[2]。房顫的主要危害是相關并發癥,如血栓栓塞導致腦梗死、肢體缺血等。無癥狀房顫的亞臨床無癥狀性可能使患者并未早期對房顫引起重視,導致在房顫無癥狀發作期間患者未能采取早期、及時的抗心律失常及抗凝治療。因此,房顫的早期診斷及干預對房顫治療的預后十分重要。
房顫的臨床類型包括陣發性房顫、持續性房顫、永久性房顫。臨床上對房顫診斷的金標準為普通心電圖或24 h動態心電圖。雖然普通心電圖常被用作心律失常的主要篩查工具,但是對于陣發性房顫患者,在房顫發生的間歇期可能未被及時檢出,導致房顫的實際檢出率偏低,這是普通心電圖的局限,此時需要24 h動態心電圖進一步檢測。雖然這一診斷手段會彌補部分不足,但會增加額外的檢查費用,并且長時間佩戴心電監測儀器所帶來的不適感會導致患者的依從性下降,影響診斷的準確性。因此,對房顫進行早期的預測、診斷以提高房顫的早期檢出率,及時干預治療,對改善患者的預后十分重要。
目前臨床上針對房顫發生的預測手段主要依靠一系列風險評分系統,包括FHS[3]、ARIC[4]、CHARGE-AF[5]、C2HEST[6]和HATCH[7]評分,其與房顫發生相關的風險因素包括年齡、性別、冠狀動脈(冠脈)疾病、高血壓、糖尿病、吸煙等[8]。但是以上風險評分系統有待進一步完善,要提高房顫發生風險預測的準確性,需要更多的與之有關的臨床變量引入到評分系統模型中,并且需要更多的臨床樣本加以驗證。近年來,機器學習作為一種大數據分析方法,在醫療健康領域被用來預測不良事件的發生上越來越受到親睞。機器學習是一種基于大數據分析的方法,可以在不事先指定關系的情況下識別變量之間潛在和復雜的相互作用[9]。目前,已有研究評估機器學習模型使用電子健康數據用以預測房顫的發生風險。Tiwari等[10]將機器學習模型應用于200多個最常見的健康記錄的特征變量,包括人口統計學和合并癥相關數據,推導出一個受試者工作特征曲線下面積(area under the curve/receiver operating characteristic,AUC/ROC)為0.79的模型,以在6個月的時間內檢測事件房顫, 這與非機器學習臨床房顫風險評分一致。此外,Sekelj等[11]在一項基于200多萬名初級保健患者的電子健康數據開發了一種機器學習模型,在驗證數據集中AUC值高達0.87,與傳統評分相比顯示出了更優異的預測性能。
被心臟影像檢查顯示出的心臟結構及血流動力血指標的異常與房顫發生有關。如心臟CT評估的左心房厚度這一指標已被證明與陣發性房顫向慢性房顫的過渡風險增加有關[12]。晚期釓增強心臟磁共振成像顯示的左心房纖維化已被證明與新發房顫有關[13]。然而,在心臟影像檢查數據中,尚未應用機器學習模型對房顫發生進行預測。臨床上房顫發生常與心臟瓣膜疾病相關,如風濕性二尖瓣疾病[14]。但其它瓣膜疾病如主動脈、三尖瓣疾病是否能作為房顫發生的預測風險因素尚未明確。瓣膜疾病的常用檢查手段為超聲心動圖。目前還沒有使用基于心臟瓣膜病患者心臟超聲的影像量化數據構建一種機器學習方法評估心臟瓣膜病患者發生房顫的風險。因此,我們開發了一個基于機器學習方法的房顫風險分析框架,以篩查心臟瓣膜病患者中發生房顫的高風險因素,推進臨床監測和干預[15]。此外,我們的模型可以對預測結果進行充分的解釋,揭示整體或個體層面可能存在的風險特征,將有助于指導臨床決策,并開辟有關房顫風險的進一步研究課題。
1 資料與方法
1.1 數據采集和特征處理
我們收集四川大學華西醫院及其分院心臟瓣膜疾病的患者電子健康記錄。患者納入標準:體表心臟超聲或食管超聲診斷為瓣膜性心臟病的患者。心臟瓣膜疾病包括主動脈瓣、肺動脈瓣、二尖瓣、三尖瓣狹窄和/或關閉不全。在這項研究中,心臟瓣膜性疾病合并房顫定義為患有瓣膜性心臟疾病的患者,并通過心電圖診斷為房顫。排除標準:以前有心臟瓣膜置換史或數據缺失的患者。缺失值超過5%的特征被排除在外。我們的研究最終排除了36個特征,患者的基線資料見表1。


1.2 整體框架
我們提出了一個房顫診斷和特征分析的框架;見圖1。包括4個過程:數據預處理、模型設計與集成、性能驗證和模型解釋。我們使用數據清洗、向量表示和數據增強的方法來獲得包含更多房顫樣本的訓練集。我們將這個訓練集與原始訓練集一起作為驗證和解釋的輸入。我們總共測試了包括經典的logistic回歸在內的7個模型。最后,為了提供詳細和可靠的臨床指導,我們選擇了兩個性能優異的模型來承載可解釋的算法。我們建立了由多個機器學習模型、數據增強算法和可解釋算法整合的房顫分析模型。

1.3 數據預處理
我們對電子健康記錄中的分類特征使用獨熱編碼。對二元分類特征,如吸煙、糖尿病和高血壓等,樣本具有該特征則編碼為1,否則為0。而多分類特征,如心臟功能分類,則被編碼為從1~4的數字。為了確保數據的高度準確性,我們沒有使用均值或KNN(K-Nearest Neighbor)填充法,而是選擇排除了有特征值缺失的樣本。
經過預處理的數據集包含1 740條記錄。我們采用了兩種方式來劃分數據。(1) 按照5折交叉驗證法將數據分為8∶2的訓練集和測試集,并保證兩組樣本中房顫與非房顫樣本的比例相同;(2) 將整個數據集隨機分為訓練集和測試集,比例固定為7∶3。我們用(1)來獲得模型預測性能,用(2)來進行可解釋性分析。
1.4 不平衡問題處理
由于瓣膜性心臟病患者的房顫發病率問題,房顫樣本約占樣本總數的34%。在分類預測中,模型會有關注多數類樣本的趨勢。使用模型的預測結果來分析房顫,需要提高模型對房顫的檢測率,為分析結果提供足夠的說服力。考慮到房顫誤分類的代價,我們在EE(easy ensemble)算法與SMOTE(synthetic minority oversampling technique)算法的基礎上引入SMOTEEN算法[16]。SMOTEEN算法利用過采樣和欠采樣的組合來解決少數類樣本的缺乏以及噪聲干擾的問題。
1.5 機器學習模型
針對結構化類型的數據,我們選擇了3種基于Bagging[17]或Boosting[18]方法的標準監督機器學習模型:隨機森林(random forest,RF)[19]、XGBoost[20]、LightGBM[21],和3種集成機器學習模型:Weight模型、Stack模型、Weight-Stack模型。標準機器學習模型是通過調用Python中的開源包得到的:Scikit-Learn 0.24.1版,XGBoost 1.4.2版,LightGBM 3.2.1版。在此基礎上,我們建立了結合Bagging和Boosting方法的集成模型,以達到更好的預測性能,并保持良好的可解釋性。此外,我們使用統計學中的經典logistic回歸模型作為性能參考。
Weight模型:預測概率由RF、XGBoost和LightGBM各自的F1分數加權融合,以獲得3種標準機器學習模型的聯合預測概率。
Stack模型:使用5折交叉驗證的兩級堆疊算法,將RF、XGBoost和LightGBM的預測結果作為輸入值,并在二級學習器中進行二次學習,以結合各標準機器學習模型的優勢。
Weight-Stack模型:根據F1分數,用Stack模型結合表現較好的標準機器學習模型重新進行加權,在保證檢出率的情況下增加對非房顫患者的關注程度。
1.6 模型可解釋性
機器學習模型通常在預測問題上有很好的表現,但在解釋預測結果方面表現不佳。例如,我們可以預測某例患者是否患有房顫,但我們無法知道患者身上的哪些特征對其最有影響,以及它們對預測結果起積極還是消極作用。
我們在模型中使用SHAP(Shapley Additive Explanations)算法,根據其加載的模型獲得所有患者的SHAP值,并對其進行匯總和平均,在群體和個體層面提供豐富的可解釋性:顯著特征、特征和結果之間的正/負相關,以及對個體患者實例的可視化解釋[22]。臨床管理人員可以將這些結果與通過醫學中的傳統統計方法所獲得的結果進行比較,以驗證結果或得到新的發現。
1.7 統計學分析
為了評估模型的性能,確保特征分析的可靠性,我們報告了模型的ROC曲線[23]。針對本研究的樣本比例,我們還報告了精確率-召回率(precision recall,PR)曲線,以更多地關注數量偏小的樣本[24]。
基于ROC和PR,我們報告每個模型的AUC/ROC和PR曲線下面積(area under the curve/precision recall,AUC/PR)[23,25]。對于發生房顫的相關分析,我們的一個重要任務是正確分類數據集中的房顫患者。我們還報告了敏感性(true positive rate,TPR)、特異性(true negative rate,TNR)、準確性、陽性預測值(positive predictive value,PPV)、陰性預測值(negative predictive value,NPV)和F1分數。
1.8 倫理審查與臨床試驗注冊
此研究經華西醫院倫理委員會批準,批準號:2018-301;并在中國臨床試驗注冊中心注冊,注冊號: ChiCTR1800019870。
2 結果
2.1 模型性能
圖1首先顯示了基于5折交叉驗證的經典logistic回歸、標準機器學習模型以及集成模型的AUC/ROC和AUC/PR。我們通過網格搜索法調整了標準機器學習模型的部分超參數。考慮到通用性,我們在Stack模型中僅使用了超參數中的最大迭代次數,且SMOTEEN算法只加載在Stack模型中。首先,所有使用機器學習方法的6種模型(AUC/ROC:87%~89.6%,AUC/PR:72.6%~78.6%)比統計學中的經典logistic回歸(AUC/ROC:86.2%,AUC/PR:71.8%)具有更高的AUC性能。其次,LightGBM和Weight-Stack模型在AUC方面的表現稍好。然而,ROC和PR曲線反映的是模型預測每個閾值的性能,并不代表模型整體性能。我們應該更加關注每個模型的最佳分類閾值點。
其次,表2還顯示了在95%置信區間下房顫檢測的模型性能指標。配備SMOTEEN的Stack模型在犧牲了部分特異性(TNR=78.4%)的情況下獲得了最高的房顫敏感性(TPR=85.6%)。另外,分別與具有最高敏感性和特異性的基準模型相比,Stack模型比XGBoost的敏感性高13.7%,特異性比logistic回歸低9.3%。其次,正如我們所設想的,Weight-Stack模型在保證房顫敏感性(TPR=84.3%)的同時,提高了對非房顫患者的關注程度(TNR=80.2%)。最后,使用Stack算法的集成模型具有最好的F1分數、敏感性和陰性預測值性能。基于這些結果,我們從標準的機器學習模型中選擇了XGBoost,從集成模型中選擇了Stack來進行SHAP可解釋性分析。

在通過5折交叉驗證獲得AUC/ROC指標后,我們按照機器學習中數據集常用的劃分準則,以7∶3的比例重新隨機劃分了整個數據集進行對比驗證。在此基礎上,我們繪制了ROC曲線以檢驗模型的性能;見圖2。我們發現,AUC/ROC對于5折交叉驗證和7∶3劃分數據集都顯示出相同的模式。此外,不同模型的ROC曲線也有相似的走勢。

2.2 模型可解釋性分析結果
圖3顯示了XGBoost和Stack模型在群體水平上的前20個特征貢獻情況。兩種模型都認為左心房內徑(left atrial diameter,LAD)、二尖瓣E峰流速(mitral valve E-peak flow velocity,Emv)和右心房內徑(right atrial diameter,RAD)是在預測房顫中排名靠前的重要特征,但在心功能分級和每搏輸出量(stroke volume,SV)的重要程度方面有不同意見。此外,XGBoost和Stack模型報告縮短分數(fractional shortening,FS)、升主動脈內徑、射血分數(ejection fraction,EF)、舒張末期容積、年齡和主動脈瓣流速等特征也發揮了重要影響(圖3a、3b)。

針對XGBoost采用樹狀解釋方法,Stack模型采用核狀解釋方法。相同解釋方法中,SHAP值越高代表該特征影響越大,但不同解釋方法之間,SHAP值不直接存在大小對比關系;a、b:預測中對模型影響最大的前20個特征,排名越靠前的特征越重要;c、d:模型中對房顫預測影響最大的前20個特征之間的相關性匯總圖。每個點是1例患者,從紅到藍的顏色表示該項特征相應的高值到低值。數字基線(SHAP值為0)左側的點代表對患有房顫做消極貢獻,而右側的點代表對患有房顫做積極貢獻,離基線越遠影響程度越大;LAD:左心房內徑;Emv:二尖瓣 E 峰流速;RAD:右心房內徑;SV:每搏輸出量;EDV:舒張期末容積;AAO:升主動脈內徑;EF:射血分數;FS:縮短分數;AV:主動脈瓣流速;LVD:左心室內徑;EDD:舒張期末直徑;ESV:收縮末期容積;IVS:室間隔厚度
根據SHAP相關匯總圖,XGBoost和Stack模型均認為LAD、Emv、RAD、心功能分級、年齡和膽固醇與房顫呈正相關,而SV、舒張末期容積、升主動脈內徑、EF、FS和主動脈瓣流速呈負相關(圖3c,3d)。基于在群體層面上獲得的發現,可進一步了解這兩個模型中的特征對單例患者的具體影響,以指導臨床管理人員對個體情況進行干預。
在整體的SHAP分析基礎上,我們可以在單個實例的層面對房顫預測做出解釋。如圖4a中的房顫患者,LAD、RAD增大(LAD=52.0 mm,RAD=42.0 mm),瓣膜處血流速度增加(Emv=2.3 m/s),血肌酐值上升到100.0 mmol/L,這些特征顯著增加了房顫幾率,而SV=92.0 mL緩解了幾率增加的趨勢,但模型仍認為患者有98%的房顫概率。 圖4b中患者LAD較正常(LAD=41.0 mm),瓣膜處血流速度較正常(Emv=1.2 m/s),這使患房顫的概率降低到2%。臨床管理人員可以靈活地選擇在整體和個體層面進行房顫分析。

SHAP算法計算出每個樣本的預期SHAP值,取其平均值作為單個實例的基準;圖中的每個特征被用作增加或減少基準值的驅動因素;紅色特征增加了患者患房顫的概率,而藍色特征則相反。此外,特征條的長度表示該特征的影響強度;a:1例瓣膜性房顫患者示例;b:1例無瓣膜型房顫患者示例
3 討論
這是第一個使用機器學習集成模型并應用解釋性方法分析房顫的框架。我們使用3種標準機器學習和3種集成機器學習方法構建分析框架,在標準機器學習和集成機器學習中分別選擇XGBoost和Stack模型作為診斷房顫的最佳表現模型,進一步進行可解釋分析。Stack模型因其出色的房顫檢出率和普適性而具有良好的臨床應用前景。此外,Stack模型比經典的logistic回歸模型有大幅度性能改進。最后,XGBoost和Stack模型都認為LAD、Emv、RAD和心功能分級是與房顫相關的重要特征。
XGBoost和Stack模型都顯示LAD與房顫有關。正如以前的研究[26]顯示,左心房容積隨著房顫進展表型的增加而增加。此外,另一項研究[27]顯示,左心房前后徑的增加對陣發性房顫的發生有促進作用。左心房大小增加表明左心房結構重塑以及心房纖維化[28-29]。LAD的擴張是新發房顫的一個獨立預測因素[30]。而在我們的研究中,LAD的大小也可以預測瓣膜性心臟病患者的房顫。同樣,RAD也被報道與房顫有關。RAD>87 mm被認為是導管消融術后房顫復發的預測因素[31]。心房大小的增加可能表明結構重構,這是房顫發生的基質。有研究[32]表明,RAD重構也參與了房顫的發展。左心房和右心房的擴張,表明結構重構是房顫的風險和預測因素。在瓣膜性心臟病中,心臟瓣膜功能障礙引起的血流動力學變化加重了心臟負荷,導致心肌重構,這可能成為房顫發生的潛在因素。
我們的研究發現,與房顫相關的另一個重要風險因素是心功能分級。在我們的研究中,心功能差成為房顫的高風險因素。心力衰竭被認為是房顫的一個危險因素,房顫患病率的增加與較高的心功能分級有關。在FHS(Framingham心臟研究)中,心力衰竭與較高的房顫風險有關。對于心力衰竭患者,與神經激素和促炎癥激活有關的機制可能會誘發心肌炎癥和纖維化,這將造成心力衰竭和房顫之間的緊密聯系[33]。
與傳統統計學方法相比,我們的框架有3個優勢。首先,在處理多個特征之間的復雜關系方面,機器學習優于經典的logistic回歸,使用機器學習方法構建的框架在房顫診斷分析方面有更好的性能。其次,集成模型融合了多個標準機器學習模型的優點,在處理數據增強后的數據集方面仍可保留足夠的泛化性能,并有出色的房顫診斷性能。最后,SHAP算法彌補了目前機器學習解釋性差的問題,在不影響模型性能的前提下,為群體或個體的臨床干預提供了優秀的指導能力。
我們提出的房顫分析框架具有潛在的臨床意義。第一,我們的機器學習模型可以幫助醫生發現哪些沒有檢測到房顫的瓣膜性心臟病患者可能是房顫的高危人群,這部分患者應該延長心臟監測。也可以減少部分群體不必要的進一步醫療檢查,避免醫療資源的浪費。至于無癥狀性房顫,研究[34-36]表明,延長植入式心臟監測器的檢測時間會具有檢測以前未診斷房顫的優勢,并且與標準監測相比,房顫檢測率明顯提高。然而,長期植入式心臟監測的成本-效益受質疑。考慮到對所有瓣膜性心臟病患者用長時間的心臟監測進行檢測是不現實的, 因此,我們的研究可以為篩查瓣膜性心臟病患者中的房顫高危人群提供一種更具成本-效益的合適方法。第二,通過我們的機器學習方法可以檢測房顫以提供后續干預,推薦他們進行房顫的早期抗凝治療,預防卒中和血栓栓塞事件。第三,我們的模型所確定的一些有用的獨立預測因子可以幫助醫生更加關注其它臨床信息。例如,在我們的機器學習中,EF被認為是房顫的負面預測因素,根據我們的結論來看,較低的EF可能會提高房顫發生風險。因此,那些患有心力衰竭且EF值較低的患者將受到更多關注。改善EF值的藥物,如洋地黃,可降低瓣膜性心臟病和心力衰竭患者的房顫風險。此外,血液中的膽固醇和肌酐水平可能會增加瓣膜性心臟病患者的房顫風險。然而,血膽固醇、血肌酐水平和房顫風險之間的關系需要通過更多的臨床試驗來驗證。
我們進行的這項研究是一項回顧性研究,研究對象只涉及瓣膜性心臟病患者。所以我們只能對院內的瓣膜性心臟病患者進行相關分析。值得注意的是,我們的機器學習模型具有篩查高危房顫患者的優勢,可以建議他們接受必要的監測和預防卒中和血栓栓塞癥。與心電圖等房顫的金標準相比,我們的機器學習模型的優勢在于通過分析患者的電子健康記錄,包括病史記錄、生理數據以及體檢數據,來識別更多的房顫高危患者。此外,我們的機器學習模型可以幫助醫生制定合理、經濟的心電圖監測計劃,合理分配醫療資源。
我們根據容易獲得的瓣膜性心臟病患者的電子健康記錄數據,使用一系列有可解釋性的機器學習方法,展現其在預測房顫方面的優異性能。我們發現,標準機器學習模型和集成機器學習模型的表現都優于經典logistic回歸。相較傳統心電圖,我們對房顫的風險預測、風險因素分析從另一個角度提供了有意義的臨床指導。XGBoost、Stack模型可以為臨床醫生監測瓣膜性心臟病患者節省資源,而且準確、方便。我們的模型可以作為一個指導工具,篩選出高風險房顫患者,作為連續心電圖監測的最佳適用人群進行臨床干預。最后,我們需要外部驗證來進一步驗證該框架的實際功效。
利益沖突:無。
作者貢獻:錢永軍組織研究,收集數據,修改論文;趙啟軍設計、組織研究,修改論文;雷諾揚帆設計、執行研究,撰寫論文;童琪參與設計、執行研究,收集數據;張譯文收集、分析數據;王政捷收集、分析數據;潘帆設計、組織研究;李濤收集數據。