引用本文: 張譯文, 王政捷, 雷諾揚帆, 童琪, 李濤, 潘帆, 錢永軍, 趙啟軍. 基于機器學習的瓣膜病心房顫動患者心臟血栓形成預測和特征分析. 中國胸心血管外科臨床雜志, 2022, 29(9): 1105-1112. doi: 10.7507/1007-4848.202204047 復制
心房顫動(房顫)是世界范圍內常見的心律失常,在普通人群中的患病率約為3%,隨年齡增長而增加(60~70歲人群約為4%;70~85歲人群超過10%),并因性別、種族和地區而異。血栓形成是房顫最嚴重的并發癥之一,很容易造成患者的殘疾和死亡[1]。房顫是卒中最重要的風險因素,僅次于高血壓,高血壓會使卒中風險增加4~5倍。由房顫引起的卒中占所有卒中的15%~20%,占心源性卒中的50%。準確、可重復、經濟的診斷技術有助于早期識別易發生血栓栓塞的人群,并指導臨床醫生進行早期抗血栓干預以預防血栓事件[2]。
近年來,機器學習(machine learning,ML)已被大量應用于醫學領域的各個方面[3]。盡管ML的黑匣子特性讓人們認為ML方法不可靠[4],然而隨著ML可解釋性理論的發展,許多理論被用來解釋驗證ML模型,并已經應用于包括醫學在內的需要高模型解釋性的各個領域[5-6]。Lundberg等[7]構建了ML系統,以幫助麻醉師提高對麻醉護理中低氧血癥風險的臨床理解。Sabov?ik等[8]使用多個ML分類器分別檢測左心室肥大(left ventricular hypertrophy,LVH)和左心室舒張功能障礙(left ventricular diastolic dysfunction,LVDD),并提供了從ML模型分析中獲得的前25個重要影響變量,供醫生參考。然而,到目前為止,還沒有研究應用ML方法來預測瓣膜病伴房顫患者血栓形成。
本文研究監督ML算法在心臟瓣膜病伴房顫患者心臟血栓形成預測和表征中的應用,使用5種ML方法建立預測模型,并在實驗驗證后選擇隨機森林模型作為表現最佳的模型,進而使用SHAP方法解釋該模型,通過解釋最佳模型來評估風險特征。
1 資料與方法
1.1 納入與排除標準
納入標準:符合瓣膜病伴房顫診斷標準的患者。診斷標準參考最新美國心臟病學會/美國心臟協會心臟病患者管理指南、歐洲心臟病學會房顫診斷和管理指南[9-10]。所有患者均接受超聲心動圖檢查,如超聲心動圖提示確切的瓣膜結構及功能異常,包括主動脈瓣狹窄/關閉不全、二尖瓣狹窄/關閉不全、三尖瓣狹窄/關閉不全、肺動脈瓣狹窄/關閉不全,則明確瓣膜疾病的診斷。所有患者均接受心電圖檢查,如心電圖提示房顫特征波形(P波消失,取而代之的是頻率為350~600 Hz且形態、振幅、周期不斷變化的房顫波/f波;心室率絕對不規則)則明確房顫的診斷。
排除標準:(1)妊娠期婦女;(2)未簽署或拒絕簽署知情同意書的患者;(3)拒絕隨訪的患者;(4)術前已經接受過抗凝治療的患者。
1.2 數據采集
全部樣本均來自四川大學華西醫院及其分院的瓣膜病伴房顫患者,共記錄了2 515例瓣膜手術患者,其中443例詳細數據丟失,排除了1 119例無房顫的瓣膜病患者,953例符合本研究的納入標準。數據清理后,排除異常值和缺乏關鍵數據的患者,886例患者被納入數據集中,其中男545例、女341例,平均年齡(55.62±9.26)歲。最終數據集包含694個無血栓樣本(非血栓形成組)和192個血栓樣本(血栓形成組)。在分析之前,對患者數據進行了匿名和身份識別。
我們通過標準化的問卷調查收集病史,以同樣的方式收集飲酒和吸煙習慣以及藥物攝入史。體表面積(m2)=0.006 1×身高(cm)+0.012 4×體重(kg)?0.009 9[11]。動脈血壓(blood pressure,BP)值是通過坐姿聽診5次并取平均值獲得的。高血壓的定義是收縮壓≥140 mm Hg(1 mm Hg=0.133 kPa)或舒張壓≥90 mm Hg,或抗高血壓藥物的服用史。采集空腹血液樣本,測量重要的常規生化特征,如血常規、血糖、血脂。高脂血癥定義為:總膽固醇(total cholesterol,TC)≥6.18 mmol/L,甘油三酯(triglyceride,TG)≥2.26 mmol/L,低密度脂蛋白膽固醇(low-density lipoprotein cholesterol,LDL-C)≥4.13 mmol/L,高密度脂蛋白膽固醇(high-density lipoprotein cholesterol,HDL-C)<1.04 mmol/L。糖尿病定義為空腹血糖水平>126 mg/dL,或有抗糖尿病藥物的攝入史。此外,我們選擇了在臨床實踐中常規用于評估心臟結構和功能的超聲心動圖特征。
1.3 模型開發
處理結構化數據的ML算法種類很多,不同算法適用于不同的應用場景,很難找到適合所有應用場景的最優算法,不同的模型對不同的數據集影響不同。在這項研究中,我們選擇了5種不同類型的監督ML方法,LightGBM [12]、隨機森林[13]、支持向量機[14]、logistic回歸和樸素貝葉斯算法[15]。
LightGBM算法是梯度增強決策樹(gradient boosting decision tree,GBDT)[16]算法的增強版,是解決ML問題的可靠方法。GBDT是一種由多個決策樹組成的迭代決策樹算法,將所有決策樹的結論進行匯總,得出最終答案。LightGBM有兩種核心技術,即獨占特征捆綁(exclusive feature bundling,EFB)和基于梯度的單邊采樣(gradient-based one-side sampling,GOSS),這兩種技術都可以減少訓練數據量,從而在不損失準確性的情況下顯著縮短訓練時間。與GBDT相同,隨機森林是決策樹的改進,它們都由多個決策樹組成,但與GBDT不同,隨機森林將多個決策樹集成到一個森林中,而不是將它們相加,隨機森林將所有決策樹的結果集成在一起,以得到最終的預測結果。支持向量機是一種二元廣義線性分類器,其基本思想是求解分離的超平面,該超平面能夠以最大的幾何間隔正確地劃分訓練數據集。根據選擇的核,支持向量機可以是線性或非線性分類器。樸素貝葉斯算法是一種基于貝葉斯定理和特征條件獨立性假設的分類方法,利用概率統計知識對樣本數據集進行分類。在本研究中,我們假設與每個分類相關的連續值服從高斯分布,即選擇高斯樸素貝葉斯進行分類。
1.4 特征選擇與數據預處理
本研究使用以上5種算法在收集的數據集上評估性能,找到最適合的算法及其超參數的近似范圍,最后經過訓練得到最終的最佳模型。
對于數據集中的多類變量,我們使用了一個One-hot方法進行編碼,使用相關圖刪除冗余變量或與其它變量密切相關的變量,并刪除缺失百分比超過30%的特征,最終保留了每搏輸出量(stroke volume,SV)、二尖瓣E波峰值流速(peak mitral E-wave velocity,Emv)、三尖瓣壓力梯度、左心室內徑(left ventricle diameter,LVD)等33個特征值。對于缺失值<30%的特征,我們使用K-最近鄰(K-nearest neighbor,KNN)算法來填充缺失數據。KNN方法的思想是識別數據集中相似的k個樣本,然后使用這些樣本來估計缺失數據點的值,即使用在數據集插值中k個近鄰樣本的平均值來插值每個樣本的缺失值。實驗表明,該方法優于均值插值法。
在類分布不均衡的數據上訓練ML模型可能會導致模型更傾向于預測樣本數量更多的類,從而降低整體模型的實際效用。因此,對于所有模型,我們都使用了類重新加權的方法來處理類不平衡問題。
1.5 嵌套交叉驗證
我們選擇使用嵌套交叉驗證(nested cross-validationn,CV)來測試模型性能,以獲得最佳模型。嵌套交叉驗證的優點是,通過嵌套交叉驗證獲得的測試集誤差幾乎是真實誤差[17],可以有效防止信息泄漏。嵌套交叉驗證由外部循環和內部循環組成。在外部循環中,我們使用10折交叉驗證,這是一個10次循環,在每個循環中,數據集將被平均分為10份,其中9份用作內部循環的訓練集,輸入內循環,剩下那份作為測試集。內循環用于模型優化,在內循環中,依然使用10折交叉驗證來優化模型,通過網格搜索算法[18]來優化模型的超級參數,在所有10折內循環中選擇曲線下面積(area under the curve,AUC)最大的一個作為最佳模型,并在該模型上測試外循環的測試集。最終,每個模型的每個評估指標各有10個值。實驗使用Python scikit學習庫(1.0.1版)進行模型構建并驗證模型(https://scikit-learn.org/1.0/)。
1.6 模型解釋
在本研究中,我們使用SHAP(Shapley Additive exPlanations)方法來解釋模型。SHAP是一種新的模型解釋方法,被廣泛用于解釋各種分類和回歸模型[19]。SHAP在博弈論中有著堅實的理論基礎,將博弈論中的Shapley值最優信用分配與局部解釋結合起來,通過計算每個特征在模型做出預測中所提供的貢獻度來解釋單例患者的預測,能提供其它模型解釋方法(如LIME[20-21])無法提供的全局一致性解釋。臨床醫生能夠從SHAP方法中得到模型所做出的預測結果的充分解釋,了解哪些特征在預測血栓發生中起到了重要的推動作用,有助于臨床醫生對ML方法預測結果進行驗證。
1.7 統計學分析
采用SAS 9.4進行統計學分析。計量資料服從正態分布,采用均值±標準差(±s)描述,組間比較采用t檢驗;計數資料采用頻數和百分比描述,組間比較采用χ2檢驗或Fisher確切概率法。P≤0.05為差異有統計學意義。
1.8 倫理審查
本研究已通過四川大學華西醫院生物醫學倫理委員會審查,批準號:2018-301。
2 結果
2.1 患者基本信息
本研究共納入886例合并有房顫的心臟瓣膜手術患者,血栓形成組和非血栓形成組患者基線特征基本相同;見表1。


2.2 模型表現
考慮到在數據集不平衡的情況下,受試者工作特征(receiver operating characteristic,ROC)曲線下面積(AUC/ROC)可能會對性能提供過于樂觀的結果。為了準確評估模型的性能,除了AUC/ROC,我們還使用了多種評估指標比較模型,如精確-召回曲線下面積(area under the curve/precision-recall,AUC/PR)、F1、馬修斯相關系數(Matthews correlation coefficient,MCC)。MCC數值范圍從?1~1,分數越高表明表現越好。研究[22]表明,在數據不平衡的情況下,這些評估指標可以提供更多的評估信息。
測試數據集上每個模型的性能如圖1和表2所示。圖1顯示了每個模型嵌套交叉驗證的每個外部循環的ROC曲線。可以清楚地看到,與其它模型相比,隨機森林具有最好的AUC/ROC,同時具有良好的穩定性,在外部循環的每個結果之間AUC值差異很小,而logistic回歸模型具有較大的方差。隨機森林模型在靈敏度(0.589±0.171)、正確率(0.792±0.026)、陰性預測值(0.945±0.029)這些基礎指標上均取得了最優結果。雖然貝葉斯模型具有較好的特異性和精確度,但其靈敏度和MCC指標最低,這是由于數據中正負樣本不平衡導致模型更傾向于將結果預測為樣本數較多的負樣本,而貝葉斯模型對于樣本不平衡沒有很好的調節能力。而隨機森林模型在綜合評估指標AUC/ROC(0.748±0.043)、AUC/PR(0.339±0.047)、F1(0.473±0.061)和MCC(0.324±0.081)上均取得了最佳數值,因此最終使用通過嵌套交叉驗證法中優化得到的隨機森林模型作為最佳模型。

a~e:分別為隨機森林模型、LightGBM模型、logistic回歸模型、貝葉斯模型和支持向量機模型的10折ROC曲線;藍色線條表示模型的平均值,AUC/ROC的平均值顯示在圖像底部;AUC/ROC:受試者工作特征曲線下面積


2.3 模型解釋
對最終模型影響最大的20個特征包括SV、Emv、三尖瓣壓力梯度、LVD等;見圖2。此外,圖3展示了模型預測的高風險實例和低風險實例。

a:經典直方圖,取變量重要性平均值(SHAP值)前20的變量,從上往下由最重要到最不重要排列;b:特性對模型的影響分布,圖中每個點對應1例患者,點的顏色對應變量值的大小,從紅色到藍色代表變量值從高到低。SV:每搏輸出量;Emv:二尖瓣E波峰值流速;LVD:左心室內徑;EDV:左室舒張末期容積;EDD:左室舒張末期直徑;RAD:右心房內徑;LAD:左心房內徑;EF:射血分數;FS:縮短分數;RVD:右心室內徑;ESV:左室收縮末期容積;IVS:室間隔厚度;LVPW:左心室后壁舒張

a:高風險實例;b:低風險實例。圖中的基值為0.499 7,代表預測模型的平均值;輸出值是預測的血栓風險。紅色和藍色箭頭分別表示變量值對預測風險評分的正貢獻和負貢獻,模型輸出值與預測的風險分數相對應;EDD:左室舒張末期直徑;EDV:左室舒張末期容積;LVD:左心室內徑;SV:每搏輸出量;Emv:二尖瓣 E 波峰值流速;LAD:左心房內徑
3 討論
本研究提出的ML模型可為臨床醫生提供瓣膜性心臟病合并房顫患者是否有可能發生血栓的預測,及時篩查出這部分血栓易發人群,并指導這部分患者加強血栓監測以及采取預防血栓發生的抗凝治療。與傳統的臨床評估血栓風險工具“CHA2DS2-VASc評分”相比,我們的ML模型優勢在于能夠從患者的病史資料、生理生化實驗室指標、影像學檢查參數等常規數據中廣泛提取特征,能夠更加全面地評估血栓風險,同時能將一些平時易被忽視的指標納入考量范圍,例如心臟的各腔室內徑、瓣膜附近的血流動力學參數等,更多的血栓易發人群將會因此受益。
關于對預測血栓貢獻最大的前20個特征中的SV和左室舒張末期容積,我們很難理解其背后的機制,但它們與左室射血分數(left ventricular ejection fraction,LVEF)間存在一定的聯系。在臨床實踐中,LVEF已成為評價左室收縮功能最常用的方法,它被廣泛應用于疾病評估、臨床決策和預后評估。在本研究中,我們的模型預測,隨著LVEF值降低,血栓栓塞風險升高。這可能是由于LVEF作為左心耳血栓(left atrial appendage thrombus,LAAT)的獨立預測因子之一,它的降低會使患者更容易患LAAT[23]。
與非瓣膜性房顫相比,接受機械瓣膜置換術、輕度至重度二尖瓣狹窄和左心房擴張的房顫患者發生血栓栓塞的風險增加,這表明在每種房顫情況下導致血栓形成的致病機制存在差異[24]。Emv、二尖瓣最大流速和左心房內徑的增加值,以及LVD、右心室內徑和右心房內徑的降低值,有助于該模型預測瓣膜病房顫患者血栓栓塞風險。有研究[23]發現左心房擴張是血栓栓塞風險增加的獨立預測因子,這與本研究結果一致。據推測,二尖瓣狹窄時,左心房存在慢性壓力超負荷,這不僅改變了心房大小,還改變了功能,并且出現左心房低流速,最終導致血栓栓塞風險增加[25]。房顫還通過改變細胞的數量和分布,影響細胞的結構蛋白,導致心肌纖維化等方式影響左心房重構[26]。在兩者的共同作用下,心房擴大,心房內血流動力學改變,導致血栓形成[27]。同時,研究[28]表明,當左心房重構時,內皮細胞的損傷也與血栓形成的風險增加有關。隨著心肌結構和功能的改變,左心房內膜也會同時發生變化,這是由于擴張和低收縮導致血栓形成[26]。瓣膜流速的增加以及心房和心室內徑的變化反映了上述情況的嚴重程度。在這方面,我們的模型預測了血栓形成的高風險值。
本研究中,某患者的二尖瓣流速增加,我們的模型預測有較高的血栓形成風險;見圖3a。某患者的瓣膜結構中度異常,我們的模型預測有較低的血栓形成風險;見圖3b,因為右心房血栓形成的可能性遠小于左心房[27]。雖然房顫患者三尖瓣結構或功能異常是否增加血栓栓塞發生率尚未得到證實,但本研究中的三尖瓣壓力梯度和三尖瓣收縮期反流速度特征在確定模型預測血栓栓塞中起重要作用。三尖瓣壓力梯度增加和三尖瓣收縮期反流速度,促進我們的模型預測高血栓栓塞風險。這表明它可能與二尖瓣狹窄有關。
本研究的局限性:當血糖處于較低水平時,會增加模型預測血栓栓塞的風險。這與之前的研究不同,之前的研究表明,高血糖水平會增加血栓栓塞的風險。實驗室證據[29-30]表明,慢性和急性高血糖有助于凝血激活和纖維蛋白溶解,導致促凝狀態。在本研究中,血糖是患者手術前的最后一次血糖水平,對于高血糖患者,術前會對其進行血糖控制,將其血糖控制在正常水平,這或許是導致這一現象的原因。但在本研究數據中,并未對患者是否控制血糖進行記錄,因此無法分辨出其真正的原因,需要后續對研究數據進一步完善。
利益沖突:無。
作者貢獻:趙啟軍設計、組織研究,修改論文;錢永軍負責組織研究,收集數據,修改論文;張譯文負責設計、執行研究,分析數據,撰寫論文;王政捷負責分析數據,撰寫論文;雷諾揚帆協助分析數據;潘帆負責設計、組織研究;童琪參與設計、執行研究,收集數據;李濤負責收集數據。
心房顫動(房顫)是世界范圍內常見的心律失常,在普通人群中的患病率約為3%,隨年齡增長而增加(60~70歲人群約為4%;70~85歲人群超過10%),并因性別、種族和地區而異。血栓形成是房顫最嚴重的并發癥之一,很容易造成患者的殘疾和死亡[1]。房顫是卒中最重要的風險因素,僅次于高血壓,高血壓會使卒中風險增加4~5倍。由房顫引起的卒中占所有卒中的15%~20%,占心源性卒中的50%。準確、可重復、經濟的診斷技術有助于早期識別易發生血栓栓塞的人群,并指導臨床醫生進行早期抗血栓干預以預防血栓事件[2]。
近年來,機器學習(machine learning,ML)已被大量應用于醫學領域的各個方面[3]。盡管ML的黑匣子特性讓人們認為ML方法不可靠[4],然而隨著ML可解釋性理論的發展,許多理論被用來解釋驗證ML模型,并已經應用于包括醫學在內的需要高模型解釋性的各個領域[5-6]。Lundberg等[7]構建了ML系統,以幫助麻醉師提高對麻醉護理中低氧血癥風險的臨床理解。Sabov?ik等[8]使用多個ML分類器分別檢測左心室肥大(left ventricular hypertrophy,LVH)和左心室舒張功能障礙(left ventricular diastolic dysfunction,LVDD),并提供了從ML模型分析中獲得的前25個重要影響變量,供醫生參考。然而,到目前為止,還沒有研究應用ML方法來預測瓣膜病伴房顫患者血栓形成。
本文研究監督ML算法在心臟瓣膜病伴房顫患者心臟血栓形成預測和表征中的應用,使用5種ML方法建立預測模型,并在實驗驗證后選擇隨機森林模型作為表現最佳的模型,進而使用SHAP方法解釋該模型,通過解釋最佳模型來評估風險特征。
1 資料與方法
1.1 納入與排除標準
納入標準:符合瓣膜病伴房顫診斷標準的患者。診斷標準參考最新美國心臟病學會/美國心臟協會心臟病患者管理指南、歐洲心臟病學會房顫診斷和管理指南[9-10]。所有患者均接受超聲心動圖檢查,如超聲心動圖提示確切的瓣膜結構及功能異常,包括主動脈瓣狹窄/關閉不全、二尖瓣狹窄/關閉不全、三尖瓣狹窄/關閉不全、肺動脈瓣狹窄/關閉不全,則明確瓣膜疾病的診斷。所有患者均接受心電圖檢查,如心電圖提示房顫特征波形(P波消失,取而代之的是頻率為350~600 Hz且形態、振幅、周期不斷變化的房顫波/f波;心室率絕對不規則)則明確房顫的診斷。
排除標準:(1)妊娠期婦女;(2)未簽署或拒絕簽署知情同意書的患者;(3)拒絕隨訪的患者;(4)術前已經接受過抗凝治療的患者。
1.2 數據采集
全部樣本均來自四川大學華西醫院及其分院的瓣膜病伴房顫患者,共記錄了2 515例瓣膜手術患者,其中443例詳細數據丟失,排除了1 119例無房顫的瓣膜病患者,953例符合本研究的納入標準。數據清理后,排除異常值和缺乏關鍵數據的患者,886例患者被納入數據集中,其中男545例、女341例,平均年齡(55.62±9.26)歲。最終數據集包含694個無血栓樣本(非血栓形成組)和192個血栓樣本(血栓形成組)。在分析之前,對患者數據進行了匿名和身份識別。
我們通過標準化的問卷調查收集病史,以同樣的方式收集飲酒和吸煙習慣以及藥物攝入史。體表面積(m2)=0.006 1×身高(cm)+0.012 4×體重(kg)?0.009 9[11]。動脈血壓(blood pressure,BP)值是通過坐姿聽診5次并取平均值獲得的。高血壓的定義是收縮壓≥140 mm Hg(1 mm Hg=0.133 kPa)或舒張壓≥90 mm Hg,或抗高血壓藥物的服用史。采集空腹血液樣本,測量重要的常規生化特征,如血常規、血糖、血脂。高脂血癥定義為:總膽固醇(total cholesterol,TC)≥6.18 mmol/L,甘油三酯(triglyceride,TG)≥2.26 mmol/L,低密度脂蛋白膽固醇(low-density lipoprotein cholesterol,LDL-C)≥4.13 mmol/L,高密度脂蛋白膽固醇(high-density lipoprotein cholesterol,HDL-C)<1.04 mmol/L。糖尿病定義為空腹血糖水平>126 mg/dL,或有抗糖尿病藥物的攝入史。此外,我們選擇了在臨床實踐中常規用于評估心臟結構和功能的超聲心動圖特征。
1.3 模型開發
處理結構化數據的ML算法種類很多,不同算法適用于不同的應用場景,很難找到適合所有應用場景的最優算法,不同的模型對不同的數據集影響不同。在這項研究中,我們選擇了5種不同類型的監督ML方法,LightGBM [12]、隨機森林[13]、支持向量機[14]、logistic回歸和樸素貝葉斯算法[15]。
LightGBM算法是梯度增強決策樹(gradient boosting decision tree,GBDT)[16]算法的增強版,是解決ML問題的可靠方法。GBDT是一種由多個決策樹組成的迭代決策樹算法,將所有決策樹的結論進行匯總,得出最終答案。LightGBM有兩種核心技術,即獨占特征捆綁(exclusive feature bundling,EFB)和基于梯度的單邊采樣(gradient-based one-side sampling,GOSS),這兩種技術都可以減少訓練數據量,從而在不損失準確性的情況下顯著縮短訓練時間。與GBDT相同,隨機森林是決策樹的改進,它們都由多個決策樹組成,但與GBDT不同,隨機森林將多個決策樹集成到一個森林中,而不是將它們相加,隨機森林將所有決策樹的結果集成在一起,以得到最終的預測結果。支持向量機是一種二元廣義線性分類器,其基本思想是求解分離的超平面,該超平面能夠以最大的幾何間隔正確地劃分訓練數據集。根據選擇的核,支持向量機可以是線性或非線性分類器。樸素貝葉斯算法是一種基于貝葉斯定理和特征條件獨立性假設的分類方法,利用概率統計知識對樣本數據集進行分類。在本研究中,我們假設與每個分類相關的連續值服從高斯分布,即選擇高斯樸素貝葉斯進行分類。
1.4 特征選擇與數據預處理
本研究使用以上5種算法在收集的數據集上評估性能,找到最適合的算法及其超參數的近似范圍,最后經過訓練得到最終的最佳模型。
對于數據集中的多類變量,我們使用了一個One-hot方法進行編碼,使用相關圖刪除冗余變量或與其它變量密切相關的變量,并刪除缺失百分比超過30%的特征,最終保留了每搏輸出量(stroke volume,SV)、二尖瓣E波峰值流速(peak mitral E-wave velocity,Emv)、三尖瓣壓力梯度、左心室內徑(left ventricle diameter,LVD)等33個特征值。對于缺失值<30%的特征,我們使用K-最近鄰(K-nearest neighbor,KNN)算法來填充缺失數據。KNN方法的思想是識別數據集中相似的k個樣本,然后使用這些樣本來估計缺失數據點的值,即使用在數據集插值中k個近鄰樣本的平均值來插值每個樣本的缺失值。實驗表明,該方法優于均值插值法。
在類分布不均衡的數據上訓練ML模型可能會導致模型更傾向于預測樣本數量更多的類,從而降低整體模型的實際效用。因此,對于所有模型,我們都使用了類重新加權的方法來處理類不平衡問題。
1.5 嵌套交叉驗證
我們選擇使用嵌套交叉驗證(nested cross-validationn,CV)來測試模型性能,以獲得最佳模型。嵌套交叉驗證的優點是,通過嵌套交叉驗證獲得的測試集誤差幾乎是真實誤差[17],可以有效防止信息泄漏。嵌套交叉驗證由外部循環和內部循環組成。在外部循環中,我們使用10折交叉驗證,這是一個10次循環,在每個循環中,數據集將被平均分為10份,其中9份用作內部循環的訓練集,輸入內循環,剩下那份作為測試集。內循環用于模型優化,在內循環中,依然使用10折交叉驗證來優化模型,通過網格搜索算法[18]來優化模型的超級參數,在所有10折內循環中選擇曲線下面積(area under the curve,AUC)最大的一個作為最佳模型,并在該模型上測試外循環的測試集。最終,每個模型的每個評估指標各有10個值。實驗使用Python scikit學習庫(1.0.1版)進行模型構建并驗證模型(https://scikit-learn.org/1.0/)。
1.6 模型解釋
在本研究中,我們使用SHAP(Shapley Additive exPlanations)方法來解釋模型。SHAP是一種新的模型解釋方法,被廣泛用于解釋各種分類和回歸模型[19]。SHAP在博弈論中有著堅實的理論基礎,將博弈論中的Shapley值最優信用分配與局部解釋結合起來,通過計算每個特征在模型做出預測中所提供的貢獻度來解釋單例患者的預測,能提供其它模型解釋方法(如LIME[20-21])無法提供的全局一致性解釋。臨床醫生能夠從SHAP方法中得到模型所做出的預測結果的充分解釋,了解哪些特征在預測血栓發生中起到了重要的推動作用,有助于臨床醫生對ML方法預測結果進行驗證。
1.7 統計學分析
采用SAS 9.4進行統計學分析。計量資料服從正態分布,采用均值±標準差(±s)描述,組間比較采用t檢驗;計數資料采用頻數和百分比描述,組間比較采用χ2檢驗或Fisher確切概率法。P≤0.05為差異有統計學意義。
1.8 倫理審查
本研究已通過四川大學華西醫院生物醫學倫理委員會審查,批準號:2018-301。
2 結果
2.1 患者基本信息
本研究共納入886例合并有房顫的心臟瓣膜手術患者,血栓形成組和非血栓形成組患者基線特征基本相同;見表1。


2.2 模型表現
考慮到在數據集不平衡的情況下,受試者工作特征(receiver operating characteristic,ROC)曲線下面積(AUC/ROC)可能會對性能提供過于樂觀的結果。為了準確評估模型的性能,除了AUC/ROC,我們還使用了多種評估指標比較模型,如精確-召回曲線下面積(area under the curve/precision-recall,AUC/PR)、F1、馬修斯相關系數(Matthews correlation coefficient,MCC)。MCC數值范圍從?1~1,分數越高表明表現越好。研究[22]表明,在數據不平衡的情況下,這些評估指標可以提供更多的評估信息。
測試數據集上每個模型的性能如圖1和表2所示。圖1顯示了每個模型嵌套交叉驗證的每個外部循環的ROC曲線。可以清楚地看到,與其它模型相比,隨機森林具有最好的AUC/ROC,同時具有良好的穩定性,在外部循環的每個結果之間AUC值差異很小,而logistic回歸模型具有較大的方差。隨機森林模型在靈敏度(0.589±0.171)、正確率(0.792±0.026)、陰性預測值(0.945±0.029)這些基礎指標上均取得了最優結果。雖然貝葉斯模型具有較好的特異性和精確度,但其靈敏度和MCC指標最低,這是由于數據中正負樣本不平衡導致模型更傾向于將結果預測為樣本數較多的負樣本,而貝葉斯模型對于樣本不平衡沒有很好的調節能力。而隨機森林模型在綜合評估指標AUC/ROC(0.748±0.043)、AUC/PR(0.339±0.047)、F1(0.473±0.061)和MCC(0.324±0.081)上均取得了最佳數值,因此最終使用通過嵌套交叉驗證法中優化得到的隨機森林模型作為最佳模型。

a~e:分別為隨機森林模型、LightGBM模型、logistic回歸模型、貝葉斯模型和支持向量機模型的10折ROC曲線;藍色線條表示模型的平均值,AUC/ROC的平均值顯示在圖像底部;AUC/ROC:受試者工作特征曲線下面積


2.3 模型解釋
對最終模型影響最大的20個特征包括SV、Emv、三尖瓣壓力梯度、LVD等;見圖2。此外,圖3展示了模型預測的高風險實例和低風險實例。

a:經典直方圖,取變量重要性平均值(SHAP值)前20的變量,從上往下由最重要到最不重要排列;b:特性對模型的影響分布,圖中每個點對應1例患者,點的顏色對應變量值的大小,從紅色到藍色代表變量值從高到低。SV:每搏輸出量;Emv:二尖瓣E波峰值流速;LVD:左心室內徑;EDV:左室舒張末期容積;EDD:左室舒張末期直徑;RAD:右心房內徑;LAD:左心房內徑;EF:射血分數;FS:縮短分數;RVD:右心室內徑;ESV:左室收縮末期容積;IVS:室間隔厚度;LVPW:左心室后壁舒張

a:高風險實例;b:低風險實例。圖中的基值為0.499 7,代表預測模型的平均值;輸出值是預測的血栓風險。紅色和藍色箭頭分別表示變量值對預測風險評分的正貢獻和負貢獻,模型輸出值與預測的風險分數相對應;EDD:左室舒張末期直徑;EDV:左室舒張末期容積;LVD:左心室內徑;SV:每搏輸出量;Emv:二尖瓣 E 波峰值流速;LAD:左心房內徑
3 討論
本研究提出的ML模型可為臨床醫生提供瓣膜性心臟病合并房顫患者是否有可能發生血栓的預測,及時篩查出這部分血栓易發人群,并指導這部分患者加強血栓監測以及采取預防血栓發生的抗凝治療。與傳統的臨床評估血栓風險工具“CHA2DS2-VASc評分”相比,我們的ML模型優勢在于能夠從患者的病史資料、生理生化實驗室指標、影像學檢查參數等常規數據中廣泛提取特征,能夠更加全面地評估血栓風險,同時能將一些平時易被忽視的指標納入考量范圍,例如心臟的各腔室內徑、瓣膜附近的血流動力學參數等,更多的血栓易發人群將會因此受益。
關于對預測血栓貢獻最大的前20個特征中的SV和左室舒張末期容積,我們很難理解其背后的機制,但它們與左室射血分數(left ventricular ejection fraction,LVEF)間存在一定的聯系。在臨床實踐中,LVEF已成為評價左室收縮功能最常用的方法,它被廣泛應用于疾病評估、臨床決策和預后評估。在本研究中,我們的模型預測,隨著LVEF值降低,血栓栓塞風險升高。這可能是由于LVEF作為左心耳血栓(left atrial appendage thrombus,LAAT)的獨立預測因子之一,它的降低會使患者更容易患LAAT[23]。
與非瓣膜性房顫相比,接受機械瓣膜置換術、輕度至重度二尖瓣狹窄和左心房擴張的房顫患者發生血栓栓塞的風險增加,這表明在每種房顫情況下導致血栓形成的致病機制存在差異[24]。Emv、二尖瓣最大流速和左心房內徑的增加值,以及LVD、右心室內徑和右心房內徑的降低值,有助于該模型預測瓣膜病房顫患者血栓栓塞風險。有研究[23]發現左心房擴張是血栓栓塞風險增加的獨立預測因子,這與本研究結果一致。據推測,二尖瓣狹窄時,左心房存在慢性壓力超負荷,這不僅改變了心房大小,還改變了功能,并且出現左心房低流速,最終導致血栓栓塞風險增加[25]。房顫還通過改變細胞的數量和分布,影響細胞的結構蛋白,導致心肌纖維化等方式影響左心房重構[26]。在兩者的共同作用下,心房擴大,心房內血流動力學改變,導致血栓形成[27]。同時,研究[28]表明,當左心房重構時,內皮細胞的損傷也與血栓形成的風險增加有關。隨著心肌結構和功能的改變,左心房內膜也會同時發生變化,這是由于擴張和低收縮導致血栓形成[26]。瓣膜流速的增加以及心房和心室內徑的變化反映了上述情況的嚴重程度。在這方面,我們的模型預測了血栓形成的高風險值。
本研究中,某患者的二尖瓣流速增加,我們的模型預測有較高的血栓形成風險;見圖3a。某患者的瓣膜結構中度異常,我們的模型預測有較低的血栓形成風險;見圖3b,因為右心房血栓形成的可能性遠小于左心房[27]。雖然房顫患者三尖瓣結構或功能異常是否增加血栓栓塞發生率尚未得到證實,但本研究中的三尖瓣壓力梯度和三尖瓣收縮期反流速度特征在確定模型預測血栓栓塞中起重要作用。三尖瓣壓力梯度增加和三尖瓣收縮期反流速度,促進我們的模型預測高血栓栓塞風險。這表明它可能與二尖瓣狹窄有關。
本研究的局限性:當血糖處于較低水平時,會增加模型預測血栓栓塞的風險。這與之前的研究不同,之前的研究表明,高血糖水平會增加血栓栓塞的風險。實驗室證據[29-30]表明,慢性和急性高血糖有助于凝血激活和纖維蛋白溶解,導致促凝狀態。在本研究中,血糖是患者手術前的最后一次血糖水平,對于高血糖患者,術前會對其進行血糖控制,將其血糖控制在正常水平,這或許是導致這一現象的原因。但在本研究數據中,并未對患者是否控制血糖進行記錄,因此無法分辨出其真正的原因,需要后續對研究數據進一步完善。
利益沖突:無。
作者貢獻:趙啟軍設計、組織研究,修改論文;錢永軍負責組織研究,收集數據,修改論文;張譯文負責設計、執行研究,分析數據,撰寫論文;王政捷負責分析數據,撰寫論文;雷諾揚帆協助分析數據;潘帆負責設計、組織研究;童琪參與設計、執行研究,收集數據;李濤負責收集數據。