引用本文: 陳正大, 付博, 王建宇, 姜楠, 郭志剛. 基于DenseNet121架構的心音模型診斷主動脈瓣狹窄的前瞻性臨床研究. 中國胸心血管外科臨床雜志, 2023, 30(4): 514-521. doi: 10.7507/1007-4848.202209056 復制
主動脈瓣狹窄是一種慢性進展性疾病,其病理特征為脂質聚集、炎癥、纖維化及鈣化,潛伏期很長,左心室為適應增高的后負荷,發生向心性肥厚導致舒張功能障礙,冠狀動脈儲備下降,心肌缺血,疾病終末期將出現收縮功能下降,心功能衰竭甚至猝死。患者一旦出現臨床癥狀(呼吸困難、胸痛、暈厥等),預后極差,約半數患者自然壽命不超過2年[1-2]。隨著人口老齡化進程的加速,主動脈瓣狹窄的發病率逐年升高,在西方國家75歲以上人群主動脈瓣狹窄的發病率為2.8%,僅次于高血壓和冠心病[3]。隨著我國經濟水平不斷發展,人均壽命逐漸延長,老齡化人口不斷增加,瓣膜病變的主要病因正在從風濕性心臟瓣膜病向退行性心臟瓣膜病轉化。我國主動脈瓣狹窄的發病率必然會逐漸增加并呈現出西方發達國家的流行病學態勢。
嚴重的主動脈瓣狹窄患者保守治療預后較差,目前尚無藥物預防或阻止主動脈瓣狹窄的進展,改善患者預后主要依賴識別瓣膜病高危患者、準確判斷狹窄嚴重程度、處理合并疾病以及確保主動脈瓣置換的適合時間和瓣膜類型。這對早期識別主動脈瓣狹窄患者提出更高要求。目前診斷主動脈瓣狹窄的主要方法是超聲心動圖,但其成本較高,在經濟欠發達、醫療資源短缺的地區未大規模投入使用[4]。聽診檢查具有設備廉價便攜、操作簡單的優點,曾經是臨床醫生感知心臟雜音、診斷瓣膜病變的主要手段。但聽診檢查缺乏特異性,還對臨床醫生心臟聽診的專業能力有一定的要求[5],隨著便攜超聲心動圖的應用,聽診器在西方國家心臟瓣膜病的診療上已逐漸被淘汰[6]。
計算機輔助心音分析給予了心臟聽診新的應用方式。其最初于1963年由David等[7]提出,實現對風濕性心臟病病理性心音的識別,然而受制于當時的硬件條件未能進一步發展。隨著現代科技的進步,人工智能為心音自動識別指引了新方向。深度學習作為人工智能的一個分支,已被應用于許多自動識別心音的分類模型中。近期發表的模型的靈敏度已能達80%[8],但其訓練集多取自CinC 2016 Challege心音分類挑戰賽的二分類心音數據庫,該數據庫中僅有心音是否異常的標簽[9-10],訓練所得模型不具備區分疾病類型的能力。目前國內相關研究較少,既往國外研究所得模型應用于我國患者時可能存在較大偏差。綜上,我們希望應用本土心音數據開發一個基于深度學習方法應用心音診斷主動脈瓣狹窄的模型,能用于篩查主動脈瓣狹窄患者,推進更早的臨床監測和干預。
本次研究應用3MTM聽診器于臨床環境下采集心音,并用于訓練基于稠密連接網絡(DenseNet121)架構、以一維卷積神經網絡(convolutional neural networks,CNN)為基礎的模型,進而實現對主動脈瓣狹窄患者與健康人群的自動準確分類。
1 資料與方法
1.1 臨床資料及心音采集
為了獲得用于訓練及驗證應用的深度學習模型的心音數據,我們使用3MTMLittmann電子聽診器,于2021年6月—2022年2月在天津市胸科醫院采集患者心音,進行前瞻性研究。納入標準:心臟超聲診斷為主動脈瓣狹窄的患者以及心臟超聲排除主動脈瓣疾病者。排除標準:有心臟瓣膜置換史或心電圖確診心房顫動的患者。對納入的患者,使用3MTMLittmann電子聽診器的錄音功能,在臨床環境下以4 000 Hz采樣,分別于主動脈瓣聽診區(胸骨右緣第2肋間),主動脈瓣第2聽診區(胸骨左緣第3肋間)聽診,每個聽診區記錄30 s,保存于與聽診器相配套的StethAssist程序中,并將輸出音頻轉換為wav格式,該步驟由臨床醫師進行以確保不同聽診區位置的準確性。心音采集過程中由心臟相關專業的臨床醫師同步聽診確保數據質量能達到模型所需標準,若質量較差則重新聽診采集。
1.2 心音數據的預處理
1.2.1 心音分割
心音采集過程中已對數據質量進行控制,故不設置進一步的數據篩選步驟。對采集的心音數據,按照7∶1∶2的比例分為訓練集、驗證集及測試集。將每段音頻起始及結尾的不穩定心音數據刪除,對剩余心音數據使用步長為1 s的滑動窗口將其分成長度為3 s的音頻片段,從而將長時間的音頻數據分割為若干片段,作為適合的深度學習模型輸入樣本。
1.2.2 數據強化
由于數據集中的心音數據量相對有限,CNN模型又具有優異的特征提取能力,容易導致模型的過擬合。為減少這個問題,采用了音頻數據強化的方案。對訓練集及驗證集的每段3 s音頻,以30%觸發概率,觸發高斯噪聲、噪聲沖擊、心率放緩和心率加速4種變化,從而增加訓練數據數量。
1.2.3 濾波降噪
心音在采集過程中,很難采集到純凈的信號,干擾噪聲例如:采集設備的電路噪聲、微弱的呼吸音、采集對象的晃動、心音傳感器與皮膚的摩擦音、采集環境噪聲,均會對后續的訓練產生影響。因此對采集到的心音,使用25~400 Hz的帶通濾波器去除低頻和高頻噪聲,便于后續分析處理。
1.2.4 音頻數據的讀寫與變換
通過python實現對wav格式心音數據的讀寫,將模擬信號轉換為數字信號。而后應用傅里葉變換將心音數據從時間域轉換至頻率域,進而實現后續對信號頻譜結構和變化規律的研究。
1.3 深度學習模型
本次研究使用Keras中采用的2017年發表的DenseNet 121架構[11],以此為基礎搭建一維CNN模型。基本結構包括輸入層、稠密塊、過渡層、全連接層及輸出層,稠密塊及過渡層為DenseNet的構件模塊,前者為輸入與輸出的連接方式,后者則用來控制通道數,通過跨層連接設計,實現特征重用,減少參數及計算成本。最后的全連接層采用softmax邏輯回歸進行分類,使用多數投票法給出最終輸出的結果。
將預處理得到的心音數據訓練集用于模型的學習,驗證集用于測試之前調整超參數以避免過擬合,用測試集數據輸入模型之中獲得研究結果。
所得深度學習模型輸出結果包括陽性(主動脈瓣狹窄)及陰性(無主動脈瓣疾患)。該模型擬應用于便攜設備對主動脈瓣狹窄高危人群實現低成本篩查,非心臟相關專業臨床醫師可參考模型判斷結果給予患者是否需進一步檢查的建議。模型存在假陰性及假陽性結果的可能性,作為目標篩查疾病的模型,假陰性結果相對假陽性結果后果更為嚴重,故不建議以模型判斷結果作為排除診斷的依據。對判別為陽性或陰性但具有相關臨床癥狀的患者都建議進行后續心臟超聲檢查進一步明確主動脈瓣病變情況。
1.4 統計學分析
采用SPSS 26.0 軟件進行統計分析,正態分布的計量資料采用均數±標準差(±s)描述,使用獨立樣本t檢驗進行組間比較。計數資料采用例數和百分比(%)表示,使用χ2檢驗進行組間比較。
采用以下方案評價模型:繪制混淆矩陣圖像,其中包含4項指標:真陽性(TP)是正確分類的異常心音的數量,假陽性(FP)是錯誤分類的正常心音的數量,真陰性(TN)是正確分類的正常心音的數量,假陰性(FN)是錯誤分類的異常心音的數量;而后計算準確率(accuracy,Acc)、靈敏度(sensitivity,Se)、特異度(specificity,Sp)。使用以上數據繪制受試者工作特征(receiver operating characteristic,ROC)曲線以及精確度-召回率(precision-recall,PR)曲線。計算ROC曲線下面積(area under the curve,AUC),用以評價模型效果。檢驗水準α=0.05。
1.5 倫理審查、注冊與數據訪問
本研究已通過天津市胸科醫院醫學倫理委員會的審批,審批號:2022LW-017;并在中國臨床試驗注冊中心注冊,注冊號:ChiCTR2200056074。本次研究所得模型尚未達到實際應用級別,后續仍需大量改進,目前無明確搭載目標,故無法實現代碼訪問。
2 結果
2.1 患者資料
本研究共采集到50例無主動脈瓣疾病患者(陰性組)以及50例主動脈瓣狹窄患者(狹窄組)的共200條心音數據,基線資料及超聲特征見表1。50例主動脈瓣狹窄患者中輕、中、重度主動脈瓣狹窄患者分別為12例、8例、30例,其中無癥狀主動脈瓣狹窄患者為11例,陰性組患者未對平均跨瓣壓差及有效瓣口面積進行測量。兩組患者超聲數據差異有統計學意義(P<0.05)。


2.2 心音數據集
圖1~3為心音數據的預處理過程中分割、數據強化、濾波降噪步驟的示意圖,處理后的心音片段用于后續模型的訓練、驗證與測試。

每個片段長 3 s,間隔 1 s,相鄰片段有 2/3 重合

30%觸發概率,觸發高斯噪聲、噪聲沖擊、心率放緩、心率加速

2.3 模型架構及訓練
本文應用的模型流程見圖4。從輸入端將心音音頻輸入后通過單層卷積提取特征,池化層減少參數,輸入至后方的稠密塊中。采用DenseNet121的結構,稠密塊1中含有6個卷積核,稠密塊2中為12個卷積核,稠密塊3中為24個卷積核,稠密塊4中為16個卷積核。卷積核稠密塊之間由過渡層連接,主要作用為控制通道數量,進而壓縮模型。稠密塊4的輸出結果作為輸入輸出至以softmax作為激活函數的全連接層,最后通過多數投票法給出最終判斷結果。

圖5為單個稠密塊內部的密集連接結構示意圖,其核心思想為后續層會接受前面所有層的輸出作為額外輸入,其公式如下,第n層的輸出Xn是前n–1層作為輸入經過非線性變換得到。非線性變換H是BN+ReLU+Conv的組合,BN指批量歸一化,ReLU為一種分段的激活函數,Conv指激活函數。圖5中最終的輸出為X0到X4的總和,從而實現特征重用。稠密塊的應用使得神經網絡結構更加緊湊,參數更少,保證特征信息最大程度地傳輸利用,大幅提升網絡性能。

Xn為第n層輸出的特征,Hn為第n層的非線性變換
模型的訓練采用了早停法,訓練數據被分為訓練集與驗證集,模型只在訓練集上進行訓練,并每隔一定周期計算模型在驗證集上的誤差,當模型在驗證集上的誤差比上一次訓練結果差的時候,記錄上一次迭代結果中的參數,而后繼續迭代直至泛化錯誤于連續多個周期增長,采取全局最優的參數作為最終參數。
2.4 模型性能評價
應用測試集對模型性能進行測試,模型的準確度為91.67%,靈敏度為90.00%,特異度為92.50%;ROC曲線中AUC=0.979,取得了很好的分類效果;見圖6。

a :ROC 曲線;b: PR 曲線;c :混淆矩陣圖;ROC:受試者工作特征;PR:精確度-召回率;AUC:曲線下面積
3 討論
目前無癥狀主動脈瓣狹窄患者的發現主要通過體檢中的心臟超聲,限定了醫療場所,同時對設備要求較高,價格也較高,很多未被發現的早期主動脈瓣狹窄患者直至疾病發展至中晚期出現癥狀才會就醫進行相關檢查,錯過了治療的最佳時機。而能在社區進行的聽診檢查則兼具便利性及便攜性,作為普適性篩查具有重要的臨床應用價值,但人工聽診的高臨床經驗需求限制了其廣泛應用。Sztajzel等[12]曾經進行過一項關于醫生聽診的研究,結果表明,內科醫師與心臟專家通過聽診識別中重度主動脈瓣狹窄的準確率均為91.3%,內科醫師識別輕度主動脈瓣狹窄的準確率為53.9%,心臟專家為71.4%,而在我國缺乏統一聽診訓練的基層醫生對主動脈瓣狹窄的識別準確率更低。由此可見高準確率的機器輔助聽診技術擁有廣闊的應用前景。
計算機心音分類主要分為兩大類:傳統機械學習方法以及深度學習方法。傳統機械學習方法具有訓練簡便以及算法易于優化的優點,但其要求復雜的預處理,包括對心音信號的精確分割以及手動的特征提取,在面對更加復雜的心音數據集時工作量巨大。而目前深度學習方法的主要限制為硬件要求高,訓練時間較長,但其擁有自動學習特征的能力,具有更高的效率。而根據以往研究[13],基于深度學習的心音分類準確率普遍高于基于傳統機器學習的心音分類準確率,近年來相關研究的趨勢多為應用深度學習方法分類心音數據。
本次研究使用的基于一維CNN的深度學習模型,在判斷主動脈瓣狹窄患者與無主動脈瓣疾病患者上具有90.00%的靈敏度及91.67%的準確度。既往研究中已有不同類型的基于深度學習的模型發表,例如Dominguez-Morales等[14]應用深度卷積神經網絡(alexnet)架構的CNN模型獲得了95.12%的靈敏度及93.20%的特異度;Siddique等[15]應用循環神經網絡模型,在雙向長短期記憶網絡框架下獲得98.8%的靈敏度及98.3%的特異度;Sotaquirá等[16]研發的應用深度神經網絡的模型靈敏度88.2%,特異度90.3%。上述提到的模型應用的心音數據庫均為CinC Challenge 2016公布的數據庫,該數據庫無心音所有者的具體疾病標簽,僅能區分心音數據是否異常,因此訓練所得模型只具有判斷心音是否異常的二分類功能。2018年Yaseen團隊[17]提供了一個新的心音數據庫,其中包括主動脈瓣狹窄、二尖瓣反流、二尖瓣狹窄、二尖瓣脫垂以及正常組5個不同類別。研究者[18-19]基于該數據庫進行了多種異常心音的分類模型研究,分別達97.0%及98.6%的準確率,高于本研究模型。但此數據庫并非直接來自臨床采集,而是從教學書籍或網絡上隨機收集獲得,其中部分心音是作為訓練人耳辨識異常心音的教學材料,在噪音極少的情況下還擁有明確的心臟雜音,數據庫內的心音數據可能與臨床實際環境所獲得的心音數據差異較大,訓練所得的模型應用于臨床環境下時可能出現性能下降的情況。目前國內暫無心音數據的大型數據庫,國內臨床采集心音數據進行具體疾病分類的深度學習模型研究尚屬首次。
在臨床工作條件下的心音數據收集過程中,無主動脈瓣疾病患者以及重度主動脈瓣狹窄的患者占比較高,為避免數據不平衡導致的靈敏度與特異度失衡采用了各類別均勻采集的方案。而過去多數研究使用的數據庫中正常心音標簽數目遠多于異常標簽,常規采用的交叉熵研究方法無法避免類別不平衡的問題,可能會導致最終判斷結果中假陰性比例升高。近期Li等[20]嘗試應用了兩種加權損失函數:平衡交叉熵損失函數和焦點損失函數,來處理不平衡數據集的問題。該方案成功提高了異常心音的分類性能,這提示我們后續研究中可以放棄均勻采集各類別心音的方案。
本次研究共采集了100例患者的心音數據,在同類研究中樣本量相對較小,受到Baghel等[19]研究中數據增強的啟發,使用了合成心音數據的方案,通過觸發高斯噪聲、噪聲沖擊、心率放緩和心率加速4種變化增加數據量,減少了記憶的情況并提高了泛化性。受制于較小的樣本量,沒有選擇N折交叉驗證及bootstrap等重采樣方法,訓練過程中也沒有采用丟棄法。但依靠使用獨立于訓練數據的驗證組進行早停法,減少了過擬合情況的發生。但這無法完全解決樣本量的問題,依據 Cho等[21]的研究,應用于圖形識別的CNN模型在各類別數據達100~200例時,學習曲線到達較為穩定的狀態,我們的研究各類型數據僅在50例左右,這說明我們的模型可能尚未達到最佳訓練狀態。我們嘗試按主動脈瓣狹窄嚴重程度分級對模型進行訓練,但因各分級數據量較小未能獲得滿意的結果。此外,由于此研究為天津市胸科醫院的單中心研究,就診患者主動脈狹窄疾病相對較重,會對模型學習結果產生一定影響,單中心的數據也無法完全代表國內全體患者的特點,應用于其他地區乃至國外患者時可能會出現靈敏度下降的情況。
深度學習作為機器學習的一個分支,已經在語音識別、圖像識別、生物醫學數據分析、信號處理、自動駕駛等領域表現出良好的實用性和可靠性[8]。本文研究的CNN模型雖然在建模學習過程中需要強大的CPU與GPU支持,但隨著模型的完善以及超參數的確定,對硬件的需求將大幅降低,壓縮后的模型可以轉移至低成本的輕量處理器中,或是安裝于電子聽診器上,制成一體化的設備,直接給予診斷建議,在疾病篩查中擁有巨大的潛力,將有效推動主動脈瓣狹窄患者的早期識別與診斷進程。
目前關于心音識別的深度學習模型相關研究主要受制于沒有足量有明確標簽的心音數據,然而獲取大量心音數據對臨床醫生負擔較重,針對某種特定疾病時尤為如此。隨著醫院聯網系統的完善,于臨床環境直接對患者進行統一的心音采集變得可行,近期已有研究[22]提出了聯合學習框架,對跨協作機構的學習模式進行了實驗與分析,該框架具有獨特的隱私保護優勢,并嘗試通過多機構的聯合建立新的心音數據庫。大型心音數據庫的建立將有效推進心音分析模型的開發。
深度學習模型通常能夠有效對目標問題進行預測或分類,但對其診斷結果的解釋一直是一項具有挑戰的任務。既往在醫學影像[23]以及心電圖分析[24]上已經獲得了一些成果,而心音數據因為其復雜性及不穩定性,僅有Liu等[25]在兒科先天性心臟病上進行過相關研究,其通過將每個心音補丁的類激活圖可視化來嘗試解釋模型,取得一定成果。我們應用成人心音數據與之相比更加穩定,沒有生理性第3心音的干擾,使用類似的方案或許能夠獲得更加有意義的結論,未來會進行進一步嘗試。
在各種心臟瓣膜疾病頻發的現在,早期診斷已經成為臨床工作中的一個重要問題,許多患者發現臨床癥狀時已經錯過最佳治療時間。本文構建了一種基于深度學習診斷主動脈瓣狹窄患者心音的模型,該模型能夠應用輸入的心音音頻將患者分辨為主動脈瓣狹窄患者及非主動脈瓣狹窄患者,有助于主動脈瓣狹窄患者的早期診斷,使其獲得更早的就診時機。結果顯示,該模型靈敏度為90.00%,遠高于人工聽診。其同時還擁有著低成本、低專業經驗需求的優點,在醫療資源欠發達地區疾病篩查上擁有廣闊的應用前景,能為主動脈瓣狹窄患者的盡早發現、盡早干預提供助力。
利益沖突:無。
作者貢獻:陳正大負責查閱資料,撰寫論文; 付博負責論文數據整理與分析;王建宇負責數據收集;姜楠、郭志剛負責論文設計、審校及修改。
主動脈瓣狹窄是一種慢性進展性疾病,其病理特征為脂質聚集、炎癥、纖維化及鈣化,潛伏期很長,左心室為適應增高的后負荷,發生向心性肥厚導致舒張功能障礙,冠狀動脈儲備下降,心肌缺血,疾病終末期將出現收縮功能下降,心功能衰竭甚至猝死。患者一旦出現臨床癥狀(呼吸困難、胸痛、暈厥等),預后極差,約半數患者自然壽命不超過2年[1-2]。隨著人口老齡化進程的加速,主動脈瓣狹窄的發病率逐年升高,在西方國家75歲以上人群主動脈瓣狹窄的發病率為2.8%,僅次于高血壓和冠心病[3]。隨著我國經濟水平不斷發展,人均壽命逐漸延長,老齡化人口不斷增加,瓣膜病變的主要病因正在從風濕性心臟瓣膜病向退行性心臟瓣膜病轉化。我國主動脈瓣狹窄的發病率必然會逐漸增加并呈現出西方發達國家的流行病學態勢。
嚴重的主動脈瓣狹窄患者保守治療預后較差,目前尚無藥物預防或阻止主動脈瓣狹窄的進展,改善患者預后主要依賴識別瓣膜病高危患者、準確判斷狹窄嚴重程度、處理合并疾病以及確保主動脈瓣置換的適合時間和瓣膜類型。這對早期識別主動脈瓣狹窄患者提出更高要求。目前診斷主動脈瓣狹窄的主要方法是超聲心動圖,但其成本較高,在經濟欠發達、醫療資源短缺的地區未大規模投入使用[4]。聽診檢查具有設備廉價便攜、操作簡單的優點,曾經是臨床醫生感知心臟雜音、診斷瓣膜病變的主要手段。但聽診檢查缺乏特異性,還對臨床醫生心臟聽診的專業能力有一定的要求[5],隨著便攜超聲心動圖的應用,聽診器在西方國家心臟瓣膜病的診療上已逐漸被淘汰[6]。
計算機輔助心音分析給予了心臟聽診新的應用方式。其最初于1963年由David等[7]提出,實現對風濕性心臟病病理性心音的識別,然而受制于當時的硬件條件未能進一步發展。隨著現代科技的進步,人工智能為心音自動識別指引了新方向。深度學習作為人工智能的一個分支,已被應用于許多自動識別心音的分類模型中。近期發表的模型的靈敏度已能達80%[8],但其訓練集多取自CinC 2016 Challege心音分類挑戰賽的二分類心音數據庫,該數據庫中僅有心音是否異常的標簽[9-10],訓練所得模型不具備區分疾病類型的能力。目前國內相關研究較少,既往國外研究所得模型應用于我國患者時可能存在較大偏差。綜上,我們希望應用本土心音數據開發一個基于深度學習方法應用心音診斷主動脈瓣狹窄的模型,能用于篩查主動脈瓣狹窄患者,推進更早的臨床監測和干預。
本次研究應用3MTM聽診器于臨床環境下采集心音,并用于訓練基于稠密連接網絡(DenseNet121)架構、以一維卷積神經網絡(convolutional neural networks,CNN)為基礎的模型,進而實現對主動脈瓣狹窄患者與健康人群的自動準確分類。
1 資料與方法
1.1 臨床資料及心音采集
為了獲得用于訓練及驗證應用的深度學習模型的心音數據,我們使用3MTMLittmann電子聽診器,于2021年6月—2022年2月在天津市胸科醫院采集患者心音,進行前瞻性研究。納入標準:心臟超聲診斷為主動脈瓣狹窄的患者以及心臟超聲排除主動脈瓣疾病者。排除標準:有心臟瓣膜置換史或心電圖確診心房顫動的患者。對納入的患者,使用3MTMLittmann電子聽診器的錄音功能,在臨床環境下以4 000 Hz采樣,分別于主動脈瓣聽診區(胸骨右緣第2肋間),主動脈瓣第2聽診區(胸骨左緣第3肋間)聽診,每個聽診區記錄30 s,保存于與聽診器相配套的StethAssist程序中,并將輸出音頻轉換為wav格式,該步驟由臨床醫師進行以確保不同聽診區位置的準確性。心音采集過程中由心臟相關專業的臨床醫師同步聽診確保數據質量能達到模型所需標準,若質量較差則重新聽診采集。
1.2 心音數據的預處理
1.2.1 心音分割
心音采集過程中已對數據質量進行控制,故不設置進一步的數據篩選步驟。對采集的心音數據,按照7∶1∶2的比例分為訓練集、驗證集及測試集。將每段音頻起始及結尾的不穩定心音數據刪除,對剩余心音數據使用步長為1 s的滑動窗口將其分成長度為3 s的音頻片段,從而將長時間的音頻數據分割為若干片段,作為適合的深度學習模型輸入樣本。
1.2.2 數據強化
由于數據集中的心音數據量相對有限,CNN模型又具有優異的特征提取能力,容易導致模型的過擬合。為減少這個問題,采用了音頻數據強化的方案。對訓練集及驗證集的每段3 s音頻,以30%觸發概率,觸發高斯噪聲、噪聲沖擊、心率放緩和心率加速4種變化,從而增加訓練數據數量。
1.2.3 濾波降噪
心音在采集過程中,很難采集到純凈的信號,干擾噪聲例如:采集設備的電路噪聲、微弱的呼吸音、采集對象的晃動、心音傳感器與皮膚的摩擦音、采集環境噪聲,均會對后續的訓練產生影響。因此對采集到的心音,使用25~400 Hz的帶通濾波器去除低頻和高頻噪聲,便于后續分析處理。
1.2.4 音頻數據的讀寫與變換
通過python實現對wav格式心音數據的讀寫,將模擬信號轉換為數字信號。而后應用傅里葉變換將心音數據從時間域轉換至頻率域,進而實現后續對信號頻譜結構和變化規律的研究。
1.3 深度學習模型
本次研究使用Keras中采用的2017年發表的DenseNet 121架構[11],以此為基礎搭建一維CNN模型。基本結構包括輸入層、稠密塊、過渡層、全連接層及輸出層,稠密塊及過渡層為DenseNet的構件模塊,前者為輸入與輸出的連接方式,后者則用來控制通道數,通過跨層連接設計,實現特征重用,減少參數及計算成本。最后的全連接層采用softmax邏輯回歸進行分類,使用多數投票法給出最終輸出的結果。
將預處理得到的心音數據訓練集用于模型的學習,驗證集用于測試之前調整超參數以避免過擬合,用測試集數據輸入模型之中獲得研究結果。
所得深度學習模型輸出結果包括陽性(主動脈瓣狹窄)及陰性(無主動脈瓣疾患)。該模型擬應用于便攜設備對主動脈瓣狹窄高危人群實現低成本篩查,非心臟相關專業臨床醫師可參考模型判斷結果給予患者是否需進一步檢查的建議。模型存在假陰性及假陽性結果的可能性,作為目標篩查疾病的模型,假陰性結果相對假陽性結果后果更為嚴重,故不建議以模型判斷結果作為排除診斷的依據。對判別為陽性或陰性但具有相關臨床癥狀的患者都建議進行后續心臟超聲檢查進一步明確主動脈瓣病變情況。
1.4 統計學分析
采用SPSS 26.0 軟件進行統計分析,正態分布的計量資料采用均數±標準差(±s)描述,使用獨立樣本t檢驗進行組間比較。計數資料采用例數和百分比(%)表示,使用χ2檢驗進行組間比較。
采用以下方案評價模型:繪制混淆矩陣圖像,其中包含4項指標:真陽性(TP)是正確分類的異常心音的數量,假陽性(FP)是錯誤分類的正常心音的數量,真陰性(TN)是正確分類的正常心音的數量,假陰性(FN)是錯誤分類的異常心音的數量;而后計算準確率(accuracy,Acc)、靈敏度(sensitivity,Se)、特異度(specificity,Sp)。使用以上數據繪制受試者工作特征(receiver operating characteristic,ROC)曲線以及精確度-召回率(precision-recall,PR)曲線。計算ROC曲線下面積(area under the curve,AUC),用以評價模型效果。檢驗水準α=0.05。
1.5 倫理審查、注冊與數據訪問
本研究已通過天津市胸科醫院醫學倫理委員會的審批,審批號:2022LW-017;并在中國臨床試驗注冊中心注冊,注冊號:ChiCTR2200056074。本次研究所得模型尚未達到實際應用級別,后續仍需大量改進,目前無明確搭載目標,故無法實現代碼訪問。
2 結果
2.1 患者資料
本研究共采集到50例無主動脈瓣疾病患者(陰性組)以及50例主動脈瓣狹窄患者(狹窄組)的共200條心音數據,基線資料及超聲特征見表1。50例主動脈瓣狹窄患者中輕、中、重度主動脈瓣狹窄患者分別為12例、8例、30例,其中無癥狀主動脈瓣狹窄患者為11例,陰性組患者未對平均跨瓣壓差及有效瓣口面積進行測量。兩組患者超聲數據差異有統計學意義(P<0.05)。


2.2 心音數據集
圖1~3為心音數據的預處理過程中分割、數據強化、濾波降噪步驟的示意圖,處理后的心音片段用于后續模型的訓練、驗證與測試。

每個片段長 3 s,間隔 1 s,相鄰片段有 2/3 重合

30%觸發概率,觸發高斯噪聲、噪聲沖擊、心率放緩、心率加速

2.3 模型架構及訓練
本文應用的模型流程見圖4。從輸入端將心音音頻輸入后通過單層卷積提取特征,池化層減少參數,輸入至后方的稠密塊中。采用DenseNet121的結構,稠密塊1中含有6個卷積核,稠密塊2中為12個卷積核,稠密塊3中為24個卷積核,稠密塊4中為16個卷積核。卷積核稠密塊之間由過渡層連接,主要作用為控制通道數量,進而壓縮模型。稠密塊4的輸出結果作為輸入輸出至以softmax作為激活函數的全連接層,最后通過多數投票法給出最終判斷結果。

圖5為單個稠密塊內部的密集連接結構示意圖,其核心思想為后續層會接受前面所有層的輸出作為額外輸入,其公式如下,第n層的輸出Xn是前n–1層作為輸入經過非線性變換得到。非線性變換H是BN+ReLU+Conv的組合,BN指批量歸一化,ReLU為一種分段的激活函數,Conv指激活函數。圖5中最終的輸出為X0到X4的總和,從而實現特征重用。稠密塊的應用使得神經網絡結構更加緊湊,參數更少,保證特征信息最大程度地傳輸利用,大幅提升網絡性能。

Xn為第n層輸出的特征,Hn為第n層的非線性變換
模型的訓練采用了早停法,訓練數據被分為訓練集與驗證集,模型只在訓練集上進行訓練,并每隔一定周期計算模型在驗證集上的誤差,當模型在驗證集上的誤差比上一次訓練結果差的時候,記錄上一次迭代結果中的參數,而后繼續迭代直至泛化錯誤于連續多個周期增長,采取全局最優的參數作為最終參數。
2.4 模型性能評價
應用測試集對模型性能進行測試,模型的準確度為91.67%,靈敏度為90.00%,特異度為92.50%;ROC曲線中AUC=0.979,取得了很好的分類效果;見圖6。

a :ROC 曲線;b: PR 曲線;c :混淆矩陣圖;ROC:受試者工作特征;PR:精確度-召回率;AUC:曲線下面積
3 討論
目前無癥狀主動脈瓣狹窄患者的發現主要通過體檢中的心臟超聲,限定了醫療場所,同時對設備要求較高,價格也較高,很多未被發現的早期主動脈瓣狹窄患者直至疾病發展至中晚期出現癥狀才會就醫進行相關檢查,錯過了治療的最佳時機。而能在社區進行的聽診檢查則兼具便利性及便攜性,作為普適性篩查具有重要的臨床應用價值,但人工聽診的高臨床經驗需求限制了其廣泛應用。Sztajzel等[12]曾經進行過一項關于醫生聽診的研究,結果表明,內科醫師與心臟專家通過聽診識別中重度主動脈瓣狹窄的準確率均為91.3%,內科醫師識別輕度主動脈瓣狹窄的準確率為53.9%,心臟專家為71.4%,而在我國缺乏統一聽診訓練的基層醫生對主動脈瓣狹窄的識別準確率更低。由此可見高準確率的機器輔助聽診技術擁有廣闊的應用前景。
計算機心音分類主要分為兩大類:傳統機械學習方法以及深度學習方法。傳統機械學習方法具有訓練簡便以及算法易于優化的優點,但其要求復雜的預處理,包括對心音信號的精確分割以及手動的特征提取,在面對更加復雜的心音數據集時工作量巨大。而目前深度學習方法的主要限制為硬件要求高,訓練時間較長,但其擁有自動學習特征的能力,具有更高的效率。而根據以往研究[13],基于深度學習的心音分類準確率普遍高于基于傳統機器學習的心音分類準確率,近年來相關研究的趨勢多為應用深度學習方法分類心音數據。
本次研究使用的基于一維CNN的深度學習模型,在判斷主動脈瓣狹窄患者與無主動脈瓣疾病患者上具有90.00%的靈敏度及91.67%的準確度。既往研究中已有不同類型的基于深度學習的模型發表,例如Dominguez-Morales等[14]應用深度卷積神經網絡(alexnet)架構的CNN模型獲得了95.12%的靈敏度及93.20%的特異度;Siddique等[15]應用循環神經網絡模型,在雙向長短期記憶網絡框架下獲得98.8%的靈敏度及98.3%的特異度;Sotaquirá等[16]研發的應用深度神經網絡的模型靈敏度88.2%,特異度90.3%。上述提到的模型應用的心音數據庫均為CinC Challenge 2016公布的數據庫,該數據庫無心音所有者的具體疾病標簽,僅能區分心音數據是否異常,因此訓練所得模型只具有判斷心音是否異常的二分類功能。2018年Yaseen團隊[17]提供了一個新的心音數據庫,其中包括主動脈瓣狹窄、二尖瓣反流、二尖瓣狹窄、二尖瓣脫垂以及正常組5個不同類別。研究者[18-19]基于該數據庫進行了多種異常心音的分類模型研究,分別達97.0%及98.6%的準確率,高于本研究模型。但此數據庫并非直接來自臨床采集,而是從教學書籍或網絡上隨機收集獲得,其中部分心音是作為訓練人耳辨識異常心音的教學材料,在噪音極少的情況下還擁有明確的心臟雜音,數據庫內的心音數據可能與臨床實際環境所獲得的心音數據差異較大,訓練所得的模型應用于臨床環境下時可能出現性能下降的情況。目前國內暫無心音數據的大型數據庫,國內臨床采集心音數據進行具體疾病分類的深度學習模型研究尚屬首次。
在臨床工作條件下的心音數據收集過程中,無主動脈瓣疾病患者以及重度主動脈瓣狹窄的患者占比較高,為避免數據不平衡導致的靈敏度與特異度失衡采用了各類別均勻采集的方案。而過去多數研究使用的數據庫中正常心音標簽數目遠多于異常標簽,常規采用的交叉熵研究方法無法避免類別不平衡的問題,可能會導致最終判斷結果中假陰性比例升高。近期Li等[20]嘗試應用了兩種加權損失函數:平衡交叉熵損失函數和焦點損失函數,來處理不平衡數據集的問題。該方案成功提高了異常心音的分類性能,這提示我們后續研究中可以放棄均勻采集各類別心音的方案。
本次研究共采集了100例患者的心音數據,在同類研究中樣本量相對較小,受到Baghel等[19]研究中數據增強的啟發,使用了合成心音數據的方案,通過觸發高斯噪聲、噪聲沖擊、心率放緩和心率加速4種變化增加數據量,減少了記憶的情況并提高了泛化性。受制于較小的樣本量,沒有選擇N折交叉驗證及bootstrap等重采樣方法,訓練過程中也沒有采用丟棄法。但依靠使用獨立于訓練數據的驗證組進行早停法,減少了過擬合情況的發生。但這無法完全解決樣本量的問題,依據 Cho等[21]的研究,應用于圖形識別的CNN模型在各類別數據達100~200例時,學習曲線到達較為穩定的狀態,我們的研究各類型數據僅在50例左右,這說明我們的模型可能尚未達到最佳訓練狀態。我們嘗試按主動脈瓣狹窄嚴重程度分級對模型進行訓練,但因各分級數據量較小未能獲得滿意的結果。此外,由于此研究為天津市胸科醫院的單中心研究,就診患者主動脈狹窄疾病相對較重,會對模型學習結果產生一定影響,單中心的數據也無法完全代表國內全體患者的特點,應用于其他地區乃至國外患者時可能會出現靈敏度下降的情況。
深度學習作為機器學習的一個分支,已經在語音識別、圖像識別、生物醫學數據分析、信號處理、自動駕駛等領域表現出良好的實用性和可靠性[8]。本文研究的CNN模型雖然在建模學習過程中需要強大的CPU與GPU支持,但隨著模型的完善以及超參數的確定,對硬件的需求將大幅降低,壓縮后的模型可以轉移至低成本的輕量處理器中,或是安裝于電子聽診器上,制成一體化的設備,直接給予診斷建議,在疾病篩查中擁有巨大的潛力,將有效推動主動脈瓣狹窄患者的早期識別與診斷進程。
目前關于心音識別的深度學習模型相關研究主要受制于沒有足量有明確標簽的心音數據,然而獲取大量心音數據對臨床醫生負擔較重,針對某種特定疾病時尤為如此。隨著醫院聯網系統的完善,于臨床環境直接對患者進行統一的心音采集變得可行,近期已有研究[22]提出了聯合學習框架,對跨協作機構的學習模式進行了實驗與分析,該框架具有獨特的隱私保護優勢,并嘗試通過多機構的聯合建立新的心音數據庫。大型心音數據庫的建立將有效推進心音分析模型的開發。
深度學習模型通常能夠有效對目標問題進行預測或分類,但對其診斷結果的解釋一直是一項具有挑戰的任務。既往在醫學影像[23]以及心電圖分析[24]上已經獲得了一些成果,而心音數據因為其復雜性及不穩定性,僅有Liu等[25]在兒科先天性心臟病上進行過相關研究,其通過將每個心音補丁的類激活圖可視化來嘗試解釋模型,取得一定成果。我們應用成人心音數據與之相比更加穩定,沒有生理性第3心音的干擾,使用類似的方案或許能夠獲得更加有意義的結論,未來會進行進一步嘗試。
在各種心臟瓣膜疾病頻發的現在,早期診斷已經成為臨床工作中的一個重要問題,許多患者發現臨床癥狀時已經錯過最佳治療時間。本文構建了一種基于深度學習診斷主動脈瓣狹窄患者心音的模型,該模型能夠應用輸入的心音音頻將患者分辨為主動脈瓣狹窄患者及非主動脈瓣狹窄患者,有助于主動脈瓣狹窄患者的早期診斷,使其獲得更早的就診時機。結果顯示,該模型靈敏度為90.00%,遠高于人工聽診。其同時還擁有著低成本、低專業經驗需求的優點,在醫療資源欠發達地區疾病篩查上擁有廣闊的應用前景,能為主動脈瓣狹窄患者的盡早發現、盡早干預提供助力。
利益沖突:無。
作者貢獻:陳正大負責查閱資料,撰寫論文; 付博負責論文數據整理與分析;王建宇負責數據收集;姜楠、郭志剛負責論文設計、審校及修改。