引用本文: 陳俊輝, 何培宇, 方安成, 王政捷, 童琪, 趙啟軍, 潘帆, 錢永軍. 基于深度學習的柯氏音時相分類研究. 中國胸心血管外科臨床雜志, 2023, 30(1): 25-31. doi: 10.7507/1007-4848.202207007 復制
柯氏音是人工聽診法測量血壓過程中施加在肱動脈上的袖帶壓力勻速下降產生的動脈音。目前在臨床血壓測量領域,人工聽診法的使用最為廣泛,即將聽診式血壓計的袖帶套在上臂處,對袖帶充氣至超過收縮壓(systolic blood pressure,SBP)20~30 mm Hg的位置以確保肱動脈完全閉塞,在袖帶放氣時,將聽診器放置在肱動脈上聽取柯氏音,SBP和舒張壓(diastolic blood pressure,DBP)分別對應于柯氏音的出現和消失[1-2]。柯氏音在袖帶壓力下降過程中的聲學特征會發生有規律的變化,被分為5個時相(K1~K5),即彈響音、雜音、拍擊音、捂音和消失音[3-5]。根據《中國血壓測量指南》[6]可知,不同人群在人工聽診法測量血壓過程中SBP和DBP對應的柯氏音時相不同,但是目前以示波法為基礎的電子血壓測量設備不能區分柯氏音時相,所以柯氏音時相的分類在針對不同人群進行聽診法測量血壓的過程中非常關鍵。
當前臨床上使用人工聽診法測量血壓時都以K1時相的第1個音對應為SBP,也有研究[7]稱以K2時相的第1個音對應為SBP更合適,成人取K5時相的第1個音對應為DBP。兒童DBP的讀數取柯氏音的K4時相還是K5時相國內外尚未統一,但是國內常取K4時相的第1個音對應為兒童DBP[6]。對于孕婦,大多數產科醫生達成的共識是:女性妊娠期間,血壓測量取K1時相的第1個音對應為SBP,而DBP受妊娠的影響變異較大,妊娠者的DBP仍由K5時相的第1個音確定,特殊情況可由K4時相的第1個音確定[6, 8]。人工聽診需要接受過專業培訓的人員進行操作,不同人之間的主觀判斷會造成識別出的柯氏音出現和消失時機不準確,導致對應的SBP和DBP出現誤差。因此,人工聽診不僅需要具備一定的聽診器相關專業知識,還需要技能培訓、測量經驗和良好的聽力[9]。因為人可以區分出不同的柯氏音時相,所以人工聽診法相較于電子血壓測量設備更加精確,為了減輕醫生的工作負擔同時提高血壓測量的效率,以聽診法為基礎的柯氏音時相分類自動血壓測量方法顯得尤為重要。
1 資料與方法
1.1 數據采集
本研究所有實驗數據來自于44位健康的志愿者,其中男20位、女24位,平均年齡為36歲,平均身高為169 cm,平均體重為66 kg,平均臂圍為27 cm。所有志愿者均無任何已知的心血管疾病。所有血壓測量均由訓練有素的操作員在安靜且溫度受控的臨床測量室中進行。在測量之前,要求每位志愿者在椅子上休息5 min,并在整個測量過程中輕輕呼吸。整個測量過程重復進行3次或者9次,每次中間間隔1 min。整個過程遵循英國高血壓協會和美國心臟協會推薦的指南[1, 10]。最終有26位志愿者每人采集到3條柯氏音數據,有18位志愿者每人采集到9條柯氏音數據。采樣率為2 000 Hz。
1.2 算法流程和預處理
本研究提出的柯氏音時相分類算法流程主要包括訓練階段和測試階段。訓練和測試階段都需要對柯氏音信號進行預處理并生成特征圖,將訓練數據送入網絡訓練并保存模型,測試數據送入保存好的訓練模型中進行測試并得出分類結果;見圖1。

Attention:注意力機制;ResNet:殘差網絡;BiLSTM:雙向長短時記憶網絡
預處理的目的是為了消除柯氏音信號中的噪聲,同時將一段連續的柯氏音切分成不連續的單個柯氏音,能更方便地提取柯氏音的特征并得到不同時相柯氏音特征的變化規律。預處理過程包括以下幾個步驟:(1)人工聽取一段柯氏音并標注出5個時相,將不同時相之間的柯氏音信號切分出來;(2)將袖帶壓力信號依次通過6階低通濾波器和4階高通濾波器進行濾波處理,得到脈搏波信號;(3)檢測脈搏波信號的所有峰值點并對其進行標記;(4)將步驟(1)中切分出來的柯氏音信號以脈搏波的峰值點所在位置為中心,創建1個長度為1 s(2 000個采樣點)的時間窗,逐秒提取柯氏音幀,每一幀里面包含1個單獨的柯氏音信號;見圖2。

FFT:快速傅里葉變換
1.3 柯氏音特征提取
由于人耳聽到的聲音高低和實際頻率不呈線性關系,而梅爾(mel)頻率更符合人耳的聽覺特性,所以將線性頻率下生成的聲譜圖轉換為梅爾尺度。普通頻率轉化到梅爾頻率的公式是:
![]() |
梅爾頻譜圖生成的過程如下:(1)將預處理切分出來的柯氏音幀信號通過窗長為60 ms、重疊率為85%的漢明窗;(2)對每一幀信號做快速傅里葉變換;(3)送入濾波器數量為64的梅爾濾波器組;(4)將每1個濾波器輸出的頻率分量相加生成梅爾頻譜圖。圖3為5個時相分別對應的梅爾頻譜圖。

1.4 深度學習模型
深度卷積神經網絡(convolutional neural network,CNN)通過疊加更多的網絡層數,可以更好地從圖像中提取不同層次的空間特征。然而隨著網絡層數的增加,訓練準確度出現飽和,甚至出現下降[11]。與其它深度卷積網絡模型相比,殘差網絡(residual network,ResNet)可以通過添加恒等映射來解決訓練準確度下降問題。
本研究所引入的Attention注意力機制分為兩個獨立部分,通道注意力模塊和空間注意力模塊,二者組合在一起組成CBAM模塊。研究表明順序組合并且將通道注意力模塊放在空間注意力模塊前面可以取得更好的效果。CBAM模塊集成到1個ResNet單元中,形成1個Attention-ResNet結構;見圖4。

長短時記憶網絡(long short-term memory,LSTM)是一種特殊的遞歸神經網絡模型,可以從任意時序數據中提取特征[12]。為了使預測結果更加準確,需要由前面若干輸入和后面若干輸入共同決定,因此采用了雙向長短時記憶網絡(bidirectional long short-term memory,BiLSTM)。BiLSTM由前向的LSTM和后向的LSTM結合而成。
1.5 研究過程
最終得到26×3+18×9=240段柯氏音樣本(26位志愿者每人錄制3段柯氏音,18位志愿者每人錄制9段柯氏音),并采用10折交叉驗證的方式進行訓練和測試。將每段柯氏音切分成30個單獨的柯氏音片段并生成30張特征圖,最終可以得到30×240=7 200張柯氏音特征圖,將其平均分成10份,每份720張特征圖。每折在進行訓練和測試的時候將其中9份作為訓練集,剩下1份作為測試集,最終將10折的測試結果取平均即可得到分類結果。在實驗中使用了18層殘差網絡(ResNet18)與Attention注意力機制的組合來深度提取柯氏音梅爾頻譜圖的特征。首先將一段柯氏音生成的30張梅爾頻譜圖(每張梅爾頻譜圖的尺寸為224×224×3)送入Attention-ResNet18網絡進行特征提取,Attention-ResNet18網絡的卷積層使用TimeDistributed層進行封裝,使30個時間序列共享同1個卷積層參數信息,每個時間序列經過Attenttion-ResNet18網絡后輸出1個4 608維的特征向量,然后在每1個時間步上將特征向量送入BiLSTM網絡,最后經過全連接層和SoftMax層分類輸出1個30×5的矩陣,“30”表示送入網絡的梅爾頻譜圖數量,“5”表示經過one-hot編碼后5個時相的標簽。訓練網絡時采用批處理,訓練輪數(epoch)為60,每輪的批次(batch)為30,學習率為0.001,優化器選擇的是自適應矩估計優化器(adaptive moment,Adam),損失函數選擇的是交叉熵損失函數(categorical crossentropy)。本研究的網絡結構見圖5。

Attention:注意力機制;ResNet:殘差網絡;BiLSTM:雙向長短時記憶網絡
1.6 評估指標
對測試結果進行評估時采用了以下指標:準確率(accuracy)、召回率(recall)、精確度(precision)和F1值(F1-score)。計算以上指標需要區分4個概念,分別為真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN)。
準確率計算的是正確預測的樣本數占總預測樣本數的比例,即分類正確的柯氏音時相占總分類時相的比例。
![]() |
召回率計算的是正確預測的正樣本數占真實正樣本數的比例,即分類后的每個時相中分類正確的柯氏音時相所占的比例。
![]() |
精確度計算的是正確預測的正樣本數占所有預測為正樣本數的比例,即分類前原始標簽對應的每個時相中分類正確的柯氏音時相所占的比例。
![]() |
F1值計算的是召回率和精確度的調和平均,召回率和精確率任何1個數值減小,F1值都會減小,反之亦然。
![]() |
1.7 倫理審查
本研究已通過四川大學華西醫院生物醫學倫理委員會的審批,審批號2018-301。所有志愿者均已簽署知情同意書。
2 結果
2.1 柯氏音時相整體分類結果
將訓練好的Attention-ResNet18-BiLSTM網絡模型在測試集上進行測試,測試結果見表1。對于K1時相和K2時相,模型的平均召回率和精確度都能達到90%以上;對于K5時相能達到99%以上;對于K3時相模型的平均召回率和精確度分別為86.8%、87.4%;K4時相的精確度較高,為88.0%,但是召回率較低,為84.6%,K4時相樣本量較少以及有較多的K4時相柯氏音被分到K3時相和K5時相。模型對柯氏音時相進行5分類,整體準確率達到了93.4%,說明本文提出的模型整體性能較好。

2.2 其它網絡模型對比分析
實驗中除了使用本文提出的Attention-ResNet18-BiLSTM網絡,還使用了ResNet18網絡、Attention-ResNet18網絡和ResNet18-BiLSTM網絡來進行對比。10折數據平均分類準確率顯示,Attention-ResNet18-BiLSTM網絡(93.4%)比ResNet18網絡(90.1%)分類準確率高3.3%,比Attention-ResNet18網絡(90.2%)和ResNet18-BiLSTM網絡(92.5%)分類準確率分別高3.2%和0.9%。
4種模型對柯氏音5個時相的分類相關結果見表1。可以看到ResNet18、Attention-ResNet18網絡模型對K3時相和K4時相的分類效果均不理想,原因在于K3時相和K4時相柯氏音頻率分布相近,加上不同人體之間柯氏音信號強度不一樣,導致它們之間特征差異更加不明顯,K3時相的召回率分別為82.1%和81.7%,精確度分別為82.9%和79.9%;K4時相的召回率分別為73.8%和74.6%,精確度分別為77.9%和77.0%。本研究所提出的模型在K3時相和K4時相的識別中相較于這2種模型有較大提升,K3時相的召回率分別提升了4.7%和5.1%,精確度分別提升了4.5%和7.5%;K4時相的召回率分別提升了10.8%和10.0%,精確度分別提升了10.1%和11.0%。對于K1時相、K2時相和K5時相,本研究所提出的網絡模型均優于這2種網絡。通過表1中的結果還可以發現,Attention-ResNet18模型在K1時相、K4時相以及K5時相的召回率均高于ResNet18模型,Attention-ResNet18-BiLSTM模型對比于ResNet18-BiLSTM模型也有此結果,而K1時相和K4時相正是確定SBP和DBP的關鍵,所以Attention注意力機制對本研究中K1時相和K4時相的分類效果是積極的。因此,本研究所提出的模型在整體分類準確率以及每個時相分類的召回率和精確度上,相對其它網絡模型都具有一定的優勢。
3 討論
近年來,深度學習技術已廣泛應用于醫學圖像處理領域,例如皮膚癌分級[13]、糖尿病視網膜病變[14]、乳腺癌病理特征提取[15]和腦電信號情緒識別[16]等。同時,在自然語言處理[17]和自動語音識別[18-20]領域深度學習技術也取得了令人矚目的成果。在無創自動測量血壓相關領域,潘帆等[21]首次將CNN方法應用在血壓測量過程中柯氏音變化的研究中,他們將一段柯氏音切分成單個柯氏音并轉換為聲譜圖進行識別,研究表明,柯氏音可以在SBP和DBP時期內被識別出來并隨著心臟跳動存在潛在變化;Park等[22]提出了一種新的算法,通過計算柯氏音的總功率來識別柯氏音的出現和消失,進一步估算出對應的SBP和DBP,但是該方法與傳統人工聽診法相比并沒有帶來精度上的提升;潘帆等[23]后續提出,將CNN與LSTM結合,從柯氏音信號中提取時間相關特征,通過識別柯氏音的出現與消失來估計對應的SBP和DBP;Dziban 等[24]開發了一種基于聽診法的自動測血壓裝置,利用柯氏音出現的周期及其包含的頻率作為主要參數,在對應的算法中檢測柯氏音的出現和消失。
上述研究大都通過柯氏音的功率、周期和頻率等特征來檢測柯氏音的出現和消失,進一步估算出對應的SBP和DBP。據調研,目前沒有對柯氏音時相進行分類的相關研究。因此,本文提出了一種基于Attention-ResNet18-BiLSTM方法的柯氏音時相分類模型,將單個柯氏音切分出來并轉換為梅爾頻譜圖,在提取到柯氏音信號特征的前提下,對柯氏音時相進行了準確分類,有望對孕婦和兒童等特殊人群血壓測量的準確率上做出提升,同時為后續開發基于柯氏音時相識別的自動血壓測量設備提供技術支持。
在柯氏音信號處理過程中,以往相關研究采用聲譜圖來提取柯氏音信號特征,聲譜圖為二維時頻特征譜圖,由于柯氏音信號的頻率范圍在20~800 Hz之間[25],并且不同時相之間的柯氏音信號在頻率分布上差別不大,導致聲譜圖中不同時相之間的柯氏音信號特征差異不明顯。本研究使用梅爾頻率表示的梅爾頻譜圖。梅爾頻率與正常頻率之間為對數關系,在低頻范圍內,相同的頻率間隔下梅爾頻率變化范圍更大,所以不同時相之間柯氏音信號在梅爾頻譜圖上的特征差異更明顯。
從最終5個時相的分類結果中可知,由于K5時相屬于靜音段,其梅爾頻譜相較于其它時相特征差異較大,所以K5時相分類效果最好(召回率=99.2%,精確度=99.2%,F1 值=99.1%);K1時相和K2時相的柯氏音在梅爾頻譜圖中特征表現為振幅高、頻率分布廣,尤其K2時相的柯氏音在梅爾頻譜圖中持續時間較長,所以K1時相(召回率=91.8%,精確度=91.6%,F1 值=91.5%)和K2時相(召回率=90.4%,精確度=90.2%,F1 值=90.1%)相較于K3時相(召回率=86.8%,精確度=87.4%,F1 值=86.9%)和K4時相(召回率=84.6%,精確度=88.0%,F1 值=85.1%)的分類效果要好;K3時相的柯氏音存在一個由強變弱的過程,在梅爾頻譜圖中表現為振幅由高變低,高頻部分逐漸消失,導致在人工標注時不容易確定K3時相結束的位置,所以最終的分類效果相對較差;K4時相的柯氏音信號集中在60~90 Hz范圍內,并且持續時間最短甚至有些人的柯氏音沒有K4時相,導致K4時相分類效果最差。
在神經網絡分類模型的結構設計中,本研究在傳統CNN的基礎上,將Attention注意力機制與ResNet18網絡組合,在對梅爾頻譜圖進行特征提取時能夠保留其時域和頻域特征維度上信息。為了從梅爾頻譜圖中得到更多特征,利用BiLSTM網絡提取特征中的時序信息,對比于LSTM網絡,BiLSTM可以為網絡提供額外的過去或未來的信息,以提高模型的性能。本研究所提出的模型很好地解決了其它模型在柯氏音信號分類中可能存在的問題,能夠更加準確地對柯氏音信號進行時相分類。
本研究提出的方法仍有一些不足和改進的空間。一方面,目前數據樣本較少,接下來會進一步擴充數據集數量。另一方面,該方法對于柯氏音第K3時相和K4時相的分類效果不夠理想,后續會在柯氏音信號特征提取和網絡優化上加以改進。
綜上,本研究提出基于Attention-ResNet-BiLSTM網絡模型的方法,對柯氏音時相進行了準確分類。該方法利用梅爾頻譜圖對柯氏音信號進行表征,并針對梅爾頻譜圖的特征提取進行了網絡模型優化,最終達到93.4%的平均分類準確率。相較于對比模型,本研究所提出的柯氏音時相分類方法在每一時相的準確率、召回率、精確度等方面都有一定提升,有望在后續針對不同人群的無創測量血壓設備設計中發揮作用,同時為提高孕婦和兒童等特殊人群血壓測量的準確率做出貢獻。
利益沖突:無。
作者貢獻:陳俊輝負責柯氏音預處理,模型搭建,結果分析,論文撰寫;方安成、王政捷、童琪負責文獻查閱;何培宇、錢永軍、趙啟軍、潘帆負責論文總體設計、審閱及修改。
柯氏音是人工聽診法測量血壓過程中施加在肱動脈上的袖帶壓力勻速下降產生的動脈音。目前在臨床血壓測量領域,人工聽診法的使用最為廣泛,即將聽診式血壓計的袖帶套在上臂處,對袖帶充氣至超過收縮壓(systolic blood pressure,SBP)20~30 mm Hg的位置以確保肱動脈完全閉塞,在袖帶放氣時,將聽診器放置在肱動脈上聽取柯氏音,SBP和舒張壓(diastolic blood pressure,DBP)分別對應于柯氏音的出現和消失[1-2]。柯氏音在袖帶壓力下降過程中的聲學特征會發生有規律的變化,被分為5個時相(K1~K5),即彈響音、雜音、拍擊音、捂音和消失音[3-5]。根據《中國血壓測量指南》[6]可知,不同人群在人工聽診法測量血壓過程中SBP和DBP對應的柯氏音時相不同,但是目前以示波法為基礎的電子血壓測量設備不能區分柯氏音時相,所以柯氏音時相的分類在針對不同人群進行聽診法測量血壓的過程中非常關鍵。
當前臨床上使用人工聽診法測量血壓時都以K1時相的第1個音對應為SBP,也有研究[7]稱以K2時相的第1個音對應為SBP更合適,成人取K5時相的第1個音對應為DBP。兒童DBP的讀數取柯氏音的K4時相還是K5時相國內外尚未統一,但是國內常取K4時相的第1個音對應為兒童DBP[6]。對于孕婦,大多數產科醫生達成的共識是:女性妊娠期間,血壓測量取K1時相的第1個音對應為SBP,而DBP受妊娠的影響變異較大,妊娠者的DBP仍由K5時相的第1個音確定,特殊情況可由K4時相的第1個音確定[6, 8]。人工聽診需要接受過專業培訓的人員進行操作,不同人之間的主觀判斷會造成識別出的柯氏音出現和消失時機不準確,導致對應的SBP和DBP出現誤差。因此,人工聽診不僅需要具備一定的聽診器相關專業知識,還需要技能培訓、測量經驗和良好的聽力[9]。因為人可以區分出不同的柯氏音時相,所以人工聽診法相較于電子血壓測量設備更加精確,為了減輕醫生的工作負擔同時提高血壓測量的效率,以聽診法為基礎的柯氏音時相分類自動血壓測量方法顯得尤為重要。
1 資料與方法
1.1 數據采集
本研究所有實驗數據來自于44位健康的志愿者,其中男20位、女24位,平均年齡為36歲,平均身高為169 cm,平均體重為66 kg,平均臂圍為27 cm。所有志愿者均無任何已知的心血管疾病。所有血壓測量均由訓練有素的操作員在安靜且溫度受控的臨床測量室中進行。在測量之前,要求每位志愿者在椅子上休息5 min,并在整個測量過程中輕輕呼吸。整個測量過程重復進行3次或者9次,每次中間間隔1 min。整個過程遵循英國高血壓協會和美國心臟協會推薦的指南[1, 10]。最終有26位志愿者每人采集到3條柯氏音數據,有18位志愿者每人采集到9條柯氏音數據。采樣率為2 000 Hz。
1.2 算法流程和預處理
本研究提出的柯氏音時相分類算法流程主要包括訓練階段和測試階段。訓練和測試階段都需要對柯氏音信號進行預處理并生成特征圖,將訓練數據送入網絡訓練并保存模型,測試數據送入保存好的訓練模型中進行測試并得出分類結果;見圖1。

Attention:注意力機制;ResNet:殘差網絡;BiLSTM:雙向長短時記憶網絡
預處理的目的是為了消除柯氏音信號中的噪聲,同時將一段連續的柯氏音切分成不連續的單個柯氏音,能更方便地提取柯氏音的特征并得到不同時相柯氏音特征的變化規律。預處理過程包括以下幾個步驟:(1)人工聽取一段柯氏音并標注出5個時相,將不同時相之間的柯氏音信號切分出來;(2)將袖帶壓力信號依次通過6階低通濾波器和4階高通濾波器進行濾波處理,得到脈搏波信號;(3)檢測脈搏波信號的所有峰值點并對其進行標記;(4)將步驟(1)中切分出來的柯氏音信號以脈搏波的峰值點所在位置為中心,創建1個長度為1 s(2 000個采樣點)的時間窗,逐秒提取柯氏音幀,每一幀里面包含1個單獨的柯氏音信號;見圖2。

FFT:快速傅里葉變換
1.3 柯氏音特征提取
由于人耳聽到的聲音高低和實際頻率不呈線性關系,而梅爾(mel)頻率更符合人耳的聽覺特性,所以將線性頻率下生成的聲譜圖轉換為梅爾尺度。普通頻率轉化到梅爾頻率的公式是:
![]() |
梅爾頻譜圖生成的過程如下:(1)將預處理切分出來的柯氏音幀信號通過窗長為60 ms、重疊率為85%的漢明窗;(2)對每一幀信號做快速傅里葉變換;(3)送入濾波器數量為64的梅爾濾波器組;(4)將每1個濾波器輸出的頻率分量相加生成梅爾頻譜圖。圖3為5個時相分別對應的梅爾頻譜圖。

1.4 深度學習模型
深度卷積神經網絡(convolutional neural network,CNN)通過疊加更多的網絡層數,可以更好地從圖像中提取不同層次的空間特征。然而隨著網絡層數的增加,訓練準確度出現飽和,甚至出現下降[11]。與其它深度卷積網絡模型相比,殘差網絡(residual network,ResNet)可以通過添加恒等映射來解決訓練準確度下降問題。
本研究所引入的Attention注意力機制分為兩個獨立部分,通道注意力模塊和空間注意力模塊,二者組合在一起組成CBAM模塊。研究表明順序組合并且將通道注意力模塊放在空間注意力模塊前面可以取得更好的效果。CBAM模塊集成到1個ResNet單元中,形成1個Attention-ResNet結構;見圖4。

長短時記憶網絡(long short-term memory,LSTM)是一種特殊的遞歸神經網絡模型,可以從任意時序數據中提取特征[12]。為了使預測結果更加準確,需要由前面若干輸入和后面若干輸入共同決定,因此采用了雙向長短時記憶網絡(bidirectional long short-term memory,BiLSTM)。BiLSTM由前向的LSTM和后向的LSTM結合而成。
1.5 研究過程
最終得到26×3+18×9=240段柯氏音樣本(26位志愿者每人錄制3段柯氏音,18位志愿者每人錄制9段柯氏音),并采用10折交叉驗證的方式進行訓練和測試。將每段柯氏音切分成30個單獨的柯氏音片段并生成30張特征圖,最終可以得到30×240=7 200張柯氏音特征圖,將其平均分成10份,每份720張特征圖。每折在進行訓練和測試的時候將其中9份作為訓練集,剩下1份作為測試集,最終將10折的測試結果取平均即可得到分類結果。在實驗中使用了18層殘差網絡(ResNet18)與Attention注意力機制的組合來深度提取柯氏音梅爾頻譜圖的特征。首先將一段柯氏音生成的30張梅爾頻譜圖(每張梅爾頻譜圖的尺寸為224×224×3)送入Attention-ResNet18網絡進行特征提取,Attention-ResNet18網絡的卷積層使用TimeDistributed層進行封裝,使30個時間序列共享同1個卷積層參數信息,每個時間序列經過Attenttion-ResNet18網絡后輸出1個4 608維的特征向量,然后在每1個時間步上將特征向量送入BiLSTM網絡,最后經過全連接層和SoftMax層分類輸出1個30×5的矩陣,“30”表示送入網絡的梅爾頻譜圖數量,“5”表示經過one-hot編碼后5個時相的標簽。訓練網絡時采用批處理,訓練輪數(epoch)為60,每輪的批次(batch)為30,學習率為0.001,優化器選擇的是自適應矩估計優化器(adaptive moment,Adam),損失函數選擇的是交叉熵損失函數(categorical crossentropy)。本研究的網絡結構見圖5。

Attention:注意力機制;ResNet:殘差網絡;BiLSTM:雙向長短時記憶網絡
1.6 評估指標
對測試結果進行評估時采用了以下指標:準確率(accuracy)、召回率(recall)、精確度(precision)和F1值(F1-score)。計算以上指標需要區分4個概念,分別為真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN)。
準確率計算的是正確預測的樣本數占總預測樣本數的比例,即分類正確的柯氏音時相占總分類時相的比例。
![]() |
召回率計算的是正確預測的正樣本數占真實正樣本數的比例,即分類后的每個時相中分類正確的柯氏音時相所占的比例。
![]() |
精確度計算的是正確預測的正樣本數占所有預測為正樣本數的比例,即分類前原始標簽對應的每個時相中分類正確的柯氏音時相所占的比例。
![]() |
F1值計算的是召回率和精確度的調和平均,召回率和精確率任何1個數值減小,F1值都會減小,反之亦然。
![]() |
1.7 倫理審查
本研究已通過四川大學華西醫院生物醫學倫理委員會的審批,審批號2018-301。所有志愿者均已簽署知情同意書。
2 結果
2.1 柯氏音時相整體分類結果
將訓練好的Attention-ResNet18-BiLSTM網絡模型在測試集上進行測試,測試結果見表1。對于K1時相和K2時相,模型的平均召回率和精確度都能達到90%以上;對于K5時相能達到99%以上;對于K3時相模型的平均召回率和精確度分別為86.8%、87.4%;K4時相的精確度較高,為88.0%,但是召回率較低,為84.6%,K4時相樣本量較少以及有較多的K4時相柯氏音被分到K3時相和K5時相。模型對柯氏音時相進行5分類,整體準確率達到了93.4%,說明本文提出的模型整體性能較好。

2.2 其它網絡模型對比分析
實驗中除了使用本文提出的Attention-ResNet18-BiLSTM網絡,還使用了ResNet18網絡、Attention-ResNet18網絡和ResNet18-BiLSTM網絡來進行對比。10折數據平均分類準確率顯示,Attention-ResNet18-BiLSTM網絡(93.4%)比ResNet18網絡(90.1%)分類準確率高3.3%,比Attention-ResNet18網絡(90.2%)和ResNet18-BiLSTM網絡(92.5%)分類準確率分別高3.2%和0.9%。
4種模型對柯氏音5個時相的分類相關結果見表1。可以看到ResNet18、Attention-ResNet18網絡模型對K3時相和K4時相的分類效果均不理想,原因在于K3時相和K4時相柯氏音頻率分布相近,加上不同人體之間柯氏音信號強度不一樣,導致它們之間特征差異更加不明顯,K3時相的召回率分別為82.1%和81.7%,精確度分別為82.9%和79.9%;K4時相的召回率分別為73.8%和74.6%,精確度分別為77.9%和77.0%。本研究所提出的模型在K3時相和K4時相的識別中相較于這2種模型有較大提升,K3時相的召回率分別提升了4.7%和5.1%,精確度分別提升了4.5%和7.5%;K4時相的召回率分別提升了10.8%和10.0%,精確度分別提升了10.1%和11.0%。對于K1時相、K2時相和K5時相,本研究所提出的網絡模型均優于這2種網絡。通過表1中的結果還可以發現,Attention-ResNet18模型在K1時相、K4時相以及K5時相的召回率均高于ResNet18模型,Attention-ResNet18-BiLSTM模型對比于ResNet18-BiLSTM模型也有此結果,而K1時相和K4時相正是確定SBP和DBP的關鍵,所以Attention注意力機制對本研究中K1時相和K4時相的分類效果是積極的。因此,本研究所提出的模型在整體分類準確率以及每個時相分類的召回率和精確度上,相對其它網絡模型都具有一定的優勢。
3 討論
近年來,深度學習技術已廣泛應用于醫學圖像處理領域,例如皮膚癌分級[13]、糖尿病視網膜病變[14]、乳腺癌病理特征提取[15]和腦電信號情緒識別[16]等。同時,在自然語言處理[17]和自動語音識別[18-20]領域深度學習技術也取得了令人矚目的成果。在無創自動測量血壓相關領域,潘帆等[21]首次將CNN方法應用在血壓測量過程中柯氏音變化的研究中,他們將一段柯氏音切分成單個柯氏音并轉換為聲譜圖進行識別,研究表明,柯氏音可以在SBP和DBP時期內被識別出來并隨著心臟跳動存在潛在變化;Park等[22]提出了一種新的算法,通過計算柯氏音的總功率來識別柯氏音的出現和消失,進一步估算出對應的SBP和DBP,但是該方法與傳統人工聽診法相比并沒有帶來精度上的提升;潘帆等[23]后續提出,將CNN與LSTM結合,從柯氏音信號中提取時間相關特征,通過識別柯氏音的出現與消失來估計對應的SBP和DBP;Dziban 等[24]開發了一種基于聽診法的自動測血壓裝置,利用柯氏音出現的周期及其包含的頻率作為主要參數,在對應的算法中檢測柯氏音的出現和消失。
上述研究大都通過柯氏音的功率、周期和頻率等特征來檢測柯氏音的出現和消失,進一步估算出對應的SBP和DBP。據調研,目前沒有對柯氏音時相進行分類的相關研究。因此,本文提出了一種基于Attention-ResNet18-BiLSTM方法的柯氏音時相分類模型,將單個柯氏音切分出來并轉換為梅爾頻譜圖,在提取到柯氏音信號特征的前提下,對柯氏音時相進行了準確分類,有望對孕婦和兒童等特殊人群血壓測量的準確率上做出提升,同時為后續開發基于柯氏音時相識別的自動血壓測量設備提供技術支持。
在柯氏音信號處理過程中,以往相關研究采用聲譜圖來提取柯氏音信號特征,聲譜圖為二維時頻特征譜圖,由于柯氏音信號的頻率范圍在20~800 Hz之間[25],并且不同時相之間的柯氏音信號在頻率分布上差別不大,導致聲譜圖中不同時相之間的柯氏音信號特征差異不明顯。本研究使用梅爾頻率表示的梅爾頻譜圖。梅爾頻率與正常頻率之間為對數關系,在低頻范圍內,相同的頻率間隔下梅爾頻率變化范圍更大,所以不同時相之間柯氏音信號在梅爾頻譜圖上的特征差異更明顯。
從最終5個時相的分類結果中可知,由于K5時相屬于靜音段,其梅爾頻譜相較于其它時相特征差異較大,所以K5時相分類效果最好(召回率=99.2%,精確度=99.2%,F1 值=99.1%);K1時相和K2時相的柯氏音在梅爾頻譜圖中特征表現為振幅高、頻率分布廣,尤其K2時相的柯氏音在梅爾頻譜圖中持續時間較長,所以K1時相(召回率=91.8%,精確度=91.6%,F1 值=91.5%)和K2時相(召回率=90.4%,精確度=90.2%,F1 值=90.1%)相較于K3時相(召回率=86.8%,精確度=87.4%,F1 值=86.9%)和K4時相(召回率=84.6%,精確度=88.0%,F1 值=85.1%)的分類效果要好;K3時相的柯氏音存在一個由強變弱的過程,在梅爾頻譜圖中表現為振幅由高變低,高頻部分逐漸消失,導致在人工標注時不容易確定K3時相結束的位置,所以最終的分類效果相對較差;K4時相的柯氏音信號集中在60~90 Hz范圍內,并且持續時間最短甚至有些人的柯氏音沒有K4時相,導致K4時相分類效果最差。
在神經網絡分類模型的結構設計中,本研究在傳統CNN的基礎上,將Attention注意力機制與ResNet18網絡組合,在對梅爾頻譜圖進行特征提取時能夠保留其時域和頻域特征維度上信息。為了從梅爾頻譜圖中得到更多特征,利用BiLSTM網絡提取特征中的時序信息,對比于LSTM網絡,BiLSTM可以為網絡提供額外的過去或未來的信息,以提高模型的性能。本研究所提出的模型很好地解決了其它模型在柯氏音信號分類中可能存在的問題,能夠更加準確地對柯氏音信號進行時相分類。
本研究提出的方法仍有一些不足和改進的空間。一方面,目前數據樣本較少,接下來會進一步擴充數據集數量。另一方面,該方法對于柯氏音第K3時相和K4時相的分類效果不夠理想,后續會在柯氏音信號特征提取和網絡優化上加以改進。
綜上,本研究提出基于Attention-ResNet-BiLSTM網絡模型的方法,對柯氏音時相進行了準確分類。該方法利用梅爾頻譜圖對柯氏音信號進行表征,并針對梅爾頻譜圖的特征提取進行了網絡模型優化,最終達到93.4%的平均分類準確率。相較于對比模型,本研究所提出的柯氏音時相分類方法在每一時相的準確率、召回率、精確度等方面都有一定提升,有望在后續針對不同人群的無創測量血壓設備設計中發揮作用,同時為提高孕婦和兒童等特殊人群血壓測量的準確率做出貢獻。
利益沖突:無。
作者貢獻:陳俊輝負責柯氏音預處理,模型搭建,結果分析,論文撰寫;方安成、王政捷、童琪負責文獻查閱;何培宇、錢永軍、趙啟軍、潘帆負責論文總體設計、審閱及修改。