基于機器學習和信號處理的聲學檢測方法是目前病理嗓音檢測的重要手段,嗓音特征的提取是其中至關重要的一環。目前廣泛使用的特征,存在依賴基頻提取、易受噪聲影響、計算復雜度高等不足。針對這些不足,本文提出了一種基于多頻帶分析和混沌分析的病理嗓音檢測方法。使用gammatone濾波器組模擬人耳聽覺特性進行多頻帶分析,獲取不同頻帶的信號;根據嗓音中的混沌現象帶來的湍流噪聲會惡化頻譜收斂性的特點,對每個頻帶的信號進行短時傅里葉變換,提取特征gammatone短時譜自相似度(GSTS),分析每個頻帶信號的混沌程度,來區分正常和病理嗓音。實驗結果顯示,結合傳統機器學習方法,GSTS在馬薩諸塞州眼耳醫院(MEEI)病理嗓音數據庫中識別準確率達到99.50%,相比已有識別率最高的特征提升3.46%,同時特征提取時間相比傳統非線性特征大幅減少。該結果表明,相比已有特征,GSTS具有更高的提取效率和更好的識別效果。
引用本文: 趙登煌, 周長偉, 朱欣程, 張曉俊, 陶智. gammatone短時譜自相似度的病理嗓音檢測. 生物醫學工程學雜志, 2022, 39(4): 694-701, 712. doi: 10.7507/1001-5515.202107037 復制
引言
隨著社會的發展,越來越多的因素,如空氣環境的污染、生活壓力的增大、嗓音的過度使用等,使人們的嗓音疾病發病率越來越高,尤其在主持人、播音員、歌唱家、教師等一些需要頻繁使用嗓音的職業人員中,嗓音疾病更為常見。這些嗓音疾病會給患者帶來嚴重的功能上和心理上的障礙[1],因此病理嗓音的檢測越來越受到人們的重視,檢測病理嗓音的需求越來越多。
目前,基于機器學習和信號處理的聲學分析方法因其成本低、非入侵性以及客觀性[2]逐漸被應用到病理嗓音檢測中,其主要步驟是將輸入的語音信號經過處理后,提取出不同的特征,作為嗓音信號分類的依據,再通過機器學習的方法,對嗓音信號進行分類處理。在聲學分析方法中,具備病理區分性的聲學特征參數選取是病理嗓音識別的關鍵,所提取特征參數的有效性和適用性直接影響機器學習的效果。近年來,國內外學者在嗓音特征提取的工作中,取得了多方面的突破,但仍舊存在一些不足。
常用的病理嗓音檢測的特征主要包括基本聲學特征、倒譜類特征、聲門類特征以及非線性動力學特征等。基本聲學特征方面,Virgilijus等[3]提取嗓音信號的基頻微擾(jitter)、振幅微擾(shimmer)、歸一化噪聲能量(normalized noise energy,NNE)、諧噪比(harmonic to noise ratio,HNR)、信噪比(signal to noise ratio,SNR)、基頻(F0)等特征,并與聲門功能指數(glottal function index,GFI)相結合,取得了最高84.60%的病理嗓音識別準確率,證明了基本聲學特征在病理嗓音識別方面的有效性。然而基本聲學特征依賴基頻的準確提取,當嗓音信號中含有大量噪聲時,基頻提取的準確性會降低[4],從而導致這一類特征失效。倒譜類特征方面,常見的有倒譜峰值突出(cepstral peak prominence,CPP)、梅爾頻率倒譜系數(Mel-scale frequency cepstral coefficients,MFCC)、線性預測倒譜系數(linear prediction cepstral coefficients,LPCC)等,這一類特征的提取不需要計算基頻,相比基本聲學特征有更好的魯棒性。Zhang等[5]提出特征增強Bark線譜對(enhanced-Bark line spectrum pair,E-BLSP),并與LPCC和MFCC相結合,使用支持向量機獲得了最高96.27%的識別準確率,使用深度神經網絡獲得了最高98.62%的識別準確率,同時也證明了基于人耳聽覺感知模擬提取特征參數是有效的分析手段。聲門類特征是指由聲門波提取的一系列特征,這一類特征減小了聲道和口唇輻射對嗓音信號的影響。Wu等[6]使用聲門波作為原始時域輸入,提取時域、頻域和MPEG-7特征,取得了平均99.47%的識別準確率。以上的研究從嗓音信號的基頻、頻譜、倒譜以及聲門波出發,提取特征參數,在病理嗓音檢測中取得了良好的效果,但語音信號是一種非線性、非平穩的信號,這些特征將語音信號近似為線性信號進行處理[7],忽略了病理嗓音信號中存在的混沌現象,不能從本質上區別正常和病理嗓音。Jiang等[8]認為,混沌可能是解釋聲音障礙中不規則現象的核心,混沌理論和非線性動力學方法有可能應用于診斷生理疾病和評價臨床治療效果,并提出使用非線性動力學特征來分析嗓音中的混沌現象。Arias等[9]將嗓音信號的最大李雅普諾夫指數(largest Lyapunov exponent,LLE)和關聯維數(correlation dimension,CD)組合,使用高斯混合模型分類,獲得了98.23%的識別準確率,相比于當時已有的識別方法有一定的提升,證明了非線性動力學參數在區分正常和病理嗓音方面的有效性。周強等[10]將gammatone濾波器與LLE相結合,提出新特征多頻帶最大李雅普諾夫指數(multi-band largest Lyapunov exponent,MBLLE),觀察到正常與病理嗓音的MBLLE值在部分頻帶有顯著差異,并取得了98.72%的識別準確率,證明了多頻帶分析結合非線性動力學參數可以提升病理嗓音識別效果。但是,非線性動力學特征計算十分復雜,需要消耗大量的時間[11],因此此類特征不利于實際應用。
針對傳統聲學特征對基頻的依賴性高、易受噪聲影響,以及非線性動力學特征計算復雜的缺點,本文提出新特征——gammatone短時譜自相似度(gammatone short time spectral self-similarity,GSTS),來表征嗓音的混沌程度,用以區分正常和病理嗓音。實驗表明,GSTS特征不僅提取速度快于非線性特征,且識別準確率優于傳統聲學特征和非線性特征。
1 多頻帶混沌分析
1.1 gammatone濾波器組
人耳對頻率的分析方式可以通過一組帶通濾波器進行一定程度的模擬,來增強在噪聲背景下檢測聲音的能力[12],最常使用的就是Mel濾波器組和gammatone濾波器組。由于gammatone濾波器比Mel濾波器能構成更精確的耳蝸濾波器模型,且在嗓音能量主要集中的低頻段,gammatone濾波器所使用的ERB尺度比Mel尺度具有更好的分辨率[13],故本文使用gammatone濾波器組作為嗓音信號多頻帶分析的工具。
gammatone濾波器的時域沖激響應表達式為:
![]() |
其中A為輸出增益;N為濾波器的階數,一般取4;b一般取1.109;fc為濾波器的中心頻率,一般取人耳臨界頻帶的中心頻率;φ為初始相位,一般取0。ERB(fc)是頻率為fc時濾波器的等價矩形帶寬:
![]() |
gammatone濾波器組由一系列以不同頻率為中心頻率的gammatone濾波器構成,濾波器的個數由嗓音信號的采樣頻率來確定,本文使用由24個gammatone濾波器組成的濾波器組,頻率范圍0~12.5 kHz,其幅頻響應如圖1所示。

可以觀察到,濾波器組在低頻處帶寬較窄,分布密集,頻率分辨率較高,在高頻處帶寬較寬,分布稀疏,頻率分辨率較低,這與人耳對聲音頻率的敏感程度是一致的,說明gammatone濾波器組能夠很好地模擬人耳基底膜的頻率分解特性。
1.2 嗓音的混沌現象
發聲系統中的許多部分,如聲帶組織的非線性應力-應變曲線、黏膜波的延遲反饋、氣流與聲帶組織間的流-固耦合作用、聲道的非線性濾波作用等都具有非線性特性[8,14],說明發聲系統具備產生混沌信號的生理條件。在過去幾十年的研究中,學者們分別從電腦模擬的聲帶模型實驗[15]、離體喉實驗[16]和嗓音的非線性動力學分析[17-18]中觀察并確定了人發聲過程中存在混沌現象。
正常的嗓音信號中,幾乎由周期性的振動占主要部分,當患有嗓音疾病時,嗓音中的非周期振動成分和氣息聲會有不同程度的增加[19]。聲帶麻痹、小結、息肉、水腫等疾病通過影響聲帶的質量、張力以及對稱性等因素,導致嗓音的混沌程度增加,破壞了發聲系統原有的周期性振動,以此影響到嗓音信號中的非周期振動成分。
從時間序列恢復發聲動力系統的相軌跡[20]可以觀察系統的混沌性,根據Takens[21]提出的相空間重構法,選取適當的時間延遲τ,以X(t) = {x(t),x(t + τ), x(t + 2τ), , x[t + (m ? 1)τ]}為坐標,構造一個m維的相空間,在微分同胚意義下恢復系統的動力學信息。一般而言,由時間序列構造相空間后,可在三維空間觀察其相空間軌跡,并以此來分析其動力學特性。
圖2分別展示了一例正常嗓音和一例病理嗓音的時域波形圖及三維相軌跡圖。可以觀察到,正常嗓音的時域波形具備明顯的周期性,且幾乎不含噪聲,其相軌跡光滑且閉合,各軌跡線很大程度上收聚,表明該嗓音的動力學系統具備周期性;病理嗓音的時域波形則完全失去了周期性,且包含大量的噪聲,相軌跡雜亂無章地分布在相空間中,這說明病理嗓音的混沌程度相比正常嗓音明顯增加。

1.3 嗓音的自相似性
正常嗓音信號中,時間上的單個測量值并非完全獨立于早期的時間點,通常是自相似的,而嗓音疾病患者的聲道中由混沌帶來的大量湍流噪聲會導致信號失去自相似性[22],其在頻域中也具有這樣的特性。
語譜圖使用短時傅里葉變換(short time Fourier transform,STFT)分析信號頻率隨時間的變化特性[23],圖3分別展示了一例正常嗓音和一例病理嗓音的語譜圖,其中橫軸代表時間,縱軸代表傅里葉變換頻率,顏色代表傅里葉頻譜的幅值。

從圖3可以觀察到,正常嗓音的每一幀頻譜間都表現出極強的自相似性,隨著時間的變化,每一幀信號的頻譜會在相近的頻率出現峰值,不會發生太大的變化;而病理嗓音信號由于混沌能量的影響,非周期振動和氣息聲成分明顯增加,每一幀頻譜間的區別明顯增大,呈現出發散趨勢,缺少自相似性。
更進一步的,將這兩例嗓音信號的每一幀的頻譜都畫在同一張頻譜圖中,就可以得到如圖4所示的兩張短時頻譜圖。

可以觀察到病理嗓音的頻譜隨著時間的變化,在能量分布、動態范圍、峰值分布情況等方面都會出現較大的發散,而正常嗓音則表現出極強的一致性,尤其在低頻段幾乎收斂成一條頻譜線。
2 GSTS特征提取
根據病理嗓音在混沌能量的影響下自相似性變差的現象,結合多頻帶分析手段,本文提出GSTS特征來描述嗓音信號不同頻帶的頻譜自相似度,量化分析不同頻帶湍流噪聲,表征不同頻帶的混沌程度,區分正常和病理嗓音,具體提取步驟如下:
(1)對原始嗓音信號使用gammatone濾波器組進行分頻處理,得到24個不同頻帶的信號:
![]() |
(2)對分頻后的信號進行短時傅里葉變換,本文使用海明窗進行分幀處理,經測試,當窗長為0.012 s、幀移0.25個窗長時,正常與病理嗓音頻譜自相似度的區別最為明顯:
![]() |
對分幀處理后的每一幀進行N點傅里葉變換(N = 1 024),得到該頻帶信號的短時傅里葉功率譜:
![]() |
![]() |
其中CMN表示第M幀的第N個功率值。
(3)計算自相似度:
短時功率譜的自相似度主要通過所有幀頻譜的變化范圍以及每一幀頻譜間的距離來刻畫,包括歸一化頻譜動態范圍(normalized range,NR)、歸一化絕對距離(normalized absolute distance,NAD)、歸一化歐拉距離(normalized Euler distance,NED)以及平均余弦相似度(mean cosine similarity,MCS)。
NR描述了嗓音信號每一幀頻譜的變化范圍,即圖2所展示的短時頻譜圖的上下包絡之間的面積:
![]() |
![]() |
![]() |
其中Cmax(m,s)和Cmin(m,s)分別表示在第s個頻率點,第1到M幀中功率最大和最小的點。NR表達了所有幀信號整體的變化程度,NR越小,表明信號短時頻譜的變化范圍越小,所有幀信號的頻譜很大程度上已收聚。
絕對距離即每一幀頻譜與后一幀頻譜的每一個頻率點幅值差的絕對值之和:
![]() |
為了減小頻譜幅值對頻譜變化的影響,需要將每一幀與后一幀的絕對距離除以該幀的頻譜能量,最后求和得到每個頻帶的NAD:
![]() |
與NAD類似,NED使用歐拉距離來衡量每一幀頻譜之間的差別:
![]() |
NAD與NED描述了每一幀信號的頻譜之間的變化,與NR不同,這二者更側重于表現隨著時間的變化,頻譜的變化強度。
MCS與前兩種距離不同,使用余弦距離來表達:
![]() |
其中<a,b>表示二者求內積。MCS更加注重兩幀之間變化趨勢的相似度,而忽略了數值上的差異,MCS越接近1,表明兩幀頻譜在形狀上越相似。
最后將每個頻帶的NR、NAD、NED和MCS組合起來,就得到了最終的GSTS特征。圖5展示了GSTS特征的提取過程。

3 實驗及結果分析
3.1 實驗設置
本文使用病理嗓音檢測研究中最常用的馬薩諸塞州眼耳醫院(Massachusetts Eye and Ear Infirmary,MEEI)嗓音數據庫作為實驗數據庫,正常嗓音選用全部53例嗓音信號,病理嗓音選用最常見的聲帶麻痹、水腫、小節和息肉嗓音共149例。所有嗓音信號的位寬均為16 bit。此外,正常嗓音信號的采樣頻率為50 kHz,病理嗓音信號的采樣頻率為25 kHz,為了進行統一,在對MEEI庫的正常嗓音信號處理前,將其降采樣至25 kHz。
每條嗓音信號使用前都經過預加重處理,去除口唇輻射的影響,增加語音的高頻分辨率,以補償高頻分量在傳輸過程中的過大衰減。同時為控制計算每個特征所使用的幀數一致,每條嗓音信號均從第500個數據點開始截取長度為0.75 s的片段。
機器學習算法方面,本文選用最常用的幾種傳統機器學習方法:支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)和貝葉斯網絡(Bayesian network,BN)。由于嗓音信號的樣本數量較小,故采用留一法交叉驗證(leave-one-out cross validation,LOO CV)的方法確定訓練集和測試集,即對于總數為N的樣本,進行N次模型的訓練和測試,每次不重復地取一個樣本作為測試樣本,剩下的N ? 1個樣本作為訓練數據進行模型的訓練,用N次測試得到的結果計算最終的識別結果。該方法的好處是能夠遍歷每個樣本,減少其中的隨機因素,且整個過程是可重復的。
3.2 實驗結果
本節設計兩組實驗,分別驗證GSTS特征的病理嗓音檢測準確度以及特征提取速度,來證明GSTS特征在病理嗓音檢測中的有效性。
首先是病理嗓音識別實驗。對照組采用由F0、jitter、shimmer、NNE、HNR、SNR組成的基本聲學特征組(basic acoustic features,BAF),MFCC,根據文獻[6]提取的聲門波特征(glottal flow features,GFF),根據文獻[9]提取的非線性特征(nonlinear features,NF)以及根據文獻[10]提取的多頻帶NF特征MBNF,此外,考慮到深度學習在當下的流行趨勢,我們還增加了文獻[24]中使用的卷積神經網絡(convolutional neural network,CNN)方法作為對比。
本文的實驗結果采用常用的識別準確率(accuracy,ACC)、靈敏度(sensitivity,SE)和特異度(specificity,SP)作為評價指標。此外,考慮到樣本的非均衡性,還添加了馬修斯相關系數(Matthews correlation coefficient,MCC)作為評價指標:
![]() |
![]() |
![]() |
![]() |
ACC體現分類的整體性能;SE表示真陽性率,即被診斷為病理的嗓音樣本占實際病理嗓音樣本的比例;SP表示真陰性率,即被診斷為正常的嗓音樣本占實際正常嗓音樣本的比例;而MCC則可以較為均衡地體現分類性能,其取值為[? 1,1],值越大分類性能越好。
實驗結果如表1所示。從表中可以得出,使用SVM分類時,BAF和NF會將所有嗓音歸類為病理嗓音,且使用BN分類時,NF也全部分類錯誤,說明這兩個特征雖然有病理嗓音識別的能力,但效果有限,識別結果的好壞一定程度上受分類器影響,特征自身的分類性能實際并不好;NF雖然可以判斷嗓音的混沌程度,但只適合用來分析混沌程度不高的嗓音信號[1],當嗓音中的混沌程度增加,噪聲變多,NF特征可能會失效。MFCC作為最常用的嗓音特征,識別效果優于前二者,得益于MFCC優異的分頻抗噪性能。GFF由于減小了聲道和口唇輻射的影響,直接對聲帶產生的信號進行分析,識別結果相較于前面三者有了明顯的提高。在多頻帶分析的作用方面,MBNF在NF的基礎上首先使用gammatone濾波器組進行了預處理,分頻使得每個頻帶信號的混沌程度相對于原始信號有了一定程度的降低,再使用NF就可以很好地分析每個頻帶的混沌程度,同時維度的升高有利于在不同頻帶發現正常與病理嗓音的區別,識別結果相比NF有了明顯的提高。CNN作為深度學習方法也取得了較好的結果,然而由于語譜圖的像素點數量龐大,CNN處理時難免丟掉一些有用信息,尤其是復雜的高頻噪聲。本文提出的GSTS特征在所有特征中表現最好,使用SVM得到了99.50 %的識別準確率,其他兩個分類器的識別結果也都在96%以上,受分類器影響較小,得益于GSTS使用了多頻帶的分析方法,將混沌程度轉化為頻譜的發散程度進行衡量,不易受混沌程度的影響,更能表達出正常和病理嗓音間的區別。

對于不同特征的提取速度,從時間復雜度函數來看,GFF僅在計算聲門波時需要用到自相關運算[復雜度O(n)]和快速傅里葉變換(fast Fourier transform,FFT)[復雜度O(n*log n)],后續特征的計算時間復雜度均小于這二者,因此GFF的時間復雜度主要由這二者貢獻;MFCC、BAF和GSTS的提取過程主要由FFT和一階矩陣乘法[復雜度O(n)]構成,計算也相對簡潔;對于NF來說,由于其計算過程中涉及到求相空間中每兩點之間距離[復雜度O(n!)]的計算以及后續的參數更新,且要重復多次直到取得最佳值,這樣的遍歷以及迭代過程使得時間復雜度大大提高,而MBNF在分頻過程中涉及到FFT計算,且每個頻帶都要進行一次NF的計算,時間計算成本更加龐大。
為了更直觀地了解特征提取速度,本文對BAF、MFCC、GFF、NF、MBNF和GSTS特征的提取速度進行了對比,使用提取嗓音信號特征所消耗的時間作為對比標準,消耗時間越短,越有利于在實際應用中進行病理嗓音的快速檢測,對比結果如表2所示。

從實際消耗時間來看,MFCC和GFF的耗時最短,提取每條嗓音信號特征消耗的時間低于0.1 s,GSTS次之,需要0.353 s,這三者耗時少、識別準確率高,適合應用到實際病理嗓音檢測中,其中GSTS雖然提取時間略長于MFCC和GFF,但在實際應用中可以忽略,且識別準確率明顯更高,因此GSTS最適合實際應用;NF、MBNF和GSTS作為分析混沌程度的特征,GSTS在能夠準確識別病理嗓音的同時所需時間遠小于前二者,這也說明了在嗓音中使用GSTS量化混沌程度是可行且高效的。
4 總結
針對傳統聲學特征和非線性動力學特征對基頻的依賴性高、易受噪聲影響、計算復雜等缺點,本文提出了新特征GSTS,舍棄了復雜的迭代計算過程,以短時譜自相似度來衡量嗓音信號在不同頻帶的混沌程度,進行病理嗓音的檢測。實驗結果表明本特征能夠有效地區分正常和病理嗓音。除此之外,GSTS基于短時傅里葉變換提取,相比同樣用來分析混沌的傳統非線性動力學特征,時間計算復雜度大大降低,消耗時間更短,具有更好的實際應用價值。
今后的工作將在嗓音疾病的細分方面進行探索。雖然本文特征能夠區分正常和病理嗓音,但對于不同類型的嗓音疾病,尚無法進一步區分。目前國際上還沒有能夠準確區分不同嗓音疾病的特征,如果能夠準確地識別不同的嗓音疾病,算法將具有更強的實用性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:趙登煌完成本文的實驗設計、數據分析和論文初稿撰寫;陶智、張曉俊參與論文框架、結構安排,對論文修改提出建設性意見,并審核同意發表;周長偉、朱欣程參與實驗的設計和討論,并對論文修改提出了寶貴的意見。全體作者閱讀并同意最終的作者排序與論文內容。
引言
隨著社會的發展,越來越多的因素,如空氣環境的污染、生活壓力的增大、嗓音的過度使用等,使人們的嗓音疾病發病率越來越高,尤其在主持人、播音員、歌唱家、教師等一些需要頻繁使用嗓音的職業人員中,嗓音疾病更為常見。這些嗓音疾病會給患者帶來嚴重的功能上和心理上的障礙[1],因此病理嗓音的檢測越來越受到人們的重視,檢測病理嗓音的需求越來越多。
目前,基于機器學習和信號處理的聲學分析方法因其成本低、非入侵性以及客觀性[2]逐漸被應用到病理嗓音檢測中,其主要步驟是將輸入的語音信號經過處理后,提取出不同的特征,作為嗓音信號分類的依據,再通過機器學習的方法,對嗓音信號進行分類處理。在聲學分析方法中,具備病理區分性的聲學特征參數選取是病理嗓音識別的關鍵,所提取特征參數的有效性和適用性直接影響機器學習的效果。近年來,國內外學者在嗓音特征提取的工作中,取得了多方面的突破,但仍舊存在一些不足。
常用的病理嗓音檢測的特征主要包括基本聲學特征、倒譜類特征、聲門類特征以及非線性動力學特征等。基本聲學特征方面,Virgilijus等[3]提取嗓音信號的基頻微擾(jitter)、振幅微擾(shimmer)、歸一化噪聲能量(normalized noise energy,NNE)、諧噪比(harmonic to noise ratio,HNR)、信噪比(signal to noise ratio,SNR)、基頻(F0)等特征,并與聲門功能指數(glottal function index,GFI)相結合,取得了最高84.60%的病理嗓音識別準確率,證明了基本聲學特征在病理嗓音識別方面的有效性。然而基本聲學特征依賴基頻的準確提取,當嗓音信號中含有大量噪聲時,基頻提取的準確性會降低[4],從而導致這一類特征失效。倒譜類特征方面,常見的有倒譜峰值突出(cepstral peak prominence,CPP)、梅爾頻率倒譜系數(Mel-scale frequency cepstral coefficients,MFCC)、線性預測倒譜系數(linear prediction cepstral coefficients,LPCC)等,這一類特征的提取不需要計算基頻,相比基本聲學特征有更好的魯棒性。Zhang等[5]提出特征增強Bark線譜對(enhanced-Bark line spectrum pair,E-BLSP),并與LPCC和MFCC相結合,使用支持向量機獲得了最高96.27%的識別準確率,使用深度神經網絡獲得了最高98.62%的識別準確率,同時也證明了基于人耳聽覺感知模擬提取特征參數是有效的分析手段。聲門類特征是指由聲門波提取的一系列特征,這一類特征減小了聲道和口唇輻射對嗓音信號的影響。Wu等[6]使用聲門波作為原始時域輸入,提取時域、頻域和MPEG-7特征,取得了平均99.47%的識別準確率。以上的研究從嗓音信號的基頻、頻譜、倒譜以及聲門波出發,提取特征參數,在病理嗓音檢測中取得了良好的效果,但語音信號是一種非線性、非平穩的信號,這些特征將語音信號近似為線性信號進行處理[7],忽略了病理嗓音信號中存在的混沌現象,不能從本質上區別正常和病理嗓音。Jiang等[8]認為,混沌可能是解釋聲音障礙中不規則現象的核心,混沌理論和非線性動力學方法有可能應用于診斷生理疾病和評價臨床治療效果,并提出使用非線性動力學特征來分析嗓音中的混沌現象。Arias等[9]將嗓音信號的最大李雅普諾夫指數(largest Lyapunov exponent,LLE)和關聯維數(correlation dimension,CD)組合,使用高斯混合模型分類,獲得了98.23%的識別準確率,相比于當時已有的識別方法有一定的提升,證明了非線性動力學參數在區分正常和病理嗓音方面的有效性。周強等[10]將gammatone濾波器與LLE相結合,提出新特征多頻帶最大李雅普諾夫指數(multi-band largest Lyapunov exponent,MBLLE),觀察到正常與病理嗓音的MBLLE值在部分頻帶有顯著差異,并取得了98.72%的識別準確率,證明了多頻帶分析結合非線性動力學參數可以提升病理嗓音識別效果。但是,非線性動力學特征計算十分復雜,需要消耗大量的時間[11],因此此類特征不利于實際應用。
針對傳統聲學特征對基頻的依賴性高、易受噪聲影響,以及非線性動力學特征計算復雜的缺點,本文提出新特征——gammatone短時譜自相似度(gammatone short time spectral self-similarity,GSTS),來表征嗓音的混沌程度,用以區分正常和病理嗓音。實驗表明,GSTS特征不僅提取速度快于非線性特征,且識別準確率優于傳統聲學特征和非線性特征。
1 多頻帶混沌分析
1.1 gammatone濾波器組
人耳對頻率的分析方式可以通過一組帶通濾波器進行一定程度的模擬,來增強在噪聲背景下檢測聲音的能力[12],最常使用的就是Mel濾波器組和gammatone濾波器組。由于gammatone濾波器比Mel濾波器能構成更精確的耳蝸濾波器模型,且在嗓音能量主要集中的低頻段,gammatone濾波器所使用的ERB尺度比Mel尺度具有更好的分辨率[13],故本文使用gammatone濾波器組作為嗓音信號多頻帶分析的工具。
gammatone濾波器的時域沖激響應表達式為:
![]() |
其中A為輸出增益;N為濾波器的階數,一般取4;b一般取1.109;fc為濾波器的中心頻率,一般取人耳臨界頻帶的中心頻率;φ為初始相位,一般取0。ERB(fc)是頻率為fc時濾波器的等價矩形帶寬:
![]() |
gammatone濾波器組由一系列以不同頻率為中心頻率的gammatone濾波器構成,濾波器的個數由嗓音信號的采樣頻率來確定,本文使用由24個gammatone濾波器組成的濾波器組,頻率范圍0~12.5 kHz,其幅頻響應如圖1所示。

可以觀察到,濾波器組在低頻處帶寬較窄,分布密集,頻率分辨率較高,在高頻處帶寬較寬,分布稀疏,頻率分辨率較低,這與人耳對聲音頻率的敏感程度是一致的,說明gammatone濾波器組能夠很好地模擬人耳基底膜的頻率分解特性。
1.2 嗓音的混沌現象
發聲系統中的許多部分,如聲帶組織的非線性應力-應變曲線、黏膜波的延遲反饋、氣流與聲帶組織間的流-固耦合作用、聲道的非線性濾波作用等都具有非線性特性[8,14],說明發聲系統具備產生混沌信號的生理條件。在過去幾十年的研究中,學者們分別從電腦模擬的聲帶模型實驗[15]、離體喉實驗[16]和嗓音的非線性動力學分析[17-18]中觀察并確定了人發聲過程中存在混沌現象。
正常的嗓音信號中,幾乎由周期性的振動占主要部分,當患有嗓音疾病時,嗓音中的非周期振動成分和氣息聲會有不同程度的增加[19]。聲帶麻痹、小結、息肉、水腫等疾病通過影響聲帶的質量、張力以及對稱性等因素,導致嗓音的混沌程度增加,破壞了發聲系統原有的周期性振動,以此影響到嗓音信號中的非周期振動成分。
從時間序列恢復發聲動力系統的相軌跡[20]可以觀察系統的混沌性,根據Takens[21]提出的相空間重構法,選取適當的時間延遲τ,以X(t) = {x(t),x(t + τ), x(t + 2τ), , x[t + (m ? 1)τ]}為坐標,構造一個m維的相空間,在微分同胚意義下恢復系統的動力學信息。一般而言,由時間序列構造相空間后,可在三維空間觀察其相空間軌跡,并以此來分析其動力學特性。
圖2分別展示了一例正常嗓音和一例病理嗓音的時域波形圖及三維相軌跡圖。可以觀察到,正常嗓音的時域波形具備明顯的周期性,且幾乎不含噪聲,其相軌跡光滑且閉合,各軌跡線很大程度上收聚,表明該嗓音的動力學系統具備周期性;病理嗓音的時域波形則完全失去了周期性,且包含大量的噪聲,相軌跡雜亂無章地分布在相空間中,這說明病理嗓音的混沌程度相比正常嗓音明顯增加。

1.3 嗓音的自相似性
正常嗓音信號中,時間上的單個測量值并非完全獨立于早期的時間點,通常是自相似的,而嗓音疾病患者的聲道中由混沌帶來的大量湍流噪聲會導致信號失去自相似性[22],其在頻域中也具有這樣的特性。
語譜圖使用短時傅里葉變換(short time Fourier transform,STFT)分析信號頻率隨時間的變化特性[23],圖3分別展示了一例正常嗓音和一例病理嗓音的語譜圖,其中橫軸代表時間,縱軸代表傅里葉變換頻率,顏色代表傅里葉頻譜的幅值。

從圖3可以觀察到,正常嗓音的每一幀頻譜間都表現出極強的自相似性,隨著時間的變化,每一幀信號的頻譜會在相近的頻率出現峰值,不會發生太大的變化;而病理嗓音信號由于混沌能量的影響,非周期振動和氣息聲成分明顯增加,每一幀頻譜間的區別明顯增大,呈現出發散趨勢,缺少自相似性。
更進一步的,將這兩例嗓音信號的每一幀的頻譜都畫在同一張頻譜圖中,就可以得到如圖4所示的兩張短時頻譜圖。

可以觀察到病理嗓音的頻譜隨著時間的變化,在能量分布、動態范圍、峰值分布情況等方面都會出現較大的發散,而正常嗓音則表現出極強的一致性,尤其在低頻段幾乎收斂成一條頻譜線。
2 GSTS特征提取
根據病理嗓音在混沌能量的影響下自相似性變差的現象,結合多頻帶分析手段,本文提出GSTS特征來描述嗓音信號不同頻帶的頻譜自相似度,量化分析不同頻帶湍流噪聲,表征不同頻帶的混沌程度,區分正常和病理嗓音,具體提取步驟如下:
(1)對原始嗓音信號使用gammatone濾波器組進行分頻處理,得到24個不同頻帶的信號:
![]() |
(2)對分頻后的信號進行短時傅里葉變換,本文使用海明窗進行分幀處理,經測試,當窗長為0.012 s、幀移0.25個窗長時,正常與病理嗓音頻譜自相似度的區別最為明顯:
![]() |
對分幀處理后的每一幀進行N點傅里葉變換(N = 1 024),得到該頻帶信號的短時傅里葉功率譜:
![]() |
![]() |
其中CMN表示第M幀的第N個功率值。
(3)計算自相似度:
短時功率譜的自相似度主要通過所有幀頻譜的變化范圍以及每一幀頻譜間的距離來刻畫,包括歸一化頻譜動態范圍(normalized range,NR)、歸一化絕對距離(normalized absolute distance,NAD)、歸一化歐拉距離(normalized Euler distance,NED)以及平均余弦相似度(mean cosine similarity,MCS)。
NR描述了嗓音信號每一幀頻譜的變化范圍,即圖2所展示的短時頻譜圖的上下包絡之間的面積:
![]() |
![]() |
![]() |
其中Cmax(m,s)和Cmin(m,s)分別表示在第s個頻率點,第1到M幀中功率最大和最小的點。NR表達了所有幀信號整體的變化程度,NR越小,表明信號短時頻譜的變化范圍越小,所有幀信號的頻譜很大程度上已收聚。
絕對距離即每一幀頻譜與后一幀頻譜的每一個頻率點幅值差的絕對值之和:
![]() |
為了減小頻譜幅值對頻譜變化的影響,需要將每一幀與后一幀的絕對距離除以該幀的頻譜能量,最后求和得到每個頻帶的NAD:
![]() |
與NAD類似,NED使用歐拉距離來衡量每一幀頻譜之間的差別:
![]() |
NAD與NED描述了每一幀信號的頻譜之間的變化,與NR不同,這二者更側重于表現隨著時間的變化,頻譜的變化強度。
MCS與前兩種距離不同,使用余弦距離來表達:
![]() |
其中<a,b>表示二者求內積。MCS更加注重兩幀之間變化趨勢的相似度,而忽略了數值上的差異,MCS越接近1,表明兩幀頻譜在形狀上越相似。
最后將每個頻帶的NR、NAD、NED和MCS組合起來,就得到了最終的GSTS特征。圖5展示了GSTS特征的提取過程。

3 實驗及結果分析
3.1 實驗設置
本文使用病理嗓音檢測研究中最常用的馬薩諸塞州眼耳醫院(Massachusetts Eye and Ear Infirmary,MEEI)嗓音數據庫作為實驗數據庫,正常嗓音選用全部53例嗓音信號,病理嗓音選用最常見的聲帶麻痹、水腫、小節和息肉嗓音共149例。所有嗓音信號的位寬均為16 bit。此外,正常嗓音信號的采樣頻率為50 kHz,病理嗓音信號的采樣頻率為25 kHz,為了進行統一,在對MEEI庫的正常嗓音信號處理前,將其降采樣至25 kHz。
每條嗓音信號使用前都經過預加重處理,去除口唇輻射的影響,增加語音的高頻分辨率,以補償高頻分量在傳輸過程中的過大衰減。同時為控制計算每個特征所使用的幀數一致,每條嗓音信號均從第500個數據點開始截取長度為0.75 s的片段。
機器學習算法方面,本文選用最常用的幾種傳統機器學習方法:支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)和貝葉斯網絡(Bayesian network,BN)。由于嗓音信號的樣本數量較小,故采用留一法交叉驗證(leave-one-out cross validation,LOO CV)的方法確定訓練集和測試集,即對于總數為N的樣本,進行N次模型的訓練和測試,每次不重復地取一個樣本作為測試樣本,剩下的N ? 1個樣本作為訓練數據進行模型的訓練,用N次測試得到的結果計算最終的識別結果。該方法的好處是能夠遍歷每個樣本,減少其中的隨機因素,且整個過程是可重復的。
3.2 實驗結果
本節設計兩組實驗,分別驗證GSTS特征的病理嗓音檢測準確度以及特征提取速度,來證明GSTS特征在病理嗓音檢測中的有效性。
首先是病理嗓音識別實驗。對照組采用由F0、jitter、shimmer、NNE、HNR、SNR組成的基本聲學特征組(basic acoustic features,BAF),MFCC,根據文獻[6]提取的聲門波特征(glottal flow features,GFF),根據文獻[9]提取的非線性特征(nonlinear features,NF)以及根據文獻[10]提取的多頻帶NF特征MBNF,此外,考慮到深度學習在當下的流行趨勢,我們還增加了文獻[24]中使用的卷積神經網絡(convolutional neural network,CNN)方法作為對比。
本文的實驗結果采用常用的識別準確率(accuracy,ACC)、靈敏度(sensitivity,SE)和特異度(specificity,SP)作為評價指標。此外,考慮到樣本的非均衡性,還添加了馬修斯相關系數(Matthews correlation coefficient,MCC)作為評價指標:
![]() |
![]() |
![]() |
![]() |
ACC體現分類的整體性能;SE表示真陽性率,即被診斷為病理的嗓音樣本占實際病理嗓音樣本的比例;SP表示真陰性率,即被診斷為正常的嗓音樣本占實際正常嗓音樣本的比例;而MCC則可以較為均衡地體現分類性能,其取值為[? 1,1],值越大分類性能越好。
實驗結果如表1所示。從表中可以得出,使用SVM分類時,BAF和NF會將所有嗓音歸類為病理嗓音,且使用BN分類時,NF也全部分類錯誤,說明這兩個特征雖然有病理嗓音識別的能力,但效果有限,識別結果的好壞一定程度上受分類器影響,特征自身的分類性能實際并不好;NF雖然可以判斷嗓音的混沌程度,但只適合用來分析混沌程度不高的嗓音信號[1],當嗓音中的混沌程度增加,噪聲變多,NF特征可能會失效。MFCC作為最常用的嗓音特征,識別效果優于前二者,得益于MFCC優異的分頻抗噪性能。GFF由于減小了聲道和口唇輻射的影響,直接對聲帶產生的信號進行分析,識別結果相較于前面三者有了明顯的提高。在多頻帶分析的作用方面,MBNF在NF的基礎上首先使用gammatone濾波器組進行了預處理,分頻使得每個頻帶信號的混沌程度相對于原始信號有了一定程度的降低,再使用NF就可以很好地分析每個頻帶的混沌程度,同時維度的升高有利于在不同頻帶發現正常與病理嗓音的區別,識別結果相比NF有了明顯的提高。CNN作為深度學習方法也取得了較好的結果,然而由于語譜圖的像素點數量龐大,CNN處理時難免丟掉一些有用信息,尤其是復雜的高頻噪聲。本文提出的GSTS特征在所有特征中表現最好,使用SVM得到了99.50 %的識別準確率,其他兩個分類器的識別結果也都在96%以上,受分類器影響較小,得益于GSTS使用了多頻帶的分析方法,將混沌程度轉化為頻譜的發散程度進行衡量,不易受混沌程度的影響,更能表達出正常和病理嗓音間的區別。

對于不同特征的提取速度,從時間復雜度函數來看,GFF僅在計算聲門波時需要用到自相關運算[復雜度O(n)]和快速傅里葉變換(fast Fourier transform,FFT)[復雜度O(n*log n)],后續特征的計算時間復雜度均小于這二者,因此GFF的時間復雜度主要由這二者貢獻;MFCC、BAF和GSTS的提取過程主要由FFT和一階矩陣乘法[復雜度O(n)]構成,計算也相對簡潔;對于NF來說,由于其計算過程中涉及到求相空間中每兩點之間距離[復雜度O(n!)]的計算以及后續的參數更新,且要重復多次直到取得最佳值,這樣的遍歷以及迭代過程使得時間復雜度大大提高,而MBNF在分頻過程中涉及到FFT計算,且每個頻帶都要進行一次NF的計算,時間計算成本更加龐大。
為了更直觀地了解特征提取速度,本文對BAF、MFCC、GFF、NF、MBNF和GSTS特征的提取速度進行了對比,使用提取嗓音信號特征所消耗的時間作為對比標準,消耗時間越短,越有利于在實際應用中進行病理嗓音的快速檢測,對比結果如表2所示。

從實際消耗時間來看,MFCC和GFF的耗時最短,提取每條嗓音信號特征消耗的時間低于0.1 s,GSTS次之,需要0.353 s,這三者耗時少、識別準確率高,適合應用到實際病理嗓音檢測中,其中GSTS雖然提取時間略長于MFCC和GFF,但在實際應用中可以忽略,且識別準確率明顯更高,因此GSTS最適合實際應用;NF、MBNF和GSTS作為分析混沌程度的特征,GSTS在能夠準確識別病理嗓音的同時所需時間遠小于前二者,這也說明了在嗓音中使用GSTS量化混沌程度是可行且高效的。
4 總結
針對傳統聲學特征和非線性動力學特征對基頻的依賴性高、易受噪聲影響、計算復雜等缺點,本文提出了新特征GSTS,舍棄了復雜的迭代計算過程,以短時譜自相似度來衡量嗓音信號在不同頻帶的混沌程度,進行病理嗓音的檢測。實驗結果表明本特征能夠有效地區分正常和病理嗓音。除此之外,GSTS基于短時傅里葉變換提取,相比同樣用來分析混沌的傳統非線性動力學特征,時間計算復雜度大大降低,消耗時間更短,具有更好的實際應用價值。
今后的工作將在嗓音疾病的細分方面進行探索。雖然本文特征能夠區分正常和病理嗓音,但對于不同類型的嗓音疾病,尚無法進一步區分。目前國際上還沒有能夠準確區分不同嗓音疾病的特征,如果能夠準確地識別不同的嗓音疾病,算法將具有更強的實用性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:趙登煌完成本文的實驗設計、數據分析和論文初稿撰寫;陶智、張曉俊參與論文框架、結構安排,對論文修改提出建設性意見,并審核同意發表;周長偉、朱欣程參與實驗的設計和討論,并對論文修改提出了寶貴的意見。全體作者閱讀并同意最終的作者排序與論文內容。