基于機器學習和信號處理的聲學檢測方法是目前病理嗓音檢測的重要手段,嗓音特征的提取是其中至關重要的一環。目前廣泛使用的特征,存在依賴基頻提取、易受噪聲影響、計算復雜度高等不足。針對這些不足,本文提出了一種基于多頻帶分析和混沌分析的病理嗓音檢測方法。使用gammatone濾波器組模擬人耳聽覺特性進行多頻帶分析,獲取不同頻帶的信號;根據嗓音中的混沌現象帶來的湍流噪聲會惡化頻譜收斂性的特點,對每個頻帶的信號進行短時傅里葉變換,提取特征gammatone短時譜自相似度(GSTS),分析每個頻帶信號的混沌程度,來區分正常和病理嗓音。實驗結果顯示,結合傳統機器學習方法,GSTS在馬薩諸塞州眼耳醫院(MEEI)病理嗓音數據庫中識別準確率達到99.50%,相比已有識別率最高的特征提升3.46%,同時特征提取時間相比傳統非線性特征大幅減少。該結果表明,相比已有特征,GSTS具有更高的提取效率和更好的識別效果。
提出一種基于低頻帶非均勻采樣的電子耳蝸編碼策略,即低頻帶精細結構(LFFS)過零刺激方案(簡稱LFFS方案),以提高電子耳蝸漢語聲調和語音識別魯棒性。根據頻帶選擇法則,在人耳基頻感知范圍內,采用精細結構過零刺激脈沖序列。聲學模擬結果表明:在安靜環境下,LFFS方案和連續交替采樣(CIS)方案語音識別率差別不大;在噪聲環境下,LFFS方案在漢語聲調、詞匯和句子方面要明顯優于CIS方案,同時采用改進指數分布模型得到較好的漢語識別因素分布圖。LFFS方案包含了更多的漢語聲調信息,所以能有效地提高電子耳蝸植入患者漢語識別魯棒性。