語音特征學習是精神病語音識別方法的核心和關鍵。深層特征學習可以自動提取語音特征,但受限于小樣本問題;傳統的特征提取(原始特征)避免小樣本問題影響,但嚴重依賴經驗且自適應不佳。為了解決這一問題,本文提出了一種深層內嵌混合稀疏堆棧自動編碼器流形集成算法。首先,基于先驗知識提取精神病語音特征,構造原始特征。其次,將原始特征內嵌入到稀疏堆棧自動編碼器(深度網絡)中,對隱藏層的輸出進行濾波,增強深層特征與原始特征的互補性。再次,設計 L1 正則化特征選擇機制,壓縮由深層特征和原始特征組成的混合特征集的維度。最后,設計了加權局部保持投影算法和集成學習機制,構造了流形投影分類器集成模型,進一步提高了小樣本下特征融合的分類穩定性。此外,本文首次設計了一個中大規模的精神病語音采集方案,收集并構建了一個大規模的中文精神病語音數據庫,用于精神病語音識別算法的驗證。實驗結果表明,該算法主要創新部分有效;與其他有代表性的算法相比具有更好的分類準確率,最大改善了 3.3%。綜上所述,本文提出了一種基于深層內嵌混合稀疏堆棧自動編碼器和流形集成的精神病語音識別方法,有效提高了精神病語音識別準確率。
引用本文: 張毅, 秦小林, 林遠, 李勇明, 王品, 張祖偉, 李小飛. 基于深層內嵌混合稀疏堆棧自動編碼器和流形集成的精神病語音識別方法. 生物醫學工程學雜志, 2021, 38(4): 655-662. doi: 10.7507/1001-5515.202010050 復制
引言
精神病危害巨大,準確診斷將有助于治療[1]。研究表明,大多數精神病患者伴有言語障礙,言語障礙是精神病患者的早期癥狀之一[2]。隨著計算機技術和聲學分析技術的發展,基于語音的病理特征,利用機器學習技術進行無痛、無創的客觀輔助診斷精神病已成為一個重要的研究熱點[3-6]。
特征學習是精神病語音識別方法研究的核心和關鍵。近年來已有很多相關研究,提取的特征主要包括梅爾頻率倒譜系數(mel-frequency ceptral coefficients,MFCC)等[7-8]。主要的特征學習方法有主成分分析(principal component analysis,PCA)等,分類模型包括k-最近鄰(k-nearest neighbor,KNN)、高斯混合模型(gaussian mixture model,GMM)和支持向量機(support vector machine,SVM)等[9]。然而,傳統的特征處理算法都是基于經驗知識的淺層特征學習,不能有效地挖掘數據之間復雜的非線性關系,存在一定的局限性。深度學習可以自動學習特征間結構關系,從而獲取高表征能力的深層特征,使用的算法有卷積神經網絡(convolutional neural networks,CNN)等[10-11]。與傳統方法相比,深度學習具有更好的分類效果。
這些方法雖然取得了良好的效果,但也存在一些問題。首先,傳統特征學習無法自動獲得高質量的新特征。再次,深度特征學習中未考慮淺層特征(傳統特征),導致兩種特征的互補性欠缺。相關研究表明,深層特征和淺層特征反映了目標識別的不同側面信息,具有很好的互補性[12-14]。因此,考慮如何將這兩類特征進行融合是非常重要的。
自動編碼器(autoencoder,AE)是一種典型的深度神經網絡,近年來受到越來越多的關注[15-16]。堆棧式自動編碼器(stacked autoencoder,SAE)以 AE 的最后一個隱藏層的輸出作為下一個 AE 的輸入,可以方便地實現疊加。在此基礎上,通過引入稀疏約束得到的稀疏 SAE(sparse SAE,SSAE)可以學習到更具代表性的特征[17-19]。雖然 SSAE 在隨后的應用中取得了一定的成功[20-22],但是現有 SSAE 并沒有在結構和訓練中考慮原始特征,從而限制了其深度特征與原始特征的互補性及融合能力。
為了解決上述問題,本文以 SSAE 作為深度網絡原型,提出了一種基于嵌入式混合特征 SSAE(embedded hybrid feature SSAE,EHFSSAE)的特征融合方法。EHFSSAE 的基本思想是將原始特征嵌入到每個 AE 的編碼輸出中,然后將這些混合特征融合到更抽象的高隱藏層特征表示中,并保留一些有用的信息用于分類任務。為了解決兩種特征結合所帶來的高維問題,本文使用基于 L1 正則化的特征選擇算法以使在混合特征中選擇更具區分性和魯棒性的特征。此外,為了進一步消除冗余,提高算法的泛化能力,將加權局部判別保持投影(weighted local discriminant preservation projection,w_LPPD)與 SVM 相結合,構造集成模型。w_LPPD 是一種新的特征提取方法,它考慮了樣本中的異常值,有效地去除了一些遠離類中心的樣本。綜上所述,本文提出了一種基于深層 EHFSSAE 和流形集成的精神病語音識別方法,可以有效提高精神病語音識別準確率,對于精神病語音識別具有重要的參考價值。
1 數據與方法
1.1 數據采集
本文設計了一個中大規模的精神病語音采集方案,已通過重慶市精神衛生中心倫理審查委員會的倫理審查。其中,共有 299 名受試者參加了這項數據收集研究;精神分裂癥 130 例,抑郁癥 67 例,均來自重慶市精神衛生中心;102 名健康人由重慶大學學生組成。所有受試者均由經驗豐富的心理專家和精神病專家根據《簡明國際神經精神訪談》(the mini international neuropsychiatric interview,MINI)和《心理障礙診斷與統計手冊》(diagnostic and statistical manual of mental disorders,dsm-iv)進行診斷和篩選[23-24]。
在所有受試者中,精神分裂癥患者年齡在 18~63 歲(平均值 ± 標準差:31.9 ± 10.6),抑郁癥患者年齡在 15~71 歲(平均值 ± 標準差:36.2 ± 14.2),健康人年齡為 20~36 歲(平均值 ± 標準差:28 ± 4.5)。精神分裂癥患者中,男性為 58 人,女性為 72 人;抑郁癥患者中,男性為 21 人,女性為 46 人;健康人中,男性為 62 人,女性為 40 人。所有受試者不存在物質濫用、物質依賴、人格障礙等其他精神疾病,無嚴重的軀體疾病或自殺行為。所有受試者均為小學以上文化水平。
試驗在光線充足、安靜的房間內進行,在同一電腦程序中執行相應的語音任務,受試者保持坐姿,位于一臺 21 英寸電腦屏幕正前方約 1 m 處,屏幕顯示一段中文文本,受試者需要仔細瀏覽一遍文本后進行朗讀。中文文本共包含 13 個任務,包括持續元音、漢字、單詞和短句。錄音由一個頻率范圍在 0.05~13 kHz 的索尼錄音筆完成。錄音筆參數設置為 96 kHz、30 dB,置于受試者嘴部 10 cm 處,記錄受試者閱讀指定文本的音頻。數據以.wav 形式保存,使用聲學分析軟件 Praat 6.1(University of Amsterdam,荷蘭)進行原始特征提取[25]。基于該研究領域的前期工作基礎,本研究從每個語音樣本中提取了包括時頻在內的 26 個特征,具體特征信息參見文獻[26]。
1.2 本文方法
基于融合原有特征和深層特征的必要性,更為了提高深度特征與原始特征的互補性,本文設計了一種 EHFSSAE 模型。首先將原始特征嵌入到 SAE 的隱藏層中,使改進后的 SAE 能夠從原始特征中學習到高質量的深層特征;然后使用基于 L1 正則化的混合特征融合機制;最后設計了基于 w_LPPD 和 SVM 的降維集成模型。三步處理方法可以有效地消除特征冗余,增強特征的識別能力,提高分類結果的可靠性,提高泛化能力和穩定性。
1.2.1 EHFSSAE
傳統 SAE 的訓練基于貪婪的分層無監督學習算法[27]。該算法的核心思想是通過最小化該層的重建誤差,一次訓練一層,第i層的表示作為第i+1 層隱含層的輸入。然而,這樣的結構會導致編碼特征的小樣本識別能力不理想。認識到原始特征中包含了從先驗知識中產生的有用信息,當網絡深入時,這些信息可以引入到深層網絡中以保持初始信息。因此,本研究在兩個編碼器之間設計了一個編碼特征與原始特征的合并稀疏單元(merge-sparse unit,MSU),構造一個 EHFSSAE,如圖 1 所示。

給定原始數據樣本(其中X為輸入數據矩陣,R為實數集,N為樣本個數,n為樣本維度)和單個編碼器的編碼特征
(其中H為輸入數據編碼后特征,R為實數集,N為樣本個數,d為編碼特征維度),合并稀疏單元的目的是獲得X和H混合特征集的最優子集,其可以定義為如式(1)所示:
![]() |
其中,表示原始特征與隱藏層特征的連接,L(·)表示稀疏運算函數,G是由 0 和 1 組成的對應稀疏矩陣。通過稀疏矩陣,低散度的特征將為零,因此這些特征將不會被發送到后續層進行進一步編碼。
在編碼器之間引入 MSU 后,EHFSSAE 中第k層(k > 1)AE 的編碼器部分可以定義為如式(2)所示:
![]() |
其中,是第k層 AE 隱含層的輸出,
和
分別是第k層 AE 的權矩陣和偏差向量。F(·)代表激活函數。解碼器函數如式(3)所示:
![]() |
其中,和
是權值矩陣和偏差向量,
即為如式(2)所示編碼器函數,
是
的重構。此外,將稀疏準則應用于隱含層,以發現輸入數據中的潛在結構。為了實現稀疏表示,一般將相對熵(kullback-leibler,KL)作為可處理的無監督目標引入。用 KL 來度量兩個伯努利隨機變量之間的差異:第j隱單元的
和目標的平均激活
。其表述如式(4)所示:
![]() |
其中,是第i個輸入向量對隱含層第j個單位的激活值。該值隨
和
差值的增加而單調增加。因此,通過設置一個小的稀疏參數
,使得隱藏單元的平均輸出大部分為零,從而實現稀疏表示。如式(2)~(4)所示,第k層 AE 式的訓練目標函數可以重新定義如式(5)所示:
![]() |
其中,和
表示稀疏性約束的正則化參數,
是第k個隱藏層單元的數目。如式(5)所示的過程為預訓練。本文作者將預訓練所得的 AE 的隱藏層逐個級聯形成一個疊層的 AE,并通過預訓練確定其初始參數。最終的目標是獲得具有更好類別表示能力的特征,進一步以有監督的方式優化整個網絡。為了實現這一點,本文在 SAE 的頂部堆疊另一個分類層作為輸出層。疊層網絡的微調過程是基于梯度下降的反向傳播。
EHFSSAE 學習的非線性變換可以看作是一種很好的特征學習,它不僅利用了深度網絡能夠學習數據之間潛在關系的特點,而且通過在深度網絡中引入原始特征,提高了深度特征的魯棒性。經過整個網絡的訓練,對于每個輸入的原始特征向量,在每個隱藏層中都可以得到一個新的特征向量,不同的層代表不同的層次信息。一般來說,網絡層越高,輸入數據中固有的模式就越復雜或抽象。基于此,將最后一個隱藏層的輸出,即分類層的輸入,作為深度特征向量,記錄為
。然后,通過連接
和
來構造一個增強的特征向量
如式(6)所示:
![]() |
1.2.2 基于 L1 正則化的混合特征選擇算法
雖然得到的混合特征集具有更豐富的類別信息,但是這會導致高維問題。另一方面,考慮到深層特征是從原始特征中學習而來的,這兩組特征并不是相互獨立的,兩組特征之間存在一定的冗余信息。為此,本文設計了基于 L1 正則化的特征選擇算法來優化混合特征。
具體地說,L1 正則化使用懲罰項來控制參數的絕對值之和最小,從而給出稀疏特征向量。對于新的數據集,其中
表示具有混合特征的第i個樣本,并且
是相應的標簽。考慮到以平方誤差為損失函數的最簡單的回歸模型,優化目標函數可定義為如式(7)所示:
![]() |
其中,N為樣本數,為第i個樣本的第p個特征,
代表第p個特征的回歸系數,為了防止陷入過度擬合,引入 L1 正則化來緩解此問題,如式(8)所示:
![]() |
其中,是一個稀疏控制參數,它越大,模型越稀疏。用近似梯度下降法求解如式(8)所示方程,可得只有與
的非零分量對應的特征才會被選擇到最終的特征子集。
1.2.3 基于 w_LPPD 和 SVM 的集成學習模型
w_LPPD 是一種新的有效的特征約簡方法,它考慮了樣本中的離群點,去除了一些遠離類中心的樣本。首先,引入隨機子空間采樣;其次,基于所提出的目標函數建立保持局部性的判別投影;最后,結合多空間映射矩陣構造最終映射矩陣。假設表示第c次采樣的樣本數,則采樣后的總樣本數為
。
局部保持正則化項如式(9)所示:
![]() |
其中,Tr(·)表示秩,指括號內矩陣的所有對角元素之和,為樣本集,
是映射矩陣,L是拉普拉斯矩陣,
是對角矩陣,A是親和矩陣,可通過如式(10)所示計算:
![]() |
利用如式(9)~(10)所示方程,w_LPPD 公式可以化為如式(11)所示:
![]() |
其中,代表局部類內散度矩陣,
代表局部類間散度矩陣,
表示正則化系數,
為常數。從目標函數可以看出,w_LPPD 的目標是最小化
并最大化
,同時保留樣本的局部性。
通過引入拉格朗日乘子,如式(11)所示目標函數式最終可以寫成如式(12)所示:
![]() |
進行求導,得到最優解,求解過程如式(13)所示:
![]() |
顯然,通過如式(13)所示,投影矩陣可以很容易地通過廣義特征值分解得到。詳情參見文獻[28]。向量
由
的前k個特征向量組成。然后,將原始數據投影到一個低維空間中,跨越
的列,實現降維。如前所述,利用隨機子空間上的局部判別投影,得到p投影矩陣
。通過加權得到最終的映射矩陣
。其數學表達式如式(14)所示:
![]() |
其中,是權重系數,可以通過網格搜索
來確定。
2 實驗結果與分析
2.1 實驗條件
在實驗部分,將收集到的數據分成四個數據集,并進行了幾組實驗來驗證所提出的方法。共收集到健康人樣本 102 例,抑郁癥患者樣本 67 例,精神分裂癥患者樣本 130 例,由此組成健康人和抑郁癥數據集(health and depression,HD)169 例,健康人和精神分裂癥數據集(health and schizophrenia,HS)232 例,抑郁癥和精神分裂癥數據集(depression and schizophrenia,DS)197 例,健康人、抑郁癥和精神分裂癥數據集(health,depression and schizophrenia,HDS)299 例。關于數據集的簡要信息如表 1 所示。所有實驗均在統一的實驗環境下進行:計算機操作系統為操作系統軟件 Windows 10(Microsoft Corporation Inc.,美國),內存大小為 128 GB;編程工具是數學軟件 MATLAB R2018b(MathWorks Inc.,美國)。

對于 EHFSSAE 模型,本文通過統計實驗發現隱含層數為 3 效果最優,因此實驗部分均基于三層隱含層進行。三層神經元個數分別為 90、40、20;懲罰系數 取值范圍為{10?5,10?4,10?3,10?2,10?1,1},
取值范圍為{1,2,3,4,5,6},稀疏系數
取值范圍為{0.02,0.04,0.06,0.08,0.10,0.12},通過網格搜索尋找最優結果。
對于集成模型,將 w_LPPD 中的局部比率系數設置為采樣率和基分類器個數,并在實驗中用留出法驗證了算法的性能。對于本文的 4 個數據集,所有樣本被分成兩個子集,其中占樣本三分之一的一個子集作為測試數據,其余的作為訓練數據。為了消除偶然因素的影響,每個實驗重復 5 次,取平均值和標準差作為最終結果。
2.2 實驗結果及分析
2.2.1 算法有效性驗證
為了驗證所提出算法的有效性,將提出的基于 L1 正則化的混合特征選擇方法與代表性特征學習方法進行了比較,這些方法包括:相關特征(relevant features,relief)、P值法、PCA 和線性判別分析(latent dirichlet allocation,LDA)[29-32]。前兩者為代表性的特征選擇方法,后兩者為代表性的特征降維方法。考慮到該方法的基本分類器是 SVM,因此本文也使用 SVM 作為分類器來評價上述方法的公平性。實驗的平均準確率如表 2 所示,結果表明本文所提出的基于 L1 正則化的特征選擇算法優于傳統方法。在不同的數據集上,該方法都具有最好的準確率。以 HDS 數據集為例,改進后的準確率從 72.5% 提高到了 75.8%。這說明該方法能有效地降低混合特征的冗余度。

為了驗證 EHFSSAE 的特征提取能力,將其與 SAE 和 SSAE 進行了比較。為了保證公平性,三個自編碼器都由三個隱藏層和一個激活層組成,正則化系數和稀疏參數設置為相同的值。三種編碼器的分類準確率如表 3 所示,可以看到在本文的精神病語音數據集上,本文提出的 EHFSSAE 算法分類效果要比 SAE 和 SSAE 的分類效果都要好。主要原因可能是,SAE 中加入了稀疏約束,同時網絡結構和訓練中融合了原有特征,提高了兩者的互補性。

為了驗證本文提出的集成降維模型對分類性能的提升,這里以隨機森林(random forest,RF)和極限學習機(extreme learning machine,ELM)為分類器進行了實驗,并與本文提出的集成降維模型進行了比較,結果如表 4 所示,可以看出該集成模型最大限度地提高了分類準確率。以 HDS 數據集為例與常用分類器相比,分類準確率分別從 72.4% 和 73.5% 提高到了 75.8%。此外,集合模型的標準差最小,說明所提出的集合模型更穩定;以 HDS 數據集為例與常用分類器相比,分類準確率的標準差分別從 6.5 和 4.2 降低為 3.5。可能的原因之一是 w_LPPD 可以進行高質量的特征降維。另一個原因是基于聚集算法(bagging aggregating)的集成模型具有很好的基分類器互補性。

2.2.2 算法效果對比
為了驗證本文方法的有效性,本文與精神病語音識別方面的代表性文獻[8-9, 11]進行比較,其中文獻[8]主要采用了邏輯回歸算法,文獻[9]使用 PCA 作為特征降維,KNN、GMM 和 SVM 分別作為分類器,文獻[11]把語音轉為語譜圖,采用了 CNN 分類算法,對比結果如表 5 所示。

可以看出,本文方法改進效果明顯。以 HD 數據集為例,與幾個文獻方法相比,準確率分別從 81.9%、86.4% 和 84.5% 提高到了 89.0%,最大改進效果為 7.1%。但是,對于抑郁癥和精神分裂癥之間分類(DS 數據集),分類結果較差,僅有 69.2%,但仍比幾個文獻方法好;可能的原因是邏輯回歸是一種線性回歸,對于比較相似的數據難以區分。文獻[9]的方法與文獻[8]相比有較大提升,但與本文提出的方法相比,分類效果仍然較差。可能的原因是 PCA 只對特征進行了降維處理,沒有得到高質量的語音特征用于分類,因此不能很好地表征精神疾病分類信息。文獻[11]中的深度學習算法效果不如本文方法。原因可能是該方法只有深度特征,受限于小樣本學習問題。
3 討論和結論
為了解決精神病識別特征質量問題,本文構建了一個較大規模的精神病語音數據集,并提出了一種新的識別算法——EHFSSAE 集成的心理健康語音識別算法。該算法主要分為 3 個部分:① 設計了一種新的 SSAE,嵌入原始特征,過濾前一層學習到的一些不良特征,減少特征冗余;② 針對深度特征與原始特征相結合所帶來的高維問題,設計了 L1 正則化方法來降低特征冗余;③ 為了進一步降低特征冗余,提高分類的穩定性,設計了一種基于 w_LPPD-SVM 的集成降維模型。該模型能有效地提高分類精度和泛化能力。為了驗證所提出方法的有效性,本實驗不僅使用消融法對主要的三個創新部分進行了驗證,還將所提出的算法與目前有代表性的算法進行了比較。
本文主要有以下貢獻和創新點:
(1)自主收集并構建了一個漢語心理健康語音數據集,解決了相關語音數據集不足的問題。
(2)設計了一種新的 SAE——EHFSSAE 來提取更具互補性的深度特征。與標準的 SAE 相比,EHFSSAE 通過在網絡結構和訓練中嵌入原始特征,來過濾前一層學習到的一些不良特征,提高了深度特征與原始特征的互補性及融合性能。
(3)設計了基于 L1 正則化的特征選擇算法和基于 w_LPPD-SVM 的集成降維模型,提高了混合特征的泛化能力,形成了三段式的精神病語音特征降維算法。
雖然本文提出的方法是有效的,但仍存在一些不足。今后的工作是優化 SAE 的結構或訓練方法,以便更好地適應語音特征的精神病健康狀況,進一步提高特征的質量,提高分類準確性。此外,還可以考慮其他種類的深度神經網絡來進一步驗證本文方法的有效性。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
精神病危害巨大,準確診斷將有助于治療[1]。研究表明,大多數精神病患者伴有言語障礙,言語障礙是精神病患者的早期癥狀之一[2]。隨著計算機技術和聲學分析技術的發展,基于語音的病理特征,利用機器學習技術進行無痛、無創的客觀輔助診斷精神病已成為一個重要的研究熱點[3-6]。
特征學習是精神病語音識別方法研究的核心和關鍵。近年來已有很多相關研究,提取的特征主要包括梅爾頻率倒譜系數(mel-frequency ceptral coefficients,MFCC)等[7-8]。主要的特征學習方法有主成分分析(principal component analysis,PCA)等,分類模型包括k-最近鄰(k-nearest neighbor,KNN)、高斯混合模型(gaussian mixture model,GMM)和支持向量機(support vector machine,SVM)等[9]。然而,傳統的特征處理算法都是基于經驗知識的淺層特征學習,不能有效地挖掘數據之間復雜的非線性關系,存在一定的局限性。深度學習可以自動學習特征間結構關系,從而獲取高表征能力的深層特征,使用的算法有卷積神經網絡(convolutional neural networks,CNN)等[10-11]。與傳統方法相比,深度學習具有更好的分類效果。
這些方法雖然取得了良好的效果,但也存在一些問題。首先,傳統特征學習無法自動獲得高質量的新特征。再次,深度特征學習中未考慮淺層特征(傳統特征),導致兩種特征的互補性欠缺。相關研究表明,深層特征和淺層特征反映了目標識別的不同側面信息,具有很好的互補性[12-14]。因此,考慮如何將這兩類特征進行融合是非常重要的。
自動編碼器(autoencoder,AE)是一種典型的深度神經網絡,近年來受到越來越多的關注[15-16]。堆棧式自動編碼器(stacked autoencoder,SAE)以 AE 的最后一個隱藏層的輸出作為下一個 AE 的輸入,可以方便地實現疊加。在此基礎上,通過引入稀疏約束得到的稀疏 SAE(sparse SAE,SSAE)可以學習到更具代表性的特征[17-19]。雖然 SSAE 在隨后的應用中取得了一定的成功[20-22],但是現有 SSAE 并沒有在結構和訓練中考慮原始特征,從而限制了其深度特征與原始特征的互補性及融合能力。
為了解決上述問題,本文以 SSAE 作為深度網絡原型,提出了一種基于嵌入式混合特征 SSAE(embedded hybrid feature SSAE,EHFSSAE)的特征融合方法。EHFSSAE 的基本思想是將原始特征嵌入到每個 AE 的編碼輸出中,然后將這些混合特征融合到更抽象的高隱藏層特征表示中,并保留一些有用的信息用于分類任務。為了解決兩種特征結合所帶來的高維問題,本文使用基于 L1 正則化的特征選擇算法以使在混合特征中選擇更具區分性和魯棒性的特征。此外,為了進一步消除冗余,提高算法的泛化能力,將加權局部判別保持投影(weighted local discriminant preservation projection,w_LPPD)與 SVM 相結合,構造集成模型。w_LPPD 是一種新的特征提取方法,它考慮了樣本中的異常值,有效地去除了一些遠離類中心的樣本。綜上所述,本文提出了一種基于深層 EHFSSAE 和流形集成的精神病語音識別方法,可以有效提高精神病語音識別準確率,對于精神病語音識別具有重要的參考價值。
1 數據與方法
1.1 數據采集
本文設計了一個中大規模的精神病語音采集方案,已通過重慶市精神衛生中心倫理審查委員會的倫理審查。其中,共有 299 名受試者參加了這項數據收集研究;精神分裂癥 130 例,抑郁癥 67 例,均來自重慶市精神衛生中心;102 名健康人由重慶大學學生組成。所有受試者均由經驗豐富的心理專家和精神病專家根據《簡明國際神經精神訪談》(the mini international neuropsychiatric interview,MINI)和《心理障礙診斷與統計手冊》(diagnostic and statistical manual of mental disorders,dsm-iv)進行診斷和篩選[23-24]。
在所有受試者中,精神分裂癥患者年齡在 18~63 歲(平均值 ± 標準差:31.9 ± 10.6),抑郁癥患者年齡在 15~71 歲(平均值 ± 標準差:36.2 ± 14.2),健康人年齡為 20~36 歲(平均值 ± 標準差:28 ± 4.5)。精神分裂癥患者中,男性為 58 人,女性為 72 人;抑郁癥患者中,男性為 21 人,女性為 46 人;健康人中,男性為 62 人,女性為 40 人。所有受試者不存在物質濫用、物質依賴、人格障礙等其他精神疾病,無嚴重的軀體疾病或自殺行為。所有受試者均為小學以上文化水平。
試驗在光線充足、安靜的房間內進行,在同一電腦程序中執行相應的語音任務,受試者保持坐姿,位于一臺 21 英寸電腦屏幕正前方約 1 m 處,屏幕顯示一段中文文本,受試者需要仔細瀏覽一遍文本后進行朗讀。中文文本共包含 13 個任務,包括持續元音、漢字、單詞和短句。錄音由一個頻率范圍在 0.05~13 kHz 的索尼錄音筆完成。錄音筆參數設置為 96 kHz、30 dB,置于受試者嘴部 10 cm 處,記錄受試者閱讀指定文本的音頻。數據以.wav 形式保存,使用聲學分析軟件 Praat 6.1(University of Amsterdam,荷蘭)進行原始特征提取[25]。基于該研究領域的前期工作基礎,本研究從每個語音樣本中提取了包括時頻在內的 26 個特征,具體特征信息參見文獻[26]。
1.2 本文方法
基于融合原有特征和深層特征的必要性,更為了提高深度特征與原始特征的互補性,本文設計了一種 EHFSSAE 模型。首先將原始特征嵌入到 SAE 的隱藏層中,使改進后的 SAE 能夠從原始特征中學習到高質量的深層特征;然后使用基于 L1 正則化的混合特征融合機制;最后設計了基于 w_LPPD 和 SVM 的降維集成模型。三步處理方法可以有效地消除特征冗余,增強特征的識別能力,提高分類結果的可靠性,提高泛化能力和穩定性。
1.2.1 EHFSSAE
傳統 SAE 的訓練基于貪婪的分層無監督學習算法[27]。該算法的核心思想是通過最小化該層的重建誤差,一次訓練一層,第i層的表示作為第i+1 層隱含層的輸入。然而,這樣的結構會導致編碼特征的小樣本識別能力不理想。認識到原始特征中包含了從先驗知識中產生的有用信息,當網絡深入時,這些信息可以引入到深層網絡中以保持初始信息。因此,本研究在兩個編碼器之間設計了一個編碼特征與原始特征的合并稀疏單元(merge-sparse unit,MSU),構造一個 EHFSSAE,如圖 1 所示。

給定原始數據樣本(其中X為輸入數據矩陣,R為實數集,N為樣本個數,n為樣本維度)和單個編碼器的編碼特征
(其中H為輸入數據編碼后特征,R為實數集,N為樣本個數,d為編碼特征維度),合并稀疏單元的目的是獲得X和H混合特征集的最優子集,其可以定義為如式(1)所示:
![]() |
其中,表示原始特征與隱藏層特征的連接,L(·)表示稀疏運算函數,G是由 0 和 1 組成的對應稀疏矩陣。通過稀疏矩陣,低散度的特征將為零,因此這些特征將不會被發送到后續層進行進一步編碼。
在編碼器之間引入 MSU 后,EHFSSAE 中第k層(k > 1)AE 的編碼器部分可以定義為如式(2)所示:
![]() |
其中,是第k層 AE 隱含層的輸出,
和
分別是第k層 AE 的權矩陣和偏差向量。F(·)代表激活函數。解碼器函數如式(3)所示:
![]() |
其中,和
是權值矩陣和偏差向量,
即為如式(2)所示編碼器函數,
是
的重構。此外,將稀疏準則應用于隱含層,以發現輸入數據中的潛在結構。為了實現稀疏表示,一般將相對熵(kullback-leibler,KL)作為可處理的無監督目標引入。用 KL 來度量兩個伯努利隨機變量之間的差異:第j隱單元的
和目標的平均激活
。其表述如式(4)所示:
![]() |
其中,是第i個輸入向量對隱含層第j個單位的激活值。該值隨
和
差值的增加而單調增加。因此,通過設置一個小的稀疏參數
,使得隱藏單元的平均輸出大部分為零,從而實現稀疏表示。如式(2)~(4)所示,第k層 AE 式的訓練目標函數可以重新定義如式(5)所示:
![]() |
其中,和
表示稀疏性約束的正則化參數,
是第k個隱藏層單元的數目。如式(5)所示的過程為預訓練。本文作者將預訓練所得的 AE 的隱藏層逐個級聯形成一個疊層的 AE,并通過預訓練確定其初始參數。最終的目標是獲得具有更好類別表示能力的特征,進一步以有監督的方式優化整個網絡。為了實現這一點,本文在 SAE 的頂部堆疊另一個分類層作為輸出層。疊層網絡的微調過程是基于梯度下降的反向傳播。
EHFSSAE 學習的非線性變換可以看作是一種很好的特征學習,它不僅利用了深度網絡能夠學習數據之間潛在關系的特點,而且通過在深度網絡中引入原始特征,提高了深度特征的魯棒性。經過整個網絡的訓練,對于每個輸入的原始特征向量,在每個隱藏層中都可以得到一個新的特征向量,不同的層代表不同的層次信息。一般來說,網絡層越高,輸入數據中固有的模式就越復雜或抽象。基于此,將最后一個隱藏層的輸出,即分類層的輸入,作為深度特征向量,記錄為
。然后,通過連接
和
來構造一個增強的特征向量
如式(6)所示:
![]() |
1.2.2 基于 L1 正則化的混合特征選擇算法
雖然得到的混合特征集具有更豐富的類別信息,但是這會導致高維問題。另一方面,考慮到深層特征是從原始特征中學習而來的,這兩組特征并不是相互獨立的,兩組特征之間存在一定的冗余信息。為此,本文設計了基于 L1 正則化的特征選擇算法來優化混合特征。
具體地說,L1 正則化使用懲罰項來控制參數的絕對值之和最小,從而給出稀疏特征向量。對于新的數據集,其中
表示具有混合特征的第i個樣本,并且
是相應的標簽。考慮到以平方誤差為損失函數的最簡單的回歸模型,優化目標函數可定義為如式(7)所示:
![]() |
其中,N為樣本數,為第i個樣本的第p個特征,
代表第p個特征的回歸系數,為了防止陷入過度擬合,引入 L1 正則化來緩解此問題,如式(8)所示:
![]() |
其中,是一個稀疏控制參數,它越大,模型越稀疏。用近似梯度下降法求解如式(8)所示方程,可得只有與
的非零分量對應的特征才會被選擇到最終的特征子集。
1.2.3 基于 w_LPPD 和 SVM 的集成學習模型
w_LPPD 是一種新的有效的特征約簡方法,它考慮了樣本中的離群點,去除了一些遠離類中心的樣本。首先,引入隨機子空間采樣;其次,基于所提出的目標函數建立保持局部性的判別投影;最后,結合多空間映射矩陣構造最終映射矩陣。假設表示第c次采樣的樣本數,則采樣后的總樣本數為
。
局部保持正則化項如式(9)所示:
![]() |
其中,Tr(·)表示秩,指括號內矩陣的所有對角元素之和,為樣本集,
是映射矩陣,L是拉普拉斯矩陣,
是對角矩陣,A是親和矩陣,可通過如式(10)所示計算:
![]() |
利用如式(9)~(10)所示方程,w_LPPD 公式可以化為如式(11)所示:
![]() |
其中,代表局部類內散度矩陣,
代表局部類間散度矩陣,
表示正則化系數,
為常數。從目標函數可以看出,w_LPPD 的目標是最小化
并最大化
,同時保留樣本的局部性。
通過引入拉格朗日乘子,如式(11)所示目標函數式最終可以寫成如式(12)所示:
![]() |
進行求導,得到最優解,求解過程如式(13)所示:
![]() |
顯然,通過如式(13)所示,投影矩陣可以很容易地通過廣義特征值分解得到。詳情參見文獻[28]。向量
由
的前k個特征向量組成。然后,將原始數據投影到一個低維空間中,跨越
的列,實現降維。如前所述,利用隨機子空間上的局部判別投影,得到p投影矩陣
。通過加權得到最終的映射矩陣
。其數學表達式如式(14)所示:
![]() |
其中,是權重系數,可以通過網格搜索
來確定。
2 實驗結果與分析
2.1 實驗條件
在實驗部分,將收集到的數據分成四個數據集,并進行了幾組實驗來驗證所提出的方法。共收集到健康人樣本 102 例,抑郁癥患者樣本 67 例,精神分裂癥患者樣本 130 例,由此組成健康人和抑郁癥數據集(health and depression,HD)169 例,健康人和精神分裂癥數據集(health and schizophrenia,HS)232 例,抑郁癥和精神分裂癥數據集(depression and schizophrenia,DS)197 例,健康人、抑郁癥和精神分裂癥數據集(health,depression and schizophrenia,HDS)299 例。關于數據集的簡要信息如表 1 所示。所有實驗均在統一的實驗環境下進行:計算機操作系統為操作系統軟件 Windows 10(Microsoft Corporation Inc.,美國),內存大小為 128 GB;編程工具是數學軟件 MATLAB R2018b(MathWorks Inc.,美國)。

對于 EHFSSAE 模型,本文通過統計實驗發現隱含層數為 3 效果最優,因此實驗部分均基于三層隱含層進行。三層神經元個數分別為 90、40、20;懲罰系數 取值范圍為{10?5,10?4,10?3,10?2,10?1,1},
取值范圍為{1,2,3,4,5,6},稀疏系數
取值范圍為{0.02,0.04,0.06,0.08,0.10,0.12},通過網格搜索尋找最優結果。
對于集成模型,將 w_LPPD 中的局部比率系數設置為采樣率和基分類器個數,并在實驗中用留出法驗證了算法的性能。對于本文的 4 個數據集,所有樣本被分成兩個子集,其中占樣本三分之一的一個子集作為測試數據,其余的作為訓練數據。為了消除偶然因素的影響,每個實驗重復 5 次,取平均值和標準差作為最終結果。
2.2 實驗結果及分析
2.2.1 算法有效性驗證
為了驗證所提出算法的有效性,將提出的基于 L1 正則化的混合特征選擇方法與代表性特征學習方法進行了比較,這些方法包括:相關特征(relevant features,relief)、P值法、PCA 和線性判別分析(latent dirichlet allocation,LDA)[29-32]。前兩者為代表性的特征選擇方法,后兩者為代表性的特征降維方法。考慮到該方法的基本分類器是 SVM,因此本文也使用 SVM 作為分類器來評價上述方法的公平性。實驗的平均準確率如表 2 所示,結果表明本文所提出的基于 L1 正則化的特征選擇算法優于傳統方法。在不同的數據集上,該方法都具有最好的準確率。以 HDS 數據集為例,改進后的準確率從 72.5% 提高到了 75.8%。這說明該方法能有效地降低混合特征的冗余度。

為了驗證 EHFSSAE 的特征提取能力,將其與 SAE 和 SSAE 進行了比較。為了保證公平性,三個自編碼器都由三個隱藏層和一個激活層組成,正則化系數和稀疏參數設置為相同的值。三種編碼器的分類準確率如表 3 所示,可以看到在本文的精神病語音數據集上,本文提出的 EHFSSAE 算法分類效果要比 SAE 和 SSAE 的分類效果都要好。主要原因可能是,SAE 中加入了稀疏約束,同時網絡結構和訓練中融合了原有特征,提高了兩者的互補性。

為了驗證本文提出的集成降維模型對分類性能的提升,這里以隨機森林(random forest,RF)和極限學習機(extreme learning machine,ELM)為分類器進行了實驗,并與本文提出的集成降維模型進行了比較,結果如表 4 所示,可以看出該集成模型最大限度地提高了分類準確率。以 HDS 數據集為例與常用分類器相比,分類準確率分別從 72.4% 和 73.5% 提高到了 75.8%。此外,集合模型的標準差最小,說明所提出的集合模型更穩定;以 HDS 數據集為例與常用分類器相比,分類準確率的標準差分別從 6.5 和 4.2 降低為 3.5。可能的原因之一是 w_LPPD 可以進行高質量的特征降維。另一個原因是基于聚集算法(bagging aggregating)的集成模型具有很好的基分類器互補性。

2.2.2 算法效果對比
為了驗證本文方法的有效性,本文與精神病語音識別方面的代表性文獻[8-9, 11]進行比較,其中文獻[8]主要采用了邏輯回歸算法,文獻[9]使用 PCA 作為特征降維,KNN、GMM 和 SVM 分別作為分類器,文獻[11]把語音轉為語譜圖,采用了 CNN 分類算法,對比結果如表 5 所示。

可以看出,本文方法改進效果明顯。以 HD 數據集為例,與幾個文獻方法相比,準確率分別從 81.9%、86.4% 和 84.5% 提高到了 89.0%,最大改進效果為 7.1%。但是,對于抑郁癥和精神分裂癥之間分類(DS 數據集),分類結果較差,僅有 69.2%,但仍比幾個文獻方法好;可能的原因是邏輯回歸是一種線性回歸,對于比較相似的數據難以區分。文獻[9]的方法與文獻[8]相比有較大提升,但與本文提出的方法相比,分類效果仍然較差。可能的原因是 PCA 只對特征進行了降維處理,沒有得到高質量的語音特征用于分類,因此不能很好地表征精神疾病分類信息。文獻[11]中的深度學習算法效果不如本文方法。原因可能是該方法只有深度特征,受限于小樣本學習問題。
3 討論和結論
為了解決精神病識別特征質量問題,本文構建了一個較大規模的精神病語音數據集,并提出了一種新的識別算法——EHFSSAE 集成的心理健康語音識別算法。該算法主要分為 3 個部分:① 設計了一種新的 SSAE,嵌入原始特征,過濾前一層學習到的一些不良特征,減少特征冗余;② 針對深度特征與原始特征相結合所帶來的高維問題,設計了 L1 正則化方法來降低特征冗余;③ 為了進一步降低特征冗余,提高分類的穩定性,設計了一種基于 w_LPPD-SVM 的集成降維模型。該模型能有效地提高分類精度和泛化能力。為了驗證所提出方法的有效性,本實驗不僅使用消融法對主要的三個創新部分進行了驗證,還將所提出的算法與目前有代表性的算法進行了比較。
本文主要有以下貢獻和創新點:
(1)自主收集并構建了一個漢語心理健康語音數據集,解決了相關語音數據集不足的問題。
(2)設計了一種新的 SAE——EHFSSAE 來提取更具互補性的深度特征。與標準的 SAE 相比,EHFSSAE 通過在網絡結構和訓練中嵌入原始特征,來過濾前一層學習到的一些不良特征,提高了深度特征與原始特征的互補性及融合性能。
(3)設計了基于 L1 正則化的特征選擇算法和基于 w_LPPD-SVM 的集成降維模型,提高了混合特征的泛化能力,形成了三段式的精神病語音特征降維算法。
雖然本文提出的方法是有效的,但仍存在一些不足。今后的工作是優化 SAE 的結構或訓練方法,以便更好地適應語音特征的精神病健康狀況,進一步提高特征的質量,提高分類準確性。此外,還可以考慮其他種類的深度神經網絡來進一步驗證本文方法的有效性。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。