隨著機器學習技術的快速發展,深度學習等系列算法在一維生理信號處理方面得到了廣泛的應用。本文針對腦電(EEG)信號,使用深度學習開源框架中的深度信念網絡(DBN)模型識別積極、消極、中性 3 種情緒狀態,并與支持向量機(SVM)進行識別效率的對比,通過采集受試者在不同情緒刺激狀態下的腦電信號,利用深度信念網絡和支持向量機分別對基于不同特征變換和不同頻段的情緒表征數據進行識別。研究結果發現,利用深度信念網絡對差分熵(DE)特征進行識別的平均準確率為 89.12%±6.54%,與之前的研究相比在同一批數據集上的識別效果更好,同時深度信念網絡的分類效果在數值上好于傳統的支持向量機(平均分類準確率為 84.2%±9.24%),其準確率和穩定性都有相應更好的趨勢,另外受試者在 3 次重復試驗中都能得到比較一致的分類準確率(標準差的平均值為 1.44%),試驗結果較為穩定,試驗具有一定的可重復性。研究結果顯示,差分熵特征相比于其他特征在分類器中有著更好的分類準確率,此外,方法中使用 Beta 頻段和 Gamma 頻段在情緒識別模型中有著更好的分類效果。綜上所述,利用深度學習算法進行情緒識別,能夠在準確率上有所提升,對于建立能夠更準確地識別情緒狀態的輔助識別系統有著一定的借鑒意義。此外,本文研究結果進一步提示可以通過分類結果反演找出與情緒狀態最相關的腦區和頻段,從而加深對于情緒機制的理解,因此本文在利用腦電信號表征情緒狀態的識別研究領域具有一定的學術價值和應用價值,值得更深入的探究。
引用本文: 楊豪, 張俊然, 蔣小梅, 劉飛. 基于深度信念網絡腦電信號表征情緒狀態的識別研究. 生物醫學工程學雜志, 2018, 35(2): 182-190. doi: 10.7507/1001-5515.201706035 復制
引言
情緒識別不僅在日常生活、工作、交流中扮演著非常重要的角色,也在人機交互系統中承擔著不可替代的作用;此外在體育運動[1]、自動駕駛[2]、測謊技術[3]、醫療應用[4]等方面也都發揮著獨特的作用,已成為人工智能的重要研究領域。目前人工智能對情緒的識別主要是通過語音語調、語義、文本信息、身體動作與姿勢、面部表情等外在表現來實現[5],不過人們可以通過調整說話方式,改變身體或手部動作,表達不同甚至相反的信息來掩飾自己的真實情緒。生理電信號由人體自主神經系統和內分泌系統支配,不易受主觀意識控制而改變,能客觀、真實地反映情緒狀態和情緒的變化。而腦電信號(electroencephalogram,EEG)是應用十分廣泛的一種生理電信號,其直接表征了不同區域大腦皮層的神經活動狀態,對檢測人的生理、心理狀態有著重要意義。
腦電信號一般可分為 5 個頻段:Delta 頻段(1~3 Hz)、Theta 頻段(4~7 Hz)、Alpha 頻段(8~13 Hz)、Beta 頻段(14~30 Hz)、Gamma 頻段(31~50 Hz)。既往已有研究表明,人的各項生理活動與心理活動與不同頻段的腦電信號之間有著密不可分的聯系[6]。2007 年,來自德國的研究學者 Sammler 等[7]發現腦電信號與不同類型音樂刺激存在著相關性,聽愉悅的音樂時,大腦額正中線的 Theta 頻段能量會增加。2009 年,Li 等[8]通過對積極和消極兩種情緒進行識別,發現 Gamma 頻段的特征具有更高的時間辨析度。2011 年,Nie 等[9]發現對情緒識別結果較好的特征主要分布在大腦枕葉和頂葉的 Alpha 頻段、中心點的 Beta 頻段以及左額葉和右顳葉的 Gamma 頻段。2014 年,Wang 等[10]研究發現 Alpha 頻段的特征對積極和消極情緒的識別效果更好。雖然以上這些研究的結果還不夠完善且有細微的差異,但都提供了腦電信號能較為客觀、真實地反映情緒狀態的證據。
以往在情緒識別方面的研究,主要是采用傳統的淺層機器學習算法對情緒狀態進行識別,即首先對采集到的原始數據(例如:腦電信號、心電信號等)進行預處理,再對預處理后的數據進行特征提取和選擇,最后將選擇的特征輸入分類器。如蔣小梅等[11]通過對不同情緒狀態下的多生理信號進行預處理和特征提取,再利用 J48 決策樹算法實現了對 4 種情緒狀態的識別。南京郵電大學的蘇建新等[12]使用情緒腦電信號的小波能量以及相關非線性參數,通過支持向量機(support vector machine,SVM)對平靜態和壓力態的腦電信號進行了識別和分析。來自希臘塞薩洛尼基亞里士多德大學的學者 Frantzidis 等[13]將受試者的情緒分為愉悅和低落、高興奮度和低興奮度的兩類對比,并利用馬氏距離分類法進行情緒分類,也達到了較高的分類精度。上述介紹的研究普遍采用淺層分類器,需要人工進行特征選擇和提取,但這些特征是否能穩定、準確地反映情緒信息,在很大程度上需要依靠研究者的專業知識和長期經驗積累。此外,淺層機器學習算法在有限的樣本和計算單元情況下對復雜函數的表示能力有限,對于復雜分類問題其泛化能力受到一定制約[14]。來自加拿大多倫多大學的學者 Braverman[15]的研究也指出存在一大類模型不能用淺層學習網絡表示,這些數學結果指出了淺層學習網絡的局限性。因此傳統的淺層機器學習算法的分類結果在某些復雜模型中有所限制,從而促使研究者們轉向利用深度網絡對復雜問題進行建模和分類識別。
基于深度學習框架的系列算法是通過學習一種深層非線性網絡結構,實現了復雜函數逼近,能從少數樣本集中提取和選擇更能反映數據集本質的特征[16]。自 2012 年加拿大多倫多大學的 Krizhevsky 等[17]在計算機視覺系統識別挑戰賽中使用卷積神經網絡(convolutional neural network,CNN)以領先第 2 名 10% 以上的準確率奪冠后,在學術界引發了深度學習算法研究的熱潮。隨后,深度學習算法在信號和信息處理領域不斷取得新的突破,特別是在圖像處理、語音識別等方向更是取得了前所未有的效果和研究進展[17-18]。最近備受關注的是阿爾法圍棋(Alphago)于 2017 年 5 月與世界圍棋冠軍柯潔的對弈,Alphago 利用蒙特卡洛模擬算法模擬人類的直覺思維,通過自我對弈和進化學習,在此次對弈中取得了 3∶0 的成績。至此,Alphago 在所有人機對弈中取得了全勝的戰績。
另一方面,諸多開源框架的出現(Caffe、TensorFlow 等),大大降低了人們學習研究深度學習算法的難度,越來越多的學者已嘗試將深度學習算法應用到一維生理電信號的分析處理中。來自紐約州立大學布法羅分校和北京工業大學的研究人員 Li 等[19]提出了一種基于深度信念網絡(deep belief network,DBN)模型的腦電信號的情緒識別方法,為了避免小樣本帶來的問題,首先使用 DBN 從原始信號中提取關鍵特征,然后對腦電信號采集過程中的噪聲問題提出了一種新的刺激響應方法,根據每個通道的刺激響應速率來選擇通道,最后使用有監督的受限玻爾茲曼機(restricted Boltzmann machine,RBM)來訓練每個最佳通道的組合特征,將識別率提高了 11.5%~24.4%;在另一個相似研究中,美國密蘇里哥倫比亞大學的 Wang 等[20]基于情緒數據庫中的腦電信號及其他生理電信號對喚醒度、愉悅度、喜好等情緒進行識別研究,同樣使用 DBN 模型,對 3 種情緒的識別準確率分別為 60.9%、51.2%、68.4%,相比高斯樸素貝葉斯分類器具有更好的分類效果。另外,美國肯特州立大學的 Ghayoumi 等[21]的研究發現,使用深度學習算法,比如 CNN、DBN 等,機器人能夠更好地識別人的行為和情緒。
綜上所述,深度學習算法相比于傳統的機器學習算法,可以挖掘更深層次的情緒特征,從而利于一維腦電信號的分析研究。因此,本研究使用基于深度學習算法的 DBN 模型對消極、積極、中性 3 種情緒刺激下的腦電信號進行識別研究。為簡化算法復雜度和擴展樣本數量,本文未使用原始腦電信號而是采用信號的 6 種特征變換作為模型輸入,分別為:功率譜密度(power spectral density,PSD)、差分熵(differential entropy,DE)、差分不對稱(differential asymmetry,DASM)、有理不對稱(rational asymmetry,RASM)、不對稱(asymmetry,ASM)、差分熵差分(differential caudality,DCAU)。本文研究結果最終得到了較高的識別準確率,為深度學習算法在情緒識別領域的進一步發展做出了嘗試,對基于腦電信號的情緒識別進行了優化。接下來,找出與情緒最相關的腦區和頻段,以及建立能夠更準確地識別情緒狀態的系統,都是將基于腦電信號的情緒識別技術真正應用于現實世界而需要進一步開展的工作。
1 DBN 模型
本文所使用的 DBN 模型由兩個無監督的 RBM 和一層有監督的反向傳播(back propagation,BP)網絡組成。如圖 1 所示,其中的W0、W1、W2代表各層的權值,先訓練第 1 個 RBM1,然后將訓練好的結點作為第 2 個 RBM 的輸入,訓練第 2 個 RBM2,所有 RBM 訓練完成之后使用反向傳播算法對網絡進行微調。DBN 通過兩個 RBM 的堆疊,可以看作是對輸入的逐層加工,使得原來僅基于最后一層輸出映射難以完成的任務變為可能。

模型中 RBM 由玻爾茲曼機(Boltzmann machine,BM)發展而來,玻爾茲曼機能有效地發現大量復雜數據中的規律,具有很好的無監督訓練能力。玻爾茲曼機是一種基于能量的模型,對網絡訓練的目的就是使能量函數最小化。如圖 2 所示,玻爾茲曼機由可視層和隱含層構成,可視層即數據輸入、輸出層,本文的輸入數據是經過特征變化后的腦電信號表征值,以 DE 特征為例,輸入結點數為 310,由于是對 3 種情緒進行識別和分類,所以選用的輸出層結點數為 3;隱含層則可以理解為是數據的內在表達層。由于玻爾茲曼機復雜度高,難以解決大數據任務,所以在玻爾茲曼機基礎上提出了 RBM。如圖 2 所示,RBM 有 m 個可視層結點、n 個隱含層結點,每個可視層結點只和隱含層的 n 個結點有關,與同一層其他可視層結點之間相互獨立,每個隱含層結點只和可視層 m 個結點有關,與同一層其他隱含層結點之間相互獨立。

RBM 同玻爾茲曼機一樣,是基于能量的概率圖模型,知道了概率分布就可以通過采樣來求解,其中隱含層與可視層之間的連接權值為W,可視層偏置b1,b2,
,bm,隱含層偏置為c1,c2,
,cn,如圖 2 所示其可視層與隱含層均為 2 值變量,神經元數目分別為 i 和 j,得到 RBM 的能量函數 E(v,h;θ),定義如式(1)所示:
![]() |
對于給定的數據寫出對應的似然函數[22],然后進行求解,而任何概率分布都可以轉變為能量的模型,可以根據能量模型來找到輸入的特性和分布。根據能量函數,可計算求得 RBM 的可視層與隱含層結點之間的聯合分布概率 p(v,h;θ),定義如式(2)所示:
![]() |
上式中 E(v,h;θ)是式(1)定義的能量函數,一組可視層結點的取值(如:0,1,0,1)和一組隱含層結點的取值(如:1,0,1)發生的概率 p(v,h;θ),是由能量函數決定的。在本文設定的模型中,最重要的是 RBM 所定義的觀測變量的分布(似然函數),只用給定可視層節點的狀態,則各個隱含層節點的激活概率就可以有效地計算出來,如式(3)所示:
![]() |
其中,σ(x)激活函數類似的給定隱含層節點的狀態,而第 i 個可視層節點的概率可表現為如式(4)所示:
![]() |
RBM 使用迭代的方式進行訓練,可以求取訓練集上極大似然函數從而得到模型參數
,計算公式如式(5)所示:
![]() |
2 訓練過程
2.1 數據預處理
此次研究的試驗數據來源于上海交通大學提供的情緒腦電信號數據庫(Shanghai Jiao Tong University,emotion electroencephalogram dataset,SEED)[23]。數據為 15 個受試者的腦電信號,包含了基于腦電信號的 3 種情緒數據(積極、消極、中性)。數據采集時,要求每個受試者觀看 15 個能誘發這 3 種情緒的電影片段,在受試者觀看電影片段的過程中,使用 62 通道的干電極腦電帽采集受試者的腦電信號(62 通道信號為一組),每個受試者分別有 5 組“積極”、5 組“消極”、5 組“中性”的腦電信號。每個受試者共參加 3 次試驗,對于 15 個受試者共獲得 15 × 3 × 15 = 675 組腦電數據,且每組數據都經濾波獲取了腦電信號 5 個頻段的信號,再在這 5 個頻段的基礎上使用 6 種特征變換方法對每個頻段下的數據進行了特征提取,分別為:PSD、DE、ASM、DASM、RASM、DCAU,這 6 種特征變換具有計算簡單、能有效表征腦電信號等特點。其中,DE 特征是在香農熵的概念上擴展而來,能有效地測試連續隨機變量的復雜性,腦電信號中低頻能量的成分較多,DE 可以有效地將腦電信號中低頻能量部分和高頻能量部分進行區分,由于有 62 個通道,所以 DE 的樣本維數為 62 × 5 = 310。另有研究表明,大腦在處理情緒活動時具有不對稱性[24],因此在 27 對大腦非對稱電極 DE 特征基礎上提取了 DASM、RASM 兩種特征變換,之后再將 DASM 和 RASM 組合就得到了 ASM。此外,DCAU 表示的是 23 對大腦額葉和后葉電極的 DE 的差分。相應的 PSD、DE、ASM、DASM、RASM、DCAU 特征維數分別為:310、310、270、135、135、115。試驗將前 12 組數據(15 × 3 × 12 = 540 組)作為訓練集,后 3 組(15 × 3 × 3 = 135 組)數據作為測試集。為了加快網絡的訓練速度,需對數據進行歸一化處理。本文選用正態標準化方法進行歸一化處理,對訓練集和測試集分別利用正態標準化將數據變換為均值為 0、標準差為 1 的正態分布,再將數據變換到[0,1]的范圍內。
2.2 模型參數初始化
研究基于深度學習工具箱 Deep Learning Toolbox(Technical University of Denmark,丹麥)框架的 DBN 模型[20],在此基礎上引入了批歸一化算法,批歸一化算法由 Ioffe 等[25]于 2015 年提出,可用于加快網絡訓練速度。而 DBN 的訓練主要是不斷調節權值和偏置的過程,通過對網絡深度和隱含層結點數進行調整,使分類效果較為理想。由于試驗的樣本量偏少,使用 1 個輸入層、2 個隱含層以及 1 個輸出層的網絡模型,其隱含層結點數分別在 50~500 和 20~500 兩個范圍中選取,并引入了修正線性單元(recitified linear units,ReLU)激活函數(Nair 等[26]首次將 ReLU 激活函數成功運用 DBN 模型中),使模型的彌散變弱,收斂更快,然后在輸出層使用柔性最大(Softmax)回歸方法,對情緒進行分類識別[27]。
通過對模型參數進行調整,得到最優的 DBN 模型進行分類學習。此外,本文研究中也使用了傳統的 SVM 分類器,對數據進行了學習分類,最后將 DBN 模型的識別結果同傳統 SVM 分類結果作比較。本文采用的 DBN 模型中的各項參數設置如表 1、表 2 所示。


3 識別結果與分析
3.1 基于不同特征的情緒識別結果
為了研究不同的特征變換對情緒識別的影響,對全頻段下的腦電信號的不同特征分別進行訓練,其模型在測試集的識別結果如表 3 所示。

從表中可以看出,相比傳統情緒識別中使用的 PSD 特征[24],DBN 和 SVM 兩種分類器的結果都指向了利用 DE 特征進行識別的效果最好,其具有最高的平均值和最低的標準差。這可能是因為 DE 特征對于大腦情緒的高頻特征具有一定程度上的平衡作用,使高頻特征的作用變得更強[28],從而有效地將腦電信號中的低頻能量和高頻能量進行區分,因此可以推測 DE 特征相比 PSD 特征更適用于基于腦電信號的情緒識別。同時使用 DASM、RASM、ASM、DCAU 這 4 種非對稱特征對情緒的識別也具有較高的準確率,雖然這 4 種特征相比 DE 特征和 PSD 特征的維數較少(DASM 為 27 維、RASM 為 27 維、ASM 為 54 維),但是也能達到較為不錯的準確率(DCAU 達到 80.25% ± 8.56%,其次分別為 ASM 的 78.53% ± 14.89%、RASM 的 76.39% ± 16.32%、DASM 的 75.64% ± 13.41%),這說明情緒產生時其腦電信號也具有非對稱屬性,大腦的非對稱活動在情緒識別中也是有意義的。由于特征維數不同,需要后續研究來進一步排除是否是因為特征維數的不同導致使用 DASM、RASM、ASM、DCAU 這 4 個特征的準確率相對 DE 特征較低。另外,如表 3 所示,DE 特征相比其他特征具有更好的識別效果,本文后續討論都將以 DE 特征作為標準。
3.2 不同受試者的情緒識別結果
基于生理電信號的情緒識別研究中的一個非常重要的問題是:在不同時間重復進行同一情緒試驗,能否基于前后試驗數據,準確、穩定地識別出同一個體的不同情緒狀態。因此本文對每個受試者 3 次試驗的情緒數據進行了識別,如表 4 所示,第 1 列代表所選的 15 個受試者,后面為每個受試者在 3 次試驗后的情緒識別結果,最后為 3 次試驗結果的平均值 ± 標準差。

如表 4 所示,用 DBN 對 DE 特征進行識別的平均準確率為 89.12% ± 6.54%,在同一批數據集下,比文獻[23](平均識別率為 86.08% ± 8.34%)的識別效果更好,平均識別率提高了 3.04%,標準差降低了 1.80%。此外,從表中可以得到,在同樣的訓練集和測試集下,SVM 的平均分類準確率為 84.20% ± 9.24%,而基于 DBN 的平均分類準確率為 89.12% ± 6.54%,表現出具有更高準確率和穩定性的趨勢。
另外從表中能看出,個別受試者的識別率明顯低于其他受試者,而這可能是由于每次試驗過程中采集狀態、受試者的心理狀況等會有不同程度的個體差異,但每個受試者自身在 3 次試驗中都能得到相似的準確率(標準差的平均值為 1.44%)。因此,DBN 對情緒識別的試驗是較為穩定的,在實際應用中,在不同時間利用腦電信號對同一受試者進行情緒識別是可以重復的。而從本文研究結果也可以看出,當受試者具有較好的識別率時,其 3 次重復測量的標準差往往也越低,這可能是由于 DBN 在進行訓練時,能夠更有效地對數據進行特征提取和選擇,能夠提取出穩定的反映情緒的特征。在之后的研究中,研究人員可以通過研究深度模型中的權值分布來探討 DBN 是如何找到腦電信號中反映情緒的關鍵頻段以及特異腦區的。
3.3 基于不同頻段的情緒識別結果
以 DE 特征為例,使用腦電信號的不同頻段的識別結果如表 5 所示。

從表中可以發現,使用 DBN 對不同頻段的數據識別具有不同的效果,使用全頻段的數據識別效果最好。而 5 個頻段中,Beta 頻段和 Gamma 頻段在相同測試集上具有更高的分類準確率。考慮到 DBN 將特征提取和特征選擇結合在了一起,可以自動選擇出對分類有用的特征,而過濾掉與分類無關的特征,結合頻段特異性可以說明 Beta 頻段和 Gamma 頻段包含了對情緒識別有用的信息,基于這兩個頻段的特征提取在情緒識別中具有關鍵的作用。
如圖 3 所示,為經過訓練后的 DBN 第一個隱含層權值平均絕對值的分布圖。訓練后的較大權值主要分布在 Beta 頻段和 Gamma 頻段,其權值的大小則反映了與該權值相連的輸入對最后分類結果的貢獻程度,這可以推測 Beta 頻段和 Gamma 頻段包含了更多與情緒有關的信息,即 Beta 和 Gamma 頻段為情緒的關鍵頻段,與 Wang 等[10]的研究報道較為一致。

4 結論
腦電信號是由大腦神經元自發性、節律性運動而產生的電位,相關的研究也表明,腦電信號蘊含了豐富的情緒特征,能夠客觀、真實、準確地表征情緒[29]。因此基于腦電信號的情緒識別研究可以幫助我們更準確地理解情緒狀態,從而提高情緒的識別準確率,更好地運用于實際;并且在研究過程中,可以找到不同情緒所對應的不同關鍵頻段和腦區,為腦電信號在情緒識別領域的應用提供生理基礎。另外隨著可穿戴設備和干電極技術的發展[30],腦電信號的獲取也越來越方便、越來越穩定,基于腦電信號的研究走向實際運用也成為了可能。此外,伴隨著深度學習模型在信號處理領域的成功,使用深度學習方法對生理電信號狀態進行識別也逐漸成熟和實用。本文研究發現:①DBN 使用 DE 特征進行識別的平均準確率為 89.12% ± 6.54%,相比于 SVM 的 84.12% ± 9.24% 結果更好;② 同一受試者在 3 次試驗中都能得到類似的分類準確率(標準差的平均值為 1.44%),可以看出基于腦電信號對個體進行情緒識別較為穩定,具有可重復性;③ DE 特征相比其他特征其分類準確率最高,另外在 DE 特征基礎上提取的 DASM、RASM、ASM、DCAU 這 4 種非對稱特征也能取得較好的結果,說明了情緒活動時腦電信號也具有非對稱屬性,大腦的非對稱性活動在情緒識別中是有意義的;④ 單獨使用 Beta 頻段和 Gamma 頻段進行識別有著更好的分類表現,可以推測 Beta 頻段和 Gamma 頻段在情緒識別中具有關鍵的作用,包含了更多與情緒有關的信息。
此外,試驗還存在如下可以改進的地方,比如試驗的樣本量較少,受試者只有 15 個,且每個受試者只進行了 3 次試驗,數據量有限,后續可以嘗試自行采集腦電數據,使用更多的受試者,以及增加每個受試者的試驗次數,在更加充足的數據基礎上,可以嘗試使用更復雜的深度學習模型,可能會有更好的結果;也可以嘗試通過腦電數據的逆問題求解找到情緒特定腦區,再對這些特定腦區提取信號進行分類識別可能會有更好的效果;研究中只使用了腦電數據,今后還可以結合心電、呼吸、肌電等其他生理電信號進行多模態的情緒識別研究。目前國內使用深度學習框架進行情緒識別方面的研究還少見報道,相信隨著研究的擴展和深入,基于深度學習模型的情緒識別研究一定會取得更大的進步,能夠從學術研究走向實際運用并在其他相關領域發揮積極的作用。
引言
情緒識別不僅在日常生活、工作、交流中扮演著非常重要的角色,也在人機交互系統中承擔著不可替代的作用;此外在體育運動[1]、自動駕駛[2]、測謊技術[3]、醫療應用[4]等方面也都發揮著獨特的作用,已成為人工智能的重要研究領域。目前人工智能對情緒的識別主要是通過語音語調、語義、文本信息、身體動作與姿勢、面部表情等外在表現來實現[5],不過人們可以通過調整說話方式,改變身體或手部動作,表達不同甚至相反的信息來掩飾自己的真實情緒。生理電信號由人體自主神經系統和內分泌系統支配,不易受主觀意識控制而改變,能客觀、真實地反映情緒狀態和情緒的變化。而腦電信號(electroencephalogram,EEG)是應用十分廣泛的一種生理電信號,其直接表征了不同區域大腦皮層的神經活動狀態,對檢測人的生理、心理狀態有著重要意義。
腦電信號一般可分為 5 個頻段:Delta 頻段(1~3 Hz)、Theta 頻段(4~7 Hz)、Alpha 頻段(8~13 Hz)、Beta 頻段(14~30 Hz)、Gamma 頻段(31~50 Hz)。既往已有研究表明,人的各項生理活動與心理活動與不同頻段的腦電信號之間有著密不可分的聯系[6]。2007 年,來自德國的研究學者 Sammler 等[7]發現腦電信號與不同類型音樂刺激存在著相關性,聽愉悅的音樂時,大腦額正中線的 Theta 頻段能量會增加。2009 年,Li 等[8]通過對積極和消極兩種情緒進行識別,發現 Gamma 頻段的特征具有更高的時間辨析度。2011 年,Nie 等[9]發現對情緒識別結果較好的特征主要分布在大腦枕葉和頂葉的 Alpha 頻段、中心點的 Beta 頻段以及左額葉和右顳葉的 Gamma 頻段。2014 年,Wang 等[10]研究發現 Alpha 頻段的特征對積極和消極情緒的識別效果更好。雖然以上這些研究的結果還不夠完善且有細微的差異,但都提供了腦電信號能較為客觀、真實地反映情緒狀態的證據。
以往在情緒識別方面的研究,主要是采用傳統的淺層機器學習算法對情緒狀態進行識別,即首先對采集到的原始數據(例如:腦電信號、心電信號等)進行預處理,再對預處理后的數據進行特征提取和選擇,最后將選擇的特征輸入分類器。如蔣小梅等[11]通過對不同情緒狀態下的多生理信號進行預處理和特征提取,再利用 J48 決策樹算法實現了對 4 種情緒狀態的識別。南京郵電大學的蘇建新等[12]使用情緒腦電信號的小波能量以及相關非線性參數,通過支持向量機(support vector machine,SVM)對平靜態和壓力態的腦電信號進行了識別和分析。來自希臘塞薩洛尼基亞里士多德大學的學者 Frantzidis 等[13]將受試者的情緒分為愉悅和低落、高興奮度和低興奮度的兩類對比,并利用馬氏距離分類法進行情緒分類,也達到了較高的分類精度。上述介紹的研究普遍采用淺層分類器,需要人工進行特征選擇和提取,但這些特征是否能穩定、準確地反映情緒信息,在很大程度上需要依靠研究者的專業知識和長期經驗積累。此外,淺層機器學習算法在有限的樣本和計算單元情況下對復雜函數的表示能力有限,對于復雜分類問題其泛化能力受到一定制約[14]。來自加拿大多倫多大學的學者 Braverman[15]的研究也指出存在一大類模型不能用淺層學習網絡表示,這些數學結果指出了淺層學習網絡的局限性。因此傳統的淺層機器學習算法的分類結果在某些復雜模型中有所限制,從而促使研究者們轉向利用深度網絡對復雜問題進行建模和分類識別。
基于深度學習框架的系列算法是通過學習一種深層非線性網絡結構,實現了復雜函數逼近,能從少數樣本集中提取和選擇更能反映數據集本質的特征[16]。自 2012 年加拿大多倫多大學的 Krizhevsky 等[17]在計算機視覺系統識別挑戰賽中使用卷積神經網絡(convolutional neural network,CNN)以領先第 2 名 10% 以上的準確率奪冠后,在學術界引發了深度學習算法研究的熱潮。隨后,深度學習算法在信號和信息處理領域不斷取得新的突破,特別是在圖像處理、語音識別等方向更是取得了前所未有的效果和研究進展[17-18]。最近備受關注的是阿爾法圍棋(Alphago)于 2017 年 5 月與世界圍棋冠軍柯潔的對弈,Alphago 利用蒙特卡洛模擬算法模擬人類的直覺思維,通過自我對弈和進化學習,在此次對弈中取得了 3∶0 的成績。至此,Alphago 在所有人機對弈中取得了全勝的戰績。
另一方面,諸多開源框架的出現(Caffe、TensorFlow 等),大大降低了人們學習研究深度學習算法的難度,越來越多的學者已嘗試將深度學習算法應用到一維生理電信號的分析處理中。來自紐約州立大學布法羅分校和北京工業大學的研究人員 Li 等[19]提出了一種基于深度信念網絡(deep belief network,DBN)模型的腦電信號的情緒識別方法,為了避免小樣本帶來的問題,首先使用 DBN 從原始信號中提取關鍵特征,然后對腦電信號采集過程中的噪聲問題提出了一種新的刺激響應方法,根據每個通道的刺激響應速率來選擇通道,最后使用有監督的受限玻爾茲曼機(restricted Boltzmann machine,RBM)來訓練每個最佳通道的組合特征,將識別率提高了 11.5%~24.4%;在另一個相似研究中,美國密蘇里哥倫比亞大學的 Wang 等[20]基于情緒數據庫中的腦電信號及其他生理電信號對喚醒度、愉悅度、喜好等情緒進行識別研究,同樣使用 DBN 模型,對 3 種情緒的識別準確率分別為 60.9%、51.2%、68.4%,相比高斯樸素貝葉斯分類器具有更好的分類效果。另外,美國肯特州立大學的 Ghayoumi 等[21]的研究發現,使用深度學習算法,比如 CNN、DBN 等,機器人能夠更好地識別人的行為和情緒。
綜上所述,深度學習算法相比于傳統的機器學習算法,可以挖掘更深層次的情緒特征,從而利于一維腦電信號的分析研究。因此,本研究使用基于深度學習算法的 DBN 模型對消極、積極、中性 3 種情緒刺激下的腦電信號進行識別研究。為簡化算法復雜度和擴展樣本數量,本文未使用原始腦電信號而是采用信號的 6 種特征變換作為模型輸入,分別為:功率譜密度(power spectral density,PSD)、差分熵(differential entropy,DE)、差分不對稱(differential asymmetry,DASM)、有理不對稱(rational asymmetry,RASM)、不對稱(asymmetry,ASM)、差分熵差分(differential caudality,DCAU)。本文研究結果最終得到了較高的識別準確率,為深度學習算法在情緒識別領域的進一步發展做出了嘗試,對基于腦電信號的情緒識別進行了優化。接下來,找出與情緒最相關的腦區和頻段,以及建立能夠更準確地識別情緒狀態的系統,都是將基于腦電信號的情緒識別技術真正應用于現實世界而需要進一步開展的工作。
1 DBN 模型
本文所使用的 DBN 模型由兩個無監督的 RBM 和一層有監督的反向傳播(back propagation,BP)網絡組成。如圖 1 所示,其中的W0、W1、W2代表各層的權值,先訓練第 1 個 RBM1,然后將訓練好的結點作為第 2 個 RBM 的輸入,訓練第 2 個 RBM2,所有 RBM 訓練完成之后使用反向傳播算法對網絡進行微調。DBN 通過兩個 RBM 的堆疊,可以看作是對輸入的逐層加工,使得原來僅基于最后一層輸出映射難以完成的任務變為可能。

模型中 RBM 由玻爾茲曼機(Boltzmann machine,BM)發展而來,玻爾茲曼機能有效地發現大量復雜數據中的規律,具有很好的無監督訓練能力。玻爾茲曼機是一種基于能量的模型,對網絡訓練的目的就是使能量函數最小化。如圖 2 所示,玻爾茲曼機由可視層和隱含層構成,可視層即數據輸入、輸出層,本文的輸入數據是經過特征變化后的腦電信號表征值,以 DE 特征為例,輸入結點數為 310,由于是對 3 種情緒進行識別和分類,所以選用的輸出層結點數為 3;隱含層則可以理解為是數據的內在表達層。由于玻爾茲曼機復雜度高,難以解決大數據任務,所以在玻爾茲曼機基礎上提出了 RBM。如圖 2 所示,RBM 有 m 個可視層結點、n 個隱含層結點,每個可視層結點只和隱含層的 n 個結點有關,與同一層其他可視層結點之間相互獨立,每個隱含層結點只和可視層 m 個結點有關,與同一層其他隱含層結點之間相互獨立。

RBM 同玻爾茲曼機一樣,是基于能量的概率圖模型,知道了概率分布就可以通過采樣來求解,其中隱含層與可視層之間的連接權值為W,可視層偏置b1,b2,
,bm,隱含層偏置為c1,c2,
,cn,如圖 2 所示其可視層與隱含層均為 2 值變量,神經元數目分別為 i 和 j,得到 RBM 的能量函數 E(v,h;θ),定義如式(1)所示:
![]() |
對于給定的數據寫出對應的似然函數[22],然后進行求解,而任何概率分布都可以轉變為能量的模型,可以根據能量模型來找到輸入的特性和分布。根據能量函數,可計算求得 RBM 的可視層與隱含層結點之間的聯合分布概率 p(v,h;θ),定義如式(2)所示:
![]() |
上式中 E(v,h;θ)是式(1)定義的能量函數,一組可視層結點的取值(如:0,1,0,1)和一組隱含層結點的取值(如:1,0,1)發生的概率 p(v,h;θ),是由能量函數決定的。在本文設定的模型中,最重要的是 RBM 所定義的觀測變量的分布(似然函數),只用給定可視層節點的狀態,則各個隱含層節點的激活概率就可以有效地計算出來,如式(3)所示:
![]() |
其中,σ(x)激活函數類似的給定隱含層節點的狀態,而第 i 個可視層節點的概率可表現為如式(4)所示:
![]() |
RBM 使用迭代的方式進行訓練,可以求取訓練集上極大似然函數從而得到模型參數
,計算公式如式(5)所示:
![]() |
2 訓練過程
2.1 數據預處理
此次研究的試驗數據來源于上海交通大學提供的情緒腦電信號數據庫(Shanghai Jiao Tong University,emotion electroencephalogram dataset,SEED)[23]。數據為 15 個受試者的腦電信號,包含了基于腦電信號的 3 種情緒數據(積極、消極、中性)。數據采集時,要求每個受試者觀看 15 個能誘發這 3 種情緒的電影片段,在受試者觀看電影片段的過程中,使用 62 通道的干電極腦電帽采集受試者的腦電信號(62 通道信號為一組),每個受試者分別有 5 組“積極”、5 組“消極”、5 組“中性”的腦電信號。每個受試者共參加 3 次試驗,對于 15 個受試者共獲得 15 × 3 × 15 = 675 組腦電數據,且每組數據都經濾波獲取了腦電信號 5 個頻段的信號,再在這 5 個頻段的基礎上使用 6 種特征變換方法對每個頻段下的數據進行了特征提取,分別為:PSD、DE、ASM、DASM、RASM、DCAU,這 6 種特征變換具有計算簡單、能有效表征腦電信號等特點。其中,DE 特征是在香農熵的概念上擴展而來,能有效地測試連續隨機變量的復雜性,腦電信號中低頻能量的成分較多,DE 可以有效地將腦電信號中低頻能量部分和高頻能量部分進行區分,由于有 62 個通道,所以 DE 的樣本維數為 62 × 5 = 310。另有研究表明,大腦在處理情緒活動時具有不對稱性[24],因此在 27 對大腦非對稱電極 DE 特征基礎上提取了 DASM、RASM 兩種特征變換,之后再將 DASM 和 RASM 組合就得到了 ASM。此外,DCAU 表示的是 23 對大腦額葉和后葉電極的 DE 的差分。相應的 PSD、DE、ASM、DASM、RASM、DCAU 特征維數分別為:310、310、270、135、135、115。試驗將前 12 組數據(15 × 3 × 12 = 540 組)作為訓練集,后 3 組(15 × 3 × 3 = 135 組)數據作為測試集。為了加快網絡的訓練速度,需對數據進行歸一化處理。本文選用正態標準化方法進行歸一化處理,對訓練集和測試集分別利用正態標準化將數據變換為均值為 0、標準差為 1 的正態分布,再將數據變換到[0,1]的范圍內。
2.2 模型參數初始化
研究基于深度學習工具箱 Deep Learning Toolbox(Technical University of Denmark,丹麥)框架的 DBN 模型[20],在此基礎上引入了批歸一化算法,批歸一化算法由 Ioffe 等[25]于 2015 年提出,可用于加快網絡訓練速度。而 DBN 的訓練主要是不斷調節權值和偏置的過程,通過對網絡深度和隱含層結點數進行調整,使分類效果較為理想。由于試驗的樣本量偏少,使用 1 個輸入層、2 個隱含層以及 1 個輸出層的網絡模型,其隱含層結點數分別在 50~500 和 20~500 兩個范圍中選取,并引入了修正線性單元(recitified linear units,ReLU)激活函數(Nair 等[26]首次將 ReLU 激活函數成功運用 DBN 模型中),使模型的彌散變弱,收斂更快,然后在輸出層使用柔性最大(Softmax)回歸方法,對情緒進行分類識別[27]。
通過對模型參數進行調整,得到最優的 DBN 模型進行分類學習。此外,本文研究中也使用了傳統的 SVM 分類器,對數據進行了學習分類,最后將 DBN 模型的識別結果同傳統 SVM 分類結果作比較。本文采用的 DBN 模型中的各項參數設置如表 1、表 2 所示。


3 識別結果與分析
3.1 基于不同特征的情緒識別結果
為了研究不同的特征變換對情緒識別的影響,對全頻段下的腦電信號的不同特征分別進行訓練,其模型在測試集的識別結果如表 3 所示。

從表中可以看出,相比傳統情緒識別中使用的 PSD 特征[24],DBN 和 SVM 兩種分類器的結果都指向了利用 DE 特征進行識別的效果最好,其具有最高的平均值和最低的標準差。這可能是因為 DE 特征對于大腦情緒的高頻特征具有一定程度上的平衡作用,使高頻特征的作用變得更強[28],從而有效地將腦電信號中的低頻能量和高頻能量進行區分,因此可以推測 DE 特征相比 PSD 特征更適用于基于腦電信號的情緒識別。同時使用 DASM、RASM、ASM、DCAU 這 4 種非對稱特征對情緒的識別也具有較高的準確率,雖然這 4 種特征相比 DE 特征和 PSD 特征的維數較少(DASM 為 27 維、RASM 為 27 維、ASM 為 54 維),但是也能達到較為不錯的準確率(DCAU 達到 80.25% ± 8.56%,其次分別為 ASM 的 78.53% ± 14.89%、RASM 的 76.39% ± 16.32%、DASM 的 75.64% ± 13.41%),這說明情緒產生時其腦電信號也具有非對稱屬性,大腦的非對稱活動在情緒識別中也是有意義的。由于特征維數不同,需要后續研究來進一步排除是否是因為特征維數的不同導致使用 DASM、RASM、ASM、DCAU 這 4 個特征的準確率相對 DE 特征較低。另外,如表 3 所示,DE 特征相比其他特征具有更好的識別效果,本文后續討論都將以 DE 特征作為標準。
3.2 不同受試者的情緒識別結果
基于生理電信號的情緒識別研究中的一個非常重要的問題是:在不同時間重復進行同一情緒試驗,能否基于前后試驗數據,準確、穩定地識別出同一個體的不同情緒狀態。因此本文對每個受試者 3 次試驗的情緒數據進行了識別,如表 4 所示,第 1 列代表所選的 15 個受試者,后面為每個受試者在 3 次試驗后的情緒識別結果,最后為 3 次試驗結果的平均值 ± 標準差。

如表 4 所示,用 DBN 對 DE 特征進行識別的平均準確率為 89.12% ± 6.54%,在同一批數據集下,比文獻[23](平均識別率為 86.08% ± 8.34%)的識別效果更好,平均識別率提高了 3.04%,標準差降低了 1.80%。此外,從表中可以得到,在同樣的訓練集和測試集下,SVM 的平均分類準確率為 84.20% ± 9.24%,而基于 DBN 的平均分類準確率為 89.12% ± 6.54%,表現出具有更高準確率和穩定性的趨勢。
另外從表中能看出,個別受試者的識別率明顯低于其他受試者,而這可能是由于每次試驗過程中采集狀態、受試者的心理狀況等會有不同程度的個體差異,但每個受試者自身在 3 次試驗中都能得到相似的準確率(標準差的平均值為 1.44%)。因此,DBN 對情緒識別的試驗是較為穩定的,在實際應用中,在不同時間利用腦電信號對同一受試者進行情緒識別是可以重復的。而從本文研究結果也可以看出,當受試者具有較好的識別率時,其 3 次重復測量的標準差往往也越低,這可能是由于 DBN 在進行訓練時,能夠更有效地對數據進行特征提取和選擇,能夠提取出穩定的反映情緒的特征。在之后的研究中,研究人員可以通過研究深度模型中的權值分布來探討 DBN 是如何找到腦電信號中反映情緒的關鍵頻段以及特異腦區的。
3.3 基于不同頻段的情緒識別結果
以 DE 特征為例,使用腦電信號的不同頻段的識別結果如表 5 所示。

從表中可以發現,使用 DBN 對不同頻段的數據識別具有不同的效果,使用全頻段的數據識別效果最好。而 5 個頻段中,Beta 頻段和 Gamma 頻段在相同測試集上具有更高的分類準確率。考慮到 DBN 將特征提取和特征選擇結合在了一起,可以自動選擇出對分類有用的特征,而過濾掉與分類無關的特征,結合頻段特異性可以說明 Beta 頻段和 Gamma 頻段包含了對情緒識別有用的信息,基于這兩個頻段的特征提取在情緒識別中具有關鍵的作用。
如圖 3 所示,為經過訓練后的 DBN 第一個隱含層權值平均絕對值的分布圖。訓練后的較大權值主要分布在 Beta 頻段和 Gamma 頻段,其權值的大小則反映了與該權值相連的輸入對最后分類結果的貢獻程度,這可以推測 Beta 頻段和 Gamma 頻段包含了更多與情緒有關的信息,即 Beta 和 Gamma 頻段為情緒的關鍵頻段,與 Wang 等[10]的研究報道較為一致。

4 結論
腦電信號是由大腦神經元自發性、節律性運動而產生的電位,相關的研究也表明,腦電信號蘊含了豐富的情緒特征,能夠客觀、真實、準確地表征情緒[29]。因此基于腦電信號的情緒識別研究可以幫助我們更準確地理解情緒狀態,從而提高情緒的識別準確率,更好地運用于實際;并且在研究過程中,可以找到不同情緒所對應的不同關鍵頻段和腦區,為腦電信號在情緒識別領域的應用提供生理基礎。另外隨著可穿戴設備和干電極技術的發展[30],腦電信號的獲取也越來越方便、越來越穩定,基于腦電信號的研究走向實際運用也成為了可能。此外,伴隨著深度學習模型在信號處理領域的成功,使用深度學習方法對生理電信號狀態進行識別也逐漸成熟和實用。本文研究發現:①DBN 使用 DE 特征進行識別的平均準確率為 89.12% ± 6.54%,相比于 SVM 的 84.12% ± 9.24% 結果更好;② 同一受試者在 3 次試驗中都能得到類似的分類準確率(標準差的平均值為 1.44%),可以看出基于腦電信號對個體進行情緒識別較為穩定,具有可重復性;③ DE 特征相比其他特征其分類準確率最高,另外在 DE 特征基礎上提取的 DASM、RASM、ASM、DCAU 這 4 種非對稱特征也能取得較好的結果,說明了情緒活動時腦電信號也具有非對稱屬性,大腦的非對稱性活動在情緒識別中是有意義的;④ 單獨使用 Beta 頻段和 Gamma 頻段進行識別有著更好的分類表現,可以推測 Beta 頻段和 Gamma 頻段在情緒識別中具有關鍵的作用,包含了更多與情緒有關的信息。
此外,試驗還存在如下可以改進的地方,比如試驗的樣本量較少,受試者只有 15 個,且每個受試者只進行了 3 次試驗,數據量有限,后續可以嘗試自行采集腦電數據,使用更多的受試者,以及增加每個受試者的試驗次數,在更加充足的數據基礎上,可以嘗試使用更復雜的深度學習模型,可能會有更好的結果;也可以嘗試通過腦電數據的逆問題求解找到情緒特定腦區,再對這些特定腦區提取信號進行分類識別可能會有更好的效果;研究中只使用了腦電數據,今后還可以結合心電、呼吸、肌電等其他生理電信號進行多模態的情緒識別研究。目前國內使用深度學習框架進行情緒識別方面的研究還少見報道,相信隨著研究的擴展和深入,基于深度學習模型的情緒識別研究一定會取得更大的進步,能夠從學術研究走向實際運用并在其他相關領域發揮積極的作用。