情緒在人們的認知、交往等各方面發揮著重要作用,而情緒腦機接口通過分析腦電圖(EEG)可識別內在情緒,以主動或被動的方式反饋情緒信息,有效促進人機交互。本文聚焦于 EEG 信號的情緒識別,使用生理信號情緒數據集(DEAP)系統地比對了主流特征提取算法、分類器模型。通常的隨機取樣方法會造成訓練和測試樣本相關性高,本文采用分塊化 K 交叉驗證評估模型,同時對比了不同時間窗長度下的情緒識別準確率,研究表明 4 s 時間窗為適宜的取樣時長。此外,本文提出了濾波器組長短時記憶網絡(FBLSTM),以微分熵特征作為輸入,所提出的算法模型在情緒的效價度二分類、喚醒度二分類、效價—喚醒平面四分類上的平均分類準確率分別為 78.8%、78.4%、70.3%。相比于目前的研究成果,本文的情緒識別模型具有更優的分類性能,或可為情緒腦機接口中的情緒識別提供一種新的可靠方法。
引用本文: 汪佳衡, 王躍明, 姚林. 基于濾波器組長短時記憶網絡的腦電信號情緒識別. 生物醫學工程學雜志, 2021, 38(3): 447-454. doi: 10.7507/1001-5515.202012054 復制
引言
情緒在人們的日常生活和工作中發揮著重要作用。但是在人機交互領域,還沒有廣泛的情緒計算相關的應用。情緒識別是將情緒計算應用到人機交互領域的關鍵步驟,近十年已經受到越來越廣泛的關注。一個人的內在情緒狀態可以通過主觀經驗(人的感覺)、內在表達(生理信號)和外在表達(音頻、臉部信號)等途徑進行識別[1]。然而有時主觀經驗和外在表達會受到個人意愿以及周圍環境的干擾,使得機器無法評估個體的真實情緒狀態。
內在表達(生理信號)往往能揭露個體的潛在情緒狀態。生理信號一般采集于中樞和自主神經系統[2]。基于腦電圖(electroencephalogram,EEG)的情緒識別正成為情緒計算的研究熱點。相比于身體周邊的生理信號,EEG 信號具有很高的時間分辨率,從大腦皮層、情緒理論到腦機接口應用的研究都表明使用 EEG 信號進行情緒識別是可行且高效的[3]。情緒腦機接口不僅能夠應用于醫學領域對患者康復治療提供幫助,在娛樂、生活中也大有用武之地。
基于 EEG 信號的情緒識別可分為 5 個步驟,數據采集、信號預處理、特征提取、分類識別、模型評估。現階段大部分研究使用的是公共數據集,包括生理信號情緒數據集(a database for emotion analysis using physiological signals,DEAP),上海交大情緒 EEG 數據集(SHANGHAI Jiao Tong University emotion EEG dataset,SEED),夢想者(DREAMER)等[3-5]。特征主要包含時域、頻域、空間域或三者的結合。Petrantonakis 等[6]從時域提取高階過零特征(higher order crossings,HOC),使用二次判別分析(quadratic discriminant analysis,QDA)和支持向量機(support vector machine,SVM)對圖片產生的情緒刺激進行分類識別,對 6 種離散情緒的分類準確率達到 83.33%。Zheng 等[7]從頻域提取微分熵(differential entropy,DE)特征,使用判別圖極限學習機(graph regularized extreme learning machine,GELM)對 DEAP 和 SEED 公共數據集進行情緒識別,分別達到了 69.67%(四分類)和 91.07%(三分類)準確率。Cui 等[8]基于 EEG 信號的空間對稱性,提出了區域差異性卷積神經網絡(regional-asymmetric convolutional neural network,RACNN),并將其應用于 DEAP 和 DREAMER 公共數據集上,最終二分類準確率都達到了 95%。Zheng 等[9]使用多模態模型,將 EEG 信號與眼動信號組合,采用雙模態深度自編碼器(bimodal deep auto encoder,BDAE),應用于 SEED-Ⅳ數據集,四分類準確率為 85.11%。近幾年越來越多的研究探索了深度學習在 EEG 信號情緒識別中的應用,Liu 等[10]將 DE 特征輸入到卷積神經網絡,訓練和測試采用不同受試者的數據,準確率達到了 97.56%,但該研究選取的樣本時間窗為 2 min,實際應用中容易受到噪聲干擾。Liu 等[11]研究了實時情緒識別,使用功率譜密度(power spectral density,PSD)和 SVM 對 2 s 窗長的信號進行情緒識別,多個分類任務的準確率均達到 85% 以上。
目前,大多數研究在受試者內(within-subject)進行研究,也有采用遷移學習方法研究受試者間(cross-subject)的情緒識別[12]。對于受試者內的研究,當前大多數研究采用 K 折交叉驗證,但由于情緒是一段連續的生理狀態,隨機選取樣本會造成訓練樣本和測試樣本高度相關,不能有效評估模型的真實性能。此外,多數研究以 1 s 時間窗長劃分樣本,也有研究以整段視頻信號(對于 DEAP 數據集是 1 min)作為窗長,如何在實際應用中選取合適的窗長以保證情緒識別的準確率和快速性,尚待進一步確認。
針對上述問題,本文主要貢獻如下:本文使用分塊化 K 折交叉驗證,有效度量模型的應用性能;采用主流特征提取方法和分類器模型研究選取適宜的時間窗長度;提出濾波器組長短時記憶網絡(filter-bank long short-term memory networks,FBLSTM),建立了魯棒性與準確率更高的基于 EEG 信號的情緒識別模型。
1 模型與方法
1.1 數據來源
本文采用 DEAP 公共數據集(http://www.eecs.qmul.ac.uk/mmv/datasets/deap/)作為研究對象,本文已得到授權可以使用該數據集。DEAP 數據集包含 32 名受試者觀看 40 段 1 min 音樂視頻時的 EEG 信號和外圍生理信號。它還包含受試者對每個視頻在喚醒、效價、喜歡/不喜歡、支配和熟悉等情緒維度的自我評分[13]。喚醒度表示從低興奮到高興奮,效價度表示從負面情緒到正面情緒,兩個維度代表二維直角坐標系中正交的坐標軸,因此四個象限分別代表喚醒度和效價度的兩兩組合。DEAP 數據集提供了經過濾波、去除眼電偽跡后的預處理數據。預處理數據集為 32 通道的 4~45 Hz 的 EEG 數據,采樣頻率為 128 Hz,電極根據國際 10-20 體系標準放置,更多細節可參考文獻[4]。本文將分別對喚醒、效價兩個維度進行二分類識別,以及兩維度組合的四分類識別。
1.2 情緒識別過程
情緒腦機接口的一般模式如圖 1 所示,其中最為關鍵的是情緒識別過程。情緒識別過程包含 5 個步驟:① 確定試驗的受試、刺激方式以及情緒類別;② 利用 EEG 信號采集設備記錄 EEG 數據;③ EEG 信號的預處理,移除人造干擾和設備噪音;④ 特征提取和選擇;⑤ 使用不同分類器進行情緒識別,評判識別性能。本文使用的公開數據集 DEAP 已完成對前三個步驟的處理,本文主要講述特征提取和分類器方法。

1.3 特征提取
文獻[14]總結了基于 EEG 信號的情緒識別常用的特征提取方法。在文獻[2]的調查中,超過 50% 的研究使用了傅里葉變換提取不同頻率帶的功率特征,20% 的研究使用了小波變換,24% 的研究使用了統計特征,不到 10% 的研究使用了共空域模式(common spatial pattern,CSP)或者不對稱性特征。本文分析對比 DE、差值不對稱性(differential caudality,DCAU)、濾波器組 CSP 模式(filter-bank CSP,FBCSP)三種特征。
1.3.1 微分熵
根據 EEG 信號的特點,可將其劃分為四個頻率帶,theta(4~7 Hz)、alpha(8~13 Hz)、beta(14~30 Hz)和 gamma(31~45 Hz)。文獻[15]指出不同頻率帶的 EEG 信號滿足高斯分布,滿足高斯分布的變量的 DE 特征計算如式(1)所示:
![]() |
其中,x 指代單通道特定頻率帶 1 s 時長的 EEG 信號,它滿足高斯分布 N(μ,δ2),μ 指代均值,δ2 指代方差。文獻[15]也論證了 DE 和功率譜的關系,兩者關系如式(2)所示:
![]() |
其中,Pi 指代功率譜中特定頻率帶的功率和,N 指代采樣點數。因此,DE 特征等同于對功率譜特征作對數變換。直觀上講,低頻帶功率譜數值往往遠大于高頻帶功率譜數值,因此作對數變換可減少因數值規模差距造成的影響。DE 特征的維度為:頻率帶 × 電極數 = 4 × 32 = 128。
1.3.2 差值不對稱性
研究已表明大腦左右、前后電極的不對稱性與情緒相關。文獻[7] 定義了大腦前后 DCAU 特征,DCAU 定義為 11 對電極的 DE 特征的差值,計算如式(3)所示:
![]() |
其中,X 指代單通道特定頻率帶 1 s 時長的 EEG 信號。11 對電極為 FC5-CP5、FC1-CP1、FC2-CP2、FC6-CP6、F7-P7、F3-P3、FZ-PZ、F4-P4、F8-P8、FP1-O1 和 FP2-O2。DCAU 特征的維度為:頻率帶 × 電極數 = 4 × 11 = 44。
1.3.3 濾波器組共空域模式
CSP 是一種對兩分類任務的空域濾波特征提取算法,能夠從多通道的腦機接口數據里面提取出每一類的空間分布成分[16]。CSP 算法的基本原理是利用矩陣的同時對角化,找到一組最優空間濾波器進行投影,使得兩類信號的方差值差異最大化,
根據特征值排序的結果,選擇位于首末的空間濾波器,可以減少信號通道數量,最大化兩類信號的方差,進一步可將時間信號的方差作為特征。空間濾波器的個數可由交叉驗證確定,本文對比了 4 組和 8 組空間濾波器的性能,4 組時分別選擇特征值最大和最小的 2 個濾波器,8 組時分別選擇特征值最大和最小的 4 個濾波器。FBCSP 則是在 CSP 算法的基礎上,對每個頻率帶都計算 CSP 特征。本文采用 10 組非重疊的頻域濾波器,間隔為 4 Hz,分別為:4~7,8~11,12~15,,40~43 Hz。為了滿足混合協方差矩陣正定的要求,本文刪去了 OZ 電極的信號,電極通道數為 31。FBCSP 特征的維度分別為:濾波器組 × 頻率帶 = 4 × 10 = 40,濾波器組 × 頻率帶 = 8 × 10 = 80。本文使用 python 3.6 編程語言,引用 MNE 庫提供的 CSP 模塊[17]。
1.4 時間窗長度
時間窗的長度會對情緒識別的準確率和魯棒性產生影響,本文研究了 1、2、4 s 時間窗長度下情緒識別的準確率。2 s 時采用 1 s 的重疊取樣,4 s 時采用 3 s 的重疊取樣,重疊取樣一方面保證了樣本數量足夠多,另一方面能保證每隔 1 s 進行一次情緒識別,這與大多數研究采用 1 s 取樣的情況相同。本文對每秒的信號提取特征,窗長大于 1 s 時,對多個滑動窗的特征進行平均,得到樣本的特征。此外,長短時記憶(long short-term memory,LSTM)單元能夠有效提取時序信號特征[18]。在 4 s 時間窗下,本文研究了 DE 特征結合 LSTM 的情緒識別性能。
1.5 分類器
1.5.1 支持向量機
SVM 是傳統主流分類器,其強大的核功能使其成為研究者們最常采用的傳統分類器。本文使用機器學習工具箱 scikit-learn 0.23.2 提供的 SVM 模塊構建使用高斯核的 SVM 分類器。對于參數的配置可以通過網格搜索或者遺傳算法,本文對參數 γ 和 C 采用交叉驗證進行參數尋優,搜尋范圍為 2i,i∈[?10,10],i∈N。
1.5.2 濾波器組長短時記憶網絡
LSTM 在時間序列分析中有著廣泛應用[18]。結合 EEG 信號的頻率特點,本文提出了 FBLSTM。FBLSTM 結構如圖 2 所示,考慮 4 s 時間窗時樣本的輸入,依次對每秒時間窗信號提取的 DE 特征的數據維度為(4 時間步長,4 頻率帶,31 通道),分別輸入四組 LSTM,每組 LSTM 的輸入特征維度為 31,隱藏層特征維度為 8,時間步長為 4。接著將四組 LSTM 的隱藏層輸出合并,經過失活與兩層全連接層,最終采用軟間隔最大化輸出兩類或多類的概率。同時,每組 LSTM 的初始隱藏層特征也將作為可學習參數包含在訓練中。

FBLSTM 結構的設計源于 EEG 信號在不同頻率帶具有不同特性以及 EEG 信號的時間相關性,仿照 FBCSP 和平均濾波的思想,每組 LSTM 都模擬了空間濾波和時間濾波的功能。對比與傳統 LSTM 的差異,在網絡結構方面,FBLSTM 相比于傳統 LSTM(將特征全部輸入單組 LSTM),神經網絡參數個數大幅減少。如表 1 所示,LSTM32 指代單組 LSTM,輸入 DE 特征 4 × 31 = 124,隱藏層輸出維度 32,對應 FBLSTM 合并每組隱藏層輸出特征后的維度 32。LSTM10 指代隱藏層輸出維度 10。在參數方面,LSTM32 參數是 FBLSTM 的 3 倍之多,LSTM10 雖然參數與 FBLSTM 相近,但 LSTM10 輸出特征僅為 FBLSTM 的三分之一。本文將對比三種 LSTM 網絡的情緒識別性能。

對于 FBLSTM 的參數配置如下:全連接層采用修正線性單元作為激活函數,失活率為 0.4,采用交叉熵作為損失函數,隨機梯度下降算法更新權重,學習率設為 0.01,L2 正則化參數設為 0.001。每次訓練抓取 128 個樣本,訓練 500 個循環,取在測試集上準確率最高的訓練模型作為最佳模型。本文使用深度學習框架 pytorch 1.7.0(Facebook Inc,美國)進行編程。
1.6 數據劃分與評估模型策略
本文使用 DEAP 公共數據集,研究了三項分類任務,分別是低效價(負面情緒)/高效價(正面情緒)的二分類;低喚醒(困倦)/高喚醒(興奮)的二分類;效價-喚醒平面的四分類(對應于四個象限)。
本文研究各受試者內的情緒識別,以受試者的自我評估作為每部視頻的情緒標簽,為了確保受試者產生的情緒真實有效,刪去自我評估中喚醒度或效價度介于 4.8~5.2 之間的視頻。在前兩項分類任務中,將最大類比例不超過 65% 的受試者視為類平衡的受試者,反之則為類不平衡的受試者。對于類平衡的受試者,采用分類準確率來評估情緒識別性能,對于類不平衡的受試者,采用受試者工作特征曲線下方面積(area under curve,AUC)來評估情緒識別性能。為了評估算法間的差異,采用單因素重復測量方差分析。
本文引言中提到目前多數研究采用隨機選取的 K 折疊交叉驗證,這使得訓練樣本和測試樣本高度相關。針對這一問題,本文提出兩種更為合理的交叉驗證方法,如圖 3 所示。圖 3 左側是分塊化 K 折交叉驗證,對每部視頻(一個試驗)劃分 K(本文中為 5)個區塊,再選取 3 個區塊作為訓練樣本,1 個區塊作為驗證樣本,1 個區塊作為測試樣本,重復 4 次,依據驗證樣本準確率均值選取最佳模型,取測試樣本準確率或 AUC 作為評價指標。圖 3 右側是分試驗 K 折交叉驗證,按 40 部視頻(試驗)劃分數據,再進行 K 折劃分,對于 5 折劃分,取 24 部視頻作為訓練樣本,8 部視頻作為驗證樣本,8 部視頻作為測試樣本。兩種交叉驗證方法減弱了訓練樣本和測試樣本的相關性,更能有效評估不同情緒之間的差異,而并非情緒的認知過程之間的差異[19]。本文使用分塊化 5 折交叉驗證評估模型。

2 實驗結果與分析
2.1 效價度二分類
對于效價度二分類,共有 25 名受試者滿足類平衡條件,采用不同算法時受試者們的平均分類準確率和標準差如圖 4 所示。其中,橫坐標軸標簽 DE_1 指代 1 s 時間窗下采用 DE 特征結合 SVM;DCAU_1 指代 1 s 時間窗下采用 DCAU 特征結合 SVM;FBCSP4_1 指代 1 s 時間窗下采用 4 組空間濾波器的 FBCSP 特征結合 SVM;FBCSP8_1 指代 1 s 時間窗下采用 8 組空間濾波器的 FBCSP 特征結合 SVM;FBCSP8_2 指代 2 s 時間窗下采用 8 組空間濾波器的 FBCSP 特征結合 SVM;FBCSP8_4 指代 4 s 時間窗下采用 8 組空間濾波器的 FBCSP 特征結合 SVM;DE_LSTM10 指代 4 秒時間窗下采用 DE 特征結合 LSTM10;DE_LSTM32 指代 4 s 時間窗下采用 DE 特征結合 LSTM32;DE_FBLSTM 指代 4 s 時間窗下采用 DE 特征結合 FBLSTM。

1 s 時間窗下,單因素重復測量方差分析表明算法之間差異具有統計學意義。DE、FBCSP4 之間的差異不具有統計學意義。使用 FBCSP8 特征的算法優于 DE 和 DCAU(P < 0.05)。1 s 時間窗下的最高分類準確率為 72.9%,采用的是 FBCSP8 特征結合 SVM。在不同的時間窗時,可以對特征采用平均濾波,也可采用 LSTM 網絡結構。使用 1 s 時間窗下分類準確率高的兩種特征 FBCSP8 和 DE。對于 FBCSP8 特征,三個時間窗間差異具有統計學意義(P < 0.05),4 s 時取得最高準確率 77.7%。對于 DE 特征,在 4 s 時間窗下,三種分類器 FBLSTM、LSTM32、LSTM10 的平均分類準確率分別為 78.8%、77.1%、75.6%。三者之間的差異具有統計學意義,成對比較時,FBLSTM 優于 LSTM32 和 LSTM10(P < 0.05)。比較 1 s 和 4 s 時采用 DE 特征的差異,1 s 時間窗下 DE 特征結合 SVM 的分類準確率為 69.3%,4 s 時間窗下 DE 特征結合 FBLSTM 的分類準確率為 78.8%,兩者相差 9.5%。總體來看,效價度二分類時,4 s 為適宜的時間窗長度,采用 DE 特征結合 FBLSTM 的模型,最佳分類準確率為 78.8%。
2.2 喚醒度二分類
對于喚醒度二分類,共有 17 名受試者滿足類平衡條件,采用不同算法時受試者們的平均分類準確率和標準差如圖 5 所示。在 1 s 時間窗下,單因素重復測量方差分析表明算法間差異具有統計學意義。使用 FBCSP8 特征的算法優于 DCAU 和 FBCSP4(P < 0.05)。FBCSP8 與 DE 之間的差異不具有統計學意義(P = 0.052 > 0.5)。1 s 時間窗下的最高分類準確率為 72.3%,采用的是 FBCSP8 特征結合 SVM。在不同時間窗下,分析使用 FBCSP8 和 DE 特征的算法性能。采用 FBCSP8 特征時,三個時間窗間差異具有統計學意義(P < 0.05)。對于 DE 特征,DE 特征結合 FBLSTM 的平均分類準確率為 78.4 %,相比 1 s 時間窗時 DE 特征結合 SVM 的準確率高出 9.7 %。因此,在喚醒度二分類時,4 s 也為適宜的在線情緒腦機接口的時間窗長度。綜合效價度二分類時的分類結果,最佳的兩組模型為 4 s 時間窗下 FBCSP8 特征結合 SVM、DE 特征結合 FBLSTM。

在喚醒度二分類時共有 15 名類不平衡的受試者。采用最佳的兩組模型進行情緒分類識別,在喚醒度二分類時,最佳的平均 AUC 為 0.839。結果表明兩組模型在類不平衡時也都有良好的分類性能。
2.3 效價-喚醒平面的四分類
對于效價—喚醒平面的四分類,首先選擇效價度、喚醒度都滿足類平衡的受試者,共有 12 名。采用 DE 特征結合 FBLSTM 的模型,將 FBLSTM 的輸出節點調整為 4 個,失活率從 0.4 下調為 0.3,模型其余參數配置保持不變。四分類時,平均分類準確率為 70.3%。參考二分類時接近 80% 的準確率,FBLSTM 在多分類任務中仍能保持良好性能。
2.4 相關研究的比較
本文與基于 DEAP 數據集的研究中具有較高被引次數的論文之間的對比如表 2 所示。

文獻[20]采用統計特征和使用高斯核的 SVM,在效價度和喚醒度的二分類準確率結果分別為 73.14%、73.06%。文獻[21]采用離散小波變換提取特征,K 最近鄰(K-nearest neighbor,KNN)作為分類器,在效價度和喚醒度的二分類準確率結果分別為 86.75%、84.05%。文獻[22]的模型對 8 名參與者的平均識別準確率為 75.19% 和 81.74%。文獻[7]采用 DE 特征結合 GELM,四分類時的平均分類準確率達到 69.67%。本文采用 DE 特征結合 FBLSTM,效價度二分類時的準確率為 78.8%,喚醒度二分類時的準確率為 78.4%,效價—喚醒平面四分類時的準確率為 70.3%。相比于其他研究,三項分類任務都達到了較高的準確率。本文考慮了隨機選取樣本造成的訓練樣本和測試樣本相關性高的問題,提出了分塊化、分試驗 K 折交叉驗證,更能有效評估模型的真實性能。此外,部分研究未考慮受試者類樣本不平衡的影響,本文考慮了受試者的類平衡問題,避免了類不平衡造成的虛假高準確率。
2.5 腦區地形圖比較
將效價—喚醒平面劃分為四類情緒,高效價高喚醒(high valence/high arousal,HVHA),高效價低喚醒(high valence/low arousal,HVLA),低效價高喚醒(low valence/high arousal,LVHA),低效價低喚醒(low valence/low arousal,LVLA)。使用 DE 特征計算每一類情緒所有受試者的平均腦區地形圖,在各頻率帶進行歸一化處理后,將情緒兩兩做差,觀察腦區地形圖的差異。
如圖 6 所示,第一行對應 beta 頻帶,第二行對應 gamma 頻帶,圖中第一列標簽 HVLA-LVLA 指代高效價低喚醒類平均腦區地形圖與低效價低喚醒類平均腦區地形圖之差,其他列標簽同理。在低喚醒度時(圖中第一列),高、低效價度在左側顳葉 T7 電極附近差異較明顯;在高喚醒度時(圖中第二列),高、低效價度在右側顳葉 T8 電極附近差異明顯。在低效價度時(圖中第三列),高、低喚醒度同樣在 T7 電極附近差異明顯;在高效價度時(圖中第四列),高、低喚醒度在 T8 電極附近存在差異。實驗結果與文獻[5]中重要電極的選擇相符,表明 T7、T8 及其附近電極在 beta 和 gamma 頻率帶的 DE 特征適合用于區分四類情緒。

3 結論
本文比對了基于 EEG 信號的情緒識別領域的主流特征提取算法、分類器模型在 DEAP 公共數據集上的表現。現有的相關研究大都隨機劃分訓練測試樣本,雖然得到了優于本文的分類準確率,但隨機選取樣本造成訓練樣本和測試樣本相關性高,所得結果不能合理地評估算法的實際應用性能。對此,本文提出了分塊化、分試驗 K 折交叉驗證。本文分析了時間窗長度對情緒識別性能的影響,研究表明 4 s 為適宜的時間窗長度。此外,本文提出了 FBLSTM,采用 DE 特征結合 FBLSTM 的算法相比傳統算法具有更高的準確率和魯棒性,在類不平衡和多分類任務下仍能保持良好性能。
本文只研究了受試者內的情緒識別,為了使解碼算法更具有通用性,受試者間的情緒識別有待研究。減少電極通道數量能有效提高情緒腦機接口的應用性,后續將對該問題進行研究。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
情緒在人們的日常生活和工作中發揮著重要作用。但是在人機交互領域,還沒有廣泛的情緒計算相關的應用。情緒識別是將情緒計算應用到人機交互領域的關鍵步驟,近十年已經受到越來越廣泛的關注。一個人的內在情緒狀態可以通過主觀經驗(人的感覺)、內在表達(生理信號)和外在表達(音頻、臉部信號)等途徑進行識別[1]。然而有時主觀經驗和外在表達會受到個人意愿以及周圍環境的干擾,使得機器無法評估個體的真實情緒狀態。
內在表達(生理信號)往往能揭露個體的潛在情緒狀態。生理信號一般采集于中樞和自主神經系統[2]。基于腦電圖(electroencephalogram,EEG)的情緒識別正成為情緒計算的研究熱點。相比于身體周邊的生理信號,EEG 信號具有很高的時間分辨率,從大腦皮層、情緒理論到腦機接口應用的研究都表明使用 EEG 信號進行情緒識別是可行且高效的[3]。情緒腦機接口不僅能夠應用于醫學領域對患者康復治療提供幫助,在娛樂、生活中也大有用武之地。
基于 EEG 信號的情緒識別可分為 5 個步驟,數據采集、信號預處理、特征提取、分類識別、模型評估。現階段大部分研究使用的是公共數據集,包括生理信號情緒數據集(a database for emotion analysis using physiological signals,DEAP),上海交大情緒 EEG 數據集(SHANGHAI Jiao Tong University emotion EEG dataset,SEED),夢想者(DREAMER)等[3-5]。特征主要包含時域、頻域、空間域或三者的結合。Petrantonakis 等[6]從時域提取高階過零特征(higher order crossings,HOC),使用二次判別分析(quadratic discriminant analysis,QDA)和支持向量機(support vector machine,SVM)對圖片產生的情緒刺激進行分類識別,對 6 種離散情緒的分類準確率達到 83.33%。Zheng 等[7]從頻域提取微分熵(differential entropy,DE)特征,使用判別圖極限學習機(graph regularized extreme learning machine,GELM)對 DEAP 和 SEED 公共數據集進行情緒識別,分別達到了 69.67%(四分類)和 91.07%(三分類)準確率。Cui 等[8]基于 EEG 信號的空間對稱性,提出了區域差異性卷積神經網絡(regional-asymmetric convolutional neural network,RACNN),并將其應用于 DEAP 和 DREAMER 公共數據集上,最終二分類準確率都達到了 95%。Zheng 等[9]使用多模態模型,將 EEG 信號與眼動信號組合,采用雙模態深度自編碼器(bimodal deep auto encoder,BDAE),應用于 SEED-Ⅳ數據集,四分類準確率為 85.11%。近幾年越來越多的研究探索了深度學習在 EEG 信號情緒識別中的應用,Liu 等[10]將 DE 特征輸入到卷積神經網絡,訓練和測試采用不同受試者的數據,準確率達到了 97.56%,但該研究選取的樣本時間窗為 2 min,實際應用中容易受到噪聲干擾。Liu 等[11]研究了實時情緒識別,使用功率譜密度(power spectral density,PSD)和 SVM 對 2 s 窗長的信號進行情緒識別,多個分類任務的準確率均達到 85% 以上。
目前,大多數研究在受試者內(within-subject)進行研究,也有采用遷移學習方法研究受試者間(cross-subject)的情緒識別[12]。對于受試者內的研究,當前大多數研究采用 K 折交叉驗證,但由于情緒是一段連續的生理狀態,隨機選取樣本會造成訓練樣本和測試樣本高度相關,不能有效評估模型的真實性能。此外,多數研究以 1 s 時間窗長劃分樣本,也有研究以整段視頻信號(對于 DEAP 數據集是 1 min)作為窗長,如何在實際應用中選取合適的窗長以保證情緒識別的準確率和快速性,尚待進一步確認。
針對上述問題,本文主要貢獻如下:本文使用分塊化 K 折交叉驗證,有效度量模型的應用性能;采用主流特征提取方法和分類器模型研究選取適宜的時間窗長度;提出濾波器組長短時記憶網絡(filter-bank long short-term memory networks,FBLSTM),建立了魯棒性與準確率更高的基于 EEG 信號的情緒識別模型。
1 模型與方法
1.1 數據來源
本文采用 DEAP 公共數據集(http://www.eecs.qmul.ac.uk/mmv/datasets/deap/)作為研究對象,本文已得到授權可以使用該數據集。DEAP 數據集包含 32 名受試者觀看 40 段 1 min 音樂視頻時的 EEG 信號和外圍生理信號。它還包含受試者對每個視頻在喚醒、效價、喜歡/不喜歡、支配和熟悉等情緒維度的自我評分[13]。喚醒度表示從低興奮到高興奮,效價度表示從負面情緒到正面情緒,兩個維度代表二維直角坐標系中正交的坐標軸,因此四個象限分別代表喚醒度和效價度的兩兩組合。DEAP 數據集提供了經過濾波、去除眼電偽跡后的預處理數據。預處理數據集為 32 通道的 4~45 Hz 的 EEG 數據,采樣頻率為 128 Hz,電極根據國際 10-20 體系標準放置,更多細節可參考文獻[4]。本文將分別對喚醒、效價兩個維度進行二分類識別,以及兩維度組合的四分類識別。
1.2 情緒識別過程
情緒腦機接口的一般模式如圖 1 所示,其中最為關鍵的是情緒識別過程。情緒識別過程包含 5 個步驟:① 確定試驗的受試、刺激方式以及情緒類別;② 利用 EEG 信號采集設備記錄 EEG 數據;③ EEG 信號的預處理,移除人造干擾和設備噪音;④ 特征提取和選擇;⑤ 使用不同分類器進行情緒識別,評判識別性能。本文使用的公開數據集 DEAP 已完成對前三個步驟的處理,本文主要講述特征提取和分類器方法。

1.3 特征提取
文獻[14]總結了基于 EEG 信號的情緒識別常用的特征提取方法。在文獻[2]的調查中,超過 50% 的研究使用了傅里葉變換提取不同頻率帶的功率特征,20% 的研究使用了小波變換,24% 的研究使用了統計特征,不到 10% 的研究使用了共空域模式(common spatial pattern,CSP)或者不對稱性特征。本文分析對比 DE、差值不對稱性(differential caudality,DCAU)、濾波器組 CSP 模式(filter-bank CSP,FBCSP)三種特征。
1.3.1 微分熵
根據 EEG 信號的特點,可將其劃分為四個頻率帶,theta(4~7 Hz)、alpha(8~13 Hz)、beta(14~30 Hz)和 gamma(31~45 Hz)。文獻[15]指出不同頻率帶的 EEG 信號滿足高斯分布,滿足高斯分布的變量的 DE 特征計算如式(1)所示:
![]() |
其中,x 指代單通道特定頻率帶 1 s 時長的 EEG 信號,它滿足高斯分布 N(μ,δ2),μ 指代均值,δ2 指代方差。文獻[15]也論證了 DE 和功率譜的關系,兩者關系如式(2)所示:
![]() |
其中,Pi 指代功率譜中特定頻率帶的功率和,N 指代采樣點數。因此,DE 特征等同于對功率譜特征作對數變換。直觀上講,低頻帶功率譜數值往往遠大于高頻帶功率譜數值,因此作對數變換可減少因數值規模差距造成的影響。DE 特征的維度為:頻率帶 × 電極數 = 4 × 32 = 128。
1.3.2 差值不對稱性
研究已表明大腦左右、前后電極的不對稱性與情緒相關。文獻[7] 定義了大腦前后 DCAU 特征,DCAU 定義為 11 對電極的 DE 特征的差值,計算如式(3)所示:
![]() |
其中,X 指代單通道特定頻率帶 1 s 時長的 EEG 信號。11 對電極為 FC5-CP5、FC1-CP1、FC2-CP2、FC6-CP6、F7-P7、F3-P3、FZ-PZ、F4-P4、F8-P8、FP1-O1 和 FP2-O2。DCAU 特征的維度為:頻率帶 × 電極數 = 4 × 11 = 44。
1.3.3 濾波器組共空域模式
CSP 是一種對兩分類任務的空域濾波特征提取算法,能夠從多通道的腦機接口數據里面提取出每一類的空間分布成分[16]。CSP 算法的基本原理是利用矩陣的同時對角化,找到一組最優空間濾波器進行投影,使得兩類信號的方差值差異最大化,
根據特征值排序的結果,選擇位于首末的空間濾波器,可以減少信號通道數量,最大化兩類信號的方差,進一步可將時間信號的方差作為特征。空間濾波器的個數可由交叉驗證確定,本文對比了 4 組和 8 組空間濾波器的性能,4 組時分別選擇特征值最大和最小的 2 個濾波器,8 組時分別選擇特征值最大和最小的 4 個濾波器。FBCSP 則是在 CSP 算法的基礎上,對每個頻率帶都計算 CSP 特征。本文采用 10 組非重疊的頻域濾波器,間隔為 4 Hz,分別為:4~7,8~11,12~15,,40~43 Hz。為了滿足混合協方差矩陣正定的要求,本文刪去了 OZ 電極的信號,電極通道數為 31。FBCSP 特征的維度分別為:濾波器組 × 頻率帶 = 4 × 10 = 40,濾波器組 × 頻率帶 = 8 × 10 = 80。本文使用 python 3.6 編程語言,引用 MNE 庫提供的 CSP 模塊[17]。
1.4 時間窗長度
時間窗的長度會對情緒識別的準確率和魯棒性產生影響,本文研究了 1、2、4 s 時間窗長度下情緒識別的準確率。2 s 時采用 1 s 的重疊取樣,4 s 時采用 3 s 的重疊取樣,重疊取樣一方面保證了樣本數量足夠多,另一方面能保證每隔 1 s 進行一次情緒識別,這與大多數研究采用 1 s 取樣的情況相同。本文對每秒的信號提取特征,窗長大于 1 s 時,對多個滑動窗的特征進行平均,得到樣本的特征。此外,長短時記憶(long short-term memory,LSTM)單元能夠有效提取時序信號特征[18]。在 4 s 時間窗下,本文研究了 DE 特征結合 LSTM 的情緒識別性能。
1.5 分類器
1.5.1 支持向量機
SVM 是傳統主流分類器,其強大的核功能使其成為研究者們最常采用的傳統分類器。本文使用機器學習工具箱 scikit-learn 0.23.2 提供的 SVM 模塊構建使用高斯核的 SVM 分類器。對于參數的配置可以通過網格搜索或者遺傳算法,本文對參數 γ 和 C 采用交叉驗證進行參數尋優,搜尋范圍為 2i,i∈[?10,10],i∈N。
1.5.2 濾波器組長短時記憶網絡
LSTM 在時間序列分析中有著廣泛應用[18]。結合 EEG 信號的頻率特點,本文提出了 FBLSTM。FBLSTM 結構如圖 2 所示,考慮 4 s 時間窗時樣本的輸入,依次對每秒時間窗信號提取的 DE 特征的數據維度為(4 時間步長,4 頻率帶,31 通道),分別輸入四組 LSTM,每組 LSTM 的輸入特征維度為 31,隱藏層特征維度為 8,時間步長為 4。接著將四組 LSTM 的隱藏層輸出合并,經過失活與兩層全連接層,最終采用軟間隔最大化輸出兩類或多類的概率。同時,每組 LSTM 的初始隱藏層特征也將作為可學習參數包含在訓練中。

FBLSTM 結構的設計源于 EEG 信號在不同頻率帶具有不同特性以及 EEG 信號的時間相關性,仿照 FBCSP 和平均濾波的思想,每組 LSTM 都模擬了空間濾波和時間濾波的功能。對比與傳統 LSTM 的差異,在網絡結構方面,FBLSTM 相比于傳統 LSTM(將特征全部輸入單組 LSTM),神經網絡參數個數大幅減少。如表 1 所示,LSTM32 指代單組 LSTM,輸入 DE 特征 4 × 31 = 124,隱藏層輸出維度 32,對應 FBLSTM 合并每組隱藏層輸出特征后的維度 32。LSTM10 指代隱藏層輸出維度 10。在參數方面,LSTM32 參數是 FBLSTM 的 3 倍之多,LSTM10 雖然參數與 FBLSTM 相近,但 LSTM10 輸出特征僅為 FBLSTM 的三分之一。本文將對比三種 LSTM 網絡的情緒識別性能。

對于 FBLSTM 的參數配置如下:全連接層采用修正線性單元作為激活函數,失活率為 0.4,采用交叉熵作為損失函數,隨機梯度下降算法更新權重,學習率設為 0.01,L2 正則化參數設為 0.001。每次訓練抓取 128 個樣本,訓練 500 個循環,取在測試集上準確率最高的訓練模型作為最佳模型。本文使用深度學習框架 pytorch 1.7.0(Facebook Inc,美國)進行編程。
1.6 數據劃分與評估模型策略
本文使用 DEAP 公共數據集,研究了三項分類任務,分別是低效價(負面情緒)/高效價(正面情緒)的二分類;低喚醒(困倦)/高喚醒(興奮)的二分類;效價-喚醒平面的四分類(對應于四個象限)。
本文研究各受試者內的情緒識別,以受試者的自我評估作為每部視頻的情緒標簽,為了確保受試者產生的情緒真實有效,刪去自我評估中喚醒度或效價度介于 4.8~5.2 之間的視頻。在前兩項分類任務中,將最大類比例不超過 65% 的受試者視為類平衡的受試者,反之則為類不平衡的受試者。對于類平衡的受試者,采用分類準確率來評估情緒識別性能,對于類不平衡的受試者,采用受試者工作特征曲線下方面積(area under curve,AUC)來評估情緒識別性能。為了評估算法間的差異,采用單因素重復測量方差分析。
本文引言中提到目前多數研究采用隨機選取的 K 折疊交叉驗證,這使得訓練樣本和測試樣本高度相關。針對這一問題,本文提出兩種更為合理的交叉驗證方法,如圖 3 所示。圖 3 左側是分塊化 K 折交叉驗證,對每部視頻(一個試驗)劃分 K(本文中為 5)個區塊,再選取 3 個區塊作為訓練樣本,1 個區塊作為驗證樣本,1 個區塊作為測試樣本,重復 4 次,依據驗證樣本準確率均值選取最佳模型,取測試樣本準確率或 AUC 作為評價指標。圖 3 右側是分試驗 K 折交叉驗證,按 40 部視頻(試驗)劃分數據,再進行 K 折劃分,對于 5 折劃分,取 24 部視頻作為訓練樣本,8 部視頻作為驗證樣本,8 部視頻作為測試樣本。兩種交叉驗證方法減弱了訓練樣本和測試樣本的相關性,更能有效評估不同情緒之間的差異,而并非情緒的認知過程之間的差異[19]。本文使用分塊化 5 折交叉驗證評估模型。

2 實驗結果與分析
2.1 效價度二分類
對于效價度二分類,共有 25 名受試者滿足類平衡條件,采用不同算法時受試者們的平均分類準確率和標準差如圖 4 所示。其中,橫坐標軸標簽 DE_1 指代 1 s 時間窗下采用 DE 特征結合 SVM;DCAU_1 指代 1 s 時間窗下采用 DCAU 特征結合 SVM;FBCSP4_1 指代 1 s 時間窗下采用 4 組空間濾波器的 FBCSP 特征結合 SVM;FBCSP8_1 指代 1 s 時間窗下采用 8 組空間濾波器的 FBCSP 特征結合 SVM;FBCSP8_2 指代 2 s 時間窗下采用 8 組空間濾波器的 FBCSP 特征結合 SVM;FBCSP8_4 指代 4 s 時間窗下采用 8 組空間濾波器的 FBCSP 特征結合 SVM;DE_LSTM10 指代 4 秒時間窗下采用 DE 特征結合 LSTM10;DE_LSTM32 指代 4 s 時間窗下采用 DE 特征結合 LSTM32;DE_FBLSTM 指代 4 s 時間窗下采用 DE 特征結合 FBLSTM。

1 s 時間窗下,單因素重復測量方差分析表明算法之間差異具有統計學意義。DE、FBCSP4 之間的差異不具有統計學意義。使用 FBCSP8 特征的算法優于 DE 和 DCAU(P < 0.05)。1 s 時間窗下的最高分類準確率為 72.9%,采用的是 FBCSP8 特征結合 SVM。在不同的時間窗時,可以對特征采用平均濾波,也可采用 LSTM 網絡結構。使用 1 s 時間窗下分類準確率高的兩種特征 FBCSP8 和 DE。對于 FBCSP8 特征,三個時間窗間差異具有統計學意義(P < 0.05),4 s 時取得最高準確率 77.7%。對于 DE 特征,在 4 s 時間窗下,三種分類器 FBLSTM、LSTM32、LSTM10 的平均分類準確率分別為 78.8%、77.1%、75.6%。三者之間的差異具有統計學意義,成對比較時,FBLSTM 優于 LSTM32 和 LSTM10(P < 0.05)。比較 1 s 和 4 s 時采用 DE 特征的差異,1 s 時間窗下 DE 特征結合 SVM 的分類準確率為 69.3%,4 s 時間窗下 DE 特征結合 FBLSTM 的分類準確率為 78.8%,兩者相差 9.5%。總體來看,效價度二分類時,4 s 為適宜的時間窗長度,采用 DE 特征結合 FBLSTM 的模型,最佳分類準確率為 78.8%。
2.2 喚醒度二分類
對于喚醒度二分類,共有 17 名受試者滿足類平衡條件,采用不同算法時受試者們的平均分類準確率和標準差如圖 5 所示。在 1 s 時間窗下,單因素重復測量方差分析表明算法間差異具有統計學意義。使用 FBCSP8 特征的算法優于 DCAU 和 FBCSP4(P < 0.05)。FBCSP8 與 DE 之間的差異不具有統計學意義(P = 0.052 > 0.5)。1 s 時間窗下的最高分類準確率為 72.3%,采用的是 FBCSP8 特征結合 SVM。在不同時間窗下,分析使用 FBCSP8 和 DE 特征的算法性能。采用 FBCSP8 特征時,三個時間窗間差異具有統計學意義(P < 0.05)。對于 DE 特征,DE 特征結合 FBLSTM 的平均分類準確率為 78.4 %,相比 1 s 時間窗時 DE 特征結合 SVM 的準確率高出 9.7 %。因此,在喚醒度二分類時,4 s 也為適宜的在線情緒腦機接口的時間窗長度。綜合效價度二分類時的分類結果,最佳的兩組模型為 4 s 時間窗下 FBCSP8 特征結合 SVM、DE 特征結合 FBLSTM。

在喚醒度二分類時共有 15 名類不平衡的受試者。采用最佳的兩組模型進行情緒分類識別,在喚醒度二分類時,最佳的平均 AUC 為 0.839。結果表明兩組模型在類不平衡時也都有良好的分類性能。
2.3 效價-喚醒平面的四分類
對于效價—喚醒平面的四分類,首先選擇效價度、喚醒度都滿足類平衡的受試者,共有 12 名。采用 DE 特征結合 FBLSTM 的模型,將 FBLSTM 的輸出節點調整為 4 個,失活率從 0.4 下調為 0.3,模型其余參數配置保持不變。四分類時,平均分類準確率為 70.3%。參考二分類時接近 80% 的準確率,FBLSTM 在多分類任務中仍能保持良好性能。
2.4 相關研究的比較
本文與基于 DEAP 數據集的研究中具有較高被引次數的論文之間的對比如表 2 所示。

文獻[20]采用統計特征和使用高斯核的 SVM,在效價度和喚醒度的二分類準確率結果分別為 73.14%、73.06%。文獻[21]采用離散小波變換提取特征,K 最近鄰(K-nearest neighbor,KNN)作為分類器,在效價度和喚醒度的二分類準確率結果分別為 86.75%、84.05%。文獻[22]的模型對 8 名參與者的平均識別準確率為 75.19% 和 81.74%。文獻[7]采用 DE 特征結合 GELM,四分類時的平均分類準確率達到 69.67%。本文采用 DE 特征結合 FBLSTM,效價度二分類時的準確率為 78.8%,喚醒度二分類時的準確率為 78.4%,效價—喚醒平面四分類時的準確率為 70.3%。相比于其他研究,三項分類任務都達到了較高的準確率。本文考慮了隨機選取樣本造成的訓練樣本和測試樣本相關性高的問題,提出了分塊化、分試驗 K 折交叉驗證,更能有效評估模型的真實性能。此外,部分研究未考慮受試者類樣本不平衡的影響,本文考慮了受試者的類平衡問題,避免了類不平衡造成的虛假高準確率。
2.5 腦區地形圖比較
將效價—喚醒平面劃分為四類情緒,高效價高喚醒(high valence/high arousal,HVHA),高效價低喚醒(high valence/low arousal,HVLA),低效價高喚醒(low valence/high arousal,LVHA),低效價低喚醒(low valence/low arousal,LVLA)。使用 DE 特征計算每一類情緒所有受試者的平均腦區地形圖,在各頻率帶進行歸一化處理后,將情緒兩兩做差,觀察腦區地形圖的差異。
如圖 6 所示,第一行對應 beta 頻帶,第二行對應 gamma 頻帶,圖中第一列標簽 HVLA-LVLA 指代高效價低喚醒類平均腦區地形圖與低效價低喚醒類平均腦區地形圖之差,其他列標簽同理。在低喚醒度時(圖中第一列),高、低效價度在左側顳葉 T7 電極附近差異較明顯;在高喚醒度時(圖中第二列),高、低效價度在右側顳葉 T8 電極附近差異明顯。在低效價度時(圖中第三列),高、低喚醒度同樣在 T7 電極附近差異明顯;在高效價度時(圖中第四列),高、低喚醒度在 T8 電極附近存在差異。實驗結果與文獻[5]中重要電極的選擇相符,表明 T7、T8 及其附近電極在 beta 和 gamma 頻率帶的 DE 特征適合用于區分四類情緒。

3 結論
本文比對了基于 EEG 信號的情緒識別領域的主流特征提取算法、分類器模型在 DEAP 公共數據集上的表現。現有的相關研究大都隨機劃分訓練測試樣本,雖然得到了優于本文的分類準確率,但隨機選取樣本造成訓練樣本和測試樣本相關性高,所得結果不能合理地評估算法的實際應用性能。對此,本文提出了分塊化、分試驗 K 折交叉驗證。本文分析了時間窗長度對情緒識別性能的影響,研究表明 4 s 為適宜的時間窗長度。此外,本文提出了 FBLSTM,采用 DE 特征結合 FBLSTM 的算法相比傳統算法具有更高的準確率和魯棒性,在類不平衡和多分類任務下仍能保持良好性能。
本文只研究了受試者內的情緒識別,為了使解碼算法更具有通用性,受試者間的情緒識別有待研究。減少電極通道數量能有效提高情緒腦機接口的應用性,后續將對該問題進行研究。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。