運動想象腦電信號是低信噪比的非平穩時間序列,單通道腦電分析方法難以有效刻畫多通道信號之間的交互特征。本文提出了一種基于多通道注意力的深度學習網絡模型,該模型對預處理后的數據進行稀疏時頻分解,增強了腦電信號時頻特征的差異性。然后利用注意力模塊在時間和空間對數據進行注意力映射,讓模型可以充分利用腦電信號不同通道的數據特征。最后利用改進的時間卷積網絡進行特征融合并進行分類識別。利用BCI competition IV-2a數據集對所提算法進行驗證,結果表明所提算法可有效提升運動想象腦電信號的分類正確率,9名受試者的平均識別率為83.03%,與現有方法相比,提高了腦電信號的分類精度。所提方法增強了不同運動想象腦電數據之間的差異特征,對提升分類器性能的研究具有重要意義。
引用本文: 李紅利, 尹飛超, 張榮華, 馬欣, 陳虹宇. 基于通道注意力和稀疏時頻分解的運動想象分類. 生物醫學工程學雜志, 2022, 39(3): 488-497. doi: 10.7507/1001-5515.202111031 復制
引言
腦-機接口技術(brain computer interface,BCI)[1]通過分析大腦中神經元活動的電信號來解碼人類的意圖,實現人體對外部環境或設備的控制,如腦控神經假肢、外骨骼機器人、機械臂和無人機等。BCI系統也為人工智能的發展提供了更多的解決方案,如直接通過大腦意識實現智能家居的控制、網頁瀏覽和娛樂游戲等。BCI系統可以使用多種類型的腦電圖(electroencephalography,EEG)信號,包括事件相關電位(event-related potentials,ERP)[2]、慢皮層電位(slow cortical potentials,SCP)[3]和感覺運動節律變化(sensorimotor rhythm,SMR)[4]等。基于運動想象[5]的BCI系統用于控制的腦電信號只是通過想象產生,不依賴于任何刺激,可以實現異步通訊,屬于真正意義上的BCI系統。開發基于運動想象的BCI系統對中風以及其他患有嚴重運動障礙的患者具有重要意義。失去運動能力的患者經過運動想象訓練后,可以通過想象肢體或者肌肉的運動自主進行康復訓練或完成對外部設備的控制,例如控制輪椅或假肢以改善生活質量。
基于運動想象的BCI系統建立在運動想象的事件相關同步化電位(event related synchronization,ERS)和事件相關去同步化電位(event-related desynchronization,ERD)[6],其特點是非平穩、信噪比低[7],且由于不同的電極阻抗、肌肉動作、眼球運動和用戶精神狀態等的變化會進一步增加數據的不穩定性,因此準確解碼大腦運動想象任務并對不同的運動想象進行分類具有非常大的挑戰性。運動想象解碼任務的核心問題就是從其混亂的腦電圖序列中提取盡可能多的特征來進行分類識別。為了高精度地識別運動想象模式,早期研究主要是根據經驗進行特征提取以及利用機器學習完成分類。小波變換、功率譜密度和頻譜圖等是經常使用的時頻特征提取方法,有助于探索EEG信號隨時間變化的頻率信息。后來,學者們開始研究腦電信號中存在的空間相關性,其中共空間模式(common spatial pattern,CSP)[8-10]是用來提取運動想象腦電數據空間特征的經典算法。該算法通過構造最優的空間濾波器,來提高不同運動想象任務之間的特征差異。 由于個體差異,CSP選擇的帶寬頻率可能并不適合所有個體,于是Ang等[11]提出了一種濾波組共空間(filter bank common spatial pattern,FBCSP)算法,該算法通過帶通濾波器將原始腦電信號分成多個頻帶,再利用CSP提取對應頻帶信號特征完成分類。在特征提取工作完成后,可以采用主流的機器學習模型如支持向量機(support vector machines,SVM)或線性判別算法完成分類。Zayyanu等[12]還將FBCSP和深度神經網絡(deep neural networks,DNN)相結合,通過構造一種改進的DNN框架來替代傳統的SVM分類器,對數據的特征進行進一步處理。CSP特征提取雖然擁有良好性能,但是該算法只考慮了腦電信號的空間特征信息,忽略了運動想象過程中信號的時頻特征。CSP改進算法主要是從特定對象中提取、選擇和融合多個特定時間窗和子頻帶腦電圖信號的CSP特征,以此來彌補CSP對動態特征捕捉能力差的缺陷,并沒有考慮到隨著數據量和特征維數的增加,模型的計算復雜度也會急劇增大。另外,時頻帶的過度劃分又會導致信息冗余,造成分類精度的降低。
近年來,隨著技術的飛速發展,深度學習方法逐步應用于腦電信號分類,其中卷積神經網絡(convolutional neural network,CNN)[13-15]可以顯著地提高模型的識別性和魯棒性。Wu等[16]提出并行的多尺度濾波器組CNN來進行運動想象分類,建立多尺度卷積用于時頻特征提取,并將提取的輸出特征連接到空間卷積層中,完成腦電信號多模態特征的融合。Michielli等[17]提出了一種新的基于長短期記憶(long short-term memory,LSTM)塊的級聯遞歸神經網絡結構來分析腦電圖信號。Wang等[18]為解決網絡的時間移動特性和網絡過擬合的問題提出了一種結合通道加權技術的長短期網絡(1d-AX-based LSTM,AX-LSTM)。深度學習模型在進行特征提取時表現優于人工提取,但是在進行運動想象解碼時都是基于對特征細分后再進行加權融合,并沒有考慮到腦電信號處理前數據空間結構和時間局部特征組合表達的合理性。基于深度學習的改進算法也只是進行數據輸入形式的轉變,將特征之間的相似性歸一化以用作后續處理,并且每個特征由所有特征的加權和來更新,導致相似的特征會具有較大的權重,使得模型不能有效地獲取腦電信號的全局特征,無法完全滿足解碼腦電信號的復雜任務要求。
為了充分利用原始腦電信號的空間結構和時間特征,本研究提出了一種基于通道注意力和稀疏時頻分解(sparse spectrotemporal decomposition,SSD)的深度神經網絡模型,以實現對原始腦電信號時間和空間特征的提取與識別。首先利用SSD算法[19]來增強腦電信號在時頻平面上的稀疏性。然后結合腦電信號的特性,在模型中加入了注意力模塊(convolutional block attention module,CBAM)[20],利用全局關系信息來沿著時間和空間兩個不同的維度依次對腦電信號進行映射,提取運動想象腦電信號的時間和空間特征。注意力模塊是從信號的全局關系出發,進行對應的特征提取并生成通道注意圖和空間注意圖,每個通道的注意力由它的特征和對應的關系向量決定,能夠有效捕捉局部與全局信息,同時又能夠在空間位置上提取和增強特征,從全局特征出發抑制腦電信號的無價值通道特征。最后利用改進的時間卷積網絡(temporal convolutional networks,TCN)[21]進行特征融合分析,實現對運動想象腦電信號的解碼任務。
1 研究方法
1.1 網絡模型
本研究提出的網絡模型的整體結構如圖1所示,該網絡結合了EEGNet模型緊湊的結構特點,在TCN模型中引入深度和可分離的卷積來構造一個特定的腦電分類模型。利用深度卷積進行特定頻率的過濾,可分離卷積單獨學習每個特征圖的時間特性,最后在TCN層進一步利用時間信息,提高模型分類正確率。同時數據在輸入網絡前經過稀疏處理模塊和注意力模塊處理后,特征會得到明顯加強,可進一步提高網絡的分類性能和穩定性。在TCN模塊堆疊L個殘差塊,捕捉到所有時間信息后,將提取到的最后特征輸入到一個全連接層進行分類。網絡各部分參數具體數值如表1所示,選擇指數線性ELU函數作為激活函數,可比ReLU函數表現出更好的性能,同時根據大腦數據集的通道數以及提取特征要求,選擇適合的卷積核大小和數量。


1.2 稀疏頻譜分解
EEG信號的時頻分析處理在近幾年應用廣泛,可以同時從時間域和頻域中對信號進行全面分析進而增強非平穩信號的特征。常見的時頻表示法如短時傅里葉變換(short-time Fourier transform,STFT)和離散小波變換(discrete wavelet transform,DWT)[22],由于算法簡單和準確度高而被多數模型使用,但在處理腦電信號的動態性能方面表現較差,不能有效利用數據的時間連續性,而且容易受噪聲干擾,導致模型分類正確率下降。Sun等[19]從壓縮感知領域[23]提出了稀疏頻譜分解算法,本研究將該算法應用于運動想象腦電信號的特征提取,得到腦電信號在時頻面的稀疏頻譜估計。通過加強跨時間的平滑性,可以有效適應腦電數據的變化特性,并且能夠抑制頻帶外的噪聲干擾。模型可以更好地捕獲ERD/ERS現象,并提高特征提取性能。
假設 是一個頻率為
離散信號、給定長度為W的任意區間,可以找到最能代表y的時間頻率系數
的集合,其中K和N是集合所需的頻率區間數和時間窗口的數量。利用這種表示法,信號y可以表示為
,其中頻率系數為矩陣形式,經過轉換可以得到
的頻率分辨率[23]。模型可以簡寫為式(1)形式。
![]() |
式中 是信號y的矩陣形式,
是每個區間對應頻率系數組成的系數矩陣,
是噪聲矩陣。可以利用
范數最小化估計和Y的離散傅里葉變換來求得稀疏系數。
為確保信號在頻率上的稀疏性和時間上的連續性,通過經典傅里葉測量模型的聯合最小化對信號進行時頻分解,該模型可以增加相鄰時間窗口頻率系數的組間稀疏性。通過定義列為 的矩陣,給出了群稀疏正則化函數,也稱為
范數。群稀疏正則化函數可以應用在具有時間差異的頻率系數中,可確保在給定的時間序列中大多數頻率系數不發生變化,并使得發生變化的頻率系數變得更加平滑。將此約束函數引入式(1)中,可以獲得信號去噪后的頻域表達。式(2)給出了具有
范數正則化的稀疏系數求解問題。
![]() |
式中 是矩陣系數,
是定義在實數上的一階差分矩陣[24]。
式(2)引入了范數增加了模型的實用性但是增加了系統計算難度,為方便求解引入輔助變量Z[24]。通過變量分裂技術和交替法[25]可以得到X和Z的增廣拉格朗日交替最小化,然后通過對X的損失函數進行微分可以推導出X的最小化問題如式(3)所示。
![]() |
這是一個凸二次問題,可以通過計算來推導出X的最優解,公式中 代表轉置矩陣,
是拉格朗日乘數,
是懲罰因子。Z的最小化求解問題由式(4)求得。
![]() |
可以將式(4)看作 正則化近端算子,通過一個逐行收縮算子[26]來進行求解,其中
,
與收縮量成正比關系,
越大Z中產生非零行越少。通過上述稀疏頻譜分解法,求得信號的頻率系數的稀疏矩陣X,得到顯著去噪的稀疏時頻信號,有效增強了不同運動想象腦電數據之間的差異特征,為不同運動想象任務的分類識別打下基礎。
1.3 注意力模塊
注意力模塊由通道和空間兩個模塊組成,在圖像處理方面應用廣泛,本研究將注意力模塊應用于運動想象腦電分類。與傳統時頻特征提取方法相比,注意力分析可以有效提高模型框架的解碼能力和對腦電數據特征的敏感性,使得模型能夠進一步放大有價值的特征,并且可以利用腦電信號的全局特征抑制無價值的特征通道。注意力模塊結構如圖2所示。

1.3.1 通道注意模塊
腦電信號每個通道對特征敏感度不同,利用信號的通道關系生成一個通道注意圖。每個通道作為特征檢測器,有效地聚合了信號的通道信息,提高特征敏感性。首先將稀疏分解過的腦電信號進行平均池化和最大池化操作,生成兩種不同的空間特征描述 和
,分別表示平均合并特征和最大合并特征。然后將這兩個特征描述轉發到共享網絡進而生成通道注意力圖
。其中共享網絡是一個具有隱藏層的多層感知器(multilayer perceptron,MLP)組成。將共享網絡應用于兩個特征描述后,利用元素級求和來合并輸出,得出信號的通道注意力輸出向量如式(5)所示。
![]() |
式中 表示S型函數,
和
是MLP的輸入共享權值。
1.3.2 空間注意模塊
與通道注意不同,空間注意模塊關注的是腦電信號的全局空間特征,是對通道注意力的進一步補充。與通道注意力一樣,先對輸入信號進行平均池化和最大池化,不同的是在連接兩個特征描述時用的是標準卷積層,這樣可以更好地增強需要的特征信息,計算方法如式(6)所示。
![]() |
式中 表示S型函數,
表示濾波器大小為
的卷積操作。
1.4 TCN模塊
TCN與傳統卷積網絡不同,首先TCN內部應用到了因果卷積,是一個一維全卷積網絡結構,其中每個隱藏層與輸入層大小相同,并添加內核大小為 ? 1的全零填充,以確保后續層長度相同,產生與輸入長度相同的輸出。此外,因果卷積強制不讓未來的信息流回到過去,即時刻T的輸出只與時刻T和T之前的輸入有關。但是常規的因果卷積只能在網絡深度中線性地增加其感受野的大小,這就導致需要極深的網絡模型才能獲得合適的感受野。所以TCN使用了一系列膨脹卷積[27],通過指數增加的擴張因子,使得網絡深度成比例地增加其感受野。TCN的殘差連接由兩層膨脹卷積組成,包括批量歸一化、非線性和卷積之間的dropout層,具體結構如圖3所示。通過使用多個殘差塊,卷積的感受野隨著殘差塊增加成指數擴增。感受野大小由式(7)計算。

![]() |
式中 為內核大小,L為殘差塊數量。本研究用TCN代替傳統的卷積網絡,通過使用殘差塊和膨脹卷積減小了模型深度,同時本研究對TCN進行了改進,在TCN模型中加入了深度卷積層和可分離卷積層,將數據特征在空間維度上進行加權組合,減小了模型參數的計算成本。
2 運動想象數據處理
2.1 數據集
本研究在BCI competition IV-2a公開數據集(http://www.bbci.de/competition/iv/)上進行實驗測試。數據集包括四種不同的運動想象任務,分別是想象左手、右手、腳部和舌頭,標簽分類為左手(第一類)、右手(第二類)、腳部(第三類)、舌頭(第四類)。數據集通過22個Ag/AgCl腦電極從9個不同的受試者采集而來,采樣頻率為250 Hz。除了22個腦電極外,還有三個眼電圖(electrooculogram,EOG)通道提供了眼球運動的信息,可以用于后續數據處理進行EOG消除,得到純凈的腦電信號。每次運動想象實驗分為五個部分,首先是靜息等待調整狀態,然后是短時間聲音刺激提醒受試準備開始實驗,電腦屏幕會出現四個不同方向的箭頭指示不同的運動想象任務,然后受試進行對應的運動想象時間為4 s,最后是結束提示休息。每個受試數據的采集分為6個時段,每個時段受試需要進行48次運動想象實驗,共288次實驗數據。
2.2 數據預處理
將得到的9個受試的數據進行裁剪,為確保數據準確性,選擇裁剪的時間窗為開始運動想象后0.5 ~ 5 s之間的4.5 s,比實際運動想象時間多了0.5 s,得到每次運動想象數據格式為(22,1125),共有288組運動想象數據以及對應的標簽。利用5階的Butterworth帶通濾波器去除信號超過40 Hz的噪聲和在4 Hz以下的慢基線信號,并利用獨立成分分析算法(independent component correlation algorithm,ICA)將數據中的EOG信號去除掉。通過分析9個受試不同頻率段腦電節律能量變化的腦地形圖可知,9個受試的整體變化趨勢一致,在頻率為8 ~ 12 Hz 的α波和12 ~ 30 Hz的β波中呈現出較為明顯的腦電節律能量變化,這也是運動想象過程中大腦皮層產生的兩種變化較大的節律信號,因此運動想象分類模型選擇利用這個頻率段的數據完成腦電信號解碼任務。以受試3為例,其四種運動想象不同頻段能量變化的腦地形圖如圖4所示,其他受試腦地形圖與受試3變化趨勢類似。經過預處理的腦電信號放入稀疏分解模塊可增強其在時頻域的稀疏性,提高信號對噪聲的魯棒性,后續處理能夠更好地區分特征并進行準確分類。

2.3 實驗環境
整個網絡模型在Python上的Tensor Flow框架下進行搭建,利用其各種張量進行網絡卷積核的構造。網絡選用自適應隨機優化算法[28]進行損失函數的優化,訓練采用的是小批樣本梯度下降策略,在訓練過程中對每次的訓練結果和損失函數結果進行更新,并對比每次訓練精度和Kappa值選取最優的網絡模型進行保存。Kappa值是一種用來衡量模型分類精度的標準,其計算表達式如式(8)所示。
![]() |
式中 表示整體分類精度,即分類正確的樣本數量之和與總樣本數的比值,
表示模型對數據的隨機分類率。通過Kappa值的對比分析,消除了隨機分類對模型精度的影響。訓練時將每個受試數據中的80%用于訓練,20%用于測試,迭代訓練次數為810次。
3 實驗結果與分析
3.1 分類結果比較
為對比分析本研究提出的網絡模型性能,將BCI competition IV-2a數據集應用在不同的分類模型中,不同模型的分類正確率如表2所示。

表2中FBCSP[11]通過帶通濾波器將原始腦電信號分成多個頻帶后,用CSP算法提取對應頻帶信號特征并完成分類,解決了CSP高度依賴頻帶的問題。FBCSP-DNN[12]將FBCSP算法用作特征提取,將DNN網絡構造成分類器,取代傳統分類器SVM。CNN[14]模型將腦電信號轉變成圖像信息輸入到卷積網絡中進行分類,去掉了數據預處理的過程,利用深度網絡結構對腦電信號進行解碼。Shallow-ConvNet[29]模型卷積網的前兩層執行時間卷積和空間濾波器,與深度卷積網絡相同。這些步驟類似于FBCSP中的帶通步驟和CSP空間濾波器步驟。與深度卷積相比,淺卷積的內核大小更大,允許在這一層進行更大范圍的轉換。DFFN[30]模型利用CSP提取獨特的空間濾波器,然后將提取的數據空間特征輸入CNN,對數據的特征進行融合。Deep-ConvNet[29]模型有四個卷積最大池塊,其中有一個特殊的卷積池塊處理腦電圖輸入,然后用三個標準的卷積大池塊和一個密集的softmax分類層來處理多通道腦電數據。EEGNet[31]模型利用深度和可分離卷積對腦電數據進行處理,顯著地減少了模型參數。從表格中可以看出本研究提出的模型平均正確率為83.03%,高于其他七種模型。在9個受試分類結果中,本研究的模型始終優于FBCSP模型、CNN模型、Deep-ConvNet模型和EEGNet模型,說明提出的基于多通道注意力的稀疏分解和TCN的網絡模型能有效地提高分類性能。經計算本研究所提出模型正確率的標準方差僅為9.53%,小于FBCSP-DNN的10.62%、Shallow-ConvNet的14.44%和DFFN的10.26%,證明所提出模型有較好的分類性能,并且在不同受試之間具有較好的魯棒性。表2顯示FBCSP-DNN模型下的受試1、DFFN模型下的受試6和Shallow-ConvNet模型下的受試4的分類結果高于本研究提出模型,這是由于不同的網絡模型對不同的腦電信號數據敏感性有差異,同時本研究提出的模型會出現個別受試數據特征過度擬合導致正確率下降,但是正確率差別不大,并且所提模型的平均正確率更高,分類性能更好。
3.2 模型性能分析
3.2.1 通道注意力性能分析
數據集22個通道中,局部特征對運動想象分類影響力較大的通道為C3、C4和Cz[32-33],但是其他通道也有一定影響,因此其他網絡模型選擇舍棄其他通道的方法是不可取的。本研究通過注意力模塊對不同通道進行了系數選擇,既利用了影響占比較大的通道數據特征,又充分地使用到其他通道的數據特征,最終將含有22個通道特征的信號輸入后續網絡模型進行處理分析。圖5是模型有無注意力前后分類結果的對比分析,從圖中可以看出通道注意力模塊的加入可以明顯提高該模型的分類正確率。特別是受試2和受試5兩個分類效果較差的受試,在經過通道注意力模塊的處理后,分類效果得到顯著提升,說明通道注意力模塊有利于提高腦電信號的分類正確率。

3.2.2 TCN性能分析
加入TCN后的模型可以進一步地利用腦電信號的時間特性,在對腦電信號等長輸入序列進行處理時,TCN夠以指數方式擴展卷積核的感受野大小,同時其參數數量和內存數量呈線性增長。與循環神經網絡相比,TCN不會受到梯度爆炸或消失的影響,使得模型更加穩定。TCN模塊與傳統卷積網絡性能比較結果如圖6所示,可以看出TCN對分類結果準確度有不同程度的影響,其中受試1和受試7有較為明顯的提升,受試2和受試4分類結果有所下降,說明受試雖然存在個體差異,但TCN總體有利于腦電信號的解碼分類。

3.2.3 混淆矩陣分析
為分析本研究所提模型對每類運動想象腦電數據識別效果的影響,計算出9個被試數據集在3種不同模型下的平均混淆矩陣。如圖7所示,混淆矩陣的橫軸代表模型預測的運動想象類別,縱軸代表實際的運動想象類別,對角線表示正確分類的比例,而非對角線元素表示錯誤分類的比例。從圖中可以看出FBCSP+SVM和DFFN兩個模型在左手、右手和腳部的分類正確率均小于80%,尤其是在左右手腦電數據分類上,FBSCSP+SVM的錯誤比例達到了12.63%和14.31%,DFFN的錯誤比例達到了11.63%和13.27%。這是因為左右手運動想象占據相同的運動感覺區,導致模型在進行空間提取時不能得到有效的空間特征,此外FBCSP和傳統的卷積神經網絡提取腦電數據的空間特征和通道特征的能力有限,導致在模型區分左右手類別時產生較大錯誤。本研究通過將注意力模塊和TCN相結合對腦電數據進行進一步處理,從全局角度出發進行對應的特征提取并生成通道注意圖和空間注意圖,降低了左右手的錯誤比例,正確率達到了84.31%和82.05%。相較于FBCSP和DFFN,本研究提出的模型在特征提取方面有著更好的性能,可以將空間特征和通道特征相結合,提高運動想象腦電數據的空間分辨率。此外,通過TCN網絡的卷積計算,本研究所提模型可以學習分辨率更強的通道和空間特征,進一步提升運動想象分類正確率。

4 總結
與現有的運動想象分類模型相比,本研究的模型在三個方面具有明顯優勢。首先,利用稀疏時頻分解,可提高腦電信號在時頻域的稀疏性,增強腦電信號時頻特征的差異性。其次,在模型中加入注意力模塊,充分利用腦電信號的多通道特征,可進一步提高模型的分類性能。最后,利用TCN對提取的特征進行融合分析,在模型中加入了深度卷積層和可分離卷積層,顯著減少了卷積層的參數數量,并將數據特征在空間維度上進行加權組合,減小模型參數計算成本。實驗結果表明,四分類運動想象多通道數據分析中,本研究提出的模型性能優于現有的通道特征分析方法。目前本研究所提模型在網絡結構的優化以及參數的選擇上仍然存在一些限制,未來工作將進一步探索卷積層神經元輸出的可視化方法,為優化網絡結構參數配置提供參考依據。自行設計腦電信號采集實驗,利用自行采集的數據集測試所提方法的性能,并將其應用于在線運動想象系統。同時將此模型應用到BCI其他范式上,驗證模型對其他范式的分類性能。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:所有作者都參與了本研究的構思和設計。尹飛超和李紅利完成編寫模型代碼、數據收集和分析。張榮華、馬欣和陳虹宇完成論文修改和項目的前期研究。尹飛超撰寫論文初稿;所有作者都提供了稿件修改建議,閱讀并批準了最終稿件。
引言
腦-機接口技術(brain computer interface,BCI)[1]通過分析大腦中神經元活動的電信號來解碼人類的意圖,實現人體對外部環境或設備的控制,如腦控神經假肢、外骨骼機器人、機械臂和無人機等。BCI系統也為人工智能的發展提供了更多的解決方案,如直接通過大腦意識實現智能家居的控制、網頁瀏覽和娛樂游戲等。BCI系統可以使用多種類型的腦電圖(electroencephalography,EEG)信號,包括事件相關電位(event-related potentials,ERP)[2]、慢皮層電位(slow cortical potentials,SCP)[3]和感覺運動節律變化(sensorimotor rhythm,SMR)[4]等。基于運動想象[5]的BCI系統用于控制的腦電信號只是通過想象產生,不依賴于任何刺激,可以實現異步通訊,屬于真正意義上的BCI系統。開發基于運動想象的BCI系統對中風以及其他患有嚴重運動障礙的患者具有重要意義。失去運動能力的患者經過運動想象訓練后,可以通過想象肢體或者肌肉的運動自主進行康復訓練或完成對外部設備的控制,例如控制輪椅或假肢以改善生活質量。
基于運動想象的BCI系統建立在運動想象的事件相關同步化電位(event related synchronization,ERS)和事件相關去同步化電位(event-related desynchronization,ERD)[6],其特點是非平穩、信噪比低[7],且由于不同的電極阻抗、肌肉動作、眼球運動和用戶精神狀態等的變化會進一步增加數據的不穩定性,因此準確解碼大腦運動想象任務并對不同的運動想象進行分類具有非常大的挑戰性。運動想象解碼任務的核心問題就是從其混亂的腦電圖序列中提取盡可能多的特征來進行分類識別。為了高精度地識別運動想象模式,早期研究主要是根據經驗進行特征提取以及利用機器學習完成分類。小波變換、功率譜密度和頻譜圖等是經常使用的時頻特征提取方法,有助于探索EEG信號隨時間變化的頻率信息。后來,學者們開始研究腦電信號中存在的空間相關性,其中共空間模式(common spatial pattern,CSP)[8-10]是用來提取運動想象腦電數據空間特征的經典算法。該算法通過構造最優的空間濾波器,來提高不同運動想象任務之間的特征差異。 由于個體差異,CSP選擇的帶寬頻率可能并不適合所有個體,于是Ang等[11]提出了一種濾波組共空間(filter bank common spatial pattern,FBCSP)算法,該算法通過帶通濾波器將原始腦電信號分成多個頻帶,再利用CSP提取對應頻帶信號特征完成分類。在特征提取工作完成后,可以采用主流的機器學習模型如支持向量機(support vector machines,SVM)或線性判別算法完成分類。Zayyanu等[12]還將FBCSP和深度神經網絡(deep neural networks,DNN)相結合,通過構造一種改進的DNN框架來替代傳統的SVM分類器,對數據的特征進行進一步處理。CSP特征提取雖然擁有良好性能,但是該算法只考慮了腦電信號的空間特征信息,忽略了運動想象過程中信號的時頻特征。CSP改進算法主要是從特定對象中提取、選擇和融合多個特定時間窗和子頻帶腦電圖信號的CSP特征,以此來彌補CSP對動態特征捕捉能力差的缺陷,并沒有考慮到隨著數據量和特征維數的增加,模型的計算復雜度也會急劇增大。另外,時頻帶的過度劃分又會導致信息冗余,造成分類精度的降低。
近年來,隨著技術的飛速發展,深度學習方法逐步應用于腦電信號分類,其中卷積神經網絡(convolutional neural network,CNN)[13-15]可以顯著地提高模型的識別性和魯棒性。Wu等[16]提出并行的多尺度濾波器組CNN來進行運動想象分類,建立多尺度卷積用于時頻特征提取,并將提取的輸出特征連接到空間卷積層中,完成腦電信號多模態特征的融合。Michielli等[17]提出了一種新的基于長短期記憶(long short-term memory,LSTM)塊的級聯遞歸神經網絡結構來分析腦電圖信號。Wang等[18]為解決網絡的時間移動特性和網絡過擬合的問題提出了一種結合通道加權技術的長短期網絡(1d-AX-based LSTM,AX-LSTM)。深度學習模型在進行特征提取時表現優于人工提取,但是在進行運動想象解碼時都是基于對特征細分后再進行加權融合,并沒有考慮到腦電信號處理前數據空間結構和時間局部特征組合表達的合理性。基于深度學習的改進算法也只是進行數據輸入形式的轉變,將特征之間的相似性歸一化以用作后續處理,并且每個特征由所有特征的加權和來更新,導致相似的特征會具有較大的權重,使得模型不能有效地獲取腦電信號的全局特征,無法完全滿足解碼腦電信號的復雜任務要求。
為了充分利用原始腦電信號的空間結構和時間特征,本研究提出了一種基于通道注意力和稀疏時頻分解(sparse spectrotemporal decomposition,SSD)的深度神經網絡模型,以實現對原始腦電信號時間和空間特征的提取與識別。首先利用SSD算法[19]來增強腦電信號在時頻平面上的稀疏性。然后結合腦電信號的特性,在模型中加入了注意力模塊(convolutional block attention module,CBAM)[20],利用全局關系信息來沿著時間和空間兩個不同的維度依次對腦電信號進行映射,提取運動想象腦電信號的時間和空間特征。注意力模塊是從信號的全局關系出發,進行對應的特征提取并生成通道注意圖和空間注意圖,每個通道的注意力由它的特征和對應的關系向量決定,能夠有效捕捉局部與全局信息,同時又能夠在空間位置上提取和增強特征,從全局特征出發抑制腦電信號的無價值通道特征。最后利用改進的時間卷積網絡(temporal convolutional networks,TCN)[21]進行特征融合分析,實現對運動想象腦電信號的解碼任務。
1 研究方法
1.1 網絡模型
本研究提出的網絡模型的整體結構如圖1所示,該網絡結合了EEGNet模型緊湊的結構特點,在TCN模型中引入深度和可分離的卷積來構造一個特定的腦電分類模型。利用深度卷積進行特定頻率的過濾,可分離卷積單獨學習每個特征圖的時間特性,最后在TCN層進一步利用時間信息,提高模型分類正確率。同時數據在輸入網絡前經過稀疏處理模塊和注意力模塊處理后,特征會得到明顯加強,可進一步提高網絡的分類性能和穩定性。在TCN模塊堆疊L個殘差塊,捕捉到所有時間信息后,將提取到的最后特征輸入到一個全連接層進行分類。網絡各部分參數具體數值如表1所示,選擇指數線性ELU函數作為激活函數,可比ReLU函數表現出更好的性能,同時根據大腦數據集的通道數以及提取特征要求,選擇適合的卷積核大小和數量。


1.2 稀疏頻譜分解
EEG信號的時頻分析處理在近幾年應用廣泛,可以同時從時間域和頻域中對信號進行全面分析進而增強非平穩信號的特征。常見的時頻表示法如短時傅里葉變換(short-time Fourier transform,STFT)和離散小波變換(discrete wavelet transform,DWT)[22],由于算法簡單和準確度高而被多數模型使用,但在處理腦電信號的動態性能方面表現較差,不能有效利用數據的時間連續性,而且容易受噪聲干擾,導致模型分類正確率下降。Sun等[19]從壓縮感知領域[23]提出了稀疏頻譜分解算法,本研究將該算法應用于運動想象腦電信號的特征提取,得到腦電信號在時頻面的稀疏頻譜估計。通過加強跨時間的平滑性,可以有效適應腦電數據的變化特性,并且能夠抑制頻帶外的噪聲干擾。模型可以更好地捕獲ERD/ERS現象,并提高特征提取性能。
假設 是一個頻率為
離散信號、給定長度為W的任意區間,可以找到最能代表y的時間頻率系數
的集合,其中K和N是集合所需的頻率區間數和時間窗口的數量。利用這種表示法,信號y可以表示為
,其中頻率系數為矩陣形式,經過轉換可以得到
的頻率分辨率[23]。模型可以簡寫為式(1)形式。
![]() |
式中 是信號y的矩陣形式,
是每個區間對應頻率系數組成的系數矩陣,
是噪聲矩陣。可以利用
范數最小化估計和Y的離散傅里葉變換來求得稀疏系數。
為確保信號在頻率上的稀疏性和時間上的連續性,通過經典傅里葉測量模型的聯合最小化對信號進行時頻分解,該模型可以增加相鄰時間窗口頻率系數的組間稀疏性。通過定義列為 的矩陣,給出了群稀疏正則化函數,也稱為
范數。群稀疏正則化函數可以應用在具有時間差異的頻率系數中,可確保在給定的時間序列中大多數頻率系數不發生變化,并使得發生變化的頻率系數變得更加平滑。將此約束函數引入式(1)中,可以獲得信號去噪后的頻域表達。式(2)給出了具有
范數正則化的稀疏系數求解問題。
![]() |
式中 是矩陣系數,
是定義在實數上的一階差分矩陣[24]。
式(2)引入了范數增加了模型的實用性但是增加了系統計算難度,為方便求解引入輔助變量Z[24]。通過變量分裂技術和交替法[25]可以得到X和Z的增廣拉格朗日交替最小化,然后通過對X的損失函數進行微分可以推導出X的最小化問題如式(3)所示。
![]() |
這是一個凸二次問題,可以通過計算來推導出X的最優解,公式中 代表轉置矩陣,
是拉格朗日乘數,
是懲罰因子。Z的最小化求解問題由式(4)求得。
![]() |
可以將式(4)看作 正則化近端算子,通過一個逐行收縮算子[26]來進行求解,其中
,
與收縮量成正比關系,
越大Z中產生非零行越少。通過上述稀疏頻譜分解法,求得信號的頻率系數的稀疏矩陣X,得到顯著去噪的稀疏時頻信號,有效增強了不同運動想象腦電數據之間的差異特征,為不同運動想象任務的分類識別打下基礎。
1.3 注意力模塊
注意力模塊由通道和空間兩個模塊組成,在圖像處理方面應用廣泛,本研究將注意力模塊應用于運動想象腦電分類。與傳統時頻特征提取方法相比,注意力分析可以有效提高模型框架的解碼能力和對腦電數據特征的敏感性,使得模型能夠進一步放大有價值的特征,并且可以利用腦電信號的全局特征抑制無價值的特征通道。注意力模塊結構如圖2所示。

1.3.1 通道注意模塊
腦電信號每個通道對特征敏感度不同,利用信號的通道關系生成一個通道注意圖。每個通道作為特征檢測器,有效地聚合了信號的通道信息,提高特征敏感性。首先將稀疏分解過的腦電信號進行平均池化和最大池化操作,生成兩種不同的空間特征描述 和
,分別表示平均合并特征和最大合并特征。然后將這兩個特征描述轉發到共享網絡進而生成通道注意力圖
。其中共享網絡是一個具有隱藏層的多層感知器(multilayer perceptron,MLP)組成。將共享網絡應用于兩個特征描述后,利用元素級求和來合并輸出,得出信號的通道注意力輸出向量如式(5)所示。
![]() |
式中 表示S型函數,
和
是MLP的輸入共享權值。
1.3.2 空間注意模塊
與通道注意不同,空間注意模塊關注的是腦電信號的全局空間特征,是對通道注意力的進一步補充。與通道注意力一樣,先對輸入信號進行平均池化和最大池化,不同的是在連接兩個特征描述時用的是標準卷積層,這樣可以更好地增強需要的特征信息,計算方法如式(6)所示。
![]() |
式中 表示S型函數,
表示濾波器大小為
的卷積操作。
1.4 TCN模塊
TCN與傳統卷積網絡不同,首先TCN內部應用到了因果卷積,是一個一維全卷積網絡結構,其中每個隱藏層與輸入層大小相同,并添加內核大小為 ? 1的全零填充,以確保后續層長度相同,產生與輸入長度相同的輸出。此外,因果卷積強制不讓未來的信息流回到過去,即時刻T的輸出只與時刻T和T之前的輸入有關。但是常規的因果卷積只能在網絡深度中線性地增加其感受野的大小,這就導致需要極深的網絡模型才能獲得合適的感受野。所以TCN使用了一系列膨脹卷積[27],通過指數增加的擴張因子,使得網絡深度成比例地增加其感受野。TCN的殘差連接由兩層膨脹卷積組成,包括批量歸一化、非線性和卷積之間的dropout層,具體結構如圖3所示。通過使用多個殘差塊,卷積的感受野隨著殘差塊增加成指數擴增。感受野大小由式(7)計算。

![]() |
式中 為內核大小,L為殘差塊數量。本研究用TCN代替傳統的卷積網絡,通過使用殘差塊和膨脹卷積減小了模型深度,同時本研究對TCN進行了改進,在TCN模型中加入了深度卷積層和可分離卷積層,將數據特征在空間維度上進行加權組合,減小了模型參數的計算成本。
2 運動想象數據處理
2.1 數據集
本研究在BCI competition IV-2a公開數據集(http://www.bbci.de/competition/iv/)上進行實驗測試。數據集包括四種不同的運動想象任務,分別是想象左手、右手、腳部和舌頭,標簽分類為左手(第一類)、右手(第二類)、腳部(第三類)、舌頭(第四類)。數據集通過22個Ag/AgCl腦電極從9個不同的受試者采集而來,采樣頻率為250 Hz。除了22個腦電極外,還有三個眼電圖(electrooculogram,EOG)通道提供了眼球運動的信息,可以用于后續數據處理進行EOG消除,得到純凈的腦電信號。每次運動想象實驗分為五個部分,首先是靜息等待調整狀態,然后是短時間聲音刺激提醒受試準備開始實驗,電腦屏幕會出現四個不同方向的箭頭指示不同的運動想象任務,然后受試進行對應的運動想象時間為4 s,最后是結束提示休息。每個受試數據的采集分為6個時段,每個時段受試需要進行48次運動想象實驗,共288次實驗數據。
2.2 數據預處理
將得到的9個受試的數據進行裁剪,為確保數據準確性,選擇裁剪的時間窗為開始運動想象后0.5 ~ 5 s之間的4.5 s,比實際運動想象時間多了0.5 s,得到每次運動想象數據格式為(22,1125),共有288組運動想象數據以及對應的標簽。利用5階的Butterworth帶通濾波器去除信號超過40 Hz的噪聲和在4 Hz以下的慢基線信號,并利用獨立成分分析算法(independent component correlation algorithm,ICA)將數據中的EOG信號去除掉。通過分析9個受試不同頻率段腦電節律能量變化的腦地形圖可知,9個受試的整體變化趨勢一致,在頻率為8 ~ 12 Hz 的α波和12 ~ 30 Hz的β波中呈現出較為明顯的腦電節律能量變化,這也是運動想象過程中大腦皮層產生的兩種變化較大的節律信號,因此運動想象分類模型選擇利用這個頻率段的數據完成腦電信號解碼任務。以受試3為例,其四種運動想象不同頻段能量變化的腦地形圖如圖4所示,其他受試腦地形圖與受試3變化趨勢類似。經過預處理的腦電信號放入稀疏分解模塊可增強其在時頻域的稀疏性,提高信號對噪聲的魯棒性,后續處理能夠更好地區分特征并進行準確分類。

2.3 實驗環境
整個網絡模型在Python上的Tensor Flow框架下進行搭建,利用其各種張量進行網絡卷積核的構造。網絡選用自適應隨機優化算法[28]進行損失函數的優化,訓練采用的是小批樣本梯度下降策略,在訓練過程中對每次的訓練結果和損失函數結果進行更新,并對比每次訓練精度和Kappa值選取最優的網絡模型進行保存。Kappa值是一種用來衡量模型分類精度的標準,其計算表達式如式(8)所示。
![]() |
式中 表示整體分類精度,即分類正確的樣本數量之和與總樣本數的比值,
表示模型對數據的隨機分類率。通過Kappa值的對比分析,消除了隨機分類對模型精度的影響。訓練時將每個受試數據中的80%用于訓練,20%用于測試,迭代訓練次數為810次。
3 實驗結果與分析
3.1 分類結果比較
為對比分析本研究提出的網絡模型性能,將BCI competition IV-2a數據集應用在不同的分類模型中,不同模型的分類正確率如表2所示。

表2中FBCSP[11]通過帶通濾波器將原始腦電信號分成多個頻帶后,用CSP算法提取對應頻帶信號特征并完成分類,解決了CSP高度依賴頻帶的問題。FBCSP-DNN[12]將FBCSP算法用作特征提取,將DNN網絡構造成分類器,取代傳統分類器SVM。CNN[14]模型將腦電信號轉變成圖像信息輸入到卷積網絡中進行分類,去掉了數據預處理的過程,利用深度網絡結構對腦電信號進行解碼。Shallow-ConvNet[29]模型卷積網的前兩層執行時間卷積和空間濾波器,與深度卷積網絡相同。這些步驟類似于FBCSP中的帶通步驟和CSP空間濾波器步驟。與深度卷積相比,淺卷積的內核大小更大,允許在這一層進行更大范圍的轉換。DFFN[30]模型利用CSP提取獨特的空間濾波器,然后將提取的數據空間特征輸入CNN,對數據的特征進行融合。Deep-ConvNet[29]模型有四個卷積最大池塊,其中有一個特殊的卷積池塊處理腦電圖輸入,然后用三個標準的卷積大池塊和一個密集的softmax分類層來處理多通道腦電數據。EEGNet[31]模型利用深度和可分離卷積對腦電數據進行處理,顯著地減少了模型參數。從表格中可以看出本研究提出的模型平均正確率為83.03%,高于其他七種模型。在9個受試分類結果中,本研究的模型始終優于FBCSP模型、CNN模型、Deep-ConvNet模型和EEGNet模型,說明提出的基于多通道注意力的稀疏分解和TCN的網絡模型能有效地提高分類性能。經計算本研究所提出模型正確率的標準方差僅為9.53%,小于FBCSP-DNN的10.62%、Shallow-ConvNet的14.44%和DFFN的10.26%,證明所提出模型有較好的分類性能,并且在不同受試之間具有較好的魯棒性。表2顯示FBCSP-DNN模型下的受試1、DFFN模型下的受試6和Shallow-ConvNet模型下的受試4的分類結果高于本研究提出模型,這是由于不同的網絡模型對不同的腦電信號數據敏感性有差異,同時本研究提出的模型會出現個別受試數據特征過度擬合導致正確率下降,但是正確率差別不大,并且所提模型的平均正確率更高,分類性能更好。
3.2 模型性能分析
3.2.1 通道注意力性能分析
數據集22個通道中,局部特征對運動想象分類影響力較大的通道為C3、C4和Cz[32-33],但是其他通道也有一定影響,因此其他網絡模型選擇舍棄其他通道的方法是不可取的。本研究通過注意力模塊對不同通道進行了系數選擇,既利用了影響占比較大的通道數據特征,又充分地使用到其他通道的數據特征,最終將含有22個通道特征的信號輸入后續網絡模型進行處理分析。圖5是模型有無注意力前后分類結果的對比分析,從圖中可以看出通道注意力模塊的加入可以明顯提高該模型的分類正確率。特別是受試2和受試5兩個分類效果較差的受試,在經過通道注意力模塊的處理后,分類效果得到顯著提升,說明通道注意力模塊有利于提高腦電信號的分類正確率。

3.2.2 TCN性能分析
加入TCN后的模型可以進一步地利用腦電信號的時間特性,在對腦電信號等長輸入序列進行處理時,TCN夠以指數方式擴展卷積核的感受野大小,同時其參數數量和內存數量呈線性增長。與循環神經網絡相比,TCN不會受到梯度爆炸或消失的影響,使得模型更加穩定。TCN模塊與傳統卷積網絡性能比較結果如圖6所示,可以看出TCN對分類結果準確度有不同程度的影響,其中受試1和受試7有較為明顯的提升,受試2和受試4分類結果有所下降,說明受試雖然存在個體差異,但TCN總體有利于腦電信號的解碼分類。

3.2.3 混淆矩陣分析
為分析本研究所提模型對每類運動想象腦電數據識別效果的影響,計算出9個被試數據集在3種不同模型下的平均混淆矩陣。如圖7所示,混淆矩陣的橫軸代表模型預測的運動想象類別,縱軸代表實際的運動想象類別,對角線表示正確分類的比例,而非對角線元素表示錯誤分類的比例。從圖中可以看出FBCSP+SVM和DFFN兩個模型在左手、右手和腳部的分類正確率均小于80%,尤其是在左右手腦電數據分類上,FBSCSP+SVM的錯誤比例達到了12.63%和14.31%,DFFN的錯誤比例達到了11.63%和13.27%。這是因為左右手運動想象占據相同的運動感覺區,導致模型在進行空間提取時不能得到有效的空間特征,此外FBCSP和傳統的卷積神經網絡提取腦電數據的空間特征和通道特征的能力有限,導致在模型區分左右手類別時產生較大錯誤。本研究通過將注意力模塊和TCN相結合對腦電數據進行進一步處理,從全局角度出發進行對應的特征提取并生成通道注意圖和空間注意圖,降低了左右手的錯誤比例,正確率達到了84.31%和82.05%。相較于FBCSP和DFFN,本研究提出的模型在特征提取方面有著更好的性能,可以將空間特征和通道特征相結合,提高運動想象腦電數據的空間分辨率。此外,通過TCN網絡的卷積計算,本研究所提模型可以學習分辨率更強的通道和空間特征,進一步提升運動想象分類正確率。

4 總結
與現有的運動想象分類模型相比,本研究的模型在三個方面具有明顯優勢。首先,利用稀疏時頻分解,可提高腦電信號在時頻域的稀疏性,增強腦電信號時頻特征的差異性。其次,在模型中加入注意力模塊,充分利用腦電信號的多通道特征,可進一步提高模型的分類性能。最后,利用TCN對提取的特征進行融合分析,在模型中加入了深度卷積層和可分離卷積層,顯著減少了卷積層的參數數量,并將數據特征在空間維度上進行加權組合,減小模型參數計算成本。實驗結果表明,四分類運動想象多通道數據分析中,本研究提出的模型性能優于現有的通道特征分析方法。目前本研究所提模型在網絡結構的優化以及參數的選擇上仍然存在一些限制,未來工作將進一步探索卷積層神經元輸出的可視化方法,為優化網絡結構參數配置提供參考依據。自行設計腦電信號采集實驗,利用自行采集的數據集測試所提方法的性能,并將其應用于在線運動想象系統。同時將此模型應用到BCI其他范式上,驗證模型對其他范式的分類性能。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:所有作者都參與了本研究的構思和設計。尹飛超和李紅利完成編寫模型代碼、數據收集和分析。張榮華、馬欣和陳虹宇完成論文修改和項目的前期研究。尹飛超撰寫論文初稿;所有作者都提供了稿件修改建議,閱讀并批準了最終稿件。