基于運動想象腦電(EEG)的腦-機接口系統能夠為用戶提供更為自然、靈活的控制方式,已廣泛應用到人機交互領域。然而,由于目前運動想象腦電的信噪比及空間分辨率較低,導致信號解碼正確率較低。針對這一問題,本文提出一種基于時空特征學習卷積神經網絡(TSCNN)的運動想象腦電解碼方法。首先,針對經過帶通濾波預處理的腦電信號,依次設計時間和空間維度上的卷積層,構造出運動想象腦電的時空特征;然后,利用 2 層二維卷積結構對腦電的時空特征進行抽象學習;最后,通過全連接層和 Softmax 層對 TSCNN 學習的抽象特征進行解碼。利用公開數據集對該方法進行實驗測試,結果表明,所提方法的平均解碼精度達到 80.09%,分別比經典的解碼方法共空間模式(CSP) + 支持向量機(SVM)和濾波器組 CSP(FBCSP) + SVM 提高了 13.75% 和 10.99%,顯著提升了運動想象腦電解碼的可靠性。
引用本文: 褚亞奇, 朱波, 趙新剛, 趙憶文. 基于時空特征學習卷積神經網絡的運動想象腦電解碼方法. 生物醫學工程學雜志, 2021, 38(1): 1-9. doi: 10.7507/1001-5515.202007006 復制
引言
機器學習技術能夠從腦電圖(electroencephalogram,EEG)記錄的大腦活動中提取有用信息,因此其在基于 EEG 的腦電研究和應用領域起著至關重要的作用。腦-機接口(brain-computer interface,BCI)系統作為一種新穎的人機交互手段,正是利用機器學習技術解碼用戶意圖從而實現對外部環境或設備的控制,如腦控神經假肢[1]、外骨骼機器人[2]、機械臂[3]和無人機[4]等。
相比于誘發型腦電模態,如穩態視覺誘發電位(steady-state visually evoked potentials,SSVEP)和 P300,運動想象腦電等具有自發性和本質自然性,更適合作為腦-機接口系統的控制信號[5]。當執行單側肢體運動想象任務時,大腦對側運動感覺區的神經活動降低,導致 μ 節律(8 ~ 12 Hz)和 β 節律(13 ~ 30 Hz)的頻譜能量減小;而大腦同側運動感覺區的神經活動增強,導致 μ 節律和 β 節律的頻譜能量上升,這種電生理現象被稱為事件相關去同步(event-related desynchronization,ERD)和事件相關同步(event-related synchronization,ERS)[6]。利用 ERS/ERD 現象,研究者們提出大量的機器學習方法用來解碼運動想象腦電信號,包括用于提取時間域、頻域和空間域特征的自回歸模型、小波變換、頻帶能量、共空間模式(common spatial pattern,CSP)及其變種等算法[7-10]以及用于分類的線性判別分析、支持向量機(support vector machine,SVM)、BP 神經網絡(back propagation neural network,BPNN)、極限學習機等分類器[11-13]。作為一種有效的空間濾波算法,CSP 已成為運動想象 EEG 解碼的基準算法,它通過尋找一組最優的空間線性變換,獲得具有最大可分性的空間域特征,進而最大化不同運動想象類別之間的距離。但是,該算法僅考慮了 EEG 信號的空間信息,而忽略了其中蘊含豐富的時間信息。此外,CSP 算法需要進行人工的特征提取和選擇,以獲得最優的空間濾波器,這將導致空間信息的部分損失,進而影響分類效果。
隨著深度學習技術的興起,卷積神經網絡(convolutional neural network,CNN)獲得廣泛關注和極大發展,特別是在計算機視覺[14]和自然語言處理[15]領域取得一系列成功應用。CNN 利用局部感受野的概念,通過分層卷積的結構設計能夠從原始特征模態隱式地學習出抽象特征,進而實現自動地特征抽取;另外,CNN 權值共享的特性有效減少了權值的規模,極大地降低了網絡模型的復雜程度[16]。相比于手工提取 EEG 信號特征方式,在很大程度上依賴于人工經驗和特征選擇過程,CNN 無需先驗知識就能從原始信號中自動提取和選擇出更為豐富、更具表征性的抽象特征,極大地降低了信號中蘊含信息的損失,同時 CNN 在特征提取中更為省時、省力,非常適用于時序 EEG 信號的特征學習和解碼。近年來,已有越來越多的文獻開展基于 CNN 的運動想象 EEG 解碼研究。Tang 等[17]利用設計的 5 層 CNN 對原始運動想象 EEG 信號(左右手兩類)進行特征學習和識別,結果顯示 CNN 能夠有效解碼運動想象意圖。孔祥浩等[18]提出融合 CSP 與 CNN 的運動想象 EEG 解碼方法,將 CSP 算法提取的 EEG 空間域特征作為 CNN 的輸入,利用 CNN 網絡學習特性對空間域特征進行二次篩選和分類,兩類運動想象 EEG 的平均識別率達 88.3%。Pérez-Zapata 等[19]提出將功率譜密度特征輸入到 CNN 網絡中,實現對左/右手、腳及舌頭運動想象 EEG 的分類。Sakhavi 等[20]利用濾波器組 CSP(filter bank CSP,FBCSP)和希爾伯特變換對原始運動想象 EEG 信號進行處理,引入新的時間表征特征,并提出三種 CNN 架構對這些時間特征進行學習和解碼,從而提高分類精度。胡章芳等[21]利用短時傅里葉變換提取原始 EEG 的二維時頻特征,并設計一維卷積結構的 CNN 網絡對時頻域特征進行抽取,利用 SVM 對 CNN 提取的特征進行分類,左右手兩類運動想象 EEG 的平均識別率為 86.5%。Schirrmeister 等[22]針對四類運動想象腦電信號設計了深層和淺層兩種結構的卷積神經網絡,并探討了不同網絡參數與學習算法對解碼性能的影響。Tabar 等[23]利用短時傅里葉變換將時域腦電信號轉換為頻域的二維(2 dimensionality,2D)功率譜特征圖像,設計了融合 CNN 與堆棧自編碼器(stacked autoencoders,SAE)的深度學習網絡,左右手運動想象 EEG 的平均解碼正確率達 75.1%。上述研究大多數都是對原始 EEG 信號在空間域、時域、頻域或時頻域進行預先特征提取,并利用 CNN 網絡學習預先設定的特征,而沒有充分利用原始 EEG 信號含有的時間和空間信息,同時這些研究在設計 CNN 網絡結構時忽略了原始 EEG 信號的時空變化特性。
為了充分利用原始 EEG 信號蘊含的時間和空間信息,本文提出一種基于運動想象 EEG 時空特征學習的卷積神經網絡解碼方法,以實現對原始 EEG 信號的時空特征抽取和識別。本文的貢獻主要包括:(1)根據運動想象 EEG 信號特性,在 CNN 網絡結構中依次設計時間、空間方向上的卷積層,構造運動想象 EEG 的時空特征;(2)利用 2 層二維卷積結構對腦電的時空特征進行抽象學習;(3)利用優化算法和正則化算法對 CNN 網絡結構和參數進行優化。所提方法與其他兩種經典識別方法(CSP + SVM 和 FBCSP + SVM)在 BCI 競賽的公開數據集上分別進行測試,并進行顯著性對比分析,以驗證本文所提方法的有效性。
1 數據來源與預處理
1.1 實驗測試數據集
本文研究在 BCI Competition IV-2a 公開數據集(http://www.bbci.de/competition/iv/)上進行實驗測試。該數據集由 9 名被試的四類運動想象 EEG 信號組成,包括想象左右手、腳及舌頭運動。每名被試進行兩組相同的采集實驗,通過 22 個 Ag/AgCl 電極以 250 Hz 采樣率記錄連續的 EEG 信號。在每組實驗中,針對每類進行 72 次運動想象任務,共計 288 次。如圖 1 所示,單次運動想象任務持續時間為 8 s,前 2 s 為準備階段,緊接著出現 1.25 s 的視覺提示,指示被試進行相應的運動想象任務至第 6 s 結束,然后被試進行 2 s 的休息以準備下一次運動想象任務。從連續采集的 EEG 數據中我們截取提示后 4 s 的數據作為單次運動想象 EEG 樣本,進而針對每個被試構造出大小為 22 × 1 000 × 576 的運動想象 EEG 數據樣本集。

1.2 數據預處理
為減少工頻干擾,原始 EEG 數據已經過 50 Hz 陷波濾波。因為與運動想象有關的 EEG 節律主要為 μ 節律和 β 節律[6],為進一步提高 EEG 的信噪比,我們采用 4 階零相位巴特沃斯帶通濾波器(8 ~ 30 Hz)對 EEG 數據進行濾波,去除基線漂移、眼動、頭動等偽跡干擾。此外,使用 EEGLAB 的 FastICA 工具箱(一種獨立元分析算法)對帶通濾波后的數據進行處理,以去除肌電、眼電及眨眼等噪聲[24]。
2 運動想象腦電解碼方法
2.1 經典解碼方法
EEG 信號反映的是大腦神經元放電在頭皮空間分布上的疊加,蘊含豐富的空間信息。而運動想象 EEG 的 ERD/ERS 現象又常常表現出空間差異性。為了從 EEG 信號中提取空間特征,研究者們提出 CSP 算法及其變種(如 FBCSP[25]、PCSP[26]、RCSP[10]等),并結合 SVM 分類器開展運動想象 EEG 的識別工作。因此,本文選擇 CSP + SVM 和 FBCSP + SVM 作為基準的經典識別方法,以便后續進行對比性研究。
2.1.1 CSP 算法
CSP 算法一般采用同時對角化方式來尋找一組最優的空間濾波器,實現一類 EEG 樣本協方差矩陣的最大化同時另一類 EEG 樣本協方差矩陣的最小化。通常,利用解廣義特征值方法選取 個最大特征值和
個最小特征值對應的特征向量來構造空間濾波器矩陣
。具體的算法過程可參考[10]。根據 CSP 算法可知,如何選取
是構造最優空間濾波器的關鍵。
越大,保留的空間特征信息越多,同時冗余信息增加,影響訓練速度和識別精度;
越小,信息損失越多,降低空間域特征的可分性。另外,CSP 算法本質上僅能解決兩類問題,對于多類別運動想象 EEG,需要一對一或一對多的策略分別訓練出空間濾波器矩陣。本文采用一對多的策略訓練出四個 CSP 空間濾波器矩陣,每個 CSP 的
設置為 4,構成最終的空間濾波器矩陣
。
2.1.2 FBCSP 算法
該算法是 CSP 算法的進一步擴展,主要由四個部分組成。首先,使用不同配置的帶通濾波器組將 EEG 信號分解到多個子頻帶;其次,針對每個子頻帶內的 EEG 信號進行 CSP 計算以提取空間濾波器;然后,將所有子頻帶提取的空間濾波器組合在一起,并對原始 EEG 信號進行空間濾波;最后,使用 log-variance 計算濾波后信號的空間特征。具體的算法過程可參考文獻[25]。本文使用 6 組切比雪夫Ⅱ型帶通濾波器將 8 ~ 30 Hz 的 EEG 信號分解到 4 ~ 7、8 ~ 11、12 ~ 15、16 ~ 19、20 ~ 23、24 ~ 27、28 ~ 30 Hz 頻帶內,并計算出 6 組 CSP 空間濾波器。
SVM 作為一類廣義線性分類器,以結構風險和 VC 維(Vapnik-Chervonenkis dimension,VCD)最小化為原則,通過尋找一個具有最大決策邊距的高維超平面來區分特征樣本,其具有良好的穩健性和泛化能力,非常適合處理小樣本 EEG 數據[27]。SVM 的高維超平面可通過求解一個凸二次規劃函數獲得。另外,由于 EEG 特征樣本往往具有非線性特點,因此 SVM 需要使用核函數映射方式來解決非線性分類問題[27]。本文使用徑向基核函數設計 SVM 分類器,并通過網格搜索和交叉驗證方法尋找最優的核函數參數(帶寬 )和正則項
。
2.2 基于時空特征學習的 CNN 解碼方法
CSP 算法及其變種提取的僅是 EEG 信號的空間域特征,而忽視了 EEG 信號的時域變化信息。為此,本文提出一種基于運動想象 EEG 時空特征學習的卷積神經網絡解碼方法(temporal-spatial CNN,TSCNN),利用局部感受野和權值共享的特性,通過設計時間和空間方向上的卷積結構實現對原始運動想象 EEG 信號的時空特征提取,并利用 2 層二維卷積結構對時空特征進行抽象學習。整體網絡結構由 4 部分組成(如圖 2 所示):第一部分是輸入層;第二部分是時間-空間一維卷積-Pooling 模塊;第三部分是二維卷積-Pooling 模塊;第四部分為全連接層和 Softmax 輸出層。圖 2 給出的是本文所提 TSCNN 網絡的一個示例,其中的網絡結構和參數需要進一步優化,包括卷積核大小、卷積步長、Pooling 大小和步長以及各層隱含節點數目等。

(1)輸入層:本文使用預處理后的原始運動想象 EEG 數據作為輸入,每個 EEG 樣本為 22 × 1 000 的數據矩陣,其中 22 為通道數(代表 EEG 的空間信息),1 000 為每個通道記錄的采樣點(代表 EEG 的時間信息)。
(2)時間-空間一維卷積-Pooling 模塊:該模塊主要作用是從 EEG 數據中提取初級的時空特征。采用一維卷積結構依次從時間方向和空間方向對 EEG 數據進行卷積運算。為減少參數和防止過擬合風險,卷積層 1 的卷積核大小與卷積步長設置相同,如使用 25 個 1 × 5 的卷積核以 5 步長對 EEG 進行時間方向上的卷積,獲得 25 個大小為 22 × 200 的特征圖;然后,在空間方向上以大小為 22 × 1 的卷積核進行空間卷積,獲得 25 個 1 × 200 的特征圖;最后,依次進行平方運算、Mean Pooling 層降采樣和對數運算,獲得 EEG 樣本的時空特征圖。本部分各卷積層的激活函數設置為指數線性單元(exponential linear units,ELUs),以提升時間-空間一維卷積-Pooling 模塊對 EEG 信號輸入噪聲的魯棒性。
(3)二維卷積-Pooling 模塊:該模塊主要作用是對提取的 EEG 時空特征圖進行抽象學習。采用 2 層二維卷積結構對時空特征圖進行分層卷積,并利用 Max Pooling 層進行降采樣,獲得更高級的時空抽象特征,如圖 2 所示,40 個 1 × 4 的時空抽象特征圖。本部分設置 Max Pooling 層的池化窗口大小和步長相同,同時各卷積層的激活函數設置為修正線性單元(rectified linear units,ReLUs),以降低二維卷積-Pooling 模塊計算量、加快收斂速度并且緩解梯度消失和過擬合問題的發生[28]。
(4)全連接層和 Softmax 輸出層:該部分主要功能是對學習的時空抽象特征進行分類。首先,將抽取的時空特征圖拉直為一個特征向量,輸入到全連接層,該層神經元個數設置為 120 個,神經元的激活函數為 ReLU;然后,在輸出層利用 Softmax 邏輯回歸進行分類,該層神經元個數設置為 4 個,其中每個神經元對應一個運動想象 EEG 類別。
(5)TSCNN 網絡訓練與優化:為了聯合訓練 TSCNN 網絡的連接權重和偏置,同時實現網絡的有效收斂,需要定義一個優化函數,即網絡的損失函數。假設 TSCNN 網絡可以表示為由輸入 EEG 數據 到每類值的映射函數
,其中
為網絡的所有待優化參數,
為輸出類別數。利用 Softmax 函數,可以計算出給定輸入
在不同類別標簽
下的條件概率
。那么,
的優化目標可以定義為最小化所有樣本的損失之和。根據反向傳播算法,采用小批量隨機梯度下降法(mini-batch stochastic gradient descent)對 TSCNN 網絡的連接權重和偏置進行更新與優化[28]。另外,為加速網絡訓練并獲得更好的訓練效果,在每層卷積前后分別加入批歸一化(batch normalization)操作和 50% 概率的 Dropout 操作。
2.3 評價指標及統計方法
在每個被試的運動想象 EEG 數據集上,分別訓練 CSP + SVM、FBCSP + SVM 和本文所提 TSCNN 的分類模型。每個被試的數據集分成 60% 的訓練集、20% 的驗證集和 20% 的測試集。訓練集用來構建分類模型,驗證集用來優化模型參數,測試集用來評價模型的分類效果。評價指標主要包括:① 針對 3 種解碼模型,分別統計各個被試數據的總體識別正確率,即正確預測類別數與總體類別數的比值。② Kappa 系數是一種衡量分類一致性的量值,表征著分類與完全隨機的分類產生錯誤減少的比率,計算公式如下[20, 29]:
![]() |
其中, 為總體識別正確率,
為完全隨機的分類正確率(對于本文四分類問題,則
)。③ 計算每類識別結果組成的混淆矩陣,該矩陣反映了每類運動想象 EEG 被正確分類的比率以及被錯誤分類的比率。此外,為了對比 3 種解碼方法的顯著性差異,我們采用威爾科克符號秩檢驗(Wilcoxon signed-rank test)進行顯著性檢驗。
3 實驗結果與分析
3.1 TSCNN 網絡結構參數選擇
針對每個被試的運動想象 EEG 數據集,利用 10 折交叉驗證方式對 TSCNN 網絡結構的超參數進行選擇,主要包括卷積層的卷積核大小和步長、Pooling 層大小和步長以及卷積層節點數目等。為了簡化超參數選擇過程,我們設定了各層參數的可選范圍(如表 1 所示),并采用坐標下降法(coordinate descent)在每次迭代中針對某一個參數進行一維搜索[30]。

表 2 給出每個被試數據經過交叉驗證訓練,平均分類正確率最高時的網絡結構參數。從表 2 可知,當網絡結構配置為卷積層 1:{1 × 5 / 1 × 5};卷積層 2:{22 × 1 / 1 × 1};Mean Pooling 層:{1 × 2 / 1 × 2};卷積層 3:{25 × 2 / 1 × 2};Max Pooling-1:{1 × 2 / 1 × 2};卷積層 4:{30 × 3 / 1 × 2};Max Pooling-2:{1 × 3 / 1 × 3};各卷積層隱含節點數目:{25, 25, 30, 40}時,TSCNN 網絡能夠獲得更好的分類正確率。另外,從卷積層 1 的結構參數看,卷積核及步長越小,網絡的識別率越小,這說明卷積層 1 學習的時間特征信息越少,導致網絡抽取的時空特征較差,影響網絡后續的分類效果。

3.2 三種解碼方法的結果對比
根據表 2,我們構建出每個被試的 TSCNN 網絡結構,并訓練出各自的識別模型。同時,在相同的數據集上,分別訓練 CSP + SVM 和 FBCSP + SVM 方法的識別模型。本文 CSP + SVM 和 FBCSP + SVM 方法的基本參數如表 3 所示。表 4 給出所有被試在 3 種分類模型下的識別率和相應的 Kappa 系數結果。目前,在 BCI Competition IV-2a 公開數據集上排名第一的競賽結果為平均分類識別率達 67.75% 和平均 Kappa 系數為 0.570(http://bbci.de/competition/iv/results/),而本文 CSP + SVM 和 FBCSP + SVM 方法獲得的結果與之相當,說明訓練的 CSP + SVM 和 FBCSP + SVM 識別模型已達到最優結果。從整體上看,與傳統的 CSP + SVM 和 FBCSP + SVM 方法相比,本文所提 TSCNN 解碼方法能夠顯著提高 EEG 的識別率和 Kappa 系數。TSCNN 的平均解碼精度達到 80.09%,比 CSP + SVM 和 FBCSP + SVM 分別提高了 13.75% 和 10.99%。同時,對于單個被試如 3 和 9,TSCNN 可達到的最高識別率分別為 92.75% 和 92.80%。從統計學角度看,相比于 CSP + SVM 和 FBCSP + SVM 方法,TSCNN 解碼方法對識別率具有顯著影響(P < 0.01 和 P < 0.05,Wilcoxon signed-rank test)。這說明對于運動想象 EEG 時空特征的學習有助于提升信號的識別率。此外,TSCNN 方法獲得的 Kappa 系數大多位于 0.6 ~ 0.9 之間,且均值為 0.735,表明該解碼方法具有高度的一致性。然而,CSP + SVM 和 FBCSP + SVM 方法計算的 Kappa 系數均值都小于 0.6,說明這些方法僅具有一般或中等的一致性。類似地,從統計學角度看,相比于 CSP + SVM 和 FBCSP + SVM 方法,TSCNN 解碼方法能夠顯著提升 Kappa 系數(P < 0.001 和 P < 0.001,Wilcoxon signed-rank test)。這進一步驗證了本文所提方法的有效性。


3.3 混淆矩陣結果分析
為進一步分析所提方法對每類運動想象 EEG 識別效果的影響,我們計算出所有被試數據集在 3 種識別方法下的平均混淆矩陣。如圖 3 所示,混淆矩陣的橫軸代表識別方法預測的運動想象類別,縱軸代表實際的運動想象類別,對角線元素表示各運動想象類別被正確分類的比率,而非對角線元素表示各運動想象類別被錯誤分類的比率。從圖 3a、3b 可以看出,CSP + SVM 和 FBCSP + SVM 方法在左手、右手及腳部運動想象 EEG 的識別率均小于 70%。尤其是對左右手運動想象的分類,CSP + SVM 的誤分率分別達到 20.15% 和 22.20%,而 FBCSP + SVM 的誤分率分別為 18.10% 和 19.85%,均高于其他兩類的誤分率。這可能是由于左右手運動想象占據相同的運動感覺區,導致 EEG 的空間分辨率較低,另外 CSP 和 FBCSP 提取的空間特征可分性有限,從而無法進一步提升 EEG 的識別率。本文所提 TSCNN 方法能夠顯著降低左右手運動想象 EEG 的誤分率,而左右手的識別率分別提升至 80.26% 和 79.60%。這說明相比于 CSP + SVM 和 FBCSP + SVM 方法,TSCNN 方法不僅能夠學習 EEG 的時間特征,還能進一步抽取 EEG 的空間特征,以提升左右手運動想象 EEG 的空間分辨率。另外,通過深度卷積計算,TSCNN 方法可以從原始 EEG 信號中自適應地學習可分性更強的時空特征,從而提升每個運動想象類別的識別率。

a. CSP + SVM;b. FBCSP + SVM;c. TSCNN
Figure3. The confusion matrix for motor imagery EEG classes by three decoding methodsa. CSP + SVM; b. FBCSP + SVM; c. TSCNN
3.4 其他方法與結果對比
為進一步驗證所提 TSCNN 方法的有效性,在 BCI Competition IV-2a 公開數據集上還開展了一些其他基于深度學習方法的對比實驗。這些基于深度學習方法的網絡結構與參數均是根據文獻中的設定而來。表 5 列出本文方法與經典的 CSP + SVM 和 FBCSP + SVM 方法以及其他深度學習方法的平均解碼性能結果。從表 5 整體上可以看出,相比經典的 CSP + SVM 和 FBCSP + SVM 方法,基于深度學習的方法在識別率和 Kappa 系數上都有顯著的提升。然而,在算法的兩個運行時間指標上看,基于深度學習的方法均比經典方法耗時,尤其訓練集運行時間是經典方法的 5 倍以上。這歸因于深度學習方法在訓練神經網絡各層參數過程中需要花費大量時間。Schirrmeister 等[22]設計的深層(DeepCNN)和淺層(ShallowCNN)兩種卷積神經網絡結構由于卷積層沒有充分考慮 EEG 信號的時域和空間域特性,在四類運動想象 EEG 公開數據集上測試的平均解碼識別率僅為 70.10% 和 71.90%,Kappa 系數也比其他深度學習方法較低。雖然 Pérez-Zapata 等[19]以頻域功率譜密度作為 EEG 信號的特征,結合設計的 9 層深度卷積神經網絡(PSD + CNN),對四類運動想象 EEG 信號的平均解碼精度能夠達到 87.97%,但是由于其網絡結構較為復雜、優化參數較多、計算量較大,導致算法的運行時間較長,不適合 EEG 信號的在線解碼應用。本文所提 TSCNN 方法不僅能夠獲得較高的解碼識別率和 Kappa 系數,同時在運行時間上均比其他基于深度學習的方法要低,尤其測試集運行時間(18.04 s)與經典的 FBCSP + SVM 方法(16.95 s)基本相當。這說明相較于其他深度學習網絡模型,本文方法能夠兼顧分類正確率和分類效率,更適合在線解碼應用。

4 討論與結論
本研究主要通過依次設計時間和空間方向上的一維卷積層,從運動想象 EEG 信號中提取時域和空間域特征,并結合 2 層二維卷積結構對 EEG 的時空特征進行聯合學習,最后利用全連接層和 Softmax 層實現對四類運動想象 EEG 信號的分類識別。如表 4 所示,本文所提 TSCNN 的平均解碼精度(80.09%)和 Kappa 系數(0.735)均顯著優于經典的 CSP + SVM 和 FBCSP + SVM 方法,整體識別率分別提高了 13.75% 和 10.99%。結合表 1 和表 2 所示可知,TSCNN 網絡的解碼性能受卷積層 1 的參數影響較大,從 EEG 信號提取的時域特征信息越多,TSCNN 網絡的解碼精度越高。此外,從圖 3 結果來看,與 CSP + SVM 和 FBCSP + SVM 方法相比,TSCNN 顯著降低了四類運動想象 EEG 的誤分率,尤其對于左右手運動想象 EEG 的誤分率均小于 10%。這說明,相比于 CSP 和 FBCSP 手工提取空間特征的方法,TSCNN 網絡在抽取 EEG 信號空間特征上顯示出一定的優越性。相比于其他基于深度學習的方法,本文所提 TSCNN 方法不僅能夠學習運動想象 EEG 信號的時空特征,進而獲得較高的解碼精度和 Kappa 系數,而且由于設計的網絡結構更為簡單、優化參數較少,算法運行所需時間更短,訓練的網絡模型更加適合運動想象 EEG 的在線解碼。
綜上所述,本研究所提基于時空特征學習的卷積神經網絡結構能夠從 EEG 信號中抽取可分性更強的時空特征,進而提升運動想象 EEG 解碼的準確性和可靠性,為基于運動想象的腦-機接口系統應用提供一種新的算法設計思路。目前本研究所設計的深度卷積神經網絡結構只在 8 ~ 30 Hz 頻帶內抽取腦電的時空特征,下一步將嘗試結合 EEG 的頻域特征進一步設計基于時-頻-空域特征學習的深度卷積神經網絡,實現對運動想象 EEG 的時-頻-空域特征聯合學習,提升 EEG 信號的解碼精度。同時,探索卷積層神經元輸出的可視化方法,解釋卷積神經網絡學習的時域、頻域及空間域特征,為優化網絡結構和參數配置提供重要參考依據。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
機器學習技術能夠從腦電圖(electroencephalogram,EEG)記錄的大腦活動中提取有用信息,因此其在基于 EEG 的腦電研究和應用領域起著至關重要的作用。腦-機接口(brain-computer interface,BCI)系統作為一種新穎的人機交互手段,正是利用機器學習技術解碼用戶意圖從而實現對外部環境或設備的控制,如腦控神經假肢[1]、外骨骼機器人[2]、機械臂[3]和無人機[4]等。
相比于誘發型腦電模態,如穩態視覺誘發電位(steady-state visually evoked potentials,SSVEP)和 P300,運動想象腦電等具有自發性和本質自然性,更適合作為腦-機接口系統的控制信號[5]。當執行單側肢體運動想象任務時,大腦對側運動感覺區的神經活動降低,導致 μ 節律(8 ~ 12 Hz)和 β 節律(13 ~ 30 Hz)的頻譜能量減小;而大腦同側運動感覺區的神經活動增強,導致 μ 節律和 β 節律的頻譜能量上升,這種電生理現象被稱為事件相關去同步(event-related desynchronization,ERD)和事件相關同步(event-related synchronization,ERS)[6]。利用 ERS/ERD 現象,研究者們提出大量的機器學習方法用來解碼運動想象腦電信號,包括用于提取時間域、頻域和空間域特征的自回歸模型、小波變換、頻帶能量、共空間模式(common spatial pattern,CSP)及其變種等算法[7-10]以及用于分類的線性判別分析、支持向量機(support vector machine,SVM)、BP 神經網絡(back propagation neural network,BPNN)、極限學習機等分類器[11-13]。作為一種有效的空間濾波算法,CSP 已成為運動想象 EEG 解碼的基準算法,它通過尋找一組最優的空間線性變換,獲得具有最大可分性的空間域特征,進而最大化不同運動想象類別之間的距離。但是,該算法僅考慮了 EEG 信號的空間信息,而忽略了其中蘊含豐富的時間信息。此外,CSP 算法需要進行人工的特征提取和選擇,以獲得最優的空間濾波器,這將導致空間信息的部分損失,進而影響分類效果。
隨著深度學習技術的興起,卷積神經網絡(convolutional neural network,CNN)獲得廣泛關注和極大發展,特別是在計算機視覺[14]和自然語言處理[15]領域取得一系列成功應用。CNN 利用局部感受野的概念,通過分層卷積的結構設計能夠從原始特征模態隱式地學習出抽象特征,進而實現自動地特征抽取;另外,CNN 權值共享的特性有效減少了權值的規模,極大地降低了網絡模型的復雜程度[16]。相比于手工提取 EEG 信號特征方式,在很大程度上依賴于人工經驗和特征選擇過程,CNN 無需先驗知識就能從原始信號中自動提取和選擇出更為豐富、更具表征性的抽象特征,極大地降低了信號中蘊含信息的損失,同時 CNN 在特征提取中更為省時、省力,非常適用于時序 EEG 信號的特征學習和解碼。近年來,已有越來越多的文獻開展基于 CNN 的運動想象 EEG 解碼研究。Tang 等[17]利用設計的 5 層 CNN 對原始運動想象 EEG 信號(左右手兩類)進行特征學習和識別,結果顯示 CNN 能夠有效解碼運動想象意圖。孔祥浩等[18]提出融合 CSP 與 CNN 的運動想象 EEG 解碼方法,將 CSP 算法提取的 EEG 空間域特征作為 CNN 的輸入,利用 CNN 網絡學習特性對空間域特征進行二次篩選和分類,兩類運動想象 EEG 的平均識別率達 88.3%。Pérez-Zapata 等[19]提出將功率譜密度特征輸入到 CNN 網絡中,實現對左/右手、腳及舌頭運動想象 EEG 的分類。Sakhavi 等[20]利用濾波器組 CSP(filter bank CSP,FBCSP)和希爾伯特變換對原始運動想象 EEG 信號進行處理,引入新的時間表征特征,并提出三種 CNN 架構對這些時間特征進行學習和解碼,從而提高分類精度。胡章芳等[21]利用短時傅里葉變換提取原始 EEG 的二維時頻特征,并設計一維卷積結構的 CNN 網絡對時頻域特征進行抽取,利用 SVM 對 CNN 提取的特征進行分類,左右手兩類運動想象 EEG 的平均識別率為 86.5%。Schirrmeister 等[22]針對四類運動想象腦電信號設計了深層和淺層兩種結構的卷積神經網絡,并探討了不同網絡參數與學習算法對解碼性能的影響。Tabar 等[23]利用短時傅里葉變換將時域腦電信號轉換為頻域的二維(2 dimensionality,2D)功率譜特征圖像,設計了融合 CNN 與堆棧自編碼器(stacked autoencoders,SAE)的深度學習網絡,左右手運動想象 EEG 的平均解碼正確率達 75.1%。上述研究大多數都是對原始 EEG 信號在空間域、時域、頻域或時頻域進行預先特征提取,并利用 CNN 網絡學習預先設定的特征,而沒有充分利用原始 EEG 信號含有的時間和空間信息,同時這些研究在設計 CNN 網絡結構時忽略了原始 EEG 信號的時空變化特性。
為了充分利用原始 EEG 信號蘊含的時間和空間信息,本文提出一種基于運動想象 EEG 時空特征學習的卷積神經網絡解碼方法,以實現對原始 EEG 信號的時空特征抽取和識別。本文的貢獻主要包括:(1)根據運動想象 EEG 信號特性,在 CNN 網絡結構中依次設計時間、空間方向上的卷積層,構造運動想象 EEG 的時空特征;(2)利用 2 層二維卷積結構對腦電的時空特征進行抽象學習;(3)利用優化算法和正則化算法對 CNN 網絡結構和參數進行優化。所提方法與其他兩種經典識別方法(CSP + SVM 和 FBCSP + SVM)在 BCI 競賽的公開數據集上分別進行測試,并進行顯著性對比分析,以驗證本文所提方法的有效性。
1 數據來源與預處理
1.1 實驗測試數據集
本文研究在 BCI Competition IV-2a 公開數據集(http://www.bbci.de/competition/iv/)上進行實驗測試。該數據集由 9 名被試的四類運動想象 EEG 信號組成,包括想象左右手、腳及舌頭運動。每名被試進行兩組相同的采集實驗,通過 22 個 Ag/AgCl 電極以 250 Hz 采樣率記錄連續的 EEG 信號。在每組實驗中,針對每類進行 72 次運動想象任務,共計 288 次。如圖 1 所示,單次運動想象任務持續時間為 8 s,前 2 s 為準備階段,緊接著出現 1.25 s 的視覺提示,指示被試進行相應的運動想象任務至第 6 s 結束,然后被試進行 2 s 的休息以準備下一次運動想象任務。從連續采集的 EEG 數據中我們截取提示后 4 s 的數據作為單次運動想象 EEG 樣本,進而針對每個被試構造出大小為 22 × 1 000 × 576 的運動想象 EEG 數據樣本集。

1.2 數據預處理
為減少工頻干擾,原始 EEG 數據已經過 50 Hz 陷波濾波。因為與運動想象有關的 EEG 節律主要為 μ 節律和 β 節律[6],為進一步提高 EEG 的信噪比,我們采用 4 階零相位巴特沃斯帶通濾波器(8 ~ 30 Hz)對 EEG 數據進行濾波,去除基線漂移、眼動、頭動等偽跡干擾。此外,使用 EEGLAB 的 FastICA 工具箱(一種獨立元分析算法)對帶通濾波后的數據進行處理,以去除肌電、眼電及眨眼等噪聲[24]。
2 運動想象腦電解碼方法
2.1 經典解碼方法
EEG 信號反映的是大腦神經元放電在頭皮空間分布上的疊加,蘊含豐富的空間信息。而運動想象 EEG 的 ERD/ERS 現象又常常表現出空間差異性。為了從 EEG 信號中提取空間特征,研究者們提出 CSP 算法及其變種(如 FBCSP[25]、PCSP[26]、RCSP[10]等),并結合 SVM 分類器開展運動想象 EEG 的識別工作。因此,本文選擇 CSP + SVM 和 FBCSP + SVM 作為基準的經典識別方法,以便后續進行對比性研究。
2.1.1 CSP 算法
CSP 算法一般采用同時對角化方式來尋找一組最優的空間濾波器,實現一類 EEG 樣本協方差矩陣的最大化同時另一類 EEG 樣本協方差矩陣的最小化。通常,利用解廣義特征值方法選取 個最大特征值和
個最小特征值對應的特征向量來構造空間濾波器矩陣
。具體的算法過程可參考[10]。根據 CSP 算法可知,如何選取
是構造最優空間濾波器的關鍵。
越大,保留的空間特征信息越多,同時冗余信息增加,影響訓練速度和識別精度;
越小,信息損失越多,降低空間域特征的可分性。另外,CSP 算法本質上僅能解決兩類問題,對于多類別運動想象 EEG,需要一對一或一對多的策略分別訓練出空間濾波器矩陣。本文采用一對多的策略訓練出四個 CSP 空間濾波器矩陣,每個 CSP 的
設置為 4,構成最終的空間濾波器矩陣
。
2.1.2 FBCSP 算法
該算法是 CSP 算法的進一步擴展,主要由四個部分組成。首先,使用不同配置的帶通濾波器組將 EEG 信號分解到多個子頻帶;其次,針對每個子頻帶內的 EEG 信號進行 CSP 計算以提取空間濾波器;然后,將所有子頻帶提取的空間濾波器組合在一起,并對原始 EEG 信號進行空間濾波;最后,使用 log-variance 計算濾波后信號的空間特征。具體的算法過程可參考文獻[25]。本文使用 6 組切比雪夫Ⅱ型帶通濾波器將 8 ~ 30 Hz 的 EEG 信號分解到 4 ~ 7、8 ~ 11、12 ~ 15、16 ~ 19、20 ~ 23、24 ~ 27、28 ~ 30 Hz 頻帶內,并計算出 6 組 CSP 空間濾波器。
SVM 作為一類廣義線性分類器,以結構風險和 VC 維(Vapnik-Chervonenkis dimension,VCD)最小化為原則,通過尋找一個具有最大決策邊距的高維超平面來區分特征樣本,其具有良好的穩健性和泛化能力,非常適合處理小樣本 EEG 數據[27]。SVM 的高維超平面可通過求解一個凸二次規劃函數獲得。另外,由于 EEG 特征樣本往往具有非線性特點,因此 SVM 需要使用核函數映射方式來解決非線性分類問題[27]。本文使用徑向基核函數設計 SVM 分類器,并通過網格搜索和交叉驗證方法尋找最優的核函數參數(帶寬 )和正則項
。
2.2 基于時空特征學習的 CNN 解碼方法
CSP 算法及其變種提取的僅是 EEG 信號的空間域特征,而忽視了 EEG 信號的時域變化信息。為此,本文提出一種基于運動想象 EEG 時空特征學習的卷積神經網絡解碼方法(temporal-spatial CNN,TSCNN),利用局部感受野和權值共享的特性,通過設計時間和空間方向上的卷積結構實現對原始運動想象 EEG 信號的時空特征提取,并利用 2 層二維卷積結構對時空特征進行抽象學習。整體網絡結構由 4 部分組成(如圖 2 所示):第一部分是輸入層;第二部分是時間-空間一維卷積-Pooling 模塊;第三部分是二維卷積-Pooling 模塊;第四部分為全連接層和 Softmax 輸出層。圖 2 給出的是本文所提 TSCNN 網絡的一個示例,其中的網絡結構和參數需要進一步優化,包括卷積核大小、卷積步長、Pooling 大小和步長以及各層隱含節點數目等。

(1)輸入層:本文使用預處理后的原始運動想象 EEG 數據作為輸入,每個 EEG 樣本為 22 × 1 000 的數據矩陣,其中 22 為通道數(代表 EEG 的空間信息),1 000 為每個通道記錄的采樣點(代表 EEG 的時間信息)。
(2)時間-空間一維卷積-Pooling 模塊:該模塊主要作用是從 EEG 數據中提取初級的時空特征。采用一維卷積結構依次從時間方向和空間方向對 EEG 數據進行卷積運算。為減少參數和防止過擬合風險,卷積層 1 的卷積核大小與卷積步長設置相同,如使用 25 個 1 × 5 的卷積核以 5 步長對 EEG 進行時間方向上的卷積,獲得 25 個大小為 22 × 200 的特征圖;然后,在空間方向上以大小為 22 × 1 的卷積核進行空間卷積,獲得 25 個 1 × 200 的特征圖;最后,依次進行平方運算、Mean Pooling 層降采樣和對數運算,獲得 EEG 樣本的時空特征圖。本部分各卷積層的激活函數設置為指數線性單元(exponential linear units,ELUs),以提升時間-空間一維卷積-Pooling 模塊對 EEG 信號輸入噪聲的魯棒性。
(3)二維卷積-Pooling 模塊:該模塊主要作用是對提取的 EEG 時空特征圖進行抽象學習。采用 2 層二維卷積結構對時空特征圖進行分層卷積,并利用 Max Pooling 層進行降采樣,獲得更高級的時空抽象特征,如圖 2 所示,40 個 1 × 4 的時空抽象特征圖。本部分設置 Max Pooling 層的池化窗口大小和步長相同,同時各卷積層的激活函數設置為修正線性單元(rectified linear units,ReLUs),以降低二維卷積-Pooling 模塊計算量、加快收斂速度并且緩解梯度消失和過擬合問題的發生[28]。
(4)全連接層和 Softmax 輸出層:該部分主要功能是對學習的時空抽象特征進行分類。首先,將抽取的時空特征圖拉直為一個特征向量,輸入到全連接層,該層神經元個數設置為 120 個,神經元的激活函數為 ReLU;然后,在輸出層利用 Softmax 邏輯回歸進行分類,該層神經元個數設置為 4 個,其中每個神經元對應一個運動想象 EEG 類別。
(5)TSCNN 網絡訓練與優化:為了聯合訓練 TSCNN 網絡的連接權重和偏置,同時實現網絡的有效收斂,需要定義一個優化函數,即網絡的損失函數。假設 TSCNN 網絡可以表示為由輸入 EEG 數據 到每類值的映射函數
,其中
為網絡的所有待優化參數,
為輸出類別數。利用 Softmax 函數,可以計算出給定輸入
在不同類別標簽
下的條件概率
。那么,
的優化目標可以定義為最小化所有樣本的損失之和。根據反向傳播算法,采用小批量隨機梯度下降法(mini-batch stochastic gradient descent)對 TSCNN 網絡的連接權重和偏置進行更新與優化[28]。另外,為加速網絡訓練并獲得更好的訓練效果,在每層卷積前后分別加入批歸一化(batch normalization)操作和 50% 概率的 Dropout 操作。
2.3 評價指標及統計方法
在每個被試的運動想象 EEG 數據集上,分別訓練 CSP + SVM、FBCSP + SVM 和本文所提 TSCNN 的分類模型。每個被試的數據集分成 60% 的訓練集、20% 的驗證集和 20% 的測試集。訓練集用來構建分類模型,驗證集用來優化模型參數,測試集用來評價模型的分類效果。評價指標主要包括:① 針對 3 種解碼模型,分別統計各個被試數據的總體識別正確率,即正確預測類別數與總體類別數的比值。② Kappa 系數是一種衡量分類一致性的量值,表征著分類與完全隨機的分類產生錯誤減少的比率,計算公式如下[20, 29]:
![]() |
其中, 為總體識別正確率,
為完全隨機的分類正確率(對于本文四分類問題,則
)。③ 計算每類識別結果組成的混淆矩陣,該矩陣反映了每類運動想象 EEG 被正確分類的比率以及被錯誤分類的比率。此外,為了對比 3 種解碼方法的顯著性差異,我們采用威爾科克符號秩檢驗(Wilcoxon signed-rank test)進行顯著性檢驗。
3 實驗結果與分析
3.1 TSCNN 網絡結構參數選擇
針對每個被試的運動想象 EEG 數據集,利用 10 折交叉驗證方式對 TSCNN 網絡結構的超參數進行選擇,主要包括卷積層的卷積核大小和步長、Pooling 層大小和步長以及卷積層節點數目等。為了簡化超參數選擇過程,我們設定了各層參數的可選范圍(如表 1 所示),并采用坐標下降法(coordinate descent)在每次迭代中針對某一個參數進行一維搜索[30]。

表 2 給出每個被試數據經過交叉驗證訓練,平均分類正確率最高時的網絡結構參數。從表 2 可知,當網絡結構配置為卷積層 1:{1 × 5 / 1 × 5};卷積層 2:{22 × 1 / 1 × 1};Mean Pooling 層:{1 × 2 / 1 × 2};卷積層 3:{25 × 2 / 1 × 2};Max Pooling-1:{1 × 2 / 1 × 2};卷積層 4:{30 × 3 / 1 × 2};Max Pooling-2:{1 × 3 / 1 × 3};各卷積層隱含節點數目:{25, 25, 30, 40}時,TSCNN 網絡能夠獲得更好的分類正確率。另外,從卷積層 1 的結構參數看,卷積核及步長越小,網絡的識別率越小,這說明卷積層 1 學習的時間特征信息越少,導致網絡抽取的時空特征較差,影響網絡后續的分類效果。

3.2 三種解碼方法的結果對比
根據表 2,我們構建出每個被試的 TSCNN 網絡結構,并訓練出各自的識別模型。同時,在相同的數據集上,分別訓練 CSP + SVM 和 FBCSP + SVM 方法的識別模型。本文 CSP + SVM 和 FBCSP + SVM 方法的基本參數如表 3 所示。表 4 給出所有被試在 3 種分類模型下的識別率和相應的 Kappa 系數結果。目前,在 BCI Competition IV-2a 公開數據集上排名第一的競賽結果為平均分類識別率達 67.75% 和平均 Kappa 系數為 0.570(http://bbci.de/competition/iv/results/),而本文 CSP + SVM 和 FBCSP + SVM 方法獲得的結果與之相當,說明訓練的 CSP + SVM 和 FBCSP + SVM 識別模型已達到最優結果。從整體上看,與傳統的 CSP + SVM 和 FBCSP + SVM 方法相比,本文所提 TSCNN 解碼方法能夠顯著提高 EEG 的識別率和 Kappa 系數。TSCNN 的平均解碼精度達到 80.09%,比 CSP + SVM 和 FBCSP + SVM 分別提高了 13.75% 和 10.99%。同時,對于單個被試如 3 和 9,TSCNN 可達到的最高識別率分別為 92.75% 和 92.80%。從統計學角度看,相比于 CSP + SVM 和 FBCSP + SVM 方法,TSCNN 解碼方法對識別率具有顯著影響(P < 0.01 和 P < 0.05,Wilcoxon signed-rank test)。這說明對于運動想象 EEG 時空特征的學習有助于提升信號的識別率。此外,TSCNN 方法獲得的 Kappa 系數大多位于 0.6 ~ 0.9 之間,且均值為 0.735,表明該解碼方法具有高度的一致性。然而,CSP + SVM 和 FBCSP + SVM 方法計算的 Kappa 系數均值都小于 0.6,說明這些方法僅具有一般或中等的一致性。類似地,從統計學角度看,相比于 CSP + SVM 和 FBCSP + SVM 方法,TSCNN 解碼方法能夠顯著提升 Kappa 系數(P < 0.001 和 P < 0.001,Wilcoxon signed-rank test)。這進一步驗證了本文所提方法的有效性。


3.3 混淆矩陣結果分析
為進一步分析所提方法對每類運動想象 EEG 識別效果的影響,我們計算出所有被試數據集在 3 種識別方法下的平均混淆矩陣。如圖 3 所示,混淆矩陣的橫軸代表識別方法預測的運動想象類別,縱軸代表實際的運動想象類別,對角線元素表示各運動想象類別被正確分類的比率,而非對角線元素表示各運動想象類別被錯誤分類的比率。從圖 3a、3b 可以看出,CSP + SVM 和 FBCSP + SVM 方法在左手、右手及腳部運動想象 EEG 的識別率均小于 70%。尤其是對左右手運動想象的分類,CSP + SVM 的誤分率分別達到 20.15% 和 22.20%,而 FBCSP + SVM 的誤分率分別為 18.10% 和 19.85%,均高于其他兩類的誤分率。這可能是由于左右手運動想象占據相同的運動感覺區,導致 EEG 的空間分辨率較低,另外 CSP 和 FBCSP 提取的空間特征可分性有限,從而無法進一步提升 EEG 的識別率。本文所提 TSCNN 方法能夠顯著降低左右手運動想象 EEG 的誤分率,而左右手的識別率分別提升至 80.26% 和 79.60%。這說明相比于 CSP + SVM 和 FBCSP + SVM 方法,TSCNN 方法不僅能夠學習 EEG 的時間特征,還能進一步抽取 EEG 的空間特征,以提升左右手運動想象 EEG 的空間分辨率。另外,通過深度卷積計算,TSCNN 方法可以從原始 EEG 信號中自適應地學習可分性更強的時空特征,從而提升每個運動想象類別的識別率。

a. CSP + SVM;b. FBCSP + SVM;c. TSCNN
Figure3. The confusion matrix for motor imagery EEG classes by three decoding methodsa. CSP + SVM; b. FBCSP + SVM; c. TSCNN
3.4 其他方法與結果對比
為進一步驗證所提 TSCNN 方法的有效性,在 BCI Competition IV-2a 公開數據集上還開展了一些其他基于深度學習方法的對比實驗。這些基于深度學習方法的網絡結構與參數均是根據文獻中的設定而來。表 5 列出本文方法與經典的 CSP + SVM 和 FBCSP + SVM 方法以及其他深度學習方法的平均解碼性能結果。從表 5 整體上可以看出,相比經典的 CSP + SVM 和 FBCSP + SVM 方法,基于深度學習的方法在識別率和 Kappa 系數上都有顯著的提升。然而,在算法的兩個運行時間指標上看,基于深度學習的方法均比經典方法耗時,尤其訓練集運行時間是經典方法的 5 倍以上。這歸因于深度學習方法在訓練神經網絡各層參數過程中需要花費大量時間。Schirrmeister 等[22]設計的深層(DeepCNN)和淺層(ShallowCNN)兩種卷積神經網絡結構由于卷積層沒有充分考慮 EEG 信號的時域和空間域特性,在四類運動想象 EEG 公開數據集上測試的平均解碼識別率僅為 70.10% 和 71.90%,Kappa 系數也比其他深度學習方法較低。雖然 Pérez-Zapata 等[19]以頻域功率譜密度作為 EEG 信號的特征,結合設計的 9 層深度卷積神經網絡(PSD + CNN),對四類運動想象 EEG 信號的平均解碼精度能夠達到 87.97%,但是由于其網絡結構較為復雜、優化參數較多、計算量較大,導致算法的運行時間較長,不適合 EEG 信號的在線解碼應用。本文所提 TSCNN 方法不僅能夠獲得較高的解碼識別率和 Kappa 系數,同時在運行時間上均比其他基于深度學習的方法要低,尤其測試集運行時間(18.04 s)與經典的 FBCSP + SVM 方法(16.95 s)基本相當。這說明相較于其他深度學習網絡模型,本文方法能夠兼顧分類正確率和分類效率,更適合在線解碼應用。

4 討論與結論
本研究主要通過依次設計時間和空間方向上的一維卷積層,從運動想象 EEG 信號中提取時域和空間域特征,并結合 2 層二維卷積結構對 EEG 的時空特征進行聯合學習,最后利用全連接層和 Softmax 層實現對四類運動想象 EEG 信號的分類識別。如表 4 所示,本文所提 TSCNN 的平均解碼精度(80.09%)和 Kappa 系數(0.735)均顯著優于經典的 CSP + SVM 和 FBCSP + SVM 方法,整體識別率分別提高了 13.75% 和 10.99%。結合表 1 和表 2 所示可知,TSCNN 網絡的解碼性能受卷積層 1 的參數影響較大,從 EEG 信號提取的時域特征信息越多,TSCNN 網絡的解碼精度越高。此外,從圖 3 結果來看,與 CSP + SVM 和 FBCSP + SVM 方法相比,TSCNN 顯著降低了四類運動想象 EEG 的誤分率,尤其對于左右手運動想象 EEG 的誤分率均小于 10%。這說明,相比于 CSP 和 FBCSP 手工提取空間特征的方法,TSCNN 網絡在抽取 EEG 信號空間特征上顯示出一定的優越性。相比于其他基于深度學習的方法,本文所提 TSCNN 方法不僅能夠學習運動想象 EEG 信號的時空特征,進而獲得較高的解碼精度和 Kappa 系數,而且由于設計的網絡結構更為簡單、優化參數較少,算法運行所需時間更短,訓練的網絡模型更加適合運動想象 EEG 的在線解碼。
綜上所述,本研究所提基于時空特征學習的卷積神經網絡結構能夠從 EEG 信號中抽取可分性更強的時空特征,進而提升運動想象 EEG 解碼的準確性和可靠性,為基于運動想象的腦-機接口系統應用提供一種新的算法設計思路。目前本研究所設計的深度卷積神經網絡結構只在 8 ~ 30 Hz 頻帶內抽取腦電的時空特征,下一步將嘗試結合 EEG 的頻域特征進一步設計基于時-頻-空域特征學習的深度卷積神經網絡,實現對運動想象 EEG 的時-頻-空域特征聯合學習,提升 EEG 信號的解碼精度。同時,探索卷積層神經元輸出的可視化方法,解釋卷積神經網絡學習的時域、頻域及空間域特征,為優化網絡結構和參數配置提供重要參考依據。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。