基于運動想象腦電(MI-EEG)的腦機接口(BCI)可以實現人腦與外部設備的直接信息交互。本文提出了一種基于時間序列數據增強的腦電多尺度特征提取卷積神經網絡模型,用于MI-EEG信號解碼。首先,提出了一種腦電信號數據增強方法,能夠在不改變時間序列長度的情況下,提高訓練樣本的信息含量,同時完整保留其初始特征。然后,通過多尺度卷積塊自適應地提取腦電數據的多種整體與細節特征,再經并行殘差塊和通道注意力對特征進行融合篩選。最后,由全連接網絡輸出分類結果。在BCI Competition IV 2a和2b數據集上的應用實驗結果表明,本模型對運動想象任務的平均分類正確率分別達到了91.87%和87.85%,對比現有的基準模型,該方法具有較高的正確率和較強的魯棒性。該模型無需復雜的信號預處理操作,具有多尺度特征提取的優勢,具有較高的實際應用價值。
引用本文: 李紅利, 劉浩雨, 陳虹宇, 張榮華. 基于時間序列數據增強的運動想象腦電多尺度特征提取分類. 生物醫學工程學雜志, 2023, 40(3): 418-425. doi: 10.7507/1001-5515.202205069 復制
0 引言
腦-機接口(brain-computer interface,BCI)可實現人與外部設備的信息交互,其中通過腦電傳感器采集大腦電信號,利用腦電解碼算法即可把人的思維活動轉變成命令信號驅動外部設備,實現在無需進行肢體活動的情況下,人腦對外部設備的操控[1]。BCI技術的應用前景非常廣闊:在康復方面,可以促進運動能力恢復,控制輪椅、假肢等,還可以強化人的身體機能;在娛樂方面,結合虛擬現實技術,通過思維來控制游戲中的角色,獲得更加沉浸式的游戲體驗;在軍事方面,可以幫助人們更好地操控無人機、無人車、機器人等設備,替代人類從事各種危險的任務,還能實時反饋執行任務時人員的精神狀態。
運動想象(motor imagery,MI)是最常用的BCI范式之一[2]。運動想象腦電(motor imagery electroencephalography,MI-EEG)信號是人想象自己身體不同部位運動時的腦電信號,利用信號分析與處理方法,可以解碼人的思維意圖。由于腦電信號是非線性、非平穩、信號幅度微弱以及低信噪比的電信號,所以對其特征的有效提取和準確分類是關鍵。腦電信號主要有時域、頻域和空間三種特征。時域和頻域特征的提取,主要利用小波變換、功率譜密度、快速傅里葉變換等方法;空間特征的提取,主要利用共空間模式(common spatial pattern,CSP)[3]、濾波器組共空間模式(filter bank common spatial pattern,FBCSP)[4]等方法。上述特征提取方法需要豐富的先驗知識以及大量的特征選擇過程,而且不可避免地會失去一些有用的特征信息。特征提取之后需要進行分類,常用的特征分類算法有線性判別分析、支持向量機、貝葉斯分類器等。上述分類算法對多分類任務表現很差,且同樣需要豐富的先驗知識。
隨著計算機技術的發展,以及近年來以卷積神經網絡(convolutional neural network,CNN)為代表的深度學習算法在機器視覺方面的成功應用,越來越多的研究人員嘗試著將此類模型應用到運動想象分類[5]。與靜態的二維圖像數據不同,腦電信號是從擁有三維特性的大腦皮層上測量的一維動態時間序列,腦電信號所包含的與運動想象任務相關的信號往往比其他噪聲信號更弱,這使得應用端到端模型學習腦電數據特征比圖像更為困難。該類模型首先從原始輸入中提取本地、低級的特征,然后在更深層次中提取全局和高級特征。采用深度學習算法的目的是減少預處理的難度,同時避免人工提取特征的環節,使用卷積作為關鍵組件來學習數據的局部特征,將數據處理、特征提取、特征分類結合到一起,提升了特征提取能力,在各類任務中普遍取得了很好的結果。Han等[6]提出了并行卷積神經網絡(parallel convolutional neural network,PCNN)模型,把三種不同形式的卷積核組合在一個網絡中,即三個獨特的子模型堆疊在一起,以優化分類性能。Amin等[7]提出了一種新型多層卷積神經網絡(multi-convolutional neural network,MCNN)和連續卷積神經網絡(continuous-convolutional neural network,CCNN)融合方法,利用不同的卷積濾波器從原始EEG數據中捕獲空間和時間特征。Dai等[8]提出了混合尺度卷積神經網絡模型(hybrid convolution scale-convolutional neural network,HS-CNN),通過帶通濾波算法將腦電信號分為三個頻帶(4~7、8~13和13~32 Hz),利用不同的分支分別提取三個頻帶信號的特征,最后聚合在一起。Altuwaijri等[9]提出了一種具有擠壓和激勵塊的多分支EEGNet的運動想象解碼模型(multi-branch EEGNet with squeeze-and-excitation blocks,MBEEGSE),采用具有注意力塊的多分支CNN模型自適應地改變信道特征響應。Li等[10]提出了一種基于注意機制的多尺度融合卷積神經網絡(multi-scale fusion convolutional neural network based on the attention mechanism,MS-AMF),將三種特征予以融合,再使用注意力模塊對特征進行篩選。Wu等[11]提出了并行多尺度濾波器組卷積神經網絡(parallel multiscale filter bank convolutional neural network,MSFBCNN),引入了分層的端到端網絡結構,并使用特征提取網絡來提取時間和空間特征。Fan等[12]提出了一種Q形結構的網絡,使用殘差學習模塊作為基本特征提取模塊并引入一個新穎的3D-注意力模塊,使用雙分支結構來融合雙線性向量進行分類,在樣本數量多時具有良好的性能。何群等[13]提出多特征卷積神經網絡(multi feature convolutional neural network,MFCNN),將原始信號、能量特征、功率譜特征以及融合特征四種輸入分別在網絡中訓練,最后通過加權投票的集成分類方法得到最終分類結果。Wang等[14]提出了EEG-GENet的網絡模型,在原有的EEGNet網絡的基礎上,引入特征級圖嵌入的方法,提高了網絡對原始EEG信號的解碼能力。Yang等[15]提出了一種多層次表示融合(multi-hierarchical representation fusion,MHRF)的深度學習解碼方法,由雙向長短期記憶網絡(bidirectional-long short term memory,Bi-LSTM)和CNN構建的并發框架組成,以充分捕捉頻譜特征的上下文相關性。
上述模型分別利用了數據的時域、頻域和空間特征,研究方向主要圍繞著增強特征的多樣性、擴展模型的寬度與注意力機制的引入。考慮到腦電信號所存在的個體差異性和時間差異性,具有單一尺度卷積濾波器和單一分支的網絡結構,在特征提取過程中會丟失一些有用特征,導致正確率下降[16]。
為了在腦電數據量很少的情況下充分學習到更有效的特征,本研究提出了一種基于時間序列數據增強的運動想象腦電多尺度特征提取分類模型,通過零均值歸一化、樣條插值與滑動窗口、高斯噪聲數據預處理方法,提升樣本的多樣性。所提模型將改進的Inception[17]結構用于運動想象分類,構建了多尺度卷積塊作為其特征提取單元,自適應地提取腦電信號豐富的整體和細節特征,再經過新穎的并行殘差塊和通道注意力對特征進行融合篩選,達到分類目的,具有良好的泛化能力和魯棒性。
1 研究方法
1.1 整體模型
本文提出的基于時間序列數據增強的腦電多尺度特征提取卷積神經網絡模型,是一種可以從腦電數據中自適應地提取多尺度的整體以及細節特征,并進行準確分類的端到端模型。其特點就是擁有多尺度卷積塊,包含多種不同尺度的卷積核,提取腦電數據的多種特征信息,經過并行殘差塊和通道注意力對特征進行融合和篩選,整體網絡的結構如圖1所示。兩個分支具有完全相同的結構,將兩個分支提取到的特征映射做串聯操作,再經過激活函數為sigmoid的全連接網絡,得到分類結果。整體網絡的超參數設置如表1所示,卷積核和最大池化的長度L和步長S表示為 ,在多尺度卷積塊和并行殘差塊中所有卷積核個數和dropout系數均相同。


1.2 多尺度卷積塊
大尺度卷積核可以捕獲整體特征,但它對捕獲細節特征不敏感,而小尺度卷積核可以更有效地捕獲細節特征[18-19]。基于Inception結構,我們提出了多尺度卷積塊(小尺度和大尺度),分別提取腦電信號的細節和整體特征,具體結構如圖2所示。其中包含三個不同尺度的卷積核,用于提取更為豐富的特征。最大池化操作一方面對數據進行下采樣,去掉冗余信息;另一方面保留特征圖的特征信息,提高模型分類正確率。最大池化操作后的卷積核長度為1,目的是保持和前三個分支同樣的特征圖通道數。將四個并行特征提取層得到的特征映射做串聯操作,輸出給后續模塊。

1.3 并行殘差塊
殘差網絡被提出的背景是隨著網絡深度的增加,訓練誤差沒有降低反而升高。引入該模塊可以改善加深網絡深度而帶來的網絡退化問題,同時并行殘差塊引入了一個新的維度:“基數”[20]。增加基數比設計更深或更寬的網絡對分類更有效,不僅可以提高正確率,還可以使網絡更加穩定。其表達式如式(1)所示。
![]() |
式中為輸入特征,
表示對
的卷積變換操作,
為基數(卷積變換的分支個數),設置為3。具體結構如圖3所示。

1.4 通道注意力
為網絡添加注意力機制是為了提高框架的表達能力,提高模型對有效特征的敏感性,除去非必要和錯誤的特征信息[21]。通道注意力可以在少量增加計算量和參數量的前提下提升網絡模型的特征提取能力,同時增強有效特征的表征,其示意圖如圖4所示。通道注意力應用了全局最大池化和全局平均池化,同時保留了通道顯著特征和通道平均特征。設模塊的輸入為腦電圖的特征圖,L代表每個通道特征點個數,
代表通道數。通道注意力的計算公式如式(2)~(3)所示。

![]() |
![]() |
式中、
分別表示全局平均池化和全局最大池化操作后的特征映射。
表示多層感知機,它包含一個隱藏層:由C/r個神經元構成(r為縮減率),將r設為2。
為sigmoid激活函數,
表示對應位置元素乘積。通道注意力向量
表示在通道維度上做注意力操作后的特征向量,
為模塊的輸出。通道注意力具體結構如圖5所示。

2 運動想象實驗數據
2.1 數據集介紹
本文采用BCI Competition IV 2a和2b數據集來評估本模型的有效性。2a數據集中包含了9名受試者的22通道腦電圖數據,由四種運動想象任務(左手、右手、雙腳和舌頭)組成。每例受試者兩個不同日期記錄的腦電圖數據被分為兩個數據集,一個為訓練集,另一個為測試集。每個數據集含288次實驗,合計每例受試者576次實驗。2b數據集中包含了9名受試者的3通道(Cz、C3和C4)腦電圖數據,由兩種運動想象任務(左手、右手)組成。每個受試者分別進行五次記錄。前兩次記錄均為無反饋的運動想象,每次記錄包含120次實驗。后三次記錄是有微笑反饋的運動想象,每次記錄包含160次實驗。
本文將運動想象腦電信號定義為:。其中,
表示運動想象腦電信號的樣本個數;
表示每個腦電信號時間點的個數,其中t表示運動想象片段的持續時間(單位為s),f表示采樣頻率(單位為Hz);C表示腦電信號的通道數。
2.2 預處理方法
對于2a和2b數據集,我們均截取采樣時間為4 s的數據,采樣率為250 Hz,采樣點為1 000。采用零均值歸一化方法對原始數據進行歸一化,使其符合標準正態分布,計算方法如式(4)所示。
![]() |
式中為原始腦電數據,
和
分別為平均值和標準差。
根據現有的研究表明,使用滑動窗口方法對運動想象數據進行裁剪,若裁剪窗口長度小于原序列的長度(T=1 000),會造成相關運動信息的丟失,導致模型分類精度降低。我們應用了二階樣條插值算法對原數據進行擴充,通過插值函數在有限個點處的取值狀況,估算出函數在其他點處的近似值,完整地保留了數據的細節特征。將原序列的長度擴充到1 050。然后,利用滑動輸入窗口的方法對擴充后的數據進行裁剪,設置步長為10以及裁剪窗口長度為1 000,將每一個訓練樣本分為五個訓練樣本,這些數據會得到與原始數據相同的標簽。
由于腦電信號是一類時間序列信號,改變其幾何特征會破壞原有的時域特征,為了提升模型分類的正確率和魯棒性,我們在不改變腦電信號時序性的條件下,通過向時間序列中添加高斯噪聲的方法來增強腦電信號樣本,高斯隨機變量的概率密度函數定義如式(5)所示。
![]() |
式中為隨機變量輸入;
為隨機噪聲的平均值,設置為0;
為隨機噪聲的標準差,設置為0.005。
3 實驗與結果
3.1 評價指標
本文采用正確率來評價實驗結果,為準確預測樣本數與總樣本數的比率,以百分比表示。此外,使用配對t檢驗比較本文所提模型和其他基準模型的性能,檢驗水準為0.05。
3.2 訓練流程
為了評估模型的有效性,本文將數據集分為訓練集、驗證集和測試集,比例為4∶1∶1,并且數據增強方法僅應用在訓練集上。我們采用二元交叉熵函數作為損失函數,用來表征預測值的概率分布與實際標簽的距離,計算公式如式(6)所示。
![]() |
式中 為第i個樣本的真實標簽(0或1),
為樣本預測為正的概率,N為每批樣本的大小。
網絡選用自適應矩估計(adaptive moment estimation,Adam)優化器,初始學習率為0.000 1。為了進一步防止過擬合,在訓練過程中應用早停訓練(early stopping)方式,若驗證集損失在50次迭代內不再減小,則停止運行;利用ReduceLROnPlateau優化學習率技術,該技術可以允許設置較大的初始學習率來避免模型陷入局部最優,也能使模型快速收斂,在訓練過程中不斷縮小學習率,可以準確地獲得最優模型;利用ModelCheckpoint技術,保存驗證集正確率最高的網絡模型參數;利用L2正則化,通過在損失函數中加入L2范數懲罰項,防止模型獲得過大的參數值和產生爆炸梯度。迭代訓練次數為500(2a數據集)和400(2b數據集),批大小均為128。該模型建立在基于tensorflow的Keras深度學習框架,由Nvidia GeForce RTX 3060 GPU進行訓練。本文的所有實驗都是基于特定受試。
3.3 實驗結果分析
表2[8, 22-27]展示了應用于BCI Competition IV 2a數據集時,七種基準模型與本模型平均正確率的比較。單個受試者的正確率見附件1。在平均正確率方面,本文所提出的模型平均正確率為91.87%,優于其他七種基準模型,反映了本模型能夠利用由多種尺度卷積核構成的多尺度卷積塊自適應地提取不同受試者豐富的特征,可以更好地分類運動想象腦電數據。對比單個受試者的正確率,本模型僅在受試者2、受試者4和受試者6中未得到最高的正確率,我們分析可能是因為這三例受試者的腦電信號被過多的偽影和噪聲覆蓋,導致本模型提取的特征較差,以及個別模型對特定受試者腦電信號的敏感性較強。此外,這種現象也可能是由于參數設置不當導致的過度擬合。本模型正確率的標準差為9.20%,高于HS-CNN的5.74%、EEG-inception的7.06%以及ETR-CNN的7.51%,反映了本模型對不同受試者的腦電信號有著一定的敏感性偏差。統計學結果顯示,部分基準模型與本模型之間分類精度的差異具有統計學意義。

表3[8, 11, 19, 27-30]展示了應用于BCI Competition IV 2b數據集時,七種基準模型與本模型平均正確率的比較。單個受試者的正確率見附件2。在平均正確率方面,本文所提出的模型平均正確率為87.85%,標準差為7.16%,僅次于EEG-inception模型88.58%的平均正確率和5.50%的標準差。主要原因是與具有22通道的2a數據集相比,2b數據集只有3通道,數據量明顯減少。此外,EEG-inception在應用于2a數據集時采用五個卷積層的網絡,應用于2b數據集時采用了三個卷積層的網絡,模型的復雜程度降低,進一步減少了過擬合。本模型沒有改變結構和超參數,需要更大的訓練數據集來學習模型的可訓練參數,以獲得更好的特征提取能力。因此,我們認為本模型因可訓練參數較多、模型較深,更適用于通道數較多的運動想象分類任務。總的來說,本模型在受試者1和受試者7中取得最高正確率,整體達到87.85%的平均正確率,體現了本模型分類較好的準確性和魯棒性。

3.4 消融實驗分析
為了研究并行殘差塊和通道注意力在整個模型中的作用,構建了除去殘差模塊的網絡模型和除去注意力模塊的網絡模型,應用于2a數據集的實驗結果如圖6所示。結果顯示,將并行殘差塊和通道注意力應用于大多數受試者的分類任務中,可以提高正確率,不僅增強了網絡的特征提取能力,而且增強了穩定性,特別是受試者1、受試者2和受試者4的正確率得到顯著提高。對于大多數受試者,通道注意模塊力對模型分類正確率的提升作用大于并行殘差模塊,體現了增強有效特征的權重、弱化非必要和錯誤特征信息的重要性。

4 結論
本文提出的基于時間序列數據增強的腦電多尺度特征提取卷積神經網絡模型,是一種可以從腦電數據中自適應地提取多尺度的整體和細節特征,并進行準確分類的端到端模型。它有三方面優勢:擁有多尺度卷積塊,包含多種不同尺度的卷積核,可以提取腦電數據的多種特征信息;并行殘差塊和通道注意力對特征進行融合和篩選,增強有效特征的表征;提出的數據增強方法加快了模型收斂的速度,并進一步提高了模型的分類正確率。實驗結果表明,所提出的方法在BCI Competition IV 2a和2b腦電數據集上均達到了較高的正確率。未來研究中,我們將著眼于設計更為先進的模塊去簡化整體模型并提升其分類性能,通過測試模型在更多數據集中的分類結果去尋找最佳的超參數組合。同時,設計一些針對中間層特征和通道注意力權值的可視化方法以增強模型的可解釋性。本文提出的運動想象分類框架將數據處理、特征提取、特征分類結合到一起,具有一定的通用性和魯棒性,未來可以進一步推廣到BCI的其他范式或生物信息的其他分析領域。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:所有作者都參與了本研究的構思和設計。基礎理論研究、編寫模型代碼由李紅利完成,論文初稿的撰寫、數據收集和分析由劉浩雨和陳虹宇完成,論文的修改與指導由劉浩雨和張榮華完成。所有作者都閱讀并批準了最終稿件。
本文附件見本刊網站的電子版本(biomedeng.cn)。
0 引言
腦-機接口(brain-computer interface,BCI)可實現人與外部設備的信息交互,其中通過腦電傳感器采集大腦電信號,利用腦電解碼算法即可把人的思維活動轉變成命令信號驅動外部設備,實現在無需進行肢體活動的情況下,人腦對外部設備的操控[1]。BCI技術的應用前景非常廣闊:在康復方面,可以促進運動能力恢復,控制輪椅、假肢等,還可以強化人的身體機能;在娛樂方面,結合虛擬現實技術,通過思維來控制游戲中的角色,獲得更加沉浸式的游戲體驗;在軍事方面,可以幫助人們更好地操控無人機、無人車、機器人等設備,替代人類從事各種危險的任務,還能實時反饋執行任務時人員的精神狀態。
運動想象(motor imagery,MI)是最常用的BCI范式之一[2]。運動想象腦電(motor imagery electroencephalography,MI-EEG)信號是人想象自己身體不同部位運動時的腦電信號,利用信號分析與處理方法,可以解碼人的思維意圖。由于腦電信號是非線性、非平穩、信號幅度微弱以及低信噪比的電信號,所以對其特征的有效提取和準確分類是關鍵。腦電信號主要有時域、頻域和空間三種特征。時域和頻域特征的提取,主要利用小波變換、功率譜密度、快速傅里葉變換等方法;空間特征的提取,主要利用共空間模式(common spatial pattern,CSP)[3]、濾波器組共空間模式(filter bank common spatial pattern,FBCSP)[4]等方法。上述特征提取方法需要豐富的先驗知識以及大量的特征選擇過程,而且不可避免地會失去一些有用的特征信息。特征提取之后需要進行分類,常用的特征分類算法有線性判別分析、支持向量機、貝葉斯分類器等。上述分類算法對多分類任務表現很差,且同樣需要豐富的先驗知識。
隨著計算機技術的發展,以及近年來以卷積神經網絡(convolutional neural network,CNN)為代表的深度學習算法在機器視覺方面的成功應用,越來越多的研究人員嘗試著將此類模型應用到運動想象分類[5]。與靜態的二維圖像數據不同,腦電信號是從擁有三維特性的大腦皮層上測量的一維動態時間序列,腦電信號所包含的與運動想象任務相關的信號往往比其他噪聲信號更弱,這使得應用端到端模型學習腦電數據特征比圖像更為困難。該類模型首先從原始輸入中提取本地、低級的特征,然后在更深層次中提取全局和高級特征。采用深度學習算法的目的是減少預處理的難度,同時避免人工提取特征的環節,使用卷積作為關鍵組件來學習數據的局部特征,將數據處理、特征提取、特征分類結合到一起,提升了特征提取能力,在各類任務中普遍取得了很好的結果。Han等[6]提出了并行卷積神經網絡(parallel convolutional neural network,PCNN)模型,把三種不同形式的卷積核組合在一個網絡中,即三個獨特的子模型堆疊在一起,以優化分類性能。Amin等[7]提出了一種新型多層卷積神經網絡(multi-convolutional neural network,MCNN)和連續卷積神經網絡(continuous-convolutional neural network,CCNN)融合方法,利用不同的卷積濾波器從原始EEG數據中捕獲空間和時間特征。Dai等[8]提出了混合尺度卷積神經網絡模型(hybrid convolution scale-convolutional neural network,HS-CNN),通過帶通濾波算法將腦電信號分為三個頻帶(4~7、8~13和13~32 Hz),利用不同的分支分別提取三個頻帶信號的特征,最后聚合在一起。Altuwaijri等[9]提出了一種具有擠壓和激勵塊的多分支EEGNet的運動想象解碼模型(multi-branch EEGNet with squeeze-and-excitation blocks,MBEEGSE),采用具有注意力塊的多分支CNN模型自適應地改變信道特征響應。Li等[10]提出了一種基于注意機制的多尺度融合卷積神經網絡(multi-scale fusion convolutional neural network based on the attention mechanism,MS-AMF),將三種特征予以融合,再使用注意力模塊對特征進行篩選。Wu等[11]提出了并行多尺度濾波器組卷積神經網絡(parallel multiscale filter bank convolutional neural network,MSFBCNN),引入了分層的端到端網絡結構,并使用特征提取網絡來提取時間和空間特征。Fan等[12]提出了一種Q形結構的網絡,使用殘差學習模塊作為基本特征提取模塊并引入一個新穎的3D-注意力模塊,使用雙分支結構來融合雙線性向量進行分類,在樣本數量多時具有良好的性能。何群等[13]提出多特征卷積神經網絡(multi feature convolutional neural network,MFCNN),將原始信號、能量特征、功率譜特征以及融合特征四種輸入分別在網絡中訓練,最后通過加權投票的集成分類方法得到最終分類結果。Wang等[14]提出了EEG-GENet的網絡模型,在原有的EEGNet網絡的基礎上,引入特征級圖嵌入的方法,提高了網絡對原始EEG信號的解碼能力。Yang等[15]提出了一種多層次表示融合(multi-hierarchical representation fusion,MHRF)的深度學習解碼方法,由雙向長短期記憶網絡(bidirectional-long short term memory,Bi-LSTM)和CNN構建的并發框架組成,以充分捕捉頻譜特征的上下文相關性。
上述模型分別利用了數據的時域、頻域和空間特征,研究方向主要圍繞著增強特征的多樣性、擴展模型的寬度與注意力機制的引入。考慮到腦電信號所存在的個體差異性和時間差異性,具有單一尺度卷積濾波器和單一分支的網絡結構,在特征提取過程中會丟失一些有用特征,導致正確率下降[16]。
為了在腦電數據量很少的情況下充分學習到更有效的特征,本研究提出了一種基于時間序列數據增強的運動想象腦電多尺度特征提取分類模型,通過零均值歸一化、樣條插值與滑動窗口、高斯噪聲數據預處理方法,提升樣本的多樣性。所提模型將改進的Inception[17]結構用于運動想象分類,構建了多尺度卷積塊作為其特征提取單元,自適應地提取腦電信號豐富的整體和細節特征,再經過新穎的并行殘差塊和通道注意力對特征進行融合篩選,達到分類目的,具有良好的泛化能力和魯棒性。
1 研究方法
1.1 整體模型
本文提出的基于時間序列數據增強的腦電多尺度特征提取卷積神經網絡模型,是一種可以從腦電數據中自適應地提取多尺度的整體以及細節特征,并進行準確分類的端到端模型。其特點就是擁有多尺度卷積塊,包含多種不同尺度的卷積核,提取腦電數據的多種特征信息,經過并行殘差塊和通道注意力對特征進行融合和篩選,整體網絡的結構如圖1所示。兩個分支具有完全相同的結構,將兩個分支提取到的特征映射做串聯操作,再經過激活函數為sigmoid的全連接網絡,得到分類結果。整體網絡的超參數設置如表1所示,卷積核和最大池化的長度L和步長S表示為 ,在多尺度卷積塊和并行殘差塊中所有卷積核個數和dropout系數均相同。


1.2 多尺度卷積塊
大尺度卷積核可以捕獲整體特征,但它對捕獲細節特征不敏感,而小尺度卷積核可以更有效地捕獲細節特征[18-19]。基于Inception結構,我們提出了多尺度卷積塊(小尺度和大尺度),分別提取腦電信號的細節和整體特征,具體結構如圖2所示。其中包含三個不同尺度的卷積核,用于提取更為豐富的特征。最大池化操作一方面對數據進行下采樣,去掉冗余信息;另一方面保留特征圖的特征信息,提高模型分類正確率。最大池化操作后的卷積核長度為1,目的是保持和前三個分支同樣的特征圖通道數。將四個并行特征提取層得到的特征映射做串聯操作,輸出給后續模塊。

1.3 并行殘差塊
殘差網絡被提出的背景是隨著網絡深度的增加,訓練誤差沒有降低反而升高。引入該模塊可以改善加深網絡深度而帶來的網絡退化問題,同時并行殘差塊引入了一個新的維度:“基數”[20]。增加基數比設計更深或更寬的網絡對分類更有效,不僅可以提高正確率,還可以使網絡更加穩定。其表達式如式(1)所示。
![]() |
式中為輸入特征,
表示對
的卷積變換操作,
為基數(卷積變換的分支個數),設置為3。具體結構如圖3所示。

1.4 通道注意力
為網絡添加注意力機制是為了提高框架的表達能力,提高模型對有效特征的敏感性,除去非必要和錯誤的特征信息[21]。通道注意力可以在少量增加計算量和參數量的前提下提升網絡模型的特征提取能力,同時增強有效特征的表征,其示意圖如圖4所示。通道注意力應用了全局最大池化和全局平均池化,同時保留了通道顯著特征和通道平均特征。設模塊的輸入為腦電圖的特征圖,L代表每個通道特征點個數,
代表通道數。通道注意力的計算公式如式(2)~(3)所示。

![]() |
![]() |
式中、
分別表示全局平均池化和全局最大池化操作后的特征映射。
表示多層感知機,它包含一個隱藏層:由C/r個神經元構成(r為縮減率),將r設為2。
為sigmoid激活函數,
表示對應位置元素乘積。通道注意力向量
表示在通道維度上做注意力操作后的特征向量,
為模塊的輸出。通道注意力具體結構如圖5所示。

2 運動想象實驗數據
2.1 數據集介紹
本文采用BCI Competition IV 2a和2b數據集來評估本模型的有效性。2a數據集中包含了9名受試者的22通道腦電圖數據,由四種運動想象任務(左手、右手、雙腳和舌頭)組成。每例受試者兩個不同日期記錄的腦電圖數據被分為兩個數據集,一個為訓練集,另一個為測試集。每個數據集含288次實驗,合計每例受試者576次實驗。2b數據集中包含了9名受試者的3通道(Cz、C3和C4)腦電圖數據,由兩種運動想象任務(左手、右手)組成。每個受試者分別進行五次記錄。前兩次記錄均為無反饋的運動想象,每次記錄包含120次實驗。后三次記錄是有微笑反饋的運動想象,每次記錄包含160次實驗。
本文將運動想象腦電信號定義為:。其中,
表示運動想象腦電信號的樣本個數;
表示每個腦電信號時間點的個數,其中t表示運動想象片段的持續時間(單位為s),f表示采樣頻率(單位為Hz);C表示腦電信號的通道數。
2.2 預處理方法
對于2a和2b數據集,我們均截取采樣時間為4 s的數據,采樣率為250 Hz,采樣點為1 000。采用零均值歸一化方法對原始數據進行歸一化,使其符合標準正態分布,計算方法如式(4)所示。
![]() |
式中為原始腦電數據,
和
分別為平均值和標準差。
根據現有的研究表明,使用滑動窗口方法對運動想象數據進行裁剪,若裁剪窗口長度小于原序列的長度(T=1 000),會造成相關運動信息的丟失,導致模型分類精度降低。我們應用了二階樣條插值算法對原數據進行擴充,通過插值函數在有限個點處的取值狀況,估算出函數在其他點處的近似值,完整地保留了數據的細節特征。將原序列的長度擴充到1 050。然后,利用滑動輸入窗口的方法對擴充后的數據進行裁剪,設置步長為10以及裁剪窗口長度為1 000,將每一個訓練樣本分為五個訓練樣本,這些數據會得到與原始數據相同的標簽。
由于腦電信號是一類時間序列信號,改變其幾何特征會破壞原有的時域特征,為了提升模型分類的正確率和魯棒性,我們在不改變腦電信號時序性的條件下,通過向時間序列中添加高斯噪聲的方法來增強腦電信號樣本,高斯隨機變量的概率密度函數定義如式(5)所示。
![]() |
式中為隨機變量輸入;
為隨機噪聲的平均值,設置為0;
為隨機噪聲的標準差,設置為0.005。
3 實驗與結果
3.1 評價指標
本文采用正確率來評價實驗結果,為準確預測樣本數與總樣本數的比率,以百分比表示。此外,使用配對t檢驗比較本文所提模型和其他基準模型的性能,檢驗水準為0.05。
3.2 訓練流程
為了評估模型的有效性,本文將數據集分為訓練集、驗證集和測試集,比例為4∶1∶1,并且數據增強方法僅應用在訓練集上。我們采用二元交叉熵函數作為損失函數,用來表征預測值的概率分布與實際標簽的距離,計算公式如式(6)所示。
![]() |
式中 為第i個樣本的真實標簽(0或1),
為樣本預測為正的概率,N為每批樣本的大小。
網絡選用自適應矩估計(adaptive moment estimation,Adam)優化器,初始學習率為0.000 1。為了進一步防止過擬合,在訓練過程中應用早停訓練(early stopping)方式,若驗證集損失在50次迭代內不再減小,則停止運行;利用ReduceLROnPlateau優化學習率技術,該技術可以允許設置較大的初始學習率來避免模型陷入局部最優,也能使模型快速收斂,在訓練過程中不斷縮小學習率,可以準確地獲得最優模型;利用ModelCheckpoint技術,保存驗證集正確率最高的網絡模型參數;利用L2正則化,通過在損失函數中加入L2范數懲罰項,防止模型獲得過大的參數值和產生爆炸梯度。迭代訓練次數為500(2a數據集)和400(2b數據集),批大小均為128。該模型建立在基于tensorflow的Keras深度學習框架,由Nvidia GeForce RTX 3060 GPU進行訓練。本文的所有實驗都是基于特定受試。
3.3 實驗結果分析
表2[8, 22-27]展示了應用于BCI Competition IV 2a數據集時,七種基準模型與本模型平均正確率的比較。單個受試者的正確率見附件1。在平均正確率方面,本文所提出的模型平均正確率為91.87%,優于其他七種基準模型,反映了本模型能夠利用由多種尺度卷積核構成的多尺度卷積塊自適應地提取不同受試者豐富的特征,可以更好地分類運動想象腦電數據。對比單個受試者的正確率,本模型僅在受試者2、受試者4和受試者6中未得到最高的正確率,我們分析可能是因為這三例受試者的腦電信號被過多的偽影和噪聲覆蓋,導致本模型提取的特征較差,以及個別模型對特定受試者腦電信號的敏感性較強。此外,這種現象也可能是由于參數設置不當導致的過度擬合。本模型正確率的標準差為9.20%,高于HS-CNN的5.74%、EEG-inception的7.06%以及ETR-CNN的7.51%,反映了本模型對不同受試者的腦電信號有著一定的敏感性偏差。統計學結果顯示,部分基準模型與本模型之間分類精度的差異具有統計學意義。

表3[8, 11, 19, 27-30]展示了應用于BCI Competition IV 2b數據集時,七種基準模型與本模型平均正確率的比較。單個受試者的正確率見附件2。在平均正確率方面,本文所提出的模型平均正確率為87.85%,標準差為7.16%,僅次于EEG-inception模型88.58%的平均正確率和5.50%的標準差。主要原因是與具有22通道的2a數據集相比,2b數據集只有3通道,數據量明顯減少。此外,EEG-inception在應用于2a數據集時采用五個卷積層的網絡,應用于2b數據集時采用了三個卷積層的網絡,模型的復雜程度降低,進一步減少了過擬合。本模型沒有改變結構和超參數,需要更大的訓練數據集來學習模型的可訓練參數,以獲得更好的特征提取能力。因此,我們認為本模型因可訓練參數較多、模型較深,更適用于通道數較多的運動想象分類任務。總的來說,本模型在受試者1和受試者7中取得最高正確率,整體達到87.85%的平均正確率,體現了本模型分類較好的準確性和魯棒性。

3.4 消融實驗分析
為了研究并行殘差塊和通道注意力在整個模型中的作用,構建了除去殘差模塊的網絡模型和除去注意力模塊的網絡模型,應用于2a數據集的實驗結果如圖6所示。結果顯示,將并行殘差塊和通道注意力應用于大多數受試者的分類任務中,可以提高正確率,不僅增強了網絡的特征提取能力,而且增強了穩定性,特別是受試者1、受試者2和受試者4的正確率得到顯著提高。對于大多數受試者,通道注意模塊力對模型分類正確率的提升作用大于并行殘差模塊,體現了增強有效特征的權重、弱化非必要和錯誤特征信息的重要性。

4 結論
本文提出的基于時間序列數據增強的腦電多尺度特征提取卷積神經網絡模型,是一種可以從腦電數據中自適應地提取多尺度的整體和細節特征,并進行準確分類的端到端模型。它有三方面優勢:擁有多尺度卷積塊,包含多種不同尺度的卷積核,可以提取腦電數據的多種特征信息;并行殘差塊和通道注意力對特征進行融合和篩選,增強有效特征的表征;提出的數據增強方法加快了模型收斂的速度,并進一步提高了模型的分類正確率。實驗結果表明,所提出的方法在BCI Competition IV 2a和2b腦電數據集上均達到了較高的正確率。未來研究中,我們將著眼于設計更為先進的模塊去簡化整體模型并提升其分類性能,通過測試模型在更多數據集中的分類結果去尋找最佳的超參數組合。同時,設計一些針對中間層特征和通道注意力權值的可視化方法以增強模型的可解釋性。本文提出的運動想象分類框架將數據處理、特征提取、特征分類結合到一起,具有一定的通用性和魯棒性,未來可以進一步推廣到BCI的其他范式或生物信息的其他分析領域。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻說明:所有作者都參與了本研究的構思和設計。基礎理論研究、編寫模型代碼由李紅利完成,論文初稿的撰寫、數據收集和分析由劉浩雨和陳虹宇完成,論文的修改與指導由劉浩雨和張榮華完成。所有作者都閱讀并批準了最終稿件。
本文附件見本刊網站的電子版本(biomedeng.cn)。