針對腦電信號(EEG)分類識別中的通道選擇問題, 本文提出了一種新型的Relief-SBS通道選擇算法。該算法結合Relief的統計相關性原理和順序后向選擇算法的迭代思想對EEG通道進行選擇。并用相關系數法進行分類, 取得最優分類準確率的通道即認定為最優通道。以運動想象任務實驗數據為分析對象, 結果表明利用Relief-SBS進行通道選擇后系統能取得出色的分類準確率, 即使與其他的特征選擇方法相比, 其分類準確率也較為出色。另外, 該方法選擇的最優EEG通道的空間分布也與已知的神經生理學知識一致, 說明了本方法的準確性和有效性。該方法的提出為腦機接口通道選擇提供了新思路。
引用本文: 單海軍, 朱善安. 基于Relief-SBS的腦機接口通道選擇. 生物醫學工程學雜志, 2016, 33(2): 350-356. doi: 10.7507/1001-5515.20160059 復制
引言
腦機接口(brain-computer interface, BCI)是近二三十年來出現的一種新型的人機交互技術。該系統不依賴于人體正常的外周神經通路與肌肉組織,直接通過計算機采集和分析腦電信號(electroencephalogram, EEG),從而實現大腦與外界環境的聯系與溝通[1]。現已有較多的腦機接口應用場景,如殘疾人假肢控制[2]、屏幕鼠標移動控制[3-4]等。在現有的腦機接口系統中,基于運動想象的腦機接口系統[3, 5]有著最廣泛的研究和應用。它利用軀體運動想象在大腦運動皮層區域誘發相應EEG信號來表達人腦的簡單意愿[6-7]。其中識別運動想象EEG信號是這類腦機接口系統得以實現的關鍵。
EEG信號通道選擇是識別運動想象EEG信號非常重要的一環,它直接影響到BCI系統的性能。對于一些大腦意識任務,誘發EEG信號的大腦皮層位置是已知的。比如,肢體運動想象誘發的EEG信號主要位于運動皮層(motor cortex)和運動前皮層(premotor cortex)等區域,所以只要選取位于這些區域之上的C3、C4及其附近的通道便可以取得良好的運動想象分類效果。但是,對于新的實驗范式,如果缺乏相關的神經生理學背景知識,我們便不能找到相關EEG信號誘發的通道位置。在這樣的情況下,如何選擇最優的EEG信號通道便顯得十分緊迫和重要。此外,即使對于已知的實驗范式,譬如基于運動想象的腦機接口實驗,對于不同的試驗者,運動想象相關EEG信號產生的區域也有所不同[7]。因此,在通道的使用上,我們不能簡單地認為選取C3、C4及其周邊的通道就必定能取得最優的分類效果。綜上所述,我們認為有必要提出一種在不參考任何先驗知識的情況下能準確地進行通道選擇的算法,以提高腦機接口系統的性能。
針對通道選擇的問題,不同的研究小組已分別提出了不同的研究方法。Lal等[8]使用了基于Fisher準則和支持向量機遞歸特征消除(support vector machine-recursive feature elimination, SVM-RFE)的通道篩選方法,實驗證明使用SVM-RFE能用較少的通道數量獲得更高的分類準確率。但是該方法計算量過大耗時較長,當分類算法變換時,通道選擇方法的可移植性也較差。Arvaneh等[9]提出了一種稀疏的共空間模式(sparse common spatial pattern, SCSP)算法,該算法用于運動想象實驗數據集的通道選擇,結果表明該方法能在保證分類準確率的情況下大量刪除多余的通道。與此類似的各種基于共空間模式(common spatial pattern, CSP)的改進方法也被用于特征提取和通道選擇[10-12]。Lan等[13]提出了基于互信息(mutual information)的方法,該方法用于通道重要性的排序,重要的通道有優先選擇的權利。但是此類方法只關注了特征與類別之間的相關性而忽視了特征與特征之間的關系,無法有效去除冗余特征。
基于綜合統計相關性的Relief算法[14]由于具有原理簡單、計算快速的特點,在特征選擇研究中有著良好的應用。Relief為篩選器(Filter)算法,其特征選擇過程與分類算法獨立,因此經過Relief算法篩選后的特征有較好的適用性,適用于各類分類算法。但是該方法也有一定的缺點:第一,當樣本數據量較小時,其基于統計相關性的計算過程容易受噪聲信號影響,由此得到的特征權重會有誤差;第二,Relief算法沒有充分考慮特征之間的聯系,因此由Relief選取的特征集合存在著冗余。本文在Relief算法基礎之上,結合了順序后向選擇法(sequential backward selection, SBS)[15]的迭代思想,提出了一種性能增強型的Relief-SBS通道選擇算法。該方法不僅保留了Relief算法固有的優點,還克服了其在小樣本時受噪聲影響大以及忽略特征相關性的缺點。本文以運動想象任務實驗的實驗數據為分析對象,以期取得滿意的實驗結果。
1 數據描述
本文所使用的實驗數據來自于NIPS 2001數據分析競賽,由賓夕法尼亞大學的Dr. Allen Osman提供[16]。實驗數據采集于運動想象任務實驗。在實驗中,受試者根據屏幕上的文字提示,進行左手或者右手運動想象。每次試驗持續時間為6 s,前3.75 s受試者處于安靜狀態,不做任何思維想象。當3.75 s時,屏幕中出現字幕“L”或“R”,該信號持續0.25 s,提示受試者準備開始試驗。5 s時,另一個提示符號“X”出現在屏幕,提醒受試者開始執行運動想象任務,若屏幕顯示“L”,則受試者想象左手運動;若屏幕顯示“R”,則受試者想象右手運動,一直持續到本次試驗結束。運動想象執行期間,不提供實時的視覺反饋給受試者。在整個實驗過程中,想象左手和想象右手的試驗隨機出現。這里,我們截取每次試驗的3.75~6.0 s時間段為單次試驗數據,長度為2.25 s。整個EEG信號數據集從59導的數據采集設備中采集得到,所用通道的分布遵照國際通用的10-20標準。數據采樣頻率為100 Hz,共采集了9個受試者的數據,每個受試者的實驗數據共包括180次試驗,其中左手運動想象90次和右手運動想象90次。
2 算法原理
2.1 信號預處理
由于從實驗中直接采集的EEG信號混雜著大量的噪聲,因此在進行特征提取之前,需要對信號進行預處理,去除EEG信號中的噪聲。本文的信號預處理過程主要包含兩部分:時域濾波和空間濾波。前者使用巴特沃斯帶通濾波過濾掉無關的低頻段和高頻段信號,濾波范圍為2~40 Hz;后者使用表面拉普拉斯濾波算法(surface laplacian filtering)[17]去除相鄰EEG信號通道之間的相互影響。通過這兩次濾波,可以得到比較光滑、低噪聲的EEG信號。
2.2 特征提取
大量文獻研究表明:對于運動想象任務,在5~35 Hz的頻帶范圍內,我們能觀察到事件相關同步/去同步(event related synchronization/desynchronization, ERS/ERD)現象[6],即某些頻段的信號能量發生了變化,表現為同步增強或減弱。尤其是在mu頻段(8~12 Hz)和beta頻段(15~28 Hz)內,該現象最為顯著。因為ERS/ERD現象主要體現在較窄的頻段內,所以我們根據等比頻寬公式把整個5~35 Hz頻段分解成13個部分重疊的子頻段[18](5.25~6.75 Hz, 6.0~7.71 Hz, 6.86~8.82 Hz, 7.84~10.08 Hz, 8.96~11.52 Hz, 10.24~13.16 Hz, 11.70~15.04 Hz, 13.37~17.19 Hz, 15.28~19.64 Hz, 17.46~22.45 Hz, 19.96~25.66 Hz, 22.81~29.32 Hz, 26.07~33.51 Hz),信號的能量特征在該13個頻段上提取。本文中,我們用EEG信號的信號包絡(envelope)來描述頻帶信號的能量變化。為了提取特定頻段信號的包絡線,我們對每一個子頻帶信號進行希爾伯特變換(Hilbert transform),對變換后的信號求模便得到該頻段上的信號包絡。一個實信號x(t)的希爾伯特變換如公式(1)所示,公式(2)為其解析信號,而原始實信號x(t)的信號包絡由公式(3)計算得到。
$ \hat{x}\left(t \right)=x\left(t \right)*\frac{1}{\pi t}=\frac{1}{\pi }\int\limits_{-\infty }^{+\infty }{\frac{x\left(\tau \right)}{t-\tau }}\text{d}\tau $ |
$ g\left(t \right)=x\left(t \right)+j\hat{x}\left(t \right) $ |
$ A\left(t \right)=\sqrt{{{x}^{2}}\left(t \right)+{{{\hat{x}}}^{2}}\left(t \right)} $ |
利用上述方法,每個通道信號被分解成13個特征信號。如圖 1所示,我們以C3、C4通道為例,兩通道信號分別被分解成13個子頻段(FB1~FB13)的信號,紅色虛線為每個頻段的能量包絡線。單次試驗時間內的能量平均值即為該頻段的特征值。為了測試本文所提方法在缺乏神經生理學先驗知識的情況下是否依然能夠篩選出與意識任務相關的EEG信號通道。初始狀態下,我們提取了全部59通道信號的特征作為初始特征集合,再由Relief-SBS算法進行通道的選擇。

通道C3和C4的源信號各自被分解成FB1~FB13共13個子頻段信號,各個子頻段信號上的紅色虛線即為信號的包絡線,表示子頻段信號能量的大小。單次試驗時間內的能量平均值即為該子頻段的特征值。
Figure1. Diagram of feature extraction from channels C3 and C4Original signals from channels C3 and C4 are separately divided into 13 frequency bands: FB1~FB13. The red line over each signal is the envelope of each band signal, which reflects the instantaneous energy. The mean value of an envelope over a trial time represents one pattern value
2.3 通道選擇
因為每個通道信號被提取成13個頻段特征,因此用Relief-SBS進行特征篩選,也就是決定了通道的選擇。在介紹本文所利用的Relief-SBS算法的原理之前,我們先簡單介紹下Relief算法。
2.3.1 Relief算法
原始的Relief算法根據各個特征和類別的相關性賦予特征不同的權重,相關性強的特征其權重較大,相關性弱的特征則權重較小。權重的計算過程如下:先從訓練集中隨機抽取一個訓練樣本R,然后從R同類的樣本集中選取最近鄰樣本(稱為near hit),再從與R不同類的樣本集中選取最近鄰樣本(稱為near miss)。如果R和near hit在某個特征上的距離小于R和near miss的距離,則說明該特征有利于分類,增加該特征的權重;反之,則說明該特征不利于分類,降低該特征的權重。重復這樣的計算過程m次,最終得到單個特征的權重。權重的單次迭代計算公式如下所示:
$ \begin{matrix} W_{j}^{i+1}=W_{j}^{i}-\text{diff}\left(j, x, {{x}_{H}} \right)/m+\text{diff}\left(j, x, {{x}_{M}} \right)/m \ \text{diff}\left(j, {{x}_{a}}, {{x}_{b}} \right)=\frac{\left| {{x}_{aj}}-{{x}_{bj}} \right|}{\max \left({{x}_{*j}} \right)-\min \left({{x}_{*j}} \right)} \ \end{matrix} $ |
式中,Wji表示第j個特征的權重值,xi=[xi1, xi1, …, xiN]表示第i個樣本的N個特征,m表示上述計算過程的重復次數,diff(j, xa, xb))為樣本xa和xb在第j個特征上的歸一化距離,其中max(x*j)表示樣本在j特征上的最大值,min(x*j)表示樣本在j特征上的最小值。
當所有特征的權重都計算結束時,我們根據閾值進行特征的篩選。如果特征的權重大于閾值,保留該特征,否則刪除該特征。
2.3.2 Relief-SBS算法
Relief算法在特征選擇上存在著一定的缺點,而SBS算法的特點正好彌補了Relief算法的短板。因此本研究結合兩者的算法原理,提出了性能增強型的Relief-SBS算法。
Relief-SBS算法的計算過程主要分為兩個階段:首先,利用Relief算法的統計相關性原理計算出各個特征的權重, 計算過程與Relief的公式(4)一致。所有權重大于零的特征被保留,小于等于零的特征被剔除。剩余特征依據特征權重大小進行降序排序。第二階段,我們把第一階段篩選后保留的特征設為全集O,每次從特征集O中剔除一個特征x,計算此時的評價函數J(X)值。如果刪除特征x后,評價函數沒有變優,則說明該特征為冗余特征或無關特征,從集合中剔除特征x;反之,則該特征為有用特征,繼續保留。如此循環計算,直至評價函數J(X)達到最優。此時剩余的特征子集即為最優的特征集合。這里,我們的評價函數為皮爾遜相關系數法(correlation coefficient)作為分類器取得的分類準確率。
在特征選擇中,通道信號中的每個頻段特征都作為獨立個體參與特征的篩選。每個通道包含13個頻段特征,特征選擇結束后,那些至少保留了一個最優特征的通道才被認為是最優通道。
2.4 分類算法
本文重點研究是通道選擇算法,而分類算法并不是本文關注的焦點,所以我們使用比較常見的皮爾遜相關系數法作為本文的分類算法。相比于貝葉斯分類器、SVM等方法,它具有計算簡單、快速的特點,擴展到在線分類時更有優勢。算法的原理如公式(5)所示,其中特征模式P為訓練集中同類樣本的特征向量的均值向量。當為左手運動想象時,訓練集的特征模式為PL,當為右手運動想象時,訓練集的特征模式為PR,這里統一標記為P={PL, PR}。對于測試集中待分類的樣本向量p,我們按照公式(5)計算其與左右特征模式之間的相關系數的大小。
$ C\left(p, P \right)=\frac{{{\left(p-\overline{p} \right)}^{T}}\left(P-\overline{P} \right)}{\left\| p-\overline{p} \right\|\cdot \left\| P-\overline{P} \right\|} $ |
式中和分別為特征向量
$ h\left(p \right)=\sgn \left[ C\left(p, {{P}_{L}} \right)-C\left(p, {{P}_{R}} \right) \right] $ |
如果h(p)=1表示樣本p屬于左手運動想象類別,如果h(p)=-1表示樣本p屬于右手運動想象類別。
我們用十倍交叉驗證法(10-fold cross validation)[19]來估計分類算法的泛化誤差,最終的分類準確率即為各倍測試數據準確率的均值。
3 實驗分析
3.1 分類結果
在運動想象分類中,利用與想象任務相關的通道信號進行分類才能取得最優的結果。額外增加與想象任務無關的通道,會引入噪聲和冗余信號,從而會降低系統的識別性能。在本文中,我們以運動想象實驗數據為分析對象,使用Relief-SBS算法快速篩選出與運動想象相關的通道,并結合相關系數進行分類。為了驗證通道選擇算法的有效性,對比了三種不同通道集合下所取得的結果:①Relief-SBS通道選擇后;②全通道,即不進行通道選擇;③根據神經生理學知識選取的三通道C3、C4和Cz,結果如表 1所示。

由表 1可知,使用Relief-SBS算法選擇的通道信號可使9個受試者的平均分類準確率達到87.7%。而在相同條件下(僅僅只有是否使用通道選擇算法的區別),使用C3, C4, Cz三個通道信號(公認的與運動想象最相關的三個通道),平均準確率只有68.3%;不進行通道選擇而直接使用全部59通道得到的平均準確率只有65.7%。由此可見,通過Relief-SBS進行通道選擇,受試者的分類準確率得到了明顯的提高。
如表 2所示把本文算法所取得的分類結果與NIPS2001的最優競賽結果以及過往使用該數據進行分析的文獻進行了比較。對比可以發現,競賽第一名取得的平均分類準確率僅為76.0%[20], 而文獻[18]和[21]提出的方法也分別只取得了80.0%和80.6%的平均準確率,均低于本文所用算法的結果。

3.2 通道選擇算法比較
在使用同一EEG數據集的情況下,我們利用常見的特征選擇算法,Relief、mRMR、PCA、F-Score、CSP,進行通道選擇并進行分類,并把結果與本文算法的結果進行比較,結果如圖 2所示。

(a)各個受試者使用不同方法時取得的分類結果;(b)數據集在不同方法下的箱線圖
Figure2. Results comparison among different channel selection methods(a) The presentation of classification results of each subject achieved by different methods; (b) The box plots using different channel selection methods
從圖 2(a)可以看出,相比于Relief、mRMR、PCA、F-Score和CSP等方法,Relief-SBS算法選擇的通道信號在9個受試者上均取得了最優的分類結果。尤其是相比于PCA算法,Relief-SBS取得的分類結果優勢更加明顯。圖 2(b)為四種算法關于數據集的箱線圖,從中可以得到,由Relief-SBS得到的平均準確率為87.7%,相比于Relief(80.4%)、mRMR(81.0%)、F-Score(81.7%)和CSP(80.9%),分別提高了7.3%、6.7%、6.0%和6.8%。相比于使用PCA方法,其平均結果更是提高了24.4%。另外,使用Relief-SBS算法得到分類準確率的標準差也小于其他幾種方法,說明了本文方法的穩定性。由此可見,本文所提出的Relief-SBS在腦機接口通道選擇上有更好的性能。
3.3 最優通道的分布
本文為了驗證在無相關神經生理學背景知識的情況下Relief-SBS算法能否準確地選擇出與意識任務相關的EEG通道,因此一開始,我們使用了全部59個通道的信號,直接利用所提算法從中選擇出有用的通道。運動想象實驗背后的神經生理學原理已經通過大量的研究得到驗證,其想象左右手運動時引發的ERS與ERD現象主要發生于大腦運動皮層區域,因此我們以運動想象實驗為分析對象,驗證所提方法的準確性。
如圖 3所示展示了三個比較典型的受試者(S2, S3, S7)的最優通道拓撲分布圖。觀察可以發現,由算法篩選所得的三個受試者的最優通道主要位于大腦運動皮層區域,即通道C3、C4附近,這與左右手運動想象會在運動皮層區域誘發相關的EEG信號的理論一致。這說明了Relief-SBS算法在通道選擇上的準確性和有效性。另外,圖 3(b)中S3的最重要通道位于CP1和CP2位置之上,這也說明了對于不同的實驗對象,運動想象誘發的EEG信號發生位置會有所不同。所以,我們不能簡單地根據經驗或者神經生理學知識去選擇通道,此時,使用合適的通道選擇算法會更加科學和準確。

圖中所示各通道權重為通道中被選擇的頻段特征權重之和,非最優通道的權重為零。把各個通道投影到電極拓撲圖上,便可以得到各個重要通道的位置分布以及各自在分類中的重要性。(a)受試者S2;(b)受試者S3;(c)受試者S7
Figure3. Three typical subjects' topographies of optimal channelsAs this figure shows, channel weight of an optimal channel is the sum of selected bands weights in a channel, and the weight of a non-optimal channel is zero. The topographies are drawn by mapping channel weights onto the EEG caps, and thus the distribution of optimal channels and the importance of each channel for classification are shown. (a) subject S2; (b) subject S3; (c) subject S7
4 結語
通道選擇是運動想象EEG信號分類算法中的重要環節。本文提出了一種新型的通道選擇算法Relief-SBS,將Relief的基于統計相關性原理和SBS算法的迭代思想相結合,克服了Relief算法在小樣本情況下的易受噪聲干擾以及沒有考慮特征之間相關性的缺點。與常見的特征選擇方法相比,其選取的通道信號更準確,分類準確率也更高。以運動想象任務實驗的數據為分析對象,結果表明在不利用神經生理學背景知識的條件下,本文提出的算法選取的最優通道與已知的神經生理學結果基本一致。在接下來的研究中,我們將進一步改進本方法使其適應在線實時分類的需求。讓算法能快速地自適應選取與運動想象相關的通道,并能正確進行分類,從而提高腦機接口系統的便攜性與準確性。
引言
腦機接口(brain-computer interface, BCI)是近二三十年來出現的一種新型的人機交互技術。該系統不依賴于人體正常的外周神經通路與肌肉組織,直接通過計算機采集和分析腦電信號(electroencephalogram, EEG),從而實現大腦與外界環境的聯系與溝通[1]。現已有較多的腦機接口應用場景,如殘疾人假肢控制[2]、屏幕鼠標移動控制[3-4]等。在現有的腦機接口系統中,基于運動想象的腦機接口系統[3, 5]有著最廣泛的研究和應用。它利用軀體運動想象在大腦運動皮層區域誘發相應EEG信號來表達人腦的簡單意愿[6-7]。其中識別運動想象EEG信號是這類腦機接口系統得以實現的關鍵。
EEG信號通道選擇是識別運動想象EEG信號非常重要的一環,它直接影響到BCI系統的性能。對于一些大腦意識任務,誘發EEG信號的大腦皮層位置是已知的。比如,肢體運動想象誘發的EEG信號主要位于運動皮層(motor cortex)和運動前皮層(premotor cortex)等區域,所以只要選取位于這些區域之上的C3、C4及其附近的通道便可以取得良好的運動想象分類效果。但是,對于新的實驗范式,如果缺乏相關的神經生理學背景知識,我們便不能找到相關EEG信號誘發的通道位置。在這樣的情況下,如何選擇最優的EEG信號通道便顯得十分緊迫和重要。此外,即使對于已知的實驗范式,譬如基于運動想象的腦機接口實驗,對于不同的試驗者,運動想象相關EEG信號產生的區域也有所不同[7]。因此,在通道的使用上,我們不能簡單地認為選取C3、C4及其周邊的通道就必定能取得最優的分類效果。綜上所述,我們認為有必要提出一種在不參考任何先驗知識的情況下能準確地進行通道選擇的算法,以提高腦機接口系統的性能。
針對通道選擇的問題,不同的研究小組已分別提出了不同的研究方法。Lal等[8]使用了基于Fisher準則和支持向量機遞歸特征消除(support vector machine-recursive feature elimination, SVM-RFE)的通道篩選方法,實驗證明使用SVM-RFE能用較少的通道數量獲得更高的分類準確率。但是該方法計算量過大耗時較長,當分類算法變換時,通道選擇方法的可移植性也較差。Arvaneh等[9]提出了一種稀疏的共空間模式(sparse common spatial pattern, SCSP)算法,該算法用于運動想象實驗數據集的通道選擇,結果表明該方法能在保證分類準確率的情況下大量刪除多余的通道。與此類似的各種基于共空間模式(common spatial pattern, CSP)的改進方法也被用于特征提取和通道選擇[10-12]。Lan等[13]提出了基于互信息(mutual information)的方法,該方法用于通道重要性的排序,重要的通道有優先選擇的權利。但是此類方法只關注了特征與類別之間的相關性而忽視了特征與特征之間的關系,無法有效去除冗余特征。
基于綜合統計相關性的Relief算法[14]由于具有原理簡單、計算快速的特點,在特征選擇研究中有著良好的應用。Relief為篩選器(Filter)算法,其特征選擇過程與分類算法獨立,因此經過Relief算法篩選后的特征有較好的適用性,適用于各類分類算法。但是該方法也有一定的缺點:第一,當樣本數據量較小時,其基于統計相關性的計算過程容易受噪聲信號影響,由此得到的特征權重會有誤差;第二,Relief算法沒有充分考慮特征之間的聯系,因此由Relief選取的特征集合存在著冗余。本文在Relief算法基礎之上,結合了順序后向選擇法(sequential backward selection, SBS)[15]的迭代思想,提出了一種性能增強型的Relief-SBS通道選擇算法。該方法不僅保留了Relief算法固有的優點,還克服了其在小樣本時受噪聲影響大以及忽略特征相關性的缺點。本文以運動想象任務實驗的實驗數據為分析對象,以期取得滿意的實驗結果。
1 數據描述
本文所使用的實驗數據來自于NIPS 2001數據分析競賽,由賓夕法尼亞大學的Dr. Allen Osman提供[16]。實驗數據采集于運動想象任務實驗。在實驗中,受試者根據屏幕上的文字提示,進行左手或者右手運動想象。每次試驗持續時間為6 s,前3.75 s受試者處于安靜狀態,不做任何思維想象。當3.75 s時,屏幕中出現字幕“L”或“R”,該信號持續0.25 s,提示受試者準備開始試驗。5 s時,另一個提示符號“X”出現在屏幕,提醒受試者開始執行運動想象任務,若屏幕顯示“L”,則受試者想象左手運動;若屏幕顯示“R”,則受試者想象右手運動,一直持續到本次試驗結束。運動想象執行期間,不提供實時的視覺反饋給受試者。在整個實驗過程中,想象左手和想象右手的試驗隨機出現。這里,我們截取每次試驗的3.75~6.0 s時間段為單次試驗數據,長度為2.25 s。整個EEG信號數據集從59導的數據采集設備中采集得到,所用通道的分布遵照國際通用的10-20標準。數據采樣頻率為100 Hz,共采集了9個受試者的數據,每個受試者的實驗數據共包括180次試驗,其中左手運動想象90次和右手運動想象90次。
2 算法原理
2.1 信號預處理
由于從實驗中直接采集的EEG信號混雜著大量的噪聲,因此在進行特征提取之前,需要對信號進行預處理,去除EEG信號中的噪聲。本文的信號預處理過程主要包含兩部分:時域濾波和空間濾波。前者使用巴特沃斯帶通濾波過濾掉無關的低頻段和高頻段信號,濾波范圍為2~40 Hz;后者使用表面拉普拉斯濾波算法(surface laplacian filtering)[17]去除相鄰EEG信號通道之間的相互影響。通過這兩次濾波,可以得到比較光滑、低噪聲的EEG信號。
2.2 特征提取
大量文獻研究表明:對于運動想象任務,在5~35 Hz的頻帶范圍內,我們能觀察到事件相關同步/去同步(event related synchronization/desynchronization, ERS/ERD)現象[6],即某些頻段的信號能量發生了變化,表現為同步增強或減弱。尤其是在mu頻段(8~12 Hz)和beta頻段(15~28 Hz)內,該現象最為顯著。因為ERS/ERD現象主要體現在較窄的頻段內,所以我們根據等比頻寬公式把整個5~35 Hz頻段分解成13個部分重疊的子頻段[18](5.25~6.75 Hz, 6.0~7.71 Hz, 6.86~8.82 Hz, 7.84~10.08 Hz, 8.96~11.52 Hz, 10.24~13.16 Hz, 11.70~15.04 Hz, 13.37~17.19 Hz, 15.28~19.64 Hz, 17.46~22.45 Hz, 19.96~25.66 Hz, 22.81~29.32 Hz, 26.07~33.51 Hz),信號的能量特征在該13個頻段上提取。本文中,我們用EEG信號的信號包絡(envelope)來描述頻帶信號的能量變化。為了提取特定頻段信號的包絡線,我們對每一個子頻帶信號進行希爾伯特變換(Hilbert transform),對變換后的信號求模便得到該頻段上的信號包絡。一個實信號x(t)的希爾伯特變換如公式(1)所示,公式(2)為其解析信號,而原始實信號x(t)的信號包絡由公式(3)計算得到。
$ \hat{x}\left(t \right)=x\left(t \right)*\frac{1}{\pi t}=\frac{1}{\pi }\int\limits_{-\infty }^{+\infty }{\frac{x\left(\tau \right)}{t-\tau }}\text{d}\tau $ |
$ g\left(t \right)=x\left(t \right)+j\hat{x}\left(t \right) $ |
$ A\left(t \right)=\sqrt{{{x}^{2}}\left(t \right)+{{{\hat{x}}}^{2}}\left(t \right)} $ |
利用上述方法,每個通道信號被分解成13個特征信號。如圖 1所示,我們以C3、C4通道為例,兩通道信號分別被分解成13個子頻段(FB1~FB13)的信號,紅色虛線為每個頻段的能量包絡線。單次試驗時間內的能量平均值即為該頻段的特征值。為了測試本文所提方法在缺乏神經生理學先驗知識的情況下是否依然能夠篩選出與意識任務相關的EEG信號通道。初始狀態下,我們提取了全部59通道信號的特征作為初始特征集合,再由Relief-SBS算法進行通道的選擇。

通道C3和C4的源信號各自被分解成FB1~FB13共13個子頻段信號,各個子頻段信號上的紅色虛線即為信號的包絡線,表示子頻段信號能量的大小。單次試驗時間內的能量平均值即為該子頻段的特征值。
Figure1. Diagram of feature extraction from channels C3 and C4Original signals from channels C3 and C4 are separately divided into 13 frequency bands: FB1~FB13. The red line over each signal is the envelope of each band signal, which reflects the instantaneous energy. The mean value of an envelope over a trial time represents one pattern value
2.3 通道選擇
因為每個通道信號被提取成13個頻段特征,因此用Relief-SBS進行特征篩選,也就是決定了通道的選擇。在介紹本文所利用的Relief-SBS算法的原理之前,我們先簡單介紹下Relief算法。
2.3.1 Relief算法
原始的Relief算法根據各個特征和類別的相關性賦予特征不同的權重,相關性強的特征其權重較大,相關性弱的特征則權重較小。權重的計算過程如下:先從訓練集中隨機抽取一個訓練樣本R,然后從R同類的樣本集中選取最近鄰樣本(稱為near hit),再從與R不同類的樣本集中選取最近鄰樣本(稱為near miss)。如果R和near hit在某個特征上的距離小于R和near miss的距離,則說明該特征有利于分類,增加該特征的權重;反之,則說明該特征不利于分類,降低該特征的權重。重復這樣的計算過程m次,最終得到單個特征的權重。權重的單次迭代計算公式如下所示:
$ \begin{matrix} W_{j}^{i+1}=W_{j}^{i}-\text{diff}\left(j, x, {{x}_{H}} \right)/m+\text{diff}\left(j, x, {{x}_{M}} \right)/m \ \text{diff}\left(j, {{x}_{a}}, {{x}_{b}} \right)=\frac{\left| {{x}_{aj}}-{{x}_{bj}} \right|}{\max \left({{x}_{*j}} \right)-\min \left({{x}_{*j}} \right)} \ \end{matrix} $ |
式中,Wji表示第j個特征的權重值,xi=[xi1, xi1, …, xiN]表示第i個樣本的N個特征,m表示上述計算過程的重復次數,diff(j, xa, xb))為樣本xa和xb在第j個特征上的歸一化距離,其中max(x*j)表示樣本在j特征上的最大值,min(x*j)表示樣本在j特征上的最小值。
當所有特征的權重都計算結束時,我們根據閾值進行特征的篩選。如果特征的權重大于閾值,保留該特征,否則刪除該特征。
2.3.2 Relief-SBS算法
Relief算法在特征選擇上存在著一定的缺點,而SBS算法的特點正好彌補了Relief算法的短板。因此本研究結合兩者的算法原理,提出了性能增強型的Relief-SBS算法。
Relief-SBS算法的計算過程主要分為兩個階段:首先,利用Relief算法的統計相關性原理計算出各個特征的權重, 計算過程與Relief的公式(4)一致。所有權重大于零的特征被保留,小于等于零的特征被剔除。剩余特征依據特征權重大小進行降序排序。第二階段,我們把第一階段篩選后保留的特征設為全集O,每次從特征集O中剔除一個特征x,計算此時的評價函數J(X)值。如果刪除特征x后,評價函數沒有變優,則說明該特征為冗余特征或無關特征,從集合中剔除特征x;反之,則該特征為有用特征,繼續保留。如此循環計算,直至評價函數J(X)達到最優。此時剩余的特征子集即為最優的特征集合。這里,我們的評價函數為皮爾遜相關系數法(correlation coefficient)作為分類器取得的分類準確率。
在特征選擇中,通道信號中的每個頻段特征都作為獨立個體參與特征的篩選。每個通道包含13個頻段特征,特征選擇結束后,那些至少保留了一個最優特征的通道才被認為是最優通道。
2.4 分類算法
本文重點研究是通道選擇算法,而分類算法并不是本文關注的焦點,所以我們使用比較常見的皮爾遜相關系數法作為本文的分類算法。相比于貝葉斯分類器、SVM等方法,它具有計算簡單、快速的特點,擴展到在線分類時更有優勢。算法的原理如公式(5)所示,其中特征模式P為訓練集中同類樣本的特征向量的均值向量。當為左手運動想象時,訓練集的特征模式為PL,當為右手運動想象時,訓練集的特征模式為PR,這里統一標記為P={PL, PR}。對于測試集中待分類的樣本向量p,我們按照公式(5)計算其與左右特征模式之間的相關系數的大小。
$ C\left(p, P \right)=\frac{{{\left(p-\overline{p} \right)}^{T}}\left(P-\overline{P} \right)}{\left\| p-\overline{p} \right\|\cdot \left\| P-\overline{P} \right\|} $ |
式中和分別為特征向量
$ h\left(p \right)=\sgn \left[ C\left(p, {{P}_{L}} \right)-C\left(p, {{P}_{R}} \right) \right] $ |
如果h(p)=1表示樣本p屬于左手運動想象類別,如果h(p)=-1表示樣本p屬于右手運動想象類別。
我們用十倍交叉驗證法(10-fold cross validation)[19]來估計分類算法的泛化誤差,最終的分類準確率即為各倍測試數據準確率的均值。
3 實驗分析
3.1 分類結果
在運動想象分類中,利用與想象任務相關的通道信號進行分類才能取得最優的結果。額外增加與想象任務無關的通道,會引入噪聲和冗余信號,從而會降低系統的識別性能。在本文中,我們以運動想象實驗數據為分析對象,使用Relief-SBS算法快速篩選出與運動想象相關的通道,并結合相關系數進行分類。為了驗證通道選擇算法的有效性,對比了三種不同通道集合下所取得的結果:①Relief-SBS通道選擇后;②全通道,即不進行通道選擇;③根據神經生理學知識選取的三通道C3、C4和Cz,結果如表 1所示。

由表 1可知,使用Relief-SBS算法選擇的通道信號可使9個受試者的平均分類準確率達到87.7%。而在相同條件下(僅僅只有是否使用通道選擇算法的區別),使用C3, C4, Cz三個通道信號(公認的與運動想象最相關的三個通道),平均準確率只有68.3%;不進行通道選擇而直接使用全部59通道得到的平均準確率只有65.7%。由此可見,通過Relief-SBS進行通道選擇,受試者的分類準確率得到了明顯的提高。
如表 2所示把本文算法所取得的分類結果與NIPS2001的最優競賽結果以及過往使用該數據進行分析的文獻進行了比較。對比可以發現,競賽第一名取得的平均分類準確率僅為76.0%[20], 而文獻[18]和[21]提出的方法也分別只取得了80.0%和80.6%的平均準確率,均低于本文所用算法的結果。

3.2 通道選擇算法比較
在使用同一EEG數據集的情況下,我們利用常見的特征選擇算法,Relief、mRMR、PCA、F-Score、CSP,進行通道選擇并進行分類,并把結果與本文算法的結果進行比較,結果如圖 2所示。

(a)各個受試者使用不同方法時取得的分類結果;(b)數據集在不同方法下的箱線圖
Figure2. Results comparison among different channel selection methods(a) The presentation of classification results of each subject achieved by different methods; (b) The box plots using different channel selection methods
從圖 2(a)可以看出,相比于Relief、mRMR、PCA、F-Score和CSP等方法,Relief-SBS算法選擇的通道信號在9個受試者上均取得了最優的分類結果。尤其是相比于PCA算法,Relief-SBS取得的分類結果優勢更加明顯。圖 2(b)為四種算法關于數據集的箱線圖,從中可以得到,由Relief-SBS得到的平均準確率為87.7%,相比于Relief(80.4%)、mRMR(81.0%)、F-Score(81.7%)和CSP(80.9%),分別提高了7.3%、6.7%、6.0%和6.8%。相比于使用PCA方法,其平均結果更是提高了24.4%。另外,使用Relief-SBS算法得到分類準確率的標準差也小于其他幾種方法,說明了本文方法的穩定性。由此可見,本文所提出的Relief-SBS在腦機接口通道選擇上有更好的性能。
3.3 最優通道的分布
本文為了驗證在無相關神經生理學背景知識的情況下Relief-SBS算法能否準確地選擇出與意識任務相關的EEG通道,因此一開始,我們使用了全部59個通道的信號,直接利用所提算法從中選擇出有用的通道。運動想象實驗背后的神經生理學原理已經通過大量的研究得到驗證,其想象左右手運動時引發的ERS與ERD現象主要發生于大腦運動皮層區域,因此我們以運動想象實驗為分析對象,驗證所提方法的準確性。
如圖 3所示展示了三個比較典型的受試者(S2, S3, S7)的最優通道拓撲分布圖。觀察可以發現,由算法篩選所得的三個受試者的最優通道主要位于大腦運動皮層區域,即通道C3、C4附近,這與左右手運動想象會在運動皮層區域誘發相關的EEG信號的理論一致。這說明了Relief-SBS算法在通道選擇上的準確性和有效性。另外,圖 3(b)中S3的最重要通道位于CP1和CP2位置之上,這也說明了對于不同的實驗對象,運動想象誘發的EEG信號發生位置會有所不同。所以,我們不能簡單地根據經驗或者神經生理學知識去選擇通道,此時,使用合適的通道選擇算法會更加科學和準確。

圖中所示各通道權重為通道中被選擇的頻段特征權重之和,非最優通道的權重為零。把各個通道投影到電極拓撲圖上,便可以得到各個重要通道的位置分布以及各自在分類中的重要性。(a)受試者S2;(b)受試者S3;(c)受試者S7
Figure3. Three typical subjects' topographies of optimal channelsAs this figure shows, channel weight of an optimal channel is the sum of selected bands weights in a channel, and the weight of a non-optimal channel is zero. The topographies are drawn by mapping channel weights onto the EEG caps, and thus the distribution of optimal channels and the importance of each channel for classification are shown. (a) subject S2; (b) subject S3; (c) subject S7
4 結語
通道選擇是運動想象EEG信號分類算法中的重要環節。本文提出了一種新型的通道選擇算法Relief-SBS,將Relief的基于統計相關性原理和SBS算法的迭代思想相結合,克服了Relief算法在小樣本情況下的易受噪聲干擾以及沒有考慮特征之間相關性的缺點。與常見的特征選擇方法相比,其選取的通道信號更準確,分類準確率也更高。以運動想象任務實驗的數據為分析對象,結果表明在不利用神經生理學背景知識的條件下,本文提出的算法選取的最優通道與已知的神經生理學結果基本一致。在接下來的研究中,我們將進一步改進本方法使其適應在線實時分類的需求。讓算法能快速地自適應選取與運動想象相關的通道,并能正確進行分類,從而提高腦機接口系統的便攜性與準確性。