在腦-機接口(BCI)中,為了提高小樣本學習運動想象腦電信號(EEG)的分類識別準確率,本文提出一種基于相關系數分析的特征選擇方法。針對2005年BCI競賽數據集Ⅳa中5位樣本數據,通過短時傅里葉變換(STFT)和相關系數的計算,降低了原始EEG信號的維數,然后進行共空間模式(CSP)特征提取與線性判別分類器(LDA)的分類識別。仿真實驗表明,運用相關系數分析的分類性能遠遠優于未經特征優化的結果,與支持向量機(SVM)的特征優化算法相比,相關系數分析方法能更好地選擇導聯參數,提高分類識別準確率。
引用本文: 周金治, 唐肖芳. 基于相關系數分析的腦電信號特征選擇. 生物醫學工程學雜志, 2015, 32(4): 735-739. doi: 10.7507/1001-5515.20150134 復制
引言
自20世紀70年代起,學者們就已經開始了對“腦-機接口”(brain-computer interface,BCI)技術的研究。早在1999年第一次BCI國際會議上就對BCI含義進行了界定:BCI是大腦與外部設備之間建立的一種直接交流通道,它不依賴于外周神經和肌肉組織,為那些不能通過語言或肢體動作來表達想法或控制外部設備的人提供一種與外界進行交流與溝通的新途徑[1]。作為一種新興、復雜且涉及多學科的交叉技術,BCI系統研究熱點為腦電信號(electroencephalogram,EEG)的特征提取與模式分類[2],但是面向小樣本學習運動想象EEG信號,如果用大量特征進行分類器的訓練,無論從計算的復雜程度還是分類性能來看都是不恰當的,因此如何把高維特征空間壓縮到低維特征空間就成了一個重要的研究課題。
關于如何分析各種特征的有效性并選擇出最具有代表性的特征,文獻[3]提出一種基于Fisher判據的EEG信號特征優化選擇方法,文中4個受試者的平均最大分類正確率達到87.95%,分類性能遠遠優于未經特征優化選擇的結果,但是分類精確度還不是很高;文獻[4]提出一種基于支持向量機(support vector machine,SVM)的導聯選擇算法,有效地降低了導聯參數,提高了分類識別率,但是SVM算法速度較慢,占用資源較多,不利于在線算法的實現;文獻[5]提出了基因優化算法的EEG信號特征選擇,可以在提高分類精度的同時降低數據處理時間,但是由于算法參數對求解效率和優化性能影響較大,穩定性能不是很好。綜合以上各種算法的優缺點,本文提出了基于相關系數分析的特征選擇算法。
EEG信號是一種非平穩信號,了解其在不同時刻附近的頻域特征至關重要。基于相關系數的特征選擇算法是在短時傅里葉變換(short-time Fourier transform,STFT)的基礎上進行的,STFT是一種常用的時頻分析方法,可以將一維的時域信號映射到一個二維的時頻平面,有效地呈現出每一時刻的時頻信息。然后從特征相關系數大小出發,不需要對時頻特征參數做任何變換處理,直接從原始特征集中選擇與任務向量相關系數較大的參數進行分類測試,避免了原始信息的丟失,具有簡單、快速、高效的優點,在運動想象EEG信號的特征選擇中有較好的應用。
1 相關系數分析的特征選擇算法
1.1 相關系數
相關系數由卡爾·皮爾遜(Karl Pearson)在19世紀80年代提出,是衡量兩個隨機變量之間線性相關程度的指標,描述的是一種非確定性的關系。兩個隨機變量X、Y的相關系數r的計算公式如式(1)所示:
$\begin{array}{l} r = \frac{{Co\upsilon \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}}\\ = \frac{{E\left[ {\left\{ {\left( X \right. - E\left( X \right)} \right\}\left\{ {\left( Y \right. - E\left( Y \right)} \right\}} \right]}}{{{{\left[ {E{{\left\{ {X - E\left( X \right)} \right\}}^2}} \right]}^{\frac{1}{2}}}{{\left[ {E{{\left\{ {Y - E\left( Y \right)} \right\}}^2}} \right]}^{\frac{1}{2}}}}} \end{array}$ |
式中Cov(X,Y)為隨機變量X與Y的協方差函數,σX,σY分別代表了兩個變量的標準差,E(X),E(Y)為兩者的平均值。相關系數r的取值范圍是[-1, 1],表示變量之間相關程度的高低,r的絕對值取值越大,其相關度越高。r>0表示正相關,r<0表示負相關,特殊地,r=1稱為完全正相關,r=-1稱為完全負相關,r=0稱為不相關。
1.2 相關系數的特征選擇算法
假如x(m)是想象運動多導聯EEG信號,r表示特征參數與任務的相關性,反映了任務種類,即可預測的信息。在兩類任務的情況下,任務向量Y取值為1和-1,分別代表了兩種想象運動,特征向量是X,X由X+1和X-1組成。基于相關系數的特征選擇算法的實現原理如圖 1所示,首先對原始EEG信號進行STFT,采用STFT方法分析任務相關的時頻能量分布,然后計算出時頻平面上每一點與任務向量的相關系數,通過相關系數的大小可以選擇最有效的參數。

STFT是對信號加上一個滑動窗,分別求出窗內信號的離散傅里葉變換(discrete Fourier transform,DFT)。其n時刻的短時段數據可定義為:
${x_n}\left( m \right) = x\left( m \right)w\left( {n - m} \right)$ |
其中w(n)為窗函數,長度為Nw,并呈中心對稱。上式的DFT可表示為:
$X\left( {n,w} \right) = \sum\limits_m x \left( m \right)w\left( {n - m} \right){e^{ - jmw}} = \sum\limits_m {{x_n}} \left( m \right){e^{ - jmw}}$ |
采用STFT計算出任務下各自的時頻能量分布,然后計算出時頻平面上每一點與任務向量Y的相關系數。由于兩類樣本的數量相同,所以E(X)=0,E(Y)=0。則式(1)的計算結果如下:
$\begin{array}{l} r\left( {X,Y} \right) = \frac{{Co\upsilon \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}} = \frac{{E\left( {XY} \right) - E\left( X \right)E\left( Y \right)}}{{{\sigma _X}{\sigma _Y}}}\\ = \frac{{E\left( {XY} \right)}}{{{\sigma _X}}} = \frac{{E\left( {{X_{ + 1}}} \right) - E\left( {{X_{ - 1}}} \right)}}{{2{\sigma _X}}} \end{array}$ |
當X+1和X-1的均值相等時,|r(X,Y)|=0,特征不包含對分類有用的信息,|r(X,Y)|=1,知道任務的種類即可得到特征的準確值,特征對應的分類識別率為100%,所以通過|r(X,Y)|的大小可以有效地選擇對想象運動任務向量貢獻度較大的頻率和電極參數。
2 相關系數分析方法在EEG信號分類識別中的應用
2.1 實驗數據
采用的實驗數據集是2005年BCI競賽的數據集Ⅳa——“小樣本學習運動想象EEG數據集”[6],由德國柏林的BCI研究組提供,包含5位受試者(aa,al,av,aw,ay)想象右手、腳運動的EEG數據。EEG信號采集使用118導聯Brain Amp腦電圖機,頻率為0~50 Hz。受試者舒適地坐在椅子上,電腦顯示器上出現的圖片或符號作為想象任務開始和結束的提示,任務提示出現后,受試者開始執行想象左右手動或腳動的任務,想象持續的時間為3.5 s,想象任務之后是時間不固定的休息(1.75~2.25 s)。每位受試者采集了4組數據,每組70個樣本(每類35個),共有280個樣本(每類140個)。其中有標簽的一部分為訓練集,用于特征提取和分類器訓練,剩余作為測試集,用于算法性能的評價,5位受試者訓練集的大小分別占總樣本數的60%、80%、30%、20%和10%。
2.2 EEG信號分類識別的實驗方案
在BCI系統中,數據分析主要針對大腦運動皮層相應區域的事件相關去同步化和同步化(event-related desynchronization/synchronization,ERD/ERS)現象。ERD是EEG信號中與特定的神經活動事件相關的腦電節律能量的衰減過程,ERS則表現為能量的上升過程。想象運動引起的ERD/ERS通常出現在mu和beta節律所在的5~30 Hz的范圍內,在空間分布上符合大腦感覺運動皮層的軀體特定區域分布。從運動想象EEG信號中提取出ERD/ERS在頻率與空間上的分布特點是實現分類識別的關鍵。基于相關系數分析方法的運動想象EEG信號分類識別的實驗方案,如圖 2所示。

系統采用“訓練-測試”兩步模式進行EEG信號的識別分類,輸入部分為EEG數據,輸出為分類準確識別率,核心部分為中間信號處理環節,包括特征選擇、特征提取、識別分類三大步驟。在訓練模式下,首先依據相關系數分析方法選擇最佳的頻率與電極參數,采用巴特沃斯帶通濾波器進行頻域濾波,并截取出所選電極通道采集到的數據;然后對特征選擇后的訓練樣本進行共空間模式(common spatial pattern,CSP)的訓練,訓練的目的是設計出能夠提取與任務相關EEG信號特征的空間濾波器,參照文獻[7]和[8]中CSP算法的計算步驟,得到與右手、腳相對應的空間濾波器,通過空間濾波器使兩類樣本能夠被最大限度地區分,即可得到與任務相關的EEG成分;EEG數據特征提取后開始分類器的設計,線性判別式分析(linear discriminant analysis,LDA)分類器簡單且易于實現,執行速度快,只需要很少的樣本就可得到較好的識別結果,是BCI系統最常用的分類方法[9],以文獻[7]和[10]中分類器的計算步驟為依據,設計最優的LDA分類器,對訓練樣本識別分類,輸出最終的識別準確率。在測試模式下,使用訓練模式得到的頻率、電極導聯優化參數對BCI測試樣本數據進行選擇,其后利用訓練模式下設計的CSP空間濾波器和LDA分類器對測試樣本進行想象運動EEG信號的識別分類,驗證算法的實用性與有效性。
3 實驗結果
3.1 EEG信號特征參數選擇
基于相關系數特征選擇的關鍵技術就是尋找有效的頻率、電極參數,進而提高分類識別準確率。按照1.2節講述的相關系數特征選擇的算法原理,對數據集中5個受試樣本分別進行想象運動EEG信號的參數選擇。以受試者al為例,圖 3為使用相關系數分析方法得到的頻域分布與空間分布示意圖。

圖 3為計算|r(X,Y)|的時頻分布圖和電極分布圖。如圖 3所示,采用STFT計算出兩種任務下各自EEG信號的時頻能量分布,計算出時頻平面上每一點的r(X,Y),得到|r(X,Y)|時頻分布。選擇想象運動執行過程中mu和beta節律變化最顯著的頻率用于后續的頻率參數,即選擇|r(X,Y)|較大的頻率11~14 Hz。選取時頻|r(X,Y)|分布中取值最大的點,即時間為0.8 s,頻率為12 Hz,即可計算得到118導聯每一通道的|r(X,Y)|電極空間分布圖。空間分布圖中左右中央區域的|r(X,Y)|值較大,這些區域分別對應了運動皮層的初級運動區,是ERD/ERS變化最顯著的部分,刪除無關和冗余的電極向量,從圖中挑選出白色區域對應的電極通道組合用于分類識別。
3.2 EEG信號的分類識別
通過相關系數算法可以選擇出與任務類別相關性較大的頻率、電極參量,然后對小樣本運動想象EEG信號數據集Ⅳa的5個受試者分別進行分類識別仿真測試,實驗結果如表 1所示。

原EEG數據經過相關系數分析的EEG信號特征選擇,剔除冗余特征向量,頻率范圍與導聯數目大幅度減少。由于5個受試者存在個體差異性,選擇的頻率與導聯參數各不相同,并且由于5位受試者訓練集的大小也各不相同,受試者在訓練模式與測試模式下取得了不同的分類識別準確率。如表 1所示,受試者al在訓練模式下取得的識別準確率為97.77%,測試模式下的分類識別準確率甚至達到了100%,這是因為al的訓練集占總樣本數的80%,訓練樣本集最多,所以訓練得到的頻率、電極參數以及空間濾波器與分類器最合適,取得的識別準確率最高。而受試者ay訓練集占總樣本數的10%,雖然訓練樣本的識別準確率達到了100%,但是因為訓練樣本較少,存在“過學習”的問題,所以測試模式下僅取得了71.43%的識別準確率。但是就平均情況來看,受試者在訓練模式得到的識別率均值為95.05%,測試模式下為85.55%,均取得了不錯的分類識別準確率。
3.3 EEG信號分類識別結果比較
在特征提取與分類前進行基于相關系數分析方法的特征選擇能否取得較好的分類效果呢?我們通過對數據集中5個受試者分別進行兩種方案的分類識別來驗證該算法的有效性。方案一是沒有進行基于相關系數的特征優化選擇,直接對EEG信號使用了CSP空間濾波器與LDA分類器進行特征提取和分類識別,輸出分類識別準確率;方案二是采用了基于相關系數分析的參數優化,在此基礎上使用了方案一中的特征提取與分類算法,得到最終的識別結果。兩種方案的分類結果如圖 4所示。

圖 4分別展示了訓練模式下和測試模式下的分類識別結果。如圖 4所示,除了受試者ay在訓練模式下的測試樣本較少,只占總樣本數的10%,所以兩種方案下的識別效果不明顯以外,其余受試者在訓練模式與測試模式下方案二的分類識別率均有了明顯提高,其中訓練模式下平均識別準確率提高了1.75%,測試模式下的平均識別準確率提高了17.99%,因此可以證明基于相關系數的特征優化可以有效地提高樣本的分類識別準確率,在BCI的信號處理領域有較好的應用價值。
為了進一步驗證相關系數分析方法能否有效提高分類識別準確率,把本方案的實驗結果與文獻[4]提出的基于SVM特征優化分類識別的精度相比較,由于文獻[4]是選取的樣本al、aw進行驗證,所以如表 2所示,以受試者al、aw測試模式下的實驗結果予以對比展示。方案一是沒有使用兩種特征選擇算法的EEG信號的識別分類,方案二是分別采用SVM與相關系數進行特征選擇的分類識別。

如表 2所示,兩種算法均能有效地減少導聯的特征數目,提高樣本的分類識別準確率。其中基于相關系數的特征選擇能更好地選取導聯參數,降低原始信號的維數,并且在兩種方案下,受試者al、aw的識別準確率均有了明顯提高,很好地說明基于相關系數的選擇算法能更好地適用于EEG信號的分類識別研究。
4 結論
在BCI的信號采集過程中,由于采用不同的硬件設備與實驗模式,采集到的EEG信號由不同的時間、頻率、通道參數構成,怎樣適時、高效地選擇最優參數成為研究熱點。本文主要討論了BCI中現有的特征選擇方法及其主要存在的問題,提出了一種基于相關系數分析的運動想象EEG信號特征選擇算法。針對2005年BCI競賽的5位受試樣本進行了分類識別,并且為了驗證該算法的有效性,與未使用該算法的分類識別結果進行了比較。實驗結果顯示依據相關系數大小對EEG信號主要參數進行選擇,有效地降低了原始信號特征維數,提高了分類識別率。最后將該算法與SVM特征優化算法的實驗結果進行了比較,進一步證明了基于相關系數分析方法的實用性。所以在今后的實驗中我們可以引入基于相關系數的特征選擇算法,幫助實驗者提高數據運算速度與分類識別準確率,使BCI技術得到進一步的發展。
引言
自20世紀70年代起,學者們就已經開始了對“腦-機接口”(brain-computer interface,BCI)技術的研究。早在1999年第一次BCI國際會議上就對BCI含義進行了界定:BCI是大腦與外部設備之間建立的一種直接交流通道,它不依賴于外周神經和肌肉組織,為那些不能通過語言或肢體動作來表達想法或控制外部設備的人提供一種與外界進行交流與溝通的新途徑[1]。作為一種新興、復雜且涉及多學科的交叉技術,BCI系統研究熱點為腦電信號(electroencephalogram,EEG)的特征提取與模式分類[2],但是面向小樣本學習運動想象EEG信號,如果用大量特征進行分類器的訓練,無論從計算的復雜程度還是分類性能來看都是不恰當的,因此如何把高維特征空間壓縮到低維特征空間就成了一個重要的研究課題。
關于如何分析各種特征的有效性并選擇出最具有代表性的特征,文獻[3]提出一種基于Fisher判據的EEG信號特征優化選擇方法,文中4個受試者的平均最大分類正確率達到87.95%,分類性能遠遠優于未經特征優化選擇的結果,但是分類精確度還不是很高;文獻[4]提出一種基于支持向量機(support vector machine,SVM)的導聯選擇算法,有效地降低了導聯參數,提高了分類識別率,但是SVM算法速度較慢,占用資源較多,不利于在線算法的實現;文獻[5]提出了基因優化算法的EEG信號特征選擇,可以在提高分類精度的同時降低數據處理時間,但是由于算法參數對求解效率和優化性能影響較大,穩定性能不是很好。綜合以上各種算法的優缺點,本文提出了基于相關系數分析的特征選擇算法。
EEG信號是一種非平穩信號,了解其在不同時刻附近的頻域特征至關重要。基于相關系數的特征選擇算法是在短時傅里葉變換(short-time Fourier transform,STFT)的基礎上進行的,STFT是一種常用的時頻分析方法,可以將一維的時域信號映射到一個二維的時頻平面,有效地呈現出每一時刻的時頻信息。然后從特征相關系數大小出發,不需要對時頻特征參數做任何變換處理,直接從原始特征集中選擇與任務向量相關系數較大的參數進行分類測試,避免了原始信息的丟失,具有簡單、快速、高效的優點,在運動想象EEG信號的特征選擇中有較好的應用。
1 相關系數分析的特征選擇算法
1.1 相關系數
相關系數由卡爾·皮爾遜(Karl Pearson)在19世紀80年代提出,是衡量兩個隨機變量之間線性相關程度的指標,描述的是一種非確定性的關系。兩個隨機變量X、Y的相關系數r的計算公式如式(1)所示:
$\begin{array}{l} r = \frac{{Co\upsilon \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}}\\ = \frac{{E\left[ {\left\{ {\left( X \right. - E\left( X \right)} \right\}\left\{ {\left( Y \right. - E\left( Y \right)} \right\}} \right]}}{{{{\left[ {E{{\left\{ {X - E\left( X \right)} \right\}}^2}} \right]}^{\frac{1}{2}}}{{\left[ {E{{\left\{ {Y - E\left( Y \right)} \right\}}^2}} \right]}^{\frac{1}{2}}}}} \end{array}$ |
式中Cov(X,Y)為隨機變量X與Y的協方差函數,σX,σY分別代表了兩個變量的標準差,E(X),E(Y)為兩者的平均值。相關系數r的取值范圍是[-1, 1],表示變量之間相關程度的高低,r的絕對值取值越大,其相關度越高。r>0表示正相關,r<0表示負相關,特殊地,r=1稱為完全正相關,r=-1稱為完全負相關,r=0稱為不相關。
1.2 相關系數的特征選擇算法
假如x(m)是想象運動多導聯EEG信號,r表示特征參數與任務的相關性,反映了任務種類,即可預測的信息。在兩類任務的情況下,任務向量Y取值為1和-1,分別代表了兩種想象運動,特征向量是X,X由X+1和X-1組成。基于相關系數的特征選擇算法的實現原理如圖 1所示,首先對原始EEG信號進行STFT,采用STFT方法分析任務相關的時頻能量分布,然后計算出時頻平面上每一點與任務向量的相關系數,通過相關系數的大小可以選擇最有效的參數。

STFT是對信號加上一個滑動窗,分別求出窗內信號的離散傅里葉變換(discrete Fourier transform,DFT)。其n時刻的短時段數據可定義為:
${x_n}\left( m \right) = x\left( m \right)w\left( {n - m} \right)$ |
其中w(n)為窗函數,長度為Nw,并呈中心對稱。上式的DFT可表示為:
$X\left( {n,w} \right) = \sum\limits_m x \left( m \right)w\left( {n - m} \right){e^{ - jmw}} = \sum\limits_m {{x_n}} \left( m \right){e^{ - jmw}}$ |
采用STFT計算出任務下各自的時頻能量分布,然后計算出時頻平面上每一點與任務向量Y的相關系數。由于兩類樣本的數量相同,所以E(X)=0,E(Y)=0。則式(1)的計算結果如下:
$\begin{array}{l} r\left( {X,Y} \right) = \frac{{Co\upsilon \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}} = \frac{{E\left( {XY} \right) - E\left( X \right)E\left( Y \right)}}{{{\sigma _X}{\sigma _Y}}}\\ = \frac{{E\left( {XY} \right)}}{{{\sigma _X}}} = \frac{{E\left( {{X_{ + 1}}} \right) - E\left( {{X_{ - 1}}} \right)}}{{2{\sigma _X}}} \end{array}$ |
當X+1和X-1的均值相等時,|r(X,Y)|=0,特征不包含對分類有用的信息,|r(X,Y)|=1,知道任務的種類即可得到特征的準確值,特征對應的分類識別率為100%,所以通過|r(X,Y)|的大小可以有效地選擇對想象運動任務向量貢獻度較大的頻率和電極參數。
2 相關系數分析方法在EEG信號分類識別中的應用
2.1 實驗數據
采用的實驗數據集是2005年BCI競賽的數據集Ⅳa——“小樣本學習運動想象EEG數據集”[6],由德國柏林的BCI研究組提供,包含5位受試者(aa,al,av,aw,ay)想象右手、腳運動的EEG數據。EEG信號采集使用118導聯Brain Amp腦電圖機,頻率為0~50 Hz。受試者舒適地坐在椅子上,電腦顯示器上出現的圖片或符號作為想象任務開始和結束的提示,任務提示出現后,受試者開始執行想象左右手動或腳動的任務,想象持續的時間為3.5 s,想象任務之后是時間不固定的休息(1.75~2.25 s)。每位受試者采集了4組數據,每組70個樣本(每類35個),共有280個樣本(每類140個)。其中有標簽的一部分為訓練集,用于特征提取和分類器訓練,剩余作為測試集,用于算法性能的評價,5位受試者訓練集的大小分別占總樣本數的60%、80%、30%、20%和10%。
2.2 EEG信號分類識別的實驗方案
在BCI系統中,數據分析主要針對大腦運動皮層相應區域的事件相關去同步化和同步化(event-related desynchronization/synchronization,ERD/ERS)現象。ERD是EEG信號中與特定的神經活動事件相關的腦電節律能量的衰減過程,ERS則表現為能量的上升過程。想象運動引起的ERD/ERS通常出現在mu和beta節律所在的5~30 Hz的范圍內,在空間分布上符合大腦感覺運動皮層的軀體特定區域分布。從運動想象EEG信號中提取出ERD/ERS在頻率與空間上的分布特點是實現分類識別的關鍵。基于相關系數分析方法的運動想象EEG信號分類識別的實驗方案,如圖 2所示。

系統采用“訓練-測試”兩步模式進行EEG信號的識別分類,輸入部分為EEG數據,輸出為分類準確識別率,核心部分為中間信號處理環節,包括特征選擇、特征提取、識別分類三大步驟。在訓練模式下,首先依據相關系數分析方法選擇最佳的頻率與電極參數,采用巴特沃斯帶通濾波器進行頻域濾波,并截取出所選電極通道采集到的數據;然后對特征選擇后的訓練樣本進行共空間模式(common spatial pattern,CSP)的訓練,訓練的目的是設計出能夠提取與任務相關EEG信號特征的空間濾波器,參照文獻[7]和[8]中CSP算法的計算步驟,得到與右手、腳相對應的空間濾波器,通過空間濾波器使兩類樣本能夠被最大限度地區分,即可得到與任務相關的EEG成分;EEG數據特征提取后開始分類器的設計,線性判別式分析(linear discriminant analysis,LDA)分類器簡單且易于實現,執行速度快,只需要很少的樣本就可得到較好的識別結果,是BCI系統最常用的分類方法[9],以文獻[7]和[10]中分類器的計算步驟為依據,設計最優的LDA分類器,對訓練樣本識別分類,輸出最終的識別準確率。在測試模式下,使用訓練模式得到的頻率、電極導聯優化參數對BCI測試樣本數據進行選擇,其后利用訓練模式下設計的CSP空間濾波器和LDA分類器對測試樣本進行想象運動EEG信號的識別分類,驗證算法的實用性與有效性。
3 實驗結果
3.1 EEG信號特征參數選擇
基于相關系數特征選擇的關鍵技術就是尋找有效的頻率、電極參數,進而提高分類識別準確率。按照1.2節講述的相關系數特征選擇的算法原理,對數據集中5個受試樣本分別進行想象運動EEG信號的參數選擇。以受試者al為例,圖 3為使用相關系數分析方法得到的頻域分布與空間分布示意圖。

圖 3為計算|r(X,Y)|的時頻分布圖和電極分布圖。如圖 3所示,采用STFT計算出兩種任務下各自EEG信號的時頻能量分布,計算出時頻平面上每一點的r(X,Y),得到|r(X,Y)|時頻分布。選擇想象運動執行過程中mu和beta節律變化最顯著的頻率用于后續的頻率參數,即選擇|r(X,Y)|較大的頻率11~14 Hz。選取時頻|r(X,Y)|分布中取值最大的點,即時間為0.8 s,頻率為12 Hz,即可計算得到118導聯每一通道的|r(X,Y)|電極空間分布圖。空間分布圖中左右中央區域的|r(X,Y)|值較大,這些區域分別對應了運動皮層的初級運動區,是ERD/ERS變化最顯著的部分,刪除無關和冗余的電極向量,從圖中挑選出白色區域對應的電極通道組合用于分類識別。
3.2 EEG信號的分類識別
通過相關系數算法可以選擇出與任務類別相關性較大的頻率、電極參量,然后對小樣本運動想象EEG信號數據集Ⅳa的5個受試者分別進行分類識別仿真測試,實驗結果如表 1所示。

原EEG數據經過相關系數分析的EEG信號特征選擇,剔除冗余特征向量,頻率范圍與導聯數目大幅度減少。由于5個受試者存在個體差異性,選擇的頻率與導聯參數各不相同,并且由于5位受試者訓練集的大小也各不相同,受試者在訓練模式與測試模式下取得了不同的分類識別準確率。如表 1所示,受試者al在訓練模式下取得的識別準確率為97.77%,測試模式下的分類識別準確率甚至達到了100%,這是因為al的訓練集占總樣本數的80%,訓練樣本集最多,所以訓練得到的頻率、電極參數以及空間濾波器與分類器最合適,取得的識別準確率最高。而受試者ay訓練集占總樣本數的10%,雖然訓練樣本的識別準確率達到了100%,但是因為訓練樣本較少,存在“過學習”的問題,所以測試模式下僅取得了71.43%的識別準確率。但是就平均情況來看,受試者在訓練模式得到的識別率均值為95.05%,測試模式下為85.55%,均取得了不錯的分類識別準確率。
3.3 EEG信號分類識別結果比較
在特征提取與分類前進行基于相關系數分析方法的特征選擇能否取得較好的分類效果呢?我們通過對數據集中5個受試者分別進行兩種方案的分類識別來驗證該算法的有效性。方案一是沒有進行基于相關系數的特征優化選擇,直接對EEG信號使用了CSP空間濾波器與LDA分類器進行特征提取和分類識別,輸出分類識別準確率;方案二是采用了基于相關系數分析的參數優化,在此基礎上使用了方案一中的特征提取與分類算法,得到最終的識別結果。兩種方案的分類結果如圖 4所示。

圖 4分別展示了訓練模式下和測試模式下的分類識別結果。如圖 4所示,除了受試者ay在訓練模式下的測試樣本較少,只占總樣本數的10%,所以兩種方案下的識別效果不明顯以外,其余受試者在訓練模式與測試模式下方案二的分類識別率均有了明顯提高,其中訓練模式下平均識別準確率提高了1.75%,測試模式下的平均識別準確率提高了17.99%,因此可以證明基于相關系數的特征優化可以有效地提高樣本的分類識別準確率,在BCI的信號處理領域有較好的應用價值。
為了進一步驗證相關系數分析方法能否有效提高分類識別準確率,把本方案的實驗結果與文獻[4]提出的基于SVM特征優化分類識別的精度相比較,由于文獻[4]是選取的樣本al、aw進行驗證,所以如表 2所示,以受試者al、aw測試模式下的實驗結果予以對比展示。方案一是沒有使用兩種特征選擇算法的EEG信號的識別分類,方案二是分別采用SVM與相關系數進行特征選擇的分類識別。

如表 2所示,兩種算法均能有效地減少導聯的特征數目,提高樣本的分類識別準確率。其中基于相關系數的特征選擇能更好地選取導聯參數,降低原始信號的維數,并且在兩種方案下,受試者al、aw的識別準確率均有了明顯提高,很好地說明基于相關系數的選擇算法能更好地適用于EEG信號的分類識別研究。
4 結論
在BCI的信號采集過程中,由于采用不同的硬件設備與實驗模式,采集到的EEG信號由不同的時間、頻率、通道參數構成,怎樣適時、高效地選擇最優參數成為研究熱點。本文主要討論了BCI中現有的特征選擇方法及其主要存在的問題,提出了一種基于相關系數分析的運動想象EEG信號特征選擇算法。針對2005年BCI競賽的5位受試樣本進行了分類識別,并且為了驗證該算法的有效性,與未使用該算法的分類識別結果進行了比較。實驗結果顯示依據相關系數大小對EEG信號主要參數進行選擇,有效地降低了原始信號特征維數,提高了分類識別率。最后將該算法與SVM特征優化算法的實驗結果進行了比較,進一步證明了基于相關系數分析方法的實用性。所以在今后的實驗中我們可以引入基于相關系數的特征選擇算法,幫助實驗者提高數據運算速度與分類識別準確率,使BCI技術得到進一步的發展。