基于錯誤相關電位(ErrP)的錯誤自檢測有助于改善腦-機接口系統的實用性。但單試次 ErrP 信號的準確識別仍是阻礙這一技術發展的難題。為了衡量不同算法解碼 ErrP 信號的能力,本文使用兩個不同的公開數據集,對研究與相關應用中常見的 4 種線性判別分析算法、2種支持向量機、邏輯回歸以及判別典型模式匹配(DCPM)共 8 個算法展開對比。文中主要分析了算法的分類正確率和算法性能隨訓練集樣本數量的變化情況。實驗結果表明 DCPM 具有最佳的綜合性能。本研究揭示了各算法性能與訓練樣本數目和 ErrP 試驗范式間的相互影響,為研究與實際應用中 ErrP 解碼算法的選擇提供參考。
引用本文: 孫勁松, 鐘子平, 肖曉琳, 孟佳圓, 許敏鵬, 明東. 腦-機接口中錯誤相關電位的解碼算法研究. 生物醫學工程學雜志, 2021, 38(3): 463-472. doi: 10.7507/1001-5515.202012013 復制
引言
腦-機接口(brain-computer interface,BCI)是一種不依賴于外周神經或肌肉的通信通道,允許人腦與外部設備實時交互通信[1]。在各類 BCI 技術中,基于腦電圖(electroencephalogram,EEG)的 BCI 解碼從頭皮電極記錄下來的大腦信號,以區分人的各種意圖;因其具備低成本、快響應、易攜帶等優點,被廣泛用于汽車、輪椅等設備導航以及鼠標和瀏覽器等計算機部件的控制。
在 BCI 的各種應用中,解碼器經常會曲解受試者的意圖并提供完全錯誤的結果,這主要是腦電圖信號幅值低、噪聲強、非平穩、非高斯的性質造成的[2]。目前,即使是訓練有素的受試者也難以避免錯誤;當受試者意識到自己犯錯或正在觀察的行為中出現錯誤時,大腦即產生同錯誤關聯的事件相關電位,稱為錯誤相關電位(error-related potentials,ErrP)[3]。ErrP 信號已被證明是人類固有的反饋機制,這意味著在人犯錯誤的情況下,ErrP 可以不經訓練地、自然地在大腦中產生。同時,ErrP 是一種穩定的電位,受生理結構變化影響小,基于 ErrP 訓練的分類器即使在幾個月之后仍具有相近的性能[4]。因此,如果能準確識別 ErrP 信號,使 ErrP 同其他 BCI 范式結合構成的混合 BCI 就能監測系統運行情況、預防錯誤發生或對發生的錯誤進行改正,從而提高系統性能。
早在 2000 年,Schalk 等[5]就提出 ErrP 作為誘發信號使得它更容易與其他 BCI 相結合以提高系統性能。廣泛的研究表明,ErrP 信號可以在單個試次中被可靠地檢測到,并且可以構成實時 BCI 系統的一部分。2015 年 Zhang 等[6]對 30 名受試者開展了模擬汽車駕駛和真實汽車駕駛任務,通過 ErrP 信號監測導航指示方向中的錯誤,使用線性判別分析(linear discriminant analysis,LDA)獲得了 69.8% 的離線正確率(accuracy,Acc)和 68.2% 的在線正確率。同年,Spüler 等[7]設計了一款游戲,要求 10 名受試者在游戲中通過手柄操縱光標避開移動的物體,并使用支持向量機(support vector machine,SVM)算法對碰撞誘發的 ErrP 進行分類,達到平均 75% 的正確率。2017 年 Kim 等[8]使用 xDAWN 空間濾波器與 SVM 算法對機械臂模擬人手部運動過程誘發的 ErrP 進行分類,在 7 名受試者中達到平均 91% 的平衡正確率(balanced accuracy)。2018 年 Zhang 等[9]要求 22 名受試者通過運動想象(motor imagery,MI)操控外骨骼運動,在指令執行前通過視覺反饋將運動結果呈現給受試者,利用 ErrP 監測 MI 解碼的錯誤,該研究對比了邏輯回歸(logistic regression,LR)、K 最鄰近(K-nearest neighbor,KNN)和 SVM 算法對受試者 ErrP 信號的分類性能,其中 SVM 具有最好的表現,識別正確率的平均值超過 90%。2019 年 Wirth 等[10]使用逐步線性判別分析(stepwise linear discriminant analysis,SWLDA)對兩個不同任務誘發的兩種不同類型 ErrP 信號進行分類,分別達到平均 65.2% 和 65.6% 的正確率。
綜上,不同類型現實應用中 ErrP 的識別正確率在較大范圍內變化,相較廣泛應用的穩態視覺誘發電位(steady-state visual evoked potentials,SSVEP)、P300 成分等視覺型 BCI,其可用性處于較低水平。ErrP 幅值約 10 μV,信噪比低,受試者間波形差異大,ErrP 的穩定波形需要通過多個試次疊加平均獲得[11],但在線系統中用于監測受試者實時錯誤的 ErrP 信號要求在單試次內準確檢測,這些因素是目前 ErrP 解碼困難的主要原因。
當前 ErrP 分類算法繁多,各算法在不同范式與應用場景中的表現不盡相同,且少有文獻對 ErrP 實用系統中常用算法的性能進行系統對比,研究者難以對實際應用中算法解碼 ErrP 的能力做出準確判斷。本文使用兩個不同的公開數據集,對 ErrP 現實應用中常出現的解碼算法——包括 LDA、SWLDA、收縮線性判別分析(shrinkage linear discriminant analysis,SKLDA)、貝葉斯線性判別分析(bayesian linear discriminant analysis,BLDA)、線性支持向量機(linear support vector machine,LSVM)、多項式核函數支持向量機(polynomial kernel support vector machine,PSVM)、LR、判別典型模式匹配(discriminative canonical pattern matching,DCPM)算法識別兩個不同數據集 ErrP 信號的性能進行分析。在預處理方法固定的情況下,本研究從算法基準性能與算法解碼能力隨訓練樣本數目變化兩方面,對各算法的性能表現展開系統分析,分析過程中還關注了算法解碼能力在不同范式中的變異性,綜合多種因素探究 ErrP 解碼規律。本研究將有助于 ErrP 混合 BCI 系統中解碼算法的選用,為進一步開發新型 ErrP 解碼算法提供新思路。
1 數據描述
1.1 數據集 1
本研究使用的公開數據集 1 來自 2015 年卡格爾(Kaggle)主辦的 BCI 挑戰賽@神經工程會議(BCI Challenge @ IEEE neural engineering conference 2015,BCI Challenge @ NER2015)(網址:https://www.kaggle.com/c/inria-bci-challenge),其中包含 26 名受試者的數據,年齡在 20~37 歲之間,所有受試者均沒有任何 BCI 應用經驗。數據采集使用腦電采集系統(Synamps2,Neuroscan Inc,美國),56 導聯電極遵循 10-20 國際標準放置,參考電極置于鼻尖,接地電極置于肩膀處。信號原始采樣率為 600 Hz,貢獻者提供的信號被降采樣到 200 Hz。
受試者在試驗中執行 P300 字符拼寫任務,范式流程如圖 1 所示,Margaux 等[12]對此進行了深入的解釋,此處僅簡要描述任務。在每次試驗開始時,目標字母被綠色圓圈標記 1 s,間隔 1 s,單次刺激由屏幕中先點亮后熄滅的 6 個字符組成,刺激間間隔為 0.11 s,其中點亮 0.06 s,熄滅 0.05 s,36 個字符閃爍 1 遍為 1 個刺激序列,序列刺激重復呈現 2 輪或 4 輪;2 輪重復保證 ErrP 誘發數量足夠用于分析,4 輪刺激保證 ErrP 誘發質量。序列刺激結束 2.5~4 s 后,屏幕中央出現結果反饋,呈現 1.3 s,受試者休息 0.5 s 后繼續下一目標字符拼寫。如果拼寫的字母是單詞的最后一個字母,間隔 1 s 后開始下一單詞的拼寫。

每名受試者都經過 5 組試驗,要求使用 P300 拼寫器執行 5 個字母單詞的拼寫任務。前 4 組試驗有 12 個單詞,第 5 組試驗有 20 個單詞。因此,26 名受試者共有 26 ×(5 × 12 × 4 + 5 × 20)= 8 840 試次,其中有 6 261 個非靶的試次(無 ErrP 信號)和 2 579 個靶試次(有 ErrP 信號)。
1.2 數據集 2
本研究使用的數據集 2 來自公開數據庫——歐盟腦機交互的未來:地平線 2020 計劃(the future of brain/neural computer interaction:horizon 2020,BNCI horizon 2020)(網址:http://bnci-horizon-2020.eu/database/data-sets),其中包含 6 名受試者的數據,采集過程中 64 導聯按照 10-20 國際標準放置,以 512 Hz 采樣率記錄受試者腦電信號。每名受試者共進行兩次試驗(間隔數天進行),本文僅使用每名受試者第一次試驗的數據。
數據集 2 試驗示意圖如圖 2 所示,Chavarriaga 等[4]對試驗細節進行了詳細描述,此處僅簡要敘述試驗過程。任務中,受試者坐在計算機前注視屏幕中心,畫面中顯示光標(綠色正方形)和目標(藍色正方形)位置。在每個試次中,光標朝向目標所在位置沿水平方向移動,持續約 2 s;到達目標后,光標將保持在原地,并在距離當前光標位置不超過 3 個位置處繪制新的目標。在試驗期間,受試者無法控制光標的移動,僅被要求監視光標的行為。為了誘發 ErrP 信號,在每個試次中,光標沿錯誤方向(目標位置相反的方向)移動的概率約為 20%。每次試驗由 10 個部分組成,每個部分包含約 50 個試次,持續約 3 min。

2 解碼算法
2.1 線性判別分析相關算法
LDA 是確定兩類間最優分類超平面的經典算法,它將高維樣本數據投影到低維空間,使得樣本數據在新的空間中類間距離與類內距離之比取得最大值[13]。該算法計算簡單,在兩個類別服從高斯分布且協方差相等時,LDA 能提供最優的高魯棒分類。在二值分類問題中,LDA 同最小二乘回歸等價,其目標函數如式(1)所示:
![]() |
其中,tr(·)代表矩陣的跡,Sb 為類間散度矩陣,Sw 為類內散度矩陣。通過求解 Sw-1Sb 的最大特征值和對應特征向量,得到投影向量 w;設 b 為偏置項,xi∈R(Nt × Nc)× 1 是第 i 個樣本向量,其中 Nc 為導聯數目,Nt 為采樣點數目,則決策函數如式(2)所示:
![]() |
傳統 LDA 算法在樣本數目等于或遠小于特征維度時,類內散度矩陣往往不可逆(奇異)或病態,導致結果無法計算或算法不穩定。為此研究者提出了 SWLDA、SKLDA、BLDA 等算法。SWLDA 通過逐步回歸選取差異具有統計學意義的特征以降低特征維度[14],SKLDA 通過收縮協方差估計緩解小樣本下原協方差矩陣的奇異或病態問題[15],BLDA 使用正則化來防止小樣本數據集的過擬合,同時通過貝葉斯分析,自動快速地從訓練數據中估計出正則化程度以避免費時的交叉驗證[16]。
2.2 支持向量機相關算法
SVM 的核心思想是通過核函數將向量映射到更高維的空間中,構造一個最優分類超平面,使得分類間隔最大,分類間隔越大,分類器誤差上界越小[7]。對于二分類問題,給定一個訓練樣本集{(xi,yi)|i = 1,,N},其中 xi 是第 i 個樣本向量,N 為訓練集樣本數目,yi∈{± 1}是訓練樣本 xi 的類別標記。SVM 算法通過某一映射 φ(x)= z,z∈F 將特征映射到高維空間 F,并在此空間中構造最優分類超平面,該超平面可由最優化問題求解,如式(3)所示:
![]() |
式中,w 為費舍爾(Fisher)特征向量,b 為偏置項,C 為自定義的懲罰系數,ηi 為訓練樣本相對超平面的偏差,用于控制樣本偏差與 SVM 泛化能力間的平衡。通過拉格朗日乘子法將上式轉化為對偶形式,如式(4)所示:
![]() |
式中,αi 為拉格朗日乘子,核函數 K(xi,xj)= φ(xi)?φ(xj)將高維空間的內積運算轉化為低維空間上的函數運算,使得原本在低維空間中線性不可分的樣本在高維空間中線性可分。求解上述問題的 αi,再根據拉格朗日乘子式求出最優特征向量 w 和最優偏置 b,其最終決策函數如式(5)所示:
![]() |
本文使用的核函數為線性核函數和多項式核函數。算法參數由數據集 1 中隨機選擇的一名受試者通過十折交叉驗證確定。以 PSVM 為例,對多項式階次與懲罰系數 C 進行網格化搜索,選取使十折交叉驗證錯誤率最小的參數值,并將該參數用于數據集 2 中。其他需要參數選擇的算法同樣在該名受試者身上通過類似方法確定具體參數。線性核函數取懲罰系數 C = 20,多項式核函數階數設為 2,懲罰系數 C = 4。
2.3 邏輯回歸
LR 是描述數據樣本 xi 屬于類別 l 的廣義線性模型。算法假設預測變量 yi 服從伯努利分布,并由此確定鏈接函數的形式為邏輯函數 f(·),f 將線性回歸的結果映射為 0~1 之間的概率,從而完成二分類[17]。該算法對過擬合與數據中出現的異常值具有良好的魯棒性[18]。邏輯函數如式(6)所示:
![]() |
回歸系數向量 w 可通過最大似然估計獲得,如式(7)所示:
![]() |
其中,L(·)為樣本的似然函數,xi 為第 i 試次的數據,yi∈{0,1}是訓練樣本類別標記。其最終決策函數如式(8)所示:
![]() |
2.4 判別典型模式匹配
DCPM 算法由天津大學神經工程團隊提出,用于解碼 1 μV 以下的極微弱事件相關電位[19]。該算法首先使用判別空間模式(discriminative spatial patterns,DSP)抑制腦電圖中的共模噪聲,通過典型相關分析(canonical correlation analysis,CCA)增強腦電信號特征,最后構建類別模板進行模板匹配實現分類。
設訓練集樣本 Xi∈RNt × Nc(i = 1,,n)分屬兩個類別,nl 為第 l 類的樣本數目,滿足 n0 + n1 = n,此處 n 表示訓練集樣本個數。yi∈{± 1}表示樣本 Xi 對應的標簽。DSP 空間濾波器的類間散度矩陣 Rb 與類內散度矩陣 Rw 如式(9)和(10)所示:
![]() |
![]() |
其中 ∈RNt × Nc 為第 l 類的疊加平均后的模板信號,X∈RNt × Nc 為所有類別疊加平均后的模板。投影矩陣 W 由對應的最優化問題求解,如式(11)所示:
![]() |
該最優化問題可轉化為廣義特征值問題,投影矩陣 W 即特征值對應的特征向量,實驗中取對應特征值占比 99% 的特征向量組成投影矩陣。
通過 DSP 空間濾波器可以濾除兩類信號之間的共模噪聲,而后基于 CCA 算法構建空間投影矩陣 Ul,Vl 如式(12)所示:
![]() |
其中, 是對應于第 l 類的所有試次的平均模板,Y 是測試樣本信號。利用 CCA 尋找一組最優解,使得兩個整體之間有最大關聯的權重,即令上式計算得到的數值最大。
而后在模板匹配過程中,由訓練集數據構建模板,根據刺激方式的不同,模板構建也可進行相應調整,特征向量 ρl 表示平均模板和測試樣本信號之間的相似性,如式(13)所示:
![]() |
其中,corr(·)代表皮爾森相關系數,dist(·)表示歐氏距離。訓練樣本和測試信號的相似性越大,系數 則越大,如式(14)所示:
![]() |
本文中,僅選取歐氏距離即特征向量 ρl 的第 2 個元素用于決策,預測 Y 的模式如式(15)所示:
![]() |
3 對比方法
3.1 數據預處理
預處理前,將數據集 2 中腦電信號降采樣至 200 Hz 與數據集 1 保持一致。兩個數據集中的腦電信號轉參考至左右乳突的平均值,使用巴特沃茲濾波器對數據進行 1~10 Hz 帶通濾波,通過階次為 3、窗口寬度為 31 的多項式平滑濾波器平滑濾波后數據。以反饋開始時刻為 0 時刻,截取 ? 0.2~0.8 s 的數據,使用 ? 0.2~0 s 的數據去除基線,以 0~0.8 s 數據作為時域特征。分類時選取 FP1、FP2、F7、F3、Fz、F4、F8、FC5、FC1、FC2、FC6、T7、C3、Cz、C4、T8、TP7、CP5、CP1、CP2、CP6、TP8、P7、P3、Pz、P4、P8、PO7、POz、PO8、O1、O2 共 32 個導聯的數據。測試 4 種 LDA 算法、2 種 SVM 算法以及 LR 算法時,用于訓練和測試的樣本在完成預處理后進一步降采樣至 40 Hz。
3.2 算法性能指標選擇
本研究使用平衡正確率、曲線下面積(area under the curve,AUC)、真陽性率(true positive rate,TPR)3 個參數衡量算法性能。平衡正確率為真陽性率與真陰性率的算術平均值,能夠較好克服正確率在數據集類別分布不平衡的情況下難以準確衡量分類器性能的問題。曲線下面積為受試者操作特征曲線下的面積,使用真陽性率與假陽性率的秩進行計算,能避免不平衡類別與分類器閾值選擇帶來的影響,是度量分類器性能的常用指標。真陽性率為正確預測的靶試次數目占靶試次總數的比例。在集成了 ErrP 錯誤更正機制的 BCI 系統中,由于正確試次相較錯誤試次更易獲得,正確試次數目通常遠多于錯誤試次,使得系統容易達到較高的真陰性率(true negative rate,TNR)而真陽性率處于較低水平,當分類器真陽性率過低時系統將難以更正錯誤,致使基于 ErrP 的錯誤更正功能失效。因此將真陽性率單獨列出作為分類器性能指標,以適應不同系統選擇算法的需要。
3.3 算法性能對比方式
算法在實際應用中應該根據在線使用需要達到的指標進行評估,除了 3.2 節中提到的性能指標外,這一過程還涉及參數的選擇、模型訓練所需要的樣本數量、算法的收斂性、算法的收斂速度等因素,這些難以進行綜合系統的量化評估,因此本文僅在以下設置中進行對比分析。
首先,本研究對各算法重復 10 次 10 折交叉驗證取結果的平均值,以確定每個算法的基準性能,然后在不同訓練樣本數目(40、60、80、100、120、140、160、180、200、220 和 240 個試次)100 個測試樣本的條件下,測試了各算法性能隨訓練樣本數目的變化情況。由于數據集中每名受試者包含的 ErrP 試次數目各不相同,因此在隨機選擇訓練樣本和測試樣本進行計算時,根據靶試次和非靶試次的比例劃分,每種訓練樣本數目抽取 10 次并對結果取平均值。
3.4 統計學檢驗方法
本研究使用統計產品與服務解決方案(statistical product and service solutions,SPSS)軟件(IBM SPSS Statistics,IBM Corporation,美國)進行統計分析。使用單因素重復測量方差分析交叉對比不同算法之間性能差異,使用雙因素重復測量方差分析探究算法因素和訓練集樣本數目因素對曲線下面積的共同作用。如果數據不符合球度檢驗(Mauchly’s test of sphericity),則進行格林豪斯-蓋舍校正(Greenhouse-Geisser correction),相關的事后檢驗使用圖基法(Turkey’s test)進行,α 級別設置為 0.05。
4 結果與討論
4.1 數據集 1 中算法基準性能分析
使用 8 種算法解碼數據集 1 中 ErrP 信號,交叉驗證后取 25 名受試者的平均值以確定各算法的基準性能,結果如表 1 所示。使用單因素重復測量方差分析交叉對比不同算法的曲線下面積、平衡正確率與真陽性率如圖 3 所示。結果表明,不同算法之間的性能指標差異均具有統計學意義(曲線下面積:F(3.76,90.43)= 58.80,P < 0.01,平衡正確率:F(4.05,97.11)= 29.72,P < 0.01;真陽性率:F(1.40,56.51)= 35.64,P < 0.01)。


*
*
DCPM 算法的曲線下面積為 82.60% ± 9.47%,平衡正確率為 76.02% ± 8.47%,兩參數優于其他所有算法(P < 0.05);DCPM 的真陽性率為 77.10% ± 10.26%,較 SKLDA 與 SWLDA 大致相同,優于其他算法(P < 0.05),表現出對 ErrP 波形特征的準確檢測能力,總體看解碼性能最佳。LR 算法表現同 LDA 算法相近,解碼 ErrP 信號的能力低于其它算法,兩者之間差異不具有統計學意義。BLDA、SWLDA、SKLDA、LSVM、PSVM 的解碼能力表現大致相近,PSVM 的曲線下面積為 77.17% ± 8.47%,略高于 LSVM 的 75.97% ± 8.77%(P < 0.05);SVM 相關算法性能表現同 LDA 相關算法中表現較好的 SKLDA 與 SWLDA 相近,在真陽性率方面略低于 SKLDA 和 SWLDA(P < 0.05)。
4.2 數據集 1 與數據集 2 中算法基準性能對比分析
由于數據集 2 中僅含 6 名受試者數據,較小的樣本量造成統計學檢驗的效力不足,因此僅展示各算法解碼數據集 2 中 ErrP 信號的結果,而不進行統計學檢驗。使用 8 種算法解碼數據集 1 與數據集 2 中的 ErrP 信號,結果如表 1 和圖 3 所示。同數據集 1 相比,數據集 2 中算法性能相關指標高于數據集 1。根據表 1,將算法對應的曲線下面積、平衡正確率和真陽性率,按從大到小編號,序號越小說明算法性能越好;平均兩個數據集中的各算法排名結果,按各算法平均排名的由小到大編號,序號越小則算法在兩個數據集中的解碼性能越出色,如表 2 所示。由總排名可知,DCPM 算法在兩個數據集中綜合表現最佳,LDA 算法與 LR 算法在兩個數據集中表現最差,它們的解碼能力在兩個不同的數據集中有良好的一致性。但部分算法在兩個不同的數據集中表現并不相同,BLDA 算法在數據集 1 中各排名的平均值為 5.3,而在數據集 2 中這一數值為 2.0,僅次于 DCPM 算法,說明 BLDA 對數據集 2 中的 ErrP 信號具有更強的解碼能力;SWLDA 算法與 BLDA 算法的情況相反,其解碼數據集 1 中 ErrP 信號的表現更佳。盡管 BLDA、SWLDA 較其他算法,更容易受到數據集的影響而表現出不一致的 ErrP 解碼性能,但大部分算法的表現基本一致,尤其是 DCPM 算法,在兩個不同的數據集中均展現出對 ErrP 信號的良好識別能力。

4.3 算法因素與訓練集樣本數目對算法解碼性能的影響分析
數據集 1 與數據集 2 中算法性能隨訓練集樣本數目變化如圖 4 所示。總體上看各算法的分類性能隨訓練樣本數目的增多而增強,其中 DCPM 算法解碼數據集 1 中 ErrP 信號的表現突出,在所有訓練樣本數目下均明顯優于其他算法;BLDA 算法在數據集 2 中的表現僅次于 DCPM,大幅度優于其在數據集 1 中的表現。

在數據集 1 中,對算法(LDA、BLDA、SWLDA、SKLDA、LSVM、PSVM、LR、DCPM)和訓練集樣本數量(40、140、240)兩個因素進行雙因素重復測量方差分析,以確定它們對曲線下面積的影響。結果顯示,算法因素、訓練集樣本數量因素均會影響算法性能指標(算法:F(2.80,67.10)= 73.81,P < 0.01;訓練集樣本數量:F(1.047,35.17)= 130.30,P < 0.01),且部分算法的性能指標會因訓練集樣本數目的不同而發生變化,算法與訓練集樣本數目之間存在交互作用(F(5.38,129.11)= 14.27,P < 0.01)。
4.4 不同訓練樣本數目下算法解碼性能分析
分別使用較小樣本數目(40 個樣本)、中等樣本數目(140 個樣本)和較大樣本數目(240 個樣本)訓練各算法,單因素重復測量方差分析顯示,算法之間的差異具有統計學意義(40 個樣本:F(3.07,76.75)= 58.85,P < 0.01;140 個樣本:F(2.979,74.47)= 61.99,P < 0.01;240 個樣本:F(3.321,83.03)= 56.97,P < 0.01),事后檢驗的結果如圖 5 所示。SWLDA 的曲線下面積受訓練集樣本數目的影響最為明顯。在訓練集樣本數目較少時,除 LDA 外其他算法的曲線下面積均大于 SWLDA(P < 0.05);隨著訓練算法使用樣本數量的增加,SWLDA 的曲線下面積迅速增加,PSVM 與 DCPM 算法大于 SWLDA(P < 0.05);當訓練算法使用的樣本數目較大時,僅 DCPM 算法的曲線下面積大于 SWLDA(P < 0.05)。SVM 對訓練集樣本數目同樣表現出一定敏感性,當訓練集樣本數目由 140 個增加至 240 個時,PSVM 與 LSVM 算法之間曲線下面積的差異具有統計學意義。

*
*
4.5 不同訓練樣本數目下算法訓練所需時間分析
在數據集 1 中,使用不同數量樣本訓練 8 種算法,各算法訓練時間隨訓練樣本數目變化情況如圖 6 所示。由于算法訓練時間不僅受算法本身數學形式影響,同一算法編程方式的不同也會影響算法訓練時間,因此以上結果僅供參考。從圖 6 可得,需要迭代求解的 SWLDA、BLDA、LR 算法其訓練時間遠高于 LDA、DCPM、SKLDA 等存在解析解的算法。同樣需要迭代求解的 LSVM、PSVM 算法,與 LDA 等具有解析解的算法訓練時間相近,這一現象可能是算法優化較好,同時在 ErrP 的應用場景下算法收斂較快造成的。

5 討論與結論
實際應用中解碼算法選擇需考慮可獲得的樣本數目、訓練時間、試驗范式等多種因素影響。本研究使用兩不同范式的公開數據集,從算法基準性能、算法性能與訓練樣本數目間的相互影響、使用不同數目樣本訓練算法所消耗時間三個角度,探究實際應用中 8 個常用算法解碼 ErrP 信號的性能表現。其中,DCPM 對 ErrP 信號的解碼效果最佳,在不同試驗范式和不同訓練集樣本數目下均能保持優秀的解碼能力。算法中 DSP 空間濾波器直接使用二維腦電數據,降低了訓練集樣本數目較少而數據維度過高時矩陣病態或奇異的概率,對腦電信號中共模噪聲有明顯的抑制效果,同時簡單直接的運算過程節省了算法訓練及分類的時間成本[18-20]。SVM 的優秀設計使其具有理想的理論性質,能夠最大化類別之間的間隔以提供良好的泛化能力,從而可以使用少的訓練樣本達到較好的解碼水平;但 SVM 參數選擇過程較為緩慢,且最終表現同 SWLDA、SKLDA 相比沒有顯著優勢,使得選用該類算法的性價比降低。LDA 相關算法中,SWLDA 與 SKLDA 在解決 ErrP 分類問題時,具有同 SVM 算法相近的表現,相比于 SVM 算法所需的參數選擇和 LDA 面對高維數據的奇異性問題,SWLDA 和 SKLDA 的使用更為便捷迅速且 SKLDA 在訓練樣本較少時表現優秀。需要注意的是,如果信號中的鑒別性信息不足或參數設置有誤,SWLDA 將無法提供一個收斂的模型。LDA 同 LR 算法性能表現并不突出,實際應用場景必須使用 LDA 算法的情況下,建議使用 SKLDA 替代 LDA 算法。
綜上所述,在引入 ErrP 自動更正機制的實用 BCI 系統中,可采用單試次 ErrP 檢測實現對受試者或機器錯誤的實時監測,其中的關鍵是 ErrP 的單試次檢測算法。在 8 個常用算法中,DCPM 算法在各種情況下均具有最佳性能表現。相較于 LDA 相關算法,DCPM 在訓練樣本數量較少或特征數目過多時更好地解決了小樣本造成的奇異性問題,使得適用情況更廣;相較于 SVM 相關算法,DCPM 避免了使用時進行的長時間參數選擇過程,使得應用過程更簡便。綜上所述,本文的研究結果有助于 ErrP 錯誤檢測算法的選擇與改進,從而幫助 ErrP 實時監測技術在 BCI 在線系統中的應用。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
腦-機接口(brain-computer interface,BCI)是一種不依賴于外周神經或肌肉的通信通道,允許人腦與外部設備實時交互通信[1]。在各類 BCI 技術中,基于腦電圖(electroencephalogram,EEG)的 BCI 解碼從頭皮電極記錄下來的大腦信號,以區分人的各種意圖;因其具備低成本、快響應、易攜帶等優點,被廣泛用于汽車、輪椅等設備導航以及鼠標和瀏覽器等計算機部件的控制。
在 BCI 的各種應用中,解碼器經常會曲解受試者的意圖并提供完全錯誤的結果,這主要是腦電圖信號幅值低、噪聲強、非平穩、非高斯的性質造成的[2]。目前,即使是訓練有素的受試者也難以避免錯誤;當受試者意識到自己犯錯或正在觀察的行為中出現錯誤時,大腦即產生同錯誤關聯的事件相關電位,稱為錯誤相關電位(error-related potentials,ErrP)[3]。ErrP 信號已被證明是人類固有的反饋機制,這意味著在人犯錯誤的情況下,ErrP 可以不經訓練地、自然地在大腦中產生。同時,ErrP 是一種穩定的電位,受生理結構變化影響小,基于 ErrP 訓練的分類器即使在幾個月之后仍具有相近的性能[4]。因此,如果能準確識別 ErrP 信號,使 ErrP 同其他 BCI 范式結合構成的混合 BCI 就能監測系統運行情況、預防錯誤發生或對發生的錯誤進行改正,從而提高系統性能。
早在 2000 年,Schalk 等[5]就提出 ErrP 作為誘發信號使得它更容易與其他 BCI 相結合以提高系統性能。廣泛的研究表明,ErrP 信號可以在單個試次中被可靠地檢測到,并且可以構成實時 BCI 系統的一部分。2015 年 Zhang 等[6]對 30 名受試者開展了模擬汽車駕駛和真實汽車駕駛任務,通過 ErrP 信號監測導航指示方向中的錯誤,使用線性判別分析(linear discriminant analysis,LDA)獲得了 69.8% 的離線正確率(accuracy,Acc)和 68.2% 的在線正確率。同年,Spüler 等[7]設計了一款游戲,要求 10 名受試者在游戲中通過手柄操縱光標避開移動的物體,并使用支持向量機(support vector machine,SVM)算法對碰撞誘發的 ErrP 進行分類,達到平均 75% 的正確率。2017 年 Kim 等[8]使用 xDAWN 空間濾波器與 SVM 算法對機械臂模擬人手部運動過程誘發的 ErrP 進行分類,在 7 名受試者中達到平均 91% 的平衡正確率(balanced accuracy)。2018 年 Zhang 等[9]要求 22 名受試者通過運動想象(motor imagery,MI)操控外骨骼運動,在指令執行前通過視覺反饋將運動結果呈現給受試者,利用 ErrP 監測 MI 解碼的錯誤,該研究對比了邏輯回歸(logistic regression,LR)、K 最鄰近(K-nearest neighbor,KNN)和 SVM 算法對受試者 ErrP 信號的分類性能,其中 SVM 具有最好的表現,識別正確率的平均值超過 90%。2019 年 Wirth 等[10]使用逐步線性判別分析(stepwise linear discriminant analysis,SWLDA)對兩個不同任務誘發的兩種不同類型 ErrP 信號進行分類,分別達到平均 65.2% 和 65.6% 的正確率。
綜上,不同類型現實應用中 ErrP 的識別正確率在較大范圍內變化,相較廣泛應用的穩態視覺誘發電位(steady-state visual evoked potentials,SSVEP)、P300 成分等視覺型 BCI,其可用性處于較低水平。ErrP 幅值約 10 μV,信噪比低,受試者間波形差異大,ErrP 的穩定波形需要通過多個試次疊加平均獲得[11],但在線系統中用于監測受試者實時錯誤的 ErrP 信號要求在單試次內準確檢測,這些因素是目前 ErrP 解碼困難的主要原因。
當前 ErrP 分類算法繁多,各算法在不同范式與應用場景中的表現不盡相同,且少有文獻對 ErrP 實用系統中常用算法的性能進行系統對比,研究者難以對實際應用中算法解碼 ErrP 的能力做出準確判斷。本文使用兩個不同的公開數據集,對 ErrP 現實應用中常出現的解碼算法——包括 LDA、SWLDA、收縮線性判別分析(shrinkage linear discriminant analysis,SKLDA)、貝葉斯線性判別分析(bayesian linear discriminant analysis,BLDA)、線性支持向量機(linear support vector machine,LSVM)、多項式核函數支持向量機(polynomial kernel support vector machine,PSVM)、LR、判別典型模式匹配(discriminative canonical pattern matching,DCPM)算法識別兩個不同數據集 ErrP 信號的性能進行分析。在預處理方法固定的情況下,本研究從算法基準性能與算法解碼能力隨訓練樣本數目變化兩方面,對各算法的性能表現展開系統分析,分析過程中還關注了算法解碼能力在不同范式中的變異性,綜合多種因素探究 ErrP 解碼規律。本研究將有助于 ErrP 混合 BCI 系統中解碼算法的選用,為進一步開發新型 ErrP 解碼算法提供新思路。
1 數據描述
1.1 數據集 1
本研究使用的公開數據集 1 來自 2015 年卡格爾(Kaggle)主辦的 BCI 挑戰賽@神經工程會議(BCI Challenge @ IEEE neural engineering conference 2015,BCI Challenge @ NER2015)(網址:https://www.kaggle.com/c/inria-bci-challenge),其中包含 26 名受試者的數據,年齡在 20~37 歲之間,所有受試者均沒有任何 BCI 應用經驗。數據采集使用腦電采集系統(Synamps2,Neuroscan Inc,美國),56 導聯電極遵循 10-20 國際標準放置,參考電極置于鼻尖,接地電極置于肩膀處。信號原始采樣率為 600 Hz,貢獻者提供的信號被降采樣到 200 Hz。
受試者在試驗中執行 P300 字符拼寫任務,范式流程如圖 1 所示,Margaux 等[12]對此進行了深入的解釋,此處僅簡要描述任務。在每次試驗開始時,目標字母被綠色圓圈標記 1 s,間隔 1 s,單次刺激由屏幕中先點亮后熄滅的 6 個字符組成,刺激間間隔為 0.11 s,其中點亮 0.06 s,熄滅 0.05 s,36 個字符閃爍 1 遍為 1 個刺激序列,序列刺激重復呈現 2 輪或 4 輪;2 輪重復保證 ErrP 誘發數量足夠用于分析,4 輪刺激保證 ErrP 誘發質量。序列刺激結束 2.5~4 s 后,屏幕中央出現結果反饋,呈現 1.3 s,受試者休息 0.5 s 后繼續下一目標字符拼寫。如果拼寫的字母是單詞的最后一個字母,間隔 1 s 后開始下一單詞的拼寫。

每名受試者都經過 5 組試驗,要求使用 P300 拼寫器執行 5 個字母單詞的拼寫任務。前 4 組試驗有 12 個單詞,第 5 組試驗有 20 個單詞。因此,26 名受試者共有 26 ×(5 × 12 × 4 + 5 × 20)= 8 840 試次,其中有 6 261 個非靶的試次(無 ErrP 信號)和 2 579 個靶試次(有 ErrP 信號)。
1.2 數據集 2
本研究使用的數據集 2 來自公開數據庫——歐盟腦機交互的未來:地平線 2020 計劃(the future of brain/neural computer interaction:horizon 2020,BNCI horizon 2020)(網址:http://bnci-horizon-2020.eu/database/data-sets),其中包含 6 名受試者的數據,采集過程中 64 導聯按照 10-20 國際標準放置,以 512 Hz 采樣率記錄受試者腦電信號。每名受試者共進行兩次試驗(間隔數天進行),本文僅使用每名受試者第一次試驗的數據。
數據集 2 試驗示意圖如圖 2 所示,Chavarriaga 等[4]對試驗細節進行了詳細描述,此處僅簡要敘述試驗過程。任務中,受試者坐在計算機前注視屏幕中心,畫面中顯示光標(綠色正方形)和目標(藍色正方形)位置。在每個試次中,光標朝向目標所在位置沿水平方向移動,持續約 2 s;到達目標后,光標將保持在原地,并在距離當前光標位置不超過 3 個位置處繪制新的目標。在試驗期間,受試者無法控制光標的移動,僅被要求監視光標的行為。為了誘發 ErrP 信號,在每個試次中,光標沿錯誤方向(目標位置相反的方向)移動的概率約為 20%。每次試驗由 10 個部分組成,每個部分包含約 50 個試次,持續約 3 min。

2 解碼算法
2.1 線性判別分析相關算法
LDA 是確定兩類間最優分類超平面的經典算法,它將高維樣本數據投影到低維空間,使得樣本數據在新的空間中類間距離與類內距離之比取得最大值[13]。該算法計算簡單,在兩個類別服從高斯分布且協方差相等時,LDA 能提供最優的高魯棒分類。在二值分類問題中,LDA 同最小二乘回歸等價,其目標函數如式(1)所示:
![]() |
其中,tr(·)代表矩陣的跡,Sb 為類間散度矩陣,Sw 為類內散度矩陣。通過求解 Sw-1Sb 的最大特征值和對應特征向量,得到投影向量 w;設 b 為偏置項,xi∈R(Nt × Nc)× 1 是第 i 個樣本向量,其中 Nc 為導聯數目,Nt 為采樣點數目,則決策函數如式(2)所示:
![]() |
傳統 LDA 算法在樣本數目等于或遠小于特征維度時,類內散度矩陣往往不可逆(奇異)或病態,導致結果無法計算或算法不穩定。為此研究者提出了 SWLDA、SKLDA、BLDA 等算法。SWLDA 通過逐步回歸選取差異具有統計學意義的特征以降低特征維度[14],SKLDA 通過收縮協方差估計緩解小樣本下原協方差矩陣的奇異或病態問題[15],BLDA 使用正則化來防止小樣本數據集的過擬合,同時通過貝葉斯分析,自動快速地從訓練數據中估計出正則化程度以避免費時的交叉驗證[16]。
2.2 支持向量機相關算法
SVM 的核心思想是通過核函數將向量映射到更高維的空間中,構造一個最優分類超平面,使得分類間隔最大,分類間隔越大,分類器誤差上界越小[7]。對于二分類問題,給定一個訓練樣本集{(xi,yi)|i = 1,,N},其中 xi 是第 i 個樣本向量,N 為訓練集樣本數目,yi∈{± 1}是訓練樣本 xi 的類別標記。SVM 算法通過某一映射 φ(x)= z,z∈F 將特征映射到高維空間 F,并在此空間中構造最優分類超平面,該超平面可由最優化問題求解,如式(3)所示:
![]() |
式中,w 為費舍爾(Fisher)特征向量,b 為偏置項,C 為自定義的懲罰系數,ηi 為訓練樣本相對超平面的偏差,用于控制樣本偏差與 SVM 泛化能力間的平衡。通過拉格朗日乘子法將上式轉化為對偶形式,如式(4)所示:
![]() |
式中,αi 為拉格朗日乘子,核函數 K(xi,xj)= φ(xi)?φ(xj)將高維空間的內積運算轉化為低維空間上的函數運算,使得原本在低維空間中線性不可分的樣本在高維空間中線性可分。求解上述問題的 αi,再根據拉格朗日乘子式求出最優特征向量 w 和最優偏置 b,其最終決策函數如式(5)所示:
![]() |
本文使用的核函數為線性核函數和多項式核函數。算法參數由數據集 1 中隨機選擇的一名受試者通過十折交叉驗證確定。以 PSVM 為例,對多項式階次與懲罰系數 C 進行網格化搜索,選取使十折交叉驗證錯誤率最小的參數值,并將該參數用于數據集 2 中。其他需要參數選擇的算法同樣在該名受試者身上通過類似方法確定具體參數。線性核函數取懲罰系數 C = 20,多項式核函數階數設為 2,懲罰系數 C = 4。
2.3 邏輯回歸
LR 是描述數據樣本 xi 屬于類別 l 的廣義線性模型。算法假設預測變量 yi 服從伯努利分布,并由此確定鏈接函數的形式為邏輯函數 f(·),f 將線性回歸的結果映射為 0~1 之間的概率,從而完成二分類[17]。該算法對過擬合與數據中出現的異常值具有良好的魯棒性[18]。邏輯函數如式(6)所示:
![]() |
回歸系數向量 w 可通過最大似然估計獲得,如式(7)所示:
![]() |
其中,L(·)為樣本的似然函數,xi 為第 i 試次的數據,yi∈{0,1}是訓練樣本類別標記。其最終決策函數如式(8)所示:
![]() |
2.4 判別典型模式匹配
DCPM 算法由天津大學神經工程團隊提出,用于解碼 1 μV 以下的極微弱事件相關電位[19]。該算法首先使用判別空間模式(discriminative spatial patterns,DSP)抑制腦電圖中的共模噪聲,通過典型相關分析(canonical correlation analysis,CCA)增強腦電信號特征,最后構建類別模板進行模板匹配實現分類。
設訓練集樣本 Xi∈RNt × Nc(i = 1,,n)分屬兩個類別,nl 為第 l 類的樣本數目,滿足 n0 + n1 = n,此處 n 表示訓練集樣本個數。yi∈{± 1}表示樣本 Xi 對應的標簽。DSP 空間濾波器的類間散度矩陣 Rb 與類內散度矩陣 Rw 如式(9)和(10)所示:
![]() |
![]() |
其中 ∈RNt × Nc 為第 l 類的疊加平均后的模板信號,X∈RNt × Nc 為所有類別疊加平均后的模板。投影矩陣 W 由對應的最優化問題求解,如式(11)所示:
![]() |
該最優化問題可轉化為廣義特征值問題,投影矩陣 W 即特征值對應的特征向量,實驗中取對應特征值占比 99% 的特征向量組成投影矩陣。
通過 DSP 空間濾波器可以濾除兩類信號之間的共模噪聲,而后基于 CCA 算法構建空間投影矩陣 Ul,Vl 如式(12)所示:
![]() |
其中, 是對應于第 l 類的所有試次的平均模板,Y 是測試樣本信號。利用 CCA 尋找一組最優解,使得兩個整體之間有最大關聯的權重,即令上式計算得到的數值最大。
而后在模板匹配過程中,由訓練集數據構建模板,根據刺激方式的不同,模板構建也可進行相應調整,特征向量 ρl 表示平均模板和測試樣本信號之間的相似性,如式(13)所示:
![]() |
其中,corr(·)代表皮爾森相關系數,dist(·)表示歐氏距離。訓練樣本和測試信號的相似性越大,系數 則越大,如式(14)所示:
![]() |
本文中,僅選取歐氏距離即特征向量 ρl 的第 2 個元素用于決策,預測 Y 的模式如式(15)所示:
![]() |
3 對比方法
3.1 數據預處理
預處理前,將數據集 2 中腦電信號降采樣至 200 Hz 與數據集 1 保持一致。兩個數據集中的腦電信號轉參考至左右乳突的平均值,使用巴特沃茲濾波器對數據進行 1~10 Hz 帶通濾波,通過階次為 3、窗口寬度為 31 的多項式平滑濾波器平滑濾波后數據。以反饋開始時刻為 0 時刻,截取 ? 0.2~0.8 s 的數據,使用 ? 0.2~0 s 的數據去除基線,以 0~0.8 s 數據作為時域特征。分類時選取 FP1、FP2、F7、F3、Fz、F4、F8、FC5、FC1、FC2、FC6、T7、C3、Cz、C4、T8、TP7、CP5、CP1、CP2、CP6、TP8、P7、P3、Pz、P4、P8、PO7、POz、PO8、O1、O2 共 32 個導聯的數據。測試 4 種 LDA 算法、2 種 SVM 算法以及 LR 算法時,用于訓練和測試的樣本在完成預處理后進一步降采樣至 40 Hz。
3.2 算法性能指標選擇
本研究使用平衡正確率、曲線下面積(area under the curve,AUC)、真陽性率(true positive rate,TPR)3 個參數衡量算法性能。平衡正確率為真陽性率與真陰性率的算術平均值,能夠較好克服正確率在數據集類別分布不平衡的情況下難以準確衡量分類器性能的問題。曲線下面積為受試者操作特征曲線下的面積,使用真陽性率與假陽性率的秩進行計算,能避免不平衡類別與分類器閾值選擇帶來的影響,是度量分類器性能的常用指標。真陽性率為正確預測的靶試次數目占靶試次總數的比例。在集成了 ErrP 錯誤更正機制的 BCI 系統中,由于正確試次相較錯誤試次更易獲得,正確試次數目通常遠多于錯誤試次,使得系統容易達到較高的真陰性率(true negative rate,TNR)而真陽性率處于較低水平,當分類器真陽性率過低時系統將難以更正錯誤,致使基于 ErrP 的錯誤更正功能失效。因此將真陽性率單獨列出作為分類器性能指標,以適應不同系統選擇算法的需要。
3.3 算法性能對比方式
算法在實際應用中應該根據在線使用需要達到的指標進行評估,除了 3.2 節中提到的性能指標外,這一過程還涉及參數的選擇、模型訓練所需要的樣本數量、算法的收斂性、算法的收斂速度等因素,這些難以進行綜合系統的量化評估,因此本文僅在以下設置中進行對比分析。
首先,本研究對各算法重復 10 次 10 折交叉驗證取結果的平均值,以確定每個算法的基準性能,然后在不同訓練樣本數目(40、60、80、100、120、140、160、180、200、220 和 240 個試次)100 個測試樣本的條件下,測試了各算法性能隨訓練樣本數目的變化情況。由于數據集中每名受試者包含的 ErrP 試次數目各不相同,因此在隨機選擇訓練樣本和測試樣本進行計算時,根據靶試次和非靶試次的比例劃分,每種訓練樣本數目抽取 10 次并對結果取平均值。
3.4 統計學檢驗方法
本研究使用統計產品與服務解決方案(statistical product and service solutions,SPSS)軟件(IBM SPSS Statistics,IBM Corporation,美國)進行統計分析。使用單因素重復測量方差分析交叉對比不同算法之間性能差異,使用雙因素重復測量方差分析探究算法因素和訓練集樣本數目因素對曲線下面積的共同作用。如果數據不符合球度檢驗(Mauchly’s test of sphericity),則進行格林豪斯-蓋舍校正(Greenhouse-Geisser correction),相關的事后檢驗使用圖基法(Turkey’s test)進行,α 級別設置為 0.05。
4 結果與討論
4.1 數據集 1 中算法基準性能分析
使用 8 種算法解碼數據集 1 中 ErrP 信號,交叉驗證后取 25 名受試者的平均值以確定各算法的基準性能,結果如表 1 所示。使用單因素重復測量方差分析交叉對比不同算法的曲線下面積、平衡正確率與真陽性率如圖 3 所示。結果表明,不同算法之間的性能指標差異均具有統計學意義(曲線下面積:F(3.76,90.43)= 58.80,P < 0.01,平衡正確率:F(4.05,97.11)= 29.72,P < 0.01;真陽性率:F(1.40,56.51)= 35.64,P < 0.01)。


*
*
DCPM 算法的曲線下面積為 82.60% ± 9.47%,平衡正確率為 76.02% ± 8.47%,兩參數優于其他所有算法(P < 0.05);DCPM 的真陽性率為 77.10% ± 10.26%,較 SKLDA 與 SWLDA 大致相同,優于其他算法(P < 0.05),表現出對 ErrP 波形特征的準確檢測能力,總體看解碼性能最佳。LR 算法表現同 LDA 算法相近,解碼 ErrP 信號的能力低于其它算法,兩者之間差異不具有統計學意義。BLDA、SWLDA、SKLDA、LSVM、PSVM 的解碼能力表現大致相近,PSVM 的曲線下面積為 77.17% ± 8.47%,略高于 LSVM 的 75.97% ± 8.77%(P < 0.05);SVM 相關算法性能表現同 LDA 相關算法中表現較好的 SKLDA 與 SWLDA 相近,在真陽性率方面略低于 SKLDA 和 SWLDA(P < 0.05)。
4.2 數據集 1 與數據集 2 中算法基準性能對比分析
由于數據集 2 中僅含 6 名受試者數據,較小的樣本量造成統計學檢驗的效力不足,因此僅展示各算法解碼數據集 2 中 ErrP 信號的結果,而不進行統計學檢驗。使用 8 種算法解碼數據集 1 與數據集 2 中的 ErrP 信號,結果如表 1 和圖 3 所示。同數據集 1 相比,數據集 2 中算法性能相關指標高于數據集 1。根據表 1,將算法對應的曲線下面積、平衡正確率和真陽性率,按從大到小編號,序號越小說明算法性能越好;平均兩個數據集中的各算法排名結果,按各算法平均排名的由小到大編號,序號越小則算法在兩個數據集中的解碼性能越出色,如表 2 所示。由總排名可知,DCPM 算法在兩個數據集中綜合表現最佳,LDA 算法與 LR 算法在兩個數據集中表現最差,它們的解碼能力在兩個不同的數據集中有良好的一致性。但部分算法在兩個不同的數據集中表現并不相同,BLDA 算法在數據集 1 中各排名的平均值為 5.3,而在數據集 2 中這一數值為 2.0,僅次于 DCPM 算法,說明 BLDA 對數據集 2 中的 ErrP 信號具有更強的解碼能力;SWLDA 算法與 BLDA 算法的情況相反,其解碼數據集 1 中 ErrP 信號的表現更佳。盡管 BLDA、SWLDA 較其他算法,更容易受到數據集的影響而表現出不一致的 ErrP 解碼性能,但大部分算法的表現基本一致,尤其是 DCPM 算法,在兩個不同的數據集中均展現出對 ErrP 信號的良好識別能力。

4.3 算法因素與訓練集樣本數目對算法解碼性能的影響分析
數據集 1 與數據集 2 中算法性能隨訓練集樣本數目變化如圖 4 所示。總體上看各算法的分類性能隨訓練樣本數目的增多而增強,其中 DCPM 算法解碼數據集 1 中 ErrP 信號的表現突出,在所有訓練樣本數目下均明顯優于其他算法;BLDA 算法在數據集 2 中的表現僅次于 DCPM,大幅度優于其在數據集 1 中的表現。

在數據集 1 中,對算法(LDA、BLDA、SWLDA、SKLDA、LSVM、PSVM、LR、DCPM)和訓練集樣本數量(40、140、240)兩個因素進行雙因素重復測量方差分析,以確定它們對曲線下面積的影響。結果顯示,算法因素、訓練集樣本數量因素均會影響算法性能指標(算法:F(2.80,67.10)= 73.81,P < 0.01;訓練集樣本數量:F(1.047,35.17)= 130.30,P < 0.01),且部分算法的性能指標會因訓練集樣本數目的不同而發生變化,算法與訓練集樣本數目之間存在交互作用(F(5.38,129.11)= 14.27,P < 0.01)。
4.4 不同訓練樣本數目下算法解碼性能分析
分別使用較小樣本數目(40 個樣本)、中等樣本數目(140 個樣本)和較大樣本數目(240 個樣本)訓練各算法,單因素重復測量方差分析顯示,算法之間的差異具有統計學意義(40 個樣本:F(3.07,76.75)= 58.85,P < 0.01;140 個樣本:F(2.979,74.47)= 61.99,P < 0.01;240 個樣本:F(3.321,83.03)= 56.97,P < 0.01),事后檢驗的結果如圖 5 所示。SWLDA 的曲線下面積受訓練集樣本數目的影響最為明顯。在訓練集樣本數目較少時,除 LDA 外其他算法的曲線下面積均大于 SWLDA(P < 0.05);隨著訓練算法使用樣本數量的增加,SWLDA 的曲線下面積迅速增加,PSVM 與 DCPM 算法大于 SWLDA(P < 0.05);當訓練算法使用的樣本數目較大時,僅 DCPM 算法的曲線下面積大于 SWLDA(P < 0.05)。SVM 對訓練集樣本數目同樣表現出一定敏感性,當訓練集樣本數目由 140 個增加至 240 個時,PSVM 與 LSVM 算法之間曲線下面積的差異具有統計學意義。

*
*
4.5 不同訓練樣本數目下算法訓練所需時間分析
在數據集 1 中,使用不同數量樣本訓練 8 種算法,各算法訓練時間隨訓練樣本數目變化情況如圖 6 所示。由于算法訓練時間不僅受算法本身數學形式影響,同一算法編程方式的不同也會影響算法訓練時間,因此以上結果僅供參考。從圖 6 可得,需要迭代求解的 SWLDA、BLDA、LR 算法其訓練時間遠高于 LDA、DCPM、SKLDA 等存在解析解的算法。同樣需要迭代求解的 LSVM、PSVM 算法,與 LDA 等具有解析解的算法訓練時間相近,這一現象可能是算法優化較好,同時在 ErrP 的應用場景下算法收斂較快造成的。

5 討論與結論
實際應用中解碼算法選擇需考慮可獲得的樣本數目、訓練時間、試驗范式等多種因素影響。本研究使用兩不同范式的公開數據集,從算法基準性能、算法性能與訓練樣本數目間的相互影響、使用不同數目樣本訓練算法所消耗時間三個角度,探究實際應用中 8 個常用算法解碼 ErrP 信號的性能表現。其中,DCPM 對 ErrP 信號的解碼效果最佳,在不同試驗范式和不同訓練集樣本數目下均能保持優秀的解碼能力。算法中 DSP 空間濾波器直接使用二維腦電數據,降低了訓練集樣本數目較少而數據維度過高時矩陣病態或奇異的概率,對腦電信號中共模噪聲有明顯的抑制效果,同時簡單直接的運算過程節省了算法訓練及分類的時間成本[18-20]。SVM 的優秀設計使其具有理想的理論性質,能夠最大化類別之間的間隔以提供良好的泛化能力,從而可以使用少的訓練樣本達到較好的解碼水平;但 SVM 參數選擇過程較為緩慢,且最終表現同 SWLDA、SKLDA 相比沒有顯著優勢,使得選用該類算法的性價比降低。LDA 相關算法中,SWLDA 與 SKLDA 在解決 ErrP 分類問題時,具有同 SVM 算法相近的表現,相比于 SVM 算法所需的參數選擇和 LDA 面對高維數據的奇異性問題,SWLDA 和 SKLDA 的使用更為便捷迅速且 SKLDA 在訓練樣本較少時表現優秀。需要注意的是,如果信號中的鑒別性信息不足或參數設置有誤,SWLDA 將無法提供一個收斂的模型。LDA 同 LR 算法性能表現并不突出,實際應用場景必須使用 LDA 算法的情況下,建議使用 SKLDA 替代 LDA 算法。
綜上所述,在引入 ErrP 自動更正機制的實用 BCI 系統中,可采用單試次 ErrP 檢測實現對受試者或機器錯誤的實時監測,其中的關鍵是 ErrP 的單試次檢測算法。在 8 個常用算法中,DCPM 算法在各種情況下均具有最佳性能表現。相較于 LDA 相關算法,DCPM 在訓練樣本數量較少或特征數目過多時更好地解決了小樣本造成的奇異性問題,使得適用情況更廣;相較于 SVM 相關算法,DCPM 避免了使用時進行的長時間參數選擇過程,使得應用過程更簡便。綜上所述,本文的研究結果有助于 ErrP 錯誤檢測算法的選擇與改進,從而幫助 ErrP 實時監測技術在 BCI 在線系統中的應用。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。