言語表達是一種人類重要的高級認知行為,該行為的實現與人的大腦活動密切相關,真實的言語表達和言語想象都能夠激活部分相同的腦區,因此言語想象成為一種腦機交互的新型范式。基于言語想象的腦機接口(BCI)具有自發產生、無需訓練、對被試友好等優點,因此受到了眾多學者的關注。然而,這一交互技術在實驗范式的設計和想象材料的選擇方面并不成熟,存在較多亟待討論的問題。因此,針對這些問題,本文首先闡述了言語想象的神經機制;然后評述了以往的言語想象BCI研究,系統分析了實驗范式、想象材料、數據處理等方面的主流方法和核心技術;最后討論了制約該類BCI發展的關鍵問題和面臨的主要挑戰,并展望了言語想象BCI系統在未來的發展和應用前景。
引用本文: 劉艷鵬, 龔安民, 丁鵬, 趙磊, 錢謙, 周建華, 蘇磊, 伏云發. 基于言語想象的腦機交互關鍵技術. 生物醫學工程學雜志, 2022, 39(3): 596-611. doi: 10.7507/1001-5515.202107018 復制
引言
腦機接口(brain-computer interface,BCI)是一種通信或控制系統,用戶發送到外部世界的消息或命令不通過大腦外圍神經和肌肉的正常輸出路徑,而是利用計算機等外部電子設備,實現大腦與外界的交流和控制[1-2]。BCI系統可分為自發與誘發兩類,前者是基于某種特定心理任務產生的神經活動,而后者是在外部刺激下所誘發的,其中自發BCI系統常見的心理范式(任務)是運動想象,它要求被試在心理上模擬身體某個部位運動(比如手或腳)。基于運動想象的腦機交互機制已被廣泛研究,然而運動想象這一心理任務卻對部分被試不太友好,大約20%的人不能產生有效的控制,即“BCI盲”現象。因此,研究者提出了其他一系列的心理范式(任務),如言語想象、視覺想象[3]、心算[4]等,利用這些任務同樣可以進行BCI系統的研究與開發。其中基于言語想象BCI系統擁有較多的優點,如自發產生且無需刺激、無需訓練且對被試友好,可直接表達真實意圖,能夠提供一種自然的交流方式等。
早期對言語產生時腦神經信號的研究可追溯至1967年,Schafer[5]發現在閱讀不同字母前525 ms期間,同一大腦皮層區域有著不同的皮層電位;Hiraiwa等[6]利用閱讀五個日語元音時的準備電位進行分類;Suppes等[7]發現在不同單詞聽覺刺激及想象過程中,可以利用腦神經信號對單詞進行分類。在隨后的研究中,越來越多的學者關注在言語想象過程中對腦神經信號的分析,并逐漸將其發展為BCI系統中一個重要的范式。對言語想象的研究由最初發現閱讀不同字母時腦神經信號的不同變化,到利用想象元音進行分類,再到利用閱讀連續句子進行解碼,有著一個緩慢的發展歷程,其中對言語想象多分類及處理句子時的解碼還處于發展初期,未來擁有著廣闊的發展前景。基于言語想象的BCI系統能夠實現一種較為自然的交流方式,這一系統對言語障礙、肌萎縮側索硬化癥、閉鎖綜合征等疾病患者具有積極作用[8-9]。
言語想象的綜述前人也有論述,如陳霏等[10]討論了言語想象腦機交互技術的信號采集和信號處理技術,但并未對實驗范式及想象材料等存在的問題進行歸納總結,同樣對于句子解碼任務介紹較少;Schultz等[11]主要介紹了言語產生時多種生物信號及其記錄形式,Cooney等[12]主要關注言語的生理學知識及其產生,但兩者均未涉及到實驗范式和信號處理;Martin等[13-14]在其論述中只是描述了利用皮層腦電(electrocorticography,ECoG)技術對言語想象時的腦神經信號進行解碼,Panachakel等[15]只是描述了腦電(electroencephalography,EEG)技術,兩者都沒有綜合考量多種腦神經信號在言語想象領域的應用。與此同時,雖然言語想象任務執行起來相對容易,但在特征提取、分類、人機交互等方面存在一定的難度,實驗范式的設計和想象材料的選擇也沒有統一的標準。
因此,針對上述存在的問題,本文對言語想象的實驗范式及想象材料進行系統的歸納總結,討論處理言語想象數據的算法,歸納在線系統、實驗范式、言語想象數據和解碼句子這幾方面存在的具體問題,并展望了言語想象BCI系統在未來的發展方向及應用前景。
1 言語想象的神經機制
1.1 言語想象的基礎生理過程
言語想象,指的是人們在心里發音,而不發出實際聲音,也沒有面部動作,這一現象的產生涉及到人的認知、記憶、學習、思考等方面的大腦神經機制。Oppenheim等[16]在其研究中指出言語想象是真實發音的刪減版,其能夠激活發音特征,只是沒有產生可以聽到的聲音。Palmer等[17]通過功能性磁共振成像(functional magnetic resonance imaging,fMRI)發現在真實發音期間所激活的腦區與在言語想象期間相似。Huang等[18]通過fMRI發現真實發音與言語想象都會激活布洛卡區及其他部分腦區,但在真實發音狀態下布洛卡區的激活程度更大,并且在言語想象狀態下,左半腦區激活尤為顯著。這些研究表明,兩種行為在腦區激活上存在部分重疊,這也為以后實現分類和解碼言語想象時的腦神經信號提供了科學理論依據。
Basho等[19]通過fMRI發現言語想象能夠更明顯地激活左側顳中回和額上回等腦區;而Shuster等[20]通過fMRI測量血氧濃度依賴性(blood oxygen level-dependent,BOLD)發現,左側中央前回和中央后回等腦區在真實發音任務中的BOLD響應明顯大于言語想象。可以發現,兩種行為在腦區激活上雖然存在重疊,但也各有側重,因此不能將兩種行為產生的腦神經機制等同看待。
在言語想象任務中,Goto等[21]利用腦磁圖(magnetoencephalography,MEG)在左下額中回和左前顳葉皮層等腦區觀察到事件相關去同步(event-related desynchronization,ERD)現象,并且具有不同的時空特征。Shergill等[22]利用fMRI來檢測腦活動與言語想象生成速率的關系,發現言語想象速率的增加與腦區激活相關。研究發現,自發的言語想象與任務誘發的言語想象存在差異,任務誘發的言語想象與左下額葉區域的激活增加有關,而在自發的言語想象時這一區域的激活卻不明顯[23]。通過對真實發音與言語想象兩種行為在神經層面的研究,可以更好地將言語想象范式應用于BCI系統;而通過對言語想象神經影像學的不斷探索,研究者可以利用其中的結論更好地設計出言語想象BCI系統的實驗范式,選擇合適的特征提取算法。
在言語想象和真實發音過程中大腦的神經活動有重疊,但也存在部分差異,因此不能將真實發音實驗中得到的結論應用于言語想象范式,而應將言語想象與BCI系統結合起來對這一腦活動機制進行研究。大腦在處理不同含義詞語時有著不同的激活方式,利用言語想象時大腦的神經特征,可以為BCI系統的分類、解碼提供依據,言語想象范式能夠得以發展,就是依托了對這些生理機制的研究。但是,在真實發音過程中存在嘴唇、舌頭等發音器官的運動,那么利用言語想象時的腦神經信號進行分類、解碼,究竟是利用大腦處理言語信息的信號還是發音器官運動想象的信號還需進一步探究。
1.2 腦神經信號采集
BCI系統根據信號采集方式的不同可分為侵入式和非侵入式兩類。侵入式BCI系統需要通過外科手術實現,將電極植入大腦內部,這使得由運動和其他非神經偽跡產生的影響大大減少。在侵入式言語想象BCI系統中,由于ECoG信號信噪比高、具有較高的時間及空間分辨率且侵入性相對較低,所以研究大多是采集ECoG信號。但基于ECoG采集的言語想象BCI系統的被試多為癲癇患者,他們植入電極的最初目的是治療癲癇并非腦機交互,所以這種方式僅適用于部分特定人群[24-25]。非侵入式BCI系統是一種將信號采集電極放置在頭皮表面獲取腦神經信號的無創途徑,常見的非侵入式技術有EEG、功能性近紅外光譜(functional near-infrared spectroscopy,fNIRS)、MEG等,這也是目前采集腦神經信號應用最廣的方式。
目前來看,在言語想象BCI系統中,采集ECoG和EEG信號的研究均得到了廣泛開展。ECoG信號憑借其更精準和更快速的控制被應用于鼠標的一維控制[25-26],以及句子解碼任務[27-28]。EEG信號的采集憑借其價格較低、便攜易用等優點被廣泛深入研究,因此在非侵入式言語想象BCI系統中大多數是采集EEG信號。
此外,Kaongoen等[29]在言語想象任務中,不僅采集了頭皮EEG,還采集了耳部EEG,發現兩種不同形式的EEG在分類任務上并沒有顯著差異。因此,在后續言語想象BCI系統應用當中應結合被試的情況選擇合適的信號采集方式。另一方面,侵入式采集方式需要通過外科手術植入電極,非侵入式采集方式有的存在一個佩戴過程(如EEG)而有的記錄設備比較龐大(如MEG),所以未來開發便攜的采集系統也是研究的一個方向。
1.3 言語想象BCI系統的腦區選擇
在基于言語想象BCI系統中,對于侵入式采集方式其電極都是預先設計好的,一經植入就不會再隨意移動,而對于非侵入式采集方式而言,可以通過不同的電極排布,篩選出對分類、解碼起重要作用的腦區。表1[8,30-36]展示了言語想象BCI系統的腦區選擇,其中侵入式采集方式其電極都是植入固定的腦區,而非侵入式采集方式選擇的都是執行分類任務準確率最高的腦區。

從表1中可以發現,基于言語想象BCI系統的腦區選擇大多集中在左半腦。此外,Wang等[37]還設計了采集腦神經信號兩種不同電極排布的BCI系統,一種是采集全腦信息,另一種是僅采集左半腦信息,結果表明,僅利用左半腦信息也可以提取出言語想象的腦神經信號特征。通過對腦區更精準的定位,可以優化電極排布,使得基于言語想象BCI系統的應用更加簡單輕便。
1.4 言語想象BCI系統在不同波段下的表現
成年人EEG中主要包括θ波(4 ~ 7 Hz)、α波(8 ~ 13 Hz)、β波(14 ~ 30 Hz)和γ波(> 30 Hz),并且每種頻率的EEG節律都與大腦特定的生理現象密切相關。
在言語想象任務過程中,Jahangiri等[38]通過音節想象分類任務發現α波具有最高的分類性能,其次是β波;同樣D’Zmura等[39]發現,β波(13 ~ 18 Hz)中包含豐富的分類特征。郭苗苗等[40]通過對言語想象EEG數據進行時頻分析發現,被試默讀漢字時所引起的EEG信號能量變化差異主要體現在α波和β波。Sereshkeh等[41]通過對單詞想象的EEG信號分析觀察到,在布洛卡區和額葉皮層存在β波的激活。Koizumi等[36]通過言語想象分類任務發現,γ波高頻段(60 ~ 120 Hz)取得了比其他波段都高的分類精度,并且在(0 ~ 60 Hz)范圍內,γ波低頻段(30 ~ 40 Hz)的分類精度存在一個峰值。由于記錄EEG與ECoG有著相似的生理學基礎,所以在利用ECoG進行言語想象研究中也有類似的結論。Ikeda等[42]利用ECoG信號進行元音想象研究,發現布洛卡區的β波能產生較高的分類精度。Crone等[43]在其研究中指出ECoG中的γ波(80 ~ 100 Hz)可用于研究人類語言的神經解剖學和加工動力學,并且在利用ECoG信號進行言語解碼研究中大多是利用高γ波信號[32,44]。
因此,在后續言語想象BCI系統研究中,研究者可將EEG和ECoG的波段關注在α波、β波及高γ波。在言語想象任務過程中,對波段信息的研究有助于選擇合適的信號采集方式及頻域分析算法。
1.5 言語想象任務中的EEG動態特征
事件相關電位(event related potential,ERP)是被刺激誘發的電位(相對于自發的EEG節律而言),或者當某種心理因素出現時,在腦區所產生的電位變化。在非侵入式采集的EEG信號中,利用EEG中的ERP開發的BCI經典范式有N170(面孔識別)和P300(打字)。
在言語想象任務中,同樣也存在ERP現象,DaSalla等[45]研究指出,在執行元音想象起始時,C3、CZ和C4電極(國際10-20系統)位置出現負波趨勢,在300 ms左右出現正波,并且這些波形與真實語音產生時的ERP非常類似。楊曉芳等[46]發現在執行音位想象任務時的ERP波形與真實發音器官運動引起的顱內及頭皮電位時間進程相似。Kim等[47]提出將ERP與言語想象任務相結合的范式,利用ERP電位峰值這一特征實現智能家居控制。
雖然ERP已廣泛應用于腦功能及神經科學研究,但在言語想象BCI系統中,與ERP相關的研究相對較少,且沒有利用ERP進行分類識別的言語想象BCI系統。雖然在言語想象任務中存在ERP現象,但在執行不同言語想象任務時ERP僅具有較小差異,這就使得分類任務變得較為困難,因此從細微的區別中區分不同的心理狀態需要利用新的特征及算法進行分析。
2 言語想象BCI系統的實驗范式及想象材料
言語想象BCI系統的實驗范式可分為兩類,一類是分類任務,另一類是解碼任務,如圖1所示為言語想象BCI系統實驗范式。分類任務的對象是兩個或多個單詞、音節、音位等,其目標是將腦神經信號分類為有限類別數當中的一類;而解碼任務的對象大多是句子,其目標是利用腦神經信號重建連續的語句特征。

a. 分類任務實驗范式的時序圖;b. 解碼任務實驗范式的流程圖
Figure1. The experimental paradigm of the BCI system of speech imagerya. sequence diagram of the experimental paradigm of classification task; b. flow chart of the experimental paradigm of the decoding task
2.1 分類任務實驗范式
基于言語想象BCI系統分類任務的實驗范式與基于運動想象BCI系統的實驗范式較為相似,分類任務實驗范式的單個實驗試次通常包括準備期、刺激/提示期、想象期和休息期。圖1a所示為分類任務實驗范式的時序圖,以想象“是”為例。
在準備期,被試被要求注視屏幕,一般情況下屏幕會顯示“十”字符號,目的是讓被試避免頭部運動使腦活動保持基線水平,也便于實現后續異步系統想象狀態與空閑狀態的區分[48]。
刺激/提示是給出被試在想象期所執行的想象任務,較為常見的刺激/提示材料為單個漢字、單詞、音節、音位等。根據刺激/提示材料呈現方式的不同可分為聽覺提示[34,49]、視覺提示[36,38]和視聽結合[50]三種形式。在刺激/提示期,若為聽覺提示,系統會通過揚聲器播放被試需要想象的材料;若為視覺提示,系統會通過屏幕顯示被試需要想象的材料。其中較為常見的是視覺提示,當在線人機交互系統中使用視覺提示,被試可以在多個提示材料中自主選擇要執行的想象任務。若使用聽覺提示,被試只能根據聽覺提示進行人機交互,將不能自主選擇想象材料。與此同時,使用聽覺刺激會激活與言語想象相關的腦區,而使用視覺提示就能夠避免這一問題[51]。Sereshkeh等[52]通過選擇一些答案為“是”或“不是”的問題進行視覺提示。若為視聽結合,則是將上述兩種提示進行結合,Zhang等[50]在關于漢語音節四種音調的研究中指出,采用視聽結合的方式分類準確率要高于僅使用視覺提示。
在想象期,被試被要求想象在刺激/提示期所呈現的提示材料,但是關于言語想象任務如何執行,各個文獻都有不同的表述。例如,在心里讀某個字不能移動嘴唇且不能發音[37];想象在心里默默地說出某個字[53];想象以第一人稱的方式說話,說話者感覺自己在沒有任何發音動作的情況下說話[34]。通過廣泛查閱文獻將言語想象任務指導語總結為:被試應以第一人稱的角度進行想象,在想象過程中心里默讀所提示的材料,但是不能發出聲音,同時應保持發音器官與面部器官不能運動[11,34,37,40,53]。
被試進行言語想象的方式一般有兩種,一種是在想象期不斷重復想象提示材料[37, 40],另一種是在想象之前或想象過程中會聽到較短的周期聲音,聲音一般為嘟嘟聲或滴答聲,這樣有助于形成節奏,讓被試更好地根據節奏進行想象[54-55]。D’Zmura等[39]通過不同節奏的言語想象,發現這一方式在提高分類自由度的同時也會產生較為豐富的分類特征。在部分實驗范式中,想象期和刺激/提示期是重合的,即在想象過程中視覺刺激/提示持續存在[45,56]。通過圖表的形式可以清楚地表述各個實驗范式的設計方法,如表2[39,54-56]所示,展示了包含節奏提示的想象期時序圖。

在休息期,被試不需要進行任何心理想象任務,此時屏幕一般為黑屏。AlSaleh等[57]在其研究中指出,準備期和言語想象期的二分類準確率要優于休息期和言語想象期的二分類準確率,這種現象是由于準備期的視覺注意會激活大腦對視覺信息的處理。設置休息期是讓被試進行休息,避免連續的心理任務產生疲勞,而設置準備期是為了提高想象期與空閑狀態的可分性,進一步促進異步系統的發展。
通過對言語想象分類任務實驗范式的歸納總結,不難發現各個文獻所設計的實驗范式并不一致,范式的確定不能單一地從準確率這一個方面進行考慮,而是要結合后續在線系統和用戶的使用感受進行綜合考慮設計,例如通過設置問卷、控制變量法和多種評價指標尋找合適的實驗范式。此外,雖然使用周期性的嘟嘟聲可以提高分類性能,但是持續的聽覺刺激會對被試造成聽覺疲勞,同樣聽覺刺激對腦神經信號也會產生影響,因此言語想象實驗范式的設計仍有改進空間。
2.2 解碼任務實驗范式
解碼真實言語產生時的腦神經信號是利用言語想象進行人機交互的必要一步。Herff等[32]通過采集被試閱讀句子時的ECoG信號可以實現對音素、單詞的解碼;而Anumanchipalli等[27]不僅能夠解碼閱讀句子時的腦神經信號,而且當被試默念句子時(即做出必要的口型,不發出聲音),也可以利用所設計的解碼器合成語音。直接對想象句子時腦神經信號進行解碼存在一定的難度,因此需要將朗讀句子時的腦神經信號與句子信息進行標定并訓練,以實現對腦神經信號的解碼。
解碼處理句子時腦神經信號的實驗范式是將被試朗讀實驗材料時的腦神經信號與朗讀的內容進行標定,然后利用標定的信息與腦神經信號訓練解碼器,最后在閱讀或想象句子時對腦神經信號進行解碼。圖1b為解碼任務實驗范式的流程圖,被試閱讀屏幕上顯示的連續句子,并利用采集到的音頻信息做為標簽與腦神經信號一起記錄。實驗材料在屏幕上呈現的形式可分為兩類,一類是文本以恒定的速度從右至左在屏幕滾動顯示,另一類則是在屏幕一次顯示一個句子。為保證記錄過程的連貫,被試在記錄之前會熟悉所執行的任務。如果被試本身是言語障礙患者,那就需要用到遷移學習,利用健康被試訓練解碼器進行解碼。
2.3 想象音位/音節
語言的學習都是從音到字,再從詞到句,循序漸進學習掌握,同樣言語想象材料的選擇也符合這一規律。其中音位是語言中具有區別意義作用最基本的語音單位,而音節則是由不同音位組合起來的語音單位。早期對大腦處理言語的研究都始于音位,所以在言語想象BCI系統發展中音位/音節也是首先考慮到的實驗材料。如表3[38-39,45,50,58]所示,展示了具有代表性的音位/音節/聲調想象材料,并總結了選擇這些材料的原因。

以上材料的選擇都是基于作者探究性的目的,無論所選擇的材料是否有意義其結果都是可分的,因此在后續研究中可以將選擇的材料賦予特定的意義,這樣便于產生控制輸出。除了表中列舉的想象材料,有研究逐漸將想象材料拓展到輔音,如楊曉芳等[46]選擇的想象材料為四個元音音位/a/、/i/、/u/、/y/以及四個輔音音位/m/、/n/、/?/、/f/;而Brumberg等[8]對一名癱瘓患者進行研究,要求其想象38個美式英語音位。隨著研究的不斷深入,能夠發現更多具有可分性的想象材料,這對提升言語想象BCI控制自由度具有重要的應用價值。
2.4 想象漢字/單詞
漢字/單詞材料的選擇既有基于特定含義的又有基于特定結構的,如表4[31,37,52-54,59-62]所示,展示了具有代表性的漢字/單詞想象材料,并總結了選擇這些材料的原因。

從表4中可以發現,目前基于英語言語想象的研究較多,而漢字想象的研究相對較少。除了表中所羅列的,郭苗苗等[40]還選擇了“喝”、“右”、“吃”和“冷”四個漢字作為想象材料。漢語作為世界上使用人口數最多的語言,基于漢語的言語想象BCI系統擁有很大的需求,因此對其研究具有深遠的意義。
除了選擇某種單一類型的想象材料,也有研究選擇多種類型的想象材料進行對比研究。AlSaleh等[57]根據語義上的變化選擇了十一個材料,包括有無語義的音節/ba/和/ku/,方向詞“left”、“right”、“up”和“down”,回答詞“yes”和“no”,以及情緒詞“happy”、“sad”和“help”,研究結果表明想象不同類型的單詞與空閑狀態的二分類準確率并無差異。Nguyen等[56]選擇了短單詞“in”、“out”和“up”,長單詞“cooperate”和“independent”,以及音位/a/、/i/和/u/,選擇不同類型的想象材料是為了探究影響言語想象分類效果的因素,如復雜程度、意思和發音。實驗結果指出,短單詞之間和音位之間的分類性能相似,這表明影響言語想象分類效果的是發音而非意思;長單詞相比于短單詞能提供更高的Kappa系數,平均分別為0.32和0.25,這表明復雜程度越高的單詞越容易利用腦神經信號進行區分;一個短單詞和一個長單詞之間也產生了很高的分類性能,最高能達到二分類96.90%的準確率,這表明不同復雜程度單詞之間能提高分類效果。通過對多種類型想象材料進行對比研究,可以為后續言語想象研究在選擇想象材料時提供參考。
2.5 想象句子
將字、詞按照一定的邏輯進行組合就構成特定含義的句子,如果用分類任務的思路重建連續的語句將不能表達句子連貫的意思,這時就需要綜合考慮詞語前后的邏輯進行解碼。
Dash等[63-64]選擇了五個常用的短語“Do you understand me?”、“That’s perfect.”、“How are you?”、“I need help.”和“Good-bye.”用作想象材料,雖然選擇的是短語但是其本質還是進行分類研究,是將腦神經信號分類為有限數量當中的一類。在解碼任務中選擇的文本材料有童話故事[27]、演講[32]、MOCHA-TIMIT語料數據庫[28,65]等,由于MOCHA-TIMIT語料數據庫中的句子基本上涵蓋了英語中出現的所有發音形式,所以使用得較多。由于對解碼句子的研究較少,所以選擇的材料也有一定的局限性,不過在后續的研究中可以選擇生活中常用的一些句子,以幫助言語障礙患者實現簡單的溝通交流。同樣也可以選擇包含生活中常用漢字的文章,像中小學語文教材的課文,并為常見的字、詞建立數學模型。
3 數據處理的關鍵技術
3.1 特征提取
特征提取部分是言語想象BCI技術的核心,該過程的實質是從采集的腦神經信號中提取部分有用的信息,并利用這些信息進行不同腦狀態的區分。特征提取算法大概可以分為三類:時域法、頻域法和空域法。
時域法一般選取各通道信號的均值、方差、峰度等作為特征,常用這種算法的腦神經信號采集方式是EEG[66-67]和fNIRS[52,68]。Iqbal等[69]發現在元音想象的EEG信號中,時域特征取得了比空域更好的分類精度。在fNIRS信號中,Hwang等[68]在單詞想象二分類任務中發現所有時域特征類型中峰度特征的平均分類精度最高,而Sereshkeh等[33]選擇均值作為特征對言語想象任務進行在線分類。
常用的頻域法有功率譜密度(power spectral density,PSD)[31,70]、離散小波變換(discrete wavelet transform,DWT)[64,71]、梅爾頻率倒譜系數(Mel frequency cepstrum coefficient,MFCC)[72]等。其中MFCC是基于人耳聽覺特征建立的,已廣泛應用于語音識別領域,也有研究者發現這一算法在言語想象BCI系統中同樣適用[73]。Riaz等[35]與Cooney等[74]在基于言語想象BCI系統中,對比分析了不同的特征提取算法,發現利用MFCC進行特征提取在其數據中都取得了最好的分類效果。
空域法中常用到的是共空間模式(common spatial patterns,CSP),這種算法最初是應用在二分類BCI系統中,它是將兩種不同類型的信號聯合對角化提取相應的特征[40,50,59,75-76]。
時域、頻域考慮了單個通道的特征,而空域綜合考慮了多個通道的特征,不同類型的特征存在互補關系,并且在言語想象BCI系統中應用最多的特征提取算法為CSP及各種頻域算法。Garcia-Salinas等[77]利用張量分解將時域、頻域和空域的信息結合起來提取特征,雖然可以提高分類精度,但是需要較多的計算成本,因此在后續特征提取過程中可以利用特征選擇和融合算法篩選出最具辨識度的特征。除了上述常見的特征提取算法,黎曼幾何[78]、腦連接特征[53]和EEG皮層電流[79]也被應用于言語想象BCI系統。
3.2 分類與解碼
分類與解碼就是進行不同腦狀態的區分,確定所提取的特征與腦狀態的對應關系。當前,基于言語想象BCI系統的分類與解碼算法主要有經典的機器學習和更加前沿的深度學習兩類。
其中常用的機器學習分類算法有線性判別分析(linear discriminant analysis,LDA)[80-81]、極限學習機(extreme learning machine,ELM)[29,82]、支持向量機(support vector machine,SVM)[75,83]、隨機森林(random forest,RF)[84-85]等。Min等[67]在其研究中,對言語想象EEG數據進行分類,其結果表明ELM及其改進算法的性能優于LDA和使用徑向基核函數的SVM。Matsumoto等[86]在其研究中同時使用了高斯核函數的相關向量機(relevance vector machines,RVM)和SVM,當訓練數據較少時,使用高斯核函數的SVM分類效果較好,因此該算法適合應用于在線系統。值得注意的是,Sereshkeh等在兩個研究中所采集的腦神經信號不同,一個為表征神經元放電的EEG[71],另一個為表征腦組織血氧代謝活動的fNIRS[33],進而選擇了不同的算法。對于EEG信號,Sereshkeh等通過比較正則化的LDA、SVM、樸素貝葉斯(naive Bayes,NB)、K近鄰算法(k-nearest neighbor,KNN)和人工神經網絡(artificial neural network,ANN)(多層感知器)的分類準確率,發現ANN(多層感知器)有最高的分類準確率。而在關于fNIRS的研究中,Sereshkeh等則指出,與SVM(分別使用線性核函數、多項式核函數、徑向基核函數和Sigmoid核函數)、ANN(具有一個隱藏層的多層感知器)和NB相比,正則化的LDA具有最高的分類準確率。同樣一些新穎的分類算法也被應用于言語想象BCI系統,像遷移學習[87]和自適應分類器[88]。
經典的機器學習算法特征提取與分類是分開進行的,兩個處理步驟選擇的算法不一定能夠達到最佳的效果,并且比較依賴于研究者的經驗,而深度學習算法就避免了這一問題,這種算法在部分情況下不需要進行特征提取,而是將特征提取和分類直接在數據中聯合學習。深度學習作為一種特殊的機器學習算法,已應用在言語想象BCI系統中,其不僅可以應用于分類任務[89],還可應用于解碼任務[27]。從腦神經信號中解碼連續的句子作為一種非線性變換存在一定的難度,而深度學習可以從復雜的序列當中直接提取有價值的信息,并且其作為一種端到端的方式能夠彌補缺少先驗知識(如哪些通道在解碼中起決定性作用)造成的問題,而且深度學習在提高分類、解碼精度方面更具有潛力。在基于言語想象BCI系統中,常用到的深度學習算法有卷積神經網絡(convolutional neural networks,CNN)[90-91]、循環神經網絡(recurrent neural network,RNN)[65,92]、深度神經網絡(deep neural networks,DNN)[93-94]、長短記憶網絡(long short term memory,LSTM)[27,89]等。除了深度學習可以應用于解碼任務,廣泛應用于自然語言處理領域的維特比算法[95]也被應用于解碼任務[32]。
經典的機器學習算法經過長時間的發展已經逐漸成熟,但這種算法以應用于分類任務為主,需要與特征提取算法配合應用,存在著一定的局限性。同樣深度學習算法有諸多優點,但是其在BCI系統應用中也存在問題,比如:基于不同數據要設計出不同的深度學習網絡結構;通常需要大量的數據集進行訓練來調整參數;在線BCI系統的建立存在一定的難度。
3.3 典型算法比較
由于不同文獻間數據采集協議不同(包括被試、實驗范式和想象材料等),為比較各算法在言語想象數據中的性能,選擇使用相同數據集的文獻進行比較。如表5[35,45,58,66,69,74,77-78,87,89,96-98]所示,比較了言語想象BCI系統的特征提取及分類算法,并且所有文獻都是對言語想象期間的EEG信號進行分類研究。

從表中可以發現不同數據集有著其適合的算法,并沒有某一種算法能在所有數據集中表現出很好的結果,選擇合適的特征提取算法也能取得和深度學習相媲美的分類精度。因此要結合數據的特點選擇合適的算法,當數據較多時可以考慮深度學習算法,較少時考慮遷移學習算法,在線系統則考慮SVM,還可以通過改進已有的算法,使其能夠處理小樣本、含噪聲、非平穩數據。另一方面,可以選擇語音、語言領域適用于言語想象BCI系統的數據處理算法,如MFCC(語音識別領域)、維特比算法(自然語言處理領域)。
同樣,也沒有特定的特征提取及分類算法組合在任意言語想象數據中都取得很好的結果,雖然經典的算法組合為CSP與SVM[37,45,99],但隨著算法的不斷發展,自適應、黎曼幾何、深度學習等算法也都得到了廣泛應用。
絕大部分言語想象BCI系統研究中僅通過準確率對算法的性能進行評價,僅有個別研究選擇了額外的評價指標,如Kappa系數[56]、靈敏度及特異度[100]。因此,在后續言語想象研究中,應綜合考慮其他評價指標(如信息傳輸速率、失效率等[101])對算法性能進行綜合性評價。
4 存在的問題及對未來的展望
4.1 在線系統
從離線分析到實時在線是BCI系統的發展規律,早期離線分析是為了探究言語想象范式的可行性,尋找合適的實驗范式及想象材料,在其不斷發展過程中應選擇合適的數據處理算法并逐漸將其應用于在線系統。實時在線輸出/控制是衡量BCI系統的金標準,開發在線系統更具有實際應用價值,但目前基于言語想象BCI系統大多采用離線分析方法,實現實時在線的BCI系統較少。
在利用言語想象任務進行在線分類系統中,大多集中于二分類或者三分類研究[9,33,102],其中Sereshkeh等[41]設計的實時在線言語想象BCI系統想象“no”與休息狀態間的平均準確率達到75.90%,想象“no”與“yes”間的平均準確率達到69.30%,其后續設計的在線三分類(想象“no”與“yes”及休息狀態)的平均準確率達到64.10%[33];Chaudhary等[9]設計的實時在線言語想象BCI系統想象“no”與“yes”間的準確率超過了70.00%;Wang等[102]設計了言語想象與運動想象結合的在線BCI訓練系統,在線分類準確率均超過了80.00%。
在線系統中,實時采集到的數據需要及時處理,由于腦神經信號具有個體差異和非平穩性,這就使得在線系統的發展存在一定的難度,而自適應算法[103]和遷移學習[104]的提出能夠在一定程度上解決這一問題。另一方面,基于言語想象在線BCI系統大多集中于二分類或者三分類,因此后續開發在線及實時控制的多分類BCI系統更有意義。
4.2 實驗范式
基于言語想象BCI系統沒有固定的實驗范式,部分研究還是探索性地設計實驗范式。因此,可以通過對神經機制與以往范式的研究,設計出標準規范的實驗范式,進而推進言語想象BCI系統的發展。
言語想象的材料,在之前的研究中既有無語義的材料,也有有語義的材料,無語義的音位或音節在發音過程中其發音部位、嘴部活動不同,利用這些材料可以實現腦活動狀態的區分。由于部分語言的單詞或音節是由五個元音中的一個和輔音構成(如英語、日語等),所以選擇使用最多的無語義材料是五個元音。而有語義的材料在實現可分性的同時,將有機會在現實生活中得以應用,像回答詞、方向詞及癱瘓/失語癥患者常用的高頻單詞。所以在后續研究中,應盡量使用有指代意義的音節或生活中常用的詞語或句子,這樣可以讓閉鎖綜合征及言語障礙患者通過言語想象對設備進行控制,在生活中實現簡單的活動和較為流暢的交流。
4.3 言語想象數據
在言語想象研究中,采集的數據大多是正常人,而言語想象范式其目的是為了提高言語障礙患者的溝通能力,因此在以后的研究中應盡可能選擇一部分言語障礙被試。另一方面,大多數研究都是利用言語想象數據進行分類任務,僅有個別研究將言語想象應用于控制鼠標及智能家居。因此,在后續研究中應將言語想象范式與實際控制相結合,在擁有實際應用的同時,還可以提高被試參加實驗的積極性與成就感。
基于言語想象的數據庫比較少,已有的數據庫有西班牙語[58]和英語[66],雖然漢語是世界上使用人口數最多的語言,卻沒有基于漢字想象的數據庫。因此,對言語想象BCI系統感興趣且有條件的學者可以將采集到的漢字想象數據予以公布,以促使在漢字想象方面的分類解碼算法快速發展。
4.4 解碼句子
人們在日常生活中都是使用句子進行交流,并非孤立的字、詞,因此研究解碼句子具有更深遠的意義和應用價值。對解碼句子的研究能夠更加全面地了解大腦關于語言的加工處理過程,同時對基于分類任務言語想象BCI系統也能起到促進作用。基于句子想象的BCI系統解碼研究并未廣泛開展,目前的研究都需要采集被試朗讀句子時的腦神經信號進行訓練并解碼,隨著研究的不斷深入,可不必閱讀句子而僅通過想象就足以實現訓練與解碼。
Makin等[65]將閱讀句子時的ECoG信號到文本的轉換類比為機器翻譯的過程,解碼被試腦神經信號的平均單詞錯誤率約為3%。Sun等[28]利用所設計的深度學習網絡結構對閱讀及默念句子時的ECoG信號進行訓練解碼,其中效果最好的單詞錯誤率為7%。雖然在有限句子數據集中進行解碼有著較好的準確性,但如果將該技術應用于自然交流中,則需要不斷探索,比如多少數據集才能夠滿足日常溝通交流,以及如何獲得足夠多的訓練數據集。
從以上研究可以發現,解碼處理句子時的腦神經信號一般用的是ECoG信號,雖然這種信號的信噪比較高,但是需要通過外科手術植入電極,使得這一研究只能在特定人群中開展。基于此,在后續研究中,利用非侵入方式獲取腦神經信號,通過優化改進數據處理算法以實現對句子的解碼將是未來的發展方向。
4.5 多種狀態下腦神經信號分析
在采集腦神經信號進行分類任務過程中,部分研究并不僅僅局限于言語想象過程中的腦神經信號,在真實發音和聽覺刺激/提示過程中的腦神經信號同樣可以進行分類,利用這兩種狀態下的腦神經信號產生的分類準確率也明顯高于想象狀態[49,64]。也有研究將休息期、刺激/提示期、想象期和真實發音期不同心理狀態間的腦神經信號進行分類,不同狀態間的分類可以監測被試的腦活動狀態,從而實現在線異步系統控制與非控制狀態的區分[66,105]。通過對各個狀態內不同言語任務的分類以及不同狀態間的分類,可以更好地促進言語想象BCI系統的發展。同樣,Wang等[106]提出將言語想象與運動想象相結合的心理想象范式,這一范式在不增加執行任務心理負擔的同時可以提高分類精度。
4.6 多模態信號對言語信息的解碼
在言語想象BCI系統中,不僅可以采集一種形式的腦神經信號對言語信息進行分類、解碼,還可以采集兩種形式的腦神經信號,如EEG和fNIRS的混合信號[52]。不同形式間的腦神經信號可以起到互補作用,從而提高BCI系統的性能。
在言語產生時,有大腦的神經活動、舌頭等發音器官的運動,這些生物信號都提供了關于言語的信息,因此不僅可以通過采集腦神經信號進行言語信息的解碼研究,同樣還可以利用發音器官的運動和肌電信號對言語信息進行解碼[107],如Zhao等[66]就利用了多種模態信息以實現對音位、音節及單詞的分類。未來在言語想象BCI系統開發中,可以將腦神經信號與發音器官的運動、肌電信號、面部特征(舌頭、喉嚨和嘴唇)等生理信號進行結合,進而開發出自由度更高、效率更快的BCI系統,這對一些存在發音障礙但是發音器官可以運動的患者來說將更加適用。雖然融合多種模態的生理信號蘊含豐富的信息,但是在采集數據時系統也會變得更加復雜,因此開發輕便的多模態信號采集設備也是未來發展需要考慮的一個問題。
4.7 言語想象BCI系統在未來的發展及應用
基于言語想象BCI系統在多個領域將有著廣泛的應用,如交流功能恢復、軍事、教育、娛樂等,并且有著很大的研究價值和發展潛力,圖2所示為基于言語想象BCI系統的應用。

a. 控制鼠標;b. 無聲加密通信;c. 多人協調決策融合系統;d. 娛樂功能;e. 控制輪椅;f. 腦紋識別;g. 學習狀態評估和專注度量化;h. 實時打字系統
Figure2. The application of speech imagery BCI systema. control the mouse; b. silent encrypted communication; c. multi-person coordinated decision fusion system; d. entertainment function; e. control wheelchair; f. brain waves recognition; g. learning status assessment and concentration quantification; h. real-time typing system
其中言語想象BCI系統未來最主要的應用在于交流功能恢復及軍事領域。應用于交流功能恢復領域BCI系統的經典范式有穩態視覺誘發電位(steady-state visual evoked potential,SSVEP)和P300,通過這兩種范式都可以實現打字系統,以幫助言語障礙患者獲得與外界交流的能力。但是這兩種范式都需要刺激誘發,刺激會讓被試產生疲勞,而言語想象范式就避免了這一弊端,能夠直接表達真實的內容。隨著技術的發展成熟,可以將言語想象應用于軍事當中,通過腦神經信號采集、分析和解碼,無需使用語音即可進行人與人之間的交流,從而實現無聲加密通信;還可以利用言語想象開發多人協調決策融合系統,利用群體的智慧提高決策的準確性。
言語想象范式不僅可以實現交流通信,由于言語想象范式相比運動想象范式具有足夠多的指令,同樣還可以實現對設備及環境的控制。除了常規的鼠標和輪椅控制,還可以將言語想象BCI系統與物聯網技術結合,以實現對智能家居的控制;與智能駕駛技術結合,以實現智能輔助駕駛等。在未來言語想象BCI系統發展過程中可以考慮引入神經反饋技術,通過可視化腦區激活等神經特征,監測和改善被試的言語想象能力[108]。
在教育領域,通過言語想象BCI系統對檢測到的腦神經信號進行解碼,然后將解碼得到的信息與當前的學習任務進行對比,進而實現對學習狀態評估和專注度量化。但這一領域的應用不僅存在技術問題,還存在一系列的倫理問題,比如使用者的個人隱私、網絡安全等。
在安全領域,可以將言語想象應用于腦紋識別,所謂腦紋識別指的是利用腦神經信號進行身份識別和驗證。大多數進行腦紋識別的研究是基于靜息態、運動想象、時間相關和視覺誘發[109],利用言語想象進行腦紋識別的研究較少,因此這一技術有著廣闊的發展前景[110]。
在娛樂方面,言語想象BCI系統也有很好的應用,可以利用言語想象開發打字游戲,在提供娛樂功能的同時,可以使言語障礙患者快速掌握基于言語想象的BCI打字系統。還可將其與虛擬現實技術結合,無需額外的外部控制設備,直接通過言語想象控制游戲中的角色,以獲得沉浸式體驗[111-112]。
5 結束語
目前,基于言語想象BCI技術已步入快速發展階段,多元化的研究讓該技術日趨復雜多樣,且遠未形成統一標準。本文聚焦實驗范式和數據處理兩大核心問題,系統分析了這兩方面的內容,并歸納了在線系統、實驗范式、言語想象數據和解碼句子這幾方面存在的具體問題。這些研究可以幫助相關學者梳理思路,為進一步發展基于言語想象BCI技術提供一些有益借鑒。未來,將言語想象范式發展到能夠自然地交互,還需要將其與心理學、神經科學、計算機科學等相關學科結合起來,采取跨學科的方法推進這一研究的發展,并使這一范式產生較好的產業轉化[113]。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:劉艷鵬負責文獻查詢、歸納總結和論文撰寫工作;龔安民負責論文的修改和補充完善;丁鵬、趙磊、錢謙、周建華和蘇磊負責修改意見的處理及完善;伏云發負責論文的審校。
引言
腦機接口(brain-computer interface,BCI)是一種通信或控制系統,用戶發送到外部世界的消息或命令不通過大腦外圍神經和肌肉的正常輸出路徑,而是利用計算機等外部電子設備,實現大腦與外界的交流和控制[1-2]。BCI系統可分為自發與誘發兩類,前者是基于某種特定心理任務產生的神經活動,而后者是在外部刺激下所誘發的,其中自發BCI系統常見的心理范式(任務)是運動想象,它要求被試在心理上模擬身體某個部位運動(比如手或腳)。基于運動想象的腦機交互機制已被廣泛研究,然而運動想象這一心理任務卻對部分被試不太友好,大約20%的人不能產生有效的控制,即“BCI盲”現象。因此,研究者提出了其他一系列的心理范式(任務),如言語想象、視覺想象[3]、心算[4]等,利用這些任務同樣可以進行BCI系統的研究與開發。其中基于言語想象BCI系統擁有較多的優點,如自發產生且無需刺激、無需訓練且對被試友好,可直接表達真實意圖,能夠提供一種自然的交流方式等。
早期對言語產生時腦神經信號的研究可追溯至1967年,Schafer[5]發現在閱讀不同字母前525 ms期間,同一大腦皮層區域有著不同的皮層電位;Hiraiwa等[6]利用閱讀五個日語元音時的準備電位進行分類;Suppes等[7]發現在不同單詞聽覺刺激及想象過程中,可以利用腦神經信號對單詞進行分類。在隨后的研究中,越來越多的學者關注在言語想象過程中對腦神經信號的分析,并逐漸將其發展為BCI系統中一個重要的范式。對言語想象的研究由最初發現閱讀不同字母時腦神經信號的不同變化,到利用想象元音進行分類,再到利用閱讀連續句子進行解碼,有著一個緩慢的發展歷程,其中對言語想象多分類及處理句子時的解碼還處于發展初期,未來擁有著廣闊的發展前景。基于言語想象的BCI系統能夠實現一種較為自然的交流方式,這一系統對言語障礙、肌萎縮側索硬化癥、閉鎖綜合征等疾病患者具有積極作用[8-9]。
言語想象的綜述前人也有論述,如陳霏等[10]討論了言語想象腦機交互技術的信號采集和信號處理技術,但并未對實驗范式及想象材料等存在的問題進行歸納總結,同樣對于句子解碼任務介紹較少;Schultz等[11]主要介紹了言語產生時多種生物信號及其記錄形式,Cooney等[12]主要關注言語的生理學知識及其產生,但兩者均未涉及到實驗范式和信號處理;Martin等[13-14]在其論述中只是描述了利用皮層腦電(electrocorticography,ECoG)技術對言語想象時的腦神經信號進行解碼,Panachakel等[15]只是描述了腦電(electroencephalography,EEG)技術,兩者都沒有綜合考量多種腦神經信號在言語想象領域的應用。與此同時,雖然言語想象任務執行起來相對容易,但在特征提取、分類、人機交互等方面存在一定的難度,實驗范式的設計和想象材料的選擇也沒有統一的標準。
因此,針對上述存在的問題,本文對言語想象的實驗范式及想象材料進行系統的歸納總結,討論處理言語想象數據的算法,歸納在線系統、實驗范式、言語想象數據和解碼句子這幾方面存在的具體問題,并展望了言語想象BCI系統在未來的發展方向及應用前景。
1 言語想象的神經機制
1.1 言語想象的基礎生理過程
言語想象,指的是人們在心里發音,而不發出實際聲音,也沒有面部動作,這一現象的產生涉及到人的認知、記憶、學習、思考等方面的大腦神經機制。Oppenheim等[16]在其研究中指出言語想象是真實發音的刪減版,其能夠激活發音特征,只是沒有產生可以聽到的聲音。Palmer等[17]通過功能性磁共振成像(functional magnetic resonance imaging,fMRI)發現在真實發音期間所激活的腦區與在言語想象期間相似。Huang等[18]通過fMRI發現真實發音與言語想象都會激活布洛卡區及其他部分腦區,但在真實發音狀態下布洛卡區的激活程度更大,并且在言語想象狀態下,左半腦區激活尤為顯著。這些研究表明,兩種行為在腦區激活上存在部分重疊,這也為以后實現分類和解碼言語想象時的腦神經信號提供了科學理論依據。
Basho等[19]通過fMRI發現言語想象能夠更明顯地激活左側顳中回和額上回等腦區;而Shuster等[20]通過fMRI測量血氧濃度依賴性(blood oxygen level-dependent,BOLD)發現,左側中央前回和中央后回等腦區在真實發音任務中的BOLD響應明顯大于言語想象。可以發現,兩種行為在腦區激活上雖然存在重疊,但也各有側重,因此不能將兩種行為產生的腦神經機制等同看待。
在言語想象任務中,Goto等[21]利用腦磁圖(magnetoencephalography,MEG)在左下額中回和左前顳葉皮層等腦區觀察到事件相關去同步(event-related desynchronization,ERD)現象,并且具有不同的時空特征。Shergill等[22]利用fMRI來檢測腦活動與言語想象生成速率的關系,發現言語想象速率的增加與腦區激活相關。研究發現,自發的言語想象與任務誘發的言語想象存在差異,任務誘發的言語想象與左下額葉區域的激活增加有關,而在自發的言語想象時這一區域的激活卻不明顯[23]。通過對真實發音與言語想象兩種行為在神經層面的研究,可以更好地將言語想象范式應用于BCI系統;而通過對言語想象神經影像學的不斷探索,研究者可以利用其中的結論更好地設計出言語想象BCI系統的實驗范式,選擇合適的特征提取算法。
在言語想象和真實發音過程中大腦的神經活動有重疊,但也存在部分差異,因此不能將真實發音實驗中得到的結論應用于言語想象范式,而應將言語想象與BCI系統結合起來對這一腦活動機制進行研究。大腦在處理不同含義詞語時有著不同的激活方式,利用言語想象時大腦的神經特征,可以為BCI系統的分類、解碼提供依據,言語想象范式能夠得以發展,就是依托了對這些生理機制的研究。但是,在真實發音過程中存在嘴唇、舌頭等發音器官的運動,那么利用言語想象時的腦神經信號進行分類、解碼,究竟是利用大腦處理言語信息的信號還是發音器官運動想象的信號還需進一步探究。
1.2 腦神經信號采集
BCI系統根據信號采集方式的不同可分為侵入式和非侵入式兩類。侵入式BCI系統需要通過外科手術實現,將電極植入大腦內部,這使得由運動和其他非神經偽跡產生的影響大大減少。在侵入式言語想象BCI系統中,由于ECoG信號信噪比高、具有較高的時間及空間分辨率且侵入性相對較低,所以研究大多是采集ECoG信號。但基于ECoG采集的言語想象BCI系統的被試多為癲癇患者,他們植入電極的最初目的是治療癲癇并非腦機交互,所以這種方式僅適用于部分特定人群[24-25]。非侵入式BCI系統是一種將信號采集電極放置在頭皮表面獲取腦神經信號的無創途徑,常見的非侵入式技術有EEG、功能性近紅外光譜(functional near-infrared spectroscopy,fNIRS)、MEG等,這也是目前采集腦神經信號應用最廣的方式。
目前來看,在言語想象BCI系統中,采集ECoG和EEG信號的研究均得到了廣泛開展。ECoG信號憑借其更精準和更快速的控制被應用于鼠標的一維控制[25-26],以及句子解碼任務[27-28]。EEG信號的采集憑借其價格較低、便攜易用等優點被廣泛深入研究,因此在非侵入式言語想象BCI系統中大多數是采集EEG信號。
此外,Kaongoen等[29]在言語想象任務中,不僅采集了頭皮EEG,還采集了耳部EEG,發現兩種不同形式的EEG在分類任務上并沒有顯著差異。因此,在后續言語想象BCI系統應用當中應結合被試的情況選擇合適的信號采集方式。另一方面,侵入式采集方式需要通過外科手術植入電極,非侵入式采集方式有的存在一個佩戴過程(如EEG)而有的記錄設備比較龐大(如MEG),所以未來開發便攜的采集系統也是研究的一個方向。
1.3 言語想象BCI系統的腦區選擇
在基于言語想象BCI系統中,對于侵入式采集方式其電極都是預先設計好的,一經植入就不會再隨意移動,而對于非侵入式采集方式而言,可以通過不同的電極排布,篩選出對分類、解碼起重要作用的腦區。表1[8,30-36]展示了言語想象BCI系統的腦區選擇,其中侵入式采集方式其電極都是植入固定的腦區,而非侵入式采集方式選擇的都是執行分類任務準確率最高的腦區。

從表1中可以發現,基于言語想象BCI系統的腦區選擇大多集中在左半腦。此外,Wang等[37]還設計了采集腦神經信號兩種不同電極排布的BCI系統,一種是采集全腦信息,另一種是僅采集左半腦信息,結果表明,僅利用左半腦信息也可以提取出言語想象的腦神經信號特征。通過對腦區更精準的定位,可以優化電極排布,使得基于言語想象BCI系統的應用更加簡單輕便。
1.4 言語想象BCI系統在不同波段下的表現
成年人EEG中主要包括θ波(4 ~ 7 Hz)、α波(8 ~ 13 Hz)、β波(14 ~ 30 Hz)和γ波(> 30 Hz),并且每種頻率的EEG節律都與大腦特定的生理現象密切相關。
在言語想象任務過程中,Jahangiri等[38]通過音節想象分類任務發現α波具有最高的分類性能,其次是β波;同樣D’Zmura等[39]發現,β波(13 ~ 18 Hz)中包含豐富的分類特征。郭苗苗等[40]通過對言語想象EEG數據進行時頻分析發現,被試默讀漢字時所引起的EEG信號能量變化差異主要體現在α波和β波。Sereshkeh等[41]通過對單詞想象的EEG信號分析觀察到,在布洛卡區和額葉皮層存在β波的激活。Koizumi等[36]通過言語想象分類任務發現,γ波高頻段(60 ~ 120 Hz)取得了比其他波段都高的分類精度,并且在(0 ~ 60 Hz)范圍內,γ波低頻段(30 ~ 40 Hz)的分類精度存在一個峰值。由于記錄EEG與ECoG有著相似的生理學基礎,所以在利用ECoG進行言語想象研究中也有類似的結論。Ikeda等[42]利用ECoG信號進行元音想象研究,發現布洛卡區的β波能產生較高的分類精度。Crone等[43]在其研究中指出ECoG中的γ波(80 ~ 100 Hz)可用于研究人類語言的神經解剖學和加工動力學,并且在利用ECoG信號進行言語解碼研究中大多是利用高γ波信號[32,44]。
因此,在后續言語想象BCI系統研究中,研究者可將EEG和ECoG的波段關注在α波、β波及高γ波。在言語想象任務過程中,對波段信息的研究有助于選擇合適的信號采集方式及頻域分析算法。
1.5 言語想象任務中的EEG動態特征
事件相關電位(event related potential,ERP)是被刺激誘發的電位(相對于自發的EEG節律而言),或者當某種心理因素出現時,在腦區所產生的電位變化。在非侵入式采集的EEG信號中,利用EEG中的ERP開發的BCI經典范式有N170(面孔識別)和P300(打字)。
在言語想象任務中,同樣也存在ERP現象,DaSalla等[45]研究指出,在執行元音想象起始時,C3、CZ和C4電極(國際10-20系統)位置出現負波趨勢,在300 ms左右出現正波,并且這些波形與真實語音產生時的ERP非常類似。楊曉芳等[46]發現在執行音位想象任務時的ERP波形與真實發音器官運動引起的顱內及頭皮電位時間進程相似。Kim等[47]提出將ERP與言語想象任務相結合的范式,利用ERP電位峰值這一特征實現智能家居控制。
雖然ERP已廣泛應用于腦功能及神經科學研究,但在言語想象BCI系統中,與ERP相關的研究相對較少,且沒有利用ERP進行分類識別的言語想象BCI系統。雖然在言語想象任務中存在ERP現象,但在執行不同言語想象任務時ERP僅具有較小差異,這就使得分類任務變得較為困難,因此從細微的區別中區分不同的心理狀態需要利用新的特征及算法進行分析。
2 言語想象BCI系統的實驗范式及想象材料
言語想象BCI系統的實驗范式可分為兩類,一類是分類任務,另一類是解碼任務,如圖1所示為言語想象BCI系統實驗范式。分類任務的對象是兩個或多個單詞、音節、音位等,其目標是將腦神經信號分類為有限類別數當中的一類;而解碼任務的對象大多是句子,其目標是利用腦神經信號重建連續的語句特征。

a. 分類任務實驗范式的時序圖;b. 解碼任務實驗范式的流程圖
Figure1. The experimental paradigm of the BCI system of speech imagerya. sequence diagram of the experimental paradigm of classification task; b. flow chart of the experimental paradigm of the decoding task
2.1 分類任務實驗范式
基于言語想象BCI系統分類任務的實驗范式與基于運動想象BCI系統的實驗范式較為相似,分類任務實驗范式的單個實驗試次通常包括準備期、刺激/提示期、想象期和休息期。圖1a所示為分類任務實驗范式的時序圖,以想象“是”為例。
在準備期,被試被要求注視屏幕,一般情況下屏幕會顯示“十”字符號,目的是讓被試避免頭部運動使腦活動保持基線水平,也便于實現后續異步系統想象狀態與空閑狀態的區分[48]。
刺激/提示是給出被試在想象期所執行的想象任務,較為常見的刺激/提示材料為單個漢字、單詞、音節、音位等。根據刺激/提示材料呈現方式的不同可分為聽覺提示[34,49]、視覺提示[36,38]和視聽結合[50]三種形式。在刺激/提示期,若為聽覺提示,系統會通過揚聲器播放被試需要想象的材料;若為視覺提示,系統會通過屏幕顯示被試需要想象的材料。其中較為常見的是視覺提示,當在線人機交互系統中使用視覺提示,被試可以在多個提示材料中自主選擇要執行的想象任務。若使用聽覺提示,被試只能根據聽覺提示進行人機交互,將不能自主選擇想象材料。與此同時,使用聽覺刺激會激活與言語想象相關的腦區,而使用視覺提示就能夠避免這一問題[51]。Sereshkeh等[52]通過選擇一些答案為“是”或“不是”的問題進行視覺提示。若為視聽結合,則是將上述兩種提示進行結合,Zhang等[50]在關于漢語音節四種音調的研究中指出,采用視聽結合的方式分類準確率要高于僅使用視覺提示。
在想象期,被試被要求想象在刺激/提示期所呈現的提示材料,但是關于言語想象任務如何執行,各個文獻都有不同的表述。例如,在心里讀某個字不能移動嘴唇且不能發音[37];想象在心里默默地說出某個字[53];想象以第一人稱的方式說話,說話者感覺自己在沒有任何發音動作的情況下說話[34]。通過廣泛查閱文獻將言語想象任務指導語總結為:被試應以第一人稱的角度進行想象,在想象過程中心里默讀所提示的材料,但是不能發出聲音,同時應保持發音器官與面部器官不能運動[11,34,37,40,53]。
被試進行言語想象的方式一般有兩種,一種是在想象期不斷重復想象提示材料[37, 40],另一種是在想象之前或想象過程中會聽到較短的周期聲音,聲音一般為嘟嘟聲或滴答聲,這樣有助于形成節奏,讓被試更好地根據節奏進行想象[54-55]。D’Zmura等[39]通過不同節奏的言語想象,發現這一方式在提高分類自由度的同時也會產生較為豐富的分類特征。在部分實驗范式中,想象期和刺激/提示期是重合的,即在想象過程中視覺刺激/提示持續存在[45,56]。通過圖表的形式可以清楚地表述各個實驗范式的設計方法,如表2[39,54-56]所示,展示了包含節奏提示的想象期時序圖。

在休息期,被試不需要進行任何心理想象任務,此時屏幕一般為黑屏。AlSaleh等[57]在其研究中指出,準備期和言語想象期的二分類準確率要優于休息期和言語想象期的二分類準確率,這種現象是由于準備期的視覺注意會激活大腦對視覺信息的處理。設置休息期是讓被試進行休息,避免連續的心理任務產生疲勞,而設置準備期是為了提高想象期與空閑狀態的可分性,進一步促進異步系統的發展。
通過對言語想象分類任務實驗范式的歸納總結,不難發現各個文獻所設計的實驗范式并不一致,范式的確定不能單一地從準確率這一個方面進行考慮,而是要結合后續在線系統和用戶的使用感受進行綜合考慮設計,例如通過設置問卷、控制變量法和多種評價指標尋找合適的實驗范式。此外,雖然使用周期性的嘟嘟聲可以提高分類性能,但是持續的聽覺刺激會對被試造成聽覺疲勞,同樣聽覺刺激對腦神經信號也會產生影響,因此言語想象實驗范式的設計仍有改進空間。
2.2 解碼任務實驗范式
解碼真實言語產生時的腦神經信號是利用言語想象進行人機交互的必要一步。Herff等[32]通過采集被試閱讀句子時的ECoG信號可以實現對音素、單詞的解碼;而Anumanchipalli等[27]不僅能夠解碼閱讀句子時的腦神經信號,而且當被試默念句子時(即做出必要的口型,不發出聲音),也可以利用所設計的解碼器合成語音。直接對想象句子時腦神經信號進行解碼存在一定的難度,因此需要將朗讀句子時的腦神經信號與句子信息進行標定并訓練,以實現對腦神經信號的解碼。
解碼處理句子時腦神經信號的實驗范式是將被試朗讀實驗材料時的腦神經信號與朗讀的內容進行標定,然后利用標定的信息與腦神經信號訓練解碼器,最后在閱讀或想象句子時對腦神經信號進行解碼。圖1b為解碼任務實驗范式的流程圖,被試閱讀屏幕上顯示的連續句子,并利用采集到的音頻信息做為標簽與腦神經信號一起記錄。實驗材料在屏幕上呈現的形式可分為兩類,一類是文本以恒定的速度從右至左在屏幕滾動顯示,另一類則是在屏幕一次顯示一個句子。為保證記錄過程的連貫,被試在記錄之前會熟悉所執行的任務。如果被試本身是言語障礙患者,那就需要用到遷移學習,利用健康被試訓練解碼器進行解碼。
2.3 想象音位/音節
語言的學習都是從音到字,再從詞到句,循序漸進學習掌握,同樣言語想象材料的選擇也符合這一規律。其中音位是語言中具有區別意義作用最基本的語音單位,而音節則是由不同音位組合起來的語音單位。早期對大腦處理言語的研究都始于音位,所以在言語想象BCI系統發展中音位/音節也是首先考慮到的實驗材料。如表3[38-39,45,50,58]所示,展示了具有代表性的音位/音節/聲調想象材料,并總結了選擇這些材料的原因。

以上材料的選擇都是基于作者探究性的目的,無論所選擇的材料是否有意義其結果都是可分的,因此在后續研究中可以將選擇的材料賦予特定的意義,這樣便于產生控制輸出。除了表中列舉的想象材料,有研究逐漸將想象材料拓展到輔音,如楊曉芳等[46]選擇的想象材料為四個元音音位/a/、/i/、/u/、/y/以及四個輔音音位/m/、/n/、/?/、/f/;而Brumberg等[8]對一名癱瘓患者進行研究,要求其想象38個美式英語音位。隨著研究的不斷深入,能夠發現更多具有可分性的想象材料,這對提升言語想象BCI控制自由度具有重要的應用價值。
2.4 想象漢字/單詞
漢字/單詞材料的選擇既有基于特定含義的又有基于特定結構的,如表4[31,37,52-54,59-62]所示,展示了具有代表性的漢字/單詞想象材料,并總結了選擇這些材料的原因。

從表4中可以發現,目前基于英語言語想象的研究較多,而漢字想象的研究相對較少。除了表中所羅列的,郭苗苗等[40]還選擇了“喝”、“右”、“吃”和“冷”四個漢字作為想象材料。漢語作為世界上使用人口數最多的語言,基于漢語的言語想象BCI系統擁有很大的需求,因此對其研究具有深遠的意義。
除了選擇某種單一類型的想象材料,也有研究選擇多種類型的想象材料進行對比研究。AlSaleh等[57]根據語義上的變化選擇了十一個材料,包括有無語義的音節/ba/和/ku/,方向詞“left”、“right”、“up”和“down”,回答詞“yes”和“no”,以及情緒詞“happy”、“sad”和“help”,研究結果表明想象不同類型的單詞與空閑狀態的二分類準確率并無差異。Nguyen等[56]選擇了短單詞“in”、“out”和“up”,長單詞“cooperate”和“independent”,以及音位/a/、/i/和/u/,選擇不同類型的想象材料是為了探究影響言語想象分類效果的因素,如復雜程度、意思和發音。實驗結果指出,短單詞之間和音位之間的分類性能相似,這表明影響言語想象分類效果的是發音而非意思;長單詞相比于短單詞能提供更高的Kappa系數,平均分別為0.32和0.25,這表明復雜程度越高的單詞越容易利用腦神經信號進行區分;一個短單詞和一個長單詞之間也產生了很高的分類性能,最高能達到二分類96.90%的準確率,這表明不同復雜程度單詞之間能提高分類效果。通過對多種類型想象材料進行對比研究,可以為后續言語想象研究在選擇想象材料時提供參考。
2.5 想象句子
將字、詞按照一定的邏輯進行組合就構成特定含義的句子,如果用分類任務的思路重建連續的語句將不能表達句子連貫的意思,這時就需要綜合考慮詞語前后的邏輯進行解碼。
Dash等[63-64]選擇了五個常用的短語“Do you understand me?”、“That’s perfect.”、“How are you?”、“I need help.”和“Good-bye.”用作想象材料,雖然選擇的是短語但是其本質還是進行分類研究,是將腦神經信號分類為有限數量當中的一類。在解碼任務中選擇的文本材料有童話故事[27]、演講[32]、MOCHA-TIMIT語料數據庫[28,65]等,由于MOCHA-TIMIT語料數據庫中的句子基本上涵蓋了英語中出現的所有發音形式,所以使用得較多。由于對解碼句子的研究較少,所以選擇的材料也有一定的局限性,不過在后續的研究中可以選擇生活中常用的一些句子,以幫助言語障礙患者實現簡單的溝通交流。同樣也可以選擇包含生活中常用漢字的文章,像中小學語文教材的課文,并為常見的字、詞建立數學模型。
3 數據處理的關鍵技術
3.1 特征提取
特征提取部分是言語想象BCI技術的核心,該過程的實質是從采集的腦神經信號中提取部分有用的信息,并利用這些信息進行不同腦狀態的區分。特征提取算法大概可以分為三類:時域法、頻域法和空域法。
時域法一般選取各通道信號的均值、方差、峰度等作為特征,常用這種算法的腦神經信號采集方式是EEG[66-67]和fNIRS[52,68]。Iqbal等[69]發現在元音想象的EEG信號中,時域特征取得了比空域更好的分類精度。在fNIRS信號中,Hwang等[68]在單詞想象二分類任務中發現所有時域特征類型中峰度特征的平均分類精度最高,而Sereshkeh等[33]選擇均值作為特征對言語想象任務進行在線分類。
常用的頻域法有功率譜密度(power spectral density,PSD)[31,70]、離散小波變換(discrete wavelet transform,DWT)[64,71]、梅爾頻率倒譜系數(Mel frequency cepstrum coefficient,MFCC)[72]等。其中MFCC是基于人耳聽覺特征建立的,已廣泛應用于語音識別領域,也有研究者發現這一算法在言語想象BCI系統中同樣適用[73]。Riaz等[35]與Cooney等[74]在基于言語想象BCI系統中,對比分析了不同的特征提取算法,發現利用MFCC進行特征提取在其數據中都取得了最好的分類效果。
空域法中常用到的是共空間模式(common spatial patterns,CSP),這種算法最初是應用在二分類BCI系統中,它是將兩種不同類型的信號聯合對角化提取相應的特征[40,50,59,75-76]。
時域、頻域考慮了單個通道的特征,而空域綜合考慮了多個通道的特征,不同類型的特征存在互補關系,并且在言語想象BCI系統中應用最多的特征提取算法為CSP及各種頻域算法。Garcia-Salinas等[77]利用張量分解將時域、頻域和空域的信息結合起來提取特征,雖然可以提高分類精度,但是需要較多的計算成本,因此在后續特征提取過程中可以利用特征選擇和融合算法篩選出最具辨識度的特征。除了上述常見的特征提取算法,黎曼幾何[78]、腦連接特征[53]和EEG皮層電流[79]也被應用于言語想象BCI系統。
3.2 分類與解碼
分類與解碼就是進行不同腦狀態的區分,確定所提取的特征與腦狀態的對應關系。當前,基于言語想象BCI系統的分類與解碼算法主要有經典的機器學習和更加前沿的深度學習兩類。
其中常用的機器學習分類算法有線性判別分析(linear discriminant analysis,LDA)[80-81]、極限學習機(extreme learning machine,ELM)[29,82]、支持向量機(support vector machine,SVM)[75,83]、隨機森林(random forest,RF)[84-85]等。Min等[67]在其研究中,對言語想象EEG數據進行分類,其結果表明ELM及其改進算法的性能優于LDA和使用徑向基核函數的SVM。Matsumoto等[86]在其研究中同時使用了高斯核函數的相關向量機(relevance vector machines,RVM)和SVM,當訓練數據較少時,使用高斯核函數的SVM分類效果較好,因此該算法適合應用于在線系統。值得注意的是,Sereshkeh等在兩個研究中所采集的腦神經信號不同,一個為表征神經元放電的EEG[71],另一個為表征腦組織血氧代謝活動的fNIRS[33],進而選擇了不同的算法。對于EEG信號,Sereshkeh等通過比較正則化的LDA、SVM、樸素貝葉斯(naive Bayes,NB)、K近鄰算法(k-nearest neighbor,KNN)和人工神經網絡(artificial neural network,ANN)(多層感知器)的分類準確率,發現ANN(多層感知器)有最高的分類準確率。而在關于fNIRS的研究中,Sereshkeh等則指出,與SVM(分別使用線性核函數、多項式核函數、徑向基核函數和Sigmoid核函數)、ANN(具有一個隱藏層的多層感知器)和NB相比,正則化的LDA具有最高的分類準確率。同樣一些新穎的分類算法也被應用于言語想象BCI系統,像遷移學習[87]和自適應分類器[88]。
經典的機器學習算法特征提取與分類是分開進行的,兩個處理步驟選擇的算法不一定能夠達到最佳的效果,并且比較依賴于研究者的經驗,而深度學習算法就避免了這一問題,這種算法在部分情況下不需要進行特征提取,而是將特征提取和分類直接在數據中聯合學習。深度學習作為一種特殊的機器學習算法,已應用在言語想象BCI系統中,其不僅可以應用于分類任務[89],還可應用于解碼任務[27]。從腦神經信號中解碼連續的句子作為一種非線性變換存在一定的難度,而深度學習可以從復雜的序列當中直接提取有價值的信息,并且其作為一種端到端的方式能夠彌補缺少先驗知識(如哪些通道在解碼中起決定性作用)造成的問題,而且深度學習在提高分類、解碼精度方面更具有潛力。在基于言語想象BCI系統中,常用到的深度學習算法有卷積神經網絡(convolutional neural networks,CNN)[90-91]、循環神經網絡(recurrent neural network,RNN)[65,92]、深度神經網絡(deep neural networks,DNN)[93-94]、長短記憶網絡(long short term memory,LSTM)[27,89]等。除了深度學習可以應用于解碼任務,廣泛應用于自然語言處理領域的維特比算法[95]也被應用于解碼任務[32]。
經典的機器學習算法經過長時間的發展已經逐漸成熟,但這種算法以應用于分類任務為主,需要與特征提取算法配合應用,存在著一定的局限性。同樣深度學習算法有諸多優點,但是其在BCI系統應用中也存在問題,比如:基于不同數據要設計出不同的深度學習網絡結構;通常需要大量的數據集進行訓練來調整參數;在線BCI系統的建立存在一定的難度。
3.3 典型算法比較
由于不同文獻間數據采集協議不同(包括被試、實驗范式和想象材料等),為比較各算法在言語想象數據中的性能,選擇使用相同數據集的文獻進行比較。如表5[35,45,58,66,69,74,77-78,87,89,96-98]所示,比較了言語想象BCI系統的特征提取及分類算法,并且所有文獻都是對言語想象期間的EEG信號進行分類研究。

從表中可以發現不同數據集有著其適合的算法,并沒有某一種算法能在所有數據集中表現出很好的結果,選擇合適的特征提取算法也能取得和深度學習相媲美的分類精度。因此要結合數據的特點選擇合適的算法,當數據較多時可以考慮深度學習算法,較少時考慮遷移學習算法,在線系統則考慮SVM,還可以通過改進已有的算法,使其能夠處理小樣本、含噪聲、非平穩數據。另一方面,可以選擇語音、語言領域適用于言語想象BCI系統的數據處理算法,如MFCC(語音識別領域)、維特比算法(自然語言處理領域)。
同樣,也沒有特定的特征提取及分類算法組合在任意言語想象數據中都取得很好的結果,雖然經典的算法組合為CSP與SVM[37,45,99],但隨著算法的不斷發展,自適應、黎曼幾何、深度學習等算法也都得到了廣泛應用。
絕大部分言語想象BCI系統研究中僅通過準確率對算法的性能進行評價,僅有個別研究選擇了額外的評價指標,如Kappa系數[56]、靈敏度及特異度[100]。因此,在后續言語想象研究中,應綜合考慮其他評價指標(如信息傳輸速率、失效率等[101])對算法性能進行綜合性評價。
4 存在的問題及對未來的展望
4.1 在線系統
從離線分析到實時在線是BCI系統的發展規律,早期離線分析是為了探究言語想象范式的可行性,尋找合適的實驗范式及想象材料,在其不斷發展過程中應選擇合適的數據處理算法并逐漸將其應用于在線系統。實時在線輸出/控制是衡量BCI系統的金標準,開發在線系統更具有實際應用價值,但目前基于言語想象BCI系統大多采用離線分析方法,實現實時在線的BCI系統較少。
在利用言語想象任務進行在線分類系統中,大多集中于二分類或者三分類研究[9,33,102],其中Sereshkeh等[41]設計的實時在線言語想象BCI系統想象“no”與休息狀態間的平均準確率達到75.90%,想象“no”與“yes”間的平均準確率達到69.30%,其后續設計的在線三分類(想象“no”與“yes”及休息狀態)的平均準確率達到64.10%[33];Chaudhary等[9]設計的實時在線言語想象BCI系統想象“no”與“yes”間的準確率超過了70.00%;Wang等[102]設計了言語想象與運動想象結合的在線BCI訓練系統,在線分類準確率均超過了80.00%。
在線系統中,實時采集到的數據需要及時處理,由于腦神經信號具有個體差異和非平穩性,這就使得在線系統的發展存在一定的難度,而自適應算法[103]和遷移學習[104]的提出能夠在一定程度上解決這一問題。另一方面,基于言語想象在線BCI系統大多集中于二分類或者三分類,因此后續開發在線及實時控制的多分類BCI系統更有意義。
4.2 實驗范式
基于言語想象BCI系統沒有固定的實驗范式,部分研究還是探索性地設計實驗范式。因此,可以通過對神經機制與以往范式的研究,設計出標準規范的實驗范式,進而推進言語想象BCI系統的發展。
言語想象的材料,在之前的研究中既有無語義的材料,也有有語義的材料,無語義的音位或音節在發音過程中其發音部位、嘴部活動不同,利用這些材料可以實現腦活動狀態的區分。由于部分語言的單詞或音節是由五個元音中的一個和輔音構成(如英語、日語等),所以選擇使用最多的無語義材料是五個元音。而有語義的材料在實現可分性的同時,將有機會在現實生活中得以應用,像回答詞、方向詞及癱瘓/失語癥患者常用的高頻單詞。所以在后續研究中,應盡量使用有指代意義的音節或生活中常用的詞語或句子,這樣可以讓閉鎖綜合征及言語障礙患者通過言語想象對設備進行控制,在生活中實現簡單的活動和較為流暢的交流。
4.3 言語想象數據
在言語想象研究中,采集的數據大多是正常人,而言語想象范式其目的是為了提高言語障礙患者的溝通能力,因此在以后的研究中應盡可能選擇一部分言語障礙被試。另一方面,大多數研究都是利用言語想象數據進行分類任務,僅有個別研究將言語想象應用于控制鼠標及智能家居。因此,在后續研究中應將言語想象范式與實際控制相結合,在擁有實際應用的同時,還可以提高被試參加實驗的積極性與成就感。
基于言語想象的數據庫比較少,已有的數據庫有西班牙語[58]和英語[66],雖然漢語是世界上使用人口數最多的語言,卻沒有基于漢字想象的數據庫。因此,對言語想象BCI系統感興趣且有條件的學者可以將采集到的漢字想象數據予以公布,以促使在漢字想象方面的分類解碼算法快速發展。
4.4 解碼句子
人們在日常生活中都是使用句子進行交流,并非孤立的字、詞,因此研究解碼句子具有更深遠的意義和應用價值。對解碼句子的研究能夠更加全面地了解大腦關于語言的加工處理過程,同時對基于分類任務言語想象BCI系統也能起到促進作用。基于句子想象的BCI系統解碼研究并未廣泛開展,目前的研究都需要采集被試朗讀句子時的腦神經信號進行訓練并解碼,隨著研究的不斷深入,可不必閱讀句子而僅通過想象就足以實現訓練與解碼。
Makin等[65]將閱讀句子時的ECoG信號到文本的轉換類比為機器翻譯的過程,解碼被試腦神經信號的平均單詞錯誤率約為3%。Sun等[28]利用所設計的深度學習網絡結構對閱讀及默念句子時的ECoG信號進行訓練解碼,其中效果最好的單詞錯誤率為7%。雖然在有限句子數據集中進行解碼有著較好的準確性,但如果將該技術應用于自然交流中,則需要不斷探索,比如多少數據集才能夠滿足日常溝通交流,以及如何獲得足夠多的訓練數據集。
從以上研究可以發現,解碼處理句子時的腦神經信號一般用的是ECoG信號,雖然這種信號的信噪比較高,但是需要通過外科手術植入電極,使得這一研究只能在特定人群中開展。基于此,在后續研究中,利用非侵入方式獲取腦神經信號,通過優化改進數據處理算法以實現對句子的解碼將是未來的發展方向。
4.5 多種狀態下腦神經信號分析
在采集腦神經信號進行分類任務過程中,部分研究并不僅僅局限于言語想象過程中的腦神經信號,在真實發音和聽覺刺激/提示過程中的腦神經信號同樣可以進行分類,利用這兩種狀態下的腦神經信號產生的分類準確率也明顯高于想象狀態[49,64]。也有研究將休息期、刺激/提示期、想象期和真實發音期不同心理狀態間的腦神經信號進行分類,不同狀態間的分類可以監測被試的腦活動狀態,從而實現在線異步系統控制與非控制狀態的區分[66,105]。通過對各個狀態內不同言語任務的分類以及不同狀態間的分類,可以更好地促進言語想象BCI系統的發展。同樣,Wang等[106]提出將言語想象與運動想象相結合的心理想象范式,這一范式在不增加執行任務心理負擔的同時可以提高分類精度。
4.6 多模態信號對言語信息的解碼
在言語想象BCI系統中,不僅可以采集一種形式的腦神經信號對言語信息進行分類、解碼,還可以采集兩種形式的腦神經信號,如EEG和fNIRS的混合信號[52]。不同形式間的腦神經信號可以起到互補作用,從而提高BCI系統的性能。
在言語產生時,有大腦的神經活動、舌頭等發音器官的運動,這些生物信號都提供了關于言語的信息,因此不僅可以通過采集腦神經信號進行言語信息的解碼研究,同樣還可以利用發音器官的運動和肌電信號對言語信息進行解碼[107],如Zhao等[66]就利用了多種模態信息以實現對音位、音節及單詞的分類。未來在言語想象BCI系統開發中,可以將腦神經信號與發音器官的運動、肌電信號、面部特征(舌頭、喉嚨和嘴唇)等生理信號進行結合,進而開發出自由度更高、效率更快的BCI系統,這對一些存在發音障礙但是發音器官可以運動的患者來說將更加適用。雖然融合多種模態的生理信號蘊含豐富的信息,但是在采集數據時系統也會變得更加復雜,因此開發輕便的多模態信號采集設備也是未來發展需要考慮的一個問題。
4.7 言語想象BCI系統在未來的發展及應用
基于言語想象BCI系統在多個領域將有著廣泛的應用,如交流功能恢復、軍事、教育、娛樂等,并且有著很大的研究價值和發展潛力,圖2所示為基于言語想象BCI系統的應用。

a. 控制鼠標;b. 無聲加密通信;c. 多人協調決策融合系統;d. 娛樂功能;e. 控制輪椅;f. 腦紋識別;g. 學習狀態評估和專注度量化;h. 實時打字系統
Figure2. The application of speech imagery BCI systema. control the mouse; b. silent encrypted communication; c. multi-person coordinated decision fusion system; d. entertainment function; e. control wheelchair; f. brain waves recognition; g. learning status assessment and concentration quantification; h. real-time typing system
其中言語想象BCI系統未來最主要的應用在于交流功能恢復及軍事領域。應用于交流功能恢復領域BCI系統的經典范式有穩態視覺誘發電位(steady-state visual evoked potential,SSVEP)和P300,通過這兩種范式都可以實現打字系統,以幫助言語障礙患者獲得與外界交流的能力。但是這兩種范式都需要刺激誘發,刺激會讓被試產生疲勞,而言語想象范式就避免了這一弊端,能夠直接表達真實的內容。隨著技術的發展成熟,可以將言語想象應用于軍事當中,通過腦神經信號采集、分析和解碼,無需使用語音即可進行人與人之間的交流,從而實現無聲加密通信;還可以利用言語想象開發多人協調決策融合系統,利用群體的智慧提高決策的準確性。
言語想象范式不僅可以實現交流通信,由于言語想象范式相比運動想象范式具有足夠多的指令,同樣還可以實現對設備及環境的控制。除了常規的鼠標和輪椅控制,還可以將言語想象BCI系統與物聯網技術結合,以實現對智能家居的控制;與智能駕駛技術結合,以實現智能輔助駕駛等。在未來言語想象BCI系統發展過程中可以考慮引入神經反饋技術,通過可視化腦區激活等神經特征,監測和改善被試的言語想象能力[108]。
在教育領域,通過言語想象BCI系統對檢測到的腦神經信號進行解碼,然后將解碼得到的信息與當前的學習任務進行對比,進而實現對學習狀態評估和專注度量化。但這一領域的應用不僅存在技術問題,還存在一系列的倫理問題,比如使用者的個人隱私、網絡安全等。
在安全領域,可以將言語想象應用于腦紋識別,所謂腦紋識別指的是利用腦神經信號進行身份識別和驗證。大多數進行腦紋識別的研究是基于靜息態、運動想象、時間相關和視覺誘發[109],利用言語想象進行腦紋識別的研究較少,因此這一技術有著廣闊的發展前景[110]。
在娛樂方面,言語想象BCI系統也有很好的應用,可以利用言語想象開發打字游戲,在提供娛樂功能的同時,可以使言語障礙患者快速掌握基于言語想象的BCI打字系統。還可將其與虛擬現實技術結合,無需額外的外部控制設備,直接通過言語想象控制游戲中的角色,以獲得沉浸式體驗[111-112]。
5 結束語
目前,基于言語想象BCI技術已步入快速發展階段,多元化的研究讓該技術日趨復雜多樣,且遠未形成統一標準。本文聚焦實驗范式和數據處理兩大核心問題,系統分析了這兩方面的內容,并歸納了在線系統、實驗范式、言語想象數據和解碼句子這幾方面存在的具體問題。這些研究可以幫助相關學者梳理思路,為進一步發展基于言語想象BCI技術提供一些有益借鑒。未來,將言語想象范式發展到能夠自然地交互,還需要將其與心理學、神經科學、計算機科學等相關學科結合起來,采取跨學科的方法推進這一研究的發展,并使這一范式產生較好的產業轉化[113]。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:劉艷鵬負責文獻查詢、歸納總結和論文撰寫工作;龔安民負責論文的修改和補充完善;丁鵬、趙磊、錢謙、周建華和蘇磊負責修改意見的處理及完善;伏云發負責論文的審校。