基于眼電圖的眼機交互技術為使用者提供了便捷的設備操控方式,具有重要的社會意義。然而,眼機交互往往會受到無意眼動干擾而出現誤判現象,影響用戶的使用體驗,嚴重時甚至會引發危險。為此,本文從眼機交互的基本概念與原理出發,梳理當前主流的有意/無意眼動分類方法,并剖析各項技術特點;然后結合具體應用場景展開性能分析,進一步歸納亟待解決的問題,可望為相關領域的科研工作者提供研究參考。
引用本文: 劉佳镕, 王林瑤, 吳迎年, 賀慶. 基于眼電圖的有意/無意眼動分類方法及應用綜述. 生物醫學工程學雜志, 2022, 39(4): 833-840, 847. doi: 10.7507/1001-5515.202108066 復制
引言
2020年,我國國家統計局發布的《中國統計年鑒》顯示,肢體殘疾的人數約為553.5萬;與此對應,配套的殘疾人康復機構僅有9 775家[1],且當前人口老齡化問題日趨嚴重,肢體殘疾者和老年人的看護服務已逐漸成為眾多家庭需面臨的問題,也為全社會居民的生活保障帶來了巨大的壓力。
大多數殘障人士,即使是患有腦癱、肌萎縮側索硬化癥等重癥患者,仍然具有自主控制其眼球運動的能力。如果可以利用傳感器采集眼動信息并轉換成電信號,進而映射為預設命令來控制外部設備,就能夠讓大多數失能人士重拾使用電子設備的能力。近年來,隨著生物科學和信息科學的飛速發展,已研發出一大批人機交互(human–computer interaction,HCI)技術解決方案。其中,基于眼電圖(electro-oculogram,EOG)的人機交互技術,擺脫了觸摸控制、動作控制等傳統人機交互技術嚴重依賴肢體運動的束縛,并克服了構造復雜、價格昂貴等弊端,只通過探測眼動即可實現對外部設備的操控,因此吸引了越來越多的學者參與研究。
自從20世紀60年代眼機交互技術建立至今,相關理論技術發展迅速、應用廣泛。從早期利用EOG數據跟蹤眼動狀態,到90年代可以實現特定功能的產品“鷹眼(EagleEyes)”,再到如今利用EOG信號控制電動小車、電動輪椅、鼠標鍵盤,乃至復雜交互界面的人機交互系統,基于EOG信號的人機交互技術儼然成為了生物醫學、人機接口、康復工程等領域的重要研究方向。同時,大多數罹患肢體運動控制障礙相關病癥但仍可自主控制其眼球運動的失能人士,也有望在不依靠他人幫助的情況下獨立控制配套的人機交互終端,這將在一定程度上緩解失能人群生活自理的問題。
因此,本文根據分類方法的原理,綜述有意/無意眼動分類各項技術的特點和研究進展,并結合實際應用場景展開性能分析,最后展望眼機交互領域的應用和發展趨勢,以期為相關領域的科研工作者提供參考信息。
1 眼機交互原理簡介
眼睛是心靈的窗戶,眼球往往會受到意識控制而發生運動。當然,眼動不只包含有意眼動,還包括一些無意識的眼動。研究者認為,自主控制反應與自發反應同時發生但又相互獨立。與前者有關的皮層通道連接前額眼動區,與后者有關的皮層通道連接上丘,二者在皮層下的眼動控制部位相匯。在競爭中,這兩條獨立通道同時被激活,并由強勢一方控制產生相應的眼動,生理解剖學也佐證了該觀點[2]。人的眼動主要分為:眼跳、眨眼和追蹤眼動。其中主動眼跳和主動眨眼可以有效地表達用戶實時的操控意愿,合稱為“有意眼動”,而其余無法表達控制意愿甚至造成干擾的眼動歸為“無意眼動”。
目前眼球運動的探測方法主要有:搜索線圈法、視頻記錄法、紅外線眼動圖法和生物電法等。其中搜索線圈法使用成本高昂且設備龐大,不適合在失能人群中廣泛推廣;視頻記錄法的時間、空間分辨率較低,逐漸被基于紅外線眼動圖法的眼動儀所淘汰;而紅外線眼動圖法對使用環境的穩定性要求較高、易受戶外可見光的影響,另外長時間使用紅外光照射眼球可能會誘發眼部疾病,不適合日常使用。因此,基于EOG信號的生物電法,因其無創、成本低廉、體積小、操作簡易和環境因素影響極小等特點,成為一種較為理想的眼動探測方法。
EOG信號是一種微弱的體表生物電信號,伴隨眼球的運動而產生。眼球可以被視為一個雙極性球體,攜帶正電荷的角膜為等效正極,攜帶負電荷的視網膜為等效負極,眼動引起的電勢差導致電流由視網膜端源源不斷地流向角膜端,進而形成一個微弱的電場。EOG信號隨時間不斷變化,如果將其變化在時間軸上描繪出來就會得到EOG曲線。通過對EOG信號進一步處理分析并濾除無意眼動,即可得到有意識的眼跳和眨眼信號。眼跳俗稱掃視,是視線從一個點轉移到另一個點的過程,也可以理解為介于兩次注視之間的視線轉移;眨眼則指快速的閉眼動作。EOG信號相對于腦電 (electro-encephalogram,EEG)信號來說具有諸多優勢,EOG信號具有更大的信號幅度,抗干擾能力更強,與EEG信號、心電(electro-cardiogram,ECG)信號和肌電(electro-myogram,EMG)信號的對比如圖1所示,而且無需特別訓練、便于檢測處理,因此具有廣闊的應用前景。通過對EOG數據的處理和分析可以解析出使用者的控制意圖,并且無需借助軀體活動即可使用眼機交互系統,并實現對相關外部設備的控制。目前,較為常見的眼機交互設備有電動輪椅、電腦鍵盤、人機交互界面等。

雖然基于EOG數據的技術具有諸多優勢,但尚存一個難題:有意眼動信號會受到無意眼動的影響,對其識別分類造成干擾,即“米達斯觸碰(Midas touch)”問題,一旦發生輕則出現誤判和錯判現象影響用戶的日常體驗,重則引發危險對用戶造成傷害。研究表明,因為無意眨眼和眼球運動在垂直通道上的幅值較為相似,所以容易對二者的識別造成干擾[3]。當下,無意眼動引起的“米達斯觸碰”問題已成為前沿研究方向,若能有效解決,將大大提高眼機交互的實用性。
2 有意/無意眼動分類的主要方法
近年來眼機交互技術不斷發展,有意/無意眼動的分類問題愈發凸顯,無意眼動所導致的誤判問題也受到了重視。圍繞如何避免“米達斯觸碰”這一問題,各國學者均進行了相關研究,根據解決方案的原理,大致可分為以下七個類別。
2.1 基于多次眨眼的分類識別
鑒于人類眼球特殊的生理結構,無意眨眼可以將淚液均勻地分布于角膜、結膜,以保持其處于濕潤狀態并清除灰塵和細菌;其次無意眨眼還能使視網膜和眼肌得到片刻放松。正常情況下,人每分鐘平均眨眼15~20 次,每次耗時約0.2~0.4 s。一些研究團隊利用這一特性,基于兩次眨眼、三次眨眼甚至多次眨眼的EOG信號開發出了多種眼機交互設備,這里的多次眨眼指的是同時眨雙眼。文獻[4]開發了一種類似的采用單極導聯方式的文本輸入裝置,通過實驗分別確定了連續兩次眨眼的最小間隔、最大間隔及最小幅值、最大幅值,并將其作為有意眨眼的判別準則,提高了輸入的平均準確度。研究團隊還根據受試者對眨眼間隔時長進行了優化,并進一步規定一秒內發生兩次連續的眨眼才會被歸為“兩次眨眼”。據此,該團隊研發出了高可用性的EOG信號實時分類算法,可用于虛擬鍵盤和電動輪椅等眼機交互應用場景[5]。另有學者采用特征匹配法實現了對兩次眨眼和三次眨眼的信號識別[6],平均識別率可達到98.6%。文獻[7]提出利用有意眨眼、兩次眨眼和三次眨眼來控制電燈等具有物理開關的電器,平均分類準確度可達到98%。
以上這些研究成果雖然獲得了較為可觀的準確度,但是絕大多數都是在安靜、單調的理想化實驗室里進行的,受試者多為身體健康的青壯年研究人員。因此,上述基于多次眨眼的分類識別方法在實際應用場景下,仍然容易發生誤判,無法在根本上真正解決“米達斯觸碰”問題。
2.2 基于眨眼模式的分類識別
目前,通過預置合理的眨眼模式規則,或能解決“米達斯觸碰”問題,進而成功規避因無意眼動引起的誤判現象。現實生活中絕大部分人所發生的無意眨眼,往往是同時且高度同步的眨雙眼情況。與上個章節不同,此處眨眼模式指左、右眼分別單目眨眼或單目組合眨眼。針對這一特點,一些學者研究給不同眨眼模式賦予不同的功能,例如眨左眼代表確定、眨右眼代表回退等。這樣既能增加相關眼控產品的指令功能,也可以回避無意眼動的干擾。文獻[8]提出了一種用于控制計算機光標的眼動和有意眨眼的分類方法,可以借助四個方向的眼動和三類有意眨眼輸出多種不同的指令。針對其中幾個可能會誤判的眼動類型,研究者引入不同的眨眼模式進行分類,實現了精準控制光標移動和選擇的目的。除了四個眼動方向控制光標的位置外,眨左眼代表“輸入”,眨右眼代表“顯示菜單”;而無意眼動因比較容易在無意識狀態下發生對其它指令造成干擾,因此并未關聯任何操作指令。其他研究人員另辟蹊徑,基于摩爾斯電碼設計了一套將眨眼信息轉換為語音信號的方法[9],它通過分析檢測EOG信號中的眨眼次數,用單次眨眼表示“滴”、二次眨眼表示“嗒”,再經過解碼恢復出原始信息,最后播放預置數據庫中的對應音頻。文獻[10]研究并開發出了一套可用于漢字輸入的異步拼寫系統,設定二次眨眼用于選中目標,三次眨眼作為整套系統的開關鍵。該實驗結果表明,漢字的平均輸入速率為2.39 個/min,明顯優于基于事件相關電位(event-related potential,ERP)P300的經典輸入方式。
綜上,雖然根據眨眼模式可設定更多指令功能,在客觀上實現了功能多樣化,也能夠間接解決“米達斯觸碰”問題。然而,隨著使用時長的不斷增加,單次眨眼會加重使用者的用眼負擔、造成眼部疲勞,甚至可能誘發眼部疾病。
2.3 基于眨眼時長的分類識別
與多次眨眼判別有意眼動的解決方案類似,通過控制眨眼時長也能夠有效地將有意眨眼和無意眨眼進行區分。但在日常的使用場景下,基于眨眼時長進行分類識別的方法局限性較強,大多數設備均需用戶準確控制眨眼時長,否則就會出現誤判和錯判現象,嚴重影響產品的實用性。因此,基于這種分類方法的研究成果較少。文獻[11]通過實驗研究得出,一般短暫眨眼持續約176.3 ms,而長眨眼持續約776 ms。他們通過設定合理的分類閾值(392 ms)來區分這兩種眨眼類型,在最大程度上降低誤分類的可能性,分類的平均準確度為76.6%。此外,有學者認為,利用EOG信號相鄰波峰、波谷的時間差可以篩選出有意眨眼信號[12]。時間間隔較大的眨眼信號被判定為有意眼動,平均分類準確度可達98.7%左右。
事實上,失能人群所處的日常環境無法隔絕外界干擾,大量患者也不能按照程序要求完美地完成眨眼任務,且長時間、高頻率的連續眨眼會造成用戶的眼部疲勞,甚至可能危害眼部健康。因此,基于該分類方法所實現的眼機交互系統不適合在失能人群中進行推廣。
2.4 基于眨眼閾值的分類識別
目前,較為主流的研究方法是眨眼閾值法,它針對兩類眨眼之間幅值、持續時間和速度等差異進行分類識別,在實際應用中已經發展得較為成熟。準確的閾值可以有效地提高系統的實用性,進而影響用戶的使用體驗。當閾值較小時,系統的靈敏度偏高,此時誤判現象會明顯增多;閾值過大時,分類準確度將會提升,但部分幅值較小的眼動存在系統無法識別的可能。所以,閾值的合理選取尤為重要。
文獻[13]基于EOG信號開發了一套圖形化的人機交互界面,可用于在虛擬現實環境中實現音樂點播。系統利用算法檢測眨眼頻率和按鍵閃爍頻率,進行一對一匹配,并利用波形峰值和延遲作為眨眼特征。該研究眨眼閾值選為20 mV,平均準確率為95.25%。有學者結合穩態視覺誘發電位(steady-state visual evoked potentials,SSVEP)成功開發出了高性能通信系統[14]。該系統針對EOG信號的脈沖幅度、持續時間和峰谷值進行檢測,準確率為96.73%。文獻[15]設計了一套低成本的字符輸入系統,當目標字符與次級目標字符滿足一定標記次數條件時,則判定選中該目標字符,輸入的平均準確度達97.73%,平均字符輸入速率為1.95 個/min。文獻[16]則開發了一套異步可用于智能家居控制的人機交互系統,該系統利用EOG信號的幅值和持續時間組成特征參數,結合閾值完成眨眼檢測,平均準確率為93.6%。還有學者使用眨眼速率、持續時間和信號強度作為特征來提取眼動信息[17],準確度達98.7%。
基于眨眼閾值分類的研究相較前面幾種方法,在分類的準確度方面存在一定優勢。但是,該分類方法所用檢測脈沖波形的特征閾值,往往需通過多次重復性試驗來確定。這些“最優化”閾值只對特定受試者在特定時間內有效,不具有普適性特點。所以,每次實驗前均需微調各個分類閾值,以彌補個體差異造成的閾值波動。基于眨眼閾值分類的人機交互系統對閾值的精細化程度依賴較高,因此該技術存在一定的局限性。
2.5 基于眨眼閾值的自適應改進
針對眨眼閾值法的個體差異性特點,一些學者提出使用動態閾值實現自適應改進。在眼機交互設備使用過程中,EOG信號的基線有時隨電極和皮膚表面的阻抗變化而發生變化,隨著實驗的進行,分類的準確度會漸漸下降。因此,對原先的固定閾值進行動態調整就能夠有效地降低上述影響。
文獻[18]采用支持向量機(support vector machine,SVM)開發出了一套有意眨眼檢測系統,并成功地應用于電動輪椅控制領域。雙目眨眼、單目左眨眼和單目右眨眼根據EOG信號的峰值幅度和相關系數來識別,將相關系數作為特征值引入SVM算法之中,既可以消除個體差異給閾值帶來的影響,同時也增強了眼動分類的魯棒性,因而取得了良好的分類效果。文獻[19]推出了一套可用于控制電動輪椅的人機界面,研究人員通過大量實驗確定了有意眨眼在信號幅值、持續時間和速度方面的閾值范圍。為補償“米達斯觸碰”問題造成分類準確度下降的現象,引入了自適應閾值技術。考慮到用戶使用環境變化所造成的影響,開發者還引入噪聲變化比值用于動態校準閾值,眼動分類的平均準確度為93.89%,信息傳輸速率為62.64 bits/min。此外,文獻[20]設計了一套簡體中文輸入系統,研究人員開發出了一種基于滑動窗口技術的動態閾值檢測方法。經測試,輸入漢字的平均準確度為94.52%。通過這種閾值自適應改進算法,有效地降低了個體差異性造成的誤差影響。
可見,對有意眼動閾值進行自適應改進不僅可以補償個體差異,還有利于排除環境、基線漂移、心理活動等因素帶來的干擾。基于眨眼閾值的自適應改進方法有望在未來得到進一步發展和應用,提高眼機交互的實用性。
2.6 基于機器學習的分類方法
在工業等諸多領域中,使用機器學習相關技術輔助完成數據分類的案例屢見不鮮,尤其在圖像識別、醫學診斷和股市預測等方面被廣泛應用。其中,較為常用的是人工神經網絡(artificial neural network,ANN),它的工作方式類似于人腦,由多個存儲知識經驗的處理單元組成,可以被視為一個并行分布的大規模處理器。文獻[21]開發了智能輪椅控制系統。該系統所用的數據取自包含有意眨眼和雙向眼動信號的腦機交互開源數據庫(Brain/Neural Computer Interaction:Horizon 2020)(網址為:http://bnci-horizon-2020.eu/),將其作為隨機森林算法的訓練樣本。當EOG原信號輸入后,位于輪椅處的樹莓派通過小波變換提取特征并利用隨機森林算法分類,系統的識別準確率為92.25%。文獻[22]基于嵌入式硬件平臺Arduino(Pro Mini,Arduino Inc.,意大利)利用SVM算法實現了對有意眨眼信號的識別,平均準確度為93%。還有學者使用深度學習模型實現了EOG信號的分類[23]。該研究基于卷積神經網絡(convolutional neural networks,CNN)和長短期記憶(long short-term memory,LSTM)人工神經網絡兩類模型,實現了對向上眼動和向下眼動的精準分類。此外,該研究中CNN模型的分類精度也優于LSTM模型。
隨著機器學習相關技術的飛速發展,各種分類器會更加強大,可以處理更加復雜的非線性問題。將機器學習應用于有意/無意眼動分類將有助于解決“米達斯觸碰”問題,在提高系統自學習能力的同時,容錯性也能得到顯著提升。
2.7 基于多模態生物電的分類識別
僅使用EOG信號完成眼動分類可能造成有意眼動識別率低和魯棒性差的問題,同時不可避免地受到“米達斯觸碰”問題影響。此外,用于人機交互的眼動類型較少,這直接導致執行任務過于簡單,無法完美覆蓋現實中大多數使用場景。為解決這一問題,有學者提出基于多模態生物電的腦機接口——在EOG信號的基礎上同步加入其它模式信號,對組合信號進行綜合處理、識別分類。
文獻[24]設計了一套基于EOG信號和EEG信號的人機交互系統,其中EOG數據用于識別眼動,EEG數據用于檢測ERP信號,如:P300信號等。研究以EOG信號檢測眼動來控制需要快速響應的動作,如移動;以ERP信號來判斷用戶的視覺焦點并控制執行一些預編程行為,如選取控制目標。基于多模態生物電信號的人機界面充分利用了二者優勢,在實現多功能控制的基礎上兼具較強的靈活性,因此取得了相對較高的信息傳輸速率。此外,該系統無需用戶持續集中注意力,可以有效降低使用者的身體和精神負擔。有學者開發出了一套基于EOG信號和SSVEP信號的虛擬拼寫系統[25]。該系統利用SSVEP數據識別按鍵,注視、眨眼等眼動用于控制選取字符,此類利用混合生物電的人機交互系統提供了有意/無意眼動分類的新思路。文獻[26]融合EOG信號和視頻眼動(video-oculogram,VOG)信號實現了對掃視信號的識別,在此基礎上設計了一款基于雙模態的中文輸入系統。系統利用EOG掃視數據的小波包系數和視頻掃視數據的二維小波特征作為掃視的特征向量,并為漢字設計了相應的眼動輸入模式。相對于單模態方案,該系統具有更高的識別精度,中文輸入速率為3.3 個/min。
上述方法解決了傳統單一模式下眼機交互系統難以分辨有意眼動的問題,也體現了多模態人機交互應用的實用性和有效性。可見,多模態生物電交叉融合技術是解決“米達斯觸碰”問題的又一條可靠途徑。
除此之外,還有一些與主流研究不同的解決方案,如文獻[27]通過施加兩種空間旋轉的聲音,誘發失能患者產生無意水平眼動,從而根據眼動產生的EOG信號判斷失能患者對兩種聲音的選擇意圖。
以上所有研究均針對眼動引起的EOG信號進行分析,根據有意/無意眼動不同特點提出解決“米達斯觸碰”問題的方案。鑒于大多數研究對使用場景有較強針對性,因此,想要客觀、全面地比較分類方法的特點,應該結合實現功能和使用環境來進行綜合分析。
3 典型應用與性能分析
有意眼動的識別研究是眼機交互系統的核心,應用領域多樣、前景廣闊,因此日益受到學術界重視,同時也取得了一定的研究成果。受限于文章篇幅,本文僅選取部分具有代表性的解決方案,并結合其應用場景展開性能比較。
3.1 眼控輪椅
輪椅作為失能人群日常出行使用較為頻繁的代步工具,研究人員已對其展開了廣泛研究。如何將傳統的手動控制輪椅改造為方便易用的眼控輪椅,并且兼顧指令準確性和信息傳輸速率,這是需要解決的難題之一,也是相關產品應用和推廣的重中之重。
目前,典型的眼控輪椅實現方法如表1所示,其中有意眼動平均識別準確率最高的解決方案是基于眨眼時長[12],分類準確度達98.7%。通過刻意控制眨眼時長雖能簡單、高效地實現眼動分類,但實用性和舒適性較差,并不適合在失能人群中廣泛推廣。文獻[18]基于眨眼閾值自適應改進開發出的眼控輪椅,將雙目眨眼和單目眨眼歸為有意眼動,用于控制電動輪椅的啟動/停止和左轉/右轉。該系統采用相關系數作為眼動分類的特征值,有效消除了因使用者個體差異性引起的問題,有意/無意眼動分類的平均準確度為98.28%。

通過對比上文中相關研究數據不難得出,依賴單一閾值(如波形幅度)分類的準確度較低,而使用閾值自適應優化可以利用算法自動微調閾值,有效提高了分類的準確性,也為后續研究提供了新思路。還有研究者采用SVM算法分類,分別提取最大化相關系數、閾值相關系數、閾值持續時間作為特征參數[18],在分類準確度方面優于文獻[19]的振幅、持續時間和速度參數特征分類。多模態分類方法針對單一模式下眼機交互系統難以分辨有意眼動的問題進行優化,取得了良好的分類效果,相關研究具有一定的指導價值[29-30]。
3.2 眼控鍵盤
基于有意眼動也可以開發出眼控鍵盤,使用者通過轉動眼球來自由地選擇輸入字符,能夠實現失能人群的基本交流。與眼控輪椅相比,眼控鍵盤對信息傳輸速率的要求更高。除此之外,該系統還需要簡化字符選定流程,在最大程度上減輕用戶使用過程中的眼部負擔。
根據眼控鍵盤系統對有意/無意眼動的分類機制,典型的研究成果匯總在表2中。文獻[25]基于多模態信號(EOG信號、EEG信號)開發出了一套新型鍵盤系統。該系統通過分析8種不同方向的眼動類型(8向眼動)的EOG信號來選取字符,進一步檢測EEG信號中SSVEP電位來確定目標。該眼控鍵盤系統的輸入平均準確度為94.16%,信息傳輸速率為70.99 bits/min。

當前研究表明,采用多種生物電信號綜合分析的多模態系統相對于僅分析EOG信號的單模態系統,在準確度、誤判率、信息傳輸速率和功能多樣化等方面更具有優勢,我國相關學者在該領域頗有建樹[26, 29, 33–35]。當受試者發生眼動時,包括EOG信號在內的多種生物電信號會同時發生變化,多模態眼機交互系統根據多類信號特征對其進行綜合分析,可以更全面地反映個體的眼動信息。然而,目前基于多模態信號的研究成果缺乏實際應用,一方面便攜式設備的算力不足以支撐大規模信號的處理;另一方面分析多模態信號的時延較高,無法滿足部分場景實時處理的需求,故仍處于研究階段。
3.3 眼機交互界面
與眼控鍵盤類似,眼機交互界面系統也是失能人群與外界進行信息交互的媒介,有望替代傳統病床旁的手動式“一鍵呼叫系統”。為了避免“米達斯觸碰”問題,根據用戶意愿及時執行相關指令,設計為“九宮格”樣式的界面有助于提高輸入的準確度和速度。
利用眼機交互界面系統,可以輔助醫院、養老院和福利院等機構的看護人員提升服務效率。現有研究成果已經可以利用EOG信號完成呼叫家人、護士,發出饑餓、如廁提示,以及接聽、撥打電話等任務,相關研究如表3所示。有學者使用實驗室虛擬儀器工程軟件LabVIEW(National Instruments Inc.,美國)實現了一種EOG信號處理算法[36]。這套圖形化操作界面采用斜率來描述信號的波形特征從而完成眼動分類任務,實現了表示當前狀態、輸入文本內容、控制電視、控制病床姿態和繪畫等多項功能,這些多功能任務的融合增強了該系統的實用性和交互性。文獻[38]開發的用于眼控鼠標的人機界面,利用不同類型EOG信號閾值范圍不同的特點,實現了4個方向眼動和有意眨眼的識別。該系統已成功應用于當地一家醫院的重癥加強護理病房,分類識別的平均準確率為96.6%,信息傳輸速率為151.2 bits/min,算法延遲共計0.24 s。

除此之外,有意/無意眼動分類識別技術應用較多的場景還有眼控鼠標[8, 22, 39]等,這些研究成果和相關產品為失能人群帶來了福音。不難看出,近年來EOG數據在特征提取和分類識別方面不斷發展且均取得良好成果。只要能夠解決“米達斯觸碰”問題,補上這塊短板,有意/無意眼動的分類難題就會迎刃而解。相應的,基于EOG信號的人機交互系統產品也有望得到大面積普及。
4 總結與展望
在國內外學者的不懈努力下,過去幾十年里眼機交互技術取得了較高程度的發展,但還存在著一些亟待解決的問題。首先是有意/無意眼動的判別(即“米達斯觸碰”問題)遲遲沒能得到有效解決,難以對有意/無意眼動信號實現精準分類,制約了眼機交互技術的進一步發展。其次,為了維持眼球表面的濕潤狀態,人體會產生周期性的無意識眼動,這種眨眼使得EOG信號耦合基線漂移噪聲對有意眼動產生干擾。最后,EOG信號的識別率還有待提高,尤其是對于微小眼動引起的信號變化較難實現精準采集。提高EOG信號預測眼球偏轉角度的精確度,也是一個比較關鍵的問題。
有意/無意眼動的識別是眼機交互的關鍵技術之一,在醫療、生活、教育等諸多領域具有廣闊的應用前景。除了上述的幾種應用外,有意/無意眼動還可以用于判斷兒童的注意力,糾正學生上課時的不良習慣,訓練其聽講的專注度;在智能交通方面,有意眼動可以用來控制導航儀等車載輔助電子設備,無意眼動可用于監測駕駛員的疲勞程度,對疲勞駕駛行為進行及時提醒以降低道路事故率;在國防軍事領域,眼睛對于移動目標的捕捉極其靈敏,如果能將某些裝備上的電子火控系統由手動瞄準改進為眼機交互輔助鎖定,則能在突發狀況下瞬間鎖定敵人,贏得先發制人的寶貴時機。
EOG信號是一種典型的一維時間序列數據,伴隨用戶的眼動呈現出相應的變化,具有較強的統計特性。在早期的相關文獻中,研究人員聚焦于EOG信號在時域上的特征展開分類研究,取得了一定的成果。隨著研究的進一步深入,EOG信號相應的分類算法越來越多樣,能夠細分出更多的眼動類型,兼顧了分類準確率、信息傳輸速率和系統時延。在此基礎上,如果可以探索出基于遷移學習的分類模型,就可以省去訓練分類器的漫長過程,實現開箱即用的目的。同時,EEG數據、ECG數據、EMG數據和EOG數據在信號的處理和分析方面存在共通之處,因此有必要研究基于EOG信號的遷移學習,推動其他生物電信號的研究進展。
綜上所述,基于有意/無意眼動的眼機交互技術將繼續蓬勃發展,且隨著其應用領域的不斷拓展,會更好地服務人類社會。在未來,眼機交互將會催生出越來越多新奇的應用設備,并逐漸融入人們生產、生活之中,甚至可能成為今后人機交互領域的關鍵技術。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:劉佳镕為綜述主要撰寫人,完成相關文獻資料的收集和分析及論文初稿的寫作;王林瑤參與文獻資料的分析、整理;吳迎年為論文的構思者及負責人,指導論文寫作;賀慶為論文的主要審核人。
引言
2020年,我國國家統計局發布的《中國統計年鑒》顯示,肢體殘疾的人數約為553.5萬;與此對應,配套的殘疾人康復機構僅有9 775家[1],且當前人口老齡化問題日趨嚴重,肢體殘疾者和老年人的看護服務已逐漸成為眾多家庭需面臨的問題,也為全社會居民的生活保障帶來了巨大的壓力。
大多數殘障人士,即使是患有腦癱、肌萎縮側索硬化癥等重癥患者,仍然具有自主控制其眼球運動的能力。如果可以利用傳感器采集眼動信息并轉換成電信號,進而映射為預設命令來控制外部設備,就能夠讓大多數失能人士重拾使用電子設備的能力。近年來,隨著生物科學和信息科學的飛速發展,已研發出一大批人機交互(human–computer interaction,HCI)技術解決方案。其中,基于眼電圖(electro-oculogram,EOG)的人機交互技術,擺脫了觸摸控制、動作控制等傳統人機交互技術嚴重依賴肢體運動的束縛,并克服了構造復雜、價格昂貴等弊端,只通過探測眼動即可實現對外部設備的操控,因此吸引了越來越多的學者參與研究。
自從20世紀60年代眼機交互技術建立至今,相關理論技術發展迅速、應用廣泛。從早期利用EOG數據跟蹤眼動狀態,到90年代可以實現特定功能的產品“鷹眼(EagleEyes)”,再到如今利用EOG信號控制電動小車、電動輪椅、鼠標鍵盤,乃至復雜交互界面的人機交互系統,基于EOG信號的人機交互技術儼然成為了生物醫學、人機接口、康復工程等領域的重要研究方向。同時,大多數罹患肢體運動控制障礙相關病癥但仍可自主控制其眼球運動的失能人士,也有望在不依靠他人幫助的情況下獨立控制配套的人機交互終端,這將在一定程度上緩解失能人群生活自理的問題。
因此,本文根據分類方法的原理,綜述有意/無意眼動分類各項技術的特點和研究進展,并結合實際應用場景展開性能分析,最后展望眼機交互領域的應用和發展趨勢,以期為相關領域的科研工作者提供參考信息。
1 眼機交互原理簡介
眼睛是心靈的窗戶,眼球往往會受到意識控制而發生運動。當然,眼動不只包含有意眼動,還包括一些無意識的眼動。研究者認為,自主控制反應與自發反應同時發生但又相互獨立。與前者有關的皮層通道連接前額眼動區,與后者有關的皮層通道連接上丘,二者在皮層下的眼動控制部位相匯。在競爭中,這兩條獨立通道同時被激活,并由強勢一方控制產生相應的眼動,生理解剖學也佐證了該觀點[2]。人的眼動主要分為:眼跳、眨眼和追蹤眼動。其中主動眼跳和主動眨眼可以有效地表達用戶實時的操控意愿,合稱為“有意眼動”,而其余無法表達控制意愿甚至造成干擾的眼動歸為“無意眼動”。
目前眼球運動的探測方法主要有:搜索線圈法、視頻記錄法、紅外線眼動圖法和生物電法等。其中搜索線圈法使用成本高昂且設備龐大,不適合在失能人群中廣泛推廣;視頻記錄法的時間、空間分辨率較低,逐漸被基于紅外線眼動圖法的眼動儀所淘汰;而紅外線眼動圖法對使用環境的穩定性要求較高、易受戶外可見光的影響,另外長時間使用紅外光照射眼球可能會誘發眼部疾病,不適合日常使用。因此,基于EOG信號的生物電法,因其無創、成本低廉、體積小、操作簡易和環境因素影響極小等特點,成為一種較為理想的眼動探測方法。
EOG信號是一種微弱的體表生物電信號,伴隨眼球的運動而產生。眼球可以被視為一個雙極性球體,攜帶正電荷的角膜為等效正極,攜帶負電荷的視網膜為等效負極,眼動引起的電勢差導致電流由視網膜端源源不斷地流向角膜端,進而形成一個微弱的電場。EOG信號隨時間不斷變化,如果將其變化在時間軸上描繪出來就會得到EOG曲線。通過對EOG信號進一步處理分析并濾除無意眼動,即可得到有意識的眼跳和眨眼信號。眼跳俗稱掃視,是視線從一個點轉移到另一個點的過程,也可以理解為介于兩次注視之間的視線轉移;眨眼則指快速的閉眼動作。EOG信號相對于腦電 (electro-encephalogram,EEG)信號來說具有諸多優勢,EOG信號具有更大的信號幅度,抗干擾能力更強,與EEG信號、心電(electro-cardiogram,ECG)信號和肌電(electro-myogram,EMG)信號的對比如圖1所示,而且無需特別訓練、便于檢測處理,因此具有廣闊的應用前景。通過對EOG數據的處理和分析可以解析出使用者的控制意圖,并且無需借助軀體活動即可使用眼機交互系統,并實現對相關外部設備的控制。目前,較為常見的眼機交互設備有電動輪椅、電腦鍵盤、人機交互界面等。

雖然基于EOG數據的技術具有諸多優勢,但尚存一個難題:有意眼動信號會受到無意眼動的影響,對其識別分類造成干擾,即“米達斯觸碰(Midas touch)”問題,一旦發生輕則出現誤判和錯判現象影響用戶的日常體驗,重則引發危險對用戶造成傷害。研究表明,因為無意眨眼和眼球運動在垂直通道上的幅值較為相似,所以容易對二者的識別造成干擾[3]。當下,無意眼動引起的“米達斯觸碰”問題已成為前沿研究方向,若能有效解決,將大大提高眼機交互的實用性。
2 有意/無意眼動分類的主要方法
近年來眼機交互技術不斷發展,有意/無意眼動的分類問題愈發凸顯,無意眼動所導致的誤判問題也受到了重視。圍繞如何避免“米達斯觸碰”這一問題,各國學者均進行了相關研究,根據解決方案的原理,大致可分為以下七個類別。
2.1 基于多次眨眼的分類識別
鑒于人類眼球特殊的生理結構,無意眨眼可以將淚液均勻地分布于角膜、結膜,以保持其處于濕潤狀態并清除灰塵和細菌;其次無意眨眼還能使視網膜和眼肌得到片刻放松。正常情況下,人每分鐘平均眨眼15~20 次,每次耗時約0.2~0.4 s。一些研究團隊利用這一特性,基于兩次眨眼、三次眨眼甚至多次眨眼的EOG信號開發出了多種眼機交互設備,這里的多次眨眼指的是同時眨雙眼。文獻[4]開發了一種類似的采用單極導聯方式的文本輸入裝置,通過實驗分別確定了連續兩次眨眼的最小間隔、最大間隔及最小幅值、最大幅值,并將其作為有意眨眼的判別準則,提高了輸入的平均準確度。研究團隊還根據受試者對眨眼間隔時長進行了優化,并進一步規定一秒內發生兩次連續的眨眼才會被歸為“兩次眨眼”。據此,該團隊研發出了高可用性的EOG信號實時分類算法,可用于虛擬鍵盤和電動輪椅等眼機交互應用場景[5]。另有學者采用特征匹配法實現了對兩次眨眼和三次眨眼的信號識別[6],平均識別率可達到98.6%。文獻[7]提出利用有意眨眼、兩次眨眼和三次眨眼來控制電燈等具有物理開關的電器,平均分類準確度可達到98%。
以上這些研究成果雖然獲得了較為可觀的準確度,但是絕大多數都是在安靜、單調的理想化實驗室里進行的,受試者多為身體健康的青壯年研究人員。因此,上述基于多次眨眼的分類識別方法在實際應用場景下,仍然容易發生誤判,無法在根本上真正解決“米達斯觸碰”問題。
2.2 基于眨眼模式的分類識別
目前,通過預置合理的眨眼模式規則,或能解決“米達斯觸碰”問題,進而成功規避因無意眼動引起的誤判現象。現實生活中絕大部分人所發生的無意眨眼,往往是同時且高度同步的眨雙眼情況。與上個章節不同,此處眨眼模式指左、右眼分別單目眨眼或單目組合眨眼。針對這一特點,一些學者研究給不同眨眼模式賦予不同的功能,例如眨左眼代表確定、眨右眼代表回退等。這樣既能增加相關眼控產品的指令功能,也可以回避無意眼動的干擾。文獻[8]提出了一種用于控制計算機光標的眼動和有意眨眼的分類方法,可以借助四個方向的眼動和三類有意眨眼輸出多種不同的指令。針對其中幾個可能會誤判的眼動類型,研究者引入不同的眨眼模式進行分類,實現了精準控制光標移動和選擇的目的。除了四個眼動方向控制光標的位置外,眨左眼代表“輸入”,眨右眼代表“顯示菜單”;而無意眼動因比較容易在無意識狀態下發生對其它指令造成干擾,因此并未關聯任何操作指令。其他研究人員另辟蹊徑,基于摩爾斯電碼設計了一套將眨眼信息轉換為語音信號的方法[9],它通過分析檢測EOG信號中的眨眼次數,用單次眨眼表示“滴”、二次眨眼表示“嗒”,再經過解碼恢復出原始信息,最后播放預置數據庫中的對應音頻。文獻[10]研究并開發出了一套可用于漢字輸入的異步拼寫系統,設定二次眨眼用于選中目標,三次眨眼作為整套系統的開關鍵。該實驗結果表明,漢字的平均輸入速率為2.39 個/min,明顯優于基于事件相關電位(event-related potential,ERP)P300的經典輸入方式。
綜上,雖然根據眨眼模式可設定更多指令功能,在客觀上實現了功能多樣化,也能夠間接解決“米達斯觸碰”問題。然而,隨著使用時長的不斷增加,單次眨眼會加重使用者的用眼負擔、造成眼部疲勞,甚至可能誘發眼部疾病。
2.3 基于眨眼時長的分類識別
與多次眨眼判別有意眼動的解決方案類似,通過控制眨眼時長也能夠有效地將有意眨眼和無意眨眼進行區分。但在日常的使用場景下,基于眨眼時長進行分類識別的方法局限性較強,大多數設備均需用戶準確控制眨眼時長,否則就會出現誤判和錯判現象,嚴重影響產品的實用性。因此,基于這種分類方法的研究成果較少。文獻[11]通過實驗研究得出,一般短暫眨眼持續約176.3 ms,而長眨眼持續約776 ms。他們通過設定合理的分類閾值(392 ms)來區分這兩種眨眼類型,在最大程度上降低誤分類的可能性,分類的平均準確度為76.6%。此外,有學者認為,利用EOG信號相鄰波峰、波谷的時間差可以篩選出有意眨眼信號[12]。時間間隔較大的眨眼信號被判定為有意眼動,平均分類準確度可達98.7%左右。
事實上,失能人群所處的日常環境無法隔絕外界干擾,大量患者也不能按照程序要求完美地完成眨眼任務,且長時間、高頻率的連續眨眼會造成用戶的眼部疲勞,甚至可能危害眼部健康。因此,基于該分類方法所實現的眼機交互系統不適合在失能人群中進行推廣。
2.4 基于眨眼閾值的分類識別
目前,較為主流的研究方法是眨眼閾值法,它針對兩類眨眼之間幅值、持續時間和速度等差異進行分類識別,在實際應用中已經發展得較為成熟。準確的閾值可以有效地提高系統的實用性,進而影響用戶的使用體驗。當閾值較小時,系統的靈敏度偏高,此時誤判現象會明顯增多;閾值過大時,分類準確度將會提升,但部分幅值較小的眼動存在系統無法識別的可能。所以,閾值的合理選取尤為重要。
文獻[13]基于EOG信號開發了一套圖形化的人機交互界面,可用于在虛擬現實環境中實現音樂點播。系統利用算法檢測眨眼頻率和按鍵閃爍頻率,進行一對一匹配,并利用波形峰值和延遲作為眨眼特征。該研究眨眼閾值選為20 mV,平均準確率為95.25%。有學者結合穩態視覺誘發電位(steady-state visual evoked potentials,SSVEP)成功開發出了高性能通信系統[14]。該系統針對EOG信號的脈沖幅度、持續時間和峰谷值進行檢測,準確率為96.73%。文獻[15]設計了一套低成本的字符輸入系統,當目標字符與次級目標字符滿足一定標記次數條件時,則判定選中該目標字符,輸入的平均準確度達97.73%,平均字符輸入速率為1.95 個/min。文獻[16]則開發了一套異步可用于智能家居控制的人機交互系統,該系統利用EOG信號的幅值和持續時間組成特征參數,結合閾值完成眨眼檢測,平均準確率為93.6%。還有學者使用眨眼速率、持續時間和信號強度作為特征來提取眼動信息[17],準確度達98.7%。
基于眨眼閾值分類的研究相較前面幾種方法,在分類的準確度方面存在一定優勢。但是,該分類方法所用檢測脈沖波形的特征閾值,往往需通過多次重復性試驗來確定。這些“最優化”閾值只對特定受試者在特定時間內有效,不具有普適性特點。所以,每次實驗前均需微調各個分類閾值,以彌補個體差異造成的閾值波動。基于眨眼閾值分類的人機交互系統對閾值的精細化程度依賴較高,因此該技術存在一定的局限性。
2.5 基于眨眼閾值的自適應改進
針對眨眼閾值法的個體差異性特點,一些學者提出使用動態閾值實現自適應改進。在眼機交互設備使用過程中,EOG信號的基線有時隨電極和皮膚表面的阻抗變化而發生變化,隨著實驗的進行,分類的準確度會漸漸下降。因此,對原先的固定閾值進行動態調整就能夠有效地降低上述影響。
文獻[18]采用支持向量機(support vector machine,SVM)開發出了一套有意眨眼檢測系統,并成功地應用于電動輪椅控制領域。雙目眨眼、單目左眨眼和單目右眨眼根據EOG信號的峰值幅度和相關系數來識別,將相關系數作為特征值引入SVM算法之中,既可以消除個體差異給閾值帶來的影響,同時也增強了眼動分類的魯棒性,因而取得了良好的分類效果。文獻[19]推出了一套可用于控制電動輪椅的人機界面,研究人員通過大量實驗確定了有意眨眼在信號幅值、持續時間和速度方面的閾值范圍。為補償“米達斯觸碰”問題造成分類準確度下降的現象,引入了自適應閾值技術。考慮到用戶使用環境變化所造成的影響,開發者還引入噪聲變化比值用于動態校準閾值,眼動分類的平均準確度為93.89%,信息傳輸速率為62.64 bits/min。此外,文獻[20]設計了一套簡體中文輸入系統,研究人員開發出了一種基于滑動窗口技術的動態閾值檢測方法。經測試,輸入漢字的平均準確度為94.52%。通過這種閾值自適應改進算法,有效地降低了個體差異性造成的誤差影響。
可見,對有意眼動閾值進行自適應改進不僅可以補償個體差異,還有利于排除環境、基線漂移、心理活動等因素帶來的干擾。基于眨眼閾值的自適應改進方法有望在未來得到進一步發展和應用,提高眼機交互的實用性。
2.6 基于機器學習的分類方法
在工業等諸多領域中,使用機器學習相關技術輔助完成數據分類的案例屢見不鮮,尤其在圖像識別、醫學診斷和股市預測等方面被廣泛應用。其中,較為常用的是人工神經網絡(artificial neural network,ANN),它的工作方式類似于人腦,由多個存儲知識經驗的處理單元組成,可以被視為一個并行分布的大規模處理器。文獻[21]開發了智能輪椅控制系統。該系統所用的數據取自包含有意眨眼和雙向眼動信號的腦機交互開源數據庫(Brain/Neural Computer Interaction:Horizon 2020)(網址為:http://bnci-horizon-2020.eu/),將其作為隨機森林算法的訓練樣本。當EOG原信號輸入后,位于輪椅處的樹莓派通過小波變換提取特征并利用隨機森林算法分類,系統的識別準確率為92.25%。文獻[22]基于嵌入式硬件平臺Arduino(Pro Mini,Arduino Inc.,意大利)利用SVM算法實現了對有意眨眼信號的識別,平均準確度為93%。還有學者使用深度學習模型實現了EOG信號的分類[23]。該研究基于卷積神經網絡(convolutional neural networks,CNN)和長短期記憶(long short-term memory,LSTM)人工神經網絡兩類模型,實現了對向上眼動和向下眼動的精準分類。此外,該研究中CNN模型的分類精度也優于LSTM模型。
隨著機器學習相關技術的飛速發展,各種分類器會更加強大,可以處理更加復雜的非線性問題。將機器學習應用于有意/無意眼動分類將有助于解決“米達斯觸碰”問題,在提高系統自學習能力的同時,容錯性也能得到顯著提升。
2.7 基于多模態生物電的分類識別
僅使用EOG信號完成眼動分類可能造成有意眼動識別率低和魯棒性差的問題,同時不可避免地受到“米達斯觸碰”問題影響。此外,用于人機交互的眼動類型較少,這直接導致執行任務過于簡單,無法完美覆蓋現實中大多數使用場景。為解決這一問題,有學者提出基于多模態生物電的腦機接口——在EOG信號的基礎上同步加入其它模式信號,對組合信號進行綜合處理、識別分類。
文獻[24]設計了一套基于EOG信號和EEG信號的人機交互系統,其中EOG數據用于識別眼動,EEG數據用于檢測ERP信號,如:P300信號等。研究以EOG信號檢測眼動來控制需要快速響應的動作,如移動;以ERP信號來判斷用戶的視覺焦點并控制執行一些預編程行為,如選取控制目標。基于多模態生物電信號的人機界面充分利用了二者優勢,在實現多功能控制的基礎上兼具較強的靈活性,因此取得了相對較高的信息傳輸速率。此外,該系統無需用戶持續集中注意力,可以有效降低使用者的身體和精神負擔。有學者開發出了一套基于EOG信號和SSVEP信號的虛擬拼寫系統[25]。該系統利用SSVEP數據識別按鍵,注視、眨眼等眼動用于控制選取字符,此類利用混合生物電的人機交互系統提供了有意/無意眼動分類的新思路。文獻[26]融合EOG信號和視頻眼動(video-oculogram,VOG)信號實現了對掃視信號的識別,在此基礎上設計了一款基于雙模態的中文輸入系統。系統利用EOG掃視數據的小波包系數和視頻掃視數據的二維小波特征作為掃視的特征向量,并為漢字設計了相應的眼動輸入模式。相對于單模態方案,該系統具有更高的識別精度,中文輸入速率為3.3 個/min。
上述方法解決了傳統單一模式下眼機交互系統難以分辨有意眼動的問題,也體現了多模態人機交互應用的實用性和有效性。可見,多模態生物電交叉融合技術是解決“米達斯觸碰”問題的又一條可靠途徑。
除此之外,還有一些與主流研究不同的解決方案,如文獻[27]通過施加兩種空間旋轉的聲音,誘發失能患者產生無意水平眼動,從而根據眼動產生的EOG信號判斷失能患者對兩種聲音的選擇意圖。
以上所有研究均針對眼動引起的EOG信號進行分析,根據有意/無意眼動不同特點提出解決“米達斯觸碰”問題的方案。鑒于大多數研究對使用場景有較強針對性,因此,想要客觀、全面地比較分類方法的特點,應該結合實現功能和使用環境來進行綜合分析。
3 典型應用與性能分析
有意眼動的識別研究是眼機交互系統的核心,應用領域多樣、前景廣闊,因此日益受到學術界重視,同時也取得了一定的研究成果。受限于文章篇幅,本文僅選取部分具有代表性的解決方案,并結合其應用場景展開性能比較。
3.1 眼控輪椅
輪椅作為失能人群日常出行使用較為頻繁的代步工具,研究人員已對其展開了廣泛研究。如何將傳統的手動控制輪椅改造為方便易用的眼控輪椅,并且兼顧指令準確性和信息傳輸速率,這是需要解決的難題之一,也是相關產品應用和推廣的重中之重。
目前,典型的眼控輪椅實現方法如表1所示,其中有意眼動平均識別準確率最高的解決方案是基于眨眼時長[12],分類準確度達98.7%。通過刻意控制眨眼時長雖能簡單、高效地實現眼動分類,但實用性和舒適性較差,并不適合在失能人群中廣泛推廣。文獻[18]基于眨眼閾值自適應改進開發出的眼控輪椅,將雙目眨眼和單目眨眼歸為有意眼動,用于控制電動輪椅的啟動/停止和左轉/右轉。該系統采用相關系數作為眼動分類的特征值,有效消除了因使用者個體差異性引起的問題,有意/無意眼動分類的平均準確度為98.28%。

通過對比上文中相關研究數據不難得出,依賴單一閾值(如波形幅度)分類的準確度較低,而使用閾值自適應優化可以利用算法自動微調閾值,有效提高了分類的準確性,也為后續研究提供了新思路。還有研究者采用SVM算法分類,分別提取最大化相關系數、閾值相關系數、閾值持續時間作為特征參數[18],在分類準確度方面優于文獻[19]的振幅、持續時間和速度參數特征分類。多模態分類方法針對單一模式下眼機交互系統難以分辨有意眼動的問題進行優化,取得了良好的分類效果,相關研究具有一定的指導價值[29-30]。
3.2 眼控鍵盤
基于有意眼動也可以開發出眼控鍵盤,使用者通過轉動眼球來自由地選擇輸入字符,能夠實現失能人群的基本交流。與眼控輪椅相比,眼控鍵盤對信息傳輸速率的要求更高。除此之外,該系統還需要簡化字符選定流程,在最大程度上減輕用戶使用過程中的眼部負擔。
根據眼控鍵盤系統對有意/無意眼動的分類機制,典型的研究成果匯總在表2中。文獻[25]基于多模態信號(EOG信號、EEG信號)開發出了一套新型鍵盤系統。該系統通過分析8種不同方向的眼動類型(8向眼動)的EOG信號來選取字符,進一步檢測EEG信號中SSVEP電位來確定目標。該眼控鍵盤系統的輸入平均準確度為94.16%,信息傳輸速率為70.99 bits/min。

當前研究表明,采用多種生物電信號綜合分析的多模態系統相對于僅分析EOG信號的單模態系統,在準確度、誤判率、信息傳輸速率和功能多樣化等方面更具有優勢,我國相關學者在該領域頗有建樹[26, 29, 33–35]。當受試者發生眼動時,包括EOG信號在內的多種生物電信號會同時發生變化,多模態眼機交互系統根據多類信號特征對其進行綜合分析,可以更全面地反映個體的眼動信息。然而,目前基于多模態信號的研究成果缺乏實際應用,一方面便攜式設備的算力不足以支撐大規模信號的處理;另一方面分析多模態信號的時延較高,無法滿足部分場景實時處理的需求,故仍處于研究階段。
3.3 眼機交互界面
與眼控鍵盤類似,眼機交互界面系統也是失能人群與外界進行信息交互的媒介,有望替代傳統病床旁的手動式“一鍵呼叫系統”。為了避免“米達斯觸碰”問題,根據用戶意愿及時執行相關指令,設計為“九宮格”樣式的界面有助于提高輸入的準確度和速度。
利用眼機交互界面系統,可以輔助醫院、養老院和福利院等機構的看護人員提升服務效率。現有研究成果已經可以利用EOG信號完成呼叫家人、護士,發出饑餓、如廁提示,以及接聽、撥打電話等任務,相關研究如表3所示。有學者使用實驗室虛擬儀器工程軟件LabVIEW(National Instruments Inc.,美國)實現了一種EOG信號處理算法[36]。這套圖形化操作界面采用斜率來描述信號的波形特征從而完成眼動分類任務,實現了表示當前狀態、輸入文本內容、控制電視、控制病床姿態和繪畫等多項功能,這些多功能任務的融合增強了該系統的實用性和交互性。文獻[38]開發的用于眼控鼠標的人機界面,利用不同類型EOG信號閾值范圍不同的特點,實現了4個方向眼動和有意眨眼的識別。該系統已成功應用于當地一家醫院的重癥加強護理病房,分類識別的平均準確率為96.6%,信息傳輸速率為151.2 bits/min,算法延遲共計0.24 s。

除此之外,有意/無意眼動分類識別技術應用較多的場景還有眼控鼠標[8, 22, 39]等,這些研究成果和相關產品為失能人群帶來了福音。不難看出,近年來EOG數據在特征提取和分類識別方面不斷發展且均取得良好成果。只要能夠解決“米達斯觸碰”問題,補上這塊短板,有意/無意眼動的分類難題就會迎刃而解。相應的,基于EOG信號的人機交互系統產品也有望得到大面積普及。
4 總結與展望
在國內外學者的不懈努力下,過去幾十年里眼機交互技術取得了較高程度的發展,但還存在著一些亟待解決的問題。首先是有意/無意眼動的判別(即“米達斯觸碰”問題)遲遲沒能得到有效解決,難以對有意/無意眼動信號實現精準分類,制約了眼機交互技術的進一步發展。其次,為了維持眼球表面的濕潤狀態,人體會產生周期性的無意識眼動,這種眨眼使得EOG信號耦合基線漂移噪聲對有意眼動產生干擾。最后,EOG信號的識別率還有待提高,尤其是對于微小眼動引起的信號變化較難實現精準采集。提高EOG信號預測眼球偏轉角度的精確度,也是一個比較關鍵的問題。
有意/無意眼動的識別是眼機交互的關鍵技術之一,在醫療、生活、教育等諸多領域具有廣闊的應用前景。除了上述的幾種應用外,有意/無意眼動還可以用于判斷兒童的注意力,糾正學生上課時的不良習慣,訓練其聽講的專注度;在智能交通方面,有意眼動可以用來控制導航儀等車載輔助電子設備,無意眼動可用于監測駕駛員的疲勞程度,對疲勞駕駛行為進行及時提醒以降低道路事故率;在國防軍事領域,眼睛對于移動目標的捕捉極其靈敏,如果能將某些裝備上的電子火控系統由手動瞄準改進為眼機交互輔助鎖定,則能在突發狀況下瞬間鎖定敵人,贏得先發制人的寶貴時機。
EOG信號是一種典型的一維時間序列數據,伴隨用戶的眼動呈現出相應的變化,具有較強的統計特性。在早期的相關文獻中,研究人員聚焦于EOG信號在時域上的特征展開分類研究,取得了一定的成果。隨著研究的進一步深入,EOG信號相應的分類算法越來越多樣,能夠細分出更多的眼動類型,兼顧了分類準確率、信息傳輸速率和系統時延。在此基礎上,如果可以探索出基于遷移學習的分類模型,就可以省去訓練分類器的漫長過程,實現開箱即用的目的。同時,EEG數據、ECG數據、EMG數據和EOG數據在信號的處理和分析方面存在共通之處,因此有必要研究基于EOG信號的遷移學習,推動其他生物電信號的研究進展。
綜上所述,基于有意/無意眼動的眼機交互技術將繼續蓬勃發展,且隨著其應用領域的不斷拓展,會更好地服務人類社會。在未來,眼機交互將會催生出越來越多新奇的應用設備,并逐漸融入人們生產、生活之中,甚至可能成為今后人機交互領域的關鍵技術。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:劉佳镕為綜述主要撰寫人,完成相關文獻資料的收集和分析及論文初稿的寫作;王林瑤參與文獻資料的分析、整理;吳迎年為論文的構思者及負責人,指導論文寫作;賀慶為論文的主要審核人。