視覺是人類與外界交互并獲取信息的重要方式。為了研究在不同條件下人類的視覺行為,本文采用了混合高斯-隱馬爾可夫模型(GMM-HMM)對掃視過程中的眼動路徑進行建模,并提出了一種新的模型優化方法——時移分段法(TSS)。TSS 方法可突出眼動序列中時間維度的特征,提升模式識別結果,增強模型穩定性。本研究對多維特征模式識別采用了線性判別分析(LDA)方法,以評價各模型的合理性及識別的準確性。全文共進行了四組對比試驗,第一組應用了 GMM-HMM 模型對眼動路徑進行建模分類,三分類準確率均值可達到 0.507,大于三分類機會概率(0.333);第二組試驗應用 TSS 方法,分類準確率均值提高至 0.610;第三組將 GMM-HMM 與 TSS 結合,分類準確率均值達到 0.602,且相較于第二組模型更穩定;最后,將模型分析結果與眼跳(SA)等特征分析結果進行比較,建模分析方法遠好于基礎信息分析方法。同時,通過對三類任務特性分析,結果顯示,自由查看任務特異性較高,而對象搜尋任務的敏感度較高。綜上所述,GMM-HMM 模型應用在眼動模式識別領域有較好的特征提取效果,引入 TSS 方法可以加強眼動特征差異,尤其對搜尋類任務的眼動路徑識別有更好的優勢,也為單一狀態眼動序列提供了新的解決方案。
引用本文: 劉華茜, 鄭秀娟, 王艷, 張昀, 劉凱. 人類視覺行為的混合高斯-隱馬爾可夫模型. 生物醫學工程學雜志, 2021, 38(3): 512-519. doi: 10.7507/1001-5515.202008022 復制
引言
視覺是人們與周圍環境進行互動并感知萬物的重要途徑,視覺行為可看作是一連串的眼球運動過程,這個過程稱為眼動,而反映視覺行為的眼動主要受到三個因素的影響。第一,眼動受自上而下的觀察機制影響,觀察者有意識的掃視或無意識的自身條件(年齡、文化、性格等)都會對眼動路徑產生影響,即思維影響行為;第二,眼動也會受到與視覺刺激有關的自下而上的觀察機制影響,當觀察者注視不同的圖像時會有不同的眼動,這些眼動也映射著觀察者不同的視覺目標與心理活動,即刺激影響思維;第三,與觀察者動眼系統固有的特性有關,例如:個體生理盲點造成的影響[1]。目前,已經可以通過眼動儀來觀察和采集眼動路徑信息。眼動路徑包含兩類基礎信息:注視點信息與眼跳(saccade amplitude,SA)信息;注視點信息包括:注視時長、注視坐標等,SA 信息包括:距離、方向、時長等[2]。通過量化眼動路徑中的基礎信息,可以清晰地描繪各種眼動模式,例如掃視、追蹤和注視等。
隨著眼動追蹤技術的發展,眼動技術的應用領域及研究方式也有了擴大與更新。有學者根據閱讀過程中任務的不同造成觀察者注視模式的不同,從而對觀察者的注視模式進行分類的方法來研究任務與注視模式的關系[3]。另有研究發現,眼動也可應用于量化精神工作量上,尤其當任務繁多且要求苛刻時差異明顯[4-6]。此外,由于視覺相關的神經在大腦中分布密集,許多疾病會影響腦部功能,導致眼動行為發生改變,因此可以利用眼動分析為相關疾病的篩查、定量和評估提供新的途徑[7]。目前已知相關研究包括:精神疾病和眼部疾病的篩查診斷;其中,精神疾病包括帕金森綜合征、注意力缺陷多動障礙、自閉癥等;眼部疾病如青光眼、斜視和弱視等[8-9]。相對于傳統疾病診斷方法,應用眼動分析來篩查和評估疾病更加方便快捷。
近年來,眼動分析方法的研究備受關注。到目前為止,針對眼動數據分析和分類的方法大多基于眼動路徑基礎信息的相關參數展開,主要有持續時間、位置、掃視幅度、方向和速度、瞳孔擴張、眨眼頻率等。除此之外,也可以使用熱圖表達眼動空間信息,它表示在視覺平面的x、y 方向和注視密度三個維度下的眼動空間分布[10],但熱圖的主要缺點是沒有考慮到注視和掃視的時間順序。針對這一問題,有學者提出了用不同度量方式來比較兩個眼動路徑的方法,例如編輯距離、掃描路徑相似度比較等[11-13]。這類方法能在時間維度上對眼動路徑進行比較,但仍然存在嚴重依賴自由參數(例如感興趣區劃分)、不能為用戶提供可解釋的視覺探索模型的缺點。
有學者假設眼動數據是由隨機過程產生的隨機變量,因此采用概率方法對眼動數據進行分析,常用的概率模型為高斯混合模型(Gaussian mixture model,GMM)[14]。此外,隱馬爾可夫模型(hidden Markov model,HMM)也可以用于眼動數據建立概率模型[15-16],通過最大似然估計直接從眼動數據中學習 HMM 參數,可以解決預測、分類等問題。概率模型的優點是數據驅動,在數據量足夠的情況下模型的仿真效果好,但是當數據量較少或數據存在時間維度信息時,僅依靠概率模型分析所得的特征會與真實情況存在較大偏差。然而眼動數據恰好具有數據量不大且包含有時間信息的特點,因此用已有的概率模型無法達到良好的分析效果。
針對上述問題,本文采用了 GMM-HMM 模型,對眼動序列進行建模,并針對眼動數據集的特點提出了時移分段法(time-shifting segmentation,TSS)對 GMM-HMM 模型進行優化。最終,通過建模提取的多維特征實現視覺行為的模式識別,提升了模型的識別率,驗證并說明模型的普適性和方法的優勢,也為單一狀態序列提供了新的解決方案。
1 眼動數據及試驗內容
本文采用了 Koehler 等[17]在 2014 年公開的眼動數據集,目前收錄于加州大學視覺和圖像理解(Vision & Image Understanding,VIU)實驗室數據庫(https://data.mendeley.com/datasets/8rj98pp 6km/1)[18]。該數據集包含 158 名受試者的眼動序列,所有受試者均為加州大學學生(18~23 歲),且視力正常或矯正到正常范圍。在試驗中,每位受試者隨機參加三個視覺任務中的一個,包括自由查看(freeview)任務、顯著性搜索(salview)任務和對象搜索(objsearch)任務。自由查看任務是指讓受試者自主查看圖像,眼動軌跡只受圖像內容影響。顯著性搜索任務中受試者需確定圖像中顯著對象的位置是在圖像的左半邊還是右半邊。在對象搜索任務中,演示真實場景之前,會給出了一個詞語(例如:汽車),指示要搜索的目標,受試者需確定顯示的圖像中是否存在目標對象。后兩種任務所得的眼動軌跡會受到圖像內容與任務內容的雙重影響。試驗圖像囊括了各種室內外場景圖共計 800 張,大小均為 405 × 405 像素。眼動數據集內共有 44 110 個眼動路徑,每個眼動路徑由 10~15 個注視點坐標按照時間先后排列而成。本文要針對每一個眼動路徑進行建模,分析受試者在完成不同任務過程中的視覺行為特征,再通過視覺行為特征的差異對各眼動路徑進行模式識別。
2 視覺行為模型
本文使用了兩種眼動路徑模型構建方法。第一種為 GMM-HMM 模型,核心是用 GMM 來擬合 HMM 模型中的發射概率,將兩種模型融合應用在眼動數據上。第二種是針對 GMM-HMM 模型缺點引入 TSS 方法,將眼動路徑在時間維度上進行分段對齊,可擴大時間特征在模型中的貢獻。
2.1 混合高斯-隱馬爾可夫模型
眼動數據坐標點與圖像中內容之間存在不可觀的對應關系。當有多個坐標點在連續時間段內,并在圖像中同一區域呈一定規律分布,則認為受試者在該時間段內注視圖像中相應位置的內容。眼動數據的這一特點,可以使用 HMM 模型中的隱狀態進行描述,因此,本文以 HMM 模型為主框架對眼動數據進行建模。
具有 K 個隱藏狀態的 HMM 模型會涉及到三個概率,初始概率(original probability)以符號 pi0 表示,轉換概率(tansition probability)矩陣以符號 A 表示,發射概率(emission probability)以符號 Ni 表示。它們的定義如式(1)所示:
![]() |
其中,i 和 j 表示狀態,aij 為轉換概率,表示從狀態 i 轉換到狀態 j 的概率。Ni 為發射概率,即狀態 i 到輸出之間的生成概率,mi 和 Σi 為高斯發射的中心和協方差系數。HMM 的建模過程中三大概率問題的求解至關重要,初始概率 pi0 與轉換概率矩陣 A 均由樣本統計而來,而發射概率 Ni 可以應用 GMM 進行擬合求解。在眼動序列的研究中,注視點在空間的分布是呈現一定規律的,這種規律通常比較復雜,并非是單一分布模型。僅應用常見的高斯分布不能夠十分精確地擬合數據的分布規律,本文應用 GMM 模型,在數據量適合的情況下,可以較精準地擬合分布。以 GMM 模型來擬合求解 HMM 模型中的發射概率,GMM-HMM 模型相較于兩個單獨建模的模型而言有更大的優勢。
GMM-HMM 模型的建模過程是將一個眼動序列擬合成有 K 個狀態的數學模型,狀態數 K 值是 HMM 建模過程中的關鍵參數,本文應用了變分方法來確定 K 值。為了使模型盡可能地受數據驅動,參數值 K 的先驗值應根據眼動序列確定[16]。傳統的最大似然方法往往用于復雜的模型結構中,它可以為 HMM 模型訓練多個狀態(K 值),但也易導致過度擬合。狀態數較多的 HMM 模型相對更貼合數據實質,但多狀態很難用感興趣區來解釋,也很難與其他方法進行比較,因此將初始 K 值設定為 3。
經過 GMM-HMM 建模后,一個眼動序列會由初始概率(1 × 3)、轉換概率矩陣系數(3 × 3)、狀態中心坐標(2 × 3)和狀態協方差系數(2 × 3)共計 24 個參數來表征。由于眼動路徑中只有 10~15 個注視點,眼動序列所含信息過少或特征不明顯,模型最終的擬合狀態數 K 值會存在為 1 的情況,表示該序列僅擬合了一個狀態且所得參數為單高斯模型參數。單一狀態的高斯模型僅能表征這一眼動序列在相應刺激下的空間分布情況,無法映射受試者隨時間維度的眼動變化趨勢,削弱了眼動序列在時間維度上的特征提取,不利于眼動掃描模式的研究。
2.2 基于時移分段法的眼動數據模型優化
針對上一節所提出的問題,為了提升時間維度上的特征提取,本節提出 TSS 方法來優化眼動數據模型。
TSS 方法共有兩步,第一步是將眼動序列根據時間維度劃分段位。依據時間的先后可以將眼動路徑分為 M 段,M 值的大小決定了數據的貼合程度。當 M 值和注視點數量一致時,每個注視點為一段,這樣雖然可以完全貼合數據,但數據量太大,并不利于后面的建模與分析。在 M 值的選取過程中,并不是越大越精確,通常會根據注視點數量選擇 3~5 中合適的數值,如圖 1 所示,圖中白色小圈代表注視點坐標分布,橙線和橙圈組成的標識代表分段后的眼動掃視趨勢。由此可以看出同一眼動路徑在不同 M 值情況下的呈現方式的差異性。

TSS 方法的第二步是在確定 M 值并分段之后,對每段眼動路徑進行數學建模。在此,建模的方法可以直接采用上節所說的 GMM 模型,擬合數據在該段中的空間分布情況。最后,將同一眼動路徑的不同段的 GMM 參數按照時間先后整理合并,作為該眼動路徑的特征參數。
TSS 方法得到的特征參數可以表征眼動路徑在掃視前期、中期和后期等各時段間的模型變化趨勢,并將這些特征整合到 GMM-HMM 模型訓練參數中,可完善原模型在視線轉移方面的不足之處,應用于僅擬合出單一狀態的眼動序列上有明顯的優勢。模型僅擬合出單一狀態的成因難以細究,但針對這種眼動序列,可以進行優化使它盡可能地映射出數據在時間維度的信息,突出特征。GMM-HMM 模型與 TSS 方法針對單一狀態眼動序列的處理方法對比,如圖 2 所示,圖中黃色橢圓代表 GMM-HMM 模型對單一狀態眼動序列擬合的眼動掃視趨勢。

TSS 方法可以反映受試者在瀏覽或掃視刺激對象時的視線轉移過程,視線轉移特征對于搜尋類任務具有高表象性,對于顯著性搜索任務和對象搜索任務有較大的正向作用,對于自由查看任務的特征提取能力較小。
3 模型驗證
眼動數據建模之后,需要量化評估模型效果,應用線性判別分析(linear discriminant analysis,LDA)對眼動模型參數進行模式識別,可以直觀地對比不同方法訓練的模型的實用性及優缺點。
LDA 方法是應用眼動特征來創建新的特征空間,并優化類與類之間的分隔。首先設 g ∈ ?k 為 k 維眼動特征向量,樣本集 D = {gi, ci}i∈[1, N], ci∈[1, M] 為 N 個由 M 類標記的觀測值的集合,ni 表示第 i 類的示例數,Gi 表示第 i 類的示例集合。組內離散矩陣 Sw 和組間協方差矩陣 Sb 定義如式(2)所示:
![]() |
其中,μ 為所有示例的均值向量,μi 為 i 類的均值向量,Swi 為其協方差矩陣。LDA 方法的目標是使廣義瑞利商(generalized Rayleigh quotient)最大化,如式(3)所示:
![]() |
其中,u 為新空間的特征向量。基于 LDA 的三類分類方法使 y1、y2 和 y3 分別是 u 上 1 類、2 類和 3 類的平均投影,如式(4)所示:
![]() |
設 g0 是分類的新觀測值,y0 = uTμ0 表示其平均值的投影。分類包括將 g0 分配給其平均值最接近于 u 的類。
本文使用“留一法”,即在每次迭代中,去除一個觀察項用來測試,然后對其他項進行訓練。正確的分類率就是正確猜測類的迭代次數除以 N(迭代總數)。在此基于眼動模型的分類應用中,眼動特征向量 g 是由 HMM 參數構成的,如式(5)所示:
![]() |
K 代表 HMM 中使用的狀態數,為了使 g 對于所有觀測值具有相同的維數,將 Kmax 定義為最大的狀態數。對于 K < Kmax 的觀測,將其注視特征向量填充零。
4 試驗結果
試驗過程中將每個眼動路徑訓練了一個 GMM-HMM 模型,即每個受試者觀看每個圖像的眼動序列搭建一個 GMM-HMM 模型。在大多數情況下,采用變分法選擇的模型中 K ≤ 3,因此初始 Kmax 設置為 3。由于至少需要四個點來計算三態 GMM-HMM 模型,從數據中丟棄少于四個注視點的眼動路徑。
本文共進行了四組對比試驗,第一組用 GMM-HMM 模型建模分類,第二組應用 TSS 方法來優化 HMM 模型,第三組用 TSS 方法建模所得參數替換 GMM-HMM 模型建模中的單一狀態眼動序列所得參數,第四組根據 SA 信息距離和角度提取特征,對掃描路徑進行基礎信息分析。800 個圖像在四組對比試驗中的建模與分類結果如圖 3 所示,其中,縱坐標為分類正確率。從結果圖中可以看到,GMM-HMM 模型針對 800 個圖像的分類正確率分布在 0.27~0.76 之間,正確率中位數為 0.509;TSS 方法優化模型的分類正確率分布在 0.3~0.9 之間,分布范圍較分散,但整體平均數值提高了約 0.1,正確率中位數為 0.603;GMM-HMM 模型及 TSS 方法參數結合的分類正確率分布在 0.37~0.83 之間,分布較集中,平均數值提升量與 TSS 方法接近,正確率中位數為 0.607;SA 分析的正確率分布在 0.23~0.52 之間,正確率中位數為 0.365,略高于機會均值(0.333)。

四組試驗 800 個圖像的分類正確率均呈正態分布,如圖 4 所示,其中,橫坐標為分類正確率,縱坐標為頻數,圖中曲線為頻數柱狀圖的趨勢擬合曲線。綠色點劃線代表 GMM-HMM 模型結果;紅色實線代表 TSS 方法優化的 HMM 模型結果;藍色虛線代表用 TSS 方法所得參數替換部分 GMM-HMM 模型參數的結果;黑色虛線代表用 SA 參數所得模型結果。從圖 4 中可見,搭建模型的三組試驗結果均遠大于三分類的機會均值(0.333),其結果表明,應用 GMM-HMM 模型對眼動路徑進行建模及分類是可行的,且 TSS 方法對 GMM-HMM 模型有明顯的優化作用,兩種方法結合后使模型更加穩定可靠。SA 分析效果較差,無法將掃描路徑分類,SA 分析不適用于當前數據特征。

按任務類型進行眼動數據比較,以研究不同任務條件下不同模型的優勢和特點。各任務的比較分析結果如表 1 所示。其中,敏感度(sensitivity)是指真陽性(true positive,TP)數量占真陽性和假陰性(false negative,FN)數量總和的比例;特異性(specificity)是指真陰性(true negative,TN)數量占真陰性和假陽性(false positive,FP)數量總和的比例;正確率是指真陽性和真陰性數量總和占總樣本數量的比例。

從表 1 中可以看出,在自由查看、顯著性搜索和對象搜索三種不同的任務中,自由查看任務的特異性高于其他任務類型,而對象搜索任務的敏感度高于其他任務類型。這種差異是由任務特性引起的。相較于其他兩種任務,自由查看任務的眼動掃視模式共性較少,眼動路徑相對雜亂,因此其特異性高于其他兩種任務類型。而因為受試者在對象搜索任務的掃視過程中常常以注視到任務目標而結尾,這種任務特性增加了數據區分的辨識度,因此相較于自由查看和顯著性搜索任務而言,它的敏感度較高。對象搜索任務的正確率比其他任務的高,而 TSS 方法相較于其他兩種方法更適用于對象搜索類任務,這兩點可以從四組試驗所得結果的混淆矩陣中看出,如圖 5 所示,列為眼動路徑任務分類結果,行為眼動路徑任務標簽。

四組試驗的受試者工作特征(receiver operating characteristic,ROC)曲線如圖 6 所示,在自由查看任務環境曲線下面積(area under curve,AUC)指標由高到低分別為 0.881、0.853、0.833 和 0.671;在顯著性搜索任務下 AUC 分別為 0.877、0.835、0.824 和 0.656;在對象搜索任務下 AUC 分別為 0.896、0.885、0.831 和 0.678。由此可見,應用 TSS 方法優化過的模型效果最好,僅用 TSS 方法替換 GMM-HMM 模型中部分參數的模型次之,GMM-HMM 模型低于前兩種方法的 AUC 指標,只應用 SA 分析的結果遠低于建模分析結果。

5 結論
本文根據眼動數據特點使用 GMM-HMM 模型進行眼動數據建模,并以數據驅動的方式從眼動時空分布中捕獲凝視特征等信息。這些特征參數揭示了眼動模式之間有意義的視覺行為差異,為眼動模式識別提供了依據。通過眼動數據模型驗證,結果表明 GMM-HMM 模型應用于眼動路徑建模是合理且可行的。
經驗證,TSS 方法可以優化 GMM-HMM 模型的不足之處,并能夠在時間維度上提取眼動數據特征,提高模型的分類正確率。TSS 方法較適用于搜尋特定目標的任務類型,在搜尋任務上有明顯的區分優勢。因為搜尋任務的特性可以增加眼動路徑的辨識度,而 TSS 方法可以提取這種任務特性作為特征,所以在搜尋類任務中存在優勢。但其也存在一定局限性,對于自由查看類的任務分辨率略低一些。之后,可對不同眼動模式特征,進行有針對性的模式提取,并應用于精神狀態差異的眼動模式研究中。SA 作為眼動信息的直接參數,比經過提取變換過的模型參數識別效果差很多,但其可解釋性突出。因此,通過眼動數據建模可以圍繞眼動數據特性或任務特性提取特征,描述人類的視覺行為。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
視覺是人們與周圍環境進行互動并感知萬物的重要途徑,視覺行為可看作是一連串的眼球運動過程,這個過程稱為眼動,而反映視覺行為的眼動主要受到三個因素的影響。第一,眼動受自上而下的觀察機制影響,觀察者有意識的掃視或無意識的自身條件(年齡、文化、性格等)都會對眼動路徑產生影響,即思維影響行為;第二,眼動也會受到與視覺刺激有關的自下而上的觀察機制影響,當觀察者注視不同的圖像時會有不同的眼動,這些眼動也映射著觀察者不同的視覺目標與心理活動,即刺激影響思維;第三,與觀察者動眼系統固有的特性有關,例如:個體生理盲點造成的影響[1]。目前,已經可以通過眼動儀來觀察和采集眼動路徑信息。眼動路徑包含兩類基礎信息:注視點信息與眼跳(saccade amplitude,SA)信息;注視點信息包括:注視時長、注視坐標等,SA 信息包括:距離、方向、時長等[2]。通過量化眼動路徑中的基礎信息,可以清晰地描繪各種眼動模式,例如掃視、追蹤和注視等。
隨著眼動追蹤技術的發展,眼動技術的應用領域及研究方式也有了擴大與更新。有學者根據閱讀過程中任務的不同造成觀察者注視模式的不同,從而對觀察者的注視模式進行分類的方法來研究任務與注視模式的關系[3]。另有研究發現,眼動也可應用于量化精神工作量上,尤其當任務繁多且要求苛刻時差異明顯[4-6]。此外,由于視覺相關的神經在大腦中分布密集,許多疾病會影響腦部功能,導致眼動行為發生改變,因此可以利用眼動分析為相關疾病的篩查、定量和評估提供新的途徑[7]。目前已知相關研究包括:精神疾病和眼部疾病的篩查診斷;其中,精神疾病包括帕金森綜合征、注意力缺陷多動障礙、自閉癥等;眼部疾病如青光眼、斜視和弱視等[8-9]。相對于傳統疾病診斷方法,應用眼動分析來篩查和評估疾病更加方便快捷。
近年來,眼動分析方法的研究備受關注。到目前為止,針對眼動數據分析和分類的方法大多基于眼動路徑基礎信息的相關參數展開,主要有持續時間、位置、掃視幅度、方向和速度、瞳孔擴張、眨眼頻率等。除此之外,也可以使用熱圖表達眼動空間信息,它表示在視覺平面的x、y 方向和注視密度三個維度下的眼動空間分布[10],但熱圖的主要缺點是沒有考慮到注視和掃視的時間順序。針對這一問題,有學者提出了用不同度量方式來比較兩個眼動路徑的方法,例如編輯距離、掃描路徑相似度比較等[11-13]。這類方法能在時間維度上對眼動路徑進行比較,但仍然存在嚴重依賴自由參數(例如感興趣區劃分)、不能為用戶提供可解釋的視覺探索模型的缺點。
有學者假設眼動數據是由隨機過程產生的隨機變量,因此采用概率方法對眼動數據進行分析,常用的概率模型為高斯混合模型(Gaussian mixture model,GMM)[14]。此外,隱馬爾可夫模型(hidden Markov model,HMM)也可以用于眼動數據建立概率模型[15-16],通過最大似然估計直接從眼動數據中學習 HMM 參數,可以解決預測、分類等問題。概率模型的優點是數據驅動,在數據量足夠的情況下模型的仿真效果好,但是當數據量較少或數據存在時間維度信息時,僅依靠概率模型分析所得的特征會與真實情況存在較大偏差。然而眼動數據恰好具有數據量不大且包含有時間信息的特點,因此用已有的概率模型無法達到良好的分析效果。
針對上述問題,本文采用了 GMM-HMM 模型,對眼動序列進行建模,并針對眼動數據集的特點提出了時移分段法(time-shifting segmentation,TSS)對 GMM-HMM 模型進行優化。最終,通過建模提取的多維特征實現視覺行為的模式識別,提升了模型的識別率,驗證并說明模型的普適性和方法的優勢,也為單一狀態序列提供了新的解決方案。
1 眼動數據及試驗內容
本文采用了 Koehler 等[17]在 2014 年公開的眼動數據集,目前收錄于加州大學視覺和圖像理解(Vision & Image Understanding,VIU)實驗室數據庫(https://data.mendeley.com/datasets/8rj98pp 6km/1)[18]。該數據集包含 158 名受試者的眼動序列,所有受試者均為加州大學學生(18~23 歲),且視力正常或矯正到正常范圍。在試驗中,每位受試者隨機參加三個視覺任務中的一個,包括自由查看(freeview)任務、顯著性搜索(salview)任務和對象搜索(objsearch)任務。自由查看任務是指讓受試者自主查看圖像,眼動軌跡只受圖像內容影響。顯著性搜索任務中受試者需確定圖像中顯著對象的位置是在圖像的左半邊還是右半邊。在對象搜索任務中,演示真實場景之前,會給出了一個詞語(例如:汽車),指示要搜索的目標,受試者需確定顯示的圖像中是否存在目標對象。后兩種任務所得的眼動軌跡會受到圖像內容與任務內容的雙重影響。試驗圖像囊括了各種室內外場景圖共計 800 張,大小均為 405 × 405 像素。眼動數據集內共有 44 110 個眼動路徑,每個眼動路徑由 10~15 個注視點坐標按照時間先后排列而成。本文要針對每一個眼動路徑進行建模,分析受試者在完成不同任務過程中的視覺行為特征,再通過視覺行為特征的差異對各眼動路徑進行模式識別。
2 視覺行為模型
本文使用了兩種眼動路徑模型構建方法。第一種為 GMM-HMM 模型,核心是用 GMM 來擬合 HMM 模型中的發射概率,將兩種模型融合應用在眼動數據上。第二種是針對 GMM-HMM 模型缺點引入 TSS 方法,將眼動路徑在時間維度上進行分段對齊,可擴大時間特征在模型中的貢獻。
2.1 混合高斯-隱馬爾可夫模型
眼動數據坐標點與圖像中內容之間存在不可觀的對應關系。當有多個坐標點在連續時間段內,并在圖像中同一區域呈一定規律分布,則認為受試者在該時間段內注視圖像中相應位置的內容。眼動數據的這一特點,可以使用 HMM 模型中的隱狀態進行描述,因此,本文以 HMM 模型為主框架對眼動數據進行建模。
具有 K 個隱藏狀態的 HMM 模型會涉及到三個概率,初始概率(original probability)以符號 pi0 表示,轉換概率(tansition probability)矩陣以符號 A 表示,發射概率(emission probability)以符號 Ni 表示。它們的定義如式(1)所示:
![]() |
其中,i 和 j 表示狀態,aij 為轉換概率,表示從狀態 i 轉換到狀態 j 的概率。Ni 為發射概率,即狀態 i 到輸出之間的生成概率,mi 和 Σi 為高斯發射的中心和協方差系數。HMM 的建模過程中三大概率問題的求解至關重要,初始概率 pi0 與轉換概率矩陣 A 均由樣本統計而來,而發射概率 Ni 可以應用 GMM 進行擬合求解。在眼動序列的研究中,注視點在空間的分布是呈現一定規律的,這種規律通常比較復雜,并非是單一分布模型。僅應用常見的高斯分布不能夠十分精確地擬合數據的分布規律,本文應用 GMM 模型,在數據量適合的情況下,可以較精準地擬合分布。以 GMM 模型來擬合求解 HMM 模型中的發射概率,GMM-HMM 模型相較于兩個單獨建模的模型而言有更大的優勢。
GMM-HMM 模型的建模過程是將一個眼動序列擬合成有 K 個狀態的數學模型,狀態數 K 值是 HMM 建模過程中的關鍵參數,本文應用了變分方法來確定 K 值。為了使模型盡可能地受數據驅動,參數值 K 的先驗值應根據眼動序列確定[16]。傳統的最大似然方法往往用于復雜的模型結構中,它可以為 HMM 模型訓練多個狀態(K 值),但也易導致過度擬合。狀態數較多的 HMM 模型相對更貼合數據實質,但多狀態很難用感興趣區來解釋,也很難與其他方法進行比較,因此將初始 K 值設定為 3。
經過 GMM-HMM 建模后,一個眼動序列會由初始概率(1 × 3)、轉換概率矩陣系數(3 × 3)、狀態中心坐標(2 × 3)和狀態協方差系數(2 × 3)共計 24 個參數來表征。由于眼動路徑中只有 10~15 個注視點,眼動序列所含信息過少或特征不明顯,模型最終的擬合狀態數 K 值會存在為 1 的情況,表示該序列僅擬合了一個狀態且所得參數為單高斯模型參數。單一狀態的高斯模型僅能表征這一眼動序列在相應刺激下的空間分布情況,無法映射受試者隨時間維度的眼動變化趨勢,削弱了眼動序列在時間維度上的特征提取,不利于眼動掃描模式的研究。
2.2 基于時移分段法的眼動數據模型優化
針對上一節所提出的問題,為了提升時間維度上的特征提取,本節提出 TSS 方法來優化眼動數據模型。
TSS 方法共有兩步,第一步是將眼動序列根據時間維度劃分段位。依據時間的先后可以將眼動路徑分為 M 段,M 值的大小決定了數據的貼合程度。當 M 值和注視點數量一致時,每個注視點為一段,這樣雖然可以完全貼合數據,但數據量太大,并不利于后面的建模與分析。在 M 值的選取過程中,并不是越大越精確,通常會根據注視點數量選擇 3~5 中合適的數值,如圖 1 所示,圖中白色小圈代表注視點坐標分布,橙線和橙圈組成的標識代表分段后的眼動掃視趨勢。由此可以看出同一眼動路徑在不同 M 值情況下的呈現方式的差異性。

TSS 方法的第二步是在確定 M 值并分段之后,對每段眼動路徑進行數學建模。在此,建模的方法可以直接采用上節所說的 GMM 模型,擬合數據在該段中的空間分布情況。最后,將同一眼動路徑的不同段的 GMM 參數按照時間先后整理合并,作為該眼動路徑的特征參數。
TSS 方法得到的特征參數可以表征眼動路徑在掃視前期、中期和后期等各時段間的模型變化趨勢,并將這些特征整合到 GMM-HMM 模型訓練參數中,可完善原模型在視線轉移方面的不足之處,應用于僅擬合出單一狀態的眼動序列上有明顯的優勢。模型僅擬合出單一狀態的成因難以細究,但針對這種眼動序列,可以進行優化使它盡可能地映射出數據在時間維度的信息,突出特征。GMM-HMM 模型與 TSS 方法針對單一狀態眼動序列的處理方法對比,如圖 2 所示,圖中黃色橢圓代表 GMM-HMM 模型對單一狀態眼動序列擬合的眼動掃視趨勢。

TSS 方法可以反映受試者在瀏覽或掃視刺激對象時的視線轉移過程,視線轉移特征對于搜尋類任務具有高表象性,對于顯著性搜索任務和對象搜索任務有較大的正向作用,對于自由查看任務的特征提取能力較小。
3 模型驗證
眼動數據建模之后,需要量化評估模型效果,應用線性判別分析(linear discriminant analysis,LDA)對眼動模型參數進行模式識別,可以直觀地對比不同方法訓練的模型的實用性及優缺點。
LDA 方法是應用眼動特征來創建新的特征空間,并優化類與類之間的分隔。首先設 g ∈ ?k 為 k 維眼動特征向量,樣本集 D = {gi, ci}i∈[1, N], ci∈[1, M] 為 N 個由 M 類標記的觀測值的集合,ni 表示第 i 類的示例數,Gi 表示第 i 類的示例集合。組內離散矩陣 Sw 和組間協方差矩陣 Sb 定義如式(2)所示:
![]() |
其中,μ 為所有示例的均值向量,μi 為 i 類的均值向量,Swi 為其協方差矩陣。LDA 方法的目標是使廣義瑞利商(generalized Rayleigh quotient)最大化,如式(3)所示:
![]() |
其中,u 為新空間的特征向量。基于 LDA 的三類分類方法使 y1、y2 和 y3 分別是 u 上 1 類、2 類和 3 類的平均投影,如式(4)所示:
![]() |
設 g0 是分類的新觀測值,y0 = uTμ0 表示其平均值的投影。分類包括將 g0 分配給其平均值最接近于 u 的類。
本文使用“留一法”,即在每次迭代中,去除一個觀察項用來測試,然后對其他項進行訓練。正確的分類率就是正確猜測類的迭代次數除以 N(迭代總數)。在此基于眼動模型的分類應用中,眼動特征向量 g 是由 HMM 參數構成的,如式(5)所示:
![]() |
K 代表 HMM 中使用的狀態數,為了使 g 對于所有觀測值具有相同的維數,將 Kmax 定義為最大的狀態數。對于 K < Kmax 的觀測,將其注視特征向量填充零。
4 試驗結果
試驗過程中將每個眼動路徑訓練了一個 GMM-HMM 模型,即每個受試者觀看每個圖像的眼動序列搭建一個 GMM-HMM 模型。在大多數情況下,采用變分法選擇的模型中 K ≤ 3,因此初始 Kmax 設置為 3。由于至少需要四個點來計算三態 GMM-HMM 模型,從數據中丟棄少于四個注視點的眼動路徑。
本文共進行了四組對比試驗,第一組用 GMM-HMM 模型建模分類,第二組應用 TSS 方法來優化 HMM 模型,第三組用 TSS 方法建模所得參數替換 GMM-HMM 模型建模中的單一狀態眼動序列所得參數,第四組根據 SA 信息距離和角度提取特征,對掃描路徑進行基礎信息分析。800 個圖像在四組對比試驗中的建模與分類結果如圖 3 所示,其中,縱坐標為分類正確率。從結果圖中可以看到,GMM-HMM 模型針對 800 個圖像的分類正確率分布在 0.27~0.76 之間,正確率中位數為 0.509;TSS 方法優化模型的分類正確率分布在 0.3~0.9 之間,分布范圍較分散,但整體平均數值提高了約 0.1,正確率中位數為 0.603;GMM-HMM 模型及 TSS 方法參數結合的分類正確率分布在 0.37~0.83 之間,分布較集中,平均數值提升量與 TSS 方法接近,正確率中位數為 0.607;SA 分析的正確率分布在 0.23~0.52 之間,正確率中位數為 0.365,略高于機會均值(0.333)。

四組試驗 800 個圖像的分類正確率均呈正態分布,如圖 4 所示,其中,橫坐標為分類正確率,縱坐標為頻數,圖中曲線為頻數柱狀圖的趨勢擬合曲線。綠色點劃線代表 GMM-HMM 模型結果;紅色實線代表 TSS 方法優化的 HMM 模型結果;藍色虛線代表用 TSS 方法所得參數替換部分 GMM-HMM 模型參數的結果;黑色虛線代表用 SA 參數所得模型結果。從圖 4 中可見,搭建模型的三組試驗結果均遠大于三分類的機會均值(0.333),其結果表明,應用 GMM-HMM 模型對眼動路徑進行建模及分類是可行的,且 TSS 方法對 GMM-HMM 模型有明顯的優化作用,兩種方法結合后使模型更加穩定可靠。SA 分析效果較差,無法將掃描路徑分類,SA 分析不適用于當前數據特征。

按任務類型進行眼動數據比較,以研究不同任務條件下不同模型的優勢和特點。各任務的比較分析結果如表 1 所示。其中,敏感度(sensitivity)是指真陽性(true positive,TP)數量占真陽性和假陰性(false negative,FN)數量總和的比例;特異性(specificity)是指真陰性(true negative,TN)數量占真陰性和假陽性(false positive,FP)數量總和的比例;正確率是指真陽性和真陰性數量總和占總樣本數量的比例。

從表 1 中可以看出,在自由查看、顯著性搜索和對象搜索三種不同的任務中,自由查看任務的特異性高于其他任務類型,而對象搜索任務的敏感度高于其他任務類型。這種差異是由任務特性引起的。相較于其他兩種任務,自由查看任務的眼動掃視模式共性較少,眼動路徑相對雜亂,因此其特異性高于其他兩種任務類型。而因為受試者在對象搜索任務的掃視過程中常常以注視到任務目標而結尾,這種任務特性增加了數據區分的辨識度,因此相較于自由查看和顯著性搜索任務而言,它的敏感度較高。對象搜索任務的正確率比其他任務的高,而 TSS 方法相較于其他兩種方法更適用于對象搜索類任務,這兩點可以從四組試驗所得結果的混淆矩陣中看出,如圖 5 所示,列為眼動路徑任務分類結果,行為眼動路徑任務標簽。

四組試驗的受試者工作特征(receiver operating characteristic,ROC)曲線如圖 6 所示,在自由查看任務環境曲線下面積(area under curve,AUC)指標由高到低分別為 0.881、0.853、0.833 和 0.671;在顯著性搜索任務下 AUC 分別為 0.877、0.835、0.824 和 0.656;在對象搜索任務下 AUC 分別為 0.896、0.885、0.831 和 0.678。由此可見,應用 TSS 方法優化過的模型效果最好,僅用 TSS 方法替換 GMM-HMM 模型中部分參數的模型次之,GMM-HMM 模型低于前兩種方法的 AUC 指標,只應用 SA 分析的結果遠低于建模分析結果。

5 結論
本文根據眼動數據特點使用 GMM-HMM 模型進行眼動數據建模,并以數據驅動的方式從眼動時空分布中捕獲凝視特征等信息。這些特征參數揭示了眼動模式之間有意義的視覺行為差異,為眼動模式識別提供了依據。通過眼動數據模型驗證,結果表明 GMM-HMM 模型應用于眼動路徑建模是合理且可行的。
經驗證,TSS 方法可以優化 GMM-HMM 模型的不足之處,并能夠在時間維度上提取眼動數據特征,提高模型的分類正確率。TSS 方法較適用于搜尋特定目標的任務類型,在搜尋任務上有明顯的區分優勢。因為搜尋任務的特性可以增加眼動路徑的辨識度,而 TSS 方法可以提取這種任務特性作為特征,所以在搜尋類任務中存在優勢。但其也存在一定局限性,對于自由查看類的任務分辨率略低一些。之后,可對不同眼動模式特征,進行有針對性的模式提取,并應用于精神狀態差異的眼動模式研究中。SA 作為眼動信息的直接參數,比經過提取變換過的模型參數識別效果差很多,但其可解釋性突出。因此,通過眼動數據建模可以圍繞眼動數據特性或任務特性提取特征,描述人類的視覺行為。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。