情緒識別在文教醫療、人機交互等領域均有廣闊應用前景。情緒可通過語音、面部表情、姿態等行為信號或腦電、心電等生理信號進行識別。相對而言, 基于生理信號的情緒識別方法不易偽裝, 可獲得更加客觀、有效的結果。本文從情緒分類模型、誘發與識別流程等方面介紹了近年來基于生理信號的主要情緒識別方法和研究進展, 歸納總結了其中的難點和未來的發展趨勢。
引用本文: 張迪, 萬柏坤, 明東. 基于生理信號的情緒識別研究進展. 生物醫學工程學雜志, 2015, 32(1): 229-234. doi: 10.7507/1001-5515.20150042 復制
引言
情緒(emotion)是人對客觀事物是否滿足自身需要而產生的綜合狀態。它作為人腦的高級功能,保證著有機體的生存和適應,不同程度上影響著人的學習、記憶與決策[1]。情緒也是個性特征和心理病理的關鍵因素[2],在日常生活中扮演著重要角色。情緒識別是人類智能的重要部分,在遠程教育、醫療保健、人機交互等多領域均有廣泛的應用前景[3],受到業界人士高度重視并成為研究熱點。
情緒不僅有內心體驗和外部行為表現,同時伴隨著復雜的神經過程和生理變化。情緒通常可由面部表情、語音聲調、身體姿態[3]等外顯特征進行識別,但這類信號易被人為掩飾或偽裝,難以排除主觀因素影響,有時無法獲知內在真實的情緒狀態。而伴隨情緒的生理反應則由神經和內分泌系統支配,具有自發性,不易受主觀意念控制,故基于所對應生理信號的情緒識別能獲得客觀真實的結果[4],也更貼切于實際應用。
本文從情緒的分類模型、情緒誘發與識別流程等方面出發,詳細介紹了近年來利用生理信號進行情緒識別的主要方法和研究進展,歸納總結了目前存在的研究難點,最后指出了未來的發展方向。
1 情緒識別研究基礎
1.1 情緒的生理學基礎
19世紀美國心理學家James率先開展情緒生理機制的研究,認為情緒來源于機體外周生理反應[3],提示不同情緒會伴隨特異性外周生理活動[5]。其后Kreibig[6]研究了不同情緒下自主神經系統活動模式,表明不同情緒生理反應存在特異性,例如,恐懼會引起心率和呼吸節律的加快,皮電反應會隨情緒喚醒度的提高而增大。該理論肯定了自主生理活動對情緒的參與,但忽視了大腦中樞對情緒的作用。1929年,Cannon質疑James的觀點并與Bard一起提出了Cannon-Bard理論(又稱丘腦理論)。Cannon-Bard理論認為,情緒與其對應的生理變化是同時發生的,二者都受丘腦的控制,真正決定情緒性質的是中樞腦區[5],肯定了中樞神經系統對情緒的調節、控制作用。近年來神經功能成像研究表明:不同情緒體驗期間的皮層與皮層下腦區往往伴有特異性激活或失活,揭示不同情緒感受與大腦皮層和皮層下神經活動過程密切相關[7]。
綜上可知,情緒的發生伴隨著中樞和周圍神經系統在一定水平上的生理激活。這為研究不同生理模式下的情緒識別提供了理論依據。
1.2 情緒分類模型
情緒識別面臨的首要問題是如何劃分情緒,也就是建立情緒分類模型。采用一個世界通用的分類標準將有利于不同研究結果間的可比性和推廣性,但目前尚未統一標準而存在兩種情緒分類模型:基本情緒模型和維度空間模型。
基本情緒模型認為:情緒在發生上具有原型模式,存在數種基本情緒類型[8],每一類型各有其獨特的體驗模式、生理喚醒和外顯特征,其不同形式的組合形成了人類的所有情緒。Ekman提出了包括喜悅、憤怒、悲傷、恐懼、厭惡、驚奇的基本情緒集;Izard提出基本情緒有11種:興奮、驚奇、痛苦、厭惡、愉快、憤怒、恐懼、悲傷、害羞、輕蔑和自罪感。維度空間論則認為情緒之間不是離散、突變的,而存在一定的關聯。在維度空間模型中,各種情緒用不同的空間位置來代表,不同情緒間的相似性和差異性根據彼此在維度空間中的距離來顯示,不同情緒間可以實現逐漸平穩的轉變。目前維度空間論中應用最廣泛的是由效價(valence)和喚醒度(arousal)組成的二維空間模型[2, 9]。如圖 1所示,效價也叫愉悅度(pleasure),其理論基礎是正負情緒的分離激活,反映了人對情況的判斷,從不愉快到愉快。喚醒度或稱激活度(activation),指與情緒狀態相聯系的機體能量的激活程度,表現的是人感受的興奮程度,從平靜到興奮。知名的國際情緒圖片系統(International Affective Picture System, IAPS)[3]和國際情緒情感數字化聲音系統(International Affective Digitized Sounds, IADS)[10]就很好地體現了上述二維空間。

實際上,維度空間論并未排斥基本情緒的存在。如圖 1所示,一些基本情緒(圖中加下劃線者)可通過分解為兩個維度在二維空間中進行大概的定位[8-9],但兩者之間并不具備一一對應關系,無法實現精確的轉換。
1.3 情緒誘發方法
在實驗室條件下喚起個體真實的情緒狀態并維持一段時間是情緒研究得以進行的前提,選取合適的誘發方法至關重要。目前情緒誘發方法主要有以下幾種。
(1)素材刺激法:給被試呈現圖片、聲音(音樂)、視頻等感官刺激材料以誘發被試產生不同情緒[10]。該方法操作簡便、易于控制。上述IAPS和IADS為情緒研究提供了標準化的誘發材料,使不同實驗結果具有可比性,增強了實驗的可重復性,因此被廣泛用于情緒研究。但這兩套系統在跨國使用時由于存在較大的文化差異,故一般需要先做適用性評估或進行本土化修訂與補充。我國心理學工作者已進行了相應工作,建立了中國情緒圖片系統和中國情緒數碼聲音系統[10],為國內情緒研究提供了重要的誘發素材。聽覺刺激法中音樂誘發的情緒更為深入、持久;視聽刺激法中視頻誘發感染力強、特征要求低,更接近真實生活體驗。近年來這兩種方法因其獨特的優勢受到研究重視和應用推崇。
(2)回憶/想象情境:讓被試回憶所經歷的感情色彩事件,或想象處于某個具體場景(進入某種情緒狀態)來誘發特定情緒[11]。該方法雖能有效誘發情緒,但需專業人士指導,有特定要求,操作難度較大,難以準確設計和把握誘發情緒的持續時間及強度。
(3)情緒性情境誘發:在實驗室模擬所需誘發情緒對應的真實情境,通過對情境的設置和操控,使被試產生相應的情緒體驗[10]。例如讓被試做博弈、電腦游戲、即興演講、特定表情等,令被試在該情境下體驗到高喚醒度的情緒。該方法誘發生態效度高,但操作復雜度也高。
對于同一誘發情境,不同被試的情緒體驗可能存在很大差異。故研究中常以被試的主觀感受評價為輔,用自我評估量表(self-assessment manikins, SAM)[3]來衡量誘發效果。上述誘發方法各有優缺點,只有綜合考慮被試狀況、研究目標和具體應用場景,選擇合適誘發方法并對實驗過程進行嚴格控制,才能達到理想的情緒誘發效果。
隨著情緒研究的深入,越來越多的誘發方法被開發出來,為研究提供更多的選擇。然而,研究中也面臨如下問題亟需解決:①如何建立標準化的情緒誘發材料庫和操作流程,使得選用相同誘發方法的情緒識別研究之間具有可比性[11];②如何考察同一情緒不同誘發方法之間的區別和聯系[10],加深對該情緒的理解,尋找獨立于誘發方法的穩定的情緒評估指標;③如何設計出更有效的誘發方法來縮小實驗室誘發與生活中真實情緒體驗的差距。這些都值得研究者深入研究和進一步完善。
2 基于生理信號的情緒識別
情緒識別即運用計算機信號處理和分析方法對各種情緒狀態下的心理、生理或體征行為參數進行特征提取與分類識別,以確認個體所處的情緒狀態。目前情緒識別主要通過兩種方式:①外部行為測量法:通過面部表情、語音或姿態等外在行為特征進行識別;②生理信號測量法:測量呼吸、心律、腦電或體溫等生理信號進行識別;雖然生理信號的獲取不如前者簡單,但具有自發性、不受人為因素控制,更能客觀、真實地反映人的情緒狀態。隨著便攜式、無線傳輸的電生理采集裝置的快速發展,基于生理信號的情緒識別研究日漸受到重視并成為研究熱點。
基于生理信號的情緒識別研究起步相對較晚,在研究早期,國內外主要采用皮溫(skin temperature, SKT)、血壓(blood pressure, BP)、心電圖(electrocardiogram, ECG)、肌電圖(electromyogram, EMG)、呼吸作用(respiration, RSP)、皮膚電反應(galvanic skin response, GSR)和血容量搏動(blood volume pulse, BVP)等自主生理信號進行情緒識別,因此也稱作自主神經系統測量[8]。美國麻省理工媒體實驗室Picard教授所帶領的情感計算研究小組率先從生理信號中提取特征進行情緒識別研究[4],并證明該方法是可行的。多種自主生理信號的組合可以反映更全面的信息,因此利用這類信號進行情緒識別時常采用多信息融合的方式。2008年Kim等[9]利用心電、肌電、皮膚電導和呼吸等多種自主生理信號的時頻特征信息融合,對音樂誘發的4種情緒進行分類識別,達到了95%的分類率;但由于自主生理信號變化速率通常較慢,且信號采集的時間分辨率有限,在需要快速識別情緒時,在線系統的實時性和魯棒性受到挑戰。
近年來,隨著神經生理學的發展和腦成像技術的興起,腦信號因其時間分辨率高、功能特異性強等優勢,受到研究人員的重視并被引入到情緒識別領域。在研究初期,最常用的測量指標是腦電圖(electroencephalogram, EEG),一些學者指出前額腦不對稱現象與情緒效價或趨避特性密切相關;后來也有學者將自主生理信號和腦電信號融合,利用綜合信息以提高識別率[12-13]。然而腦電采集過程相對復雜,易受外界噪聲和肌電等干擾,基于功能性近紅外光譜成像的腦血氧參數測量法因其便攜性好,對噪聲、動作不敏感,允許長時連續測量等優點開始在情緒識別領域嶄露頭角。2009年Tai等[14]提取氧合血紅蛋白和脫氧血紅蛋白的時域特征對IAPS圖片誘發的積極和消極情緒進行識別,13個被試的識別率為75.0%~96.67%。而功能核磁共振(functional magnetic resonance imaging, fMRI)的設備體積龐大、價格昂貴,易產生幽閉恐懼,不宜實際應用,所以fMRI更多地用于情緒神經機制的研究,很少用于情緒識別研究。
在基于生理信號的情緒識別研究中,信號預處理、特征提取與優選、分類識別是最為關鍵的三個環節,下面分別介紹如下。
2.1 信號預處理
實驗室條件下誘發的情緒通常難以保持穩定,且生理信號易在采集過程中受到噪聲及其它信號干擾,故信號預處理主要是保留有效數據段,例如只截取情緒誘發高潮時段數據進行分析[13],然后去除信號中的噪聲和偽跡。目前常用的偽跡去除方法主要有濾波、歸一化、獨立成分分析等。不同頻帶參數設置的濾波器例如自適應濾波器、巴特沃斯濾波器等常用于生理信號的去噪,例如對皮電進行平滑濾波,去除高頻毛刺。不同被試間生理信號的基線普遍存在明顯的個體差異,所以需要對信號進行歸一化處理來降低基線個體差異對情緒識別的不利影響[15]。腦電信號的預處理相對復雜,常涉及變參考電位、降低采樣率、利用獨立成分分析或主成分分析等方法去除眼電、偽跡[16]。
2.2 特征提取與優選
特征提取是情緒識別的關鍵環節,提取出敏感、有效的特征,才能保證后續的準確識別。常用的特征主要有4類:時域、頻域、時-頻和非線性特征。
時域特征提取發展最早、較為簡單,是通過對信號時域波形進行分析,從波幅[17]、均值、標準差、偏歪度[14]和峭度等方面獲取信息,在處理過程中損失的信息較少。常用的時域分析方法有:過零點分析、直方圖分析、方差分析、相關分析、峰值檢測、波形參數分析和波形識別等。因其直觀性強、物理意義較明確,至今仍受到不少研究者的青睞。利用腦血氧參數進行情緒識別研究時,較多采用時域的特征分析和提取[14, 18]。
頻域特征提取建立在功率譜分析基礎上,相對較為成熟,廣泛應用于心電、呼吸、腦電等信號的分析,例如不同頻段的功率譜比值、功率譜能量、子帶功率譜密度[16]等,可分為經典譜估計和現代譜估計。經典譜估計建立在傅里葉變換基礎上,常用的實現方法有周期圖法和自相關法。經典譜估計原理簡單,便于實現,但存在“邊瓣泄露效應”、譜分辨率較低、估計方差性能不好等缺點。現代功率譜估計法大致分為參數模型譜估計和非參數模型譜估計兩類。參數模型法在譜分辨率和譜真實性方面比經典法有所改善,但改善的程度取決于所選模型的恰當性和模型參數的估計質量。
時頻特征提供了時域和頻域的聯合分布信息,清晰地描述了信號頻率隨時間變化的關系,蘊含內容更加豐富、全面。其常用分析方法有:小波變換,短時傅里葉變換[4]、希爾伯特-黃變換等。小波變換具有多分辨率特性,滑移時窗可調,在時域和頻域均有良好的分辨率,成為分析非平穩信號的有效工具。已有學者將小波變換用于情緒狀態下腦電[19]、心電、肌電等信號的分析和特征提取。
腦電信號產生于復雜的大腦系統,具有顯著的非線性和混沌性,故與其它生理信號相比,腦電特征的提取更為復雜和多樣化。近年來在情緒腦電識別研究中,熵[20]、相關維數、分形維數等非線性特征分析逐漸增多。Konstantinidis等[21]計算情緒腦電的相關維數進行在線識別研究;Liu等[22]提取腦電的分形維數等非線性特征取得了理想的識別效果,并搭建了在線應用系統。目前,研究中常將幾種類型的特征進行融合以提高識別準確率[23]。特征層融合的優點是能夠實現可觀的信息壓縮,有利于實時處理,而且所提取的特征直接與決策分析有關,因而融合結果能最大限度地給出決策分析所需要的特征信息。
從多種生理信號提取的原始特征維數通常很高,難免含有無效特征,不僅影響識別精度且會降低運算效率,故在分類前需進行特征優選,即從數量為D的特征集中優選出數量為d(D>d)的最優特征集,剔除不相關或冗余特征,從而減少特征個數,提高模型分類精度,降低模型計算量和運行時間。在情緒識別研究中,已有序列前向搜索、方差分析、序列后向搜索、Fisher投影等方法獲得了較好的特征優選結果[4]。Wagner等[24]采用序列前向搜索、方差分析和Fisher投影方法進行特征選擇,四種情緒的識別率達到90%以上。近年來,遺傳算法、蟻群算法和粒子群等智能算法因較低的計算代價和優異的解空間搜索能力得到廣泛應用。國內呂寶良和劉光遠等教授的課題組嘗試利用共空間模式、相關性分析、粒子群優化等算法做特征優選,取得了不錯的結果[16, 25-26]。
2.3 模式識別
根據情緒分類模型,通常從基本情緒和不同維度情緒兩方面進行情緒識別。所用分類模型主要包括:貝葉斯網絡(Bayesian networks, BN)[17]、支持向量機(support vector machines, SVM)[23, 25, 27-28]、多層感知器(multilayer perceptron, MLP)[23]、K近鄰均值聚類(K-nearest neighbour, KNN)[29]以及線性判別分析(linear discriminant analysis, LDA)[9, 18, 30]等。表 1總結了近年來基于生理信號的情緒識別相關研究方案及結果。由于各實驗間誘發方法、樣本大小、分類級別不同,很難準確詳細地比較不同算法的分類優劣。但可以看出SVM因其處理高維小樣本的良好性能,被廣泛運用于情緒識別研究。

現有情緒識別成果普遍處于離線水平,多集中于用戶依賴系統,而且達到了較高的識別率,音樂誘發的4種情緒識別率已達98%[9],圖片誘發的6種基本情緒的識別率達到了92%[28];且用戶依賴系統的識別率優于非用戶依賴系統[9, 27, 29],但其識別效果卻難以推廣。隨著識別情緒種類的增加或融合信息通道的減少,識別率會有所下降[30]。目前情緒識別研究尚局限于少數的情緒類型,識別范圍有待今后進一步擴展。現有研究采用的實驗范式較單一,大多采用被動的視覺(圖片)呈現或聽覺(音樂)刺激誘發目標情緒,更接近真實生活體驗的視聽誘發(視頻)或主動式誘發的情緒識別研究相對較少,未來該方面的研究可望加強和進一步完善。
3 小結與展望
近年來基于生理信號的情緒識別研究雖然取得了長足進步,但在基礎理論和實際應用上仍任重而道遠,皆面臨多方面難題:①情緒生理機制的基礎研究特別是在神經機制方面還遠未成熟,需要深入探討和進一步完善,為情緒識別在疾病診斷、情緒神經反饋調控等方面的應用提供有力的理論支持。②生理信號極易受內外噪聲干擾,研究更為有效的實時在線消噪方法和開發抗干擾能力更強的便攜化生理信號檢測分析儀器是面臨的基本技術挑戰;③情緒研究正向建立用戶獨立系統和實時在線識別轉變,如何提高情緒識別精度、運算速度和拓寬識別種類是面臨的更高技術挑戰。多模態情緒識別將是該領域未來發展的趨勢之一,將生理信號與表情、語音等情緒特征相結合以開拓多特征融合的情緒識別方法,嘗試多種智能學習算法和分類模型,有望進一步提高情緒識別的準確性和魯棒性。
4 結論
情緒在人類的社交生活、行為調控中扮演著重要角色,情緒識別是科學界重要的研究任務和前沿的研究方向。利用生理信號進行情緒識別具有客觀、真實性,雖然該研究尚未成熟, 但已顯示出積極深遠的影響和廣泛的應用價值、社會效益。眾多學者正積極地從不同角度嘗試多種研究手段開展情緒分析和識別,開發出可靠的非用戶依賴在線應用系統將是未來研究的重要內容。
引言
情緒(emotion)是人對客觀事物是否滿足自身需要而產生的綜合狀態。它作為人腦的高級功能,保證著有機體的生存和適應,不同程度上影響著人的學習、記憶與決策[1]。情緒也是個性特征和心理病理的關鍵因素[2],在日常生活中扮演著重要角色。情緒識別是人類智能的重要部分,在遠程教育、醫療保健、人機交互等多領域均有廣泛的應用前景[3],受到業界人士高度重視并成為研究熱點。
情緒不僅有內心體驗和外部行為表現,同時伴隨著復雜的神經過程和生理變化。情緒通常可由面部表情、語音聲調、身體姿態[3]等外顯特征進行識別,但這類信號易被人為掩飾或偽裝,難以排除主觀因素影響,有時無法獲知內在真實的情緒狀態。而伴隨情緒的生理反應則由神經和內分泌系統支配,具有自發性,不易受主觀意念控制,故基于所對應生理信號的情緒識別能獲得客觀真實的結果[4],也更貼切于實際應用。
本文從情緒的分類模型、情緒誘發與識別流程等方面出發,詳細介紹了近年來利用生理信號進行情緒識別的主要方法和研究進展,歸納總結了目前存在的研究難點,最后指出了未來的發展方向。
1 情緒識別研究基礎
1.1 情緒的生理學基礎
19世紀美國心理學家James率先開展情緒生理機制的研究,認為情緒來源于機體外周生理反應[3],提示不同情緒會伴隨特異性外周生理活動[5]。其后Kreibig[6]研究了不同情緒下自主神經系統活動模式,表明不同情緒生理反應存在特異性,例如,恐懼會引起心率和呼吸節律的加快,皮電反應會隨情緒喚醒度的提高而增大。該理論肯定了自主生理活動對情緒的參與,但忽視了大腦中樞對情緒的作用。1929年,Cannon質疑James的觀點并與Bard一起提出了Cannon-Bard理論(又稱丘腦理論)。Cannon-Bard理論認為,情緒與其對應的生理變化是同時發生的,二者都受丘腦的控制,真正決定情緒性質的是中樞腦區[5],肯定了中樞神經系統對情緒的調節、控制作用。近年來神經功能成像研究表明:不同情緒體驗期間的皮層與皮層下腦區往往伴有特異性激活或失活,揭示不同情緒感受與大腦皮層和皮層下神經活動過程密切相關[7]。
綜上可知,情緒的發生伴隨著中樞和周圍神經系統在一定水平上的生理激活。這為研究不同生理模式下的情緒識別提供了理論依據。
1.2 情緒分類模型
情緒識別面臨的首要問題是如何劃分情緒,也就是建立情緒分類模型。采用一個世界通用的分類標準將有利于不同研究結果間的可比性和推廣性,但目前尚未統一標準而存在兩種情緒分類模型:基本情緒模型和維度空間模型。
基本情緒模型認為:情緒在發生上具有原型模式,存在數種基本情緒類型[8],每一類型各有其獨特的體驗模式、生理喚醒和外顯特征,其不同形式的組合形成了人類的所有情緒。Ekman提出了包括喜悅、憤怒、悲傷、恐懼、厭惡、驚奇的基本情緒集;Izard提出基本情緒有11種:興奮、驚奇、痛苦、厭惡、愉快、憤怒、恐懼、悲傷、害羞、輕蔑和自罪感。維度空間論則認為情緒之間不是離散、突變的,而存在一定的關聯。在維度空間模型中,各種情緒用不同的空間位置來代表,不同情緒間的相似性和差異性根據彼此在維度空間中的距離來顯示,不同情緒間可以實現逐漸平穩的轉變。目前維度空間論中應用最廣泛的是由效價(valence)和喚醒度(arousal)組成的二維空間模型[2, 9]。如圖 1所示,效價也叫愉悅度(pleasure),其理論基礎是正負情緒的分離激活,反映了人對情況的判斷,從不愉快到愉快。喚醒度或稱激活度(activation),指與情緒狀態相聯系的機體能量的激活程度,表現的是人感受的興奮程度,從平靜到興奮。知名的國際情緒圖片系統(International Affective Picture System, IAPS)[3]和國際情緒情感數字化聲音系統(International Affective Digitized Sounds, IADS)[10]就很好地體現了上述二維空間。

實際上,維度空間論并未排斥基本情緒的存在。如圖 1所示,一些基本情緒(圖中加下劃線者)可通過分解為兩個維度在二維空間中進行大概的定位[8-9],但兩者之間并不具備一一對應關系,無法實現精確的轉換。
1.3 情緒誘發方法
在實驗室條件下喚起個體真實的情緒狀態并維持一段時間是情緒研究得以進行的前提,選取合適的誘發方法至關重要。目前情緒誘發方法主要有以下幾種。
(1)素材刺激法:給被試呈現圖片、聲音(音樂)、視頻等感官刺激材料以誘發被試產生不同情緒[10]。該方法操作簡便、易于控制。上述IAPS和IADS為情緒研究提供了標準化的誘發材料,使不同實驗結果具有可比性,增強了實驗的可重復性,因此被廣泛用于情緒研究。但這兩套系統在跨國使用時由于存在較大的文化差異,故一般需要先做適用性評估或進行本土化修訂與補充。我國心理學工作者已進行了相應工作,建立了中國情緒圖片系統和中國情緒數碼聲音系統[10],為國內情緒研究提供了重要的誘發素材。聽覺刺激法中音樂誘發的情緒更為深入、持久;視聽刺激法中視頻誘發感染力強、特征要求低,更接近真實生活體驗。近年來這兩種方法因其獨特的優勢受到研究重視和應用推崇。
(2)回憶/想象情境:讓被試回憶所經歷的感情色彩事件,或想象處于某個具體場景(進入某種情緒狀態)來誘發特定情緒[11]。該方法雖能有效誘發情緒,但需專業人士指導,有特定要求,操作難度較大,難以準確設計和把握誘發情緒的持續時間及強度。
(3)情緒性情境誘發:在實驗室模擬所需誘發情緒對應的真實情境,通過對情境的設置和操控,使被試產生相應的情緒體驗[10]。例如讓被試做博弈、電腦游戲、即興演講、特定表情等,令被試在該情境下體驗到高喚醒度的情緒。該方法誘發生態效度高,但操作復雜度也高。
對于同一誘發情境,不同被試的情緒體驗可能存在很大差異。故研究中常以被試的主觀感受評價為輔,用自我評估量表(self-assessment manikins, SAM)[3]來衡量誘發效果。上述誘發方法各有優缺點,只有綜合考慮被試狀況、研究目標和具體應用場景,選擇合適誘發方法并對實驗過程進行嚴格控制,才能達到理想的情緒誘發效果。
隨著情緒研究的深入,越來越多的誘發方法被開發出來,為研究提供更多的選擇。然而,研究中也面臨如下問題亟需解決:①如何建立標準化的情緒誘發材料庫和操作流程,使得選用相同誘發方法的情緒識別研究之間具有可比性[11];②如何考察同一情緒不同誘發方法之間的區別和聯系[10],加深對該情緒的理解,尋找獨立于誘發方法的穩定的情緒評估指標;③如何設計出更有效的誘發方法來縮小實驗室誘發與生活中真實情緒體驗的差距。這些都值得研究者深入研究和進一步完善。
2 基于生理信號的情緒識別
情緒識別即運用計算機信號處理和分析方法對各種情緒狀態下的心理、生理或體征行為參數進行特征提取與分類識別,以確認個體所處的情緒狀態。目前情緒識別主要通過兩種方式:①外部行為測量法:通過面部表情、語音或姿態等外在行為特征進行識別;②生理信號測量法:測量呼吸、心律、腦電或體溫等生理信號進行識別;雖然生理信號的獲取不如前者簡單,但具有自發性、不受人為因素控制,更能客觀、真實地反映人的情緒狀態。隨著便攜式、無線傳輸的電生理采集裝置的快速發展,基于生理信號的情緒識別研究日漸受到重視并成為研究熱點。
基于生理信號的情緒識別研究起步相對較晚,在研究早期,國內外主要采用皮溫(skin temperature, SKT)、血壓(blood pressure, BP)、心電圖(electrocardiogram, ECG)、肌電圖(electromyogram, EMG)、呼吸作用(respiration, RSP)、皮膚電反應(galvanic skin response, GSR)和血容量搏動(blood volume pulse, BVP)等自主生理信號進行情緒識別,因此也稱作自主神經系統測量[8]。美國麻省理工媒體實驗室Picard教授所帶領的情感計算研究小組率先從生理信號中提取特征進行情緒識別研究[4],并證明該方法是可行的。多種自主生理信號的組合可以反映更全面的信息,因此利用這類信號進行情緒識別時常采用多信息融合的方式。2008年Kim等[9]利用心電、肌電、皮膚電導和呼吸等多種自主生理信號的時頻特征信息融合,對音樂誘發的4種情緒進行分類識別,達到了95%的分類率;但由于自主生理信號變化速率通常較慢,且信號采集的時間分辨率有限,在需要快速識別情緒時,在線系統的實時性和魯棒性受到挑戰。
近年來,隨著神經生理學的發展和腦成像技術的興起,腦信號因其時間分辨率高、功能特異性強等優勢,受到研究人員的重視并被引入到情緒識別領域。在研究初期,最常用的測量指標是腦電圖(electroencephalogram, EEG),一些學者指出前額腦不對稱現象與情緒效價或趨避特性密切相關;后來也有學者將自主生理信號和腦電信號融合,利用綜合信息以提高識別率[12-13]。然而腦電采集過程相對復雜,易受外界噪聲和肌電等干擾,基于功能性近紅外光譜成像的腦血氧參數測量法因其便攜性好,對噪聲、動作不敏感,允許長時連續測量等優點開始在情緒識別領域嶄露頭角。2009年Tai等[14]提取氧合血紅蛋白和脫氧血紅蛋白的時域特征對IAPS圖片誘發的積極和消極情緒進行識別,13個被試的識別率為75.0%~96.67%。而功能核磁共振(functional magnetic resonance imaging, fMRI)的設備體積龐大、價格昂貴,易產生幽閉恐懼,不宜實際應用,所以fMRI更多地用于情緒神經機制的研究,很少用于情緒識別研究。
在基于生理信號的情緒識別研究中,信號預處理、特征提取與優選、分類識別是最為關鍵的三個環節,下面分別介紹如下。
2.1 信號預處理
實驗室條件下誘發的情緒通常難以保持穩定,且生理信號易在采集過程中受到噪聲及其它信號干擾,故信號預處理主要是保留有效數據段,例如只截取情緒誘發高潮時段數據進行分析[13],然后去除信號中的噪聲和偽跡。目前常用的偽跡去除方法主要有濾波、歸一化、獨立成分分析等。不同頻帶參數設置的濾波器例如自適應濾波器、巴特沃斯濾波器等常用于生理信號的去噪,例如對皮電進行平滑濾波,去除高頻毛刺。不同被試間生理信號的基線普遍存在明顯的個體差異,所以需要對信號進行歸一化處理來降低基線個體差異對情緒識別的不利影響[15]。腦電信號的預處理相對復雜,常涉及變參考電位、降低采樣率、利用獨立成分分析或主成分分析等方法去除眼電、偽跡[16]。
2.2 特征提取與優選
特征提取是情緒識別的關鍵環節,提取出敏感、有效的特征,才能保證后續的準確識別。常用的特征主要有4類:時域、頻域、時-頻和非線性特征。
時域特征提取發展最早、較為簡單,是通過對信號時域波形進行分析,從波幅[17]、均值、標準差、偏歪度[14]和峭度等方面獲取信息,在處理過程中損失的信息較少。常用的時域分析方法有:過零點分析、直方圖分析、方差分析、相關分析、峰值檢測、波形參數分析和波形識別等。因其直觀性強、物理意義較明確,至今仍受到不少研究者的青睞。利用腦血氧參數進行情緒識別研究時,較多采用時域的特征分析和提取[14, 18]。
頻域特征提取建立在功率譜分析基礎上,相對較為成熟,廣泛應用于心電、呼吸、腦電等信號的分析,例如不同頻段的功率譜比值、功率譜能量、子帶功率譜密度[16]等,可分為經典譜估計和現代譜估計。經典譜估計建立在傅里葉變換基礎上,常用的實現方法有周期圖法和自相關法。經典譜估計原理簡單,便于實現,但存在“邊瓣泄露效應”、譜分辨率較低、估計方差性能不好等缺點。現代功率譜估計法大致分為參數模型譜估計和非參數模型譜估計兩類。參數模型法在譜分辨率和譜真實性方面比經典法有所改善,但改善的程度取決于所選模型的恰當性和模型參數的估計質量。
時頻特征提供了時域和頻域的聯合分布信息,清晰地描述了信號頻率隨時間變化的關系,蘊含內容更加豐富、全面。其常用分析方法有:小波變換,短時傅里葉變換[4]、希爾伯特-黃變換等。小波變換具有多分辨率特性,滑移時窗可調,在時域和頻域均有良好的分辨率,成為分析非平穩信號的有效工具。已有學者將小波變換用于情緒狀態下腦電[19]、心電、肌電等信號的分析和特征提取。
腦電信號產生于復雜的大腦系統,具有顯著的非線性和混沌性,故與其它生理信號相比,腦電特征的提取更為復雜和多樣化。近年來在情緒腦電識別研究中,熵[20]、相關維數、分形維數等非線性特征分析逐漸增多。Konstantinidis等[21]計算情緒腦電的相關維數進行在線識別研究;Liu等[22]提取腦電的分形維數等非線性特征取得了理想的識別效果,并搭建了在線應用系統。目前,研究中常將幾種類型的特征進行融合以提高識別準確率[23]。特征層融合的優點是能夠實現可觀的信息壓縮,有利于實時處理,而且所提取的特征直接與決策分析有關,因而融合結果能最大限度地給出決策分析所需要的特征信息。
從多種生理信號提取的原始特征維數通常很高,難免含有無效特征,不僅影響識別精度且會降低運算效率,故在分類前需進行特征優選,即從數量為D的特征集中優選出數量為d(D>d)的最優特征集,剔除不相關或冗余特征,從而減少特征個數,提高模型分類精度,降低模型計算量和運行時間。在情緒識別研究中,已有序列前向搜索、方差分析、序列后向搜索、Fisher投影等方法獲得了較好的特征優選結果[4]。Wagner等[24]采用序列前向搜索、方差分析和Fisher投影方法進行特征選擇,四種情緒的識別率達到90%以上。近年來,遺傳算法、蟻群算法和粒子群等智能算法因較低的計算代價和優異的解空間搜索能力得到廣泛應用。國內呂寶良和劉光遠等教授的課題組嘗試利用共空間模式、相關性分析、粒子群優化等算法做特征優選,取得了不錯的結果[16, 25-26]。
2.3 模式識別
根據情緒分類模型,通常從基本情緒和不同維度情緒兩方面進行情緒識別。所用分類模型主要包括:貝葉斯網絡(Bayesian networks, BN)[17]、支持向量機(support vector machines, SVM)[23, 25, 27-28]、多層感知器(multilayer perceptron, MLP)[23]、K近鄰均值聚類(K-nearest neighbour, KNN)[29]以及線性判別分析(linear discriminant analysis, LDA)[9, 18, 30]等。表 1總結了近年來基于生理信號的情緒識別相關研究方案及結果。由于各實驗間誘發方法、樣本大小、分類級別不同,很難準確詳細地比較不同算法的分類優劣。但可以看出SVM因其處理高維小樣本的良好性能,被廣泛運用于情緒識別研究。

現有情緒識別成果普遍處于離線水平,多集中于用戶依賴系統,而且達到了較高的識別率,音樂誘發的4種情緒識別率已達98%[9],圖片誘發的6種基本情緒的識別率達到了92%[28];且用戶依賴系統的識別率優于非用戶依賴系統[9, 27, 29],但其識別效果卻難以推廣。隨著識別情緒種類的增加或融合信息通道的減少,識別率會有所下降[30]。目前情緒識別研究尚局限于少數的情緒類型,識別范圍有待今后進一步擴展。現有研究采用的實驗范式較單一,大多采用被動的視覺(圖片)呈現或聽覺(音樂)刺激誘發目標情緒,更接近真實生活體驗的視聽誘發(視頻)或主動式誘發的情緒識別研究相對較少,未來該方面的研究可望加強和進一步完善。
3 小結與展望
近年來基于生理信號的情緒識別研究雖然取得了長足進步,但在基礎理論和實際應用上仍任重而道遠,皆面臨多方面難題:①情緒生理機制的基礎研究特別是在神經機制方面還遠未成熟,需要深入探討和進一步完善,為情緒識別在疾病診斷、情緒神經反饋調控等方面的應用提供有力的理論支持。②生理信號極易受內外噪聲干擾,研究更為有效的實時在線消噪方法和開發抗干擾能力更強的便攜化生理信號檢測分析儀器是面臨的基本技術挑戰;③情緒研究正向建立用戶獨立系統和實時在線識別轉變,如何提高情緒識別精度、運算速度和拓寬識別種類是面臨的更高技術挑戰。多模態情緒識別將是該領域未來發展的趨勢之一,將生理信號與表情、語音等情緒特征相結合以開拓多特征融合的情緒識別方法,嘗試多種智能學習算法和分類模型,有望進一步提高情緒識別的準確性和魯棒性。
4 結論
情緒在人類的社交生活、行為調控中扮演著重要角色,情緒識別是科學界重要的研究任務和前沿的研究方向。利用生理信號進行情緒識別具有客觀、真實性,雖然該研究尚未成熟, 但已顯示出積極深遠的影響和廣泛的應用價值、社會效益。眾多學者正積極地從不同角度嘗試多種研究手段開展情緒分析和識別,開發出可靠的非用戶依賴在線應用系統將是未來研究的重要內容。