在虛擬現實(VR)環境中展示全景電影有兩種模式,非立體視覺模式(2D)和立體視覺模式(3D),這兩種不同的連續播放模式對情緒喚醒的激活效果是否存在差異以及相關的神經活動特性尚未得到充分的研究。本文通過設計認知心理學實驗,分析同步采集的頭皮腦電信號,對比研究了VR-2D和VR-3D視覺模式對情緒喚醒的影響,并利用支持向量機驗證VR-2D與VR-3D模式神經生理特征的差異。結果發現,VR-3D影片誘發出的腦電能量顯著高于VR-2D影片(主要體現在α和β活動上),VR-3D模式下顯著提高的β波能量表明立體視覺帶來了更強烈的大腦皮層活動,可能引發了被試者更高的喚醒度;與此同時,大腦枕區更強烈的α活動也暗示著VR-3D影片可能引發了更高的視覺疲勞度。本文利用神經電影學的研究方法發現腦電活動可以很好地反映不同觀影模式對于觀影者相關神經活動特性的影響,為今后進一步探索VR視角下的影像語言,為未來VR電影的拍攝方式和人的情緒研究提供了理論支撐。
引用本文: 田豐, 張文睿, 李穎潔. 立體與非立體虛擬現實影片情緒喚醒差異的電生理特性. 生物醫學工程學雜志, 2022, 39(1): 56-66. doi: 10.7507/1001-5515.202101010 復制
引言
近年來,虛擬現實(virtual reality,VR)影像備受矚目,VR憑借其特有的沉浸感、交互性等特點,給觀眾帶來了別樣的觀影體驗。VR場景顯示方式有頭盔式、桌面式、投影式等,其中,頭盔式是較為常用的虛擬場景顯示方式[1]。與傳統影像一樣,VR影像也有非立體(two-dimensional,2D)和立體(three-dimensional,3D)之分。VR-2D模式的影片制作方式簡便,是當下VR影片的主要呈現方式。VR-3D實景影片拍攝設備更加昂貴,制作流程更加復雜,傳播條件更加嚴苛,但相較于VR-2D影片,卻具有更強的立體感和更加逼真的效果。對于受眾來說,無論哪種模式的VR影像,最重要的還是激活觀眾的情緒,引起觀眾的共鳴,因為體驗情感的欲望才是使用各種媒體的動機,它能讓觀眾獲得情緒喚醒的狀態,進而獲得良好的體驗感受[2]。因此,研究不同模式下VR影像對情緒喚醒強度的影響,是決定哪種視覺模式能成為VR電影主流傳播形式前首先需要解決的理論問題。
目前,對于VR體驗的研究可以從存在[3-4]、負荷[5-6]、情緒[7-8]等角度展開。神經電影學[9]的提出為不同模式下VR影像的體驗研究提供了思路,即通過測量大腦活動來判別影像對觀眾的影響。腦電(electroencephalogram,EEG)技術可以直接測量頭皮神經活動,時間分辨率高,在檢測神經活動變化方面具有獨特的優勢。例如,Schubring等[10]通過測量在傳統平面和VR環境中觀察中性和憤怒面部表情圖片的被試者的腦電信號,比較事件相關電位(event-related potential,ERP)以及事件相關去同步化(event-related desynchronization,ERD)指標,發現與傳統平面顯示相比,VR刺激導致整體ERP激活更大,情緒條件下α/β震蕩的ERD效應更強,Schubring等[10]認為VR技術憑借其沉浸感使觀察者獲得了更大的情緒喚醒。He等[11]在傳統平面和VR環境中為受試者播放同一段影片,測量他們的腦電數據,利用EmotivTM Xavier Control Panel,由EEG數據計算出參與度指標,發現在VR環境下被試者的參與度更高,證明了VR環境可以提供更好的觀看體驗,更能激起觀眾的表演欲望。Bilgin等[12]在平面環境和VR環境中設計了低喚醒和高喚醒兩個情緒激發環境,通過記錄和對比被試者的EEG信號,發現VR環境下δ、θ、α和β頻段腦電能量都顯著高于平面環境,他們得出結論,相較于傳統的平面顯示,VR更能激發和調節被試者的情緒。Kweon等[13]為被試者在平面和VR環境中播放體育、新聞和廣告視頻,發現在VR環境中被試者的腦電β波震蕩更高,節奏快、動態性強的視頻更有可能顯示出較大的β波震蕩;相較于傳統平面,VR技術可以更加生動地傳達興奮和活潑的情感。綜上,已有研究表明觀眾更容易在VR環境中獲得情緒喚醒。
需要說明的是,以上研究大多針對的是傳統桌面顯示和VR,對于VR-2D和VR-3D之間的比較還沒有得到廣泛研究。由于傳統桌面和VR影像的放映媒介本身存在差異,上述研究產生的生理信號差異是由視覺模式引起的,還是播放設備引起的,需要進一步探索。
在少數幾篇文獻中,研究者發現相較于VR-2D顯示技術,VR-3D顯示技術可以帶來更高的存在感,而且這種主觀體驗與腦電活動呈現顯著相關性[14-15]。例如,Kober等[14]構建了一個高度沉浸的三維大屏幕VR系統和較少沉浸感的二維桌面VR系統,讓29名參與者執行了空間導航任務,通過計算任務相關能量下降/增加指標(task-related power decrease/increase,TRPD/TRPI),分析了基線與主動導航時的α波段(8~12 Hz)能量變化百分比,發現在VR-3D系統中,頂區α波段的TRPD增加,帶來了皮質層的激活;同時結合主觀問卷結果,發現了存在感與頂葉腦激活之間呈正相關關系。Slobounov等[15]的研究還發現,在空間導航任務執行過程中,VR-3D環境能夠提高知覺運動任務的成功率,被試者額區θ波段的腦電信號能量顯著高于VR-2D環境。但是,與情緒相關的研究還不多。
為了規避不同視覺背景帶來的影響,進一步探索VR電影獨特的視覺語言,本文以情緒喚醒為切入點進行深入探討,對頭盔式VR顯示方式下的VR-2D和VR-3D視覺模式的情緒喚醒進行比較研究。通過認知心理實驗采集數據進行分析對比,探索VR-2D和VR-3D兩種不同的影游視覺模式對觀眾心理和生理狀態的影響,對未來電影拍攝、制作和傳播模式以及人的情緒調控研究提供理論支撐。
1 實驗設計
為了研究VR-2D和VR-3D環境下人的腦電信號差異,本團隊在Unity 2018平臺搭建測試系統,完成了兩種VR環境下的腦電實驗。實驗分為4秒短視頻刺激[16]和本文的完整影片刺激。由于實驗環境的嚴苛性和實驗流程的復雜性,在正式實驗開展前進行了預實驗,以確保最大程度地減少實驗失誤。
1.1 參與者
本次實驗招募的志愿者均為上海大學的在讀本科生和研究生,均為右利手,隨機分配至VR-2D或VR-3D組,每組各20人,其中VR-2D組男性11人,女性9人,年齡(23.25±1.52)歲;VR-3D組男性9人,女性11人,年齡(23.4±1.27)歲。所有參與者均無精神病史或大腦創傷,視力正常或校正視力正常。所有參與者均自愿參與本次實驗,在實驗前均已簽署實驗知情同意書,實驗結束后獲得相應的報酬。實驗經過了上海市臨床研究倫理委員會的批準。實驗所有數據進行匿名分析。
1.2 實驗材料
如圖1所示,本實驗采用的VR影像材料有兩段,一段為上海城市形象宣傳片《我們的上海》(由Motion Magic公司拍攝),影片內容是上海美景,全片時長為229 s。另一段為自主拍攝的上海溫哥華電影學院萬圣節化妝派對恐怖氛圍影片《恐怖萬圣節》,采用的視頻拍攝設備為諾基亞OZO,該片呈現了經過特效化妝之后的各式幽靈演員,輔以恐怖的音樂音效,表現恐怖氛圍,全片時長186 s。所有影片的數據格式保持一致,都具有雙目視差,具備相同的立體感,影片分辨率都為4 096 × 2 048 dpi,幀速為30幀/秒,格式采用H.264編碼。本團隊使用Adobe Premiere軟件在VR-3D視頻的基礎上合成對應的VR-2D版本影片素材。

在腦電實驗實施前,本課題組已另招募20名志愿者,男性10人,女性10人,年齡(24.1±2.05)歲,志愿者根據自己的感受對VR影像材料進行效價和喚醒度的行為學評分,評價結果見表1。可見,本文使用的刺激材料可以有效誘發出設定的情緒感受。

1.3 實驗流程
所有實驗均在封閉無干擾的黑暗環境中進行,參與者正對顯示器。在實驗開始前,所有參與者需保持頭部干凈、清爽。被試者填寫完前測問卷后,實驗人員會為被試者佩戴好腦電帽。腦電設備佩戴完畢后,所有參與者還需佩戴耳機和VR設備——HTC VIVE,并通過HTC VIVE HMD觀看VR視頻。參與者在實驗過程中被告知不能隨意晃動頭部和身體,避免由于肢體運動以及VR頭盔干擾腦電帽引起的誤差。在正式播放視頻片段之前會先為參與者播放一小段音頻和視頻,讓參與者盡快適應實驗環境并且平息下來,避免興奮帶來的實驗誤差。正式實驗的視頻播放過程中,被試者的腦電信號會被同步記錄,實驗人員會全程觀察腦電帽各個通道的信號傳輸情況。每段視頻播放結束,參與者需要對當下的情緒感受進行主觀評分。實驗流程如圖2所示。

1.4 數據采集和預處理
本次實驗采用的主觀評分量表為自我情緒評定量表(Self Assessment Manikin,SAM)[17]。SAM量表可以直接測量被試者對于各種刺激的情緒反應,包括效價、喚醒、控制等指標。本次實驗主要對效價、喚醒和控制進行評分,評分等級均為1~9(在效價方面,數字越大表明積極程度越高;在喚醒方面,數字越大表明喚醒程度越強;在控制方面,數字越大表示控制程度越高)。
實驗采用的腦電采集設備為博瑞康(常州)股份有限公司的64導EEG檢測儀,腦電數據通過Neuracle EEG Recorder V2.0.1(博睿康科技,常州)采集。Cpz作為參考電極,AFz作為接地電極,采樣頻率為1 000 Hz,電極阻抗均小于5 kΩ,采集時使用50 Hz陷波濾波器去除工頻干擾。
采用MATLAB中的EEGLAB工具箱完成實驗數據的預處理。在預處理階段,首先要剔除采集心電和眼電的5個無用通道,接著對原始數據進行FIR帶通濾波,范圍為1~40 Hz。濾波完成后進行壞導聯插值和壞段剔除,用獨立主成分分析法剔除眨眼、眼飄、肌電等偽跡成分,最后進行重參考[18]和基線校正處理。信號預處理階段中,兩組各有幾名被試者的數據存在不同程度的殘缺,最終,VR-2D和VR-3D組各保留15組實驗數據進行后續分析。為減少視頻時長對腦電分析結果的影響,本團隊對所有被試者的正性和負性腦電數據都進行等長的截取(正性和負性腦電數據總時長都為175 s,點數為175 000點)。同時,為了保證實驗數據的可靠性,分別對VR-2D組和VR-3D組的被試者進行了靜息態的腦電信號采集,截取的兩組被試的靜息態時長均為20 s,點數為20 000點,以檢驗兩組被試在正式觀影前基線腦電是否有顯著差異。
1.5 數據分析
1.5.1 腦電信號提取
本次實驗使用帶通濾波對已預處理過的腦電信號進行分頻處理,對每個數據段提取α(8~13 Hz)、β1(13~18 Hz)、β2(18~21 Hz)、β3(21~30 Hz)四個波段的腦電信號。
針對提取出的各頻段的腦電信號,取所有采樣點的平方和代表該頻段的能量[19],頻段能量的計算公式如式(1):
![]() |
其中,k代表數據段數量(本實驗中的數據段數為1),N代表每段中的數據點個數(本實驗中數據點個數為175 000),X(k)i代表第k段數據第i個點的值。
如圖3所示,本次實驗選取以下腦區和特征通道進行分析:額區(Fz、F3、F4、FCz、FC3、FC4),頂區(Pz、P3、P4),中央區(Cz、C3、C4、CP3、CP4),顳區(TP7、TP8、T7、T8、P7、P8)和枕區(POz、PO3、PO4、Oz、PO7、PO8)。

1.5.2 統計分析
對于SAM量表中的數據,采用單因素方差分析進行均值比較。使用重復測量方差分析對取以10為底的對數后的腦電信號能量進行分析,其中組內因素是“情緒”(2個水平:正性情緒/負性情緒)和“腦區”(5個水平:額區/中央區/頂區/顳區/枕區),組間因素為“放映模式”(VR-2D模式/VR-3D模式)。如果上述因素之間存在交互效應,則進行簡單效應分析。對于所有結果描述采用的檢驗水準為0.05。重復測量方差分析中所有主效應和交互效應的值都會經過Greenhouse-Geisser校正,簡單效應分析的值會經過Bonferroni校正。
1.5.3 基于SVM的觀影模式分類
為更深入地探索VR-2D與VR-3D模式的情緒喚醒電生理差異,采用支持向量機(support vector machine,SVM)對兩種觀影模式下的腦電信號進行特征的識別與分類,進一步研究VR-2D與VR-3D模式的情緒喚醒生理差異。
本次實驗中需要對α、β1、β2、β3這4個波頻段的兩種視覺模式的腦電信號進行特征的提取和分類,用于驗證VR-2D和VR-3D視覺模式下的人腦生理信號是否能夠被識別劃分。
本文使用LIBSVM工具包來進行情緒分類,采用的核函數為RBF核函數,該核函數在SVM分類中表現相對穩定[20]。本文采用的交叉驗證方法為K交叉驗證[21]。K交叉驗證方法可以有效避免過學習與欠學習狀態的發生。
原始數據集為預處理過后的數據,數據集樣本的標簽分別為“1”和“2”,其中“1”代表VR-2D模式的腦電數據,“2”代表VR-3D模式的腦電數據,VR-2D和VR-3D各有30組數據,其中20%的數據作為測試集樣本,80%的數據作為訓練集樣本。
2 實驗結果
為了探尋VR-2D和VR-3D模式在兩種不同情緒下腦電誘發的差異,本文分別比較了VR-2D和VR-3D兩種模式下的主觀量表數據以及α、β1、β2、β3這4個波段的腦電信號結果,同時對被試者的生理數據進行了腦區地形圖的分析,最后,運用SVM機器學習的方法對采集的客觀腦電數據進行了分類驗證。
2.1 主觀數據評價結果
SAM主觀量表中效價、喚醒和控制指標的數據分析結果如表2所示。SAM量表中相同模式下不同情緒影片的主觀效價、喚醒、控制數據結果表明,VR-2D和VR-3D模式下正性材料效價顯著高于負性材料;VR-3D模式下正負性影片無顯著的喚醒度差異,VR-2D模式下存在顯著的喚醒度差異。該結果表明,被試者能夠清楚地分辨被試材料的情感意義,且實驗選用的正負性視頻材料都可以引發較高的喚醒度。此外,對于兩部影片VR-2D和VR-3D模式間的效價、喚醒指標的主觀評分并未產生顯著差異,表明被試者在SAM評價上并未表現出兩種視覺模式的情緒維度差異。

2.2 腦電能量
通過對比VR-2D和VR-3D兩組被試人員的靜息態腦電信號可知,兩組被試人員的靜息腦電信號在α波段(額區:P = 0.765;中央區:P = 0.454;頂區:P = 0.724;顳區:P = 0.999;枕區:P = 0.565)、β1波段(額區:P = 0.691;中央區:P = 0.878;頂區:P = 0.795;顳區:P = 0.347;枕區:P = 0.151)、β2波段(額區:P = 0.512;中央區:P = 0.583;頂區:P = 0.975;顳區:P = 0.146;枕區:P = 0.220)和β3波段(額區:P = 0.106;中央區:P = 0.932;頂區:P = 0.450;顳區:P = 0.087;枕區:P = 0.076)不具備顯著差異,P值均大于0.05,因此,兩組被試人員后續的腦電信號分析均基于同一水平展開,客觀數據具備較高的可靠性。
2.2.1 α波段
腦區的主效應顯著,F(1.827,51.154) = 36.451,P<0.001,偏η2 = 0.566,枕區腦電能量較高。
腦區和放映模式間有交互效應,F(1.827,51.154) = 4.963,P = 0.013,偏η2 = 0.151。對每個腦區進行組內因子方差分析,結果表明在枕區,F(1,28) = 6.365,P = 0.018,偏η2 = 0.185,VR-3D模式的腦電能量高于VR-2D模式,如圖4所示。

2.2.2 β1波段
腦區的主效應顯著,F(3.104,86.918) = 49.569,P < 0.001,偏η2 = 0.639,枕區和顳區腦電能量較高。
腦區和放映模式間有交互效應,F(3.104,86.918) = 4.455,P = 0.005,偏η2 = 0.137。對每個腦區進行組內因子方差分析,結果表明在枕區,F(1,28) = 8.030,P = 0.008,偏η2 = 0.223,VR-3D模式的腦電能量高于VR-2D模式,如圖4所示。
2.2.3 β2波段
腦區的主效應顯著,F(2.771,77.592) = 71.502,P < 0.001,偏η2 = 0.719,枕區和顳區腦電能量較高。
腦區和放映模式間有交互效應,F(2.771,77.592) = 4.307,P = 0.009,偏η2 = 0.133。對每個區域進行組內因子方差分析,結果表明在顳區F(1,28) = 5.105,P = 0.032,偏η2 = 0.154,在枕區F(1,28) = 6.058,P = 0.020,偏η2 = 0.178,VR-3D模式的腦電能量高于VR-2D模式,如圖4所示。
2.2.4 β3波段
腦區的主效應顯著,F(2.814,78.791) = 77.593,P < 0.001,偏η2 = 0.735,額區、枕區和顳區腦電能量較高。
腦區和放映模式間有交互效應,F(2.814,78.791) = 3.454,P = 0.023,偏η2 = 0.110。對每個腦區進行組內因子方差分析,結果表明在顳區F(1,28) = 5.416,P = 0.027,偏η2 = 0.162,在枕區F(1,28) = 5.557,P = 0.026,偏η2 = 0.166,VR-3D模式的腦電能量顯著高于VR-2D模式。額區VR-3D模式的腦電能量有高于VR-2D模式的趨勢,F(1,28) = 4.188,P = 0.050,偏η2 = 0.130,如圖4所示。
2.3 腦區地形圖比較
通過繪制腦區地形圖,能直觀地顯示腦電信號的空間分布以及不同腦區能量的高低和變化趨勢,從而展示出腦電信號的差異區域。本文使用MATLAB繪制了正性、負性情緒影像在VR-2D和VR-3D視覺模式下四個頻帶的腦區地形圖。
如圖5所示,在α波段,相較于VR-2D組,VR-3D組的枕區能量有了一定的上升;在β1、β2、β3波段,觀看完不同模式的正、負性影片后,VR-3D組的整體腦區能量直觀上高于VR-2D組,其中,能量較高的區域集中在枕區、顳區和額區。

在腦區地形圖的基礎上分別對正性影片和負性影片在不同視覺模式下的腦電信號進行統計分析可知,觀看負性影片時,枕區VR-3D模式下每個波段的腦電信號均顯著高于VR-2D模式(α波段枕區P = 0.020,β1波段枕區P = 0.022,β2波段枕區P = 0.038,β3波段額區P = 0.037,β3波段枕區P = 0.048);在觀看正性影片時,兩種模式間產生顯著差異的腦區增多,在高頻β波段,額區、顳區和枕區都體現出模式間的差異(α波段枕區P = 0.037,β1波段枕區P = 0.015,β2波段額區P = 0.041,β2波段顳區P = 0.009,β2波段枕區P = 0.024,β3波段額區P = 0.006,β3波段顳區P = 0.008,β3波段枕區P = 0.033),VR-3D模式下腦電能量更高,如圖6所示。

2.4 SVM分類結果
本次實驗選取人腦的五個腦區(額區、中央區、頂區、顳區、枕區)的通道作為特征識別通道,利用訓練集數據進行訓練,并用測試集數據進行驗證,檢驗不同腦區對VR-2D和VR-3D視覺模式的分類識別準確率。
SVM分類識別的準確率結果如圖7所示。額區、中央區、頂區、顳區、枕區的平均分類準確率為70.83%、58.34%、64.58%、70.84%和70.83%。在α波段,額區和枕區的分類準確率較高,在β波段,額區、頂區、顳區和枕區的分類準確率都處于較高水平。該結果表明,在所有腦區中,額區、顳區和枕區的總體分類準確率較高,計算4個波段的平均識別準確率可知,β3波段的平均識別準確率最高,該波段所有腦區的平均識別準確率達到78.34%。

3 討論
3.1 兩種模式都能顯著喚醒情緒
本實驗采用的SAM量表數據結果表明被試者可以準確地區分兩部影片的情緒效價,對正負情緒做出準確的判斷。在本課題組之前的實驗中[22],我們使用正性負性情緒量表(Positive and Negative Affect Schedule,PANAS)[23]對觀看與本文同樣視頻素材的另一批被試者進行了主觀測試。實驗中使用的PANAS量表基于正面情緒和負面情緒分別設計了10個情緒關鍵詞,被試者需要基于當前的情緒對量表中的20個情緒關鍵詞進行評分,1~5分分別代表幾乎沒有、比較少、中等程度、比較多、極其多。PANAS量表數據結果表明不論是正向影片還是負向影片,被試者在觀看完VR-3D版本影片后會產生更多主觀評分差異,在部分關鍵詞中,VR-3D與VR-2D模式主觀評分增量出現顯著差異,在VR-3D模式下出現更顯著的情緒喚醒。
主觀數據是一種有意識的自我報告,大腦處理情感刺激的部分過程與參與者的意識評價會存在不同[24]。SAM量表并未體現出顯著的模式間情緒喚醒差異,可能是由于被試者僅在實驗結束后填寫SAM量表,觀影前并未定量測量被試者的情緒狀態,因此無法完全排除觀影前情緒狀態對觀影后情緒狀態產生的影響。而PANAS量表在實驗前和實驗后均進行了填寫,利用前后測的差值進行比較可以有效減小誤差,因此在研究中PANAS量表的結果更具有可靠性。本次實驗在主觀量表測試實施過程中存在不足,導致主觀結果的準確性和可靠性存在缺陷,在后續的實驗中有待改進。
3.2 VR-3D模式增強了腦電能量
本研究發現,在α、β1、β2、β3這4個波段中,觀看VR-3D與VR-2D的影片均產生了不同的腦電活動。Kweon等[13]發現,在觀看不同類別的影片時,相較于傳統桌面模式,VR-3D模式下β波更加活躍。由于觀看傳統桌面視頻和VR視頻需要不同的設備,在Kweon等[13]的實驗中,無法判別產生的腦電信號差異是由觀看的影片引起的還是由于設備差異導致的。在我們的實驗中,所有視頻都是在頭盔式VR環境下觀看,消除了設備帶來的差異,所以可以認為,在VR環境下,各個波段腦電信號的差異是由立體視覺引起的。
腦電活動在不同條件下會呈現出不同的區域特性,簡單視覺特征檢測在枕葉視皮層,而復雜的特征和運動的提取多存在于顳葉[25-26],顳葉深溝中存在海馬體,海馬體在情緒加工和認知過程中起到重要作用[27]。額葉區是高級認知功能中樞,研究表明復雜神經功能如知覺、思考、注意、反饋等高級活動一般存在于前額葉皮層和枕葉、頂葉、額葉皮層之間的聯絡區。其中,參與情緒活動的腦區包括杏仁核、基底神經節、前額皮層、扣帶回皮層和頂葉皮層[28-31]。本次實驗的結果表明,在β波段枕區和顳區能對VR-3D和VR-2D的影像體現區分和差異,我們推斷這是由于人眼對立體模式的敏感性導致人腦處理視覺信號時在枕區和顳區出現不同的腦電能量。除此之外,在高頻β波段,被試者的額區也能對VR-3D和VR-2D的影像產生不同的反饋,立體視覺模式下額區腦電信號能量顯著上升。研究表明,相較于非立體影片,立體影片具有更高的感性現實主義,在觀看3D影片時,觀眾注意力會更加集中,不容易分心[32]。Tan等[33]認為,感知現實主義和情緒之間存在雙向關系,同時,情緒也受到了吸引力和關注的調控。也就是說,當畫面呈現的內容現實感更強、引發更多關注時,可能會帶來更為強烈的情緒。額區主要負責高級認知,額葉腦電活動可以反映人對于情緒活動做出反饋的能力以及調節注意力的能力[34],我們因此推斷導致額區出現差異趨勢的原因主要是被試者在觀看不同模式影片時產生了注意力的變化,在觀看VR-3D影片時注意力更加集中,引發了立體視覺模式下被試者額區的活躍。在立體視覺模式下觀看影片,可以提高觀看者的注意力,有助于激發觀看者更多的思考以及對情節、內容的理解。
通過分析正、負性影片在不同視覺模式下不同頻帶的腦區地形圖,我們發現在觀看負性視頻時,不同視覺模式下的腦電信號在枕區出現顯著差異,VR-3D模式下的枕區活動更加劇烈。而在觀看正性視頻時,兩種模式間產生顯著差異的腦區增多,VR-3D模式下更多腦區被激活。針對負性視頻的分析結果我們推測,由于負性視頻呈現的場景較為昏暗,被試者在觀看的過程中感受到的立體感差異相較于正性視頻會有所減弱,因此,觀看負性視頻引發的大腦皮層活動的劇烈程度會有所衰減,導致觀看負性視頻時出現顯著差異的腦區減少。
綜上所述,VR-3D模式下的β波段腦電能量顯著高于VR-2D模式。β波被認為是測量認知和情緒過程的有用指標,將腦電信號中的β波節律用于情感狀態識別是可行的[35],β波的活動與喚醒狀態有關[12],然而β波的腦電活動也能很好地反饋視覺注意處理活動[36]。本實驗中,VR-3D模式下被試者β波活動更加活躍,與VR-2D模式下的β波能量產生了顯著差異,這一差異可能是由喚醒度的上升造成的,但在立體視覺模式下被試者的注意力更加集中[32],β波的活躍也有可能是由視覺模式的不同帶來的注意力集中度不同引起的,因此,未來的研究中可以增加對喚醒度和電生理研究結果的相關分析,以進一步明確這種生理反應和喚醒度之間的關系。
3.3 觀看立體影片引起視覺疲勞
在本次實驗中,觀看VR-2D與VR-3D的影片產生了不同的α波震蕩,VR-3D模式下的α波段腦電能量值高于VR-2D模式,且在枕區α波段的能量在VR-3D模式下顯著上升。α波段的腦電信號節律在一定程度上也可以反映喚醒強度的高低[12],因此,我們推測VR-3D模式下α波段腦電信號的上升可能反映出該模式下喚醒度的提高。同時,α波段出現的差異也可能是由視覺疲勞引起的。基于視覺顯示終端引發的視覺疲勞是指長時間注視視屏終端引發的一系列眼睛不適等綜合癥狀[37]。Zou等[38]利用灰色關聯分析(grey relational analysis,GRA)來評價腦電圖指標對立體視覺疲勞的測量效果,結果表明在各種腦電圖指標中,α波段的數據是檢測立體視覺疲勞的最優指標,且能量的增加與立體視覺疲勞有關。在本文實驗中,VR-3D模式下枕區α波能量顯著高于VR-2D模式。研究表明,枕區是視覺特征檢測區,且α波頻段能量的增加與立體視覺疲勞有關[38];同時,也有一些研究發現,觀看立體影片給觀看者帶來的視覺疲勞程度更高[39]。因此,本文推斷α波段腦電數據的顯著差異可能是由于持續觀看VR-3D視頻帶來的視覺疲勞引起的。當然單一的α波指標對疲勞程度的判斷較為粗略[40],對于持續觀看立體影片引發的疲勞度問題后續可以配合心電、眼動、主觀問卷等數據進一步分析。
3.4 高頻β信號可以有效區分VR影像視覺模式
由SVM分類識別的結果可知,顳區、額區和枕區對VR-2D和VR-3D兩種視覺模式的腦電信號差異識別準確率較高,分類效果較好。枕區和顳區是簡單視覺特征和運動特征提取區[25-26],分類識別結果表明被試者在VR環境中處理2D與3D視覺信號時能夠引發大腦皮層枕葉和顳葉活動的差異,能夠較為準確地分辨VR影像的視覺模式,對3D影像的識別與特征的提取具備敏感性。額區的高分類準確率表明在高級認知區域,VR-2D和VR-3D兩種模式間的腦電信號活動表現出較大區別。我們推測,在觀看不同視覺模式的VR影片時,被試者會產生差異較大的高級認知活動,總體來說,β波段分類效果較好,觀看VR-3D影片時,被試者的注意力更加集中。該分類結果與客觀數據分析結論相匹配,印證了β波段的腦電信號可以作為分辨VR-2D和VR-3D兩種視覺模式的有用指標,腦電信號在該波段產生了更大的差異。
通過計算4個波段5個腦區的平均分類準確率可知,基于人腦β3波段的平均識別準確率最高,達到78.34%,因此,β3波段可以作為衡量VR-2D與VR-3D模式差異的重要參考指標。
4 結論
本研究通過開展認知心理實驗采集分析腦電數據,對比不同情緒刺激下誘發的腦電信號特征,評價了VR-2D和VR-3D兩種不同的影像模式對情緒喚醒產生的作用,研究結果證實了3D環境下的VR影片刺激會產生更強烈的大腦皮層活動,一定程度上帶來了更強的生理反應。但由于目前拍攝、放映設備研發進度緩慢,傳輸帶寬有限,該類影片無法得到廣泛的應用與傳播。在未來5G技術成熟以后,VR-3D影片的應用前景將被拓寬,在傳輸和制作方面的局限會進一步縮小,有望得到更廣泛的使用。但是,我們也發現現有技術手段下的VR觀影會帶來更高的疲勞感,未來需要更好的解決方案。同時,本文利用SVM對兩種觀影模式下的腦電信號進行特征的識別與分類,發現β3波段的腦電信號可以作為衡量VR-2D與VR-3D模式差異的重要參考指標。
總之,本研究為VR-3D影像的應用提供了理論支持,在5G技術的加持下,VR-3D影片的制作、傳播瓶頸會逐一突破,屆時,VR-3D影像的優勢會逐步凸顯。同時,本研究也為今后進一步探索觀眾對不同觀看模式、不同類型的VR影像感知的過程提供了新的思路。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:田豐主要負責項目主持、平臺搭建、算法程序設計、協調溝通以及計劃安排;張文睿主要負責實驗流程、數據記錄與分析、論文編寫以及算法程序設計;李穎潔主要負責提供實驗指導、數據分析指導、論文審閱修訂。
倫理聲明:本研究通過了上海市臨床研究倫理委員會的審批(批文編號:SECCR/2018-15-01)。
引言
近年來,虛擬現實(virtual reality,VR)影像備受矚目,VR憑借其特有的沉浸感、交互性等特點,給觀眾帶來了別樣的觀影體驗。VR場景顯示方式有頭盔式、桌面式、投影式等,其中,頭盔式是較為常用的虛擬場景顯示方式[1]。與傳統影像一樣,VR影像也有非立體(two-dimensional,2D)和立體(three-dimensional,3D)之分。VR-2D模式的影片制作方式簡便,是當下VR影片的主要呈現方式。VR-3D實景影片拍攝設備更加昂貴,制作流程更加復雜,傳播條件更加嚴苛,但相較于VR-2D影片,卻具有更強的立體感和更加逼真的效果。對于受眾來說,無論哪種模式的VR影像,最重要的還是激活觀眾的情緒,引起觀眾的共鳴,因為體驗情感的欲望才是使用各種媒體的動機,它能讓觀眾獲得情緒喚醒的狀態,進而獲得良好的體驗感受[2]。因此,研究不同模式下VR影像對情緒喚醒強度的影響,是決定哪種視覺模式能成為VR電影主流傳播形式前首先需要解決的理論問題。
目前,對于VR體驗的研究可以從存在[3-4]、負荷[5-6]、情緒[7-8]等角度展開。神經電影學[9]的提出為不同模式下VR影像的體驗研究提供了思路,即通過測量大腦活動來判別影像對觀眾的影響。腦電(electroencephalogram,EEG)技術可以直接測量頭皮神經活動,時間分辨率高,在檢測神經活動變化方面具有獨特的優勢。例如,Schubring等[10]通過測量在傳統平面和VR環境中觀察中性和憤怒面部表情圖片的被試者的腦電信號,比較事件相關電位(event-related potential,ERP)以及事件相關去同步化(event-related desynchronization,ERD)指標,發現與傳統平面顯示相比,VR刺激導致整體ERP激活更大,情緒條件下α/β震蕩的ERD效應更強,Schubring等[10]認為VR技術憑借其沉浸感使觀察者獲得了更大的情緒喚醒。He等[11]在傳統平面和VR環境中為受試者播放同一段影片,測量他們的腦電數據,利用EmotivTM Xavier Control Panel,由EEG數據計算出參與度指標,發現在VR環境下被試者的參與度更高,證明了VR環境可以提供更好的觀看體驗,更能激起觀眾的表演欲望。Bilgin等[12]在平面環境和VR環境中設計了低喚醒和高喚醒兩個情緒激發環境,通過記錄和對比被試者的EEG信號,發現VR環境下δ、θ、α和β頻段腦電能量都顯著高于平面環境,他們得出結論,相較于傳統的平面顯示,VR更能激發和調節被試者的情緒。Kweon等[13]為被試者在平面和VR環境中播放體育、新聞和廣告視頻,發現在VR環境中被試者的腦電β波震蕩更高,節奏快、動態性強的視頻更有可能顯示出較大的β波震蕩;相較于傳統平面,VR技術可以更加生動地傳達興奮和活潑的情感。綜上,已有研究表明觀眾更容易在VR環境中獲得情緒喚醒。
需要說明的是,以上研究大多針對的是傳統桌面顯示和VR,對于VR-2D和VR-3D之間的比較還沒有得到廣泛研究。由于傳統桌面和VR影像的放映媒介本身存在差異,上述研究產生的生理信號差異是由視覺模式引起的,還是播放設備引起的,需要進一步探索。
在少數幾篇文獻中,研究者發現相較于VR-2D顯示技術,VR-3D顯示技術可以帶來更高的存在感,而且這種主觀體驗與腦電活動呈現顯著相關性[14-15]。例如,Kober等[14]構建了一個高度沉浸的三維大屏幕VR系統和較少沉浸感的二維桌面VR系統,讓29名參與者執行了空間導航任務,通過計算任務相關能量下降/增加指標(task-related power decrease/increase,TRPD/TRPI),分析了基線與主動導航時的α波段(8~12 Hz)能量變化百分比,發現在VR-3D系統中,頂區α波段的TRPD增加,帶來了皮質層的激活;同時結合主觀問卷結果,發現了存在感與頂葉腦激活之間呈正相關關系。Slobounov等[15]的研究還發現,在空間導航任務執行過程中,VR-3D環境能夠提高知覺運動任務的成功率,被試者額區θ波段的腦電信號能量顯著高于VR-2D環境。但是,與情緒相關的研究還不多。
為了規避不同視覺背景帶來的影響,進一步探索VR電影獨特的視覺語言,本文以情緒喚醒為切入點進行深入探討,對頭盔式VR顯示方式下的VR-2D和VR-3D視覺模式的情緒喚醒進行比較研究。通過認知心理實驗采集數據進行分析對比,探索VR-2D和VR-3D兩種不同的影游視覺模式對觀眾心理和生理狀態的影響,對未來電影拍攝、制作和傳播模式以及人的情緒調控研究提供理論支撐。
1 實驗設計
為了研究VR-2D和VR-3D環境下人的腦電信號差異,本團隊在Unity 2018平臺搭建測試系統,完成了兩種VR環境下的腦電實驗。實驗分為4秒短視頻刺激[16]和本文的完整影片刺激。由于實驗環境的嚴苛性和實驗流程的復雜性,在正式實驗開展前進行了預實驗,以確保最大程度地減少實驗失誤。
1.1 參與者
本次實驗招募的志愿者均為上海大學的在讀本科生和研究生,均為右利手,隨機分配至VR-2D或VR-3D組,每組各20人,其中VR-2D組男性11人,女性9人,年齡(23.25±1.52)歲;VR-3D組男性9人,女性11人,年齡(23.4±1.27)歲。所有參與者均無精神病史或大腦創傷,視力正常或校正視力正常。所有參與者均自愿參與本次實驗,在實驗前均已簽署實驗知情同意書,實驗結束后獲得相應的報酬。實驗經過了上海市臨床研究倫理委員會的批準。實驗所有數據進行匿名分析。
1.2 實驗材料
如圖1所示,本實驗采用的VR影像材料有兩段,一段為上海城市形象宣傳片《我們的上海》(由Motion Magic公司拍攝),影片內容是上海美景,全片時長為229 s。另一段為自主拍攝的上海溫哥華電影學院萬圣節化妝派對恐怖氛圍影片《恐怖萬圣節》,采用的視頻拍攝設備為諾基亞OZO,該片呈現了經過特效化妝之后的各式幽靈演員,輔以恐怖的音樂音效,表現恐怖氛圍,全片時長186 s。所有影片的數據格式保持一致,都具有雙目視差,具備相同的立體感,影片分辨率都為4 096 × 2 048 dpi,幀速為30幀/秒,格式采用H.264編碼。本團隊使用Adobe Premiere軟件在VR-3D視頻的基礎上合成對應的VR-2D版本影片素材。

在腦電實驗實施前,本課題組已另招募20名志愿者,男性10人,女性10人,年齡(24.1±2.05)歲,志愿者根據自己的感受對VR影像材料進行效價和喚醒度的行為學評分,評價結果見表1。可見,本文使用的刺激材料可以有效誘發出設定的情緒感受。

1.3 實驗流程
所有實驗均在封閉無干擾的黑暗環境中進行,參與者正對顯示器。在實驗開始前,所有參與者需保持頭部干凈、清爽。被試者填寫完前測問卷后,實驗人員會為被試者佩戴好腦電帽。腦電設備佩戴完畢后,所有參與者還需佩戴耳機和VR設備——HTC VIVE,并通過HTC VIVE HMD觀看VR視頻。參與者在實驗過程中被告知不能隨意晃動頭部和身體,避免由于肢體運動以及VR頭盔干擾腦電帽引起的誤差。在正式播放視頻片段之前會先為參與者播放一小段音頻和視頻,讓參與者盡快適應實驗環境并且平息下來,避免興奮帶來的實驗誤差。正式實驗的視頻播放過程中,被試者的腦電信號會被同步記錄,實驗人員會全程觀察腦電帽各個通道的信號傳輸情況。每段視頻播放結束,參與者需要對當下的情緒感受進行主觀評分。實驗流程如圖2所示。

1.4 數據采集和預處理
本次實驗采用的主觀評分量表為自我情緒評定量表(Self Assessment Manikin,SAM)[17]。SAM量表可以直接測量被試者對于各種刺激的情緒反應,包括效價、喚醒、控制等指標。本次實驗主要對效價、喚醒和控制進行評分,評分等級均為1~9(在效價方面,數字越大表明積極程度越高;在喚醒方面,數字越大表明喚醒程度越強;在控制方面,數字越大表示控制程度越高)。
實驗采用的腦電采集設備為博瑞康(常州)股份有限公司的64導EEG檢測儀,腦電數據通過Neuracle EEG Recorder V2.0.1(博睿康科技,常州)采集。Cpz作為參考電極,AFz作為接地電極,采樣頻率為1 000 Hz,電極阻抗均小于5 kΩ,采集時使用50 Hz陷波濾波器去除工頻干擾。
采用MATLAB中的EEGLAB工具箱完成實驗數據的預處理。在預處理階段,首先要剔除采集心電和眼電的5個無用通道,接著對原始數據進行FIR帶通濾波,范圍為1~40 Hz。濾波完成后進行壞導聯插值和壞段剔除,用獨立主成分分析法剔除眨眼、眼飄、肌電等偽跡成分,最后進行重參考[18]和基線校正處理。信號預處理階段中,兩組各有幾名被試者的數據存在不同程度的殘缺,最終,VR-2D和VR-3D組各保留15組實驗數據進行后續分析。為減少視頻時長對腦電分析結果的影響,本團隊對所有被試者的正性和負性腦電數據都進行等長的截取(正性和負性腦電數據總時長都為175 s,點數為175 000點)。同時,為了保證實驗數據的可靠性,分別對VR-2D組和VR-3D組的被試者進行了靜息態的腦電信號采集,截取的兩組被試的靜息態時長均為20 s,點數為20 000點,以檢驗兩組被試在正式觀影前基線腦電是否有顯著差異。
1.5 數據分析
1.5.1 腦電信號提取
本次實驗使用帶通濾波對已預處理過的腦電信號進行分頻處理,對每個數據段提取α(8~13 Hz)、β1(13~18 Hz)、β2(18~21 Hz)、β3(21~30 Hz)四個波段的腦電信號。
針對提取出的各頻段的腦電信號,取所有采樣點的平方和代表該頻段的能量[19],頻段能量的計算公式如式(1):
![]() |
其中,k代表數據段數量(本實驗中的數據段數為1),N代表每段中的數據點個數(本實驗中數據點個數為175 000),X(k)i代表第k段數據第i個點的值。
如圖3所示,本次實驗選取以下腦區和特征通道進行分析:額區(Fz、F3、F4、FCz、FC3、FC4),頂區(Pz、P3、P4),中央區(Cz、C3、C4、CP3、CP4),顳區(TP7、TP8、T7、T8、P7、P8)和枕區(POz、PO3、PO4、Oz、PO7、PO8)。

1.5.2 統計分析
對于SAM量表中的數據,采用單因素方差分析進行均值比較。使用重復測量方差分析對取以10為底的對數后的腦電信號能量進行分析,其中組內因素是“情緒”(2個水平:正性情緒/負性情緒)和“腦區”(5個水平:額區/中央區/頂區/顳區/枕區),組間因素為“放映模式”(VR-2D模式/VR-3D模式)。如果上述因素之間存在交互效應,則進行簡單效應分析。對于所有結果描述采用的檢驗水準為0.05。重復測量方差分析中所有主效應和交互效應的值都會經過Greenhouse-Geisser校正,簡單效應分析的值會經過Bonferroni校正。
1.5.3 基于SVM的觀影模式分類
為更深入地探索VR-2D與VR-3D模式的情緒喚醒電生理差異,采用支持向量機(support vector machine,SVM)對兩種觀影模式下的腦電信號進行特征的識別與分類,進一步研究VR-2D與VR-3D模式的情緒喚醒生理差異。
本次實驗中需要對α、β1、β2、β3這4個波頻段的兩種視覺模式的腦電信號進行特征的提取和分類,用于驗證VR-2D和VR-3D視覺模式下的人腦生理信號是否能夠被識別劃分。
本文使用LIBSVM工具包來進行情緒分類,采用的核函數為RBF核函數,該核函數在SVM分類中表現相對穩定[20]。本文采用的交叉驗證方法為K交叉驗證[21]。K交叉驗證方法可以有效避免過學習與欠學習狀態的發生。
原始數據集為預處理過后的數據,數據集樣本的標簽分別為“1”和“2”,其中“1”代表VR-2D模式的腦電數據,“2”代表VR-3D模式的腦電數據,VR-2D和VR-3D各有30組數據,其中20%的數據作為測試集樣本,80%的數據作為訓練集樣本。
2 實驗結果
為了探尋VR-2D和VR-3D模式在兩種不同情緒下腦電誘發的差異,本文分別比較了VR-2D和VR-3D兩種模式下的主觀量表數據以及α、β1、β2、β3這4個波段的腦電信號結果,同時對被試者的生理數據進行了腦區地形圖的分析,最后,運用SVM機器學習的方法對采集的客觀腦電數據進行了分類驗證。
2.1 主觀數據評價結果
SAM主觀量表中效價、喚醒和控制指標的數據分析結果如表2所示。SAM量表中相同模式下不同情緒影片的主觀效價、喚醒、控制數據結果表明,VR-2D和VR-3D模式下正性材料效價顯著高于負性材料;VR-3D模式下正負性影片無顯著的喚醒度差異,VR-2D模式下存在顯著的喚醒度差異。該結果表明,被試者能夠清楚地分辨被試材料的情感意義,且實驗選用的正負性視頻材料都可以引發較高的喚醒度。此外,對于兩部影片VR-2D和VR-3D模式間的效價、喚醒指標的主觀評分并未產生顯著差異,表明被試者在SAM評價上并未表現出兩種視覺模式的情緒維度差異。

2.2 腦電能量
通過對比VR-2D和VR-3D兩組被試人員的靜息態腦電信號可知,兩組被試人員的靜息腦電信號在α波段(額區:P = 0.765;中央區:P = 0.454;頂區:P = 0.724;顳區:P = 0.999;枕區:P = 0.565)、β1波段(額區:P = 0.691;中央區:P = 0.878;頂區:P = 0.795;顳區:P = 0.347;枕區:P = 0.151)、β2波段(額區:P = 0.512;中央區:P = 0.583;頂區:P = 0.975;顳區:P = 0.146;枕區:P = 0.220)和β3波段(額區:P = 0.106;中央區:P = 0.932;頂區:P = 0.450;顳區:P = 0.087;枕區:P = 0.076)不具備顯著差異,P值均大于0.05,因此,兩組被試人員后續的腦電信號分析均基于同一水平展開,客觀數據具備較高的可靠性。
2.2.1 α波段
腦區的主效應顯著,F(1.827,51.154) = 36.451,P<0.001,偏η2 = 0.566,枕區腦電能量較高。
腦區和放映模式間有交互效應,F(1.827,51.154) = 4.963,P = 0.013,偏η2 = 0.151。對每個腦區進行組內因子方差分析,結果表明在枕區,F(1,28) = 6.365,P = 0.018,偏η2 = 0.185,VR-3D模式的腦電能量高于VR-2D模式,如圖4所示。

2.2.2 β1波段
腦區的主效應顯著,F(3.104,86.918) = 49.569,P < 0.001,偏η2 = 0.639,枕區和顳區腦電能量較高。
腦區和放映模式間有交互效應,F(3.104,86.918) = 4.455,P = 0.005,偏η2 = 0.137。對每個腦區進行組內因子方差分析,結果表明在枕區,F(1,28) = 8.030,P = 0.008,偏η2 = 0.223,VR-3D模式的腦電能量高于VR-2D模式,如圖4所示。
2.2.3 β2波段
腦區的主效應顯著,F(2.771,77.592) = 71.502,P < 0.001,偏η2 = 0.719,枕區和顳區腦電能量較高。
腦區和放映模式間有交互效應,F(2.771,77.592) = 4.307,P = 0.009,偏η2 = 0.133。對每個區域進行組內因子方差分析,結果表明在顳區F(1,28) = 5.105,P = 0.032,偏η2 = 0.154,在枕區F(1,28) = 6.058,P = 0.020,偏η2 = 0.178,VR-3D模式的腦電能量高于VR-2D模式,如圖4所示。
2.2.4 β3波段
腦區的主效應顯著,F(2.814,78.791) = 77.593,P < 0.001,偏η2 = 0.735,額區、枕區和顳區腦電能量較高。
腦區和放映模式間有交互效應,F(2.814,78.791) = 3.454,P = 0.023,偏η2 = 0.110。對每個腦區進行組內因子方差分析,結果表明在顳區F(1,28) = 5.416,P = 0.027,偏η2 = 0.162,在枕區F(1,28) = 5.557,P = 0.026,偏η2 = 0.166,VR-3D模式的腦電能量顯著高于VR-2D模式。額區VR-3D模式的腦電能量有高于VR-2D模式的趨勢,F(1,28) = 4.188,P = 0.050,偏η2 = 0.130,如圖4所示。
2.3 腦區地形圖比較
通過繪制腦區地形圖,能直觀地顯示腦電信號的空間分布以及不同腦區能量的高低和變化趨勢,從而展示出腦電信號的差異區域。本文使用MATLAB繪制了正性、負性情緒影像在VR-2D和VR-3D視覺模式下四個頻帶的腦區地形圖。
如圖5所示,在α波段,相較于VR-2D組,VR-3D組的枕區能量有了一定的上升;在β1、β2、β3波段,觀看完不同模式的正、負性影片后,VR-3D組的整體腦區能量直觀上高于VR-2D組,其中,能量較高的區域集中在枕區、顳區和額區。

在腦區地形圖的基礎上分別對正性影片和負性影片在不同視覺模式下的腦電信號進行統計分析可知,觀看負性影片時,枕區VR-3D模式下每個波段的腦電信號均顯著高于VR-2D模式(α波段枕區P = 0.020,β1波段枕區P = 0.022,β2波段枕區P = 0.038,β3波段額區P = 0.037,β3波段枕區P = 0.048);在觀看正性影片時,兩種模式間產生顯著差異的腦區增多,在高頻β波段,額區、顳區和枕區都體現出模式間的差異(α波段枕區P = 0.037,β1波段枕區P = 0.015,β2波段額區P = 0.041,β2波段顳區P = 0.009,β2波段枕區P = 0.024,β3波段額區P = 0.006,β3波段顳區P = 0.008,β3波段枕區P = 0.033),VR-3D模式下腦電能量更高,如圖6所示。

2.4 SVM分類結果
本次實驗選取人腦的五個腦區(額區、中央區、頂區、顳區、枕區)的通道作為特征識別通道,利用訓練集數據進行訓練,并用測試集數據進行驗證,檢驗不同腦區對VR-2D和VR-3D視覺模式的分類識別準確率。
SVM分類識別的準確率結果如圖7所示。額區、中央區、頂區、顳區、枕區的平均分類準確率為70.83%、58.34%、64.58%、70.84%和70.83%。在α波段,額區和枕區的分類準確率較高,在β波段,額區、頂區、顳區和枕區的分類準確率都處于較高水平。該結果表明,在所有腦區中,額區、顳區和枕區的總體分類準確率較高,計算4個波段的平均識別準確率可知,β3波段的平均識別準確率最高,該波段所有腦區的平均識別準確率達到78.34%。

3 討論
3.1 兩種模式都能顯著喚醒情緒
本實驗采用的SAM量表數據結果表明被試者可以準確地區分兩部影片的情緒效價,對正負情緒做出準確的判斷。在本課題組之前的實驗中[22],我們使用正性負性情緒量表(Positive and Negative Affect Schedule,PANAS)[23]對觀看與本文同樣視頻素材的另一批被試者進行了主觀測試。實驗中使用的PANAS量表基于正面情緒和負面情緒分別設計了10個情緒關鍵詞,被試者需要基于當前的情緒對量表中的20個情緒關鍵詞進行評分,1~5分分別代表幾乎沒有、比較少、中等程度、比較多、極其多。PANAS量表數據結果表明不論是正向影片還是負向影片,被試者在觀看完VR-3D版本影片后會產生更多主觀評分差異,在部分關鍵詞中,VR-3D與VR-2D模式主觀評分增量出現顯著差異,在VR-3D模式下出現更顯著的情緒喚醒。
主觀數據是一種有意識的自我報告,大腦處理情感刺激的部分過程與參與者的意識評價會存在不同[24]。SAM量表并未體現出顯著的模式間情緒喚醒差異,可能是由于被試者僅在實驗結束后填寫SAM量表,觀影前并未定量測量被試者的情緒狀態,因此無法完全排除觀影前情緒狀態對觀影后情緒狀態產生的影響。而PANAS量表在實驗前和實驗后均進行了填寫,利用前后測的差值進行比較可以有效減小誤差,因此在研究中PANAS量表的結果更具有可靠性。本次實驗在主觀量表測試實施過程中存在不足,導致主觀結果的準確性和可靠性存在缺陷,在后續的實驗中有待改進。
3.2 VR-3D模式增強了腦電能量
本研究發現,在α、β1、β2、β3這4個波段中,觀看VR-3D與VR-2D的影片均產生了不同的腦電活動。Kweon等[13]發現,在觀看不同類別的影片時,相較于傳統桌面模式,VR-3D模式下β波更加活躍。由于觀看傳統桌面視頻和VR視頻需要不同的設備,在Kweon等[13]的實驗中,無法判別產生的腦電信號差異是由觀看的影片引起的還是由于設備差異導致的。在我們的實驗中,所有視頻都是在頭盔式VR環境下觀看,消除了設備帶來的差異,所以可以認為,在VR環境下,各個波段腦電信號的差異是由立體視覺引起的。
腦電活動在不同條件下會呈現出不同的區域特性,簡單視覺特征檢測在枕葉視皮層,而復雜的特征和運動的提取多存在于顳葉[25-26],顳葉深溝中存在海馬體,海馬體在情緒加工和認知過程中起到重要作用[27]。額葉區是高級認知功能中樞,研究表明復雜神經功能如知覺、思考、注意、反饋等高級活動一般存在于前額葉皮層和枕葉、頂葉、額葉皮層之間的聯絡區。其中,參與情緒活動的腦區包括杏仁核、基底神經節、前額皮層、扣帶回皮層和頂葉皮層[28-31]。本次實驗的結果表明,在β波段枕區和顳區能對VR-3D和VR-2D的影像體現區分和差異,我們推斷這是由于人眼對立體模式的敏感性導致人腦處理視覺信號時在枕區和顳區出現不同的腦電能量。除此之外,在高頻β波段,被試者的額區也能對VR-3D和VR-2D的影像產生不同的反饋,立體視覺模式下額區腦電信號能量顯著上升。研究表明,相較于非立體影片,立體影片具有更高的感性現實主義,在觀看3D影片時,觀眾注意力會更加集中,不容易分心[32]。Tan等[33]認為,感知現實主義和情緒之間存在雙向關系,同時,情緒也受到了吸引力和關注的調控。也就是說,當畫面呈現的內容現實感更強、引發更多關注時,可能會帶來更為強烈的情緒。額區主要負責高級認知,額葉腦電活動可以反映人對于情緒活動做出反饋的能力以及調節注意力的能力[34],我們因此推斷導致額區出現差異趨勢的原因主要是被試者在觀看不同模式影片時產生了注意力的變化,在觀看VR-3D影片時注意力更加集中,引發了立體視覺模式下被試者額區的活躍。在立體視覺模式下觀看影片,可以提高觀看者的注意力,有助于激發觀看者更多的思考以及對情節、內容的理解。
通過分析正、負性影片在不同視覺模式下不同頻帶的腦區地形圖,我們發現在觀看負性視頻時,不同視覺模式下的腦電信號在枕區出現顯著差異,VR-3D模式下的枕區活動更加劇烈。而在觀看正性視頻時,兩種模式間產生顯著差異的腦區增多,VR-3D模式下更多腦區被激活。針對負性視頻的分析結果我們推測,由于負性視頻呈現的場景較為昏暗,被試者在觀看的過程中感受到的立體感差異相較于正性視頻會有所減弱,因此,觀看負性視頻引發的大腦皮層活動的劇烈程度會有所衰減,導致觀看負性視頻時出現顯著差異的腦區減少。
綜上所述,VR-3D模式下的β波段腦電能量顯著高于VR-2D模式。β波被認為是測量認知和情緒過程的有用指標,將腦電信號中的β波節律用于情感狀態識別是可行的[35],β波的活動與喚醒狀態有關[12],然而β波的腦電活動也能很好地反饋視覺注意處理活動[36]。本實驗中,VR-3D模式下被試者β波活動更加活躍,與VR-2D模式下的β波能量產生了顯著差異,這一差異可能是由喚醒度的上升造成的,但在立體視覺模式下被試者的注意力更加集中[32],β波的活躍也有可能是由視覺模式的不同帶來的注意力集中度不同引起的,因此,未來的研究中可以增加對喚醒度和電生理研究結果的相關分析,以進一步明確這種生理反應和喚醒度之間的關系。
3.3 觀看立體影片引起視覺疲勞
在本次實驗中,觀看VR-2D與VR-3D的影片產生了不同的α波震蕩,VR-3D模式下的α波段腦電能量值高于VR-2D模式,且在枕區α波段的能量在VR-3D模式下顯著上升。α波段的腦電信號節律在一定程度上也可以反映喚醒強度的高低[12],因此,我們推測VR-3D模式下α波段腦電信號的上升可能反映出該模式下喚醒度的提高。同時,α波段出現的差異也可能是由視覺疲勞引起的。基于視覺顯示終端引發的視覺疲勞是指長時間注視視屏終端引發的一系列眼睛不適等綜合癥狀[37]。Zou等[38]利用灰色關聯分析(grey relational analysis,GRA)來評價腦電圖指標對立體視覺疲勞的測量效果,結果表明在各種腦電圖指標中,α波段的數據是檢測立體視覺疲勞的最優指標,且能量的增加與立體視覺疲勞有關。在本文實驗中,VR-3D模式下枕區α波能量顯著高于VR-2D模式。研究表明,枕區是視覺特征檢測區,且α波頻段能量的增加與立體視覺疲勞有關[38];同時,也有一些研究發現,觀看立體影片給觀看者帶來的視覺疲勞程度更高[39]。因此,本文推斷α波段腦電數據的顯著差異可能是由于持續觀看VR-3D視頻帶來的視覺疲勞引起的。當然單一的α波指標對疲勞程度的判斷較為粗略[40],對于持續觀看立體影片引發的疲勞度問題后續可以配合心電、眼動、主觀問卷等數據進一步分析。
3.4 高頻β信號可以有效區分VR影像視覺模式
由SVM分類識別的結果可知,顳區、額區和枕區對VR-2D和VR-3D兩種視覺模式的腦電信號差異識別準確率較高,分類效果較好。枕區和顳區是簡單視覺特征和運動特征提取區[25-26],分類識別結果表明被試者在VR環境中處理2D與3D視覺信號時能夠引發大腦皮層枕葉和顳葉活動的差異,能夠較為準確地分辨VR影像的視覺模式,對3D影像的識別與特征的提取具備敏感性。額區的高分類準確率表明在高級認知區域,VR-2D和VR-3D兩種模式間的腦電信號活動表現出較大區別。我們推測,在觀看不同視覺模式的VR影片時,被試者會產生差異較大的高級認知活動,總體來說,β波段分類效果較好,觀看VR-3D影片時,被試者的注意力更加集中。該分類結果與客觀數據分析結論相匹配,印證了β波段的腦電信號可以作為分辨VR-2D和VR-3D兩種視覺模式的有用指標,腦電信號在該波段產生了更大的差異。
通過計算4個波段5個腦區的平均分類準確率可知,基于人腦β3波段的平均識別準確率最高,達到78.34%,因此,β3波段可以作為衡量VR-2D與VR-3D模式差異的重要參考指標。
4 結論
本研究通過開展認知心理實驗采集分析腦電數據,對比不同情緒刺激下誘發的腦電信號特征,評價了VR-2D和VR-3D兩種不同的影像模式對情緒喚醒產生的作用,研究結果證實了3D環境下的VR影片刺激會產生更強烈的大腦皮層活動,一定程度上帶來了更強的生理反應。但由于目前拍攝、放映設備研發進度緩慢,傳輸帶寬有限,該類影片無法得到廣泛的應用與傳播。在未來5G技術成熟以后,VR-3D影片的應用前景將被拓寬,在傳輸和制作方面的局限會進一步縮小,有望得到更廣泛的使用。但是,我們也發現現有技術手段下的VR觀影會帶來更高的疲勞感,未來需要更好的解決方案。同時,本文利用SVM對兩種觀影模式下的腦電信號進行特征的識別與分類,發現β3波段的腦電信號可以作為衡量VR-2D與VR-3D模式差異的重要參考指標。
總之,本研究為VR-3D影像的應用提供了理論支持,在5G技術的加持下,VR-3D影片的制作、傳播瓶頸會逐一突破,屆時,VR-3D影像的優勢會逐步凸顯。同時,本研究也為今后進一步探索觀眾對不同觀看模式、不同類型的VR影像感知的過程提供了新的思路。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:田豐主要負責項目主持、平臺搭建、算法程序設計、協調溝通以及計劃安排;張文睿主要負責實驗流程、數據記錄與分析、論文編寫以及算法程序設計;李穎潔主要負責提供實驗指導、數據分析指導、論文審閱修訂。
倫理聲明:本研究通過了上海市臨床研究倫理委員會的審批(批文編號:SECCR/2018-15-01)。