認知功能損害是精神分裂癥的三大原發癥狀之一,在疾病早期發現和高危人群風險預警等方面具有重要價值。為了研究精神分裂癥患者在認知負載狀態下的腦電圖特異性,本試驗收集 17 例精神分裂癥患者和 19 例健康受試者的腦電信號作為對照,基于小波變換提取各頻段信號,計算非線性動力學及腦功能網絡屬性等特征,并利用機器學習算法將兩類人群進行自動分類分析。試驗結果表明,兩組受試者在認知負載狀態下,Fp1 和 Fp2 導聯在 α、β、θ、γ 這 4 個頻帶的關聯維數和樣本熵的差異均具有統計學意義,提示大腦額葉功能損傷是精神分裂癥認知功能損害的重要原因。進一步基于機器學習的自動分類分析結果表明,將非線性動力學與腦功能網絡屬性相結合作為分類器的輸入特征,所得分類效果最優,其結果顯示準確率為 76.77%、敏感度為 72.09%、特異性為 80.36%。本研究結果表明,腦電信號的非線性動力學和腦功能網絡屬性等特征,或可作為精神分裂癥早期篩查和輔助診斷的潛在生物標記物。
引用本文: 杜欣, 李嘉慧, 熊冬生, 潘智林, 吳逢春, 寧玉萍, 陳軍, 吳凱. 認知負載狀態下的精神分裂癥患者腦電圖特異性研究. 生物醫學工程學雜志, 2020, 37(1): 45-53. doi: 10.7507/1001-5515.201810007 復制
引言
精神分裂癥是一種常見于臨床且病因復雜的重癥精神疾病,具有發病早、病程長的特點。臨床癥狀主要分為陰性癥狀、陽性癥狀和認知功能損害癥狀。其中陰性癥狀(功能減少和缺失)和認知功能損害癥狀(注意力障礙、工作記憶受損)極易使患者致殘[1],陽性癥狀(猜疑、妄想、幻覺等)則增加了疾病復發的可能性。至今,關于精神分裂癥疾病的診斷標準、病因和病理生理機制尚未達成一致結論,精神分裂癥仍具有很強的疾病異質性,而精神分裂癥患者的認知功能損害癥狀是精神失調的顯著表征之一,這種缺陷在疾病的早期進程中便已顯現[2-4]。現已有研究表明,認知功能損害的嚴重程度可以預測患者社會能力強弱[5],也可作為判斷精神分裂癥治療效果的指標[6],因此對精神分裂癥的認知功能損害進行研究具有現實意義。
腦電圖(electroencephalogram,EEG)監測具有非損傷性、時間分辨率高、操作簡便以及價格便宜等優勢,現已廣泛應用于精神分裂癥認知功能的研究中。隨著近年相關信號處理理論的發展以及復雜網絡分析技術的興起,基于自發腦電信號的分析研究逐漸增加,目前已經得出一些結論,如:精神分裂癥患者在執行認知任務中,其腦電信號波形中慢波減弱、快波增強[7];Leicht 等[8]的研究表明,認知負載過程會在正常人中誘發高能量 γ 波,但精神分裂癥患者的腦電信號中則難以觀察到同類信號等。盡管前人研究說明了腦電信號分析在認知功能評估的可行性,但整體研究數量較少,針對目前類似研究尚不全面、結論并未統一的情況,本文將用關聯維數、樣本熵(sample entropy,SampEn)及腦網絡屬性特征指標對精神分裂癥患者的腦電信號進行分析,前二者分析的是單個獨立導聯的局部腦電信號,后者分析的是全腦的功能連接情況,故而能獲得盡可能多的可量化的腦電信號特征值,既給腦電信號特異性多角度分析提供了條件,又利于后續的自動分類研究。
本文旨在通過計算腦電信號的特征指標,結合機器學習的支持向量機(support vector machine,SVM)分類理論,完成認知負載狀態下精神分裂癥患者的自動分類研究,從而尋找認知負載狀態下精神分裂癥患者腦電信號的特異性指標,探索用于臨床評估精神分裂癥患者認知功能的量化指標,同時也為精神分裂癥疾病的早期篩查和輔助診斷提供新的方向。
1 腦電數據采集與預處理
1.1 數據入組
本文患者數據來自 2016 年 12 月—2017 年 7 月于廣州醫科大學附屬腦科醫院住院的精神分裂癥患者。
入組標準:① 符合美國《精神疾病診斷與統計手冊》(diagnostic and statistical manual of mental disorders,DSM-IV-TR)中精神分裂癥的診斷標準,且病程 ≥ 2 年;② 陽性與陰性癥狀量表(positive and negative syndrome scale,PANSS)評分近 4 周波動在 20% 以內,臨床療效總評量表(clinical global impression,CGI)評分 ≤ 4 分;③ 患者最多接受兩種抗精神病藥治療,且所有精神科類藥物種類穩定達 4 周,近 4 周沒有增加藥物劑量;④ 同意參與本研究且簽署書面知情同意書。
排除標準:① 肝、腎、心、腦等器質性病變;② 聽力障礙;③ 視力障礙;④ 符合除精神分裂癥外其它 DSM-IV-TR 軸 I 診斷,如重度抑郁、雙向情感障礙等。
同時期,通過網絡招募健康志愿者人群,需滿足無精神疾病史,且不符合 DSM-IV-TR 任何精神疾病的診斷,此外還需滿足無精神疾病家族史的要求,所有受試者均同意參與本研究并簽署書面知情同意書。
最終,精神分裂癥患者組納入 17 人,其中男性 10 人,女性 7 人,年齡平均(34.53 ± 7.52)歲,受教育程度(11.00 ± 2.46)年,均為右利手;作為對照的健康組納入 19 人,其中男性 5 人,女性 14 人,年齡平均(27.95 ± 7.13)歲,受教育程度(12.58 ± 2.32)年,均為右利手。兩組在性別、教育年限方面的差異不具有統計學意義(P > 0.05),但患者組的年齡明顯高于健康組(P < 0.001)。
1.2 認知負載試驗設計
傳統基于怪球(Oddball)范式的認知負載試驗中,通常是將不同頻率的純音作為偏差刺激和標準刺激,但精神分裂癥患者對純音頻率的敏感度較低,且這一類音頻很難持續地吸引受試者的注意力,一定程度上降低了試驗結果的信效度和準確性。
為了確保能夠采集到配合度最高的數據,在認知負載試驗中,采用錄音播報數字的方式代替傳統的純音,偶數為標準刺激,奇數為偏差刺激(即靶刺激)。試驗開始前向受試者詳細介紹本試驗全部流程,讓受試者于坐位姿勢保持放松狀態,并調整電極位置使噪聲和偽跡最小。認知試驗中,播放錄音,共將播報 40 個 0~99 中的數字,其中奇偶數比例為 1:4,每 3 s 播報一個數字,要求受試者在聽到數字后首先判斷這個數字是否為奇數,并記住全部奇數的個數,在全部 40 個數字播報完畢后,測試人員向受試者詢問記住的全部奇數個數并完成記錄。
1.3 數據采集和預處理
本研究利用數字腦電圖機(UEA-B,中科新拓,中國)采集了受試者認知狀態下的 16 導腦電信號,采樣率為 1 000 次/s,以耳極為參考電極,采用 10/20 國際電極放置標準安放電極,利用腦電圖機內置的 50 Hz 陷波器去除工頻干擾。整個試驗流程分為 3 個部分:第一部分是受試者在安靜閉眼狀態下采集 2 min 的腦電信號;第二部分是受試者按照 1.2 小節所述認知負載流程,采集 3 min 的腦電信號;第三部分是受試者繼續在安靜閉眼狀態下采集 3 min 的腦電信號。采集完成后,專業人員將采集到的數據中含有偽跡的信號剔除,并通過獨立成分分析(independent component analysis,ICA)算法去除肌電信號和眨眼信號,使用小波閾值去噪法去除其他噪聲,最后利用小波包分解的方式提取腦電信號中 α、β、θ、δ 和 γ 頻帶并進行后續分析。
1.4 統計學方法
數據分析采用統計產品與服務解決方案軟件 SPSS 22.0(IBM Inc.,美國)統計軟件,計量資料以均數 ± 標準差表示,使用雙樣本 t 檢驗分析,不存在對照時使用 χ2 檢驗分析,P < 0.05 視為差異具有統計學意義。
2 非線性動力學分析
2.1 特征選擇
本研究選取關聯維數和樣本熵作為非線性動力學特征指標,計算選定合適的時間延遲 τ 和嵌入維數 m,構建充分反映系統特性的相空間。其中,時間延遲 τ 利用自相關系數法求得,嵌入維數 m 利用幾何不變量法求得。
時間序列的自相關函數表示的是在距離 τ 的 2 個向量間的互相關聯程度,不同的 τ 值則對應不同的函數曲線,當自相關函數值不斷下降時則對應得到不同的時間延遲 τ,而當自相關函數值下降為初始值的()時所對應的時間延遲 τ 為相空間重構的最佳時間延遲,依據上述方法在本研究中最終選定時間延遲 τ = 5。依據此時間延遲 τ 進而確定最佳的嵌入維數 m,最佳嵌入維數 m 的選擇過程實際上為觀察關聯維數飽和程度變化的過程,隨著嵌入維數 m 的不斷增大,當關聯維數數值隨嵌入維數 m 的增大不再增大或這種增加程度不明顯時,為最佳嵌入維數 m,由此確定嵌入維數 m = 16。
2.2 特征分析
2.2.1 關聯維數
關聯維數描述了混沌運動中自由度信息,在本研究中反映的是腦電信號自身的關聯程度,即更復雜的信號具有更高的關聯維數,也更接近混沌狀態,關聯維數 D2 的計算公式如式(1)所示,其中相關積分 的計算公式如式(2)所示。
![]() |
![]() |
其中,N 表示腦電信號數據長度,θ 表示單位階躍函數,rij 表示重構相空間中 ij 兩點間距離。
2.2.2 樣本熵
樣本熵(以符號 SampEn 表示)同樣也是一種反應腦電信號復雜度變化的指標,它是基于近似熵理論提出的一種不計數自身匹配的非線性特征,更復雜的信號對應更高的樣本熵,也更接近混沌狀態。樣本熵的計算公式如式(3)所示,其中 的計算公式如式(4)所示。
![]() |
![]() |
基于維度為 m 的矢量進行計算可得 ,同理,對于維度為 m + 1 的矢量計算,可求出
。其中,
表示第 i 個矢量與第 j 個矢量間的距離,N 表示腦電信號長度,r 表示相似容限,取值一般為 0.1~0.25,本研究中取 0.2,m 表示矢量維度,一般取值為 2。
3 腦功能網絡的構建
3.1 腦功能網絡的構建及閾值的選取
依據腦功能網絡構建的一般方法,如圖 1 所示,選取 16 導聯作為網絡的節點,其中每個節點分別表示不同的腦區,并在導聯名稱上加以區分,如 Fp 表示前額葉,P 表示頂葉,O 表示枕葉等;選取相位滯后指數(phase-lag index,PLI)分別量化腦電信號各通道兩兩之間的相互作用關系,得到 16 × 16 的關系矩陣,并根據其數值衡量對應腦區之間功能連接強弱;選擇合適的閾值并進行閾值化得到該閾值下的連接矩陣,最后根據該連接矩陣構建腦功能網絡。

利用腦網絡稀疏度選擇最合適的閾值,稀疏度即腦網絡中真實存在的連接數量和可能存在的連接數量的比值,它可以使得腦網絡不同連接定義的差別最小化,稀疏度和閾值一一對應,故而確定稀疏度即可確定閾值。在較大閾值范圍內研究腦網絡拓撲屬性能夠在一定程度上解決單一閾值的局限性。根據厄多斯-瑞利(Erdos-Renyi)隨機圖模型[9],若要保證具有 N 個節點的網絡是全連接,其連接稀疏度應該大于 ,在本研究中 N = 16,則連接稀疏度最小為
= 34%。同時結合小世界屬性確定稀疏度上限,隨著連接稀疏度的連續增加,對應的小世界屬性值持續減小,典型小世界網絡中,其小世界屬性值 σ 遠大于 1,而 σ = 1 時,對應的連接稀疏度為 73%。綜上,本研究在 34%~73% 的取值區間以及步長為 1% 的腦網絡稀疏度范圍內構建不同的腦功能網絡。強度通過閾值的連接被保留下來,超過閾值的連接被略去,最后得到的連接邊在圖 1 中用紅線表示出來,至此腦網絡便構建完成。
3.2 各導聯間相互作用關系分析
兩個系統之間的嚴格鎖相要求它們的相位差保持恒定,但有時僅要求相位差有界即可(界限小于 2π)。PLI 能夠反映相位同步性,若 ?1 和 ?2 分別是兩個時間序列的相位,?? 是相位差或者相對相位,則 n 相對 m 的相位同步表達如式(5)所示,且小于某個常量,其中 n 和 m 均為整數,表示序列中某一時刻。
![]() |
依據上述表達方式,相位同步可以被用于嘈雜、非穩定和混沌的信號中。在本研究中,限定 m = 1,n = 1。通過基于希爾伯特變換的解析信號得到 2 個信號的瞬時相位。解析信號 由真實的時間序列
計算得到,如式(6)所示,其中 PV 代表柯西主值,
代表瞬時振幅,?(t)代表瞬時相位。
![]() |
已有研究表明,PLI 在檢測同步性相關的真實變化時,可以得到與同步似然性一致的良好檢測性能,但相較于同步似然性,PLI 僅關注信號間耦合關系,受到來自同一來源信號的影響更小[10],即不受容積傳導效應影響。在計算全局 PLI 基礎上,也可以進一步計算平均 PLI 以獲得較佳的局部屬性。Stam[11]在研究中,將每個腦半球腦磁圖信號分為額葉、顳葉、中央、頂葉和枕葉 5 個區域,隨后計算各個區域內部或者任兩個區域之間所有信號的平均,并將這種平均后的 PLI 作為一種新方法得到了良好的特異性結果。
3.3 腦網絡特征指標
3.3.1 最短路徑長度
最短路徑即節點 i 與節點 j 之間邊數最少的一條路徑,這條最短路徑上所經過邊的數量為最短路徑長度 lij。腦網絡的最短路徑長度 L 體現的是整體統計特性,以實現信息傳遞的快捷和系統資源的節省,計算方法如式(7)所示,其中 n 表示所有節點數量。
![]() |
3.3.2 聚類系數
節點 i 的聚類系數 Ci 定義為與節點 i 有 k 條邊相連的節點之間實際存在的連接邊數 Ei 與可能存在的最大邊數 ki(ki - 1)的比值,該系數描述了網絡節點的聚集程度,計算方法如式(8)所示,而腦網絡的聚類系數是通過計算網絡中所有節點的聚類系數再取平均后得到的。
![]() |
3.3.3 全局效率
全局效率 Eglob 的定義為腦網絡中所有節點間距離的調和平均數的倒數,它能夠反映信息在網絡中傳遞速度的快慢,衡量腦網絡的信息傳輸能力。較高的全局效率意味著信息在腦網絡中傳遞或者交換時需要的代價消耗較低,數學表達式如式(9)所示,其中變量的含義與上述公式相同。
![]() |
3.3.4 局部效率
腦網絡子圖 Ai 代表的是由與節點 i 直接相連(節點 i 除外)的所有節點構成的子圖,其局部效率反映的是腦網絡系統的容錯性和腦網絡防御隨機攻擊的能力,腦網絡子圖 Ai 的局部效率 Ei-local 數學表達式如式(10)所示,其中 aij 表示 i 與 j 兩個節點間是否有邊相連,若有則為 1,反之為 0。
![]() |
3.3.5 度
度是與該節點有邊相連的節點個數,描述了節點間的連接統計特性,能夠反映節點 i 在腦網絡中的重要程度,度越大代表這個節點在腦網絡中越重要。節點度 ki 的計算公式如式(11)所示。
![]() |
4 分類模型的構建
4.1 分類算法的選擇
機器學習研究的主要內容是一種在計算機上從數據中產生“模型”的算法,即“學習算法”。在這個學習算法基礎上,本文將經驗數據輸入系統,系統基于這些數據構建對應的模型,從而在面對新情況時,系統基于這個模型可以返回一個相應的判斷。機器學習中的學習算法主要分為三類,分別是監督學習、非監督學習和強化學習,而主流的分類器有人工神經網絡、SVM、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函數分類等[12]。
SVM 是主要用于數據的分類和回歸的監督學習方法,相對于其他分類方法可以更充分地反映出結構風險最小化原則,對于樣本集外的數據也表現出良好的適應性,還可利用核函數有效解決非線性問題,并且在解決高維空間中的多維問題表現出獨特優勢,再結合多種算法可以建立模式類似的模型,從而簡化復雜問題[13]。基于以上優點并考慮腦電信號的非線性和特征選取的多元化,最終選擇 SVM 分類算法。
4.2 分類模型的構建
由于精神分裂癥患者病程存在很大的不穩定性,因此在符合入組標準基礎上,愿意配合且有能力完成本研究中認知負載試驗的患者數量相對較少,故而無法獲取大量的患者及年齡、性別匹配的健康對照志愿者腦電信號作為本研究中數據。而 SVM 為確保分類識別的準確性,對訓練集有一定的要求,同時需明確測試集和預測集應存在差異。為了解決數據集的有限性和需要 SVM 分類結果具有較高準確性這二者之間的矛盾,本研究中引入交叉驗證方法。交叉驗證核心思想是將測試數據集作為預測數據集的一部分,將剩余數據作為訓練集以完成學習分類,并不斷重復上述過程,直到所有的數據集均被預測完為止。引入交叉驗證后,其準確率則為全部測試數據集的預測準確率均值[13]。
在本研究中,選用“留一驗證法”,即每次只選用原樣本中的一項數據作為預測數據,剩余數據均作為訓練集,并不斷重復這個過程,直到所有的數據集均被預測一次后結束這個過程。理論上,在“留一驗證法”過程中每一次得到的 SVM 是不同的,但考慮到在這個訓練過程中,每一次使用的數據集大體相同,差異微小可以忽略不計,因此 SVM 對數據預測的效果近似相同,即將基于“留一驗證法”所得 SVM 的預測準確率當作其對整體數據預測的準確率[14]。上述 SVM 算法是在 Chang 等[15]開發的 Libsvm 平臺上實現的。
5 結果與分析
5.1 非線性動力學分析結果
本文將經過預處理后的腦電信號,經過計算得到相應關聯維數和樣本熵,并運用多元回歸方法,減少變量對結果的影響,將結果進行雙樣本 t 檢驗時,依據偽發現率(false discovery rate,FDR)方法實現多重比較校正[16],得到患者組和健康組在相關指標上的組間差異,并以直方圖的形式表現出來,如圖 2 所示。

*
*
由圖可看出,認知負載狀態下,兩組人群的關聯維數和樣本熵特征差異均存在統計學意義(P < 0.01),具體表現相似,均為除 δ 頻帶外其余頻帶下的 Fp1、Fp2 導聯,θ 頻帶下的 O1 和 O2 導聯以及 γ 頻帶下的 P3 和 P4 導聯。Fp 導聯代表的是大腦的前額皮質區域,這表明患者組在前額皮質激活中可能出現明顯的功能紊亂并影響其認知功能。
此外還注意到,患者組在 α、β、θ、γ 這 4 個頻帶下的關聯維數和樣本熵在 Fp1 和 Fp2 導聯數值極為相近,而健康組在各個頻帶內的相關指標均有 Fp1 顯著高于 Fp2,表明大腦前額皮質左側區域本應表現出更復雜的信號狀態,但由于患者認知功能受損,無法完成這一任務。因此,患者組的異常表現可能的作用機制為認知過程中大腦左半側參與度受到抑制,相應右半側受抑制不足。
5.2 腦功能網絡特征分析結果
在構建好的腦功能網絡中分析計算兩組受試者全局屬性特征值的組間差異,結果表明在認知負載狀態下,兩組受試者在聚類系數、最短路徑長度、全局效率以及局部效率這 4 個腦網絡測度中差異均具有統計學意義。為了尋找可以量化評估精神分裂癥患者認知功能的客觀指標,將上述組間差異具有統計學意義的全局屬性與節點屬性特征指標與患者的 MATRICS 共識認知成套測驗(MATRICS consensus cognitive battery,MCCB)評分做皮爾森相關分析。結果表明,在上述組間差異具有統計學意義的所有網絡屬性特征指標中,只有全局效率結果與患者的臨床 MCCB 評分相關,具體結果如圖 3 所示。

5.3 分類結果與分析
根據上述方法構建分類模型,使用的數據集為計算得到的腦電信號非線性動力學特征值和腦網絡屬性特征值。并采用敏感度、特異性和準確率這三個指標評價自動分類結果。依據自動分類結果,繪制了受試者工作特征(receiver operating characteristic,ROC)曲線,用以綜合反映敏感度和特異性連續變量。通過使用不同的數據集進行分類得到不同的結果,其 ROC 曲線如圖 4 所示。通過將兩種類型的指標納入數據集進行分類得到的結果為最優解,結果為準確率 76.77%、敏感度 72.09% 和特異性 80.36%,總體看來可以取得較好的分類效果。

在用 SVM 兩組人群進行分類時,分類權重最大的 10 個特征值依次為:γ 頻帶 Fp2 導聯樣本熵、γ 頻帶 Fp1 導聯樣本熵、F4 導聯節點度值、T3 導聯節點度值、全局效率、γ 頻帶 Fp2 導聯關聯維數、γ 頻帶 Fp1 導聯關聯維數、θ 頻帶 Fp2 導聯樣本熵、α 頻帶 Fp1 導聯樣本熵和聚類系數。這一結果也驗證了前額皮質區域和 γ 頻帶在認知功能上的重要作用。
6 結論
本文通過采集認知負載狀態下的精神分裂癥患者和正常人的腦電信號,計算了兩組受試者的非線性動力學特征并構建了腦功能網絡計算特征參數,最后利用機器學習方法對認知負載狀態下精神分裂癥患者腦電信號特異性進行研究。結果表明,基于本研究中所得腦網絡屬性特征和非線性動力學特征作為數據集實現的自動分類,總體上可以得到較好的分類效果,這不僅證明了本研究的可行性與實用性,同時為后續臨床客觀評估精神分裂癥患者認知功能提供了參考,也為精神分裂癥的早期篩查和輔助診斷提供了新方向。
受限于本研究的實驗條件、參與對象,另外對精神分裂癥病理生理學知識的了解還不夠,本研究也存在一些值得改進的地方。在實驗設計方面,可以增加后續研究入組人數,并對入組人群進行細化分類,如按照病程的長短、藥物的使用情況不同等;在信號處理方面,可以對腦電信號進行更深入的處理分析,在增加導聯數量的同時跟進最新的分析方法,如進行源定位等處理,以便更好地理解疾病的發生機制;在應用方面,努力將本研究中的采集及處理分析方法模塊化,不斷優化改進成一個能夠方便臨床使用的早期篩查和輔助診斷的系統,造福廣大民眾。最后從長遠來看,還應考慮將腦電信號與其他技術聯合,進行多模態的大腦量化研究分析,為探尋精神分裂癥生理病理演變情況和可能機制上做出一定貢獻。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
精神分裂癥是一種常見于臨床且病因復雜的重癥精神疾病,具有發病早、病程長的特點。臨床癥狀主要分為陰性癥狀、陽性癥狀和認知功能損害癥狀。其中陰性癥狀(功能減少和缺失)和認知功能損害癥狀(注意力障礙、工作記憶受損)極易使患者致殘[1],陽性癥狀(猜疑、妄想、幻覺等)則增加了疾病復發的可能性。至今,關于精神分裂癥疾病的診斷標準、病因和病理生理機制尚未達成一致結論,精神分裂癥仍具有很強的疾病異質性,而精神分裂癥患者的認知功能損害癥狀是精神失調的顯著表征之一,這種缺陷在疾病的早期進程中便已顯現[2-4]。現已有研究表明,認知功能損害的嚴重程度可以預測患者社會能力強弱[5],也可作為判斷精神分裂癥治療效果的指標[6],因此對精神分裂癥的認知功能損害進行研究具有現實意義。
腦電圖(electroencephalogram,EEG)監測具有非損傷性、時間分辨率高、操作簡便以及價格便宜等優勢,現已廣泛應用于精神分裂癥認知功能的研究中。隨著近年相關信號處理理論的發展以及復雜網絡分析技術的興起,基于自發腦電信號的分析研究逐漸增加,目前已經得出一些結論,如:精神分裂癥患者在執行認知任務中,其腦電信號波形中慢波減弱、快波增強[7];Leicht 等[8]的研究表明,認知負載過程會在正常人中誘發高能量 γ 波,但精神分裂癥患者的腦電信號中則難以觀察到同類信號等。盡管前人研究說明了腦電信號分析在認知功能評估的可行性,但整體研究數量較少,針對目前類似研究尚不全面、結論并未統一的情況,本文將用關聯維數、樣本熵(sample entropy,SampEn)及腦網絡屬性特征指標對精神分裂癥患者的腦電信號進行分析,前二者分析的是單個獨立導聯的局部腦電信號,后者分析的是全腦的功能連接情況,故而能獲得盡可能多的可量化的腦電信號特征值,既給腦電信號特異性多角度分析提供了條件,又利于后續的自動分類研究。
本文旨在通過計算腦電信號的特征指標,結合機器學習的支持向量機(support vector machine,SVM)分類理論,完成認知負載狀態下精神分裂癥患者的自動分類研究,從而尋找認知負載狀態下精神分裂癥患者腦電信號的特異性指標,探索用于臨床評估精神分裂癥患者認知功能的量化指標,同時也為精神分裂癥疾病的早期篩查和輔助診斷提供新的方向。
1 腦電數據采集與預處理
1.1 數據入組
本文患者數據來自 2016 年 12 月—2017 年 7 月于廣州醫科大學附屬腦科醫院住院的精神分裂癥患者。
入組標準:① 符合美國《精神疾病診斷與統計手冊》(diagnostic and statistical manual of mental disorders,DSM-IV-TR)中精神分裂癥的診斷標準,且病程 ≥ 2 年;② 陽性與陰性癥狀量表(positive and negative syndrome scale,PANSS)評分近 4 周波動在 20% 以內,臨床療效總評量表(clinical global impression,CGI)評分 ≤ 4 分;③ 患者最多接受兩種抗精神病藥治療,且所有精神科類藥物種類穩定達 4 周,近 4 周沒有增加藥物劑量;④ 同意參與本研究且簽署書面知情同意書。
排除標準:① 肝、腎、心、腦等器質性病變;② 聽力障礙;③ 視力障礙;④ 符合除精神分裂癥外其它 DSM-IV-TR 軸 I 診斷,如重度抑郁、雙向情感障礙等。
同時期,通過網絡招募健康志愿者人群,需滿足無精神疾病史,且不符合 DSM-IV-TR 任何精神疾病的診斷,此外還需滿足無精神疾病家族史的要求,所有受試者均同意參與本研究并簽署書面知情同意書。
最終,精神分裂癥患者組納入 17 人,其中男性 10 人,女性 7 人,年齡平均(34.53 ± 7.52)歲,受教育程度(11.00 ± 2.46)年,均為右利手;作為對照的健康組納入 19 人,其中男性 5 人,女性 14 人,年齡平均(27.95 ± 7.13)歲,受教育程度(12.58 ± 2.32)年,均為右利手。兩組在性別、教育年限方面的差異不具有統計學意義(P > 0.05),但患者組的年齡明顯高于健康組(P < 0.001)。
1.2 認知負載試驗設計
傳統基于怪球(Oddball)范式的認知負載試驗中,通常是將不同頻率的純音作為偏差刺激和標準刺激,但精神分裂癥患者對純音頻率的敏感度較低,且這一類音頻很難持續地吸引受試者的注意力,一定程度上降低了試驗結果的信效度和準確性。
為了確保能夠采集到配合度最高的數據,在認知負載試驗中,采用錄音播報數字的方式代替傳統的純音,偶數為標準刺激,奇數為偏差刺激(即靶刺激)。試驗開始前向受試者詳細介紹本試驗全部流程,讓受試者于坐位姿勢保持放松狀態,并調整電極位置使噪聲和偽跡最小。認知試驗中,播放錄音,共將播報 40 個 0~99 中的數字,其中奇偶數比例為 1:4,每 3 s 播報一個數字,要求受試者在聽到數字后首先判斷這個數字是否為奇數,并記住全部奇數的個數,在全部 40 個數字播報完畢后,測試人員向受試者詢問記住的全部奇數個數并完成記錄。
1.3 數據采集和預處理
本研究利用數字腦電圖機(UEA-B,中科新拓,中國)采集了受試者認知狀態下的 16 導腦電信號,采樣率為 1 000 次/s,以耳極為參考電極,采用 10/20 國際電極放置標準安放電極,利用腦電圖機內置的 50 Hz 陷波器去除工頻干擾。整個試驗流程分為 3 個部分:第一部分是受試者在安靜閉眼狀態下采集 2 min 的腦電信號;第二部分是受試者按照 1.2 小節所述認知負載流程,采集 3 min 的腦電信號;第三部分是受試者繼續在安靜閉眼狀態下采集 3 min 的腦電信號。采集完成后,專業人員將采集到的數據中含有偽跡的信號剔除,并通過獨立成分分析(independent component analysis,ICA)算法去除肌電信號和眨眼信號,使用小波閾值去噪法去除其他噪聲,最后利用小波包分解的方式提取腦電信號中 α、β、θ、δ 和 γ 頻帶并進行后續分析。
1.4 統計學方法
數據分析采用統計產品與服務解決方案軟件 SPSS 22.0(IBM Inc.,美國)統計軟件,計量資料以均數 ± 標準差表示,使用雙樣本 t 檢驗分析,不存在對照時使用 χ2 檢驗分析,P < 0.05 視為差異具有統計學意義。
2 非線性動力學分析
2.1 特征選擇
本研究選取關聯維數和樣本熵作為非線性動力學特征指標,計算選定合適的時間延遲 τ 和嵌入維數 m,構建充分反映系統特性的相空間。其中,時間延遲 τ 利用自相關系數法求得,嵌入維數 m 利用幾何不變量法求得。
時間序列的自相關函數表示的是在距離 τ 的 2 個向量間的互相關聯程度,不同的 τ 值則對應不同的函數曲線,當自相關函數值不斷下降時則對應得到不同的時間延遲 τ,而當自相關函數值下降為初始值的()時所對應的時間延遲 τ 為相空間重構的最佳時間延遲,依據上述方法在本研究中最終選定時間延遲 τ = 5。依據此時間延遲 τ 進而確定最佳的嵌入維數 m,最佳嵌入維數 m 的選擇過程實際上為觀察關聯維數飽和程度變化的過程,隨著嵌入維數 m 的不斷增大,當關聯維數數值隨嵌入維數 m 的增大不再增大或這種增加程度不明顯時,為最佳嵌入維數 m,由此確定嵌入維數 m = 16。
2.2 特征分析
2.2.1 關聯維數
關聯維數描述了混沌運動中自由度信息,在本研究中反映的是腦電信號自身的關聯程度,即更復雜的信號具有更高的關聯維數,也更接近混沌狀態,關聯維數 D2 的計算公式如式(1)所示,其中相關積分 的計算公式如式(2)所示。
![]() |
![]() |
其中,N 表示腦電信號數據長度,θ 表示單位階躍函數,rij 表示重構相空間中 ij 兩點間距離。
2.2.2 樣本熵
樣本熵(以符號 SampEn 表示)同樣也是一種反應腦電信號復雜度變化的指標,它是基于近似熵理論提出的一種不計數自身匹配的非線性特征,更復雜的信號對應更高的樣本熵,也更接近混沌狀態。樣本熵的計算公式如式(3)所示,其中 的計算公式如式(4)所示。
![]() |
![]() |
基于維度為 m 的矢量進行計算可得 ,同理,對于維度為 m + 1 的矢量計算,可求出
。其中,
表示第 i 個矢量與第 j 個矢量間的距離,N 表示腦電信號長度,r 表示相似容限,取值一般為 0.1~0.25,本研究中取 0.2,m 表示矢量維度,一般取值為 2。
3 腦功能網絡的構建
3.1 腦功能網絡的構建及閾值的選取
依據腦功能網絡構建的一般方法,如圖 1 所示,選取 16 導聯作為網絡的節點,其中每個節點分別表示不同的腦區,并在導聯名稱上加以區分,如 Fp 表示前額葉,P 表示頂葉,O 表示枕葉等;選取相位滯后指數(phase-lag index,PLI)分別量化腦電信號各通道兩兩之間的相互作用關系,得到 16 × 16 的關系矩陣,并根據其數值衡量對應腦區之間功能連接強弱;選擇合適的閾值并進行閾值化得到該閾值下的連接矩陣,最后根據該連接矩陣構建腦功能網絡。

利用腦網絡稀疏度選擇最合適的閾值,稀疏度即腦網絡中真實存在的連接數量和可能存在的連接數量的比值,它可以使得腦網絡不同連接定義的差別最小化,稀疏度和閾值一一對應,故而確定稀疏度即可確定閾值。在較大閾值范圍內研究腦網絡拓撲屬性能夠在一定程度上解決單一閾值的局限性。根據厄多斯-瑞利(Erdos-Renyi)隨機圖模型[9],若要保證具有 N 個節點的網絡是全連接,其連接稀疏度應該大于 ,在本研究中 N = 16,則連接稀疏度最小為
= 34%。同時結合小世界屬性確定稀疏度上限,隨著連接稀疏度的連續增加,對應的小世界屬性值持續減小,典型小世界網絡中,其小世界屬性值 σ 遠大于 1,而 σ = 1 時,對應的連接稀疏度為 73%。綜上,本研究在 34%~73% 的取值區間以及步長為 1% 的腦網絡稀疏度范圍內構建不同的腦功能網絡。強度通過閾值的連接被保留下來,超過閾值的連接被略去,最后得到的連接邊在圖 1 中用紅線表示出來,至此腦網絡便構建完成。
3.2 各導聯間相互作用關系分析
兩個系統之間的嚴格鎖相要求它們的相位差保持恒定,但有時僅要求相位差有界即可(界限小于 2π)。PLI 能夠反映相位同步性,若 ?1 和 ?2 分別是兩個時間序列的相位,?? 是相位差或者相對相位,則 n 相對 m 的相位同步表達如式(5)所示,且小于某個常量,其中 n 和 m 均為整數,表示序列中某一時刻。
![]() |
依據上述表達方式,相位同步可以被用于嘈雜、非穩定和混沌的信號中。在本研究中,限定 m = 1,n = 1。通過基于希爾伯特變換的解析信號得到 2 個信號的瞬時相位。解析信號 由真實的時間序列
計算得到,如式(6)所示,其中 PV 代表柯西主值,
代表瞬時振幅,?(t)代表瞬時相位。
![]() |
已有研究表明,PLI 在檢測同步性相關的真實變化時,可以得到與同步似然性一致的良好檢測性能,但相較于同步似然性,PLI 僅關注信號間耦合關系,受到來自同一來源信號的影響更小[10],即不受容積傳導效應影響。在計算全局 PLI 基礎上,也可以進一步計算平均 PLI 以獲得較佳的局部屬性。Stam[11]在研究中,將每個腦半球腦磁圖信號分為額葉、顳葉、中央、頂葉和枕葉 5 個區域,隨后計算各個區域內部或者任兩個區域之間所有信號的平均,并將這種平均后的 PLI 作為一種新方法得到了良好的特異性結果。
3.3 腦網絡特征指標
3.3.1 最短路徑長度
最短路徑即節點 i 與節點 j 之間邊數最少的一條路徑,這條最短路徑上所經過邊的數量為最短路徑長度 lij。腦網絡的最短路徑長度 L 體現的是整體統計特性,以實現信息傳遞的快捷和系統資源的節省,計算方法如式(7)所示,其中 n 表示所有節點數量。
![]() |
3.3.2 聚類系數
節點 i 的聚類系數 Ci 定義為與節點 i 有 k 條邊相連的節點之間實際存在的連接邊數 Ei 與可能存在的最大邊數 ki(ki - 1)的比值,該系數描述了網絡節點的聚集程度,計算方法如式(8)所示,而腦網絡的聚類系數是通過計算網絡中所有節點的聚類系數再取平均后得到的。
![]() |
3.3.3 全局效率
全局效率 Eglob 的定義為腦網絡中所有節點間距離的調和平均數的倒數,它能夠反映信息在網絡中傳遞速度的快慢,衡量腦網絡的信息傳輸能力。較高的全局效率意味著信息在腦網絡中傳遞或者交換時需要的代價消耗較低,數學表達式如式(9)所示,其中變量的含義與上述公式相同。
![]() |
3.3.4 局部效率
腦網絡子圖 Ai 代表的是由與節點 i 直接相連(節點 i 除外)的所有節點構成的子圖,其局部效率反映的是腦網絡系統的容錯性和腦網絡防御隨機攻擊的能力,腦網絡子圖 Ai 的局部效率 Ei-local 數學表達式如式(10)所示,其中 aij 表示 i 與 j 兩個節點間是否有邊相連,若有則為 1,反之為 0。
![]() |
3.3.5 度
度是與該節點有邊相連的節點個數,描述了節點間的連接統計特性,能夠反映節點 i 在腦網絡中的重要程度,度越大代表這個節點在腦網絡中越重要。節點度 ki 的計算公式如式(11)所示。
![]() |
4 分類模型的構建
4.1 分類算法的選擇
機器學習研究的主要內容是一種在計算機上從數據中產生“模型”的算法,即“學習算法”。在這個學習算法基礎上,本文將經驗數據輸入系統,系統基于這些數據構建對應的模型,從而在面對新情況時,系統基于這個模型可以返回一個相應的判斷。機器學習中的學習算法主要分為三類,分別是監督學習、非監督學習和強化學習,而主流的分類器有人工神經網絡、SVM、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函數分類等[12]。
SVM 是主要用于數據的分類和回歸的監督學習方法,相對于其他分類方法可以更充分地反映出結構風險最小化原則,對于樣本集外的數據也表現出良好的適應性,還可利用核函數有效解決非線性問題,并且在解決高維空間中的多維問題表現出獨特優勢,再結合多種算法可以建立模式類似的模型,從而簡化復雜問題[13]。基于以上優點并考慮腦電信號的非線性和特征選取的多元化,最終選擇 SVM 分類算法。
4.2 分類模型的構建
由于精神分裂癥患者病程存在很大的不穩定性,因此在符合入組標準基礎上,愿意配合且有能力完成本研究中認知負載試驗的患者數量相對較少,故而無法獲取大量的患者及年齡、性別匹配的健康對照志愿者腦電信號作為本研究中數據。而 SVM 為確保分類識別的準確性,對訓練集有一定的要求,同時需明確測試集和預測集應存在差異。為了解決數據集的有限性和需要 SVM 分類結果具有較高準確性這二者之間的矛盾,本研究中引入交叉驗證方法。交叉驗證核心思想是將測試數據集作為預測數據集的一部分,將剩余數據作為訓練集以完成學習分類,并不斷重復上述過程,直到所有的數據集均被預測完為止。引入交叉驗證后,其準確率則為全部測試數據集的預測準確率均值[13]。
在本研究中,選用“留一驗證法”,即每次只選用原樣本中的一項數據作為預測數據,剩余數據均作為訓練集,并不斷重復這個過程,直到所有的數據集均被預測一次后結束這個過程。理論上,在“留一驗證法”過程中每一次得到的 SVM 是不同的,但考慮到在這個訓練過程中,每一次使用的數據集大體相同,差異微小可以忽略不計,因此 SVM 對數據預測的效果近似相同,即將基于“留一驗證法”所得 SVM 的預測準確率當作其對整體數據預測的準確率[14]。上述 SVM 算法是在 Chang 等[15]開發的 Libsvm 平臺上實現的。
5 結果與分析
5.1 非線性動力學分析結果
本文將經過預處理后的腦電信號,經過計算得到相應關聯維數和樣本熵,并運用多元回歸方法,減少變量對結果的影響,將結果進行雙樣本 t 檢驗時,依據偽發現率(false discovery rate,FDR)方法實現多重比較校正[16],得到患者組和健康組在相關指標上的組間差異,并以直方圖的形式表現出來,如圖 2 所示。

*
*
由圖可看出,認知負載狀態下,兩組人群的關聯維數和樣本熵特征差異均存在統計學意義(P < 0.01),具體表現相似,均為除 δ 頻帶外其余頻帶下的 Fp1、Fp2 導聯,θ 頻帶下的 O1 和 O2 導聯以及 γ 頻帶下的 P3 和 P4 導聯。Fp 導聯代表的是大腦的前額皮質區域,這表明患者組在前額皮質激活中可能出現明顯的功能紊亂并影響其認知功能。
此外還注意到,患者組在 α、β、θ、γ 這 4 個頻帶下的關聯維數和樣本熵在 Fp1 和 Fp2 導聯數值極為相近,而健康組在各個頻帶內的相關指標均有 Fp1 顯著高于 Fp2,表明大腦前額皮質左側區域本應表現出更復雜的信號狀態,但由于患者認知功能受損,無法完成這一任務。因此,患者組的異常表現可能的作用機制為認知過程中大腦左半側參與度受到抑制,相應右半側受抑制不足。
5.2 腦功能網絡特征分析結果
在構建好的腦功能網絡中分析計算兩組受試者全局屬性特征值的組間差異,結果表明在認知負載狀態下,兩組受試者在聚類系數、最短路徑長度、全局效率以及局部效率這 4 個腦網絡測度中差異均具有統計學意義。為了尋找可以量化評估精神分裂癥患者認知功能的客觀指標,將上述組間差異具有統計學意義的全局屬性與節點屬性特征指標與患者的 MATRICS 共識認知成套測驗(MATRICS consensus cognitive battery,MCCB)評分做皮爾森相關分析。結果表明,在上述組間差異具有統計學意義的所有網絡屬性特征指標中,只有全局效率結果與患者的臨床 MCCB 評分相關,具體結果如圖 3 所示。

5.3 分類結果與分析
根據上述方法構建分類模型,使用的數據集為計算得到的腦電信號非線性動力學特征值和腦網絡屬性特征值。并采用敏感度、特異性和準確率這三個指標評價自動分類結果。依據自動分類結果,繪制了受試者工作特征(receiver operating characteristic,ROC)曲線,用以綜合反映敏感度和特異性連續變量。通過使用不同的數據集進行分類得到不同的結果,其 ROC 曲線如圖 4 所示。通過將兩種類型的指標納入數據集進行分類得到的結果為最優解,結果為準確率 76.77%、敏感度 72.09% 和特異性 80.36%,總體看來可以取得較好的分類效果。

在用 SVM 兩組人群進行分類時,分類權重最大的 10 個特征值依次為:γ 頻帶 Fp2 導聯樣本熵、γ 頻帶 Fp1 導聯樣本熵、F4 導聯節點度值、T3 導聯節點度值、全局效率、γ 頻帶 Fp2 導聯關聯維數、γ 頻帶 Fp1 導聯關聯維數、θ 頻帶 Fp2 導聯樣本熵、α 頻帶 Fp1 導聯樣本熵和聚類系數。這一結果也驗證了前額皮質區域和 γ 頻帶在認知功能上的重要作用。
6 結論
本文通過采集認知負載狀態下的精神分裂癥患者和正常人的腦電信號,計算了兩組受試者的非線性動力學特征并構建了腦功能網絡計算特征參數,最后利用機器學習方法對認知負載狀態下精神分裂癥患者腦電信號特異性進行研究。結果表明,基于本研究中所得腦網絡屬性特征和非線性動力學特征作為數據集實現的自動分類,總體上可以得到較好的分類效果,這不僅證明了本研究的可行性與實用性,同時為后續臨床客觀評估精神分裂癥患者認知功能提供了參考,也為精神分裂癥的早期篩查和輔助診斷提供了新方向。
受限于本研究的實驗條件、參與對象,另外對精神分裂癥病理生理學知識的了解還不夠,本研究也存在一些值得改進的地方。在實驗設計方面,可以增加后續研究入組人數,并對入組人群進行細化分類,如按照病程的長短、藥物的使用情況不同等;在信號處理方面,可以對腦電信號進行更深入的處理分析,在增加導聯數量的同時跟進最新的分析方法,如進行源定位等處理,以便更好地理解疾病的發生機制;在應用方面,努力將本研究中的采集及處理分析方法模塊化,不斷優化改進成一個能夠方便臨床使用的早期篩查和輔助診斷的系統,造福廣大民眾。最后從長遠來看,還應考慮將腦電信號與其他技術聯合,進行多模態的大腦量化研究分析,為探尋精神分裂癥生理病理演變情況和可能機制上做出一定貢獻。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。