孤獨癥譜系障礙(ASD)兒童的早期診斷至關重要。腦電圖(EEG)是最常用于神經成像的技術之一,其使用方便并且包含信息豐富。本文從 ASD 兒童和正常兒童的 EEG 信號中提取近似熵(ApEn)、樣本熵(SaEn)、排序熵(PeEn)和小波熵(WaEn)四種熵特征,應用獨立樣本 t 檢驗分析組間差異,利用支持向量機(SVM)學習算法為不同腦區的每種熵測量建立分類模型,最后通過置換檢驗搜索優化子集,使 SVM 模型實現最佳性能。結果表明,與正常對照組相比,ASD 兒童腦電復雜度較低;在所有四種熵中,WaEn 的分類性能優于其他熵;分類效果在不同腦區表現出差異性,其中額葉區域表現最佳;最后經過特征選擇,篩選出六個特征,建立分類模型,分類準確率最高提高到 84.55%。本研究結果可為孤獨癥的早期發現提供幫助。
引用本文: 趙杰, 丁萌, 佟禎, 韓俊霞, 李小俚, 康健楠. 基于熵算法的孤獨癥譜系障礙兒童腦電特征提取與分類. 生物醫學工程學雜志, 2019, 36(2): 183-188, 198. doi: 10.7507/1001-5515.201709047 復制
引言
孤獨癥譜系障礙(autism spectrum disorder,ASD)是一種以社會交往能力缺陷、語言交流功能障礙、興趣狹窄和行為舉止刻板為核心特征的兒童廣泛性神經發育障礙[1]。當前 ASD 發病率在全球呈現急劇上升趨勢。據 Blaxill(2004)的數據顯示,20 世紀 70 年代,ASD 發病率低于 3/1 000,在 90 年代,該比例上升至 30/1 000。在美國,ASD 發病率的上升速度在 20 年時間里增長了近 10 倍[2]。隨著 ASD 患病數量逐年遞增,到目前為止,其核心病因與發病機制仍不明確,對 ASD 的評估與診斷高度依賴于行為觀察以及診斷量表,具有一定主觀性,因此尋找客觀評估指標具有重要意義。
腦電圖(eletroencephalography,EEG)主要測量與大腦皮層突觸活動相關的神經生理變化,作為一種非侵入式的采集方法,具有較高的時間分辨率,已被證明是研究復雜神經精神障礙的有力工具[3]。EEG 分析研究表明 ASD 在快波頻段(即 γ 和 β)同步性增加[4]。對于慢波頻段,大多數報道表明 α 頻段同步性降低[5-6]。一些報告描述了即使在相同頻段,所選電極位點同步增加和減少[7]。綜合來看,EEG 同步結果在某種程度上已經證明 ASD 的“異常神經連接”。腦電分析方法包括線性分析方法,例如功率譜和連接性分析,以及非線性分析方法,例如復雜度、預報誤差、協方差復雜性。由于 EEG 信號是一種微弱的非平穩性、非線性的信號,因此線性分析方法可能不包含 EEG 信號的完整信息,而非線性特征能夠發現 EEG 時間序列中存在的隱藏復雜性,EEG 信號的非線性復雜性被認為包含了有關大腦神經網絡的結構信息[8]。先前研究顯示,復雜性改變與異常神經連接有一定聯系,并且異常模式與孤獨癥相關。腦電復雜度可作為神經信息處理和神經連通性的指標評估孤獨癥早期癥狀[8]。而信息熵作為一種衡量系統復雜度的物理量,由于基于非線性理論,適用于腦電這類高維混沌信號系統的研究,因此已經成為衡量生物信號復雜度的有力工具。此外,規則系統具有較低的熵值,而完全不規則系統具有較高熵值。過去近幾十年來,基于熵的新穎的非線性方法已經廣泛用于 ASD 復雜度的研究。第一次是在 2008 年由 Kulisek 等[9]提出。他們在研究非快速眼球運動(rapid eyes movement,REM)睡眠腦電中發現,應用一種非線性方法,即粗粒熵信息,在非 REM 3 期發現 ASD 兒童同步性顯著低于正常兒童。另一組研究者還將 EEG 復雜性理論用于 ASD 頻域評估。他們研究了 ASD 兒童(6~13 歲)和正常兒童(7~13 歲)的 Higuchi 分形維數和 Katz 分數維度的靜息態 EEG,發現兩組被試腦電信號存在差異性,并且在 Katz 分形維數(電極 Fp2 和 C3)和 γ(電極 T6)特征上差異具有統計學意義(P < 0.001),他們認為這可能是 ASD 大腦功能連通性不足導致大腦動力學變化引起的[10]。最近,兩項研究評估了多尺度熵分析方法的有效性,以幫助闡明病理生理機制,并作為 ASD 風險干擾和早期檢測的有用生物標志物。Bosl 等[8]調查了 33 位正常發育兒童和 46 位具有 ASD 病史(ASD 組高風險)家族兒童的靜息態 EEG 復雜性。他們使用多類支持向量機(support vector machine,SVM)算法,將改進 MSE 作為特征向量來區分正常發育群體和高風險群體。結果表明,高風險 ASD 組在所有電極上、所有時間尺度及所有年齡段(特別是 9~12 個月時),其 EEG 復雜性始終較低。另一項研究由 Catarino 等[11]提出,提取 15 位 ASD 被試(平均年齡 29.38 歲)和 15 位正常被試(平均年齡 31.44 歲)的腦電特征,報告稱隨著時間尺度的增加,在顳葉和枕葉區域,ASD 被試的 EEG 復雜性顯著降低。
一般來說,嬰兒大腦信號復雜性在突觸繁殖和修剪背景下增加,而在正常發育過程中,大腦發育缺損可能是 ASD 發病機制的基礎[12-13]。本文通過采集 ASD 以及正常兒童 EEG 信號,檢驗復雜性在 ASD 兒童分類中的效用。從靜息態腦電中提取四種熵特征,即近似熵(approximate entropy,ApEn)、樣本熵(sample entropy,SaEn)、排序熵(permutation entropy,PeEn)和小波熵(wavelet entropy,WaEn),將這些特征通過 SVM 進行分類,經過特征選擇篩選得到特征子集,構造有效分類模型,檢驗是否可以為今后 ASD 評估提供輔助診斷方法。
1 資料與方法
1.1 被試信息
本研究共招收了 75 名被試。其中 ASD 組為 37 名 ASD 兒童,8 名女孩,29 名男孩,年齡 3~7(4.7 ± 1.2)歲,從深圳愛佑慈善基金會招募。對照組為 38 名正常兒童,10 名女孩,28 名男孩,年齡 3~7(4.8 ± 0.9)歲,從燕郊當地幼兒園招募。入組 ASD 患者均由兒童精神科醫生根據《精神病診斷與統計手冊(第五版)》和《孤獨癥診斷訪談量表修訂版》進行診斷確定。兩組被試之間,年齡與性別均無顯著差異(年齡:t(1,73)= –0.351,P = 0.727;性別:χ2 = 0.226,P = 0.634)。
本研究經過北京師范大學倫理委員會批準,在完整描述實驗步驟之后,家長或者被試監護人簽署書面知情同意書,所有兒童均自愿參加本次實驗。
1.2 EEG 采集
本研究采用八通道采集系統來獲取 EEG 信號,采集電極分別為 F3、F4、T3、C3、C4、T4、O1、O2,Cz 為參考電極,采樣頻率為 1 000 Hz,電極阻抗要求均控制在 50 kΩ 以下。實驗在安靜環境內進行,實驗室的溫度控制在(23 ± 2)℃,采集時要求受試者睜眼,坐在一把舒適的扶手椅上,保持放松狀態 5 min 左右。
1.3 數據預處理
將所采集數據利用 Matlab 中的 EEGLAB 工具箱進行預處理。首先將 EEG 信號通過 0.5~40 Hz 的帶通濾波器;其次,去除偽跡;然后將 EEG 信號截取成非重疊的 4 秒時間序列,每個數據截取 30 段;最后將數據降采樣至 256 Hz。自適應偽跡檢測方法被用于去除偽跡,包括工頻、眼電、眨眼、心電、肌電、呼吸等,如果某段序列中含有超過閾值的部分,則將該段序列去除。
1.4 特征提取
1.4.1 ApEn
ApEn 是在 20 世紀 90 年代初由 Pincus[14-15]提出,用于分析動態系統中有限長度信號如 EEG 信號并描述其復雜性或不規則程度。它主要是基于相空間重構,將信號嵌入到相空間中,當相空間的嵌入維度從 m 維增加到 m + 1 維時,預測產生新模式的概率大小。產生新模式概率越大,序列復雜性越大,相應 ApEn 也就越大,在腦電方面也反映具有較高程度的腦活躍性[16]。對于時間序列 ,有限長度
,按照以下步驟得到 ApEn:
① 將序列 按順序組成 m 維向量,即:
![]() |
② 定義 為任意向量
與
之間距離小于 r 的概率:
![]() |
其中 是 Heaviside 函數,
是向量
與
之間的距離,定義為:
![]() |
③ 先對 取對數,再求其所有 i 的平均值,記為
,即:
![]() |
④ 當維數增加到 m + 1 維時,重復上述處理,得到 ,即:
![]() |
⑤ 此序列的 ApEn 為:
![]() |
ApEn 數值受數據長度(N)、容限(r)和嵌入維數(m)的影響。根據 Pincus 和 Bruhn 等的實踐,N 建議為 1 000,r 取值范圍從 0.1SD 到 0.2SD,SD 是標準差。在本研究中,我們選取 m = 3,r = 0.20*SD。
1.4.2 SaEn
SaEn 是 Richman 和 Moorman 提出的一種基于 ApEn 的改進算法,用來描述時間序列復雜性,也被應用于分析精神障礙或神經生理狀態[17-19]。SaEn 與 ApEn 的主要區別在于:①SaEn 消除了自身匹配;② 為避免因消除自身匹配引起的 ln0,SaEn 在對數運算之前計算模板匹配總數,并且在計算 m + 1 維統計量時,使用與其自身匹配的模板個數來計算[20]。SaEn 具體計算步驟如下:
① 前兩步與 ApEn 類似,將原始序列組成 m 維向量,定義 為任意向量
與
之間距離小于 r 的概率;
② 對所有 疊加平均后,得到模板匹配總數
:
![]() |
③ 當嵌入維數為 m + 1 時,模板匹配總數為:
![]() |
④ 此序列的 SaEn 為:
![]() |
與 ApEn 的參數相同,我們選取參數 m = 3,r= 0.20*SD。
1.4.3 PeEn
PeEn 是由 Bandt 和 PomPe 提出的一種針對局部時間序列估計信號規律性的順序分析方法,提出將連續時間序列映射到符號序列上,以便捕捉隨肌電活動和正常行為之間的差異[21]。由于 PeEn 只依賴于原始時間序列的符號描述并且只與數據相對長度有關,因此它在計算速度與抗噪性能方面具有一定的優勢[22-23]。計算步驟如下:
① 將時間序列 重構得到新的時間序列 Xi,即:
![]() |
其中 是時間延遲,m 是嵌入維數。
② 對于時間序列 Xi,m 維向量有 m!種排列方式,其中出現排列方式 的概率為:
![]() |
③ 此序列的 PeEn 為:
![]() |
參數 m 的選取一般是在 3~10 之間[22],以此來計算信號的復雜性。在本研究中,我們選取 m = 3,則排序熵的排列方式有 m! = 6 種。
1.4.4 WaEn
WaEn 是基于小波變換,將小波變換與熵結合,計算小波變換后頻譜能量占總頻帶能量的比值[24]。例如在 EEG 時間序列中,如果其具有窄頻帶,如深度睡眠中的腦電信號,則在 δ 頻帶功率會較高,WaEn 將較低,如果 EEG 時間序列具有更多頻帶分量,那么 WaEn 將會較高。具體計算步驟如下:
① 將原始序列進行小波分解得到不同的信號成分,在每個節點 j 處的小波能量定義為 Ej,即:
![]() |
其中 k 和 Lj 分別為給定序列在每個節點 j 處的求和指數和系數數量。總能量為:
![]() |
② 然后將小波能量除以總能量,以得到每個比例 j 處的相對小波能量:
![]() |
③ 此時,WaEn 為:
![]() |
在本研究中,我們將原始信號分解成 5 層,分解信號的頻帶與 δ、θ、α 和 β 類似。
1.5 特征選擇與分類
1.5.1 特征選擇
在許多分類研究中,識別特征的方法就是測試所有特征集并將分類誤差最小化。但是,當特征數量較大時,樣本在特征空間中會變得稀疏,不利于有效地進行分類。因此需要進行特征選擇,找出一個有效的特征子集,使得特征向量相關較高,同時使冗余信息較低。本文采用的方法是置換檢驗(permutation test)。
置換檢驗又稱為隨機檢驗,是統計學顯著性檢驗的一種重要方法。其基于假設檢驗,假設兩組樣本沒有差異,將兩組樣本合并,然后隨機抽取再計算統計量,構造新的經驗分布,最后基于此結論求得統計量,推斷是否拒絕原假設[25]。
本文中將其作為特征選擇方法,首先計算單一特征量的分類準確率,然后將樣本序列隨機打亂重復 100 次,計算統計量,得到新的經驗分布,計算置換后樣本統計量與原假設偏差,抽取樣本中偏差范圍在三個標準差以上的特征量,說明這些特征具有顯著差異(P < 0.01),然后將其組合,得到有效特征子集。
1.5.2 分類方法
在本研究中,選用 SVM 方法進行分類。SVM 主要原理就是在特征空間中尋找類別間距離最大的一個最優超平面,超平面取決于最接近的數據點,這些點被稱為支持向量[26]。但是傳統的 SVM 僅限于線性可分離數據,為了克服這個問題,SVM 算法將數據點映射到更高維空間尋找最優超平面,這個映射函數被稱為核函數[27]。針對不同數據選用的核函數不同,本研究中,主要選用徑向基核函數,其中需要對松弛系數和懲罰系數兩個參數進行選取,本研究是通過網格搜索確定最佳參數組合來進行參數選擇[28-30]。
為了評估分類模型,需要對數據進行交叉驗證,本文采用 Leave-one-out 方法進行交叉驗證。假設原始數據有 n 個樣本,Leave-one-out 交叉驗證將每個樣本單獨作為測試集,其余 n-1 個樣本用于訓練,從而得到 n 個分類模型,n 次結果平均,得到最終分類精度。本研究中共有 75 個樣本,將每個樣本單獨作為測試集,其余 74 個樣本用于訓練,并且重復 30 次,以此獲得更為準確的分類精度。
2 結果
2.1 兩組被試腦電復雜性差異以及區域分布特性
本研究提取了 ASD 兒童和正常兒童的 ApEn、SaEn、PeEn 和 WaEn 四種特征量,結果見圖 1。

FR:額葉;LT:左顳葉;CEN:中央區;RT:右顳葉;OC:枕葉。*
FR: front region; LT: left temporal region; CEN: central region: RT: right region; OC: occipital region. *
如圖 1 所示,本文比較了正常兒童與 ASD 兒童在不同腦區的四類熵值,通過獨立樣本 t 檢驗分析組間差異。我們發現兩組被試在額葉區域,其 ApEn(P = 0.043)、SaEn(P = 0.019)以及 WaEn(P = 0.009)的組間差異具有統計學意義,ASD 組熵值明顯低于對照組。此外,PeEn 在枕葉的組間差異具有統計學意義(P = 0.002);WaEn 除左顳葉及枕葉外,在額葉(P = 0.009)、中央區(P = 0.003)以及右顳葉(P = 0.032)的組間差異均有統計學意義,ASD 組熵值均低于對照組。
2.2 單一特征量分類結果
上述結果表明正常組與 ASD 組在不同腦區各類熵值之間存在差異,現用這四種特征對兩組被試進行分類,不同特征量分類效果有所不同,得到的分類結果如表 1 所示。

由表 1 數據可知,不同特征量對 ASD 組和正常組分類效果有很大差異。就單一特征量在單一腦區而言,WaEn 中央區域分類效果最好,分類精度為 72.33%,說明該特征對正常組和 ASD 組差異的識別程度最高。就特征而言,WaEn 除個別腦區外分類效果最佳,全腦分類精度亦達 72.28%;ApEn 與 SaEn 分類準確率均值則相差很小,在額葉區域分類效果較為明顯;而 PeEn 分類效果最差。就腦區而言,額葉區域分類性能最好,其中 PeEn 最低為 67.11%,WaEn 分類準確率最高為 71.00%,組合分類精度達到 72.70%;左顳葉分類效果最差,各特征量組合分類精度只有 62.71%;另外右顳葉、中央區和枕葉總體分類效果一般,其中中央區與右顳葉區域 WaEn 分類準確率最高,分別為 72.33% 和 68.11%,PeEn 在枕葉區域分類最明顯為 69.03%。將所有特征量組合后,全腦分類精度達到 73.71%。
2.3 改進分類結果
從表 1 可以看出,不同特征對兩組被試差異性的相關程度高低不同,并且單一特征量對 ASD 組與正常組分類效果不是很好,因此,我們需要對所提取特征進行選擇,將相關程度高的特征量組合在一起,突出差異性特征,提高分類效果。
本研究中采用置換檢驗方法進行特征選擇,將特征量隨機排列 100 次,計算每次的分類準確率,當特征量偏差范圍在三個標準差以上,此時存在顯著差異(P < 0.01),說明該特征與兩組被試差異的相關程度較高。我們按照這一標準共找到 6 個特征子集,分別為 F4-ApEn、F4-SaEn、C4-SaEn、O2-PeEn、F4-WaEn 和 C4-WaEn,將這些特征組合得到有效特征子集,然后對正常兒童與 ASD 兒童進行分類。將該特征子集輸入 SVM 分類器,采用不同核函數(線性、多項式和徑向基)進行分類,表 2 顯示出采用該特征子集選用不同核函數得到的分類結果。基于該特征子集,雖然采用不同核函數,但分類準確率相對于單一特征量分類效果明顯改善,其中徑向基核函數分類效果最佳,分類精度達到 84.55%。

3 討論與總結
本文首先采用四種熵算法提取 ASD 兒童以及正常兒童 EEG 信號特征,經過統計檢驗發現兩組被試腦電特征存在差異,然后運用 SVM 分類器計算單一特征量的分類精度,最后經過特征選擇得到特征子集,建立有效分類模型。
結果顯示,與正常對照組相比,ASD 組通過四種熵算法得到的 EEG 復雜度較低;與其他三種方法相比,WaEn 差異性最明顯,并且分類效果最佳,分類準確率最高能達到 72.33%;就區域而言,額葉區域分類性能最好,ApEn、SaEn 以及 WaEn 分類準確率均在 70% 以上;最后通過特征選擇得到最佳特征子集,此時 ASD 與正常兒童腦電的分類精度最高達到 84.55%,比基于單一特征量例如 PeEn 進行分類識別的精度高出將近 20%。
EEG 信號復雜度反映了 EEG 所包含信息出現新模式的概率,復雜度越高,表明新模式出現的概率越高,動力學行為越復雜。本文結果顯示 ASD 兒童相比正常兒童腦電信號復雜度較低,表明腦電信號復雜度降低與臨床認知功能下降具有一致性,反映了 ASD 兒童參與任務以及適應新認知任務的能力較弱,而額葉區域最為明顯也符合 ASD 兒童在語言以及智力方面較正常兒童發育遲緩的臨床表現[8]。最后通過特征選擇得到一個分類模型,將分類準確率提高到 84.55%,表明基于該方法得到的評估模型是有效的,希望將來能在采用客觀指標診斷 ASD 兒童方面提供有效幫助。
引言
孤獨癥譜系障礙(autism spectrum disorder,ASD)是一種以社會交往能力缺陷、語言交流功能障礙、興趣狹窄和行為舉止刻板為核心特征的兒童廣泛性神經發育障礙[1]。當前 ASD 發病率在全球呈現急劇上升趨勢。據 Blaxill(2004)的數據顯示,20 世紀 70 年代,ASD 發病率低于 3/1 000,在 90 年代,該比例上升至 30/1 000。在美國,ASD 發病率的上升速度在 20 年時間里增長了近 10 倍[2]。隨著 ASD 患病數量逐年遞增,到目前為止,其核心病因與發病機制仍不明確,對 ASD 的評估與診斷高度依賴于行為觀察以及診斷量表,具有一定主觀性,因此尋找客觀評估指標具有重要意義。
腦電圖(eletroencephalography,EEG)主要測量與大腦皮層突觸活動相關的神經生理變化,作為一種非侵入式的采集方法,具有較高的時間分辨率,已被證明是研究復雜神經精神障礙的有力工具[3]。EEG 分析研究表明 ASD 在快波頻段(即 γ 和 β)同步性增加[4]。對于慢波頻段,大多數報道表明 α 頻段同步性降低[5-6]。一些報告描述了即使在相同頻段,所選電極位點同步增加和減少[7]。綜合來看,EEG 同步結果在某種程度上已經證明 ASD 的“異常神經連接”。腦電分析方法包括線性分析方法,例如功率譜和連接性分析,以及非線性分析方法,例如復雜度、預報誤差、協方差復雜性。由于 EEG 信號是一種微弱的非平穩性、非線性的信號,因此線性分析方法可能不包含 EEG 信號的完整信息,而非線性特征能夠發現 EEG 時間序列中存在的隱藏復雜性,EEG 信號的非線性復雜性被認為包含了有關大腦神經網絡的結構信息[8]。先前研究顯示,復雜性改變與異常神經連接有一定聯系,并且異常模式與孤獨癥相關。腦電復雜度可作為神經信息處理和神經連通性的指標評估孤獨癥早期癥狀[8]。而信息熵作為一種衡量系統復雜度的物理量,由于基于非線性理論,適用于腦電這類高維混沌信號系統的研究,因此已經成為衡量生物信號復雜度的有力工具。此外,規則系統具有較低的熵值,而完全不規則系統具有較高熵值。過去近幾十年來,基于熵的新穎的非線性方法已經廣泛用于 ASD 復雜度的研究。第一次是在 2008 年由 Kulisek 等[9]提出。他們在研究非快速眼球運動(rapid eyes movement,REM)睡眠腦電中發現,應用一種非線性方法,即粗粒熵信息,在非 REM 3 期發現 ASD 兒童同步性顯著低于正常兒童。另一組研究者還將 EEG 復雜性理論用于 ASD 頻域評估。他們研究了 ASD 兒童(6~13 歲)和正常兒童(7~13 歲)的 Higuchi 分形維數和 Katz 分數維度的靜息態 EEG,發現兩組被試腦電信號存在差異性,并且在 Katz 分形維數(電極 Fp2 和 C3)和 γ(電極 T6)特征上差異具有統計學意義(P < 0.001),他們認為這可能是 ASD 大腦功能連通性不足導致大腦動力學變化引起的[10]。最近,兩項研究評估了多尺度熵分析方法的有效性,以幫助闡明病理生理機制,并作為 ASD 風險干擾和早期檢測的有用生物標志物。Bosl 等[8]調查了 33 位正常發育兒童和 46 位具有 ASD 病史(ASD 組高風險)家族兒童的靜息態 EEG 復雜性。他們使用多類支持向量機(support vector machine,SVM)算法,將改進 MSE 作為特征向量來區分正常發育群體和高風險群體。結果表明,高風險 ASD 組在所有電極上、所有時間尺度及所有年齡段(特別是 9~12 個月時),其 EEG 復雜性始終較低。另一項研究由 Catarino 等[11]提出,提取 15 位 ASD 被試(平均年齡 29.38 歲)和 15 位正常被試(平均年齡 31.44 歲)的腦電特征,報告稱隨著時間尺度的增加,在顳葉和枕葉區域,ASD 被試的 EEG 復雜性顯著降低。
一般來說,嬰兒大腦信號復雜性在突觸繁殖和修剪背景下增加,而在正常發育過程中,大腦發育缺損可能是 ASD 發病機制的基礎[12-13]。本文通過采集 ASD 以及正常兒童 EEG 信號,檢驗復雜性在 ASD 兒童分類中的效用。從靜息態腦電中提取四種熵特征,即近似熵(approximate entropy,ApEn)、樣本熵(sample entropy,SaEn)、排序熵(permutation entropy,PeEn)和小波熵(wavelet entropy,WaEn),將這些特征通過 SVM 進行分類,經過特征選擇篩選得到特征子集,構造有效分類模型,檢驗是否可以為今后 ASD 評估提供輔助診斷方法。
1 資料與方法
1.1 被試信息
本研究共招收了 75 名被試。其中 ASD 組為 37 名 ASD 兒童,8 名女孩,29 名男孩,年齡 3~7(4.7 ± 1.2)歲,從深圳愛佑慈善基金會招募。對照組為 38 名正常兒童,10 名女孩,28 名男孩,年齡 3~7(4.8 ± 0.9)歲,從燕郊當地幼兒園招募。入組 ASD 患者均由兒童精神科醫生根據《精神病診斷與統計手冊(第五版)》和《孤獨癥診斷訪談量表修訂版》進行診斷確定。兩組被試之間,年齡與性別均無顯著差異(年齡:t(1,73)= –0.351,P = 0.727;性別:χ2 = 0.226,P = 0.634)。
本研究經過北京師范大學倫理委員會批準,在完整描述實驗步驟之后,家長或者被試監護人簽署書面知情同意書,所有兒童均自愿參加本次實驗。
1.2 EEG 采集
本研究采用八通道采集系統來獲取 EEG 信號,采集電極分別為 F3、F4、T3、C3、C4、T4、O1、O2,Cz 為參考電極,采樣頻率為 1 000 Hz,電極阻抗要求均控制在 50 kΩ 以下。實驗在安靜環境內進行,實驗室的溫度控制在(23 ± 2)℃,采集時要求受試者睜眼,坐在一把舒適的扶手椅上,保持放松狀態 5 min 左右。
1.3 數據預處理
將所采集數據利用 Matlab 中的 EEGLAB 工具箱進行預處理。首先將 EEG 信號通過 0.5~40 Hz 的帶通濾波器;其次,去除偽跡;然后將 EEG 信號截取成非重疊的 4 秒時間序列,每個數據截取 30 段;最后將數據降采樣至 256 Hz。自適應偽跡檢測方法被用于去除偽跡,包括工頻、眼電、眨眼、心電、肌電、呼吸等,如果某段序列中含有超過閾值的部分,則將該段序列去除。
1.4 特征提取
1.4.1 ApEn
ApEn 是在 20 世紀 90 年代初由 Pincus[14-15]提出,用于分析動態系統中有限長度信號如 EEG 信號并描述其復雜性或不規則程度。它主要是基于相空間重構,將信號嵌入到相空間中,當相空間的嵌入維度從 m 維增加到 m + 1 維時,預測產生新模式的概率大小。產生新模式概率越大,序列復雜性越大,相應 ApEn 也就越大,在腦電方面也反映具有較高程度的腦活躍性[16]。對于時間序列 ,有限長度
,按照以下步驟得到 ApEn:
① 將序列 按順序組成 m 維向量,即:
![]() |
② 定義 為任意向量
與
之間距離小于 r 的概率:
![]() |
其中 是 Heaviside 函數,
是向量
與
之間的距離,定義為:
![]() |
③ 先對 取對數,再求其所有 i 的平均值,記為
,即:
![]() |
④ 當維數增加到 m + 1 維時,重復上述處理,得到 ,即:
![]() |
⑤ 此序列的 ApEn 為:
![]() |
ApEn 數值受數據長度(N)、容限(r)和嵌入維數(m)的影響。根據 Pincus 和 Bruhn 等的實踐,N 建議為 1 000,r 取值范圍從 0.1SD 到 0.2SD,SD 是標準差。在本研究中,我們選取 m = 3,r = 0.20*SD。
1.4.2 SaEn
SaEn 是 Richman 和 Moorman 提出的一種基于 ApEn 的改進算法,用來描述時間序列復雜性,也被應用于分析精神障礙或神經生理狀態[17-19]。SaEn 與 ApEn 的主要區別在于:①SaEn 消除了自身匹配;② 為避免因消除自身匹配引起的 ln0,SaEn 在對數運算之前計算模板匹配總數,并且在計算 m + 1 維統計量時,使用與其自身匹配的模板個數來計算[20]。SaEn 具體計算步驟如下:
① 前兩步與 ApEn 類似,將原始序列組成 m 維向量,定義 為任意向量
與
之間距離小于 r 的概率;
② 對所有 疊加平均后,得到模板匹配總數
:
![]() |
③ 當嵌入維數為 m + 1 時,模板匹配總數為:
![]() |
④ 此序列的 SaEn 為:
![]() |
與 ApEn 的參數相同,我們選取參數 m = 3,r= 0.20*SD。
1.4.3 PeEn
PeEn 是由 Bandt 和 PomPe 提出的一種針對局部時間序列估計信號規律性的順序分析方法,提出將連續時間序列映射到符號序列上,以便捕捉隨肌電活動和正常行為之間的差異[21]。由于 PeEn 只依賴于原始時間序列的符號描述并且只與數據相對長度有關,因此它在計算速度與抗噪性能方面具有一定的優勢[22-23]。計算步驟如下:
① 將時間序列 重構得到新的時間序列 Xi,即:
![]() |
其中 是時間延遲,m 是嵌入維數。
② 對于時間序列 Xi,m 維向量有 m!種排列方式,其中出現排列方式 的概率為:
![]() |
③ 此序列的 PeEn 為:
![]() |
參數 m 的選取一般是在 3~10 之間[22],以此來計算信號的復雜性。在本研究中,我們選取 m = 3,則排序熵的排列方式有 m! = 6 種。
1.4.4 WaEn
WaEn 是基于小波變換,將小波變換與熵結合,計算小波變換后頻譜能量占總頻帶能量的比值[24]。例如在 EEG 時間序列中,如果其具有窄頻帶,如深度睡眠中的腦電信號,則在 δ 頻帶功率會較高,WaEn 將較低,如果 EEG 時間序列具有更多頻帶分量,那么 WaEn 將會較高。具體計算步驟如下:
① 將原始序列進行小波分解得到不同的信號成分,在每個節點 j 處的小波能量定義為 Ej,即:
![]() |
其中 k 和 Lj 分別為給定序列在每個節點 j 處的求和指數和系數數量。總能量為:
![]() |
② 然后將小波能量除以總能量,以得到每個比例 j 處的相對小波能量:
![]() |
③ 此時,WaEn 為:
![]() |
在本研究中,我們將原始信號分解成 5 層,分解信號的頻帶與 δ、θ、α 和 β 類似。
1.5 特征選擇與分類
1.5.1 特征選擇
在許多分類研究中,識別特征的方法就是測試所有特征集并將分類誤差最小化。但是,當特征數量較大時,樣本在特征空間中會變得稀疏,不利于有效地進行分類。因此需要進行特征選擇,找出一個有效的特征子集,使得特征向量相關較高,同時使冗余信息較低。本文采用的方法是置換檢驗(permutation test)。
置換檢驗又稱為隨機檢驗,是統計學顯著性檢驗的一種重要方法。其基于假設檢驗,假設兩組樣本沒有差異,將兩組樣本合并,然后隨機抽取再計算統計量,構造新的經驗分布,最后基于此結論求得統計量,推斷是否拒絕原假設[25]。
本文中將其作為特征選擇方法,首先計算單一特征量的分類準確率,然后將樣本序列隨機打亂重復 100 次,計算統計量,得到新的經驗分布,計算置換后樣本統計量與原假設偏差,抽取樣本中偏差范圍在三個標準差以上的特征量,說明這些特征具有顯著差異(P < 0.01),然后將其組合,得到有效特征子集。
1.5.2 分類方法
在本研究中,選用 SVM 方法進行分類。SVM 主要原理就是在特征空間中尋找類別間距離最大的一個最優超平面,超平面取決于最接近的數據點,這些點被稱為支持向量[26]。但是傳統的 SVM 僅限于線性可分離數據,為了克服這個問題,SVM 算法將數據點映射到更高維空間尋找最優超平面,這個映射函數被稱為核函數[27]。針對不同數據選用的核函數不同,本研究中,主要選用徑向基核函數,其中需要對松弛系數和懲罰系數兩個參數進行選取,本研究是通過網格搜索確定最佳參數組合來進行參數選擇[28-30]。
為了評估分類模型,需要對數據進行交叉驗證,本文采用 Leave-one-out 方法進行交叉驗證。假設原始數據有 n 個樣本,Leave-one-out 交叉驗證將每個樣本單獨作為測試集,其余 n-1 個樣本用于訓練,從而得到 n 個分類模型,n 次結果平均,得到最終分類精度。本研究中共有 75 個樣本,將每個樣本單獨作為測試集,其余 74 個樣本用于訓練,并且重復 30 次,以此獲得更為準確的分類精度。
2 結果
2.1 兩組被試腦電復雜性差異以及區域分布特性
本研究提取了 ASD 兒童和正常兒童的 ApEn、SaEn、PeEn 和 WaEn 四種特征量,結果見圖 1。

FR:額葉;LT:左顳葉;CEN:中央區;RT:右顳葉;OC:枕葉。*
FR: front region; LT: left temporal region; CEN: central region: RT: right region; OC: occipital region. *
如圖 1 所示,本文比較了正常兒童與 ASD 兒童在不同腦區的四類熵值,通過獨立樣本 t 檢驗分析組間差異。我們發現兩組被試在額葉區域,其 ApEn(P = 0.043)、SaEn(P = 0.019)以及 WaEn(P = 0.009)的組間差異具有統計學意義,ASD 組熵值明顯低于對照組。此外,PeEn 在枕葉的組間差異具有統計學意義(P = 0.002);WaEn 除左顳葉及枕葉外,在額葉(P = 0.009)、中央區(P = 0.003)以及右顳葉(P = 0.032)的組間差異均有統計學意義,ASD 組熵值均低于對照組。
2.2 單一特征量分類結果
上述結果表明正常組與 ASD 組在不同腦區各類熵值之間存在差異,現用這四種特征對兩組被試進行分類,不同特征量分類效果有所不同,得到的分類結果如表 1 所示。

由表 1 數據可知,不同特征量對 ASD 組和正常組分類效果有很大差異。就單一特征量在單一腦區而言,WaEn 中央區域分類效果最好,分類精度為 72.33%,說明該特征對正常組和 ASD 組差異的識別程度最高。就特征而言,WaEn 除個別腦區外分類效果最佳,全腦分類精度亦達 72.28%;ApEn 與 SaEn 分類準確率均值則相差很小,在額葉區域分類效果較為明顯;而 PeEn 分類效果最差。就腦區而言,額葉區域分類性能最好,其中 PeEn 最低為 67.11%,WaEn 分類準確率最高為 71.00%,組合分類精度達到 72.70%;左顳葉分類效果最差,各特征量組合分類精度只有 62.71%;另外右顳葉、中央區和枕葉總體分類效果一般,其中中央區與右顳葉區域 WaEn 分類準確率最高,分別為 72.33% 和 68.11%,PeEn 在枕葉區域分類最明顯為 69.03%。將所有特征量組合后,全腦分類精度達到 73.71%。
2.3 改進分類結果
從表 1 可以看出,不同特征對兩組被試差異性的相關程度高低不同,并且單一特征量對 ASD 組與正常組分類效果不是很好,因此,我們需要對所提取特征進行選擇,將相關程度高的特征量組合在一起,突出差異性特征,提高分類效果。
本研究中采用置換檢驗方法進行特征選擇,將特征量隨機排列 100 次,計算每次的分類準確率,當特征量偏差范圍在三個標準差以上,此時存在顯著差異(P < 0.01),說明該特征與兩組被試差異的相關程度較高。我們按照這一標準共找到 6 個特征子集,分別為 F4-ApEn、F4-SaEn、C4-SaEn、O2-PeEn、F4-WaEn 和 C4-WaEn,將這些特征組合得到有效特征子集,然后對正常兒童與 ASD 兒童進行分類。將該特征子集輸入 SVM 分類器,采用不同核函數(線性、多項式和徑向基)進行分類,表 2 顯示出采用該特征子集選用不同核函數得到的分類結果。基于該特征子集,雖然采用不同核函數,但分類準確率相對于單一特征量分類效果明顯改善,其中徑向基核函數分類效果最佳,分類精度達到 84.55%。

3 討論與總結
本文首先采用四種熵算法提取 ASD 兒童以及正常兒童 EEG 信號特征,經過統計檢驗發現兩組被試腦電特征存在差異,然后運用 SVM 分類器計算單一特征量的分類精度,最后經過特征選擇得到特征子集,建立有效分類模型。
結果顯示,與正常對照組相比,ASD 組通過四種熵算法得到的 EEG 復雜度較低;與其他三種方法相比,WaEn 差異性最明顯,并且分類效果最佳,分類準確率最高能達到 72.33%;就區域而言,額葉區域分類性能最好,ApEn、SaEn 以及 WaEn 分類準確率均在 70% 以上;最后通過特征選擇得到最佳特征子集,此時 ASD 與正常兒童腦電的分類精度最高達到 84.55%,比基于單一特征量例如 PeEn 進行分類識別的精度高出將近 20%。
EEG 信號復雜度反映了 EEG 所包含信息出現新模式的概率,復雜度越高,表明新模式出現的概率越高,動力學行為越復雜。本文結果顯示 ASD 兒童相比正常兒童腦電信號復雜度較低,表明腦電信號復雜度降低與臨床認知功能下降具有一致性,反映了 ASD 兒童參與任務以及適應新認知任務的能力較弱,而額葉區域最為明顯也符合 ASD 兒童在語言以及智力方面較正常兒童發育遲緩的臨床表現[8]。最后通過特征選擇得到一個分類模型,將分類準確率提高到 84.55%,表明基于該方法得到的評估模型是有效的,希望將來能在采用客觀指標診斷 ASD 兒童方面提供有效幫助。