腦電圖是人腦神經元動態活動的綜合表現形式,可以用來研究癲癇的腦部病理變化。本文引入多尺度排列熵(MPE)的概念,將其應用于癲癇患者和健康人的腦電圖特征提取,并將所有特征參數送入支持向量機(SVM)進行分類。實驗結果表明,在區分癲癇患者和健康人的腦電圖時平均分類精度達100%,癲癇發作間期和發作期的平均分類精度為99.58%。與同時輸入的1~5個單尺度排列熵(PE)對比分析發現,MPE比PE更能反映癲癇腦電圖多尺度上的特征,能更好、更穩定地實現癲癇預測。
引用本文: 席敏, 朱國魂. 多尺度排列熵及其在癲癇發作識別中的應用. 生物醫學工程學雜志, 2015, 32(4): 751-756. doi: 10.7507/1001-5515.20150137 復制
引言
癲癇是最常見的神經系統疾病之一,世界上有約1%的癲癇病患者[1]。準確地檢測癲癇的發作,有時需要專家們記錄連續幾天的癲癇腦電圖,研究并分析大量的腦電圖數據,既耗時又繁瑣。腦電圖作為研究大腦復雜動力學行為的一個非常有效的工具,其波形可以反映大腦的不同生理狀態,能夠將癲癇這種復雜的大腦動態活動可視化地輸出。
國內外學者對自動檢測癲癇的研究已歷時多年,但由于腦電圖屬于不穩定的時間序列,暫時還沒有特別有效的檢測方法。目前通過腦電圖分析實現自動監測癲癇一般分為兩個步驟:特征提取和分類識別。在特征提取部分,由于時域和頻域分析方法能夠提供癲癇腦電信號時域和頻域局部信息,在癲癇檢測領域得到了廣泛應用。該方法通過分析腦電信號的振幅[2]、功率譜[3]、相關尖峰幅度和節律性[4]、小波分析[5-7]、經驗模式分解[8-9]、可視圖[10]和遞歸圖量化[11]來提取特征。例如:Wilson等[12]4名專家經人工記錄并分析了癲癇腦電圖,實驗結果達到了92%的敏感性(sensitivity)。另外,可以用來自動檢測癲癇腦電圖的分類方法有很多,包括判別分析(discriminate analysis)[13]、最近鄰分類(nearest neighbor classifier)[14]、神經網絡(neural networks)[7, 15-16]、支持向量機(support vector machine,SVM)[17-18]等。腦電圖是一種時變的、非平穩的非線性動力學信號,線性分析方法在處理這種無規則的非線性信號時有局限性,相比之下,非線性方法更適合用來分析腦電圖。基于熵的非線性分析方法,由于能量化載有疾病信息的腦電圖復雜度,近年來備受關注。Xu等[19]應用相關維和近似熵(approximate entropy,ApEn)來分析大鼠癲癇發作過程的腦電圖特征,表明非線性動力學指標可以用來表征腦電混沌狀態的特征參數;文獻[17]中,將Hurst指數和幅度相對均值輸入到SVM分類器,癲癇發作間歇期和發作期的識別率達到98.75%;Ouyang等[20]提取癲癇腦電圖的樣本熵(sample entropy,SE)和多尺度熵,并結合線性鑒別分類方法區分無癲癇發作、癲癇發作之前、癲癇發作三種狀態,識別率達90.6%;Yuan等[21]用近似熵ApEn、Hurst指數等組合特征(united features,UF)作為癲癇發作間期和發作期的特征,并用極限學習機(extreme learning machine,ELM)進行分類,實現了96.5%的識別率。
排列熵(permutation entropy,PE)是由Bandt等[22]提出來的一種基于復雜性量度的非線性動力學參數,在給定的時間序列上,通過與鄰近值進行比較、重構,形成新的符號序列之后計算求得的,只需較短的序列長度就能估計出較為穩定的系統特征值。該方法目前已應用于腦電圖[20, 23-24]分析、ECoG[25]、股市分析[26]、突變檢測[20]等領域。文獻[18]用PE提取5種狀態的特征值,結合SVM分類,平均識別率達到了85.16%;文獻[23]比較了PE和SE,證明了相比SE,PE更適合實時在線監測癲癇信號。然而,這些熵值只能監測腦電圖時間序列在單一尺度上的隨機性和動力性突變。Aziz等[27]對熵進行了改進,提出多尺度排列熵(multi-scale permutation entropy,MPE)的概念,證明它能夠衡量時間序列在不同尺度下的復雜性和隨機性,并通過分析生理信號與多尺度熵對比表明,MPE的魯棒性更好。事實上,文獻[20]應用MPE結合線性鑒別分析(linear discriminant analysis,LDA)的方法檢測無癲癇發作、發作之前、發作期三種信號,已經證明了其可行性并實現了90.6%的識別率。
綜上所述,由于癲癇腦電圖比較復雜,單一尺度的分析不能更好地反映其動力學特征,因此本文采用MPE來增強癲癇信號的特征提取能力,提出一種基于MPE和SVM的癲癇預測方法。首先將MPE應用于5種腦電圖信號特征的提取,然后把結果送入SVM進行癲癇發作檢測。為了對比性能,本文同時提取了s=1,2,3,4,5的MPE值,并使用相同的SVM分類器。
1 實驗數據與方法
1.1 實驗數據
本文使用的實驗數據是一組公共數據,由德國波恩大學的癲癇病中心采集得到,目前已經被公眾承認并研究使用[10, 28]。共包含5個腦電圖數據集(A~E),其中A、B采用表面電極,C、D和E采用顱內電極;A、B為正常腦電圖信號,C、D為癲癇患者正常狀態的腦電圖信號,E為癲癇發作腦電圖信號。每個數據集包含100個單通道、時長為23.6 s的腦電圖實驗數據,每一段記錄都無偽差且平穩,使用標準的128通道放大器,以0.53~40 Hz進行帶通濾波,采樣頻率為176.31 Hz。具體實驗數據情況如表 1所示。

1.2 排列熵和多尺度排列熵
PE是由Bandt等提出的一種衡量一維時間序列復雜度的平均熵參數。假設一維時間序列{x(i),i=1,2,…,N},將其重構到一個m維的相空間。
$x_i^m = \left[ {x\left( i \right),x\left( {i + t} \right),x\left( {i + 2t} \right), \cdots ,x\left( {i + \left( {m - 1} \right)t} \right)} \right],$ |
其中m為嵌入相空間維數,t為延遲時間,1≤i≤N-(m-1)t。設yi=xim,將yi中m個元素按照升序排列,即xi(t)={xt+j1≤xt+j2≤…≤xt+jm}。若有元素數值相等,則按照先后順序排列。定義π={j1,j2,…,jm}表示元素序列{1,2,…,m}的一種排列,則m個元素必有m!種排列方式。假設πi出現的概率為pj(π),則總共有m!個pj(π),則m階的PE值為
$H\left( {x,m} \right) = - \sum\limits_{j = 1}^{m!} {{p_j}\left( \pi \right)\ln \left( {{p_j}\left( \pi \right)} \right)} ,$ |
由于式(2)源自于Shannon熵,因此它反映的是序列x(i)的規律性,H(m)取值范圍為0≤H(m)≤ln(m!)。 H(m)越小,說明時間序列越有規律,比如遞增、遞減、周期性時,最小可取到下限0 (時間序列為恒定不變數值時);反之,則說明時間序列越隨機無序,當時間序列足夠長,所有值都相互獨立無關、無規律可循時,其值可以接近上限ln(m!)。
類似于多尺度熵(multi-scale entropy,MSE)[29],MPE是基于PE并結合“多尺度”的概念提出來的,其計算過程包括兩個部分。首先,對原時間序列進行粗粒化處理,得到粗粒化序列{yj(s)},其表達式為
$y_j^{\left( s \right)} = \frac{1}{s}\sum\limits_{i = \left( {j - 1} \right)s + 1}^{js} {{x_i}} ,$ |
其中s是尺度因子,s=1,2,…,j=1,2,…,[N/s],[N/s]表示取整。因此,粗粒化之后的時間序列長度為[N/s],顯然,當s=1時,粗粒化序列就是原時間序列。然后,以尺度因子s為自變量,重新送入式(1)~(3)計算每個粗粒化時間序列yj的PE值。式(3)的MPE表達方式變為
$\begin{array}{l} H\left( {x,m,s} \right) = - \sum\limits_{j = 1}^{m!} {{p_j}} \left( {\sum\limits_{i = \left( {j - 1} \right)s + 1}^{js} {{x_i},\pi } } \right)\ln \\ \left( {{p_j}\left( {\sum\limits_{i = \left( {j - 1} \right)s + 1}^{js} {{x_i},\pi } } \right)} \right), \end{array}$ |
在計算MPE的過程中,參數m和s的選取很重要,當m取太小(小于3)時,每個腦電圖記錄只有若干不同的表型,性能并不理想;當s取值太大時,粗粒化過程就會減少由[N/S]決定的模板的樣本量,會導致PE值不穩定[30]。本實驗中,s取值為5,m取值為4。
1.3 支持向量機
SVM是由前蘇聯教授Vapnik提出的,它是一種基于內核類的非常強大的分類器[31]。假設有訓練樣本{(x1,y1),(x2,y2),…,(xn,yn)},其中yi為分類標簽,可以取+1、-1代表類別。例如,用樣本點(+1)和樣本點(-1)分別代表兩類訓練樣本,可以將+1類和-1類分開的超平面有很多,這些超平面可能由k最近鄰算法、神經網絡、回歸算法得到,但是相比SVM來說,它們沒有直觀的幾何解釋。盡管此類超平面很多,但是最優的超平面只有一個,按照SVM得到的超平面H不但能將兩類訓練樣本正確分開,而且能使兩類間距最大。SVM基本原理是將輸入向量X通過某種既定的核函數映射到高維空間Z,在這個高維空間尋找決策平面,使得標簽不同的兩類別之間距離最大化,從而找到區分+1和-1的最優超平面H。它在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,目前已廣泛用于腦電圖信號的模式識別[18, 25]、數據挖掘[32]等實際問題中。
根據樣本類別多少,SVM可以分為一對一(one-versus-one,OVO)、一對其他(one-versus-rest,OVR)和有向無環樹(directed acyclic graph,DAG)三種分類器。本文為了區分數據集中5種腦電狀態,設置了A-E、B-E、C-E、D-E四個OVO分類器。實驗過程共分為三步,除了上述的PE和MPE特征提取和SVM分類識別,為了研究數據長度N對PE值的影響,實驗首先對原始數據進行了預處理。實驗流程如圖 1所示。

2 實驗結果與分析
本文采用R包MDPE實現MPE和PE特征數據提取[25],其他所有算法用MATLAB編寫,在Windows 32位平臺上選用R2010b版MATLAB進行實驗,并且以文獻[33]提出的LIBSVM作為分類工具。
2.1 數據預處理
本實驗首先對腦電圖數據進行了預處理:原始A~E每個數據記錄長度為4 097的時間序列,本文將最后1個點舍去,把每條記錄分別分割成長度為128、256、512、1 024、2 048的腦電圖片段,這樣A~E五個數據集都有32*100、16*100、8*100、4*100、2*100個時間記錄片段;然后提取每個時間片段當s=1,2,3,4,5時對應的PE值和其組合成的5維MPE值作為特征量,分類別全部輸入SVM分類器進行分類。特征參數PE和MPE的計算過程中,參數嵌入維數m=4,延遲時間t=1,尺度因子s=5;4個SVM分類器的參數C和γ均經過5折交叉驗證(5-fold cross-validation)確定,最優參數的取值范圍設定為bestC∈[0.1,100],bestγ∈[0, 100],使用RBF核函數進行分類。實驗中對應的時間片段長度、特征值個數、訓練集大小如表 2所示,訓練集和測試集均以特征為單位,且測試集大小為訓練集的一半。每次實驗隨機抽取訓練集和測試集,重復10次,獲取平均值。

2.2 尺度因子s的優選
隨著尺度因子s的變化,健康人(A、B)和癲癇患者(C、D、E),癲癇患者發作間期(C、D)和發作期(E)EEG信號的PE值變化是不同的。圖 2表示了當時間序列長512、s取值為1~5時,5種腦電狀態的PE值。由圖 2可以看出,PE值首先隨著s的增大逐漸增大,而后趨于平穩。健康人的PE值明顯高于癲癇患者發作期PE值;健康人(A、B)的PE值隨著s的變化增幅較大,最大差幅分別為0.63和0.82,而癲癇患者發作間期(C、D)波動較為平緩,其差幅僅為0.38和0.44;總體來看,健康人(A、B)和癲癇患者發作間期(C、D)腦電圖的PE值高于發作期(E)。

圖 3則表示了時間序列512的5維MPE特征數組的分布統計。圖 3表明,健康人MPE的平均值比癲癇患者的高,且相比閉眼狀態,睜眼時的MPE更為對稱集中,平均值也更高;癲癇患者發作間期MPE值最為集中、對稱,平均值處于健康人和發作期之間;癲癇發作期的MPE值最為分散,最低值明顯低于健康狀態。

2.3 發作信號的提取
將提取到的特征參數輸入SVM分類器中進行分類,識別率輸出結果如表 3所示。表中,s=1~5分別表示將該尺度下的PE作為特征值的識別率,MPE則表示將上述PE值組合成的5維MPE作為特征值時的輸出。從表 3可以看出,不論時間序列長度為多少,將MPE作為特征值的識別率均高于單尺度的識別率,而且時間序列長度越短,這種優勢越明顯;觀察序列長度256分類器B vs E的輸出可見,單尺度識別率徘徊在80%時,MPE的識別率已達到91%以上。可見癲癇腦電的突變特征是多層次的,單一尺度的特征并不能完全反映其動力學變化。

圖 4表示了序列長度取不同的值時MPE的識別率情況。實驗結果表明,識別率隨著時間序列的長度的增大逐漸升高,在時間序列長為2 048時,都達到了100%的最高識別率,和分別為99.60%、96.25%、99.58%、99.58%的平均識別率。在區分癲癇發作間期和發作期時的識別率為99.58%,高于文獻[21]的識別率。

2.4 本方法與現有方法的對比分析
另外,本文與文獻[18]采用同樣的數據集,為了與其結果對比,本文以與其相同的方法分割出長度為173的時間序列,并用本文提出的方法進行了分類,識別率對比如表 4所示。對比說明,MPE可以作為區分健康人和癲癇患者、癲癇發作間期和發作期的特征值,而且分類性能更好。究其原因,MPE能從多尺度上提取腦電圖的特征值,從而能從多尺度上反映腦電圖的不同,所以相對PE,MPE作為特征值取得的分類性能更好。表 5中對比了本方法與現有方法的識別率,在樣本點取2 048時,本方法區別癲癇發作間期和發作期的識別率較高。


3 結論
本文用MPE作為特征對癲癇腦電圖信號進行分類。通過研究癲癇患者和正常人腦電圖信號的MPE來識別癲癇發作,并用SVM實現了分類。實驗顯示,5種狀態下腦電圖的MPE值有明顯的差別,癲癇發作期的腦電圖MPE普遍低于正常狀態,這與PE的分析一致[18];SVM的分類識別率表明:該方法在區分癲癇患者和健康人、癲癇發作間期和發作期的腦電圖時,平均分類精度分別達100%、99.58%。與PE對比分析發現,MPE比PE更能反映癲癇腦電圖多尺度上的特征,能更好、更穩定地實現癲癇預測。特別與現有的結果比,本方法的分類精度在區分D、E時較高。基于這些結論,MPE能反映癲癇患者的腦電圖多尺度上的動力學突變特征,與SVM結合的方法有較好的區分性,在臨床上可以輔助醫生對癲癇發作進行快速準確的檢測,對預測癲癇發作的研究也有積極意義。
引言
癲癇是最常見的神經系統疾病之一,世界上有約1%的癲癇病患者[1]。準確地檢測癲癇的發作,有時需要專家們記錄連續幾天的癲癇腦電圖,研究并分析大量的腦電圖數據,既耗時又繁瑣。腦電圖作為研究大腦復雜動力學行為的一個非常有效的工具,其波形可以反映大腦的不同生理狀態,能夠將癲癇這種復雜的大腦動態活動可視化地輸出。
國內外學者對自動檢測癲癇的研究已歷時多年,但由于腦電圖屬于不穩定的時間序列,暫時還沒有特別有效的檢測方法。目前通過腦電圖分析實現自動監測癲癇一般分為兩個步驟:特征提取和分類識別。在特征提取部分,由于時域和頻域分析方法能夠提供癲癇腦電信號時域和頻域局部信息,在癲癇檢測領域得到了廣泛應用。該方法通過分析腦電信號的振幅[2]、功率譜[3]、相關尖峰幅度和節律性[4]、小波分析[5-7]、經驗模式分解[8-9]、可視圖[10]和遞歸圖量化[11]來提取特征。例如:Wilson等[12]4名專家經人工記錄并分析了癲癇腦電圖,實驗結果達到了92%的敏感性(sensitivity)。另外,可以用來自動檢測癲癇腦電圖的分類方法有很多,包括判別分析(discriminate analysis)[13]、最近鄰分類(nearest neighbor classifier)[14]、神經網絡(neural networks)[7, 15-16]、支持向量機(support vector machine,SVM)[17-18]等。腦電圖是一種時變的、非平穩的非線性動力學信號,線性分析方法在處理這種無規則的非線性信號時有局限性,相比之下,非線性方法更適合用來分析腦電圖。基于熵的非線性分析方法,由于能量化載有疾病信息的腦電圖復雜度,近年來備受關注。Xu等[19]應用相關維和近似熵(approximate entropy,ApEn)來分析大鼠癲癇發作過程的腦電圖特征,表明非線性動力學指標可以用來表征腦電混沌狀態的特征參數;文獻[17]中,將Hurst指數和幅度相對均值輸入到SVM分類器,癲癇發作間歇期和發作期的識別率達到98.75%;Ouyang等[20]提取癲癇腦電圖的樣本熵(sample entropy,SE)和多尺度熵,并結合線性鑒別分類方法區分無癲癇發作、癲癇發作之前、癲癇發作三種狀態,識別率達90.6%;Yuan等[21]用近似熵ApEn、Hurst指數等組合特征(united features,UF)作為癲癇發作間期和發作期的特征,并用極限學習機(extreme learning machine,ELM)進行分類,實現了96.5%的識別率。
排列熵(permutation entropy,PE)是由Bandt等[22]提出來的一種基于復雜性量度的非線性動力學參數,在給定的時間序列上,通過與鄰近值進行比較、重構,形成新的符號序列之后計算求得的,只需較短的序列長度就能估計出較為穩定的系統特征值。該方法目前已應用于腦電圖[20, 23-24]分析、ECoG[25]、股市分析[26]、突變檢測[20]等領域。文獻[18]用PE提取5種狀態的特征值,結合SVM分類,平均識別率達到了85.16%;文獻[23]比較了PE和SE,證明了相比SE,PE更適合實時在線監測癲癇信號。然而,這些熵值只能監測腦電圖時間序列在單一尺度上的隨機性和動力性突變。Aziz等[27]對熵進行了改進,提出多尺度排列熵(multi-scale permutation entropy,MPE)的概念,證明它能夠衡量時間序列在不同尺度下的復雜性和隨機性,并通過分析生理信號與多尺度熵對比表明,MPE的魯棒性更好。事實上,文獻[20]應用MPE結合線性鑒別分析(linear discriminant analysis,LDA)的方法檢測無癲癇發作、發作之前、發作期三種信號,已經證明了其可行性并實現了90.6%的識別率。
綜上所述,由于癲癇腦電圖比較復雜,單一尺度的分析不能更好地反映其動力學特征,因此本文采用MPE來增強癲癇信號的特征提取能力,提出一種基于MPE和SVM的癲癇預測方法。首先將MPE應用于5種腦電圖信號特征的提取,然后把結果送入SVM進行癲癇發作檢測。為了對比性能,本文同時提取了s=1,2,3,4,5的MPE值,并使用相同的SVM分類器。
1 實驗數據與方法
1.1 實驗數據
本文使用的實驗數據是一組公共數據,由德國波恩大學的癲癇病中心采集得到,目前已經被公眾承認并研究使用[10, 28]。共包含5個腦電圖數據集(A~E),其中A、B采用表面電極,C、D和E采用顱內電極;A、B為正常腦電圖信號,C、D為癲癇患者正常狀態的腦電圖信號,E為癲癇發作腦電圖信號。每個數據集包含100個單通道、時長為23.6 s的腦電圖實驗數據,每一段記錄都無偽差且平穩,使用標準的128通道放大器,以0.53~40 Hz進行帶通濾波,采樣頻率為176.31 Hz。具體實驗數據情況如表 1所示。

1.2 排列熵和多尺度排列熵
PE是由Bandt等提出的一種衡量一維時間序列復雜度的平均熵參數。假設一維時間序列{x(i),i=1,2,…,N},將其重構到一個m維的相空間。
$x_i^m = \left[ {x\left( i \right),x\left( {i + t} \right),x\left( {i + 2t} \right), \cdots ,x\left( {i + \left( {m - 1} \right)t} \right)} \right],$ |
其中m為嵌入相空間維數,t為延遲時間,1≤i≤N-(m-1)t。設yi=xim,將yi中m個元素按照升序排列,即xi(t)={xt+j1≤xt+j2≤…≤xt+jm}。若有元素數值相等,則按照先后順序排列。定義π={j1,j2,…,jm}表示元素序列{1,2,…,m}的一種排列,則m個元素必有m!種排列方式。假設πi出現的概率為pj(π),則總共有m!個pj(π),則m階的PE值為
$H\left( {x,m} \right) = - \sum\limits_{j = 1}^{m!} {{p_j}\left( \pi \right)\ln \left( {{p_j}\left( \pi \right)} \right)} ,$ |
由于式(2)源自于Shannon熵,因此它反映的是序列x(i)的規律性,H(m)取值范圍為0≤H(m)≤ln(m!)。 H(m)越小,說明時間序列越有規律,比如遞增、遞減、周期性時,最小可取到下限0 (時間序列為恒定不變數值時);反之,則說明時間序列越隨機無序,當時間序列足夠長,所有值都相互獨立無關、無規律可循時,其值可以接近上限ln(m!)。
類似于多尺度熵(multi-scale entropy,MSE)[29],MPE是基于PE并結合“多尺度”的概念提出來的,其計算過程包括兩個部分。首先,對原時間序列進行粗粒化處理,得到粗粒化序列{yj(s)},其表達式為
$y_j^{\left( s \right)} = \frac{1}{s}\sum\limits_{i = \left( {j - 1} \right)s + 1}^{js} {{x_i}} ,$ |
其中s是尺度因子,s=1,2,…,j=1,2,…,[N/s],[N/s]表示取整。因此,粗粒化之后的時間序列長度為[N/s],顯然,當s=1時,粗粒化序列就是原時間序列。然后,以尺度因子s為自變量,重新送入式(1)~(3)計算每個粗粒化時間序列yj的PE值。式(3)的MPE表達方式變為
$\begin{array}{l} H\left( {x,m,s} \right) = - \sum\limits_{j = 1}^{m!} {{p_j}} \left( {\sum\limits_{i = \left( {j - 1} \right)s + 1}^{js} {{x_i},\pi } } \right)\ln \\ \left( {{p_j}\left( {\sum\limits_{i = \left( {j - 1} \right)s + 1}^{js} {{x_i},\pi } } \right)} \right), \end{array}$ |
在計算MPE的過程中,參數m和s的選取很重要,當m取太小(小于3)時,每個腦電圖記錄只有若干不同的表型,性能并不理想;當s取值太大時,粗粒化過程就會減少由[N/S]決定的模板的樣本量,會導致PE值不穩定[30]。本實驗中,s取值為5,m取值為4。
1.3 支持向量機
SVM是由前蘇聯教授Vapnik提出的,它是一種基于內核類的非常強大的分類器[31]。假設有訓練樣本{(x1,y1),(x2,y2),…,(xn,yn)},其中yi為分類標簽,可以取+1、-1代表類別。例如,用樣本點(+1)和樣本點(-1)分別代表兩類訓練樣本,可以將+1類和-1類分開的超平面有很多,這些超平面可能由k最近鄰算法、神經網絡、回歸算法得到,但是相比SVM來說,它們沒有直觀的幾何解釋。盡管此類超平面很多,但是最優的超平面只有一個,按照SVM得到的超平面H不但能將兩類訓練樣本正確分開,而且能使兩類間距最大。SVM基本原理是將輸入向量X通過某種既定的核函數映射到高維空間Z,在這個高維空間尋找決策平面,使得標簽不同的兩類別之間距離最大化,從而找到區分+1和-1的最優超平面H。它在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,目前已廣泛用于腦電圖信號的模式識別[18, 25]、數據挖掘[32]等實際問題中。
根據樣本類別多少,SVM可以分為一對一(one-versus-one,OVO)、一對其他(one-versus-rest,OVR)和有向無環樹(directed acyclic graph,DAG)三種分類器。本文為了區分數據集中5種腦電狀態,設置了A-E、B-E、C-E、D-E四個OVO分類器。實驗過程共分為三步,除了上述的PE和MPE特征提取和SVM分類識別,為了研究數據長度N對PE值的影響,實驗首先對原始數據進行了預處理。實驗流程如圖 1所示。

2 實驗結果與分析
本文采用R包MDPE實現MPE和PE特征數據提取[25],其他所有算法用MATLAB編寫,在Windows 32位平臺上選用R2010b版MATLAB進行實驗,并且以文獻[33]提出的LIBSVM作為分類工具。
2.1 數據預處理
本實驗首先對腦電圖數據進行了預處理:原始A~E每個數據記錄長度為4 097的時間序列,本文將最后1個點舍去,把每條記錄分別分割成長度為128、256、512、1 024、2 048的腦電圖片段,這樣A~E五個數據集都有32*100、16*100、8*100、4*100、2*100個時間記錄片段;然后提取每個時間片段當s=1,2,3,4,5時對應的PE值和其組合成的5維MPE值作為特征量,分類別全部輸入SVM分類器進行分類。特征參數PE和MPE的計算過程中,參數嵌入維數m=4,延遲時間t=1,尺度因子s=5;4個SVM分類器的參數C和γ均經過5折交叉驗證(5-fold cross-validation)確定,最優參數的取值范圍設定為bestC∈[0.1,100],bestγ∈[0, 100],使用RBF核函數進行分類。實驗中對應的時間片段長度、特征值個數、訓練集大小如表 2所示,訓練集和測試集均以特征為單位,且測試集大小為訓練集的一半。每次實驗隨機抽取訓練集和測試集,重復10次,獲取平均值。

2.2 尺度因子s的優選
隨著尺度因子s的變化,健康人(A、B)和癲癇患者(C、D、E),癲癇患者發作間期(C、D)和發作期(E)EEG信號的PE值變化是不同的。圖 2表示了當時間序列長512、s取值為1~5時,5種腦電狀態的PE值。由圖 2可以看出,PE值首先隨著s的增大逐漸增大,而后趨于平穩。健康人的PE值明顯高于癲癇患者發作期PE值;健康人(A、B)的PE值隨著s的變化增幅較大,最大差幅分別為0.63和0.82,而癲癇患者發作間期(C、D)波動較為平緩,其差幅僅為0.38和0.44;總體來看,健康人(A、B)和癲癇患者發作間期(C、D)腦電圖的PE值高于發作期(E)。

圖 3則表示了時間序列512的5維MPE特征數組的分布統計。圖 3表明,健康人MPE的平均值比癲癇患者的高,且相比閉眼狀態,睜眼時的MPE更為對稱集中,平均值也更高;癲癇患者發作間期MPE值最為集中、對稱,平均值處于健康人和發作期之間;癲癇發作期的MPE值最為分散,最低值明顯低于健康狀態。

2.3 發作信號的提取
將提取到的特征參數輸入SVM分類器中進行分類,識別率輸出結果如表 3所示。表中,s=1~5分別表示將該尺度下的PE作為特征值的識別率,MPE則表示將上述PE值組合成的5維MPE作為特征值時的輸出。從表 3可以看出,不論時間序列長度為多少,將MPE作為特征值的識別率均高于單尺度的識別率,而且時間序列長度越短,這種優勢越明顯;觀察序列長度256分類器B vs E的輸出可見,單尺度識別率徘徊在80%時,MPE的識別率已達到91%以上。可見癲癇腦電的突變特征是多層次的,單一尺度的特征并不能完全反映其動力學變化。

圖 4表示了序列長度取不同的值時MPE的識別率情況。實驗結果表明,識別率隨著時間序列的長度的增大逐漸升高,在時間序列長為2 048時,都達到了100%的最高識別率,和分別為99.60%、96.25%、99.58%、99.58%的平均識別率。在區分癲癇發作間期和發作期時的識別率為99.58%,高于文獻[21]的識別率。

2.4 本方法與現有方法的對比分析
另外,本文與文獻[18]采用同樣的數據集,為了與其結果對比,本文以與其相同的方法分割出長度為173的時間序列,并用本文提出的方法進行了分類,識別率對比如表 4所示。對比說明,MPE可以作為區分健康人和癲癇患者、癲癇發作間期和發作期的特征值,而且分類性能更好。究其原因,MPE能從多尺度上提取腦電圖的特征值,從而能從多尺度上反映腦電圖的不同,所以相對PE,MPE作為特征值取得的分類性能更好。表 5中對比了本方法與現有方法的識別率,在樣本點取2 048時,本方法區別癲癇發作間期和發作期的識別率較高。


3 結論
本文用MPE作為特征對癲癇腦電圖信號進行分類。通過研究癲癇患者和正常人腦電圖信號的MPE來識別癲癇發作,并用SVM實現了分類。實驗顯示,5種狀態下腦電圖的MPE值有明顯的差別,癲癇發作期的腦電圖MPE普遍低于正常狀態,這與PE的分析一致[18];SVM的分類識別率表明:該方法在區分癲癇患者和健康人、癲癇發作間期和發作期的腦電圖時,平均分類精度分別達100%、99.58%。與PE對比分析發現,MPE比PE更能反映癲癇腦電圖多尺度上的特征,能更好、更穩定地實現癲癇預測。特別與現有的結果比,本方法的分類精度在區分D、E時較高。基于這些結論,MPE能反映癲癇患者的腦電圖多尺度上的動力學突變特征,與SVM結合的方法有較好的區分性,在臨床上可以輔助醫生對癲癇發作進行快速準確的檢測,對預測癲癇發作的研究也有積極意義。