針對睡眠腦電(EEG)信號數據不均衡分布以及多導睡眠圖采集過程中舒適性差,從而降低了模型分類能力的問題,本文提出一種基于一維寬核卷積神經網絡(WKCNN)和長短時記憶網絡(LSTM)的單導EEG信號睡眠狀態識別方法(WKCNN-LSTM)。首先,通過小波去噪,并以合成少數過采樣技術(SMOTE)與托梅克聯系對(Tomek)聯合的算法(SMOTE-Tomek)對原始睡眠EEG信號進行預處理;其次,以一維睡眠EEG信號作為模型的輸入,利用WKCNN提取頻域特征并抑制高頻噪聲;然后,利用LSTM層挖掘時域特征;最后,全連接層采用歸一化指數函數實現睡眠狀態識別。實驗表明,本文一維WKCNN-LSTM模型的分類準確率為91.80%,分類效果優于近年的同類研究,并且該模型具有良好的泛化性能。本研究不僅提高了單導睡眠EEG信號的分類準確率,也有利于促進便攜式睡眠監測設備性能的提高。
引用本文: 梁進, 周強, 李婉. 基于一維寬核卷積神經網絡—長短時記憶網絡的單導腦電信號睡眠狀態識別研究. 生物醫學工程學雜志, 2022, 39(6): 1089-1096. doi: 10.7507/1001-5515.202204021 復制
引言
睡眠是人類活動中不可缺少的一部分,良好的睡眠是個人健康的重要組成部分,也是國際社會公認的三項健康標準之一,對人體維持正常認知功能和保持健康狀態很重要[1-2]。觀察發現,整晚睡眠并不是一個單一的過程,存在復雜結構和多種生理變化。準確識別睡眠狀態能更好地了解睡眠結構和周期,從而挖掘出潛在的有用信息[3]。另外,睡眠狀態識別也是研究睡眠障礙、帕金森及癲癇等相關疾病的重要客觀指標,對于睡眠質量的分析有著重要的意義[4]。當前的睡眠狀態識別主要是基于腦電(electroencephalogram,EEG)信號方法,具有重要臨床意義和廣泛應用前景。早在1968年由Rechtschaffen等[5]提出了由Rechtschaffen和Kales共同制定出版的 “R & K分期標準”,為人體睡眠的定量分析和研究提供了重要依據。隨后美國睡眠協會(American academy of sleep medicine,AASM)在“R & K分期標準”基礎上制定了“AASM分期標準”,將人的睡眠分為清醒期(wake,W)、非快速眼動1~3期(non-rapid eye moment 1~3,N1~N3)和快速眼動期(rapid eye moment,REM)共5個階段[6]。兩種分期標準均以多導睡眠圖(polysonmnography,PSG)數據為基礎,通過多類多通道生理信號或多通道EEG信號進行睡眠狀態識別[7-10]。雖然PSG能夠獲取更豐富全面的各睡眠狀態特征,并且結果準確、可靠,但由于人體多部位佩戴電極片導致睡眠舒適度降低,存在嚴重干擾睡眠狀態的問題。鑒于單導睡眠EEG信號更便于采集和分析且降低了對睡眠狀態的影響,其精度雖有大幅度下降但仍可通過方法改進加以彌補,因此基于單導EEG信號的睡眠狀態識別研究開始受到廣泛關注,比如深度睡眠網絡就是其中一種有效的模型[11-13]。
人體自然的睡眠周期中,N1出現的時間較短,因而造成了睡眠—歐洲數據格式(sleep-European data format,Sleep-EDF)數據集中N1樣本數量與其他睡眠狀態樣本數量的不平衡問題,使得N1狀態識別率普遍不高(僅為30%~50%),這就成為了EEG信號睡眠狀態識別率不高的主要限制原因之一[14-16]。此外,Hassan等[17]通過分析得出N1識別率低的另一個原因是N1與W、N2和REM的特征相似,故大多數N1被錯誤分類。基于以上兩點原因,增加N1樣本數量和提升N1識別率成為了突破睡眠EEG信號狀態識別瓶頸的關鍵。
本文從數據類不均衡處理及神經網絡模型訓練優化兩方面開展研究工作[18-19],構建高性能的睡眠狀態識別模型,以達到準確分類睡眠狀態的目的。首先,針對N1樣本量與其他狀態樣本量不均衡的問題,采用合成少數過采樣技術(synthetic minority over sampling technique,SMOTE)聯合托梅克聯系對(Tomek link,Tomek)算法(SMOTE-Tomek)對各睡眠狀態數據進行增強與擴展,以緩解樣本數據類不均衡分布對模型造成的過擬合問題,提升N1少數類狀態識別率進而提升模型的分類能力;其次,針對N1與W、N2和REM特征相似而被誤分的問題,采用了一維寬核卷積神經網絡(width kernel convolutional neural networks,WKCNN)和長短時記憶網絡(long short term memory networks,LSTM)相結合的模型(WKCNN-LSTM),以提升模型對N1和相似特征睡眠狀態的識別率,同時首層采用寬核卷積還可抑制小波去噪后睡眠EEG信號殘留的高頻噪聲,以期進一步提高模型分類能力。本文針對睡眠EEG信號中的不均衡和N1狀態誤分問題進行充分研究實驗,利用一維WKCNN-LSTM模型對SMOTE-Tomek算法均衡化的睡眠EEG信號進行特征學習,期望在單導睡眠EEG信號采集的情況下,能使睡眠狀態識別率達到新高度,以促進輔助睡眠與人工智能的有效結合,為后期便攜式睡眠監測設備在家庭等場景下廣泛使用提供了可行性,也為睡眠誘導實驗奠定了前期基礎。
1 實驗條件
1.1 實驗數據
本文數據集來自于公開的復雜生理信號研究資源網站(research resource for complex physiologic signals,PhysioNet) (網址為:https://www.physionet.org)的Sleep-EDF數據庫[20]。該數據庫中的睡眠EEG信號采樣頻率為100 Hz,分別來自Fpz-Cz、Pz-Oz,睡眠狀態類別已根據“R & K分期標準”進行了人工標注[21]。本文實驗數據是從Fpz-Cz單導睡眠EEG信號中隨機選取了50組數據作為訓練集和驗證集,10組數據作為泛化測試集,依據“AASM分期標準”,分為W、N1、N2、N3、REM共5個狀態[22],并截取睡眠前后各30 min的W狀態數據,同時以專家標注結果作為標簽對本文方法與模型進行實驗。
1.2 評價指標
為方便對模型性能有效性進行驗證,同時也便于和相關最新成果進行對比,本文從“總體”和“類別”兩方面分別引入不同指標開展評價。在“總體”評價指標上,選用準確率(accuracy,ACC)和宏平均F1值(macro-averaged F1-score,MF1)開展評估;在“類別”評價指標上,選用精度(precision,PR)、召回率(recall,RE)和F1值(F1-score,F1)開展評估。
2 方法與模型
2.1 單導睡眠EEG信號的分類識別原理
一方面,本文面對N1數據量嚴重不足致使睡眠數據類別失衡的問題,在預處理中采用SMOTE-Tomek方法進行數據均衡。另一方面,針對N1狀態誤分以及小波去噪后睡眠EEG信號殘留高頻噪聲的問題,本文發揮了WKCNN提取一維數據頻域特征的能力以及抑制高頻噪聲的性能,但是單一的WKCNN提取特征時又存在時序信息丟失的問題,而LSTM可用于描述時間上連續狀態的輸出,并有記憶時序信號的優勢。因此,本文將WKCNN與LSTM級聯成WKCNN-LSTM模型,提取更全面且豐富的睡眠EEG信號特征進行狀態識別,該方法的原理如圖1所示。

首先,從Sleep-EDF數據集中選擇單導睡眠EEG信號;其次,利用小波去噪對原始睡眠EEG信號去噪處理,消除睡眠EEG信號中的噪聲干擾,采用SMOTE-Tomek算法構建均衡數據集;最后,預處理后的睡眠EEG信號作為一維WKCNN-LSTM模型的輸入數據訓練模型,通過評價指標對模型結構及參數進行優化,以實現對不同睡眠狀態的準確識別。
2.2 睡眠EEG數據預處理
2.2.1 睡眠EEG信號的小波去噪
在臨床無創采集睡眠EEG信號過程中會出現基線漂移和噪聲等干擾,令原始睡眠EEG信號的局部混雜較為嚴重,為了排除干擾噪聲的影響,本文采用多貝西(Daubechies,Db)系列小波去除噪聲并最大限度地保留信號的原始特性。小波去噪處理中,以每30 s睡眠狀態為單位,使用小波去噪函數、Db4小波基函數以及啟發式軟閾值對原始睡眠EEG信號進行7層分解去噪,隨后進行小波逆變換,重構得到純凈的睡眠EEG信號。
2.2.2 基于SMOTE-Tomek算法均衡化處理
通過對本文50組數據統計分析,其結果如表1所示,顯著可見各睡眠狀態數據量嚴重不均衡,其中N1占比僅為9.64%,N2占比高達40.8%,明顯區別于其他狀態。不均衡的數據分布會導致模型學習過程中過多地關注多類別樣本,造成少數類狀態識別率偏低,其不僅導致少數類狀態特征學習不充分,也影響了模型整體分類效果。為了解決狀態不均衡問題,本文通過SMOTE-Tomek算法對數據集進行預處理,令W、N1、N3和REM獲得與N2相同數量的樣本數,如此在不改變維度的同時緩解了睡眠EEG信號數據集的狀態不均衡情況。

針對SMOTE算法在解決數據不均衡問題中的局限性,即SMOTE算法通常是無差別地隨機選取少數類樣本用以合成新樣本,而新生成的樣本往往會出現在多數類的決策區域中,造成了兩種類別的決策區域重疊,導致類內重疊增大,合成樣本質量不高,后期分類極易出現過擬合問題[18],本文在SMOTE算法中融入了Tomek。Tomek是相反類最近鄰樣本之間的一對連接,當兩個樣本互為最近鄰且屬不同類別,則這兩個樣本就形成Tomek,這說明其中一個樣本為噪聲或者這兩個樣本都位于邊界,進而通過刪除Tomek,就能刪掉類間的重疊樣本。SMOTE-Tomek算法原理如圖2所示,首先,對原始數據集采用SMOTE進行處理得到新數據集;其次,以Tomek識別互為最近鄰且屬不同類別的樣本;最后,去除邊界與噪聲點而得到均衡數據集。

2.3 構建網絡模型
2.3.1 模型結構
本文提出的一維WKCNN-LSTM級聯模型由5個卷積層、4個池化層、2個批標準化層、3個LSTM層以及1個全連接層組成,同時在網絡中添加4個隨機失活層,有效防止過擬合現象的發生,具體結構如圖3所示。其中,WKCNN從單導睡眠EEG信號中獲取頻域及深層次特征并抑制小波去噪后殘留的高頻噪聲;LSTM提取時域特征并發掘睡眠各狀態前后的依賴關系;全連接層采用歸一化指數函數進行睡眠狀態分類。

卷積神經網絡(convolutional neural networks,CNN)具有強大的特征學習能力,但是單一CNN無法有效提取睡眠EEG信號中各睡眠狀態之間的時序信息,存在因信息丟失造成睡眠狀態識別不準確的問題。LSTM作為循環神經網絡的一種重要衍生網絡,不但能夠體現出睡眠EEG信號特征在時間上的關聯性,而且能夠解決序列間長時間依賴的問題,因此將CNN與LSTM級聯,CNN獲取睡眠狀態內的共性表征信息,LSTM提取睡眠狀態間的差異表征信息,從而使得睡眠狀態特征信息表達更完備。
不過,CNN-LSTM級聯模型中的小卷積核雖具有提取更細致的局部特征能力且一定程度上改善了睡眠狀態識別效果,但由于小卷積核分辨率低、容易受到高頻噪聲的影響,故該網絡對小波去噪后殘留的高頻噪聲較為敏感;與之相反,大卷積核可以更好地關注長程區域的低頻特征,而睡眠EEG信號處于0.5~30 HZ低頻區域。為了保留獲取局部特征能力,寬核卷積尺寸亦不能過大。基于以上的研究,本文提出在首層采用寬核卷積的WKCNN-LSTM模型。
該模型分類過程如下:① 將小波去噪和SMOTE-Tomek算法預處理后的一維睡眠EEG信號輸入至WKCNN,利用不同尺寸卷積核逐步提取睡眠狀態內的深層次特征;② 在提取特征過程中,經過池化操作,降低數據維度,保留主要特征信息;③ 在WKCNN之間以及LSTM之間通過添加隨機失活層以防止出現過擬合現象;④ 將降維及舍棄后的特征數據作為LSTM的特征輸入,用于學習睡眠狀態間的時序特征;⑤ 全連接層使用歸一化指數函數,對各睡眠狀態進行分類,完成識別。
2.3.2 模型參數
模型輸入1 × 3 000的睡眠EEG信號,WKCNN首層卷積采用256單元1 × 128卷積核,步長為2,獲取更全局、語義層次更高的特征并抑制高頻噪聲干擾;第二卷積、第三層卷積與第四卷積、第五層卷積分別采用128單元1 × 15卷積核和64單元1 × 3卷積核,其中步長依次為1和2交替,提取更深層次的局部細節特征信息;池化為最大池化,大小為1 × 2,其作用是逐漸減小卷積層輸出的特征維度并進行二次特征提取;模型中所有隨機失活率設為0.3,減少網絡中的參數和計算量防止過擬合。經過WKCNN學習后的睡眠EEG信號輸入到分別含有128、128和32單元的LSTM中。全連接層使用歸一化指數函數作為分類器,對睡眠狀態分類識別。模型采用自適應矩估計對權值進行優化,其計算效率高且內存需求低,整體優化效果好于隨機梯度下降及均方根傳遞優化器[19]。損失函數(loss function,Loss)采用交叉熵作為衡量模型概率分布與真實分布的差異情況。
模型參數眾多,任一參數的選擇均會直接影響最終結果。為找到最優參數組合,本文采用網格搜索法選擇學習率、批大小和訓練次數。當學習率初始值設為0.000 5,每訓練10次,學習率減小為原來的0.5倍;批大小與訓練次數分別為128和80時,模型分類能力達到最優。
3 實驗結果分析
為驗證本文所提出方法與模型的合理性,分為A、B、C共三組主要實驗。A組采用的訓練集、驗證集均為SMOTE-Tomek算法預處理后的均衡數據;B組采用未經SMOTE-Tomek算法預處理的不均衡數據;C組采用泛化測試集,用于檢驗模型的泛化性能。
訓練集和驗證集按照9:1劃分,分別用于模型訓練與加速收斂。Loss所反映的是預測值與期望值之間的誤差,因此Loss越小越好,ACC反之。如圖4所示,ACC與Loss曲線經多次訓練之后逐漸趨于收斂,Loss趨于0.258,ACC趨于91.80%。

如表2所示為A組分類結果,其中行、列分別表示睡眠醫師標注數量與模型預測分類數量,加粗數字為模型正確分類的樣本數。最后5列表示根據混淆矩陣計算的評價指標。

3.1 首層寬核卷積尺寸選取
為了研究首層寬核卷積尺寸對模型分類及N1狀態識別能力的影響,本文分別對64、96、128、192的寬核卷積尺寸以A組實驗為基礎進行測試。其結果對比如圖5所示,無論是ACC、MF1還是N1類F1值,都隨著首層寬核卷積尺寸的增加而提升,128時達到最大,之后出現下降趨勢。與64寬核相比,128寬核在總體評價指標上有4%左右的提升,N1類F1值有9%的提升,說明首層采用128寬核可以提升模型的整體分類能力及N1狀態識別能力。因此WKCNN首層采用1×128的寬核卷積從睡眠EEG信號中提取各狀態特征并抑制高頻噪聲的影響。

3.2 均衡性能
如表3所示,B組實驗N1狀態識別效果最差,F1值僅為58.86%;其他睡眠狀態F1值在80%以上。其中N1狀態與W、N2、REM狀態發生混淆,這是由于這些狀態特征接近,且N1狀態無法為模型提供充足的樣本數據,使得N1極易受到鄰近狀態與相似狀態的共同影響。

通過表2與表3評價指標對比,其結果如表4所示。模型采用SMOTE-Tomek算法預處理后的類均衡數據獲得的分類效果明顯優于未經處理的類不均衡數據。N1狀態F1值提升幅度最大,其次為REM。實驗表明,SMOTE-Tomek算法預處理的類均衡數據用于模型訓練,在提升模型分類能力的同時,對各睡眠狀態的識別率均有提升,說明了本文方法與模型一定程度上緩解了類不均衡帶來的狀態識別問題。

3.3 泛化性能
為驗證本文模型結構與參數是否真正具備睡眠狀態識別能力,也為后期睡眠誘導實驗奠定前期基礎。C組實驗結果如表5所示,模型分類ACC達到89.02%,驗證了該模型具備良好的泛化性能,可準確識別睡眠狀態。

3.4 相關研究對比
將本文結果與近年發表文獻[23-27]的相關研究結果進行對比,對比研究均使用Sleep-EDF數據集中Fpz-Cz睡眠EEG信號數據,結果如表6所示。結果表明,本文方法與模型在評價指標ACC與MF1上取得最佳效果,達到較優水平并有顯著的提升。

4 結論
本文為解決睡眠狀態類不均衡、N1與W和REM特征相似被誤分以及單一CNN或LSTM網絡存在著信息丟失而造成識別不準確的三大問題,提出了基于單導EEG信號的一維WKCNN-LSTM睡眠狀態識別方法。首先,通過SMOTE-Tomek算法解決了N1樣本量缺乏導致的類別不均衡問題;其次,在WKCNN首層采用寬核卷積解決了N1狀態誤分問題,同時抑制了小波去噪后殘留的高頻噪聲;最后,充分利用WKCNN-LSTM善于提取睡眠EEG信號頻域特征信息和時序信息的優勢,從單導睡眠EEG信號中自適應獲取更深入的數據特征。實驗結果表明,本文方法與模型在Sleep-EDF數據集上依據“AASM分期標準”進行五分類識別,ACC為91.80%,相較于五類基準模型明顯提升,此外模型的泛化性能ACC為89.02%,并在N1狀態識別能力上也有顯著提升。本文研究不僅為后期便攜式單導EEG信號監測設備在家庭或實驗室實時監測并自動識別睡眠狀態提供了可行性,也為課題后期的睡眠誘導實驗奠定了前期基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:所有作者參與本文構思原創。梁進是實驗與論文撰寫完成人,承擔平臺搭建、模型代碼編寫及數據收集和分析等工作;周強設計論文框架,提供修改建議,閱讀并審核同意發表稿件;李婉負責論文審閱修訂,并對論文修改提出建設性意見。
引言
睡眠是人類活動中不可缺少的一部分,良好的睡眠是個人健康的重要組成部分,也是國際社會公認的三項健康標準之一,對人體維持正常認知功能和保持健康狀態很重要[1-2]。觀察發現,整晚睡眠并不是一個單一的過程,存在復雜結構和多種生理變化。準確識別睡眠狀態能更好地了解睡眠結構和周期,從而挖掘出潛在的有用信息[3]。另外,睡眠狀態識別也是研究睡眠障礙、帕金森及癲癇等相關疾病的重要客觀指標,對于睡眠質量的分析有著重要的意義[4]。當前的睡眠狀態識別主要是基于腦電(electroencephalogram,EEG)信號方法,具有重要臨床意義和廣泛應用前景。早在1968年由Rechtschaffen等[5]提出了由Rechtschaffen和Kales共同制定出版的 “R & K分期標準”,為人體睡眠的定量分析和研究提供了重要依據。隨后美國睡眠協會(American academy of sleep medicine,AASM)在“R & K分期標準”基礎上制定了“AASM分期標準”,將人的睡眠分為清醒期(wake,W)、非快速眼動1~3期(non-rapid eye moment 1~3,N1~N3)和快速眼動期(rapid eye moment,REM)共5個階段[6]。兩種分期標準均以多導睡眠圖(polysonmnography,PSG)數據為基礎,通過多類多通道生理信號或多通道EEG信號進行睡眠狀態識別[7-10]。雖然PSG能夠獲取更豐富全面的各睡眠狀態特征,并且結果準確、可靠,但由于人體多部位佩戴電極片導致睡眠舒適度降低,存在嚴重干擾睡眠狀態的問題。鑒于單導睡眠EEG信號更便于采集和分析且降低了對睡眠狀態的影響,其精度雖有大幅度下降但仍可通過方法改進加以彌補,因此基于單導EEG信號的睡眠狀態識別研究開始受到廣泛關注,比如深度睡眠網絡就是其中一種有效的模型[11-13]。
人體自然的睡眠周期中,N1出現的時間較短,因而造成了睡眠—歐洲數據格式(sleep-European data format,Sleep-EDF)數據集中N1樣本數量與其他睡眠狀態樣本數量的不平衡問題,使得N1狀態識別率普遍不高(僅為30%~50%),這就成為了EEG信號睡眠狀態識別率不高的主要限制原因之一[14-16]。此外,Hassan等[17]通過分析得出N1識別率低的另一個原因是N1與W、N2和REM的特征相似,故大多數N1被錯誤分類。基于以上兩點原因,增加N1樣本數量和提升N1識別率成為了突破睡眠EEG信號狀態識別瓶頸的關鍵。
本文從數據類不均衡處理及神經網絡模型訓練優化兩方面開展研究工作[18-19],構建高性能的睡眠狀態識別模型,以達到準確分類睡眠狀態的目的。首先,針對N1樣本量與其他狀態樣本量不均衡的問題,采用合成少數過采樣技術(synthetic minority over sampling technique,SMOTE)聯合托梅克聯系對(Tomek link,Tomek)算法(SMOTE-Tomek)對各睡眠狀態數據進行增強與擴展,以緩解樣本數據類不均衡分布對模型造成的過擬合問題,提升N1少數類狀態識別率進而提升模型的分類能力;其次,針對N1與W、N2和REM特征相似而被誤分的問題,采用了一維寬核卷積神經網絡(width kernel convolutional neural networks,WKCNN)和長短時記憶網絡(long short term memory networks,LSTM)相結合的模型(WKCNN-LSTM),以提升模型對N1和相似特征睡眠狀態的識別率,同時首層采用寬核卷積還可抑制小波去噪后睡眠EEG信號殘留的高頻噪聲,以期進一步提高模型分類能力。本文針對睡眠EEG信號中的不均衡和N1狀態誤分問題進行充分研究實驗,利用一維WKCNN-LSTM模型對SMOTE-Tomek算法均衡化的睡眠EEG信號進行特征學習,期望在單導睡眠EEG信號采集的情況下,能使睡眠狀態識別率達到新高度,以促進輔助睡眠與人工智能的有效結合,為后期便攜式睡眠監測設備在家庭等場景下廣泛使用提供了可行性,也為睡眠誘導實驗奠定了前期基礎。
1 實驗條件
1.1 實驗數據
本文數據集來自于公開的復雜生理信號研究資源網站(research resource for complex physiologic signals,PhysioNet) (網址為:https://www.physionet.org)的Sleep-EDF數據庫[20]。該數據庫中的睡眠EEG信號采樣頻率為100 Hz,分別來自Fpz-Cz、Pz-Oz,睡眠狀態類別已根據“R & K分期標準”進行了人工標注[21]。本文實驗數據是從Fpz-Cz單導睡眠EEG信號中隨機選取了50組數據作為訓練集和驗證集,10組數據作為泛化測試集,依據“AASM分期標準”,分為W、N1、N2、N3、REM共5個狀態[22],并截取睡眠前后各30 min的W狀態數據,同時以專家標注結果作為標簽對本文方法與模型進行實驗。
1.2 評價指標
為方便對模型性能有效性進行驗證,同時也便于和相關最新成果進行對比,本文從“總體”和“類別”兩方面分別引入不同指標開展評價。在“總體”評價指標上,選用準確率(accuracy,ACC)和宏平均F1值(macro-averaged F1-score,MF1)開展評估;在“類別”評價指標上,選用精度(precision,PR)、召回率(recall,RE)和F1值(F1-score,F1)開展評估。
2 方法與模型
2.1 單導睡眠EEG信號的分類識別原理
一方面,本文面對N1數據量嚴重不足致使睡眠數據類別失衡的問題,在預處理中采用SMOTE-Tomek方法進行數據均衡。另一方面,針對N1狀態誤分以及小波去噪后睡眠EEG信號殘留高頻噪聲的問題,本文發揮了WKCNN提取一維數據頻域特征的能力以及抑制高頻噪聲的性能,但是單一的WKCNN提取特征時又存在時序信息丟失的問題,而LSTM可用于描述時間上連續狀態的輸出,并有記憶時序信號的優勢。因此,本文將WKCNN與LSTM級聯成WKCNN-LSTM模型,提取更全面且豐富的睡眠EEG信號特征進行狀態識別,該方法的原理如圖1所示。

首先,從Sleep-EDF數據集中選擇單導睡眠EEG信號;其次,利用小波去噪對原始睡眠EEG信號去噪處理,消除睡眠EEG信號中的噪聲干擾,采用SMOTE-Tomek算法構建均衡數據集;最后,預處理后的睡眠EEG信號作為一維WKCNN-LSTM模型的輸入數據訓練模型,通過評價指標對模型結構及參數進行優化,以實現對不同睡眠狀態的準確識別。
2.2 睡眠EEG數據預處理
2.2.1 睡眠EEG信號的小波去噪
在臨床無創采集睡眠EEG信號過程中會出現基線漂移和噪聲等干擾,令原始睡眠EEG信號的局部混雜較為嚴重,為了排除干擾噪聲的影響,本文采用多貝西(Daubechies,Db)系列小波去除噪聲并最大限度地保留信號的原始特性。小波去噪處理中,以每30 s睡眠狀態為單位,使用小波去噪函數、Db4小波基函數以及啟發式軟閾值對原始睡眠EEG信號進行7層分解去噪,隨后進行小波逆變換,重構得到純凈的睡眠EEG信號。
2.2.2 基于SMOTE-Tomek算法均衡化處理
通過對本文50組數據統計分析,其結果如表1所示,顯著可見各睡眠狀態數據量嚴重不均衡,其中N1占比僅為9.64%,N2占比高達40.8%,明顯區別于其他狀態。不均衡的數據分布會導致模型學習過程中過多地關注多類別樣本,造成少數類狀態識別率偏低,其不僅導致少數類狀態特征學習不充分,也影響了模型整體分類效果。為了解決狀態不均衡問題,本文通過SMOTE-Tomek算法對數據集進行預處理,令W、N1、N3和REM獲得與N2相同數量的樣本數,如此在不改變維度的同時緩解了睡眠EEG信號數據集的狀態不均衡情況。

針對SMOTE算法在解決數據不均衡問題中的局限性,即SMOTE算法通常是無差別地隨機選取少數類樣本用以合成新樣本,而新生成的樣本往往會出現在多數類的決策區域中,造成了兩種類別的決策區域重疊,導致類內重疊增大,合成樣本質量不高,后期分類極易出現過擬合問題[18],本文在SMOTE算法中融入了Tomek。Tomek是相反類最近鄰樣本之間的一對連接,當兩個樣本互為最近鄰且屬不同類別,則這兩個樣本就形成Tomek,這說明其中一個樣本為噪聲或者這兩個樣本都位于邊界,進而通過刪除Tomek,就能刪掉類間的重疊樣本。SMOTE-Tomek算法原理如圖2所示,首先,對原始數據集采用SMOTE進行處理得到新數據集;其次,以Tomek識別互為最近鄰且屬不同類別的樣本;最后,去除邊界與噪聲點而得到均衡數據集。

2.3 構建網絡模型
2.3.1 模型結構
本文提出的一維WKCNN-LSTM級聯模型由5個卷積層、4個池化層、2個批標準化層、3個LSTM層以及1個全連接層組成,同時在網絡中添加4個隨機失活層,有效防止過擬合現象的發生,具體結構如圖3所示。其中,WKCNN從單導睡眠EEG信號中獲取頻域及深層次特征并抑制小波去噪后殘留的高頻噪聲;LSTM提取時域特征并發掘睡眠各狀態前后的依賴關系;全連接層采用歸一化指數函數進行睡眠狀態分類。

卷積神經網絡(convolutional neural networks,CNN)具有強大的特征學習能力,但是單一CNN無法有效提取睡眠EEG信號中各睡眠狀態之間的時序信息,存在因信息丟失造成睡眠狀態識別不準確的問題。LSTM作為循環神經網絡的一種重要衍生網絡,不但能夠體現出睡眠EEG信號特征在時間上的關聯性,而且能夠解決序列間長時間依賴的問題,因此將CNN與LSTM級聯,CNN獲取睡眠狀態內的共性表征信息,LSTM提取睡眠狀態間的差異表征信息,從而使得睡眠狀態特征信息表達更完備。
不過,CNN-LSTM級聯模型中的小卷積核雖具有提取更細致的局部特征能力且一定程度上改善了睡眠狀態識別效果,但由于小卷積核分辨率低、容易受到高頻噪聲的影響,故該網絡對小波去噪后殘留的高頻噪聲較為敏感;與之相反,大卷積核可以更好地關注長程區域的低頻特征,而睡眠EEG信號處于0.5~30 HZ低頻區域。為了保留獲取局部特征能力,寬核卷積尺寸亦不能過大。基于以上的研究,本文提出在首層采用寬核卷積的WKCNN-LSTM模型。
該模型分類過程如下:① 將小波去噪和SMOTE-Tomek算法預處理后的一維睡眠EEG信號輸入至WKCNN,利用不同尺寸卷積核逐步提取睡眠狀態內的深層次特征;② 在提取特征過程中,經過池化操作,降低數據維度,保留主要特征信息;③ 在WKCNN之間以及LSTM之間通過添加隨機失活層以防止出現過擬合現象;④ 將降維及舍棄后的特征數據作為LSTM的特征輸入,用于學習睡眠狀態間的時序特征;⑤ 全連接層使用歸一化指數函數,對各睡眠狀態進行分類,完成識別。
2.3.2 模型參數
模型輸入1 × 3 000的睡眠EEG信號,WKCNN首層卷積采用256單元1 × 128卷積核,步長為2,獲取更全局、語義層次更高的特征并抑制高頻噪聲干擾;第二卷積、第三層卷積與第四卷積、第五層卷積分別采用128單元1 × 15卷積核和64單元1 × 3卷積核,其中步長依次為1和2交替,提取更深層次的局部細節特征信息;池化為最大池化,大小為1 × 2,其作用是逐漸減小卷積層輸出的特征維度并進行二次特征提取;模型中所有隨機失活率設為0.3,減少網絡中的參數和計算量防止過擬合。經過WKCNN學習后的睡眠EEG信號輸入到分別含有128、128和32單元的LSTM中。全連接層使用歸一化指數函數作為分類器,對睡眠狀態分類識別。模型采用自適應矩估計對權值進行優化,其計算效率高且內存需求低,整體優化效果好于隨機梯度下降及均方根傳遞優化器[19]。損失函數(loss function,Loss)采用交叉熵作為衡量模型概率分布與真實分布的差異情況。
模型參數眾多,任一參數的選擇均會直接影響最終結果。為找到最優參數組合,本文采用網格搜索法選擇學習率、批大小和訓練次數。當學習率初始值設為0.000 5,每訓練10次,學習率減小為原來的0.5倍;批大小與訓練次數分別為128和80時,模型分類能力達到最優。
3 實驗結果分析
為驗證本文所提出方法與模型的合理性,分為A、B、C共三組主要實驗。A組采用的訓練集、驗證集均為SMOTE-Tomek算法預處理后的均衡數據;B組采用未經SMOTE-Tomek算法預處理的不均衡數據;C組采用泛化測試集,用于檢驗模型的泛化性能。
訓練集和驗證集按照9:1劃分,分別用于模型訓練與加速收斂。Loss所反映的是預測值與期望值之間的誤差,因此Loss越小越好,ACC反之。如圖4所示,ACC與Loss曲線經多次訓練之后逐漸趨于收斂,Loss趨于0.258,ACC趨于91.80%。

如表2所示為A組分類結果,其中行、列分別表示睡眠醫師標注數量與模型預測分類數量,加粗數字為模型正確分類的樣本數。最后5列表示根據混淆矩陣計算的評價指標。

3.1 首層寬核卷積尺寸選取
為了研究首層寬核卷積尺寸對模型分類及N1狀態識別能力的影響,本文分別對64、96、128、192的寬核卷積尺寸以A組實驗為基礎進行測試。其結果對比如圖5所示,無論是ACC、MF1還是N1類F1值,都隨著首層寬核卷積尺寸的增加而提升,128時達到最大,之后出現下降趨勢。與64寬核相比,128寬核在總體評價指標上有4%左右的提升,N1類F1值有9%的提升,說明首層采用128寬核可以提升模型的整體分類能力及N1狀態識別能力。因此WKCNN首層采用1×128的寬核卷積從睡眠EEG信號中提取各狀態特征并抑制高頻噪聲的影響。

3.2 均衡性能
如表3所示,B組實驗N1狀態識別效果最差,F1值僅為58.86%;其他睡眠狀態F1值在80%以上。其中N1狀態與W、N2、REM狀態發生混淆,這是由于這些狀態特征接近,且N1狀態無法為模型提供充足的樣本數據,使得N1極易受到鄰近狀態與相似狀態的共同影響。

通過表2與表3評價指標對比,其結果如表4所示。模型采用SMOTE-Tomek算法預處理后的類均衡數據獲得的分類效果明顯優于未經處理的類不均衡數據。N1狀態F1值提升幅度最大,其次為REM。實驗表明,SMOTE-Tomek算法預處理的類均衡數據用于模型訓練,在提升模型分類能力的同時,對各睡眠狀態的識別率均有提升,說明了本文方法與模型一定程度上緩解了類不均衡帶來的狀態識別問題。

3.3 泛化性能
為驗證本文模型結構與參數是否真正具備睡眠狀態識別能力,也為后期睡眠誘導實驗奠定前期基礎。C組實驗結果如表5所示,模型分類ACC達到89.02%,驗證了該模型具備良好的泛化性能,可準確識別睡眠狀態。

3.4 相關研究對比
將本文結果與近年發表文獻[23-27]的相關研究結果進行對比,對比研究均使用Sleep-EDF數據集中Fpz-Cz睡眠EEG信號數據,結果如表6所示。結果表明,本文方法與模型在評價指標ACC與MF1上取得最佳效果,達到較優水平并有顯著的提升。

4 結論
本文為解決睡眠狀態類不均衡、N1與W和REM特征相似被誤分以及單一CNN或LSTM網絡存在著信息丟失而造成識別不準確的三大問題,提出了基于單導EEG信號的一維WKCNN-LSTM睡眠狀態識別方法。首先,通過SMOTE-Tomek算法解決了N1樣本量缺乏導致的類別不均衡問題;其次,在WKCNN首層采用寬核卷積解決了N1狀態誤分問題,同時抑制了小波去噪后殘留的高頻噪聲;最后,充分利用WKCNN-LSTM善于提取睡眠EEG信號頻域特征信息和時序信息的優勢,從單導睡眠EEG信號中自適應獲取更深入的數據特征。實驗結果表明,本文方法與模型在Sleep-EDF數據集上依據“AASM分期標準”進行五分類識別,ACC為91.80%,相較于五類基準模型明顯提升,此外模型的泛化性能ACC為89.02%,并在N1狀態識別能力上也有顯著提升。本文研究不僅為后期便攜式單導EEG信號監測設備在家庭或實驗室實時監測并自動識別睡眠狀態提供了可行性,也為課題后期的睡眠誘導實驗奠定了前期基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:所有作者參與本文構思原創。梁進是實驗與論文撰寫完成人,承擔平臺搭建、模型代碼編寫及數據收集和分析等工作;周強設計論文框架,提供修改建議,閱讀并審核同意發表稿件;李婉負責論文審閱修訂,并對論文修改提出建設性意見。