臨床上,覺醒事件主要由睡眠技師手動標注,該方法耗時,且主觀性強。本研究通過構建基于多尺度卷積和自注意力的卷積神經網絡,用1 min單通道腦電信號作為模型的輸入,實現端到端的覺醒事件自動檢測。研究結果表明,相較于基線模型,本文所提出的方法的精確召回曲線下面積和受試者操作特征曲線下面積均提升約7%。此外,單模態和多模態對比結果顯示,單通道腦電信號可實現覺醒事件的有效檢測,而簡單的多種模態拼接不能提升模型的性能。最后,基于本文所提出的模型,本研究在同一數據庫上又實現了自動睡眠分期(平均準確率73%),展示了模型較好的擴展性。本研究為實現可靠的便攜式睡眠監測提供了解決方案,同時任務遷移的使用也為臨床睡眠數據的自動分析開辟了新道路。
引用本文: 李凡, 許艷, 張斌, 叢豐裕. 基于多尺度卷積和自注意力機制的覺醒自動檢測方法. 生物醫學工程學雜志, 2023, 40(1): 27-34. doi: 10.7507/1001-5515.202204052 復制
0 引言
人的一生中有三分之一的時間是在睡眠中度過的,睡眠質量的好壞直接影響人們的身體健康、心情和生活質量[1]。阻塞性睡眠呼吸暫停(obstructive sleep apnea,OSA)是一種常見的睡眠呼吸障礙,成年人群中該病的發病率約為9%~38%[2-3]。頻繁覺醒是OSA患者常見的臨床特征之一。覺醒對于OSA患者有兩方面的影響:① 生理方面。OSA患者發生呼吸暫停或低通氣時,會引起機體短暫缺氧,致使大腦自發產生覺醒,進而刺激上呼吸道肌肉上提來吸入氣體,即覺醒有助于促進呼吸暫停事件的終止。從這個角度分析,覺醒的發生具有減緩因呼吸暫停引起的不良后果的作用[4]。此外,頻繁的覺醒會使自主神經不穩定,引起交感神經興奮,導致睡眠結構片段化,睡眠不解乏,進一步使患者出現白天嗜睡的癥狀[5]。有研究顯示,在睡眠過程中,僅頻繁覺醒就可導致患者操作能力降低、情緒低落[6-7],以及主觀和客觀困倦的增加。覺醒對OSA 患者臨床癥狀發病機制的研究至關重要,因此覺醒的識別和判讀具有重大的臨床意義。② 疾病診斷。OSA的嚴重程度是由睡眠呼吸暫停低通氣指數(apnea-hypopnea index,AHI)來反映的,即每小時睡眠過程中發生呼吸暫停和低通氣的次數。美國睡眠研究會(American academy of sleep medicine,AASM)最新判讀規則(v2.6)推薦,低通氣的判斷需在氣流下降的同時,伴有血氧飽和度下降或覺醒,因此覺醒事件的判讀與OSA嚴重程度的評估直接相關[8]。
覺醒狀態是可能導致清醒或僅引起一過性睡眠中斷的短暫現象[9]。AASM(v2.6)將覺醒事件定義為:在睡眠過程中的非快速眼動(non rapid eye movement,NREM)期,如果腦電圖(electroencephalogram,EEG)頻率相較于背景波發生突然改變,這種改變包括α波、θ波或頻率大于16 Hz(紡錘波除外)的波,至少持續3 s,且頻率改變前有不少于10 s的穩定睡眠,則可將該狀態判讀為覺醒[4]。相較于NREM期覺醒事件的判讀,快速眼動(rapid eye movement,REM)期覺醒事件的判讀還需至少1 s頦肌電圖(electromyogram,EMG)波幅的增高。多導睡眠圖(polysomnography,PSG)監測是臨床進行睡眠分析(睡眠分期、覺醒事件判讀、呼吸事件和腿動事件判定)的主要手段[10]。標準PSG監測包括多種生理信號,如EEG、EMG、心電圖(electrocardiogram,ECG)、眼電圖、口鼻氣流、鼾聲、胸腹式呼吸運動、體位和血氧飽和度等。臨床上,覺醒的判讀主要由睡眠技師手動完成,該方法耗時、耗力,且對從業人員的經驗和專業技能要求較高,主觀性較強,導致較低的評分者信度[11]。因此,發展覺醒事件自動檢測算法,有助于緩解從業者工作壓力,并為相關睡眠疾病的評估和診斷提供重要信息。
深度學習方法的出現及其在生物醫學信號處理上的成熟應用,為解決上述這些問題提供了更多的技術手段和途徑。EEG信號是覺醒事件人工判讀的“金標準”。此外,臨床表征和近年來的一些研究表明,ECG和呼吸氣流(airflow)等信號也與覺醒事件的檢測密切相關[12-13]。Howe-Patterson等[14]構建了循環—卷積神經網絡(convolutional neural network,CNN),用PSG中的12個通道信號作為模型的輸入。該方法在測試集上所得的精確召回曲線下面積 (area under the precision-recall curve,AUPRC)為54%。Zabihi等[15]基于5個通道的電生理信號,構建一維CNN模型,在公開數據集上獲得31%的AUPRC。Miller等[16]通過構建卷積-反卷積網絡,使用13個通道的電生理信號,在所用的數據庫上獲得36.9%的AUPRC。這些研究雖均基于原始信號,但所使用的通道數目較多,致使模型復雜度高,計算開銷大。Olesen等[17]基于單通道EEG信號,使用遷移學習方法實現覺醒事件的自動檢測,其所得F1分數為69.4%。Chien等[18]同樣基于單通道EEG信號,但其需要復雜的特征提取步驟,同時模型的性能受所提取的特征種類和分類器的選擇影響較大。綜上,現有關于覺醒事件自動檢測的研究主要存在以下問題:
(1)模型結構復雜,計算開銷大。現有相關研究中大多使用多模態信號作為模型的輸入,無論是何種多模態融合方式,都會使模型的復雜度和計算開銷成倍增加,但模型性能并沒有得到相應程度的提升。
(2)單一模態和多模態對覺醒事件檢測性能的差異并沒有提及。多模態的使用涉及到模態融合方式的問題,不同的多模態融合方式會對結果產生較大的影響。如果只是單純的多種模態簡單拼接,其模型的性能相比單一模態,可能不會提升很多,甚至出現負增長,而現有研究并沒有對比基于金標準的EEG信號和基于多模態這兩種不同輸入對模型性能的影響。
(3)模型可擴展性低。睡眠技師在臨床工作中,對睡眠數據進行分析時,需兼顧睡眠分期、覺醒事件檢測、呼吸事件檢測、腿動事件檢測等多種任務,因此模型的可擴展性對臨床實際應用非常重要。而現有研究中的算法模型大都專一性較強,未考慮模型的可擴展性。
為解決以上問題,本研究擬構建模塊化的CNN模型,探究單通道原始EEG信號在覺醒事件自動檢測任務中的性能,以及同一模型擴展到其他相關任務上的可能性,為實現輕量級的便攜式睡眠監測和高效的睡眠數據自動分析奠定基礎。
1 數據與方法
1.1 數據來源
本研究使用的呼吸暫停、減肥手術和持續氣道正壓(The apnea,bariatric surgery and continuous positive airway pressure,ABC)睡眠數據庫(網址為:https://sleepdata.org/datasets/abc),由匹茲堡大學組織建立,旨在評估減肥手術和持續氣道正壓通氣兩種治療方式對患有II型肥胖合并OSA患者的療效差異 [19]。該數據庫的下載和使用需向美國國家睡眠研究庫提交申請,本研究已獲得數據的下載和使用許可。ABC數據庫包含49位患者[年齡:(49.2±9.5)歲,范圍:27~65歲;男/女:28/21;身體質量指數:34.3~45.3 kg/m2;AHI:13.0~129.5 次/h;覺醒指數(arousal index,ARI):19.7~124.6 次/h]的整夜PSG記錄,數據采集自2011—2014年,共包括三個隊列(基線、9個月后隨訪和18個月后隨訪)。本研究僅使用基線數據,即患者在進行相應的干預方式之前所采集的PSG。每個PSG記錄了AASM推薦的36個導聯信號,雙極導聯的參考電極為Fpz,EEG信號的采樣頻率為256 Hz,不同模態信號的采樣頻率不同,這些PSG的時長為7~9 h。
1.2 數據預處理
數據預處理包含以下步驟:
(1)信號提取。經本文作者前期研究發現,相較于前額和枕區,中央區(C3、C4)能夠較好地反映EEG信號的變化特點,且C4為AASM推薦的中央區記錄導聯,所以本研究首先從49個PSG記錄中提取出C4-Fpz信號。
(2)信號重采樣。為了之后和其它數據庫的同類數據結果做對比,本文對該信號進行200 Hz的重采樣。
(3)信號分割。30 s為AASM手動評分規則中推薦使用的幀長,但在臨床工作中,通常會出現覺醒跨幀的情況,即一個覺醒事件的持續時間橫跨兩個相鄰的幀[8]。因此本研究使用60 s滑動窗口和30 s的步長對C4-Fpz信號進行樣本分割,分割后的每個樣本形狀為(1,12 000)。此外,為了避免因睡眠起始和結束時包含過多清醒(wake,W)期導致準確率偏高的現象,刪除了PSG記錄兩端多余的W期信號,只保留了睡眠開始和結束后5 min的清醒時間。
(4)標簽生成。臨床上常見的覺醒事件可分為四類:自發覺醒、呼吸事件相關覺醒、腿動相關覺醒和周期性腿動相關覺醒。據本研究調查,對于OSA患者,呼吸事件相關覺醒在所有覺醒事件中占比最高,且該數據庫對覺醒的標注,并沒有區分所屬類別。因此,在生成標簽過程中,當人工評分的覺醒事件出現在60 s睡眠期時間窗內,且持續至少3 s時,該樣本對應的標簽為“1”;否則,為“0”。如圖1所示為出現覺醒事件(方框標注)和正常睡眠狀態下中央區EEG信號的示例。

1.3 模型結構
基于本課題組前期睡眠分期的研究工作[20],本研究提出的卷積注意力模型結構及對比模型結構如圖2所示。圖2中的“卷積注意力模型”結構,主要包括多尺度卷積和自注意力(self-attention,SA)塊。首先,N個(1,12 000)的樣本(表示為I)輸入到多尺度卷積中。本研究相較于文獻[20],引入了多尺度卷積;其次,將多尺度卷積提取的特征輸入到普通的卷積塊中;然后,將卷積塊提取的高級特征(表示為F)輸送到SA塊中;最后,使用全局平均池化(global average pooling,GAP)層將SA輸出的特征轉換為特征向量,并對當前樣本是否包含覺醒事件進行檢測。下面將依次介紹多尺度卷積和SA塊的工作原理。

(1)多尺度卷積。多尺度卷積的計算過程如式(1)~式(3)所示。本文用Conv1D(m, n)表示卷積核數為m,卷積核大小為n的一維卷積層。如圖2“卷積注意力模型”所示,模型的輸入I分別與Conv1D(64,3)和Conv1D(64,100)進行卷積。其中,前者用來提取EEG信號中的時間信息(Bmin),后者用來提取EEG信號的頻率特征(Bmax)。隨后,將這兩種類型的特征拼接起來(concatenate,Concat),形成特征集合(B)。
![]() |
![]() |
![]() |
(2)SA塊。SA已被成功應用到自然語言處理等任務中[21-22]。首先,由卷積塊(卷積塊中各個卷積層的m和n如圖2所示)形成的特征圖被映射為三組向量f、g和h。其次,將f和g向量點乘(),并除以h的維度(d)的開方。然后,用歸一化指數函數(softmax)計算特征圖的注意力權重(O)。該過程如式(4)~式(7)所示。
![]() |
![]() |
![]() |
![]() |
GAP的有效性已在本課題組之前的研究中得到驗證[20, 23]。本研究使用GAP將SA塊的每個輸出映射為特征值,進一步構成特征向量。最后,分類層根據該特征向量計算出有、無覺醒的概率,并給出預測結果。
2 實驗與結果
2.1 實驗
本研究使用7折交叉驗證來評估算法的魯棒性,即將49位患者的PSG數據平均分成7組,每折交叉驗證中,其中一組作為測試集,其余6組用做訓練集和驗證集,如此循環7次,使每個PSG數據都能經過獨立測試。模型在訓練過程中,用回調函數(callback)來保存驗證集上獲得最高準確率時模型的權重,并用該權重對預留樣本進行測試。此外,為了避免過擬合,同時節省訓練時間,模型的訓練還使用早停策略(early stopping)。模型的批訓練大小和迭代次數分別設置為128和200。模型分別使用自適應估計(adaptive moment estimation,Adam)和多分類交叉熵損失函數(categorical_crossentropy)作為優化器和損失函數。平均準確率、F1分數常作為衡量二分類模型精確度的指標;且現有關于覺醒事件自動檢測的文獻多用AUPRC和受試者操作特征曲線下面積 (area under the receiver operating characteristic,AUROC)來評價所提出方法的性能,分別表示精確度—召回率曲線下的面積和真陽率—假陽率組成的曲線下的面積,其值越大,說明模型對陽性樣本和陰性樣本的區分度越高。基于此,本研究除了準確率外,還使用F1分數、AUPRC、AUROC共4個指標對模型的性能進行全面的評價。
2.2 卷積注意力模型與其變體的結果對比
為了驗證模型設計中多尺度卷積和SA塊的有效性,本研究首先設置基線模型,其模型結構如圖2中“基線模型”所示。對比圖2“卷積注意力模型”,基線模型無多尺度卷積和SA塊。其次,圖2中“單一尺度卷積注意力模型”和“無SA卷積注意力模型”作為“卷積注意力模型”的變體,分別去除了“卷積注意力模型”中多尺度卷積的Conv1D(64,100)和SA塊,以此驗證多尺度卷積和SA塊對覺醒事件自動檢測的有效性。模型的輸入和其它參數均與卷積注意力模型相同。
卷積注意力模型及其變體在測試集上的平均性能如表1所示。對比可知,本研究所提出的卷積注意力模型在相同的測試集上表現最好,且比基線模型的AUPRC和AUROC均提升約7%。① 與基線模型相比,單一尺度卷積注意力模型在四個評價指標上均有提升,平均提升率為6%;與卷積注意力模型相比,單一尺度卷積注意力模型在測試集上的性能下降約3%。此對比結果表明,多尺度卷積的設計有助于提升模型對覺醒和非覺醒的識別能力。② 與基線模型相比,無SA卷積注意力模型在測試集上的各個性能指標同樣都有提升,且最大提升率4%;對比于卷積注意力模型,在同樣的測試集上,無SA卷積注意力模型在所有評價指標上的性能均有所下降,且平均降低4%。這一對比結果證明了SA在本研究任務上的優勢。③ 將單一尺度卷積注意力模型和無SA卷積注意力模型的性能進行對比,前者的平均結果優于后者,雖然平均提升率小于2%,但說明SA對模型性能的影響更大。



此外,為了驗證時間窗對模型性能的影響,基于所提出的卷積注意力模型,本研究又對單通道EEG信號進行30 s分割。分割后的樣本其訓練集和測試集的劃分與前文60 s樣本完全相同,由此保證對比的有效性。基于30 s時間窗的覺醒事件自動檢測結果如表1(30 s-卷積注意力模型)所示。可以看出,模型以30 s和60 s兩種不同時長的EEG信號作為輸入樣本時,在測試集上獲得相同的準確率。需注意的是,因覺醒事件的跨幀出現,以30 s和60 s的時間窗分割EEG信號時所得到的覺醒和非覺醒樣本和標簽會有所不同。30 s分割得到覺醒和非覺醒樣本數分別為14 502和31 324,不同類別的樣本數目并不平衡。60 s分割后兩類樣本所占比例幾乎一致(覺醒:20 839,非覺醒:25 963)。大量研究指出,使用準確率對類別不平衡任務性能的評價是不夠的,還需借用其它指標進行更合理充分的評估。基于30 s樣本的輸入的模型結果可能受到樣本類別不平衡的影響,其F1分數、AUPRC和AUROC均有下降,尤其在F1分數和AUPRC上,平均下降約12%。
2.3 人工標注和自動檢測所得ARI的比較
ARI作為睡眠質量評估的一個重要指標,在正常人群中,隨著年齡的增長而增加[24]。為了評估本文模型預測的ARI(ARI_pre)和人工評分得到的ARI(ARI_true)的一致性程度,本研究使用由布蘭德-奧特曼(Bland-Altman)提出的Bland-Altman差異圖,對兩者的一致性測量進行可視化,如圖3所示。圖3的橫坐標為兩種方法的平均值,縱坐標為兩種方法的差值。中間線條表示差值的平均值(mean),上下線條為95%一致性界限的上下限。如果散點基本均落在95%一致性區間,即1.96個標準差(standard deviation,SD)范圍內,則說明一致性情況良好。

49個樣本的ARI_true和ARI_pre平均值分別為64.42和62.39。使用配對t檢驗對兩種方法所得的ARI值進行差異分析,結果顯示兩者之間的差異無統計學意義(P = 0.198 > 0.05),說明兩種測量方法具有一致性。此外,圖3中的散點數據大都分布于95%置信區間內(近1個特例),進一步反映兩種方法在測試數據上具有較好的一致性,同時表明本研究所提出的覺醒事件自動檢測方法有望達到人工評分的水平。
2.4 卷積注意力網絡與其他模型結果對比
為進一步顯示所構建的卷積注意力模型的優勢,使用與本研究相同的樣本,本研究將本文的結果與基于文獻[14, 25-26]中提出的三種典型深度學習模型所得的結果進行對比。為了降低模型開銷,且與本研究所用數據樣本量匹配,在進行對比實驗時,本研究對三個模型的原始結構進行適當修改:將文獻[14]提出的深度循環CNN(deep recurrent CNN,DRCNN)中的前兩個模塊的數量分別減至1和3;將DRCNN和文獻[25]中所構建模型(DeepSleep2.0)的輸入通道數設置為1;將文獻[26]中構建的深度神經網絡(deep neural networks, DNNs)中的第二個池化殘差塊的模塊數量改為3。基于修改后的對比模型,七折交叉驗證的平均結果如表2所示。
由表2可知,相較于其他文獻中使用的模型,本研究提出的卷積注意力模型,在相同數據集上的測試結果最好。上述文獻中DRCNN和DeepSleep2.0網絡是基于多模態信號輸入設計的,模型的復雜度相對較高,當使用本研究的單通道EEG信號作為這兩個模型的輸入時,模型的性能會有所下降。此外,DRCNN和DeepSleep2.0模型結構的頂層皆為雙向長短時記憶網絡(long short term memory network,LSTM),其模型性能均好于DeepSleep2.0網絡,但LSTM的加入增加了模型的訓練時長。
3 討論
本研究提出了一種基于CNN的覺醒事件自動檢測方法,模型的設計中引入多尺度卷積和SA塊。此外,考慮到臨床實際中覺醒事件的跨幀出現,且EEG信號是手動覺醒評分的金標準,本研究采用60 s時間窗的單通道EEG信號作為模型的輸入,來實現覺醒事件的自動檢測。在開源睡眠數據庫上的測試結果顯示了本研究所提出方法的有效性。以下針對研究過程中出現的問題進行討論。
(1)模態選擇。現有關于覺醒自動檢測的研究大多基于多通道EEG信號或多模態的組合,借助于ECG、EMG信號等提供的輔助信息來提高算法的性能。本研究在前人研究的基礎上,基于圖2中的卷積注意力模型,探究了分別基于EEG、ECG、airflow三種單模態的覺醒事件自動檢測方法,以及基于EEG、ECG和airflow的多模態覺醒事件自動檢測。在進行單模態覺醒事件檢測實驗時,首先從PSG中分別提取三種單模態信號,并按照前文1.2節對三種模態數據進行預處理。為了消除不同模態量綱差異的影響,對每個樣本三種不同模態的數據進行歸一化。然后,基于所構建的模型,使用每種模態預處理后的數據對模型進行訓練和測試,進而得到模型在不同單模態下覺醒事件自動檢測的性能。針對基于多模態信號的覺醒檢測對比實驗,首先從PSG記錄中同時提取EEG、ECG、airflow三種信號,并對三種模態信號按行拼接。然后,對該多模態信號做數據截斷,生成新的訓練樣本。最后,用二維卷積層替換卷積注意力模型中的Conv1D(m,n),并用生成的多模態數據對模型進行訓練和測試,以得到模型在多模態信號融合時覺醒事件自動檢測的性能。
如圖4所示,為模型分別以不同單模態信號和多模態信號為輸入時,七折交叉驗證的平均結果。由圖4可知,基于單模態EEG信號的模型在所用數據上可獲得最好的性能;以多模態信號為輸入時,模型的性能僅次于單模態EEG信號;而以單模態ECG信號作為模型輸入樣本時,檢測性能較差。這些對比結果進一步表明,單通道EEG信號在覺醒事件自動檢測任務上的可靠性和可行性。雖然多模態的輸入可以從多個維度為目標任務提供信息,但因其模態結合方式的多樣性,對結果影響較大,且模型的計算開銷比單一模態信號的輸入大很多,因此后續研究需要統籌模型性能和計算開銷,選擇合理、合適的模態執行目標任務檢測。

(2)時間窗選取。時間窗對覺醒事件自動檢測性能影響較大。因人工標注過程中,覺醒事件經常跨幀出現,30 s的分割會使陽性率降低,由此導致睡眠質量評估和呼吸事件檢測結果過于樂觀。以60 s為時間窗進行樣本分割,能充分考慮覺醒事件的完整性和EEG信號的連續性,長時程的輸入有助于模型學習到EEG信號序列前后的相關性,因此本研究認為基于60 s時間窗的數據分割有助于提升覺醒事件自動檢測性能。
(3)模型靈活性。臨床上,覺醒事件檢測和睡眠分期的金標準都是EEG信號,因此本研究試圖將該模型應用在睡眠分期任務上。針對自動睡眠分期任務,由于輸入樣本時長為60 s,即兩個連續的睡眠幀,睡眠分期標簽的生成規則為:若兩個連續睡眠幀的專家分期相同,該期即為對應60 s樣本的標簽;若該樣本為睡眠過度階段,其標簽為分期最高的睡眠期,例如若相鄰兩個期中的一個為W期,另一個為NREM 1~3期(N1~N3)或REM期,則該樣本的標簽為對應的睡眠期;若相鄰兩個期分別是N2和N3,則該60 s樣本對應的標簽為“3”(N3期);若相鄰兩個睡眠期分別為N3和REM,則對應樣本的標簽為“5”(REM期)。此外,在模型的設置上,除了輸出層(神經元個數為5)與前文所構建的卷積注意力模型不同外,其余模型結構及參數設置均不變。在此基礎上,對睡眠分期任務進行訓練和測試。經七折交叉驗證后,模型在測試集上所得的平均準確率和F1分數分別為73%和75%。這一結果表明所設計的模型具有很強的靈活性及可擴展性,為實現睡眠大數據的多任務分析奠定了基礎。
4 結論
覺醒指數是睡眠質量評估的重要指標,尤其對于OSA患者,覺醒事件的檢測至關重要。本研究提出一種模塊化的卷積注意力模型進行覺醒事件的自動檢測,該方法使用60 s單通道EEG信號作為模型的輸入,在開源睡眠數據庫上獲得較好的測試結果,證明了多尺度卷積和SA在覺醒事件自動檢測任務上的可行性。此外,本研究探究了不同模態信號對模型覺醒事件檢測性能的影響,驗證了單通道EEG信號對覺醒自動檢測的優勢,結果顯示,簡單多模態信號拼接并不能提升模型的性能,甚至起相反作用。最后,所提出的模型具有小型、緊湊、可擴展性強的優點,將其遷移到自動睡眠分期任務上,實現了較高準確率的自動睡眠分期,為進一步實現睡眠數據自動分析領域任務遷移和多任務結合奠定基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突
作者貢獻聲明:李凡主要負責數據分析、論文撰寫和修改;許艷主要負責文獻查詢和整理;張斌和叢豐裕主要負責論文指導及審校。
0 引言
人的一生中有三分之一的時間是在睡眠中度過的,睡眠質量的好壞直接影響人們的身體健康、心情和生活質量[1]。阻塞性睡眠呼吸暫停(obstructive sleep apnea,OSA)是一種常見的睡眠呼吸障礙,成年人群中該病的發病率約為9%~38%[2-3]。頻繁覺醒是OSA患者常見的臨床特征之一。覺醒對于OSA患者有兩方面的影響:① 生理方面。OSA患者發生呼吸暫停或低通氣時,會引起機體短暫缺氧,致使大腦自發產生覺醒,進而刺激上呼吸道肌肉上提來吸入氣體,即覺醒有助于促進呼吸暫停事件的終止。從這個角度分析,覺醒的發生具有減緩因呼吸暫停引起的不良后果的作用[4]。此外,頻繁的覺醒會使自主神經不穩定,引起交感神經興奮,導致睡眠結構片段化,睡眠不解乏,進一步使患者出現白天嗜睡的癥狀[5]。有研究顯示,在睡眠過程中,僅頻繁覺醒就可導致患者操作能力降低、情緒低落[6-7],以及主觀和客觀困倦的增加。覺醒對OSA 患者臨床癥狀發病機制的研究至關重要,因此覺醒的識別和判讀具有重大的臨床意義。② 疾病診斷。OSA的嚴重程度是由睡眠呼吸暫停低通氣指數(apnea-hypopnea index,AHI)來反映的,即每小時睡眠過程中發生呼吸暫停和低通氣的次數。美國睡眠研究會(American academy of sleep medicine,AASM)最新判讀規則(v2.6)推薦,低通氣的判斷需在氣流下降的同時,伴有血氧飽和度下降或覺醒,因此覺醒事件的判讀與OSA嚴重程度的評估直接相關[8]。
覺醒狀態是可能導致清醒或僅引起一過性睡眠中斷的短暫現象[9]。AASM(v2.6)將覺醒事件定義為:在睡眠過程中的非快速眼動(non rapid eye movement,NREM)期,如果腦電圖(electroencephalogram,EEG)頻率相較于背景波發生突然改變,這種改變包括α波、θ波或頻率大于16 Hz(紡錘波除外)的波,至少持續3 s,且頻率改變前有不少于10 s的穩定睡眠,則可將該狀態判讀為覺醒[4]。相較于NREM期覺醒事件的判讀,快速眼動(rapid eye movement,REM)期覺醒事件的判讀還需至少1 s頦肌電圖(electromyogram,EMG)波幅的增高。多導睡眠圖(polysomnography,PSG)監測是臨床進行睡眠分析(睡眠分期、覺醒事件判讀、呼吸事件和腿動事件判定)的主要手段[10]。標準PSG監測包括多種生理信號,如EEG、EMG、心電圖(electrocardiogram,ECG)、眼電圖、口鼻氣流、鼾聲、胸腹式呼吸運動、體位和血氧飽和度等。臨床上,覺醒的判讀主要由睡眠技師手動完成,該方法耗時、耗力,且對從業人員的經驗和專業技能要求較高,主觀性較強,導致較低的評分者信度[11]。因此,發展覺醒事件自動檢測算法,有助于緩解從業者工作壓力,并為相關睡眠疾病的評估和診斷提供重要信息。
深度學習方法的出現及其在生物醫學信號處理上的成熟應用,為解決上述這些問題提供了更多的技術手段和途徑。EEG信號是覺醒事件人工判讀的“金標準”。此外,臨床表征和近年來的一些研究表明,ECG和呼吸氣流(airflow)等信號也與覺醒事件的檢測密切相關[12-13]。Howe-Patterson等[14]構建了循環—卷積神經網絡(convolutional neural network,CNN),用PSG中的12個通道信號作為模型的輸入。該方法在測試集上所得的精確召回曲線下面積 (area under the precision-recall curve,AUPRC)為54%。Zabihi等[15]基于5個通道的電生理信號,構建一維CNN模型,在公開數據集上獲得31%的AUPRC。Miller等[16]通過構建卷積-反卷積網絡,使用13個通道的電生理信號,在所用的數據庫上獲得36.9%的AUPRC。這些研究雖均基于原始信號,但所使用的通道數目較多,致使模型復雜度高,計算開銷大。Olesen等[17]基于單通道EEG信號,使用遷移學習方法實現覺醒事件的自動檢測,其所得F1分數為69.4%。Chien等[18]同樣基于單通道EEG信號,但其需要復雜的特征提取步驟,同時模型的性能受所提取的特征種類和分類器的選擇影響較大。綜上,現有關于覺醒事件自動檢測的研究主要存在以下問題:
(1)模型結構復雜,計算開銷大。現有相關研究中大多使用多模態信號作為模型的輸入,無論是何種多模態融合方式,都會使模型的復雜度和計算開銷成倍增加,但模型性能并沒有得到相應程度的提升。
(2)單一模態和多模態對覺醒事件檢測性能的差異并沒有提及。多模態的使用涉及到模態融合方式的問題,不同的多模態融合方式會對結果產生較大的影響。如果只是單純的多種模態簡單拼接,其模型的性能相比單一模態,可能不會提升很多,甚至出現負增長,而現有研究并沒有對比基于金標準的EEG信號和基于多模態這兩種不同輸入對模型性能的影響。
(3)模型可擴展性低。睡眠技師在臨床工作中,對睡眠數據進行分析時,需兼顧睡眠分期、覺醒事件檢測、呼吸事件檢測、腿動事件檢測等多種任務,因此模型的可擴展性對臨床實際應用非常重要。而現有研究中的算法模型大都專一性較強,未考慮模型的可擴展性。
為解決以上問題,本研究擬構建模塊化的CNN模型,探究單通道原始EEG信號在覺醒事件自動檢測任務中的性能,以及同一模型擴展到其他相關任務上的可能性,為實現輕量級的便攜式睡眠監測和高效的睡眠數據自動分析奠定基礎。
1 數據與方法
1.1 數據來源
本研究使用的呼吸暫停、減肥手術和持續氣道正壓(The apnea,bariatric surgery and continuous positive airway pressure,ABC)睡眠數據庫(網址為:https://sleepdata.org/datasets/abc),由匹茲堡大學組織建立,旨在評估減肥手術和持續氣道正壓通氣兩種治療方式對患有II型肥胖合并OSA患者的療效差異 [19]。該數據庫的下載和使用需向美國國家睡眠研究庫提交申請,本研究已獲得數據的下載和使用許可。ABC數據庫包含49位患者[年齡:(49.2±9.5)歲,范圍:27~65歲;男/女:28/21;身體質量指數:34.3~45.3 kg/m2;AHI:13.0~129.5 次/h;覺醒指數(arousal index,ARI):19.7~124.6 次/h]的整夜PSG記錄,數據采集自2011—2014年,共包括三個隊列(基線、9個月后隨訪和18個月后隨訪)。本研究僅使用基線數據,即患者在進行相應的干預方式之前所采集的PSG。每個PSG記錄了AASM推薦的36個導聯信號,雙極導聯的參考電極為Fpz,EEG信號的采樣頻率為256 Hz,不同模態信號的采樣頻率不同,這些PSG的時長為7~9 h。
1.2 數據預處理
數據預處理包含以下步驟:
(1)信號提取。經本文作者前期研究發現,相較于前額和枕區,中央區(C3、C4)能夠較好地反映EEG信號的變化特點,且C4為AASM推薦的中央區記錄導聯,所以本研究首先從49個PSG記錄中提取出C4-Fpz信號。
(2)信號重采樣。為了之后和其它數據庫的同類數據結果做對比,本文對該信號進行200 Hz的重采樣。
(3)信號分割。30 s為AASM手動評分規則中推薦使用的幀長,但在臨床工作中,通常會出現覺醒跨幀的情況,即一個覺醒事件的持續時間橫跨兩個相鄰的幀[8]。因此本研究使用60 s滑動窗口和30 s的步長對C4-Fpz信號進行樣本分割,分割后的每個樣本形狀為(1,12 000)。此外,為了避免因睡眠起始和結束時包含過多清醒(wake,W)期導致準確率偏高的現象,刪除了PSG記錄兩端多余的W期信號,只保留了睡眠開始和結束后5 min的清醒時間。
(4)標簽生成。臨床上常見的覺醒事件可分為四類:自發覺醒、呼吸事件相關覺醒、腿動相關覺醒和周期性腿動相關覺醒。據本研究調查,對于OSA患者,呼吸事件相關覺醒在所有覺醒事件中占比最高,且該數據庫對覺醒的標注,并沒有區分所屬類別。因此,在生成標簽過程中,當人工評分的覺醒事件出現在60 s睡眠期時間窗內,且持續至少3 s時,該樣本對應的標簽為“1”;否則,為“0”。如圖1所示為出現覺醒事件(方框標注)和正常睡眠狀態下中央區EEG信號的示例。

1.3 模型結構
基于本課題組前期睡眠分期的研究工作[20],本研究提出的卷積注意力模型結構及對比模型結構如圖2所示。圖2中的“卷積注意力模型”結構,主要包括多尺度卷積和自注意力(self-attention,SA)塊。首先,N個(1,12 000)的樣本(表示為I)輸入到多尺度卷積中。本研究相較于文獻[20],引入了多尺度卷積;其次,將多尺度卷積提取的特征輸入到普通的卷積塊中;然后,將卷積塊提取的高級特征(表示為F)輸送到SA塊中;最后,使用全局平均池化(global average pooling,GAP)層將SA輸出的特征轉換為特征向量,并對當前樣本是否包含覺醒事件進行檢測。下面將依次介紹多尺度卷積和SA塊的工作原理。

(1)多尺度卷積。多尺度卷積的計算過程如式(1)~式(3)所示。本文用Conv1D(m, n)表示卷積核數為m,卷積核大小為n的一維卷積層。如圖2“卷積注意力模型”所示,模型的輸入I分別與Conv1D(64,3)和Conv1D(64,100)進行卷積。其中,前者用來提取EEG信號中的時間信息(Bmin),后者用來提取EEG信號的頻率特征(Bmax)。隨后,將這兩種類型的特征拼接起來(concatenate,Concat),形成特征集合(B)。
![]() |
![]() |
![]() |
(2)SA塊。SA已被成功應用到自然語言處理等任務中[21-22]。首先,由卷積塊(卷積塊中各個卷積層的m和n如圖2所示)形成的特征圖被映射為三組向量f、g和h。其次,將f和g向量點乘(),并除以h的維度(d)的開方。然后,用歸一化指數函數(softmax)計算特征圖的注意力權重(O)。該過程如式(4)~式(7)所示。
![]() |
![]() |
![]() |
![]() |
GAP的有效性已在本課題組之前的研究中得到驗證[20, 23]。本研究使用GAP將SA塊的每個輸出映射為特征值,進一步構成特征向量。最后,分類層根據該特征向量計算出有、無覺醒的概率,并給出預測結果。
2 實驗與結果
2.1 實驗
本研究使用7折交叉驗證來評估算法的魯棒性,即將49位患者的PSG數據平均分成7組,每折交叉驗證中,其中一組作為測試集,其余6組用做訓練集和驗證集,如此循環7次,使每個PSG數據都能經過獨立測試。模型在訓練過程中,用回調函數(callback)來保存驗證集上獲得最高準確率時模型的權重,并用該權重對預留樣本進行測試。此外,為了避免過擬合,同時節省訓練時間,模型的訓練還使用早停策略(early stopping)。模型的批訓練大小和迭代次數分別設置為128和200。模型分別使用自適應估計(adaptive moment estimation,Adam)和多分類交叉熵損失函數(categorical_crossentropy)作為優化器和損失函數。平均準確率、F1分數常作為衡量二分類模型精確度的指標;且現有關于覺醒事件自動檢測的文獻多用AUPRC和受試者操作特征曲線下面積 (area under the receiver operating characteristic,AUROC)來評價所提出方法的性能,分別表示精確度—召回率曲線下的面積和真陽率—假陽率組成的曲線下的面積,其值越大,說明模型對陽性樣本和陰性樣本的區分度越高。基于此,本研究除了準確率外,還使用F1分數、AUPRC、AUROC共4個指標對模型的性能進行全面的評價。
2.2 卷積注意力模型與其變體的結果對比
為了驗證模型設計中多尺度卷積和SA塊的有效性,本研究首先設置基線模型,其模型結構如圖2中“基線模型”所示。對比圖2“卷積注意力模型”,基線模型無多尺度卷積和SA塊。其次,圖2中“單一尺度卷積注意力模型”和“無SA卷積注意力模型”作為“卷積注意力模型”的變體,分別去除了“卷積注意力模型”中多尺度卷積的Conv1D(64,100)和SA塊,以此驗證多尺度卷積和SA塊對覺醒事件自動檢測的有效性。模型的輸入和其它參數均與卷積注意力模型相同。
卷積注意力模型及其變體在測試集上的平均性能如表1所示。對比可知,本研究所提出的卷積注意力模型在相同的測試集上表現最好,且比基線模型的AUPRC和AUROC均提升約7%。① 與基線模型相比,單一尺度卷積注意力模型在四個評價指標上均有提升,平均提升率為6%;與卷積注意力模型相比,單一尺度卷積注意力模型在測試集上的性能下降約3%。此對比結果表明,多尺度卷積的設計有助于提升模型對覺醒和非覺醒的識別能力。② 與基線模型相比,無SA卷積注意力模型在測試集上的各個性能指標同樣都有提升,且最大提升率4%;對比于卷積注意力模型,在同樣的測試集上,無SA卷積注意力模型在所有評價指標上的性能均有所下降,且平均降低4%。這一對比結果證明了SA在本研究任務上的優勢。③ 將單一尺度卷積注意力模型和無SA卷積注意力模型的性能進行對比,前者的平均結果優于后者,雖然平均提升率小于2%,但說明SA對模型性能的影響更大。



此外,為了驗證時間窗對模型性能的影響,基于所提出的卷積注意力模型,本研究又對單通道EEG信號進行30 s分割。分割后的樣本其訓練集和測試集的劃分與前文60 s樣本完全相同,由此保證對比的有效性。基于30 s時間窗的覺醒事件自動檢測結果如表1(30 s-卷積注意力模型)所示。可以看出,模型以30 s和60 s兩種不同時長的EEG信號作為輸入樣本時,在測試集上獲得相同的準確率。需注意的是,因覺醒事件的跨幀出現,以30 s和60 s的時間窗分割EEG信號時所得到的覺醒和非覺醒樣本和標簽會有所不同。30 s分割得到覺醒和非覺醒樣本數分別為14 502和31 324,不同類別的樣本數目并不平衡。60 s分割后兩類樣本所占比例幾乎一致(覺醒:20 839,非覺醒:25 963)。大量研究指出,使用準確率對類別不平衡任務性能的評價是不夠的,還需借用其它指標進行更合理充分的評估。基于30 s樣本的輸入的模型結果可能受到樣本類別不平衡的影響,其F1分數、AUPRC和AUROC均有下降,尤其在F1分數和AUPRC上,平均下降約12%。
2.3 人工標注和自動檢測所得ARI的比較
ARI作為睡眠質量評估的一個重要指標,在正常人群中,隨著年齡的增長而增加[24]。為了評估本文模型預測的ARI(ARI_pre)和人工評分得到的ARI(ARI_true)的一致性程度,本研究使用由布蘭德-奧特曼(Bland-Altman)提出的Bland-Altman差異圖,對兩者的一致性測量進行可視化,如圖3所示。圖3的橫坐標為兩種方法的平均值,縱坐標為兩種方法的差值。中間線條表示差值的平均值(mean),上下線條為95%一致性界限的上下限。如果散點基本均落在95%一致性區間,即1.96個標準差(standard deviation,SD)范圍內,則說明一致性情況良好。

49個樣本的ARI_true和ARI_pre平均值分別為64.42和62.39。使用配對t檢驗對兩種方法所得的ARI值進行差異分析,結果顯示兩者之間的差異無統計學意義(P = 0.198 > 0.05),說明兩種測量方法具有一致性。此外,圖3中的散點數據大都分布于95%置信區間內(近1個特例),進一步反映兩種方法在測試數據上具有較好的一致性,同時表明本研究所提出的覺醒事件自動檢測方法有望達到人工評分的水平。
2.4 卷積注意力網絡與其他模型結果對比
為進一步顯示所構建的卷積注意力模型的優勢,使用與本研究相同的樣本,本研究將本文的結果與基于文獻[14, 25-26]中提出的三種典型深度學習模型所得的結果進行對比。為了降低模型開銷,且與本研究所用數據樣本量匹配,在進行對比實驗時,本研究對三個模型的原始結構進行適當修改:將文獻[14]提出的深度循環CNN(deep recurrent CNN,DRCNN)中的前兩個模塊的數量分別減至1和3;將DRCNN和文獻[25]中所構建模型(DeepSleep2.0)的輸入通道數設置為1;將文獻[26]中構建的深度神經網絡(deep neural networks, DNNs)中的第二個池化殘差塊的模塊數量改為3。基于修改后的對比模型,七折交叉驗證的平均結果如表2所示。
由表2可知,相較于其他文獻中使用的模型,本研究提出的卷積注意力模型,在相同數據集上的測試結果最好。上述文獻中DRCNN和DeepSleep2.0網絡是基于多模態信號輸入設計的,模型的復雜度相對較高,當使用本研究的單通道EEG信號作為這兩個模型的輸入時,模型的性能會有所下降。此外,DRCNN和DeepSleep2.0模型結構的頂層皆為雙向長短時記憶網絡(long short term memory network,LSTM),其模型性能均好于DeepSleep2.0網絡,但LSTM的加入增加了模型的訓練時長。
3 討論
本研究提出了一種基于CNN的覺醒事件自動檢測方法,模型的設計中引入多尺度卷積和SA塊。此外,考慮到臨床實際中覺醒事件的跨幀出現,且EEG信號是手動覺醒評分的金標準,本研究采用60 s時間窗的單通道EEG信號作為模型的輸入,來實現覺醒事件的自動檢測。在開源睡眠數據庫上的測試結果顯示了本研究所提出方法的有效性。以下針對研究過程中出現的問題進行討論。
(1)模態選擇。現有關于覺醒自動檢測的研究大多基于多通道EEG信號或多模態的組合,借助于ECG、EMG信號等提供的輔助信息來提高算法的性能。本研究在前人研究的基礎上,基于圖2中的卷積注意力模型,探究了分別基于EEG、ECG、airflow三種單模態的覺醒事件自動檢測方法,以及基于EEG、ECG和airflow的多模態覺醒事件自動檢測。在進行單模態覺醒事件檢測實驗時,首先從PSG中分別提取三種單模態信號,并按照前文1.2節對三種模態數據進行預處理。為了消除不同模態量綱差異的影響,對每個樣本三種不同模態的數據進行歸一化。然后,基于所構建的模型,使用每種模態預處理后的數據對模型進行訓練和測試,進而得到模型在不同單模態下覺醒事件自動檢測的性能。針對基于多模態信號的覺醒檢測對比實驗,首先從PSG記錄中同時提取EEG、ECG、airflow三種信號,并對三種模態信號按行拼接。然后,對該多模態信號做數據截斷,生成新的訓練樣本。最后,用二維卷積層替換卷積注意力模型中的Conv1D(m,n),并用生成的多模態數據對模型進行訓練和測試,以得到模型在多模態信號融合時覺醒事件自動檢測的性能。
如圖4所示,為模型分別以不同單模態信號和多模態信號為輸入時,七折交叉驗證的平均結果。由圖4可知,基于單模態EEG信號的模型在所用數據上可獲得最好的性能;以多模態信號為輸入時,模型的性能僅次于單模態EEG信號;而以單模態ECG信號作為模型輸入樣本時,檢測性能較差。這些對比結果進一步表明,單通道EEG信號在覺醒事件自動檢測任務上的可靠性和可行性。雖然多模態的輸入可以從多個維度為目標任務提供信息,但因其模態結合方式的多樣性,對結果影響較大,且模型的計算開銷比單一模態信號的輸入大很多,因此后續研究需要統籌模型性能和計算開銷,選擇合理、合適的模態執行目標任務檢測。

(2)時間窗選取。時間窗對覺醒事件自動檢測性能影響較大。因人工標注過程中,覺醒事件經常跨幀出現,30 s的分割會使陽性率降低,由此導致睡眠質量評估和呼吸事件檢測結果過于樂觀。以60 s為時間窗進行樣本分割,能充分考慮覺醒事件的完整性和EEG信號的連續性,長時程的輸入有助于模型學習到EEG信號序列前后的相關性,因此本研究認為基于60 s時間窗的數據分割有助于提升覺醒事件自動檢測性能。
(3)模型靈活性。臨床上,覺醒事件檢測和睡眠分期的金標準都是EEG信號,因此本研究試圖將該模型應用在睡眠分期任務上。針對自動睡眠分期任務,由于輸入樣本時長為60 s,即兩個連續的睡眠幀,睡眠分期標簽的生成規則為:若兩個連續睡眠幀的專家分期相同,該期即為對應60 s樣本的標簽;若該樣本為睡眠過度階段,其標簽為分期最高的睡眠期,例如若相鄰兩個期中的一個為W期,另一個為NREM 1~3期(N1~N3)或REM期,則該樣本的標簽為對應的睡眠期;若相鄰兩個期分別是N2和N3,則該60 s樣本對應的標簽為“3”(N3期);若相鄰兩個睡眠期分別為N3和REM,則對應樣本的標簽為“5”(REM期)。此外,在模型的設置上,除了輸出層(神經元個數為5)與前文所構建的卷積注意力模型不同外,其余模型結構及參數設置均不變。在此基礎上,對睡眠分期任務進行訓練和測試。經七折交叉驗證后,模型在測試集上所得的平均準確率和F1分數分別為73%和75%。這一結果表明所設計的模型具有很強的靈活性及可擴展性,為實現睡眠大數據的多任務分析奠定了基礎。
4 結論
覺醒指數是睡眠質量評估的重要指標,尤其對于OSA患者,覺醒事件的檢測至關重要。本研究提出一種模塊化的卷積注意力模型進行覺醒事件的自動檢測,該方法使用60 s單通道EEG信號作為模型的輸入,在開源睡眠數據庫上獲得較好的測試結果,證明了多尺度卷積和SA在覺醒事件自動檢測任務上的可行性。此外,本研究探究了不同模態信號對模型覺醒事件檢測性能的影響,驗證了單通道EEG信號對覺醒自動檢測的優勢,結果顯示,簡單多模態信號拼接并不能提升模型的性能,甚至起相反作用。最后,所提出的模型具有小型、緊湊、可擴展性強的優點,將其遷移到自動睡眠分期任務上,實現了較高準確率的自動睡眠分期,為進一步實現睡眠數據自動分析領域任務遷移和多任務結合奠定基礎。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突
作者貢獻聲明:李凡主要負責數據分析、論文撰寫和修改;許艷主要負責文獻查詢和整理;張斌和叢豐裕主要負責論文指導及審校。