為實現對不同階段睡眠的快速、便捷分期,本文實驗分析了心率變異性(HRV)與睡眠分期的相關性,利用支持向量機(SVM)實現了基于HRV信息的睡眠自動分期的算法。對天津市胸科醫院的33例臨床心電數據進行了R-R提取和主成分分析(PCA),并利用SVM對睡眠中的不同階段進行建模和預測,將分期的預測結果與基于腦電金標準的睡眠分期標注結果比對,對于三期睡眠的預測準確度超過80%,說明HRV與睡眠各期具有良好的相關性。該方法是對傳統睡眠分期方法的一種補充,具有實際使用價值。
引用本文: 王金海, 孫微, 韋然, 趙曉赟, 國海丁, 王慧泉. 基于心率變異性分析的睡眠分期方法研究. 生物醫學工程學雜志, 2016, 33(3): 420-425. doi: 10.7507/1001-5515.20160071 復制
引言
睡眠作為生命所必須的過程,是機體恢復、整合和鞏固記憶的重要環節。然而,現代社會快速的生活節奏和人們不良的生活習慣,都會引發睡眠障礙。睡眠障礙往往是誘發或者加重心腦血管疾病的主要因素,因此,實現家居環境下的睡眠監測及質量評估,并為睡眠呼吸相關疾病的篩查提供重要參數有著至關重要的意義[1-3]。
睡眠分期是進行睡眠質量評估和相關疾病診斷的重要依據。目前,腦電(electroencephalogram,EEG)已成為判斷睡眠分期的金標準[4-5]。根據20世紀60年代美國加州大學腦研究所發布的睡眠分期標準,在主要參照腦電的基礎上,結合2路頜肌電(electromyography,EMG)、2路眼電(electro-oculogram,EOG)信號的不同形態和特征,可將睡眠腦電分為6期,即清醒期(wake,W)、快速眼動期(rapid eye movement,REM)、非快速眼動期(non-rapid eye movement,NREM)期,其中NREM期包括睡眠Ⅰ期(S1) 、睡眠Ⅱ期(S2) 、睡眠Ⅲ期(S3) 和睡眠Ⅳ期(S4) [6-7]。另一種方法是將上述標準中的NREM的S1、S2期合并為淺睡期(light),S3、S4期合并為深睡期(deep),即為慢波睡眠(slow wave sleep,SWS),適用于對于睡眠狀態判別要求不太細分的場合。但是此類方法需要多路電極與人體長時間接觸,容易影響受試者的自然睡眠,不宜于家居環境下的睡眠監護,而且研究所需的數據量較大,會耗費大量的人力和時間,因此,探索其他生理信號在睡眠過程中的變化規律以及建立更加準確可靠的非腦電信號睡眠分期方法,是當前的研究熱點[8-11]。
心率變異性(heart rate variability,HRV)是指逐次心跳間隔即RR間期的微小變化[12]。有研究表明,睡眠與自主神經系統的調控有關,而睡眠中HRV也呈現出與腦電類似的周期性變化,因此,HRV與睡眠有著密不可分的關系[13-19]。Aldredge等[20]利用頻譜分析的方法對RR間期信號進行小波變換,將RR間期序列通過頻譜變換分解成超低頻(very low frequency,VLF)、低頻(low frequency,LF)和高頻(high frequency,HF)三個頻譜區域,經過頻譜分析結果顯示,降低低頻信號的功率譜能夠提高對S3與S4期睡眠識別的準確率,另有指標如LF/HF、VLF、VLF/HF的均值與深睡期存在線性關系。江朝暉等[21]采用典型的HRV分析方法并計算RRI序列的平均頻率、搏間自相關系數和IZ復雜度,從結果可以看出,時域、頻域及非線性分析從不同角度、不同程度上反映了HRV與睡眠分期之間的聯系,并且表明有些分析方法能較好地表達睡眠狀態的變遷。莊志等[22]利用隱馬爾可夫模型對HRV進行分析,識別HRV在不同睡眠分期的模式變化,從而推算出相應的睡眠分期,其睡眠分期的結果和人工分期相比的符合率可以滿足很多睡眠監測場合的需要。以上研究成果表明,無論國內還是國外研究領域,利用腦電以外的生理信號進行睡眠分期已成為當今研究的熱點。直接利用RR間期序列或者心率信號,探索其與睡眠狀態之間的關系,通過設計算法得到與睡眠分期確定的定量關系,是今后進行睡眠分期研究的新思路。
因此,在實際應用中,為了更加全面準確地描述睡眠狀態的變遷,往往需要提取多個特征指標,考慮到多特征指標之間的冗余性和相關性對睡眠分期預測精度的影響,本文采用主成分分析(principal component analysis,PCA)方法來降低數據冗余度,對數據進行降維處理,消除各變量之間的共線性,減少變量個數,用少數幾個不相關的主成分替代原來相互關聯的眾多指標,根據主成分的貢獻率確定主成分權重,對原始數據信息進行綜合與簡化,同時解決了模型參數的過度擬合問題;然后用支持向量機(support vector machine,SVM)作為不同數據源的聚類方法,進行睡眠分期。
1 支持向量機算法
統計理論是一種專門針對小樣本情況下研究統計學習規律的基本理論和數學框架,也是目前針對小樣本統計和預測學習的最佳理論[23]。基于統計學習理論(statistical learning theory,SLT)和風險結構最小化理論,在20世紀90年代Vapnik等提出了SVM這一新型機器學習算法[24],即通過某種事先選擇的非線性映射,將輸入向量映射到一個高維特征空間,在這個空間構造最優分類超平面的實現過程。
SVM是以結構風險最小化為原則,具有良好的泛化能力,解決了算法復雜度和輸入向量密切相關的問題。以統計學為基礎,但又與傳統統計學習原理不同,最優解是基于有限的樣本信息,而不是樣本數趨于無窮大時的最優解。由于SVM具有嚴格的理論和數學基礎,很大程度上克服了傳統神經網絡實現中結構設計需要依賴于設計者的經驗知識和先驗知識的成分,并且可保證算法的全局最優性,避免了神經網絡無法解決的局部最小問題[25]。
具體方法如下:
1) 假設訓練樣本為{xi,yi},i=1,2,3,…,l,x∈Rd,yi∈{-1,1},其中,x由PCA特征降維確定,y由Alice自動分析軟件和睡眠專家手動分析共同確定,-1和1代表睡眠的不同狀態。
2) 對于線性分類問題,存在超平面
$\omega \centerdot x+b=0(\omega \in R,b\in R)$ |
且必須滿足yi[(ω·xi)+b]-1≥0,則分類間隔為
$\underset{\{{{x}_{i}}|{{y}_{i}}-+1\}}{\mathop{\min }}\,\frac{\omega \centerdot {{x}_{i}}+b}{\omega }-\underset{\{{{x}_{i}}|{{y}_{i}}--1\}}{\mathop{\min }}\,\frac{\omega \centerdot {{x}_{i}}+b}{\omega }=\frac{2}{\omega }$ |
為了確定懲罰因子C,引入Lagrange函數:
$\begin{matrix} L=\frac{1}{2} & \omega & 2-\underset{i-1}{\overset{l}{\mathop{\sum }}}\, \\ \end{matrix}{{\alpha }_{i}}{{y}_{i}}(\omega \centerdot {{x}_{i}}+b)+\underset{i=1}{\overset{l}{\mathop{\sum }}}\,{{\alpha }_{i}}$ |
其中,αi>0為Lagrange系數,即每個樣本的拉式乘積,分別對ω和b求偏導并令其等于0,可將問題轉化為求
$\frac{\partial L}{\partial \omega }=\omega -\underset{i-1}{\overset{l}{\mathop{\sum }}}\,{{\alpha }_{i}}{{y}_{i}}{{x}_{i}}=0$ |
$\frac{\partial L}{\partial b}=-\underset{i-1}{\overset{l}{\mathop{\sum }}}\,{{\alpha }_{i}}{{y}_{i}}$ |
3) 上述二次規劃問題得解后,則分類決策函數可表示為
$f(x)=sgn(\underset{i=1}{\overset{n}{\mathop{\sum }}}\,\alpha _{i}^{*}{{y}_{i}}({{x}_{i}}\centerdot x)+{{b}^{*}}){{b}^{*}}$ |
4) 對于非線性問題,可以將樣本x映射到高維特征空間H,采用適當的核函數K(xi,yi),通過非線性變換實現線性分類。非線性分類決策函數可表示為
$f(x)=sgn(\underset{i=1}{\overset{n}{\mathop{\sum }}}\,\alpha _{i}^{*}{{y}_{i}}K({{x}_{i}}\centerdot {{y}_{i}})+{{b}^{*}}){{b}^{*}}$ |
即SVM,其中b*是分類的閾值。
最初,SVM主要針對二分類問題提出,并能夠成功應用于函數回歸方法研究。但在實際應用中經常用到多分類問題,常用的多分類的方法有一對一(one-against-one classifiers,1-a-1) SVM和一對多(one-against-rest classifiers,1-a-r)SVM。對于一個n分類問題,一對一方法需要建立個分類器,而一對多方法需要建立n個分類器,可見,分類器的個數隨著n的增大線性增加。對于一對多分類方法,由于每一個分類器都是將其中的一類同余下的各類之間進行分類,一個分類器的兩類數據個數往往懸殊很大,易使分類面發生偏移,從而在數據訓練時誤判的可能性增大。本文將睡眠狀態分別分為兩類、三類與五類,數據類別數目較少,因此,本文選擇一對一的方法進行數據建模。當n較大時,雖然分類器個數急劇增多,但由于每個分類器都只針對兩類數據之間進行分類,其訓練速度較一對多分類方法快,且結果較為準確。
2 數據采集
為了盡可能提高實驗數據的準確性,本實驗在天津市胸科醫院采用多導儀(polysomnograph,PSG)收集數據。在實驗開始前,對來睡眠監測中心接受睡眠監測的健康志愿者依次編號,利用飛利浦偉康的Alice 5多導睡眠記錄儀對每位測試者進行睡眠監測。被測者總共有36例,男性21例,女性15例,年齡22~55歲,平均年齡為28歲,排除3位測試者在夜間睡眠過程中電極脫落導致自動分期結果沒有記錄,最終有33位測試者的睡眠生理數據被認為有效。
21路電極置于被測者面部、肩部和腿部,另附有胸腹帶,記錄的生理信號包括:腦電(19導)、眼電(2導)、下頜肌電(1導)、心電(8導)、口鼻氣流(壓力傳感器)、血氧飽和度(1導)、呼吸運動(胸、腹各1導)、腿動(1導)、體位(1導)、鼾聲(1導)等。多導睡眠監測的整個過程在專業睡眠醫師指導下進行。其中,RR間期序列從采樣頻率為200 Hz的心電信號中提取,記錄時間為整晚6~8 h睡眠。所有PSG記錄數據由Alice 5睡眠分析軟件進行自動睡眠分期并自動保存,然后由專業睡眠醫師按照公認的國際睡眠分期標準(R&K睡眠分期標準),對由PSG中記錄的所有生理參數以每30 s記錄幀進行睡眠分期判讀逐幀手動校正,以校正后的睡眠分期結果作為最終的結果。
為驗證本文提出的睡眠自動分期算法的正確性,本文分別進行了實驗一與實驗二。實驗一數據采集:本文從33位被測者整晚6~8 h的睡眠中提取了165個樣本作為試驗樣本數據,每一個樣本序列以5 min為單位提取,包含了370個數據點。實驗二數據采集:從33名被測者中隨機抽取6名受試者,編號分別為No.1~No.6,從該6名受試者整晚6~8 h的睡眠生理參數中分別提取6組RR間期序列,每組數據容量分別為65個、50個、50個、55個、60個、60個,每一個RR間期序列仍以5 min為單位提取,包含370個數據點。本文中以專家判別的睡眠分期作為真實睡眠階段,與HRV信息之間建立分析校正模型。
3 數據預處理
如果RR間期時間序列含有異常點,會對結果產生影響。首先,運用上下閾值法,將小于0.7倍RR間期平均值和大于1.3倍RR間期平均值的數據剔除掉。其次,運用3σ準則(拉伊達準則)剔除粗大誤差。其中,3σ準則為:|xi-|>3σ,可疑值Xi含有粗大誤差;|xi-|≤3σ,則可疑值Xi為正常值,應保留。
通過以上步驟獲得處理后的RR間期數據,如圖 1所示。

4 建模預測
本文提取經過數據預處理后的RR間期序列的主成分,再經過SVM對睡眠狀態進行分期。將篩選出的165個RR間期序列樣本數據經過數據預處理后隨機分為兩部分,選取其中145個樣本作為訓練集,其余20個作為測試集。首先直接對訓練集進行PCA,提取主成分,然后將訓練集特征訓練SVM,最后用訓練好的分類器對測試集進行分類。
4.1 主成分分析
由于原始數據之間存在一定的相關性,因此,應用具有一定相關性的RR間期數據指標來區分不同的睡眠狀態,不可避免地會造成數據之間的冗余,而數據之間的冗余性又會對睡眠分期的預測造成一定影響,所以應予以消除。本文利用PCA法消除原始數據之間的冗余性,將原來具有一定相關性的原始數據,重新組合成一組新的互不相關的綜合的特征向量來代替原始數據。
對樣本數據進行PCA降維處理并提取特征向量,如圖 2所示,圖中每一點表示提取不同個數的主成分所對應的不同貢獻率。由圖中數據可知,PCA前五個主成分的貢獻率達到了97%,因此,選用PCA后的五個向量作為原始數據新的特征向量,代表原始數據的五個特征,降低了原始數據的冗余度與維度,在保證原始數據不失真的情況下,對原始數據做了充分的簡化。實際選取主成分的個數,需要依據具體情況而定,本文是通過觀察訓練模型的精度來確定選取主成分的個數。

4.2 支持向量機分類
本文用SVM進行睡眠分期,利用其專門針對小樣本情況下的機器學習問題的理論體系,較好地解決了小樣本、非線性、高維數等實際問題,提高了分類的準確性和可靠性。以臺灣大學林智仁(Lin Chih-Jen)教授等開發設計的libsvm為研究平臺,并采用徑向基RBF函數exp(-r|u-v|2) 作為核函數。利用三折交叉驗證法在訓練集上訓練模型并采用網格尋參法尋找最優參數,評估SVM的訓練精度,在計算代價和可靠的參數估計之間提供最好的折中方案,同時又使其獲得良好的泛化性能。
4.2.1 實驗一
本文首先利用采集到的165個樣本數據進行試驗,分別將睡眠狀態按照二期(W-S)、三期(W-REM-NREM)、五期(W-REM-S1-S2-S3) 三種方法進行劃分,圖 3~圖 5為預測樣本經過SVM后睡眠分期真實值與預測值的散點圖,為了便于觀察,當預測值結果與真實值相同時,程序設置一定間距將其區分開來。

1:W期;3:S期
Figure3. Classification of sleep stages into Wake (W) and Sleep (S)1: W stage; 3: S stage

1:W期;2:REM期;3:NREM期
Figure4. Classification of sleep stages into W,REM and NREM1: W stage; 2: REM; 3: NREM

1:W期;2:REM期;3:S1期;4:S2期;5:S3期
Figure5. Classification of sleep stages into W,REM,S1,S2,and S31: W stage; 2: REM; 3: S1; 4: S2; 5: S3
由圖 3~圖 5可知,該方法對于簡單識別W-S的準確度能夠達到85%(17/20) ,對于W-REM-NREM的判別準確度達到了80%(16/20) ,但是對于更精確的W-REM-S1-S2-S3睡眠分期的準確率只有65%(13/20) 。可見,本文提出的睡眠分期算法對W-REM-NREM三期睡眠分期具有更為理想的預測精度。
4.2.2 實驗二
為了進一步分析單一利用RR間期序列對于識別三期睡眠的準確率,本文從33名被測者整晚6~8 h的睡眠中隨機抽取了6名受試者進行試驗,編號分別為No.1~No.6。將每組數據先用PCA進行特征向量提取,再放入SVM分類模型中進行睡眠分期,分類結果如表 1所示。

從表 1數據可以得到,該睡眠自動分期算法結果與經專家手動校正后的PSG數據分期結果相對比,該睡眠自動分期算法對于W-REM-NREM三期睡眠的平均正確率可達87.94%。從預測準確度可以看出,NREM的判別率最高,而REM的判別率最低。
5 總結
本文提供了一種睡眠分期的新思路,利用RR間期序列識別睡眠不同階段,為實現家居環境下無負荷或少負荷的綠色檢測奠定了基礎。實驗證明了可以利用RR間期值較為準確地推算出不同的睡眠狀態,該方法是對傳統依靠腦電進行睡眠分期方法的一種補充。與傳統的PSG睡眠監測相比,該方法大大減少了測試者睡眠監測過程中所需的生理參數,很大程度上降低了干擾睡眠的不利因素,可以更好地反映測試者自然睡眠狀態下的真實情況。同時,較少的數據量也會提高睡眠分期的速度。由實驗結果可以得知,本文的算法對于三期睡眠的預測精度較好,但如欲將睡眠狀態進行更為細致的劃分,其結果仍不太理想,在進一步的實驗中需要考慮結合其他生理參數的配合得到更為準確的結果。此外,為實現更高準確率的睡眠分期,算法在RR間期值的預處理方法及SVM的模型參數調整方面有待進一步改進。相信隨著該方法的不斷改進,有望用于家居環境下的睡眠監測,為阻塞性睡眠呼吸暫停綜合征的初篩提供重要參數,在睡眠呼吸疾病診療領域有著很大的發展前景。
引言
睡眠作為生命所必須的過程,是機體恢復、整合和鞏固記憶的重要環節。然而,現代社會快速的生活節奏和人們不良的生活習慣,都會引發睡眠障礙。睡眠障礙往往是誘發或者加重心腦血管疾病的主要因素,因此,實現家居環境下的睡眠監測及質量評估,并為睡眠呼吸相關疾病的篩查提供重要參數有著至關重要的意義[1-3]。
睡眠分期是進行睡眠質量評估和相關疾病診斷的重要依據。目前,腦電(electroencephalogram,EEG)已成為判斷睡眠分期的金標準[4-5]。根據20世紀60年代美國加州大學腦研究所發布的睡眠分期標準,在主要參照腦電的基礎上,結合2路頜肌電(electromyography,EMG)、2路眼電(electro-oculogram,EOG)信號的不同形態和特征,可將睡眠腦電分為6期,即清醒期(wake,W)、快速眼動期(rapid eye movement,REM)、非快速眼動期(non-rapid eye movement,NREM)期,其中NREM期包括睡眠Ⅰ期(S1) 、睡眠Ⅱ期(S2) 、睡眠Ⅲ期(S3) 和睡眠Ⅳ期(S4) [6-7]。另一種方法是將上述標準中的NREM的S1、S2期合并為淺睡期(light),S3、S4期合并為深睡期(deep),即為慢波睡眠(slow wave sleep,SWS),適用于對于睡眠狀態判別要求不太細分的場合。但是此類方法需要多路電極與人體長時間接觸,容易影響受試者的自然睡眠,不宜于家居環境下的睡眠監護,而且研究所需的數據量較大,會耗費大量的人力和時間,因此,探索其他生理信號在睡眠過程中的變化規律以及建立更加準確可靠的非腦電信號睡眠分期方法,是當前的研究熱點[8-11]。
心率變異性(heart rate variability,HRV)是指逐次心跳間隔即RR間期的微小變化[12]。有研究表明,睡眠與自主神經系統的調控有關,而睡眠中HRV也呈現出與腦電類似的周期性變化,因此,HRV與睡眠有著密不可分的關系[13-19]。Aldredge等[20]利用頻譜分析的方法對RR間期信號進行小波變換,將RR間期序列通過頻譜變換分解成超低頻(very low frequency,VLF)、低頻(low frequency,LF)和高頻(high frequency,HF)三個頻譜區域,經過頻譜分析結果顯示,降低低頻信號的功率譜能夠提高對S3與S4期睡眠識別的準確率,另有指標如LF/HF、VLF、VLF/HF的均值與深睡期存在線性關系。江朝暉等[21]采用典型的HRV分析方法并計算RRI序列的平均頻率、搏間自相關系數和IZ復雜度,從結果可以看出,時域、頻域及非線性分析從不同角度、不同程度上反映了HRV與睡眠分期之間的聯系,并且表明有些分析方法能較好地表達睡眠狀態的變遷。莊志等[22]利用隱馬爾可夫模型對HRV進行分析,識別HRV在不同睡眠分期的模式變化,從而推算出相應的睡眠分期,其睡眠分期的結果和人工分期相比的符合率可以滿足很多睡眠監測場合的需要。以上研究成果表明,無論國內還是國外研究領域,利用腦電以外的生理信號進行睡眠分期已成為當今研究的熱點。直接利用RR間期序列或者心率信號,探索其與睡眠狀態之間的關系,通過設計算法得到與睡眠分期確定的定量關系,是今后進行睡眠分期研究的新思路。
因此,在實際應用中,為了更加全面準確地描述睡眠狀態的變遷,往往需要提取多個特征指標,考慮到多特征指標之間的冗余性和相關性對睡眠分期預測精度的影響,本文采用主成分分析(principal component analysis,PCA)方法來降低數據冗余度,對數據進行降維處理,消除各變量之間的共線性,減少變量個數,用少數幾個不相關的主成分替代原來相互關聯的眾多指標,根據主成分的貢獻率確定主成分權重,對原始數據信息進行綜合與簡化,同時解決了模型參數的過度擬合問題;然后用支持向量機(support vector machine,SVM)作為不同數據源的聚類方法,進行睡眠分期。
1 支持向量機算法
統計理論是一種專門針對小樣本情況下研究統計學習規律的基本理論和數學框架,也是目前針對小樣本統計和預測學習的最佳理論[23]。基于統計學習理論(statistical learning theory,SLT)和風險結構最小化理論,在20世紀90年代Vapnik等提出了SVM這一新型機器學習算法[24],即通過某種事先選擇的非線性映射,將輸入向量映射到一個高維特征空間,在這個空間構造最優分類超平面的實現過程。
SVM是以結構風險最小化為原則,具有良好的泛化能力,解決了算法復雜度和輸入向量密切相關的問題。以統計學為基礎,但又與傳統統計學習原理不同,最優解是基于有限的樣本信息,而不是樣本數趨于無窮大時的最優解。由于SVM具有嚴格的理論和數學基礎,很大程度上克服了傳統神經網絡實現中結構設計需要依賴于設計者的經驗知識和先驗知識的成分,并且可保證算法的全局最優性,避免了神經網絡無法解決的局部最小問題[25]。
具體方法如下:
1) 假設訓練樣本為{xi,yi},i=1,2,3,…,l,x∈Rd,yi∈{-1,1},其中,x由PCA特征降維確定,y由Alice自動分析軟件和睡眠專家手動分析共同確定,-1和1代表睡眠的不同狀態。
2) 對于線性分類問題,存在超平面
$\omega \centerdot x+b=0(\omega \in R,b\in R)$ |
且必須滿足yi[(ω·xi)+b]-1≥0,則分類間隔為
$\underset{\{{{x}_{i}}|{{y}_{i}}-+1\}}{\mathop{\min }}\,\frac{\omega \centerdot {{x}_{i}}+b}{\omega }-\underset{\{{{x}_{i}}|{{y}_{i}}--1\}}{\mathop{\min }}\,\frac{\omega \centerdot {{x}_{i}}+b}{\omega }=\frac{2}{\omega }$ |
為了確定懲罰因子C,引入Lagrange函數:
$\begin{matrix} L=\frac{1}{2} & \omega & 2-\underset{i-1}{\overset{l}{\mathop{\sum }}}\, \\ \end{matrix}{{\alpha }_{i}}{{y}_{i}}(\omega \centerdot {{x}_{i}}+b)+\underset{i=1}{\overset{l}{\mathop{\sum }}}\,{{\alpha }_{i}}$ |
其中,αi>0為Lagrange系數,即每個樣本的拉式乘積,分別對ω和b求偏導并令其等于0,可將問題轉化為求
$\frac{\partial L}{\partial \omega }=\omega -\underset{i-1}{\overset{l}{\mathop{\sum }}}\,{{\alpha }_{i}}{{y}_{i}}{{x}_{i}}=0$ |
$\frac{\partial L}{\partial b}=-\underset{i-1}{\overset{l}{\mathop{\sum }}}\,{{\alpha }_{i}}{{y}_{i}}$ |
3) 上述二次規劃問題得解后,則分類決策函數可表示為
$f(x)=sgn(\underset{i=1}{\overset{n}{\mathop{\sum }}}\,\alpha _{i}^{*}{{y}_{i}}({{x}_{i}}\centerdot x)+{{b}^{*}}){{b}^{*}}$ |
4) 對于非線性問題,可以將樣本x映射到高維特征空間H,采用適當的核函數K(xi,yi),通過非線性變換實現線性分類。非線性分類決策函數可表示為
$f(x)=sgn(\underset{i=1}{\overset{n}{\mathop{\sum }}}\,\alpha _{i}^{*}{{y}_{i}}K({{x}_{i}}\centerdot {{y}_{i}})+{{b}^{*}}){{b}^{*}}$ |
即SVM,其中b*是分類的閾值。
最初,SVM主要針對二分類問題提出,并能夠成功應用于函數回歸方法研究。但在實際應用中經常用到多分類問題,常用的多分類的方法有一對一(one-against-one classifiers,1-a-1) SVM和一對多(one-against-rest classifiers,1-a-r)SVM。對于一個n分類問題,一對一方法需要建立個分類器,而一對多方法需要建立n個分類器,可見,分類器的個數隨著n的增大線性增加。對于一對多分類方法,由于每一個分類器都是將其中的一類同余下的各類之間進行分類,一個分類器的兩類數據個數往往懸殊很大,易使分類面發生偏移,從而在數據訓練時誤判的可能性增大。本文將睡眠狀態分別分為兩類、三類與五類,數據類別數目較少,因此,本文選擇一對一的方法進行數據建模。當n較大時,雖然分類器個數急劇增多,但由于每個分類器都只針對兩類數據之間進行分類,其訓練速度較一對多分類方法快,且結果較為準確。
2 數據采集
為了盡可能提高實驗數據的準確性,本實驗在天津市胸科醫院采用多導儀(polysomnograph,PSG)收集數據。在實驗開始前,對來睡眠監測中心接受睡眠監測的健康志愿者依次編號,利用飛利浦偉康的Alice 5多導睡眠記錄儀對每位測試者進行睡眠監測。被測者總共有36例,男性21例,女性15例,年齡22~55歲,平均年齡為28歲,排除3位測試者在夜間睡眠過程中電極脫落導致自動分期結果沒有記錄,最終有33位測試者的睡眠生理數據被認為有效。
21路電極置于被測者面部、肩部和腿部,另附有胸腹帶,記錄的生理信號包括:腦電(19導)、眼電(2導)、下頜肌電(1導)、心電(8導)、口鼻氣流(壓力傳感器)、血氧飽和度(1導)、呼吸運動(胸、腹各1導)、腿動(1導)、體位(1導)、鼾聲(1導)等。多導睡眠監測的整個過程在專業睡眠醫師指導下進行。其中,RR間期序列從采樣頻率為200 Hz的心電信號中提取,記錄時間為整晚6~8 h睡眠。所有PSG記錄數據由Alice 5睡眠分析軟件進行自動睡眠分期并自動保存,然后由專業睡眠醫師按照公認的國際睡眠分期標準(R&K睡眠分期標準),對由PSG中記錄的所有生理參數以每30 s記錄幀進行睡眠分期判讀逐幀手動校正,以校正后的睡眠分期結果作為最終的結果。
為驗證本文提出的睡眠自動分期算法的正確性,本文分別進行了實驗一與實驗二。實驗一數據采集:本文從33位被測者整晚6~8 h的睡眠中提取了165個樣本作為試驗樣本數據,每一個樣本序列以5 min為單位提取,包含了370個數據點。實驗二數據采集:從33名被測者中隨機抽取6名受試者,編號分別為No.1~No.6,從該6名受試者整晚6~8 h的睡眠生理參數中分別提取6組RR間期序列,每組數據容量分別為65個、50個、50個、55個、60個、60個,每一個RR間期序列仍以5 min為單位提取,包含370個數據點。本文中以專家判別的睡眠分期作為真實睡眠階段,與HRV信息之間建立分析校正模型。
3 數據預處理
如果RR間期時間序列含有異常點,會對結果產生影響。首先,運用上下閾值法,將小于0.7倍RR間期平均值和大于1.3倍RR間期平均值的數據剔除掉。其次,運用3σ準則(拉伊達準則)剔除粗大誤差。其中,3σ準則為:|xi-|>3σ,可疑值Xi含有粗大誤差;|xi-|≤3σ,則可疑值Xi為正常值,應保留。
通過以上步驟獲得處理后的RR間期數據,如圖 1所示。

4 建模預測
本文提取經過數據預處理后的RR間期序列的主成分,再經過SVM對睡眠狀態進行分期。將篩選出的165個RR間期序列樣本數據經過數據預處理后隨機分為兩部分,選取其中145個樣本作為訓練集,其余20個作為測試集。首先直接對訓練集進行PCA,提取主成分,然后將訓練集特征訓練SVM,最后用訓練好的分類器對測試集進行分類。
4.1 主成分分析
由于原始數據之間存在一定的相關性,因此,應用具有一定相關性的RR間期數據指標來區分不同的睡眠狀態,不可避免地會造成數據之間的冗余,而數據之間的冗余性又會對睡眠分期的預測造成一定影響,所以應予以消除。本文利用PCA法消除原始數據之間的冗余性,將原來具有一定相關性的原始數據,重新組合成一組新的互不相關的綜合的特征向量來代替原始數據。
對樣本數據進行PCA降維處理并提取特征向量,如圖 2所示,圖中每一點表示提取不同個數的主成分所對應的不同貢獻率。由圖中數據可知,PCA前五個主成分的貢獻率達到了97%,因此,選用PCA后的五個向量作為原始數據新的特征向量,代表原始數據的五個特征,降低了原始數據的冗余度與維度,在保證原始數據不失真的情況下,對原始數據做了充分的簡化。實際選取主成分的個數,需要依據具體情況而定,本文是通過觀察訓練模型的精度來確定選取主成分的個數。

4.2 支持向量機分類
本文用SVM進行睡眠分期,利用其專門針對小樣本情況下的機器學習問題的理論體系,較好地解決了小樣本、非線性、高維數等實際問題,提高了分類的準確性和可靠性。以臺灣大學林智仁(Lin Chih-Jen)教授等開發設計的libsvm為研究平臺,并采用徑向基RBF函數exp(-r|u-v|2) 作為核函數。利用三折交叉驗證法在訓練集上訓練模型并采用網格尋參法尋找最優參數,評估SVM的訓練精度,在計算代價和可靠的參數估計之間提供最好的折中方案,同時又使其獲得良好的泛化性能。
4.2.1 實驗一
本文首先利用采集到的165個樣本數據進行試驗,分別將睡眠狀態按照二期(W-S)、三期(W-REM-NREM)、五期(W-REM-S1-S2-S3) 三種方法進行劃分,圖 3~圖 5為預測樣本經過SVM后睡眠分期真實值與預測值的散點圖,為了便于觀察,當預測值結果與真實值相同時,程序設置一定間距將其區分開來。

1:W期;3:S期
Figure3. Classification of sleep stages into Wake (W) and Sleep (S)1: W stage; 3: S stage

1:W期;2:REM期;3:NREM期
Figure4. Classification of sleep stages into W,REM and NREM1: W stage; 2: REM; 3: NREM

1:W期;2:REM期;3:S1期;4:S2期;5:S3期
Figure5. Classification of sleep stages into W,REM,S1,S2,and S31: W stage; 2: REM; 3: S1; 4: S2; 5: S3
由圖 3~圖 5可知,該方法對于簡單識別W-S的準確度能夠達到85%(17/20) ,對于W-REM-NREM的判別準確度達到了80%(16/20) ,但是對于更精確的W-REM-S1-S2-S3睡眠分期的準確率只有65%(13/20) 。可見,本文提出的睡眠分期算法對W-REM-NREM三期睡眠分期具有更為理想的預測精度。
4.2.2 實驗二
為了進一步分析單一利用RR間期序列對于識別三期睡眠的準確率,本文從33名被測者整晚6~8 h的睡眠中隨機抽取了6名受試者進行試驗,編號分別為No.1~No.6。將每組數據先用PCA進行特征向量提取,再放入SVM分類模型中進行睡眠分期,分類結果如表 1所示。

從表 1數據可以得到,該睡眠自動分期算法結果與經專家手動校正后的PSG數據分期結果相對比,該睡眠自動分期算法對于W-REM-NREM三期睡眠的平均正確率可達87.94%。從預測準確度可以看出,NREM的判別率最高,而REM的判別率最低。
5 總結
本文提供了一種睡眠分期的新思路,利用RR間期序列識別睡眠不同階段,為實現家居環境下無負荷或少負荷的綠色檢測奠定了基礎。實驗證明了可以利用RR間期值較為準確地推算出不同的睡眠狀態,該方法是對傳統依靠腦電進行睡眠分期方法的一種補充。與傳統的PSG睡眠監測相比,該方法大大減少了測試者睡眠監測過程中所需的生理參數,很大程度上降低了干擾睡眠的不利因素,可以更好地反映測試者自然睡眠狀態下的真實情況。同時,較少的數據量也會提高睡眠分期的速度。由實驗結果可以得知,本文的算法對于三期睡眠的預測精度較好,但如欲將睡眠狀態進行更為細致的劃分,其結果仍不太理想,在進一步的實驗中需要考慮結合其他生理參數的配合得到更為準確的結果。此外,為實現更高準確率的睡眠分期,算法在RR間期值的預處理方法及SVM的模型參數調整方面有待進一步改進。相信隨著該方法的不斷改進,有望用于家居環境下的睡眠監測,為阻塞性睡眠呼吸暫停綜合征的初篩提供重要參數,在睡眠呼吸疾病診療領域有著很大的發展前景。