房顫(AF)是臨床上最常見的一種室上性心律失常,對患者危害大,及時利用醫療手段阻止房顫的發生或復發是房顫防治領域關注的焦點和難點。本文嘗試利用 4 種方法對心電信號 RR 間期序列進行處理,統計不同指標在房顫發作前和遠離房顫發作時期的變化,試圖尋找能夠預測房顫復發的因子。這 4 種方法分別是:功率譜分析、近似熵(ApEn)和樣本熵(SpEn)分析、遞歸分析以及時間序列符號化。文中數據來源于陣發性房顫預測數據庫。通過支持向量機(SVM)分類,評估 4 種方法的相關指標對房顫復發的預測效果。結果表明,遞歸分析中的各項參數綜合使用達到的分類效果最佳,針對房顫復發預測能夠達到 95% 的準確率;功率譜分析方法次之,準確率為 90%;近似熵和樣本熵分析、時間序列符號化的效果則不夠理想,準確率均只有 70%。本文結果說明,基于 RR 間期的遞歸分析和功率譜分析能夠有效地評估心房混沌狀態,對房顫復發預測有一定的參考價值。
引用本文: 蘭天杰, 楊翠微. 基于 RR 間期的陣發性房顫復發預測. 生物醫學工程學雜志, 2019, 36(4): 521-530. doi: 10.7507/1001-5515.201808019 復制
引言
心房顫動(atrial fibrillation,AF)簡稱房顫,是臨床上最常見的一種室上性心律失常。據流行病相關資料統計,人群中的發病率為 0.4%~1%[1],其他心腦血管疾病和年齡增長都會增加房顫的發病率,研究表明 80 歲以上的老年人發生房顫的概率高達 8%[2]。雖然房顫本身不會對患者造成致命威脅,但會極大地增加腦卒中的風險,導致較高的致殘率和病死率[3]。房顫患者的癥狀大多不明顯,但如果不及時干預,發病初期的陣發性房顫將會進展為永久性房顫。對陣發性房顫的復發預測,可以幫助醫生根據患者的狀況及時提供預防或治療方案,因此具有十分重要的臨床意義。
體表心電圖反映了心臟的電活動變化。在臨近房顫復發的時期,心房系統的結構和狀態已經有所改變,在心電圖上也會有所反映,這使預測房顫的復發成為可能[4]。在體表心電信號中提取 RR 間期的序列信號,通過分析心率變異性(heart rate variability,HRV)可以探知患者心交感神經和迷走神經之間的均衡度,以判斷其對心血管系統的影響。RR 間期序列作為分析指標現已用于多種疾病的研究,其中包括用于心臟監測以識別自主神經失衡所導致的心臟功能障礙,從而有助于預防潛在的心血管并發癥[5]。目前已有相關的研究表明,陣發性房顫患者環肺靜脈消融術前后 HRV 的動態改變與術后復發情況有極大關系[6]。
RR 間期序列是非平穩時間序列。一般來說,對時間序列的分析方法主要分為線性和非線性兩種。其中,線性的方法可以分成時域和頻域上兩類:時域上,主要以平均值、標準差等指標的計算為主,會造成大量細節信息的忽略且往往需要選取較長的 RR 間期數據(一般需 24 h)[7];頻域上,主要是將 RR 間期序列進行快速傅里葉變換(fast fourier transform,FFT),進而對不同特殊頻段下的功率譜密度進行分析,簡稱為功率譜分析。另一方面,非線性的方法主要來源于混沌理論。具體是指,由于竇房結的自律性受多個非線性因素的影響,包括激素、血液、迷走神經和交感神經等,并且這些因素本身相互關聯,這就導致了混沌的產生[8]。近似熵(approximate entropy,ApEn)和樣本熵(sample entropy,SpEn)是非線性方法中應用較多的指標,已有研究發現基于近似熵和樣本熵的測度可以對陣發性房顫的預測分類達到較好效果[9]。另一種非線性時間序列分析的有效工具是遞歸分析,它是衡量動力系統混沌性、周期性及非平穩性的重要方法,也已廣泛應用于腦電信號和心電信號分析處理領域。此外,由于體表心電信號易受多種噪聲的影響,為了削弱系統對噪聲的敏感性,提取出 RR 間期序列中的關鍵信息,本文還采用了時間序列符號化這一基于混沌時間序列分析和信息理論的方法。
上述的功率譜分析、近似熵和樣本熵、遞歸分析及時間序列符號化各有優劣,難以直接從概念和原理上判斷哪種方法更適用于預測房顫復發。因此,本文利用這 4 種不同的方法對 RR 間期序列進行處理分析,并采用支持向量機(supporting vector machine,SVM)分類進行預測。
1 數據
本次實驗數據來源于 Physionet 網站中公開的陣發性房顫預測數據庫(paroxysmal atrial fibrillation prediction database),該數據庫由麻省理工學院健康科學與技術中心與其他醫學機構于 1999 年 9 月共同創建(網址為:http://physionet.org/physiobank/database/afpdb/)。
數據來自陣發性心房顫動患者的雙導聯動態心電圖記錄,每位患者的數據含 2 條標號連續的記錄,其中奇數號代表包含遠離房顫發病期的時長為 30 min 的數據記錄,即在距離這段信號起始的 45 min 前或者信號結束的 45 min 后沒有房顫發作,并將其作為正常竇性心律信號(簡稱:Normal 組);偶數號代表房顫發生前的 30 min 記錄,即該信號后緊跟著產生房顫復發,并將其作為發病初期信號(簡稱:Pre-AF 組)。本文下載了來自 20 例陣發性房顫患者的 40 段 RR 間期序列心電信號用于數據分析,每段時長 30 min,包括 Normal 組和 Pre-AF 組。
2 方法
2.1 功率譜分析
對 RR 間期序列進行功率譜分析,首先是求 RR 間期數據經過 FFT 之后的功率譜密度與頻率變化之間的關系,然后按特定頻段來描述其能量的分布情況。功率譜中各頻段與其對應的生理意義為[10]:
(1)極低頻域(very low frequency,VLF):0.003~0.04 Hz,主要受人體體液的影響。
(2)低頻域(low frequency,LF):0.04~0.15 Hz,主要反映交感神經的調節作用。
(3)高頻域(high frequency,HF):0.15~0.4 Hz,主要反映迷走神經的調節作用。
(4)低頻高頻比(LF/HF):反映交感神經張力與迷走神經張力的拮抗作用和平衡狀態。
根據分析 HRV 信號功率譜的方法,每段信號時長應至少為 5 min,所以在進行譜分析前,將每例患者的數據劃分為 6 段,每段 5 min,以備后續進行計算。
為了避免干擾點影響功率譜分析結果,首先考察相鄰 RR 間期的差值,若差值較大,則極可能是受到干擾或 RR 間期提取有誤,判斷成偽 RR 間期,剔除過大值和過小值,將閾值設為 0.05 s,圓圈標注處為剔除值,如圖 1 所示。

FFT 無法用于分析非均勻采樣信號,因此需先對 HRV 信號三次樣條擬合后進行 4 Hz 重采樣,并減去均值。HRV 信號如圖 2 所示,圖中紅色波形表示原始 HRV 信號,黑色波形代表處理后的 HRV 信號。

接著求 RR 間期序列的功率譜密度,并按照上述頻段進行劃分,如圖 3 所示。圖中紅色區域表示 LF,黑色區域表示 HF,統計兩個區域的面積及比例即可探知交感神經和迷走神經的調節狀態。

2.2 近似熵和樣本熵分析
近似熵是一種衡量時間序列復雜性的規則,其概念由 Pincus[11]在 20 世紀 90 年代研究嬰兒猝死病癥的心率變化時提出。近似熵越大,意味著該時間序列產生新模式的可能性越大,復雜度越高;反之,近似熵越小,則說明產生新模式的可能性越小。
然而,在近似熵的計算過程中,為了避免出現對零求對數的情況,需要加上對自身數據段相似概率的比較,而這樣的修正必然會帶來偏差。為了降低近似熵的誤差,Richman 等[12]于 2000 年提出了另一種測量時間序列復雜性的方法——樣本熵。樣本熵和近似熵的物理意義較為類似,都是反映時間新模式發生的可能性隨著維數增減的變化情況,但因樣本熵的計算對數據長度的依賴性較弱,較之近似熵體現出更好的一致性。
2.3 遞歸分析
2.3.1 遞歸圖
基于遞歸分析理論,Eckmann 等[13]于 1987 年提出一種利用二維圖形來觀察動力系統混沌特性的方法:遞歸圖(recurrence plot,RP)。近些年來,計算機技術和混沌理論的相關研究飛速發展,使遞歸分析中一些冗長的計算過程得以簡化和實現。
遞歸圖的繪制基于遞歸矩陣,其數學定義如式(1)所示:
![]() |
其中, 和
分別是系統中兩個時刻的狀態向量,ε是預先設定的距離閾值,N是系統中狀態向量的總數,
是計算歐式距離,
是赫維賽德函數。根據赫維賽德函數簡化遞歸矩陣,如式(2)所示:
![]() |
該遞歸矩陣比較了系統在 i和 j 兩個時刻的狀態。若兩狀態接近,則值為 1,說明兩時刻軌道逼近,發生了遞歸復原現象,在遞歸圖上繪黑點;若兩狀態的差異具有統計學意義,則值為 0,說明未觀察到遞歸現象,在遞歸圖中繪白點。RR 間期序列是單值標量信號,需要對有效信號進行時間延遲和相空間重構來恢復信號中的系統信息[14]。如式(3)所示,選擇合適的嵌入維數 m 和延遲時間 τ 之后便可得到狀態向量 :
![]() |
如圖 4 所示,利用假最近鄰(false nearest neighbor,FNN)法確定嵌入維數[15]。從圖中可以看出嵌入維數 m = 7 時,假最近鄰點之間的距離已經接近于 0,因此嵌入維數取 7,延遲時間取 1。

2.3.2 遞歸定量分析
為了使遞歸圖有更加確切的評價體系,Zbilut 等[16]于 1992 年提出了遞歸定量分析(recurrence quantification analysis,RQA)方法。RQA 是基于點和線對遞歸圖進行量化分析的方法,其評估參數主要有以下 6 個,定義如下[17]:
(1)遞歸率(recursive rate,RR)(以符號 RR 表示),定義為遞歸圖中黑點的比率,反映空間中狀態向量的遞歸頻率及軌跡的聚集程度,表達式如式(4)所示:
![]() |
(2)確定度(determinacy)(以符號 DET 表示),定義為平行于主對角線的線段中,長度超過設定閾值(lmin)的遞歸點比率,表達式如式(5)所示:
![]() |
lmin 的設定是為了排除因相空間軌跡的某些切向運動而形成的短對角線,l 是平行于主對角線的線段長度,P(l)是長度為 l 的線段出現的次數。
(3)最長對角線(maximal diagonal line)(以符號 Lmax 表示):定義為遞歸圖中平行于特征線的最長線段的長度,表達式如式(6)所示:
![]() |
(4)熵(entropy)(以符號 ENTR 表示):計算遞歸圖中不同長度的對角線結構的香農熵,表達式如式(7)所示:
![]() |
p(l)是長度為 l 的線段出現的概率。
(5)層狀度(laminarity)(以符號 LAM 表示):計算所有形成垂直或水平結構線段上的點數和全部遞歸點數的比例,與步驟(2)的“確定度”類似,表達式如式(8)所示:
![]() |
v 是垂直或者水平方向上的線段長度,P(v) 為長度為 v 的線段出現的次數,vmin 是設定的長度閾值。
(6)捕獲時間(trapping time,TT)(以符號 TT 表示):計算垂直結構的平均長度,表達式如式(9)所示:
![]() |
已有研究指出,RQA 方法對時間序列的大小和穩定性沒有嚴格的要求,故該方法非常適用于分析難以長時間獲得穩定序列的生理信號。
2.4 時間序列符號化分析
時間序列符號化是混沌理論、符號動力學理論和信息論相結合的一種分析方法,為強噪聲系統提供了一種簡單有效的處理方式[18],其過程是先將序列符號化,對符號進行編碼后再計算熵值或者復雜度。這一“粗粒化”的過程能夠捕獲數據中的大尺度特征,降低動力學噪聲和其它測量噪聲的影響,縮短計算時間。Tang 等[19]運用該方法從噪聲信號中重構出了混沌系統,同時證明這一方法可用于處理不規則的時間序列數據。
本文采用 Daw 等[20]提出的方法,其原理如圖 5 所示。首先根據原始數據是否大于均值,將原始數據分割成 0 和 1 組成的符號序列。為了提取符號序列中隱含的特征,本文課題組將 3 個符號編碼成一個十進制數,每次延遲 1 個字符,從而組成新的碼字序列。該過程與遞歸圖中的時間延遲嵌入思想類似,都是通過在相空間中重構向量來試圖還原系統信息。

本文選取的符號碼共 23 = 8 種。若序列是隨機的,則每種符號碼產生的概率均為 12.5%;反之,若某幾種符號碼的概率出現較大偏差,暗示著系統中存在著某些確定性結構。計算不同符號出現概率的香農熵,熵值越低,說明信號中的確定性成分越高。
Lempel-Ziv 復雜度是用于分析非線性動力學系統復雜度的另一種重要方法。該方法最先由 Lempel 等[21]提出,主要用于測量時間序列中新模式出現的速度。本文在得到符號序列之后,同時計算了 Lempel-Ziv 復雜度,并將其作為輔助判斷的指標。
2.5 SVM 預測房顫復發
從上文所述 20 例患者的 RR 間期數據中隨機選 10 組作為訓練集,10 組作為測試集,進行 SVM 分類,隨后統計了下述 4 種情況:
真陽性(true positive,TP)(符號記為:TP):Pre-AF 組數據被預測為近房顫發生前狀態;
真陰性(true negative,TN)(符號記為:TN):Normal 組數據被預測為正常狀態;
假陽性(false positive,FP)(符號記為:FP):Normal 組數據被預測為近房顫發生前狀態;
假陰性(false negative,FN)(符號記為:FN):Pre-AF 組數據被預測為正常狀態。
為了評價基于 SVM 分類的預測效果,本文采用了靈敏度(Sensitivity)、特異度(Specificity)和正確率(Accuracy)這三種常用指標,計算公式如式(10)~式(12) 所示:
![]() |
![]() |
![]() |
2.6 統計學分析
由于本文研究的是不同患者的 RR 間期數據,對總體情況知之甚少,樣本含量(20 例患者)較小,且比較的是同一個患者在兩個時期的情況,涉及成對數據的檢驗,因此本文采用成對數據 t 檢驗方法以檢驗 Pre-AF 組和 Normal 組兩個時期的參數。P 值是用來判定假設檢驗結果的一個參數,P < 0.05 認為差異具有統計學意義。某種指標與其他指標相比,計算出的 P 值越小,根據小概率原理,就越有理由拒絕原假設,即越能說明該指標下 Pre-AF 組和 Normal 組兩個時期的差異具有統計學意義[22]。本文數據的統計學分析采用的是生物統計分析軟件 GraphPad Prism 6.0(GraphPad Prism Inc.,美國)。
3 結果
3.1 功率譜分析結果
數據庫中 20 例患者遠離房顫和房顫發生前的心率功率譜(heart rate power spectrum,HRPS)成分比較結果如表 1 所示。該表格中的 LF_norm 和 HF_norm 是通過對 LF 和 HF 分別進行頻率域上的歸一化得到的,對應的數值均以“均值 ± 標準差”的形式給出。

表 1 顯示,Pre-AF 組的 LF_norm 成分明顯低于 Normal 組,表明患者交感神經活性降低;HF_norm 成分升高,表明患者迷走神經活性增強;LF/HF 比值降低,說明此時心臟迷走神經調節相對占優勢。這一結果提示房顫復發前迷走神經與交感神經的調節失衡。本文將 LF_norm,HF_norm 和 LF/HF 值這 3 個參數作為分類標準,用于后續的 SVM 預測分析。
3.2 近似熵與樣本熵分析結果
選取數據庫中時長為 30 min 的數據,計算 HRV 信號的標準差 d,設定嵌入維數 m = 2,延遲時間 τ = 0.2 × d,分別計算近似熵和樣本熵。記錄前 10 例患者(患者編號為 1~10)的統計結果,如圖 6 所示。從圖中可以看出,對于 Normal 組和 Pre-AF 組,近似熵和樣本熵的走勢均有著相似之處,大部分患者在 Pre-AF 組的近似熵和樣本熵偏低。近似熵和樣本熵的統計結果如表 2 所示。


由表 2 可知,近似熵和樣本熵值在 Normal 組和 Pre-AF 組的差異具有統計學意義,Pre-AF 組的近似熵和樣本熵均顯著低于 Normal 組,提示心臟系統混沌度降低。
3.3 遞歸分析結果
3.3.1 遞歸圖結果
為了能看到更多細節信息,截取每段時長為 5 min 的信號繪制遞歸圖。如圖 7 所示,繪出數據庫中第一位患者(數據庫中信號編號為 P01)正常時期 15 min 時長信號的遞歸圖,3 幅圖的遞歸模式均無明顯改變,表現為:有較多平行于主對角線的直線,整體有大量周期性塊狀區域。該周期性結構之間的距離對應著信號中的頻率信息。

如圖 8 所示,繪出該患者房顫復發前(數據庫中信號編號為 P02)30 min 時長信號的遞歸圖,幾幅圖的遞歸模式波動較大,隨著時間推移,出現更明顯、分立的塊狀結構,且圖中各塊區域的模式出現較大差別,說明心臟的混沌特性更明顯。另一方面,平行于主對角線的直線減少,說明確定性降低。

3.3.2 遞歸定量分析結果
對所有 20 例房顫患者的遠離房顫期(Normal 組)和房顫發生前期(Pre-AF 組)的數據進行遞歸定量分析。如圖 9 所示,將每條記錄的 30 min 信號分成每 5 min 一段分析,統計各遞歸參數的值,最終按照分組計算所有患者數據的均值和標準差,以直方圖的形式給出。

如圖 9 所示的 6 組參數中,除了 DET 值,其余 5 組參數 t 檢驗均顯示 Normal 組和 Pre-AF 組之間的差異具有統計學意義。在近房顫復發時期,RR 值升高,說明信號線性增強;Lmax 增大,說明隨著時間的推移,信號的形態模式會變得更加多樣化,而不像 Normal 組的信號中頻繁出現同樣的形態模式;ENTR 值較高,說明遞歸圖中對角線的分布更復雜,揭示了系統達到穩定需要的時間更長。LAM 值和 TT 值在 Pre-AF 組中的值高于 Normal 組,反映房顫發生前心電活動處于某個模式的時間較長。
由上述分析可知,參數 RR 值、Lmax、ENTR 值、LAM 值和 TT 值可以區分房顫復發和未復發,可作為后續 SVM 分類的指標。
3.4 時間序列符號化分析結果
用 20 例患者的 40 段心電信號 RR 間期計算動態符號熵和 Lempel-Ziv 復雜度,每組的計算結果統計以“均值 ± 標準差”的形式顯示,如表 3 所示。

結果顯示,Pre-AF 組中動態符號熵和 Lempel-Ziv 復雜度均高于 Normal 組,且 P 值均小于 0.05,說明動態符號熵和 Lempel-Ziv 復雜度對房顫是否復發都有一定的區分能力。
3.5 房顫復發預測結果
對于 4 種方法,分別選定有區分度的指標,確定最佳的分類器參數值,最終得到的分類效果如表 4 所示。

可以看出,遞歸定量分析和功率譜分析均達到了較高的準確率,分別為 95% 和 90%。相對來看,近似熵、樣本熵和符號熵的分類效果較遜色,準確率只有 70%。結果表明,遞歸分析和功率譜分析可能成為房顫復發預測的有效方法。
4 討論
本文利用 4 種不同的方法(功率譜分析、近似熵和樣本熵、遞歸分析、時間序列符號化)對心電信號 RR 間期序列進行處理,統計不同的指標在房顫發作前和遠離房顫發作時期的變化,最后通過 SVM 分類,評估 4 種方法的相關指標對房顫復發與否的預測效果。結果表明,遞歸分析中的各項參數綜合使用達到的分類效果最佳,對于房顫復發預測能夠達到 95% 的準確率;功率譜分析方法次之,準確率為 90%;近似熵和樣本熵及時間序列符號化的效果不夠理想,準確率均只有 70%。說明基于 RR 間期序列的遞歸分析和功率譜分析能夠較有效地評估心房混沌狀態,對房顫復發預測有一定的參考價值。
遞歸分析的主要優點是:對數據長度沒有嚴格要求,有多項量化指標可以用于分類,同時不需要對時間序列數據和產生的系統作出數學假設,且能對混沌系統的軌跡向量隨時間的演化進行深入分析,故十分適合用于分析短時非平穩的心電信號的混沌性。白寶丹等[4]提出了基于遞歸復雜網絡預測房顫術后復發的方法,通過動物實驗得到房顫復發前的犬心外膜信號,同時研究了基于遞歸思想的 RQA 方法,最終預測房顫復發的靈敏度、特異度和準確率分別達到 80.18%、89.98% 和 86.62%。本文將基于體表 RR 間期序列的遞歸分析用于陣發性房顫預測數據庫,也獲得了滿意的效果。
功率譜分析主要是計算特定頻段的能量,因而同樣適用于分析短程 HRV 信號。本研究發現患者在房顫復發前心臟迷走神經調節相對占優勢,暗示著房顫復發前迷走神經與交感神經的調節失衡。其他學者的研究也揭示了同樣的結果。臨床研究表明,迷走神經張力增高時房顫易于復發[23]。Lombardi 等[24]學者對 65 例患者 110 次陣發性房顫發作前后的數據進行了短程頻域分析,發現陣發性房顫發作前 5 min 出現自主神經調節異常,發作后交感神經與迷走神經又達到生理平衡。此外,Chesnokov[25]在 2008 年使用了 HRV 的復雜性和頻譜分析對陣發性房顫進行預測,其方法的靈敏度為 76%,特異度為 93%。
本文利用近似熵和樣本熵的預測效果欠佳,可能是由于采用的數據庫中數據長度有限,使得到的估計值和實際情況存在偏差。時間序列符號化雖然可以降低對噪聲的敏感性,但處理心電信號 RR 間期時仍會失去一些重要的細節信息,使得最終的預測效果差強人意。
最后一步,基于上述各種方法的多種指標,建立 SVM 分類模型。如利用遞歸定量分析的結果預測房顫復發時就用到了 5 種指標,功率譜分析方法也用到了 3 種指標。考慮到樣本數目較少,若將不同方法的不同指標組合預測會使得特征維數過高,同時本文側重于比較 4 種方法對房顫復發前心房系統混沌程度的適用性和預測結果,故本文未將眾多參數指標進一步組合建模進行預測。
本文所用的 RR 間期數據均來自 Physionet 網站上陣發性房顫預測數據庫中訓練模塊的樣本,數量較少,今后還需要對大量的臨床樣本進行進一步研究,尋找能夠預測房顫復發的普遍規律。此外,采用 4 種不同的算法進行計算時,其中具體參數的選取還可進一步細究。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
心房顫動(atrial fibrillation,AF)簡稱房顫,是臨床上最常見的一種室上性心律失常。據流行病相關資料統計,人群中的發病率為 0.4%~1%[1],其他心腦血管疾病和年齡增長都會增加房顫的發病率,研究表明 80 歲以上的老年人發生房顫的概率高達 8%[2]。雖然房顫本身不會對患者造成致命威脅,但會極大地增加腦卒中的風險,導致較高的致殘率和病死率[3]。房顫患者的癥狀大多不明顯,但如果不及時干預,發病初期的陣發性房顫將會進展為永久性房顫。對陣發性房顫的復發預測,可以幫助醫生根據患者的狀況及時提供預防或治療方案,因此具有十分重要的臨床意義。
體表心電圖反映了心臟的電活動變化。在臨近房顫復發的時期,心房系統的結構和狀態已經有所改變,在心電圖上也會有所反映,這使預測房顫的復發成為可能[4]。在體表心電信號中提取 RR 間期的序列信號,通過分析心率變異性(heart rate variability,HRV)可以探知患者心交感神經和迷走神經之間的均衡度,以判斷其對心血管系統的影響。RR 間期序列作為分析指標現已用于多種疾病的研究,其中包括用于心臟監測以識別自主神經失衡所導致的心臟功能障礙,從而有助于預防潛在的心血管并發癥[5]。目前已有相關的研究表明,陣發性房顫患者環肺靜脈消融術前后 HRV 的動態改變與術后復發情況有極大關系[6]。
RR 間期序列是非平穩時間序列。一般來說,對時間序列的分析方法主要分為線性和非線性兩種。其中,線性的方法可以分成時域和頻域上兩類:時域上,主要以平均值、標準差等指標的計算為主,會造成大量細節信息的忽略且往往需要選取較長的 RR 間期數據(一般需 24 h)[7];頻域上,主要是將 RR 間期序列進行快速傅里葉變換(fast fourier transform,FFT),進而對不同特殊頻段下的功率譜密度進行分析,簡稱為功率譜分析。另一方面,非線性的方法主要來源于混沌理論。具體是指,由于竇房結的自律性受多個非線性因素的影響,包括激素、血液、迷走神經和交感神經等,并且這些因素本身相互關聯,這就導致了混沌的產生[8]。近似熵(approximate entropy,ApEn)和樣本熵(sample entropy,SpEn)是非線性方法中應用較多的指標,已有研究發現基于近似熵和樣本熵的測度可以對陣發性房顫的預測分類達到較好效果[9]。另一種非線性時間序列分析的有效工具是遞歸分析,它是衡量動力系統混沌性、周期性及非平穩性的重要方法,也已廣泛應用于腦電信號和心電信號分析處理領域。此外,由于體表心電信號易受多種噪聲的影響,為了削弱系統對噪聲的敏感性,提取出 RR 間期序列中的關鍵信息,本文還采用了時間序列符號化這一基于混沌時間序列分析和信息理論的方法。
上述的功率譜分析、近似熵和樣本熵、遞歸分析及時間序列符號化各有優劣,難以直接從概念和原理上判斷哪種方法更適用于預測房顫復發。因此,本文利用這 4 種不同的方法對 RR 間期序列進行處理分析,并采用支持向量機(supporting vector machine,SVM)分類進行預測。
1 數據
本次實驗數據來源于 Physionet 網站中公開的陣發性房顫預測數據庫(paroxysmal atrial fibrillation prediction database),該數據庫由麻省理工學院健康科學與技術中心與其他醫學機構于 1999 年 9 月共同創建(網址為:http://physionet.org/physiobank/database/afpdb/)。
數據來自陣發性心房顫動患者的雙導聯動態心電圖記錄,每位患者的數據含 2 條標號連續的記錄,其中奇數號代表包含遠離房顫發病期的時長為 30 min 的數據記錄,即在距離這段信號起始的 45 min 前或者信號結束的 45 min 后沒有房顫發作,并將其作為正常竇性心律信號(簡稱:Normal 組);偶數號代表房顫發生前的 30 min 記錄,即該信號后緊跟著產生房顫復發,并將其作為發病初期信號(簡稱:Pre-AF 組)。本文下載了來自 20 例陣發性房顫患者的 40 段 RR 間期序列心電信號用于數據分析,每段時長 30 min,包括 Normal 組和 Pre-AF 組。
2 方法
2.1 功率譜分析
對 RR 間期序列進行功率譜分析,首先是求 RR 間期數據經過 FFT 之后的功率譜密度與頻率變化之間的關系,然后按特定頻段來描述其能量的分布情況。功率譜中各頻段與其對應的生理意義為[10]:
(1)極低頻域(very low frequency,VLF):0.003~0.04 Hz,主要受人體體液的影響。
(2)低頻域(low frequency,LF):0.04~0.15 Hz,主要反映交感神經的調節作用。
(3)高頻域(high frequency,HF):0.15~0.4 Hz,主要反映迷走神經的調節作用。
(4)低頻高頻比(LF/HF):反映交感神經張力與迷走神經張力的拮抗作用和平衡狀態。
根據分析 HRV 信號功率譜的方法,每段信號時長應至少為 5 min,所以在進行譜分析前,將每例患者的數據劃分為 6 段,每段 5 min,以備后續進行計算。
為了避免干擾點影響功率譜分析結果,首先考察相鄰 RR 間期的差值,若差值較大,則極可能是受到干擾或 RR 間期提取有誤,判斷成偽 RR 間期,剔除過大值和過小值,將閾值設為 0.05 s,圓圈標注處為剔除值,如圖 1 所示。

FFT 無法用于分析非均勻采樣信號,因此需先對 HRV 信號三次樣條擬合后進行 4 Hz 重采樣,并減去均值。HRV 信號如圖 2 所示,圖中紅色波形表示原始 HRV 信號,黑色波形代表處理后的 HRV 信號。

接著求 RR 間期序列的功率譜密度,并按照上述頻段進行劃分,如圖 3 所示。圖中紅色區域表示 LF,黑色區域表示 HF,統計兩個區域的面積及比例即可探知交感神經和迷走神經的調節狀態。

2.2 近似熵和樣本熵分析
近似熵是一種衡量時間序列復雜性的規則,其概念由 Pincus[11]在 20 世紀 90 年代研究嬰兒猝死病癥的心率變化時提出。近似熵越大,意味著該時間序列產生新模式的可能性越大,復雜度越高;反之,近似熵越小,則說明產生新模式的可能性越小。
然而,在近似熵的計算過程中,為了避免出現對零求對數的情況,需要加上對自身數據段相似概率的比較,而這樣的修正必然會帶來偏差。為了降低近似熵的誤差,Richman 等[12]于 2000 年提出了另一種測量時間序列復雜性的方法——樣本熵。樣本熵和近似熵的物理意義較為類似,都是反映時間新模式發生的可能性隨著維數增減的變化情況,但因樣本熵的計算對數據長度的依賴性較弱,較之近似熵體現出更好的一致性。
2.3 遞歸分析
2.3.1 遞歸圖
基于遞歸分析理論,Eckmann 等[13]于 1987 年提出一種利用二維圖形來觀察動力系統混沌特性的方法:遞歸圖(recurrence plot,RP)。近些年來,計算機技術和混沌理論的相關研究飛速發展,使遞歸分析中一些冗長的計算過程得以簡化和實現。
遞歸圖的繪制基于遞歸矩陣,其數學定義如式(1)所示:
![]() |
其中, 和
分別是系統中兩個時刻的狀態向量,ε是預先設定的距離閾值,N是系統中狀態向量的總數,
是計算歐式距離,
是赫維賽德函數。根據赫維賽德函數簡化遞歸矩陣,如式(2)所示:
![]() |
該遞歸矩陣比較了系統在 i和 j 兩個時刻的狀態。若兩狀態接近,則值為 1,說明兩時刻軌道逼近,發生了遞歸復原現象,在遞歸圖上繪黑點;若兩狀態的差異具有統計學意義,則值為 0,說明未觀察到遞歸現象,在遞歸圖中繪白點。RR 間期序列是單值標量信號,需要對有效信號進行時間延遲和相空間重構來恢復信號中的系統信息[14]。如式(3)所示,選擇合適的嵌入維數 m 和延遲時間 τ 之后便可得到狀態向量 :
![]() |
如圖 4 所示,利用假最近鄰(false nearest neighbor,FNN)法確定嵌入維數[15]。從圖中可以看出嵌入維數 m = 7 時,假最近鄰點之間的距離已經接近于 0,因此嵌入維數取 7,延遲時間取 1。

2.3.2 遞歸定量分析
為了使遞歸圖有更加確切的評價體系,Zbilut 等[16]于 1992 年提出了遞歸定量分析(recurrence quantification analysis,RQA)方法。RQA 是基于點和線對遞歸圖進行量化分析的方法,其評估參數主要有以下 6 個,定義如下[17]:
(1)遞歸率(recursive rate,RR)(以符號 RR 表示),定義為遞歸圖中黑點的比率,反映空間中狀態向量的遞歸頻率及軌跡的聚集程度,表達式如式(4)所示:
![]() |
(2)確定度(determinacy)(以符號 DET 表示),定義為平行于主對角線的線段中,長度超過設定閾值(lmin)的遞歸點比率,表達式如式(5)所示:
![]() |
lmin 的設定是為了排除因相空間軌跡的某些切向運動而形成的短對角線,l 是平行于主對角線的線段長度,P(l)是長度為 l 的線段出現的次數。
(3)最長對角線(maximal diagonal line)(以符號 Lmax 表示):定義為遞歸圖中平行于特征線的最長線段的長度,表達式如式(6)所示:
![]() |
(4)熵(entropy)(以符號 ENTR 表示):計算遞歸圖中不同長度的對角線結構的香農熵,表達式如式(7)所示:
![]() |
p(l)是長度為 l 的線段出現的概率。
(5)層狀度(laminarity)(以符號 LAM 表示):計算所有形成垂直或水平結構線段上的點數和全部遞歸點數的比例,與步驟(2)的“確定度”類似,表達式如式(8)所示:
![]() |
v 是垂直或者水平方向上的線段長度,P(v) 為長度為 v 的線段出現的次數,vmin 是設定的長度閾值。
(6)捕獲時間(trapping time,TT)(以符號 TT 表示):計算垂直結構的平均長度,表達式如式(9)所示:
![]() |
已有研究指出,RQA 方法對時間序列的大小和穩定性沒有嚴格的要求,故該方法非常適用于分析難以長時間獲得穩定序列的生理信號。
2.4 時間序列符號化分析
時間序列符號化是混沌理論、符號動力學理論和信息論相結合的一種分析方法,為強噪聲系統提供了一種簡單有效的處理方式[18],其過程是先將序列符號化,對符號進行編碼后再計算熵值或者復雜度。這一“粗粒化”的過程能夠捕獲數據中的大尺度特征,降低動力學噪聲和其它測量噪聲的影響,縮短計算時間。Tang 等[19]運用該方法從噪聲信號中重構出了混沌系統,同時證明這一方法可用于處理不規則的時間序列數據。
本文采用 Daw 等[20]提出的方法,其原理如圖 5 所示。首先根據原始數據是否大于均值,將原始數據分割成 0 和 1 組成的符號序列。為了提取符號序列中隱含的特征,本文課題組將 3 個符號編碼成一個十進制數,每次延遲 1 個字符,從而組成新的碼字序列。該過程與遞歸圖中的時間延遲嵌入思想類似,都是通過在相空間中重構向量來試圖還原系統信息。

本文選取的符號碼共 23 = 8 種。若序列是隨機的,則每種符號碼產生的概率均為 12.5%;反之,若某幾種符號碼的概率出現較大偏差,暗示著系統中存在著某些確定性結構。計算不同符號出現概率的香農熵,熵值越低,說明信號中的確定性成分越高。
Lempel-Ziv 復雜度是用于分析非線性動力學系統復雜度的另一種重要方法。該方法最先由 Lempel 等[21]提出,主要用于測量時間序列中新模式出現的速度。本文在得到符號序列之后,同時計算了 Lempel-Ziv 復雜度,并將其作為輔助判斷的指標。
2.5 SVM 預測房顫復發
從上文所述 20 例患者的 RR 間期數據中隨機選 10 組作為訓練集,10 組作為測試集,進行 SVM 分類,隨后統計了下述 4 種情況:
真陽性(true positive,TP)(符號記為:TP):Pre-AF 組數據被預測為近房顫發生前狀態;
真陰性(true negative,TN)(符號記為:TN):Normal 組數據被預測為正常狀態;
假陽性(false positive,FP)(符號記為:FP):Normal 組數據被預測為近房顫發生前狀態;
假陰性(false negative,FN)(符號記為:FN):Pre-AF 組數據被預測為正常狀態。
為了評價基于 SVM 分類的預測效果,本文采用了靈敏度(Sensitivity)、特異度(Specificity)和正確率(Accuracy)這三種常用指標,計算公式如式(10)~式(12) 所示:
![]() |
![]() |
![]() |
2.6 統計學分析
由于本文研究的是不同患者的 RR 間期數據,對總體情況知之甚少,樣本含量(20 例患者)較小,且比較的是同一個患者在兩個時期的情況,涉及成對數據的檢驗,因此本文采用成對數據 t 檢驗方法以檢驗 Pre-AF 組和 Normal 組兩個時期的參數。P 值是用來判定假設檢驗結果的一個參數,P < 0.05 認為差異具有統計學意義。某種指標與其他指標相比,計算出的 P 值越小,根據小概率原理,就越有理由拒絕原假設,即越能說明該指標下 Pre-AF 組和 Normal 組兩個時期的差異具有統計學意義[22]。本文數據的統計學分析采用的是生物統計分析軟件 GraphPad Prism 6.0(GraphPad Prism Inc.,美國)。
3 結果
3.1 功率譜分析結果
數據庫中 20 例患者遠離房顫和房顫發生前的心率功率譜(heart rate power spectrum,HRPS)成分比較結果如表 1 所示。該表格中的 LF_norm 和 HF_norm 是通過對 LF 和 HF 分別進行頻率域上的歸一化得到的,對應的數值均以“均值 ± 標準差”的形式給出。

表 1 顯示,Pre-AF 組的 LF_norm 成分明顯低于 Normal 組,表明患者交感神經活性降低;HF_norm 成分升高,表明患者迷走神經活性增強;LF/HF 比值降低,說明此時心臟迷走神經調節相對占優勢。這一結果提示房顫復發前迷走神經與交感神經的調節失衡。本文將 LF_norm,HF_norm 和 LF/HF 值這 3 個參數作為分類標準,用于后續的 SVM 預測分析。
3.2 近似熵與樣本熵分析結果
選取數據庫中時長為 30 min 的數據,計算 HRV 信號的標準差 d,設定嵌入維數 m = 2,延遲時間 τ = 0.2 × d,分別計算近似熵和樣本熵。記錄前 10 例患者(患者編號為 1~10)的統計結果,如圖 6 所示。從圖中可以看出,對于 Normal 組和 Pre-AF 組,近似熵和樣本熵的走勢均有著相似之處,大部分患者在 Pre-AF 組的近似熵和樣本熵偏低。近似熵和樣本熵的統計結果如表 2 所示。


由表 2 可知,近似熵和樣本熵值在 Normal 組和 Pre-AF 組的差異具有統計學意義,Pre-AF 組的近似熵和樣本熵均顯著低于 Normal 組,提示心臟系統混沌度降低。
3.3 遞歸分析結果
3.3.1 遞歸圖結果
為了能看到更多細節信息,截取每段時長為 5 min 的信號繪制遞歸圖。如圖 7 所示,繪出數據庫中第一位患者(數據庫中信號編號為 P01)正常時期 15 min 時長信號的遞歸圖,3 幅圖的遞歸模式均無明顯改變,表現為:有較多平行于主對角線的直線,整體有大量周期性塊狀區域。該周期性結構之間的距離對應著信號中的頻率信息。

如圖 8 所示,繪出該患者房顫復發前(數據庫中信號編號為 P02)30 min 時長信號的遞歸圖,幾幅圖的遞歸模式波動較大,隨著時間推移,出現更明顯、分立的塊狀結構,且圖中各塊區域的模式出現較大差別,說明心臟的混沌特性更明顯。另一方面,平行于主對角線的直線減少,說明確定性降低。

3.3.2 遞歸定量分析結果
對所有 20 例房顫患者的遠離房顫期(Normal 組)和房顫發生前期(Pre-AF 組)的數據進行遞歸定量分析。如圖 9 所示,將每條記錄的 30 min 信號分成每 5 min 一段分析,統計各遞歸參數的值,最終按照分組計算所有患者數據的均值和標準差,以直方圖的形式給出。

如圖 9 所示的 6 組參數中,除了 DET 值,其余 5 組參數 t 檢驗均顯示 Normal 組和 Pre-AF 組之間的差異具有統計學意義。在近房顫復發時期,RR 值升高,說明信號線性增強;Lmax 增大,說明隨著時間的推移,信號的形態模式會變得更加多樣化,而不像 Normal 組的信號中頻繁出現同樣的形態模式;ENTR 值較高,說明遞歸圖中對角線的分布更復雜,揭示了系統達到穩定需要的時間更長。LAM 值和 TT 值在 Pre-AF 組中的值高于 Normal 組,反映房顫發生前心電活動處于某個模式的時間較長。
由上述分析可知,參數 RR 值、Lmax、ENTR 值、LAM 值和 TT 值可以區分房顫復發和未復發,可作為后續 SVM 分類的指標。
3.4 時間序列符號化分析結果
用 20 例患者的 40 段心電信號 RR 間期計算動態符號熵和 Lempel-Ziv 復雜度,每組的計算結果統計以“均值 ± 標準差”的形式顯示,如表 3 所示。

結果顯示,Pre-AF 組中動態符號熵和 Lempel-Ziv 復雜度均高于 Normal 組,且 P 值均小于 0.05,說明動態符號熵和 Lempel-Ziv 復雜度對房顫是否復發都有一定的區分能力。
3.5 房顫復發預測結果
對于 4 種方法,分別選定有區分度的指標,確定最佳的分類器參數值,最終得到的分類效果如表 4 所示。

可以看出,遞歸定量分析和功率譜分析均達到了較高的準確率,分別為 95% 和 90%。相對來看,近似熵、樣本熵和符號熵的分類效果較遜色,準確率只有 70%。結果表明,遞歸分析和功率譜分析可能成為房顫復發預測的有效方法。
4 討論
本文利用 4 種不同的方法(功率譜分析、近似熵和樣本熵、遞歸分析、時間序列符號化)對心電信號 RR 間期序列進行處理,統計不同的指標在房顫發作前和遠離房顫發作時期的變化,最后通過 SVM 分類,評估 4 種方法的相關指標對房顫復發與否的預測效果。結果表明,遞歸分析中的各項參數綜合使用達到的分類效果最佳,對于房顫復發預測能夠達到 95% 的準確率;功率譜分析方法次之,準確率為 90%;近似熵和樣本熵及時間序列符號化的效果不夠理想,準確率均只有 70%。說明基于 RR 間期序列的遞歸分析和功率譜分析能夠較有效地評估心房混沌狀態,對房顫復發預測有一定的參考價值。
遞歸分析的主要優點是:對數據長度沒有嚴格要求,有多項量化指標可以用于分類,同時不需要對時間序列數據和產生的系統作出數學假設,且能對混沌系統的軌跡向量隨時間的演化進行深入分析,故十分適合用于分析短時非平穩的心電信號的混沌性。白寶丹等[4]提出了基于遞歸復雜網絡預測房顫術后復發的方法,通過動物實驗得到房顫復發前的犬心外膜信號,同時研究了基于遞歸思想的 RQA 方法,最終預測房顫復發的靈敏度、特異度和準確率分別達到 80.18%、89.98% 和 86.62%。本文將基于體表 RR 間期序列的遞歸分析用于陣發性房顫預測數據庫,也獲得了滿意的效果。
功率譜分析主要是計算特定頻段的能量,因而同樣適用于分析短程 HRV 信號。本研究發現患者在房顫復發前心臟迷走神經調節相對占優勢,暗示著房顫復發前迷走神經與交感神經的調節失衡。其他學者的研究也揭示了同樣的結果。臨床研究表明,迷走神經張力增高時房顫易于復發[23]。Lombardi 等[24]學者對 65 例患者 110 次陣發性房顫發作前后的數據進行了短程頻域分析,發現陣發性房顫發作前 5 min 出現自主神經調節異常,發作后交感神經與迷走神經又達到生理平衡。此外,Chesnokov[25]在 2008 年使用了 HRV 的復雜性和頻譜分析對陣發性房顫進行預測,其方法的靈敏度為 76%,特異度為 93%。
本文利用近似熵和樣本熵的預測效果欠佳,可能是由于采用的數據庫中數據長度有限,使得到的估計值和實際情況存在偏差。時間序列符號化雖然可以降低對噪聲的敏感性,但處理心電信號 RR 間期時仍會失去一些重要的細節信息,使得最終的預測效果差強人意。
最后一步,基于上述各種方法的多種指標,建立 SVM 分類模型。如利用遞歸定量分析的結果預測房顫復發時就用到了 5 種指標,功率譜分析方法也用到了 3 種指標。考慮到樣本數目較少,若將不同方法的不同指標組合預測會使得特征維數過高,同時本文側重于比較 4 種方法對房顫復發前心房系統混沌程度的適用性和預測結果,故本文未將眾多參數指標進一步組合建模進行預測。
本文所用的 RR 間期數據均來自 Physionet 網站上陣發性房顫預測數據庫中訓練模塊的樣本,數量較少,今后還需要對大量的臨床樣本進行進一步研究,尋找能夠預測房顫復發的普遍規律。此外,采用 4 種不同的算法進行計算時,其中具體參數的選取還可進一步細究。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。