為解決當前臨床上缺乏對高血壓疾病亞型及并發癥發病模式分析的技術體系問題,本文提出了一種集成主元分析(PCA)、K-means 聚類、Apriori 頻繁項挖掘等理論,對高血壓患者群體差異因素下的并發癥模式分析方法。首先,針對患者指標的多樣性所帶來的冗余干擾問題,利用 PCA 理論對指標數據進行降維及去冗余處理;其次,在獲取指標數據主元成分的基礎上,利用 K-means 算法實現患者的群體分析;最后,基于不同患者群體的并發癥數據,利用 Apriori 算法實現并發癥頻繁模式分析。本文同時采用實際案例驗證上述方法的有效性,以期為當前醫療大數據的分析與應用提供有效的解決思路與方案。
引用本文: 姜洪權, 王崗, 高建民, 姜朋, 郭旗. 高血壓患者并發癥模式的分析方法研究. 中國循證醫學雜志, 2017, 17(9): 1100-1105. doi: 10.7507/1672-2531.201705083 復制
高血壓是最常見的心血管疾病,也是全球范圍內的重大公共衛生問題。高血壓疾病具有發病率高、死亡率高和并發癥較多等特點[1, 2]。高血壓常見的嚴重并發癥包括腦卒中、冠心病、視網膜病變和慢性腎臟疾病等,均具有很高的致殘率和致死率[3]。高血壓的疾病分析需要考慮多種因素,如個人習慣、遺傳、環境、年齡和其他諸多原因,這些因素對高血壓疾病的診斷和治療研究具有重要的應用價值。隨著醫學檢測、生物傳感技術的進步和信息化技術的發展,許多醫院建立了醫療信息平臺,形成了以圖形、文字、圖像、數據為特征的龐大的醫療信息數據庫[4]。以醫療信息數據庫支撐的醫療大數據能更有效地對高血壓并發癥模式進行規律分析,從而促進高血壓并發癥模式識別技術的發展。2015 年 3 月,科技部召開國家首次精準醫學戰略專家會議,啟動精準醫療計劃,預示著我國精準醫學時代的到來[5]。精準醫學的主要內涵是依據患者內在生物學信息、臨床癥狀和體征,對患者實施健康醫療和臨床決策。因此,未來高血壓的診治及預防須建立在對高血壓并發癥模式的規律分析上。
目前,臨床實踐中對高血壓患者分類通常采用世界衛生組織公布的血壓標準分級,但這種分類方法忽視了患者的群體差異性、指標多樣性及其相互影響。現有醫學分析技術主要是基于統計分析理論的方法,如多元線性回歸、逐步回歸分析、判別分析、Logistic 回歸分析、聚類分析等[6-10]。這些方法大多側重假設驅動,即提出假設并進行檢驗,并不能實現基于數據驅動的分析,不能從數據中發現規律并獲得知識。此外,當前的研究往往期望使用一種技術完成分析,如:王愛國等[7]提出了一種集成回歸分析與神經網絡理論的高血壓疾病預測模型,用以實現對患者的疾病診斷與分析;孫艷秋等[9]運用聚類分析的方法對中醫治療高血壓病的特點進行了分析;趙靜等[11]則采用數據挖掘技術中的頻數統計和關聯規則算法研究治療高血壓的核心藥物及配藥規律;李仲謹等[12]利用徑向基函數神經網絡(RBF-NN)理論,結合微量元素與高血壓的相關性分析建立高血壓疾病的分類模型,并對高血壓患者進行診斷分析。然而,對于患者的個體數據而言,由于涉及到多種數據記錄,如血壓、血脂檢測數據、醫生診斷記錄、患者信息記錄數據等,而這些數據具有大數據的大量、高速、多樣、低價值密度的 4V(volume,velocity,variety,value)特征[13]。現有的高血壓并發癥模式分析方法并沒有真正實現從患者個體角度及數據內在包含的規律進行分析,在分析技術上落后于當前醫學大數據分析及應用需求。
針對以上問題,本文首次提出全新采用多種算法的高血壓并發癥模式分析方法。首先,為消除患者指標的多樣性所帶來的冗余問題,利用主元分析(PCA)理論對指標數據進行降維處理。在此基礎上,利用 K-means 聚類技術對患者群體特征進行分析與劃分。最后,在不同患者群體的高血壓并發癥數據基礎上,利用 Apriori 算法實現高血壓并發癥模式的分析與辨識。本研究以實際案例進行分析,以期為高血壓并發癥模式分析提供有效的解決思路與方案。
1 臨床診療數據整理
本研究臨床數據來源于西安交通大學第二附屬醫院心內科 2014 年 1 月至 2016 年 7 月收治入院的 176 例高血壓患者。所有患者對本研究知情并同意參與,且臨床信息均已匿名化處理。
高血壓患者的臨床數據包括多項指標數據,如動態血壓、血糖、血脂、膽固醇,以及生活習慣、性別、年齡等。依據同一患者不同的診療信息進行集成,可得到包括總膽固醇、甘油三酯、HDL、LDL、VLDL、年齡、勺形血壓、吸煙史、24 小時收縮壓平均值及方差等總計 23 個指標。依據專家建議,選取與患者高血壓并發癥密切相關的 11 個臨床指標作為分析指標(表 1)。同時,利用患者的診療記錄,整理相應的并發癥數據。為便于后續分析,對各種并發癥進行編號處理,最終納入 73 種并發癥疾病數據作為待分析的并發癥模式數據基礎(表 2)。


2 方法體系概述
為實現高血壓患者并發癥模式的精細化辨識,需要解決兩個問題:① 由于患者個體指標數據眾多,指標之間必然會具有冗余及強相關性,將會影響并發癥識別的有效性;② 高血壓患者并發癥受多種因素的影響,因此需要依據患者個體特征進行群體劃分,即需要考慮不同個人特征信息進行患者分類,在有效獲取患者不同群體信息后再進行并發癥的模式分析將更具有針對性和有效性。綜合以上考慮,本文提出的高血壓患者差異性的并發癥模式分析的技術框架見圖 1。

首先將患者臨床數據分為兩部分,即高血壓患者個體指標數據(表 1)和高血壓患者并發癥數據(表 2)。對于高血壓指標數據,為克服指標之間的冗余性和高維度影響,利用 PCA 方法進行數據去冗余及降維處理;利用降維后的數據集成 K-means 聚類方法進行高血壓患者群體分析,實現患者差異性的群體識別。最后,依據每個患者群體所具有的并發癥數據,利用 Apriori 算法進行并發癥頻繁模式項挖掘,從而實現不同群體的并發癥模式分析。
2.1 高維指標的數據去冗余和降維分析
本文采用 PCA 方法實現高維指標數據的去冗余及降維分析[14]。PCA 是一種常用的數據特征分析方法,廣泛用于模式識別、圖像處理等領域[15, 16],其核心思想是將原始高維數據經線性變換后投影到低維空間進行分析,克服原始高維數據的冗余問題,并通過構建低緯度的主元空間保留原始數據的主要信息。
設
為獲取的高血壓患者指標數據,其中 N 為指標個數,利用 PCA 構建 N 個新的特征變量
,使其滿足以下條件:
① 每個新變量 T 是 N 個原有指標的線性組合,即
,式中 U 為變換矩陣,
;
② 新的變量作為特征向量是互不相關的,且特征向量兩兩正交
![]() |
③ 使
和
的方差值達到最大值,這樣的
稱為原樣本空間的第 j 個主成分。
對于主元個數 k 的選擇,可通過特征值貢獻率進行確定[14]。一般地,當 sum≥0.95 時,即可認為主元空間包含了原始數據主要信息。貢獻率的計算如公式(2),其中 N'≤N;λ 為特征值。
![]() |
通過上述步驟,即可將原始 N 維患者指標數據降維,得到 k 維指標數據;同時,由于各主元特征向量是正交獨立的,可消除原始指標數據的冗余信息。
2.2 基于改進 K-means 的患者群體聚類
在實現患者指標數據的降維分析后,可以依據降維數據進行患者群體分析,其本質是實現指標數據的聚類分析。聚類算法廣泛應用于人工智能、計算機科學、地球科學、經濟學等領域,在醫學領域也得到廣泛應用[17-19]。K-means 是目前應用最為廣泛的一種聚類算法,其主要思想就是通過預先定義類個數 k,通過不斷迭代類均值(即中心)將數據集分為不同的聚類群體,并使得每個聚類的類內對象相對緊湊、類間相對獨立。由于本文所提方法是利用降維后的數據進行聚類分析,需要對傳統的 K-means 算法進行改進,即需要重新定義樣本間的相似性度量。
設
和
分別是患者指標降維后的兩個樣本,且
,
,則
和
間的相似性度量
可以用
和
間的距離進行度量,它是進行聚類分析的依據;即
越小則差異度越小,
和
樣本間越相似;反之,
越大則差異越大,
和
越不相似。可進行以下定義:
![]() |
通過公式(3)即可實現患者的指標數據在主元方向的相似性度量。
由于 K-means 聚類算法是以確定的類數 k 為前提對數據集進行聚類的,通常聚類數事先無法確定,而不準確的 k 值會導致聚類質量下降。因此,本文以平均 Silhouette 值[20, 21]為基礎,定義一個指標來評價聚類數 k 的準確性(即當聚類數為 k 時,聚類效果如何)。對樣本 t,聚類效果評價指標
為:
![]() |
![]() |
其中,
是樣本 t 與其所在類內所有樣本的平均距離;
是樣本 t 與其它類
的所有樣本的平均距離。
依據以上定義,在聚類個數為 k 時,計算數據集中所有樣本的
平均值,記為
,作為度量 k 個聚類的聚類效果。
值越大,聚類效果越好。
定義如下,式中 m 為數據集樣本數:
![]() |
綜上述,本文提出的改進的 K-means 患者群體分析方法主要步驟如下:
① 隨機選取 k 個點作為初始聚類中心,將所有樣本數據對象隨機分配到 k 個非空的簇中;
② 計算各個簇中所有點的平均值
,并用計算得到的
代表相應的簇;
③ 依據式(3)計算每個對象與
距離,將其分配給相似性度量最小的簇;
④ 計算聚類評價函數
,若
,則回到 ②,重復以上過程;若
或者
不再變化時,則停止聚類過程。
2.3 不同患者群體并發癥模式挖掘
實現患者群體聚類分析后,對于不同群體的高血壓患者,可利用其相關的并發癥案例數據(表 2),通過 Apriori 算法進行并發癥模式的頻繁項集挖掘,結果即為具有統計學意義的不同患者群體的并發癥模式,可為當前高血壓疾病診斷及預防提供依據。Apriori 算法是一種挖掘關聯規則的頻繁項集算法,其基本原理是使用逐層搜索的迭代方法來挖掘頻繁項集,即用 k 項集去探索(k+1)項集。限于本文篇幅及論述重點,Apriori 算法在此不再敘述,具體步驟可參照相關文獻[22, 23]。
3 應用實例
本文應用 176 例高血壓患者數據對前述方法進行實例驗證,其主要步驟如圖 1。具體步驟如下:
第一步:采用 PCA 對高血壓臨床指標數據進行降維。由 11 個臨床高血壓病變指標變量組成的初始矩陣 X,矩陣 X 部分數據如式(7)所示,其中矩陣 X 代表 176 個病例的 11 個臨床指標情況,其中 X 的每個行向量代表每個病例的 11 個臨床病變指標情況。運用主元分析可得各主成分貢獻率,其中根據式(2)計算累計方差貢獻率,前 8 個主元的貢獻率相加大于 95%,根據所選主元構建新數據集 T。矩陣 T 的部分數據如式(8)所示,T 代表原始數據集不同個體的主成分的得分值,T 的行向量代表每個患者在前 8 個主元下的數據。由于 T 矩陣只是對原始指標數據進行了線性變化,因此,T 矩陣保留了原始數據的主要信息,使得后續群體聚類分析具有很好的可分性。
![]() |
![]() |
選取主元分析后的新矩陣 T 作為聚類的輸入,依據式(6)計算
值,其隨 k 的變化見圖 2,選取最大值,即 k=6,本文示例數據分為 6 類較為合適。

第二步:將新的數據集 T 作為輸入,通過 K-means 聚類算法對 T 中的 176 例高血壓患者進行聚類分析,將 176 例患者分為 6 類。
為驗證采用 PCA 進行去冗余及降維的必要性,本文比較了 176 例患者是否進行 PCA 降維的聚類效果,并利用
值做為指標進行聚類效果評價,見表 3。

從表 3 可知,二者聚類得到的
值分別為 0.34 和 0.28。因此,本文采用的方法由于經過了去冗余及降維處理,其聚類效果更佳。
最終聚類結果:類一包含 36 名患者;類二包含 52 名患者;類三包含 54 名患者;類四包含 6 名患者;類五包含 17 名患者;類六包含 11 名患者。在此基礎上,可獲得 6 類高血壓患者的指標聚類中心,見表 4。每個群體并發癥模式的挖掘結果,見表 5。


通過表 5 可看出:本文采用的方法可將患者分成 6 類,且 6 類高血壓患者的并發癥模式有明顯不同,根據不同患者群體的并發癥頻繁項,可在患者就診時對相應的癥狀進行重點排查治療。可見,本文提出的并發癥模式分析方法充分考慮了高血壓患者之間的個體差異性和群體共性,在臨床應用上可體現不同患者群體的并發癥模式特點,并可根據該群體的并發癥頻繁模式制定具有針對性的治療方案。例如對于類二中的患者,要重點關注其 2 型糖尿病、冠心病及心絞痛的防范和治療。
本研究顯示,將數據挖掘方法引入高血壓患者并發癥數據分析中,能夠將具有不同特點的典型并發癥患者進行有效區分,并能給出不同并發癥模式患者的群體特征,這為以后高血壓患者的臨床診斷提供了一種知識規則作為參考。該方法考慮了高血壓患者的個體差異性和群體性,分析了臨床指標數據,并通過其指標因素對其進行歸類,進而推斷患者屬于何種并發癥模式,可對高血壓患者并發癥進行有效防范和治療工作,同時為制定高血壓患者的針對性治療方案提供指導意見。
4 結論
相對與傳統依據病理方法的并發癥分析方法,本文從醫學數據分析角度對當前高血壓患者并發癥分析問題進行研究。我們針對忽視患者群體、個體特征對并發癥模式的影響以及缺乏有效醫學數據分析手段等現有問題,提出了一種集成 PCA、K-means、Apriori 等傳統數據理論的高血壓并發癥模式分析方法。通過實例驗證表明,該方法可有效彌補單一方法分析問題的不足,實現高血壓患者并發癥大數據分析,更能貼近疾病診治、預防的實際需求和應用。
醫學大數據分析是精準醫學的重要組成部分,探索新的數據分析理論與技術是實現醫學數據深層應用的關鍵。本文所提出方法是在這一需求背景下的初步探索,后期工作需要圍繞實際醫學問題探索新的數據分析方法,尤其是需要結合工學領域中現有技術的優點實現分析的深度集成與應用。
高血壓是最常見的心血管疾病,也是全球范圍內的重大公共衛生問題。高血壓疾病具有發病率高、死亡率高和并發癥較多等特點[1, 2]。高血壓常見的嚴重并發癥包括腦卒中、冠心病、視網膜病變和慢性腎臟疾病等,均具有很高的致殘率和致死率[3]。高血壓的疾病分析需要考慮多種因素,如個人習慣、遺傳、環境、年齡和其他諸多原因,這些因素對高血壓疾病的診斷和治療研究具有重要的應用價值。隨著醫學檢測、生物傳感技術的進步和信息化技術的發展,許多醫院建立了醫療信息平臺,形成了以圖形、文字、圖像、數據為特征的龐大的醫療信息數據庫[4]。以醫療信息數據庫支撐的醫療大數據能更有效地對高血壓并發癥模式進行規律分析,從而促進高血壓并發癥模式識別技術的發展。2015 年 3 月,科技部召開國家首次精準醫學戰略專家會議,啟動精準醫療計劃,預示著我國精準醫學時代的到來[5]。精準醫學的主要內涵是依據患者內在生物學信息、臨床癥狀和體征,對患者實施健康醫療和臨床決策。因此,未來高血壓的診治及預防須建立在對高血壓并發癥模式的規律分析上。
目前,臨床實踐中對高血壓患者分類通常采用世界衛生組織公布的血壓標準分級,但這種分類方法忽視了患者的群體差異性、指標多樣性及其相互影響。現有醫學分析技術主要是基于統計分析理論的方法,如多元線性回歸、逐步回歸分析、判別分析、Logistic 回歸分析、聚類分析等[6-10]。這些方法大多側重假設驅動,即提出假設并進行檢驗,并不能實現基于數據驅動的分析,不能從數據中發現規律并獲得知識。此外,當前的研究往往期望使用一種技術完成分析,如:王愛國等[7]提出了一種集成回歸分析與神經網絡理論的高血壓疾病預測模型,用以實現對患者的疾病診斷與分析;孫艷秋等[9]運用聚類分析的方法對中醫治療高血壓病的特點進行了分析;趙靜等[11]則采用數據挖掘技術中的頻數統計和關聯規則算法研究治療高血壓的核心藥物及配藥規律;李仲謹等[12]利用徑向基函數神經網絡(RBF-NN)理論,結合微量元素與高血壓的相關性分析建立高血壓疾病的分類模型,并對高血壓患者進行診斷分析。然而,對于患者的個體數據而言,由于涉及到多種數據記錄,如血壓、血脂檢測數據、醫生診斷記錄、患者信息記錄數據等,而這些數據具有大數據的大量、高速、多樣、低價值密度的 4V(volume,velocity,variety,value)特征[13]。現有的高血壓并發癥模式分析方法并沒有真正實現從患者個體角度及數據內在包含的規律進行分析,在分析技術上落后于當前醫學大數據分析及應用需求。
針對以上問題,本文首次提出全新采用多種算法的高血壓并發癥模式分析方法。首先,為消除患者指標的多樣性所帶來的冗余問題,利用主元分析(PCA)理論對指標數據進行降維處理。在此基礎上,利用 K-means 聚類技術對患者群體特征進行分析與劃分。最后,在不同患者群體的高血壓并發癥數據基礎上,利用 Apriori 算法實現高血壓并發癥模式的分析與辨識。本研究以實際案例進行分析,以期為高血壓并發癥模式分析提供有效的解決思路與方案。
1 臨床診療數據整理
本研究臨床數據來源于西安交通大學第二附屬醫院心內科 2014 年 1 月至 2016 年 7 月收治入院的 176 例高血壓患者。所有患者對本研究知情并同意參與,且臨床信息均已匿名化處理。
高血壓患者的臨床數據包括多項指標數據,如動態血壓、血糖、血脂、膽固醇,以及生活習慣、性別、年齡等。依據同一患者不同的診療信息進行集成,可得到包括總膽固醇、甘油三酯、HDL、LDL、VLDL、年齡、勺形血壓、吸煙史、24 小時收縮壓平均值及方差等總計 23 個指標。依據專家建議,選取與患者高血壓并發癥密切相關的 11 個臨床指標作為分析指標(表 1)。同時,利用患者的診療記錄,整理相應的并發癥數據。為便于后續分析,對各種并發癥進行編號處理,最終納入 73 種并發癥疾病數據作為待分析的并發癥模式數據基礎(表 2)。


2 方法體系概述
為實現高血壓患者并發癥模式的精細化辨識,需要解決兩個問題:① 由于患者個體指標數據眾多,指標之間必然會具有冗余及強相關性,將會影響并發癥識別的有效性;② 高血壓患者并發癥受多種因素的影響,因此需要依據患者個體特征進行群體劃分,即需要考慮不同個人特征信息進行患者分類,在有效獲取患者不同群體信息后再進行并發癥的模式分析將更具有針對性和有效性。綜合以上考慮,本文提出的高血壓患者差異性的并發癥模式分析的技術框架見圖 1。

首先將患者臨床數據分為兩部分,即高血壓患者個體指標數據(表 1)和高血壓患者并發癥數據(表 2)。對于高血壓指標數據,為克服指標之間的冗余性和高維度影響,利用 PCA 方法進行數據去冗余及降維處理;利用降維后的數據集成 K-means 聚類方法進行高血壓患者群體分析,實現患者差異性的群體識別。最后,依據每個患者群體所具有的并發癥數據,利用 Apriori 算法進行并發癥頻繁模式項挖掘,從而實現不同群體的并發癥模式分析。
2.1 高維指標的數據去冗余和降維分析
本文采用 PCA 方法實現高維指標數據的去冗余及降維分析[14]。PCA 是一種常用的數據特征分析方法,廣泛用于模式識別、圖像處理等領域[15, 16],其核心思想是將原始高維數據經線性變換后投影到低維空間進行分析,克服原始高維數據的冗余問題,并通過構建低緯度的主元空間保留原始數據的主要信息。
設
為獲取的高血壓患者指標數據,其中 N 為指標個數,利用 PCA 構建 N 個新的特征變量
,使其滿足以下條件:
① 每個新變量 T 是 N 個原有指標的線性組合,即
,式中 U 為變換矩陣,
;
② 新的變量作為特征向量是互不相關的,且特征向量兩兩正交
![]() |
③ 使
和
的方差值達到最大值,這樣的
稱為原樣本空間的第 j 個主成分。
對于主元個數 k 的選擇,可通過特征值貢獻率進行確定[14]。一般地,當 sum≥0.95 時,即可認為主元空間包含了原始數據主要信息。貢獻率的計算如公式(2),其中 N'≤N;λ 為特征值。
![]() |
通過上述步驟,即可將原始 N 維患者指標數據降維,得到 k 維指標數據;同時,由于各主元特征向量是正交獨立的,可消除原始指標數據的冗余信息。
2.2 基于改進 K-means 的患者群體聚類
在實現患者指標數據的降維分析后,可以依據降維數據進行患者群體分析,其本質是實現指標數據的聚類分析。聚類算法廣泛應用于人工智能、計算機科學、地球科學、經濟學等領域,在醫學領域也得到廣泛應用[17-19]。K-means 是目前應用最為廣泛的一種聚類算法,其主要思想就是通過預先定義類個數 k,通過不斷迭代類均值(即中心)將數據集分為不同的聚類群體,并使得每個聚類的類內對象相對緊湊、類間相對獨立。由于本文所提方法是利用降維后的數據進行聚類分析,需要對傳統的 K-means 算法進行改進,即需要重新定義樣本間的相似性度量。
設
和
分別是患者指標降維后的兩個樣本,且
,
,則
和
間的相似性度量
可以用
和
間的距離進行度量,它是進行聚類分析的依據;即
越小則差異度越小,
和
樣本間越相似;反之,
越大則差異越大,
和
越不相似。可進行以下定義:
![]() |
通過公式(3)即可實現患者的指標數據在主元方向的相似性度量。
由于 K-means 聚類算法是以確定的類數 k 為前提對數據集進行聚類的,通常聚類數事先無法確定,而不準確的 k 值會導致聚類質量下降。因此,本文以平均 Silhouette 值[20, 21]為基礎,定義一個指標來評價聚類數 k 的準確性(即當聚類數為 k 時,聚類效果如何)。對樣本 t,聚類效果評價指標
為:
![]() |
![]() |
其中,
是樣本 t 與其所在類內所有樣本的平均距離;
是樣本 t 與其它類
的所有樣本的平均距離。
依據以上定義,在聚類個數為 k 時,計算數據集中所有樣本的
平均值,記為
,作為度量 k 個聚類的聚類效果。
值越大,聚類效果越好。
定義如下,式中 m 為數據集樣本數:
![]() |
綜上述,本文提出的改進的 K-means 患者群體分析方法主要步驟如下:
① 隨機選取 k 個點作為初始聚類中心,將所有樣本數據對象隨機分配到 k 個非空的簇中;
② 計算各個簇中所有點的平均值
,并用計算得到的
代表相應的簇;
③ 依據式(3)計算每個對象與
距離,將其分配給相似性度量最小的簇;
④ 計算聚類評價函數
,若
,則回到 ②,重復以上過程;若
或者
不再變化時,則停止聚類過程。
2.3 不同患者群體并發癥模式挖掘
實現患者群體聚類分析后,對于不同群體的高血壓患者,可利用其相關的并發癥案例數據(表 2),通過 Apriori 算法進行并發癥模式的頻繁項集挖掘,結果即為具有統計學意義的不同患者群體的并發癥模式,可為當前高血壓疾病診斷及預防提供依據。Apriori 算法是一種挖掘關聯規則的頻繁項集算法,其基本原理是使用逐層搜索的迭代方法來挖掘頻繁項集,即用 k 項集去探索(k+1)項集。限于本文篇幅及論述重點,Apriori 算法在此不再敘述,具體步驟可參照相關文獻[22, 23]。
3 應用實例
本文應用 176 例高血壓患者數據對前述方法進行實例驗證,其主要步驟如圖 1。具體步驟如下:
第一步:采用 PCA 對高血壓臨床指標數據進行降維。由 11 個臨床高血壓病變指標變量組成的初始矩陣 X,矩陣 X 部分數據如式(7)所示,其中矩陣 X 代表 176 個病例的 11 個臨床指標情況,其中 X 的每個行向量代表每個病例的 11 個臨床病變指標情況。運用主元分析可得各主成分貢獻率,其中根據式(2)計算累計方差貢獻率,前 8 個主元的貢獻率相加大于 95%,根據所選主元構建新數據集 T。矩陣 T 的部分數據如式(8)所示,T 代表原始數據集不同個體的主成分的得分值,T 的行向量代表每個患者在前 8 個主元下的數據。由于 T 矩陣只是對原始指標數據進行了線性變化,因此,T 矩陣保留了原始數據的主要信息,使得后續群體聚類分析具有很好的可分性。
![]() |
![]() |
選取主元分析后的新矩陣 T 作為聚類的輸入,依據式(6)計算
值,其隨 k 的變化見圖 2,選取最大值,即 k=6,本文示例數據分為 6 類較為合適。

第二步:將新的數據集 T 作為輸入,通過 K-means 聚類算法對 T 中的 176 例高血壓患者進行聚類分析,將 176 例患者分為 6 類。
為驗證采用 PCA 進行去冗余及降維的必要性,本文比較了 176 例患者是否進行 PCA 降維的聚類效果,并利用
值做為指標進行聚類效果評價,見表 3。

從表 3 可知,二者聚類得到的
值分別為 0.34 和 0.28。因此,本文采用的方法由于經過了去冗余及降維處理,其聚類效果更佳。
最終聚類結果:類一包含 36 名患者;類二包含 52 名患者;類三包含 54 名患者;類四包含 6 名患者;類五包含 17 名患者;類六包含 11 名患者。在此基礎上,可獲得 6 類高血壓患者的指標聚類中心,見表 4。每個群體并發癥模式的挖掘結果,見表 5。


通過表 5 可看出:本文采用的方法可將患者分成 6 類,且 6 類高血壓患者的并發癥模式有明顯不同,根據不同患者群體的并發癥頻繁項,可在患者就診時對相應的癥狀進行重點排查治療。可見,本文提出的并發癥模式分析方法充分考慮了高血壓患者之間的個體差異性和群體共性,在臨床應用上可體現不同患者群體的并發癥模式特點,并可根據該群體的并發癥頻繁模式制定具有針對性的治療方案。例如對于類二中的患者,要重點關注其 2 型糖尿病、冠心病及心絞痛的防范和治療。
本研究顯示,將數據挖掘方法引入高血壓患者并發癥數據分析中,能夠將具有不同特點的典型并發癥患者進行有效區分,并能給出不同并發癥模式患者的群體特征,這為以后高血壓患者的臨床診斷提供了一種知識規則作為參考。該方法考慮了高血壓患者的個體差異性和群體性,分析了臨床指標數據,并通過其指標因素對其進行歸類,進而推斷患者屬于何種并發癥模式,可對高血壓患者并發癥進行有效防范和治療工作,同時為制定高血壓患者的針對性治療方案提供指導意見。
4 結論
相對與傳統依據病理方法的并發癥分析方法,本文從醫學數據分析角度對當前高血壓患者并發癥分析問題進行研究。我們針對忽視患者群體、個體特征對并發癥模式的影響以及缺乏有效醫學數據分析手段等現有問題,提出了一種集成 PCA、K-means、Apriori 等傳統數據理論的高血壓并發癥模式分析方法。通過實例驗證表明,該方法可有效彌補單一方法分析問題的不足,實現高血壓患者并發癥大數據分析,更能貼近疾病診治、預防的實際需求和應用。
醫學大數據分析是精準醫學的重要組成部分,探索新的數據分析理論與技術是實現醫學數據深層應用的關鍵。本文所提出方法是在這一需求背景下的初步探索,后期工作需要圍繞實際醫學問題探索新的數據分析方法,尤其是需要結合工學領域中現有技術的優點實現分析的深度集成與應用。