針對多參數流式細胞數據分析過程復雜、自動化程度不高、要求操作者具有一定專業背景等問題,本文提出了一種基于核主成分分析算法(KPCA)進行多參數流式細胞數據分群的方法。利用 KPCA 對多參數流式細胞數據進行非線性變換,降低數據的維度,得到主成分特征變量下的散點圖分群結果,并使用改進的K-means 聚類算法實現不同亞群的自動設門。以人體外周血淋巴細胞樣本檢測結果為實驗數據,分別對其進行傳統分群、主成分分析(PCA)分群、KPCA 分群處理,并對特征參數的選取進行了探索。結果表明,KPCA 方法能夠較好地應用于多參數流式細胞數據分析中,與傳統細胞分群方法相比,該方法無需操作者具備專業知識,即可實現快速準確的自動分群,能夠提高流式細胞儀臨床診斷分析的效率。
引用本文: 馬閃閃, 董明利, 張帆, 潘志康, 祝連慶. 基于核主成分分析的流式細胞數據分群方法研究. 生物醫學工程學雜志, 2017, 34(1): 115-122. doi: 10.7507/1001-5515.201604088 復制
引言
流式細胞術(flow cytometry)是一種能夠對懸浮的細胞或者其他微粒進行多參數、快速分析或分選的技術。隨著精準醫療和基因生物學的發展,流式細胞儀(flow cytometer)已成為進行生物研究及臨床診斷最重要的工具之一,廣泛應用于生物學和生物醫學研究中[1-4]。
流式細胞數據分析是流式細胞術中的難點之一,其主要目的是識別和劃分樣本中的亞群細胞[5-6]。在進行多參數流式細胞數據分析時,傳統的數據分析方法通常使用能夠顯示兩個測量通道參數的二維散點圖,以人工設門的方式對數據進行分析,二維散點圖的坐標軸參數可以為前向散射光(forward scattering,FSC)、側向散射光(side scattering,SSC)或各通道的熒光信號(fluorescence channel,FL)[7]。隨著流式細胞術的發展,能夠檢測的參數成倍增加,傳統流式數據分析方法在細胞分群方面存在的不足也越來越明顯:
(1)過程繁瑣、效率低。由于二維散點圖每次只能顯示兩個維度的參數,若流式數據參數個數為m,利用傳統方法隨機選擇兩個參數作為橫、縱坐標,可能需要繪制的散點圖數目為 ,從而導致分析效率低、耗時長且浪費資源。
(2)對操作者的要求較高。通常情況下,在隨機選擇坐標軸參數繪制的散點圖中,細胞亞群的區分并不明顯,需要操作者具備較高水平的專業知識,并采用多個散點圖組合的方式才能獲得理想的分群結果。
(3)分群結果具有主觀性,容易受到操作者經驗的影響,可重復性差[2,8]。
近年來,很多學者針對流式細胞數據的自動分析方法進行了探索,但是大部分分析方法側重于實現細胞的自動設門。一些聚類算法如K-means 算法、高斯混合模型等被最早提出應用于流式細胞數據自動分析中[9-10]。Zeng 等[11]提出了特征引導(feature-guided,FG)聚類算法,該算法由篩選器從多個維度的直方圖中提取出峰值點,通過對比類群的中心位置與峰值位置是否匹配,確定細胞類群的數目,最終利用K-means 算法實現設門。Zare 等[12]首次嘗試應用譜聚類方法對流式細胞數據進行處理,實現了細胞的自動設門,但其缺點是要對流式數據進行采樣,造成了一些數據特征的損失。Sugar 等[13]開發了一種新的無監督密度輪廓聚類算法,該算法基于滲流理論有效分析了流式細胞數據,通過尋找數據直方圖的峰值位置確定每個類群,實現了數據的快速分析。Ge 等[14]將混合模型和直方圖相結合,利用混合模型密度函數得到類群數目,結合K-means 算法實現了細胞的快速識別。王先文等[5]提出了基于偏斜t 分布的混合模型聚類方法,通過有限混合模型的形式,以概率論的方法對數據進行統計分析,實現了細胞的自動設門,具有較好的魯棒性。以上研究雖然通過不同的方法實現了細胞的自動設門,但是在設門之前,仍需要操作者根據相關背景知識和樣本染色策略手動設置散點圖的坐標軸參數,未實現真正意義上的自動分群。
在對流式細胞數據進行自動分群的研究方面,為了簡化人工選取坐標軸繪制散點圖的過程,普度大學Grégori 等[15]利用主成分分析法(principal component analysis,PCA)處理光譜流式細胞儀的多維實驗數據,以貢獻度最高的兩個主成分作為橫、縱坐標自動繪制散點圖,實現了對光譜流式細胞數據的自動分群。這一方法對非光譜流式細胞儀的多維流式數據處理有借鑒作用,Costa 等[16]曾提出了一種基于 PCA 的方法進行 B 細胞慢性淋巴增殖性疾病的分類,與傳統方法相比,效率有所提高。然而 PCA 方法雖然無需人工選定坐標軸就能夠實現自動分群,但是在對某些樣本(如骨髓樣本)進行分析時,PCA 方法也會使同一個細胞群(如成熟的中性粒細胞)內部的差異性增大[17]。
針對以上問題,本文以實現流式細胞數據的自動分群為目標,提出基于核主成分分析(kernel principal component analysis,KPCA)的流式細胞數據自動分群方法。與 PCA 相比,KPCA 更適合對數據的非線性特征進行提取,能夠更大程度獲得數據的特征信息。KPCA 算法具有性能良好、計算復雜度低等特點,目前已被廣泛應用于模式識別、故障監測等方面[18-19]。本文提出將 KPCA 應用于多參數流式細胞數據分群中,在最大化保留數據特征信息的基礎之上,對多參數流式細胞數據進行降維,得到核主成分變量,使用最能體現不同亞群細胞之間差別的主成分變量作為坐標軸,繪制二維或三維散點圖。在自動設門方面,由于K-means 算法簡單高效,且在流式細胞數據分析中的應用較為成熟,因此本文使用改進后的K-means 算法實現樣本的自動設門。通過將基于 KPCA 方法得到的分群結果與基于 PCA 方法得到的分群結果進行對比,結果表明,基于 KPCA 的流式細胞分群方法實現方式簡單、無需人工干預,所得自動分群結果與傳統分群結果一致,提高了流式細胞數據的分群效率。
1 原理及方法
淋巴細胞按照表面標志的不同可分為 T 淋巴細胞(表面分化抗原 CD3+)、B 淋巴細胞(表面分化抗原 CD3–CD19+)和自然殺傷細胞(naturalkillercell,NK)(表面分化抗原 CD3–CD56+),分別用異硫氰酸熒光素(fluorescein isothiocyanate,FITC)、藻紅蛋白(p-phycoerythrin,PE)、異藻藍蛋白(allophy-cocyanin,APC)標記,其表面分化抗原特異性結合如圖 1 所示。

經過熒光染料標記的細胞在激發光源的照射下能夠發射出代表細胞體積大小及粒度的散射光信號及代表細胞生化性質的特異性熒光信號。光信號經過光電探測器轉換為電脈沖信號,檢測系統對電脈沖信號進行測量并提取信號的脈沖高度(height,H)、脈沖面積(area,A)和脈沖寬度(width,W)等特征參數[3]。單個細胞被激發后產生的散射光和熒光信號以單個事件的形式被記錄下來,所有的事件匯聚成被測細胞群完整的流式數據[5]。脈沖信號及其參數如圖 2 所示。

以下將分別對流式細胞數據傳統分群方法、PCA 分群方法、KPCA 分群方法及基于K-means 聚類算法的設門方法進行介紹。
1.1 傳統分群方法
傳統的流式細胞分群方法是根據細胞檢測得到的散射光及熒光信號脈沖參數的特點對細胞進行區分。以免疫表型分析為例,T 淋巴細胞表面抗原 CD3 與 FITC 標記的 CD3 抗體特異性結合,FITC 熒光信號較強的亞群可判斷為 T 淋巴細胞;NK 細胞表面抗原 CD56 與 PE 標記CD56 抗體特異性結合,PE 熒光信號較強的亞群可判斷為 NK 細胞;B 淋巴細胞表面抗原 CD19 與 APC 標記的 CD19 抗體特異性結合,APC 熒光信號較強的亞群可判斷為 B 淋巴細胞,依此實現三個亞群的區分。
傳統分群方法步驟如下:
步驟 1:從流式數據中選取兩個參數作為坐標軸(如FITC-A與APC-A),繪制散點圖;
步驟 2:對多個散點圖或峰圖進行聯合分析,根據專業知識對亞群細胞進行人工判定;
步驟 3:手動進行目標亞群的設門。
1.2 PCA 分群方法
PCA 是一種常用的多元統計分析技術,它根據方差最大化原理,通過線性變換選出較少的重要變量代替原始的多個變量,降低了數據維度并最大化保存數據的有效信息量[20-22]。
1.3 KPCA 分群方法
核方法是解決非線性模型分析問題的最優途徑,其關鍵技術是利用核函數替代非線性映射的內積來解決非線性問題,通過核代入方法將數據隱含地映射到高維特征空間中。KPCA 的主要思路是利用核方法拓展 PCA,提取數據中的非線性特征。基于 KPCA 的流式細胞數據處理方法基本思想是通過引入 Mercer 核函數,將流式細胞數據非線性映射到高維的 Mercer 特征空間中,在特征空間下再利用 PCA 方法對數據進行處理,最終輸出結果是對流式細胞數據的非線性特征提取[18,23]。該過程無需明確知道映射函數,只需要在原空間計算核函數,大大降低了計算的復雜度。
假設x1,x2, ,xn 為樣本,KPCA 先對樣本x 進行非線性變換 (x), (x)將x 映射到高維空間中。對于新的樣本空間,協方差矩陣為:
$ {{C}} = \frac{1}{n}\sum\limits_{i = 1}^n {\phi ({x_i})} {\phi ^T}({x_i}) $ |
由特征值λ 和特征向量 ν 滿足C ν =λ ν 可知當λ≠0 時, ν 在 (xi )(i=1,2, ,n)張成的空間中,即存在αi (i=1,2, ,n)滿足
對C ν =λ ν 兩邊同時與 (xk )做內積得:
$ (\phi ({x_k}) \cdot {{Cv}}) = λ (\phi ({x_k}) \cdot {{v}}),k = 1,2, \cdot \! \cdot \! \cdot, n $ |
定義n×n 核矩陣 K 為: K =[ (xi )· (xj )],則式(2)可變為:
$ n λ {{α}} = {{Kα}} $ |
其中 α =(α1,α2, ,αn )’,nλ 和 α 是對應于 K 的特征值和特征向量。特征空間的主元方向為 ν ,k 為保留的主元個數,則得到樣本在特征向量空間的投影為:
$ \begin{aligned} {{\rm{g}}_k}(x) = & \left\langle {{ {{v}}^k} \cdot \phi (x)} \right\rangle = \sum\limits_{i = 1}^n {{{({\alpha _i})}^k}[\phi ({x_i}),\phi (x)]} = \\ & \sum\limits_{i = 1}^n {{{({\alpha _i})}^k} {{K}}({x_i},x)} \end{aligned} $ |
最終,將得到的非線性主元分量作為樣本的特征進行分析。
本文基于 KPCA 的細胞分群方法主要步驟如下:
步驟 1:對流式細胞樣本矩陣 X 進行標準化處理;
步驟 2:選定徑向基核函數K(xi,x) = exp(—‖x—xi‖2/2δ2)中的參數,計算出核矩陣 K ;
步驟 3:計算核矩陣 K 的特征值λ1,λ2, ,λn 和其對應的特征向量 d 1, d 2, , dn ;
步驟 4:確定主成分個數k,并對前k 個非零特征值對應的特征向量進行規范化;
步驟 5:在高維特征空間對流式數據進行特征向量上的投影,將得到的主分量作為新的特征參數,并將其設置為散點圖的坐標軸,實現自動分群。
1.4 K-means 聚類算法
K-means 算法是典型的基于距離進行聚類的算法[24],該算法快速、簡單、效率高。本文利用改進后的K-means 算法實現細胞的自動設門。算法的改進主要表現在兩個方面:首先是初始聚類中心的確定,本文根據貝葉斯準則(bayesian information criterion,BIC)方法對聚類過程中的類群數目q 進行確定;其次是初始化聚類中心位置的確定,傳統的K-means 聚類算法常常隨機選擇q 個數據作為初始聚類中心,導致聚類結果不穩定。本文方法為:先確定一個數據點作為第一個初始聚類中心,然后選取與第一個聚類中心距離最大的數據點作為第二個聚類中心,接下來選取距離前兩個聚類中心距離最大的數據點為第三個聚類中心,以此類推,最終確定了q 個初始聚類中心;最后進一步對各個數據點到初始聚類中心的距離進行迭代運算,最終實現聚類。
2 實驗結果及分析
本文實驗數據由北京宣武醫院提供,來自于健康志愿者的外周血淋巴細胞樣本,該樣本采集于受試者上肢前臂的靜脈外周血。實驗儀器為美國 BD 公司(Becton,Dickinson and Company)的FACSCalibur 流式細胞儀,熒光染料為 FITC、PE 和 APC。該樣本包含 4 811 個細胞以及 3 種表面標記分子(CD3、CD19和CD56)。流式數據包括 11 個參數,分別為脈沖高度(FITC-H,PE-H,APC-H),脈沖面積(FSC-A,SSC-A,FITC-A,PE-A,APC-A)和脈沖寬度(FITC-W,PE-W,APC-W)。在實驗數據分析處理方面,PCA、KPCA、K-means 聚類分析等,均由 MATLAB R2014a 編程實現。
2.1 傳統分群結果
傳統分群方法通過人工選取流式細胞數據中的不同參數作為橫、縱坐標,繪制二維散點圖,并根據參數特征判斷各個亞群細胞的種類。但是如何從多參數流式細胞數據中選取兩個最合適的特征參數作為散點圖的橫、縱坐標,需要已知細胞亞群的染色策略,同時需要借助相關醫學背景和實際經驗,對操作者的要求較高。在操作者不具備相關先驗知識的前提下,若隨機選取坐標軸參數繪制散點圖,大部分散點圖的分群效果并不理想,如圖 3 所示。為了便于對比,先對三種亞群細胞做不同標記,可以看出通過隨機選取坐標軸繪制的單幅散點圖無法區分三種細胞亞群。

為了區分不同的細胞亞群,此時需要對多幅散點圖進行聯合分析。如圖 3 所示,觀察 PE-A 與 APC-A 為坐標軸繪制的散點圖中,綠色細胞群處于 APC 陽性區域,則確定其為 B 淋巴細胞;觀察 FSC-A 與 FITC-A 為坐標軸繪制的散點圖,藍色細胞群處于 FITC 陽性區域,則確定其為 T 淋巴細胞,最終實現樣本的分群,但分析過程繁瑣、耗時長。
2.2 基于 KPCA 的細胞分群
為了驗證 KPCA 對多參數流式細胞數據特征提取及分群能力,本文分別采用 PCA 和 KPCA 對數據進行處理,并對分群結果進行了對比。PCA及KPCA 處理后得到的前 5 個主成分(principal component,PC)(記為PC1~PC5)的累計貢獻率如表 1 所示。

可以看出,PCA 和 KPCA 均能夠在保證特征信息最大化保留的情況下降低數據的維度。與 PCA 相比,KPCA 處理后得到的主成分的累計貢獻率更大,更能代表樣本的特征信息。以 PCA 和 KPCA 得到的主成分變量為坐標軸繪制二維及三維散點圖,分群結果如圖 4、圖 5 所示。


如圖 4、圖 5 所示,樣本均被明顯區分為 3 個亞群。與傳統分群方法相比較,基于 PCA 和 KPCA 的流式細胞分群方法通過自動設置散點圖的坐標軸參數,實現了自動分群,無需人工進行坐標軸的選取,降低了對操作者專業知識的要求,提高了分群效率。相比二維散點圖,三維散點圖由于引入了 PC3 對數據進行進一步的區分,原二維散點圖中的流式數據在 PC3 坐標軸上也被展開,在三維空間呈立體分布的結構,因此分群結果更加直觀、準確,更有利于亞群的識別和設門。
如圖 4、圖 5 的二維散點圖分群結果所示,基于 KPCA 方法得到的分群結果更好,亞群之間的區分更明顯。為了驗證 PCA 和 KPCA 分群結果的準確性,以傳統分群結果為參考標準,計算三種亞群分群結果的準確率。具體思路如下:將傳統分群得到的三種細胞亞群的事件分別記錄在 T、B、NK 3 個細胞集合中;對基于 PCA 與 KPCA 方法得到自動分群結果進行統計分析,分別將三種細胞亞群中的事件記錄在 PCA-T、PCA-B、PCA-NK 和 KPCA-T、KPCA-B、KPCA-NK 共 6 個集合中,分別求集合 T、B、NK 與集合 PCA-T、PCA-B、PCA-NK 及集合 KPCA-T、KPCA-B、KPCA-NK 的交集,將交集個數除以傳統分群得到的集合總數,得到分群準確率如表 2 所示。與傳統分群結果相比較,PCA 和KPCA 處理得到的三種亞群的分群平均準確率分別為 96.43% 和 97.81%。

結果表明,KPCA 方法能夠較好地應用于流式細胞分群中,通過自動設置散點圖坐標軸,得到準確的細胞分群結果,無需對多個散點圖進行聯合分析,提高了細胞分群的效率。而且,基于 KPCA 方法的細胞分群結果較基于 PCA 的細胞分群結果更好,分群準確率更高。分析其原因是由于 PCA 是一種線性映射方法,處理后的得到的數據是由線性映射生成的,忽略了流式細胞各參數數據之間的非線性關系,因此得到的主成分特征參數并不一定是最優的,而 KPCA 方法可以有效提取出流式細胞數據的非線性特征信息,所得到的主分量能夠最大限度包含數據的特征信息。
2.3 分群參數優化
為了探索流式細胞數據中不同的參數對細胞分群的影響并對分群效果進行優化,選取實驗數據中不同的參數組合進行基于 KPCA 的流式細胞數據分群處理,并對其散點圖分群效果進行比較。通過對比,發現去除各熒光通道的 W 參數后,得到的散點圖分群效果最佳。
去除各熒光通道的 W 參數后,實驗數據參數變為FSC-A、SSC-A、FITC-A、FITC-H、PE-A、PE-H、APC-A、APC-H,對其進行 KPCA 處理,得到的散點圖分群結果如圖 6 所示。與圖 5 相比,圖 6中同一種亞群內細胞散點圖分布更聚集,亞群之間間隔更大、更易區分,分群結果更好。

去除 W 參數后進行 KPCA 處理得到的主成分PC1~PC5 的累計貢獻率如表 3 所示,與未去除熒光通道的 W 參數時得到的主成分貢獻率相比,該情況下各主成分貢獻率均有提高,其中主成分 PC1 的貢獻率提高了 10.16%。

將去除 W 參數后進行 KPCA 處理得到的細胞分群結果與傳統分群結果進行對比,得到各亞群的分群準確率結果如表 4 所示。與未去除W參數情況下的分群結果相比,KPCA 分群準確率從 97.81% 提高到了 98.97%。

實驗結果顯示,去除 W 參數后,KPCA 處理得到同種細胞亞群的分布更聚集,分群效果更好,準確率更高。其原因主要在于各熒光通道的 W 參數通常表示待測細胞通過激光束的時間,與整形后的激光光斑的大小有關,一般用來區分雙聯體細胞或粘連細胞。在本實驗數據中,各熒光通道的 W 參數并沒有提供待測樣本的特異性信息,可以認為其在 KPCA 分群中貢獻不大,有時甚至造成了一定的負影響。
3 結論與展望
本文提出將 KPCA 應用于多參數流式細胞數據的分群中,利用得到的主成分變量繪制散點圖,采用改進后的K-means 算法輔助實現細胞亞群的自動設門。通過將基于本文方法的分群結果與傳統分群結果進行對比,成功驗證了 KPCA 算法在流式細胞數據分群中的可行性與高準確性。實驗結果表明本文方法能夠使操作者在不具備專業知識的前提下實現細胞的自動分群,無需人工選取坐標軸,具有方法簡單、效率高、操作便捷等優點,能夠提高流式細胞儀臨床診斷分析的效率,具有較好的應用前景。通過與基于 PCA 方法的分群結果進行對比,可以看出本文方法較 PCA 方法在處理流式細胞數據上有更大的優勢,能夠保留原始數據更多的特征信息,分群效果更好。通過對比不同參數組合情況下的分群效果,發現熒光信號的 W 參數在本組淋巴細胞的分群中是無關參數,去除 W 參數能夠對分群結果進行進一步優化,這可為今后處理多參數流式細胞數據時提供參考。此外,由于基于 KPCA 的方法獲得的分群結果易受到核函數中參數選擇的影響,在下一步的工作中可進一步對核函數的優化選擇進行研究,提高 KPCA 對流式細胞數據特征的提取能力,進一步改善分群效果、提高分群效率。
引言
流式細胞術(flow cytometry)是一種能夠對懸浮的細胞或者其他微粒進行多參數、快速分析或分選的技術。隨著精準醫療和基因生物學的發展,流式細胞儀(flow cytometer)已成為進行生物研究及臨床診斷最重要的工具之一,廣泛應用于生物學和生物醫學研究中[1-4]。
流式細胞數據分析是流式細胞術中的難點之一,其主要目的是識別和劃分樣本中的亞群細胞[5-6]。在進行多參數流式細胞數據分析時,傳統的數據分析方法通常使用能夠顯示兩個測量通道參數的二維散點圖,以人工設門的方式對數據進行分析,二維散點圖的坐標軸參數可以為前向散射光(forward scattering,FSC)、側向散射光(side scattering,SSC)或各通道的熒光信號(fluorescence channel,FL)[7]。隨著流式細胞術的發展,能夠檢測的參數成倍增加,傳統流式數據分析方法在細胞分群方面存在的不足也越來越明顯:
(1)過程繁瑣、效率低。由于二維散點圖每次只能顯示兩個維度的參數,若流式數據參數個數為m,利用傳統方法隨機選擇兩個參數作為橫、縱坐標,可能需要繪制的散點圖數目為 ,從而導致分析效率低、耗時長且浪費資源。
(2)對操作者的要求較高。通常情況下,在隨機選擇坐標軸參數繪制的散點圖中,細胞亞群的區分并不明顯,需要操作者具備較高水平的專業知識,并采用多個散點圖組合的方式才能獲得理想的分群結果。
(3)分群結果具有主觀性,容易受到操作者經驗的影響,可重復性差[2,8]。
近年來,很多學者針對流式細胞數據的自動分析方法進行了探索,但是大部分分析方法側重于實現細胞的自動設門。一些聚類算法如K-means 算法、高斯混合模型等被最早提出應用于流式細胞數據自動分析中[9-10]。Zeng 等[11]提出了特征引導(feature-guided,FG)聚類算法,該算法由篩選器從多個維度的直方圖中提取出峰值點,通過對比類群的中心位置與峰值位置是否匹配,確定細胞類群的數目,最終利用K-means 算法實現設門。Zare 等[12]首次嘗試應用譜聚類方法對流式細胞數據進行處理,實現了細胞的自動設門,但其缺點是要對流式數據進行采樣,造成了一些數據特征的損失。Sugar 等[13]開發了一種新的無監督密度輪廓聚類算法,該算法基于滲流理論有效分析了流式細胞數據,通過尋找數據直方圖的峰值位置確定每個類群,實現了數據的快速分析。Ge 等[14]將混合模型和直方圖相結合,利用混合模型密度函數得到類群數目,結合K-means 算法實現了細胞的快速識別。王先文等[5]提出了基于偏斜t 分布的混合模型聚類方法,通過有限混合模型的形式,以概率論的方法對數據進行統計分析,實現了細胞的自動設門,具有較好的魯棒性。以上研究雖然通過不同的方法實現了細胞的自動設門,但是在設門之前,仍需要操作者根據相關背景知識和樣本染色策略手動設置散點圖的坐標軸參數,未實現真正意義上的自動分群。
在對流式細胞數據進行自動分群的研究方面,為了簡化人工選取坐標軸繪制散點圖的過程,普度大學Grégori 等[15]利用主成分分析法(principal component analysis,PCA)處理光譜流式細胞儀的多維實驗數據,以貢獻度最高的兩個主成分作為橫、縱坐標自動繪制散點圖,實現了對光譜流式細胞數據的自動分群。這一方法對非光譜流式細胞儀的多維流式數據處理有借鑒作用,Costa 等[16]曾提出了一種基于 PCA 的方法進行 B 細胞慢性淋巴增殖性疾病的分類,與傳統方法相比,效率有所提高。然而 PCA 方法雖然無需人工選定坐標軸就能夠實現自動分群,但是在對某些樣本(如骨髓樣本)進行分析時,PCA 方法也會使同一個細胞群(如成熟的中性粒細胞)內部的差異性增大[17]。
針對以上問題,本文以實現流式細胞數據的自動分群為目標,提出基于核主成分分析(kernel principal component analysis,KPCA)的流式細胞數據自動分群方法。與 PCA 相比,KPCA 更適合對數據的非線性特征進行提取,能夠更大程度獲得數據的特征信息。KPCA 算法具有性能良好、計算復雜度低等特點,目前已被廣泛應用于模式識別、故障監測等方面[18-19]。本文提出將 KPCA 應用于多參數流式細胞數據分群中,在最大化保留數據特征信息的基礎之上,對多參數流式細胞數據進行降維,得到核主成分變量,使用最能體現不同亞群細胞之間差別的主成分變量作為坐標軸,繪制二維或三維散點圖。在自動設門方面,由于K-means 算法簡單高效,且在流式細胞數據分析中的應用較為成熟,因此本文使用改進后的K-means 算法實現樣本的自動設門。通過將基于 KPCA 方法得到的分群結果與基于 PCA 方法得到的分群結果進行對比,結果表明,基于 KPCA 的流式細胞分群方法實現方式簡單、無需人工干預,所得自動分群結果與傳統分群結果一致,提高了流式細胞數據的分群效率。
1 原理及方法
淋巴細胞按照表面標志的不同可分為 T 淋巴細胞(表面分化抗原 CD3+)、B 淋巴細胞(表面分化抗原 CD3–CD19+)和自然殺傷細胞(naturalkillercell,NK)(表面分化抗原 CD3–CD56+),分別用異硫氰酸熒光素(fluorescein isothiocyanate,FITC)、藻紅蛋白(p-phycoerythrin,PE)、異藻藍蛋白(allophy-cocyanin,APC)標記,其表面分化抗原特異性結合如圖 1 所示。

經過熒光染料標記的細胞在激發光源的照射下能夠發射出代表細胞體積大小及粒度的散射光信號及代表細胞生化性質的特異性熒光信號。光信號經過光電探測器轉換為電脈沖信號,檢測系統對電脈沖信號進行測量并提取信號的脈沖高度(height,H)、脈沖面積(area,A)和脈沖寬度(width,W)等特征參數[3]。單個細胞被激發后產生的散射光和熒光信號以單個事件的形式被記錄下來,所有的事件匯聚成被測細胞群完整的流式數據[5]。脈沖信號及其參數如圖 2 所示。

以下將分別對流式細胞數據傳統分群方法、PCA 分群方法、KPCA 分群方法及基于K-means 聚類算法的設門方法進行介紹。
1.1 傳統分群方法
傳統的流式細胞分群方法是根據細胞檢測得到的散射光及熒光信號脈沖參數的特點對細胞進行區分。以免疫表型分析為例,T 淋巴細胞表面抗原 CD3 與 FITC 標記的 CD3 抗體特異性結合,FITC 熒光信號較強的亞群可判斷為 T 淋巴細胞;NK 細胞表面抗原 CD56 與 PE 標記CD56 抗體特異性結合,PE 熒光信號較強的亞群可判斷為 NK 細胞;B 淋巴細胞表面抗原 CD19 與 APC 標記的 CD19 抗體特異性結合,APC 熒光信號較強的亞群可判斷為 B 淋巴細胞,依此實現三個亞群的區分。
傳統分群方法步驟如下:
步驟 1:從流式數據中選取兩個參數作為坐標軸(如FITC-A與APC-A),繪制散點圖;
步驟 2:對多個散點圖或峰圖進行聯合分析,根據專業知識對亞群細胞進行人工判定;
步驟 3:手動進行目標亞群的設門。
1.2 PCA 分群方法
PCA 是一種常用的多元統計分析技術,它根據方差最大化原理,通過線性變換選出較少的重要變量代替原始的多個變量,降低了數據維度并最大化保存數據的有效信息量[20-22]。
1.3 KPCA 分群方法
核方法是解決非線性模型分析問題的最優途徑,其關鍵技術是利用核函數替代非線性映射的內積來解決非線性問題,通過核代入方法將數據隱含地映射到高維特征空間中。KPCA 的主要思路是利用核方法拓展 PCA,提取數據中的非線性特征。基于 KPCA 的流式細胞數據處理方法基本思想是通過引入 Mercer 核函數,將流式細胞數據非線性映射到高維的 Mercer 特征空間中,在特征空間下再利用 PCA 方法對數據進行處理,最終輸出結果是對流式細胞數據的非線性特征提取[18,23]。該過程無需明確知道映射函數,只需要在原空間計算核函數,大大降低了計算的復雜度。
假設x1,x2, ,xn 為樣本,KPCA 先對樣本x 進行非線性變換 (x), (x)將x 映射到高維空間中。對于新的樣本空間,協方差矩陣為:
$ {{C}} = \frac{1}{n}\sum\limits_{i = 1}^n {\phi ({x_i})} {\phi ^T}({x_i}) $ |
由特征值λ 和特征向量 ν 滿足C ν =λ ν 可知當λ≠0 時, ν 在 (xi )(i=1,2, ,n)張成的空間中,即存在αi (i=1,2, ,n)滿足
對C ν =λ ν 兩邊同時與 (xk )做內積得:
$ (\phi ({x_k}) \cdot {{Cv}}) = λ (\phi ({x_k}) \cdot {{v}}),k = 1,2, \cdot \! \cdot \! \cdot, n $ |
定義n×n 核矩陣 K 為: K =[ (xi )· (xj )],則式(2)可變為:
$ n λ {{α}} = {{Kα}} $ |
其中 α =(α1,α2, ,αn )’,nλ 和 α 是對應于 K 的特征值和特征向量。特征空間的主元方向為 ν ,k 為保留的主元個數,則得到樣本在特征向量空間的投影為:
$ \begin{aligned} {{\rm{g}}_k}(x) = & \left\langle {{ {{v}}^k} \cdot \phi (x)} \right\rangle = \sum\limits_{i = 1}^n {{{({\alpha _i})}^k}[\phi ({x_i}),\phi (x)]} = \\ & \sum\limits_{i = 1}^n {{{({\alpha _i})}^k} {{K}}({x_i},x)} \end{aligned} $ |
最終,將得到的非線性主元分量作為樣本的特征進行分析。
本文基于 KPCA 的細胞分群方法主要步驟如下:
步驟 1:對流式細胞樣本矩陣 X 進行標準化處理;
步驟 2:選定徑向基核函數K(xi,x) = exp(—‖x—xi‖2/2δ2)中的參數,計算出核矩陣 K ;
步驟 3:計算核矩陣 K 的特征值λ1,λ2, ,λn 和其對應的特征向量 d 1, d 2, , dn ;
步驟 4:確定主成分個數k,并對前k 個非零特征值對應的特征向量進行規范化;
步驟 5:在高維特征空間對流式數據進行特征向量上的投影,將得到的主分量作為新的特征參數,并將其設置為散點圖的坐標軸,實現自動分群。
1.4 K-means 聚類算法
K-means 算法是典型的基于距離進行聚類的算法[24],該算法快速、簡單、效率高。本文利用改進后的K-means 算法實現細胞的自動設門。算法的改進主要表現在兩個方面:首先是初始聚類中心的確定,本文根據貝葉斯準則(bayesian information criterion,BIC)方法對聚類過程中的類群數目q 進行確定;其次是初始化聚類中心位置的確定,傳統的K-means 聚類算法常常隨機選擇q 個數據作為初始聚類中心,導致聚類結果不穩定。本文方法為:先確定一個數據點作為第一個初始聚類中心,然后選取與第一個聚類中心距離最大的數據點作為第二個聚類中心,接下來選取距離前兩個聚類中心距離最大的數據點為第三個聚類中心,以此類推,最終確定了q 個初始聚類中心;最后進一步對各個數據點到初始聚類中心的距離進行迭代運算,最終實現聚類。
2 實驗結果及分析
本文實驗數據由北京宣武醫院提供,來自于健康志愿者的外周血淋巴細胞樣本,該樣本采集于受試者上肢前臂的靜脈外周血。實驗儀器為美國 BD 公司(Becton,Dickinson and Company)的FACSCalibur 流式細胞儀,熒光染料為 FITC、PE 和 APC。該樣本包含 4 811 個細胞以及 3 種表面標記分子(CD3、CD19和CD56)。流式數據包括 11 個參數,分別為脈沖高度(FITC-H,PE-H,APC-H),脈沖面積(FSC-A,SSC-A,FITC-A,PE-A,APC-A)和脈沖寬度(FITC-W,PE-W,APC-W)。在實驗數據分析處理方面,PCA、KPCA、K-means 聚類分析等,均由 MATLAB R2014a 編程實現。
2.1 傳統分群結果
傳統分群方法通過人工選取流式細胞數據中的不同參數作為橫、縱坐標,繪制二維散點圖,并根據參數特征判斷各個亞群細胞的種類。但是如何從多參數流式細胞數據中選取兩個最合適的特征參數作為散點圖的橫、縱坐標,需要已知細胞亞群的染色策略,同時需要借助相關醫學背景和實際經驗,對操作者的要求較高。在操作者不具備相關先驗知識的前提下,若隨機選取坐標軸參數繪制散點圖,大部分散點圖的分群效果并不理想,如圖 3 所示。為了便于對比,先對三種亞群細胞做不同標記,可以看出通過隨機選取坐標軸繪制的單幅散點圖無法區分三種細胞亞群。

為了區分不同的細胞亞群,此時需要對多幅散點圖進行聯合分析。如圖 3 所示,觀察 PE-A 與 APC-A 為坐標軸繪制的散點圖中,綠色細胞群處于 APC 陽性區域,則確定其為 B 淋巴細胞;觀察 FSC-A 與 FITC-A 為坐標軸繪制的散點圖,藍色細胞群處于 FITC 陽性區域,則確定其為 T 淋巴細胞,最終實現樣本的分群,但分析過程繁瑣、耗時長。
2.2 基于 KPCA 的細胞分群
為了驗證 KPCA 對多參數流式細胞數據特征提取及分群能力,本文分別采用 PCA 和 KPCA 對數據進行處理,并對分群結果進行了對比。PCA及KPCA 處理后得到的前 5 個主成分(principal component,PC)(記為PC1~PC5)的累計貢獻率如表 1 所示。

可以看出,PCA 和 KPCA 均能夠在保證特征信息最大化保留的情況下降低數據的維度。與 PCA 相比,KPCA 處理后得到的主成分的累計貢獻率更大,更能代表樣本的特征信息。以 PCA 和 KPCA 得到的主成分變量為坐標軸繪制二維及三維散點圖,分群結果如圖 4、圖 5 所示。


如圖 4、圖 5 所示,樣本均被明顯區分為 3 個亞群。與傳統分群方法相比較,基于 PCA 和 KPCA 的流式細胞分群方法通過自動設置散點圖的坐標軸參數,實現了自動分群,無需人工進行坐標軸的選取,降低了對操作者專業知識的要求,提高了分群效率。相比二維散點圖,三維散點圖由于引入了 PC3 對數據進行進一步的區分,原二維散點圖中的流式數據在 PC3 坐標軸上也被展開,在三維空間呈立體分布的結構,因此分群結果更加直觀、準確,更有利于亞群的識別和設門。
如圖 4、圖 5 的二維散點圖分群結果所示,基于 KPCA 方法得到的分群結果更好,亞群之間的區分更明顯。為了驗證 PCA 和 KPCA 分群結果的準確性,以傳統分群結果為參考標準,計算三種亞群分群結果的準確率。具體思路如下:將傳統分群得到的三種細胞亞群的事件分別記錄在 T、B、NK 3 個細胞集合中;對基于 PCA 與 KPCA 方法得到自動分群結果進行統計分析,分別將三種細胞亞群中的事件記錄在 PCA-T、PCA-B、PCA-NK 和 KPCA-T、KPCA-B、KPCA-NK 共 6 個集合中,分別求集合 T、B、NK 與集合 PCA-T、PCA-B、PCA-NK 及集合 KPCA-T、KPCA-B、KPCA-NK 的交集,將交集個數除以傳統分群得到的集合總數,得到分群準確率如表 2 所示。與傳統分群結果相比較,PCA 和KPCA 處理得到的三種亞群的分群平均準確率分別為 96.43% 和 97.81%。

結果表明,KPCA 方法能夠較好地應用于流式細胞分群中,通過自動設置散點圖坐標軸,得到準確的細胞分群結果,無需對多個散點圖進行聯合分析,提高了細胞分群的效率。而且,基于 KPCA 方法的細胞分群結果較基于 PCA 的細胞分群結果更好,分群準確率更高。分析其原因是由于 PCA 是一種線性映射方法,處理后的得到的數據是由線性映射生成的,忽略了流式細胞各參數數據之間的非線性關系,因此得到的主成分特征參數并不一定是最優的,而 KPCA 方法可以有效提取出流式細胞數據的非線性特征信息,所得到的主分量能夠最大限度包含數據的特征信息。
2.3 分群參數優化
為了探索流式細胞數據中不同的參數對細胞分群的影響并對分群效果進行優化,選取實驗數據中不同的參數組合進行基于 KPCA 的流式細胞數據分群處理,并對其散點圖分群效果進行比較。通過對比,發現去除各熒光通道的 W 參數后,得到的散點圖分群效果最佳。
去除各熒光通道的 W 參數后,實驗數據參數變為FSC-A、SSC-A、FITC-A、FITC-H、PE-A、PE-H、APC-A、APC-H,對其進行 KPCA 處理,得到的散點圖分群結果如圖 6 所示。與圖 5 相比,圖 6中同一種亞群內細胞散點圖分布更聚集,亞群之間間隔更大、更易區分,分群結果更好。

去除 W 參數后進行 KPCA 處理得到的主成分PC1~PC5 的累計貢獻率如表 3 所示,與未去除熒光通道的 W 參數時得到的主成分貢獻率相比,該情況下各主成分貢獻率均有提高,其中主成分 PC1 的貢獻率提高了 10.16%。

將去除 W 參數后進行 KPCA 處理得到的細胞分群結果與傳統分群結果進行對比,得到各亞群的分群準確率結果如表 4 所示。與未去除W參數情況下的分群結果相比,KPCA 分群準確率從 97.81% 提高到了 98.97%。

實驗結果顯示,去除 W 參數后,KPCA 處理得到同種細胞亞群的分布更聚集,分群效果更好,準確率更高。其原因主要在于各熒光通道的 W 參數通常表示待測細胞通過激光束的時間,與整形后的激光光斑的大小有關,一般用來區分雙聯體細胞或粘連細胞。在本實驗數據中,各熒光通道的 W 參數并沒有提供待測樣本的特異性信息,可以認為其在 KPCA 分群中貢獻不大,有時甚至造成了一定的負影響。
3 結論與展望
本文提出將 KPCA 應用于多參數流式細胞數據的分群中,利用得到的主成分變量繪制散點圖,采用改進后的K-means 算法輔助實現細胞亞群的自動設門。通過將基于本文方法的分群結果與傳統分群結果進行對比,成功驗證了 KPCA 算法在流式細胞數據分群中的可行性與高準確性。實驗結果表明本文方法能夠使操作者在不具備專業知識的前提下實現細胞的自動分群,無需人工選取坐標軸,具有方法簡單、效率高、操作便捷等優點,能夠提高流式細胞儀臨床診斷分析的效率,具有較好的應用前景。通過與基于 PCA 方法的分群結果進行對比,可以看出本文方法較 PCA 方法在處理流式細胞數據上有更大的優勢,能夠保留原始數據更多的特征信息,分群效果更好。通過對比不同參數組合情況下的分群效果,發現熒光信號的 W 參數在本組淋巴細胞的分群中是無關參數,去除 W 參數能夠對分群結果進行進一步優化,這可為今后處理多參數流式細胞數據時提供參考。此外,由于基于 KPCA 的方法獲得的分群結果易受到核函數中參數選擇的影響,在下一步的工作中可進一步對核函數的優化選擇進行研究,提高 KPCA 對流式細胞數據特征的提取能力,進一步改善分群效果、提高分群效率。