本文提出了一種新型的基于 mean-shift 聚類算法的人體外周血中白細胞五分類算法,其核心思想是用一種近似人眼的可視化模式對白細胞紋理進行提取。首先利用 mean-shift 聚類算法從白細胞灰度圖像中提取一些模式點,然后用其作為區域生長算法的種子點進行區域生長,得到一系列能夠在某種程度上可視化地反映紋理的區域塊。最后從這些區域塊中提取一組參數向量作為白細胞的紋理特征。綜合該向量和白細胞形態學特征,用人工神經網絡(ANN)成功地完成了對白細胞的五分類識別。用了 1 310 個白細胞圖像進行測試,得到中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞、淋巴細胞、單核細胞的正確識別率分別為 95.4%、93.8%、100%、93.1%、92.4%,證明了該算法的可行性和魯棒性。
引用本文: 李小舜, 曹益平, 王亞品. 基于 mean-shift 聚類的高魯棒性白細胞五分類識別算法. 生物醫學工程學雜志, 2018, 35(5): 761-766. doi: 10.7507/1001-5515.201609067 復制
引言
人體外周血液中白細胞的識別和分類對疾病診斷意義重大,但人工檢測費時費力而且容易出錯。對于一張血液涂片樣本,需要從中計數 100 個白細胞并且五分類,一名訓練有素的醫師需要至少 15 min 才能完成[1]。因此,全自動的血液五分類儀器對于降低醫師勞動強度、提高檢測速度以及減少出錯率很有意義。目前大多數該類儀器基于激光散射原理[2]和細胞化學鞘流技術[3],但這兩種方法主要是依據白細胞體積大小的不同通過物理或化學的方法進行分類,并不能提供白細胞其他細節特征給醫師參考。然而,基于細胞顯微圖像處理的分類算法不僅能提供分類計數信息,還能給醫師提供諸如白細胞顏色、形狀、紋理等更為直觀有效的病理學特征。
白細胞顯微圖像處理過程主要包含圖像分割[4]、特征提取和分類三部分[5]。圖像分割方法主要有 HSV 顏色空間閾值法[6-7][HSV:色度、飽和度、亮度(hue,saturation,value)]、圖像增強法、梯度矢量流(gradient vector flow,GVF)法[8]和支持向量機法(support vector machine,SVM)[9]。白細胞圖像特征主要包含幾何特征[10-12]、直方圖特征[7, 13-14]和紋理特征[1, 11, 15]。通常特征提取在整個處理過程中起著決定性作用。一組有效的特征既可以補償分割不足,又能減少分類器的壓力。白細胞的幾何特征在多數情況下很有效,但對于少數變形細胞卻易出錯,比如白細胞的幾何特征不易區別變形的淋巴細胞和嗜堿性粒細胞,但紋理特征卻能有效分辨它們。然而兩種主要的紋理處理方法——灰度共生矩陣(gray level co-occurrence matrix,GLCM)[1, 16]和局部二進制模式(local binary pattern,LBP)[17]都需要根據經驗人工預選取適當的參數,否則提取效果較差。因此尋找一種魯棒性強、無參化的紋理特征提取方法顯得十分重要。至于分類算法,比較常用的是 SVM[7, 12, 18-19]、人工神經網絡(artificial neural network,ANN)[12, 15, 19]和決策樹。
本文使用 HSV 顏色空間閾值法將白細胞從背景圖像中分割出來并提取其幾何特征,然后提出一種基于 mean-shift 聚類的無參數化算法提取其紋理特征,結合白細胞形態學特征和紋理特征,最后用 ANN 實現分類。
1 mean-shift 聚類算法
mean-shift 聚類算法是一種無參化算法,能定位數據中可能代表某種模式特征的最大概率密度函數點,已經成功地應用在圖像平滑、圖像分割和運動物體跟蹤等研究中[20]。
在 d 維空間
中給定 n 個數據采樣點
,
,并定義基本的 mean-shift 向量為:
![]() |
其中
是一個半徑為 h 的高維球區域,y 為滿足如下關系的集合:
![]() |
有
個樣本點落在
區域中,mean-shift 向量
總是指向概率密度梯度方向。到
距離不同的點
對
有相同的貢獻。考慮到距離
不同的點有不同的權重,因此引入核函數
,概率密度函數 f(x)則可表示為:
![]() |
如果使用圓對稱核,則核函數的剖面函數
定義其滿足:
![]() |
其中
是歸一化常量,以保證
,
的收斂點可以由其導數零點求得,即
,其梯度表示為:
![]() |
其中
,對應的核函數
,式(5)中第一部分是以
為核函數的概率密度估計,第二部分是 mean-shift 向量指向最大概率密度梯度方向。
![]() |
mean-shift 聚類算法的實質是一個自適應的梯度上升迭代搜索峰值運算,設迭代次數為 t,用
作為搜索窗口,給定任意一個初始點
,則搜索過程如下:
1. 計算
;
2. 移動窗口并計算
;
3. 重復步驟 1 和 2 直到
< 給定值,此時認為算法收斂。
2 基于 mean-shift 聚類的白細胞紋理特征提取和識別算法
雖然 GLCM 和 LBP 可以部分提取白細胞顯微圖像的紋理特征,但提取結果受預置參數影響較大。mean-shift 聚類是一種無參算法,該算法可以定位代表特征的概率密度極值點,適用于白細胞紋理特征的提取,該算法主要有以下五步。
2.1 選擇圖像數據空間
彩色圖像有多種數據空間可以選擇,如灰度、RGB 顏色空間或 HSV 顏色空間中某些通道。對于白細胞圖像的紋理特征提取,選擇灰度比較有利,因為灰度圖像可以有效地減少光照和白細胞染色條件變化帶來的不利影響。
2.2 尋找特征點
使用 mean-shift 聚類算法對圖像進行處理,定位概率密度極值點的坐標作為特征點并取得其灰度值。因為數據量太少可能會丟失部分紋理特征,所以需要對特征區域進行擴展,擴展方法如 2.3 所述。
2.3 擴展特征區域
細胞紋理屬于自然紋理,灰度變化隨機性大,雖然找到了特征點,但仍然不易精確地擴展特征區域。用區域生長法可以近似地擴展特征區域,雖然并不精確,但隨后的測試表明足以滿足需求。具體如下:以上述特征點為區域生長點,以低于該點灰度值 3 個灰度級為生長終止條件進行生長,最后得到一系列特征區域。
圖 1 是用 mean-shift 聚類算法處理中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞、淋巴細胞和單核細胞等五類典型白細胞的過程示意圖。如圖 1a 所示,中性粒細胞的紋理特征為清淡的胞質中均勻分布細小一致的顆粒。如圖 1b 所示,如果直接 Mesh 其灰度圖,用常規的邊緣提取和閾值分割不易找出所有特征顆粒。經過本算法處理后,如圖 1c 所示,所有特征顆粒點都被提取并以高灰度值突出顯示。該步操作為下一步特征向量提取提供了基礎。對于圖 1d 所示的嗜酸性粒細胞,處理后其均勻粘連不易分割的粗大顆粒依舊能被很好地標示出來,如圖 1f 所示。對于圖 1g 所示的嗜堿性粒細胞,紋理特征為不均勻粗大顆粒,經本算法處理后,特征區域聚集成大小不同的塊,測量這些塊的面積和均勻度,就能識別該細胞。而對于圖 1j 所示的淋巴細胞,被處理后形成的特征區域塊如圖 1l 所示,不僅比圖 1i 的相對均勻,而且數量也比較少,因此使得其他算法最易混淆的淋巴細胞和嗜堿性粒細胞變得容易區別。最后處理單核細胞,如圖 1o 所示,其特征區域塊面積和灰度都較小,主要集中在細胞核,胞質幾乎沒有特征點,因此易于辨識。

a. 中性粒細胞;b. a 的灰度圖的 Mesh 圖;c. 處理后的 a 的 Mesh 圖;d. 嗜酸性粒細胞;e. d 的灰度圖的 Mesh 圖;f. 處理后的 d 的 Mesh 圖;g. 嗜堿性粒細胞;h. g 的灰度圖的 Mesh 圖;i. 處理后的 g 的 Mesh 圖;j. 淋巴細胞;k. j 的灰度圖的 Mesh 圖;l. 處理后的 j 的 Mesh 圖;m. 單核細胞;n. m 的灰度圖的 Mesh 圖;o. 處理后的 m 的 Mesh 圖
Figure1. Mean-shift processing of leukocytesa. neutrophil; b. Mesh of gray image of a; c. Mesh of processed image of a; d. eosinophil; e. Mesh of gray image of d; f. Mesh of processed image of d; g. basophil; h. Mesh of gray image of g; i. Mesh of processed image of g; j. lymphocyte; k. Mesh of gray image of j; l. Mesh of processed image of j; m. monocyte; n. Mesh of gray image of m; o. Mesh of processed image of m
總之,經過 mean-shift 聚類和區域生長算法處理后,五類白細胞圖像的特征點被凸顯出來,特征區域被收縮成為獨立的區域塊,統計這些特征區域的灰度、面積、分布密度等,即有利于分辨這五類白細胞。
2.4 統計特征區域的特征值,組成特征向量
經測試,選用特征點平均灰度值(
)、特征區域面積(
)、特征點間距方差(v1)、
方差(v2)和特征點數量 n 等組成特征向量 I,如公式(7)~(9)所示。
![]() |
![]() |
![]() |
式(8)中,
表示相鄰兩個特征點之間的距離。
2.5 分析特征向量值并用 ANN 實現白細胞分類
對圖 1 中第 3 列的圖像數據按照公式(7)~(9)計算后,結果如表 1 所示。

對表 1 數據分析如下:淋巴細胞和嗜堿性粒細胞的
> 140,因為它們都具有深色顆粒塊和較高的對比度,而單核細胞因顏色較淡導致
< 70;
反映了紋理粗糙度和紋理塊大小,嗜酸性粒細胞
最小,表明其粗糙度高、紋理塊小,而單核細胞
最大,因其紋理塊大而光滑;v1 描述了紋理位置分布的均勻性,淋巴細胞具有最小值,這與人眼對其致密均勻的視覺感受一致;v2 則可度量顏色均勻度和對比度,單核細胞因對比度最小而具有最小值,可以用來和相似的淋巴細胞進行區別;最后特征點數量 n 代表紋理基元的數量,是個能很好地辨識淋巴細胞的指標,因為其雖然塊大但基元數量少。總之,表 1 的數據表明特征向量 I 能有效地表達五類白細胞的紋理并互相區別。
在計算機視覺和圖像處理中,ANN 作為一種分類算法已經被廣泛應用。本文選用逆向傳播(back propagation,BP)神經網絡來進行白細胞的五分類,因為 BP 神經網絡結構比較簡單,能夠以任意精度逼近樣本,在整個網絡訓練達到收斂之后,進行識別的計算量較小、速度較快。
對于 BP 神經網絡來說,一旦確定了樣本的特征數目和輸出的目標向量以后,只需要對激勵函數、隱含層數目以及隱含層神經元的數目這三個參數進行選取就可以了。結合形態學特征向量和 5 個紋理特征向量,本文中輸入節點數目為 6,輸出節點數目為 5,激勵函數選用 S 型函數,選用單個隱含層,隱含層節點數取 15。通過對神經網絡進行訓練并對權重做出調整,使得輸出與目標向量更為接近,能更準確地對白細胞進行五分類。
3 結果分析

為了驗證本文所提方法的有效性,我們用 BC++6.0 開發了一套白細胞識別分類的軟件系統,如圖 2 所示。首先使用光學 100 倍油鏡和 USB CCD 攝像頭拍攝血涂片,采集圖像經預處理和基于 HSV 顏色空間的自動閾值[21]分割后,提取形態學特征,然后再用本文提出的算法提取紋理特征,最后使用 ANN 進行識別分類。
在進一步測試中,本文首先預測試了 150 個隨機樣本,證明了本方法的可行性。由于 150 個樣本量較少,此時得到的準確率不能很好地反映該算法在實際應用中的分類準確率。根據大數定理,實驗次數越多,事件出現的頻率越接近概率。隨后我們將樣本數擴大到 1 310 個(包含 11 個非白細胞圖像),這些樣本都預先經過專家識別分類。用本文所提算法對該 1 310 個樣本進行識別分類,并與專家識別分類結果進行比較。本文所用樣本均來自四川美生科技有限公司。
3.1 識別正確率測試
如表 2 所示,用常規形態學方法處理后,中性粒細胞因其多核特征明顯故識別率高達 94.7%,但淋巴細胞和嗜堿性粒細胞因形態相近而 < 83%,而單核細胞的形態學特征能覆蓋其他四種,所以正確率下降至 90.8%,對于非白細胞的識別率最低,因其復雜多變。

如表 3 所示,當形態學特征加上本文算法提取的紋理特征后,正確率有顯著的提升。

其中嗜堿性粒細胞全部正確識別,因為其深色顆粒紋理易被本算法提取,雖然樣本數比較少(因為臨床獲得不容易);淋巴細胞識別率也由 83.0% 提升至 93.1%,因為特征點數 n 可以很好地標示它們;而單核細胞和嗜酸性粒細胞識別率提升不太顯著,這是因為幼年期單核細胞紋理很像淋巴細胞而易被誤識別,而嗜酸性粒細胞初期紋理特別像中性粒細胞,這時即使人眼也比較難以識別。
如表 4 所示,列舉了本文算法與文獻中常見算法的對比結果,可見這些算法對嗜堿性粒細胞正確識別率相近,但對另外四種白細胞,本文算法最優。

當樣本數擴大到 1 310 后(目前文獻尚無與本文相近的大樣本數),由于出現了在小樣本檢測時沒有出現的難以識別的特殊情況,故識別率有所下降,盡管如此本文算法還是能維持較高的識別率,體現了其較好的魯棒性。
3.2 魯棒性測試
一種常見的識別困難情況是紋理弱化,如圖 3 所示,a 和 c 經專家分類均屬于嗜堿性粒細胞,但 a 圖紋理相對于標準的 c 圖紋理較弱、更光滑,因此用傳統的 GLCM 和 LBP 更容易將 a 識別為淋巴細胞,而采用本文方法對其處理后得到表 5,數據仍可正確識別。雖然淋巴細胞和嗜堿性粒細胞的
> 130 很相近,但淋巴細胞的特征點數目 n 要遠小于嗜堿性粒細胞,而且淋巴細胞的
最大。


a. 弱紋理;b. 處理(a)后的 Mesh 圖;c. 普通紋理;d. 處理(c)后的 Mesh 圖
Figure3. Processing of basophils with different repeatabilitya. weak texture; b. Mesh of processed (a); c. normal texture; d. Mesh of processed (c)
總之,針對常規紋理算法和形態學特征容易出錯的情況,本算法均能正確識別,因此本算法具有較高的魯棒性。
4 總結
本文提出了一種新型的基于 mean-shift 聚類提取自然紋理特征的方法,成功地用于人體外周血液白細胞的自動識別和五分類,對比使用形態學特征以及基于 GLCM 和 LBP 提取紋理特征的識別算法,本算法表現出較好的魯棒性,提高了系統的正確識別率。最后本文完成了系統軟件編寫,并擴大樣本數到 1 310 個(包含難以識別的特例),得到中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞、淋巴細胞、單核細胞的正確識別率分別為 95.4%、93.8%、100%、93.1%、92.4%,驗證了本算法較好的魯棒性和實用性。
引言
人體外周血液中白細胞的識別和分類對疾病診斷意義重大,但人工檢測費時費力而且容易出錯。對于一張血液涂片樣本,需要從中計數 100 個白細胞并且五分類,一名訓練有素的醫師需要至少 15 min 才能完成[1]。因此,全自動的血液五分類儀器對于降低醫師勞動強度、提高檢測速度以及減少出錯率很有意義。目前大多數該類儀器基于激光散射原理[2]和細胞化學鞘流技術[3],但這兩種方法主要是依據白細胞體積大小的不同通過物理或化學的方法進行分類,并不能提供白細胞其他細節特征給醫師參考。然而,基于細胞顯微圖像處理的分類算法不僅能提供分類計數信息,還能給醫師提供諸如白細胞顏色、形狀、紋理等更為直觀有效的病理學特征。
白細胞顯微圖像處理過程主要包含圖像分割[4]、特征提取和分類三部分[5]。圖像分割方法主要有 HSV 顏色空間閾值法[6-7][HSV:色度、飽和度、亮度(hue,saturation,value)]、圖像增強法、梯度矢量流(gradient vector flow,GVF)法[8]和支持向量機法(support vector machine,SVM)[9]。白細胞圖像特征主要包含幾何特征[10-12]、直方圖特征[7, 13-14]和紋理特征[1, 11, 15]。通常特征提取在整個處理過程中起著決定性作用。一組有效的特征既可以補償分割不足,又能減少分類器的壓力。白細胞的幾何特征在多數情況下很有效,但對于少數變形細胞卻易出錯,比如白細胞的幾何特征不易區別變形的淋巴細胞和嗜堿性粒細胞,但紋理特征卻能有效分辨它們。然而兩種主要的紋理處理方法——灰度共生矩陣(gray level co-occurrence matrix,GLCM)[1, 16]和局部二進制模式(local binary pattern,LBP)[17]都需要根據經驗人工預選取適當的參數,否則提取效果較差。因此尋找一種魯棒性強、無參化的紋理特征提取方法顯得十分重要。至于分類算法,比較常用的是 SVM[7, 12, 18-19]、人工神經網絡(artificial neural network,ANN)[12, 15, 19]和決策樹。
本文使用 HSV 顏色空間閾值法將白細胞從背景圖像中分割出來并提取其幾何特征,然后提出一種基于 mean-shift 聚類的無參數化算法提取其紋理特征,結合白細胞形態學特征和紋理特征,最后用 ANN 實現分類。
1 mean-shift 聚類算法
mean-shift 聚類算法是一種無參化算法,能定位數據中可能代表某種模式特征的最大概率密度函數點,已經成功地應用在圖像平滑、圖像分割和運動物體跟蹤等研究中[20]。
在 d 維空間
中給定 n 個數據采樣點
,
,并定義基本的 mean-shift 向量為:
![]() |
其中
是一個半徑為 h 的高維球區域,y 為滿足如下關系的集合:
![]() |
有
個樣本點落在
區域中,mean-shift 向量
總是指向概率密度梯度方向。到
距離不同的點
對
有相同的貢獻。考慮到距離
不同的點有不同的權重,因此引入核函數
,概率密度函數 f(x)則可表示為:
![]() |
如果使用圓對稱核,則核函數的剖面函數
定義其滿足:
![]() |
其中
是歸一化常量,以保證
,
的收斂點可以由其導數零點求得,即
,其梯度表示為:
![]() |
其中
,對應的核函數
,式(5)中第一部分是以
為核函數的概率密度估計,第二部分是 mean-shift 向量指向最大概率密度梯度方向。
![]() |
mean-shift 聚類算法的實質是一個自適應的梯度上升迭代搜索峰值運算,設迭代次數為 t,用
作為搜索窗口,給定任意一個初始點
,則搜索過程如下:
1. 計算
;
2. 移動窗口并計算
;
3. 重復步驟 1 和 2 直到
< 給定值,此時認為算法收斂。
2 基于 mean-shift 聚類的白細胞紋理特征提取和識別算法
雖然 GLCM 和 LBP 可以部分提取白細胞顯微圖像的紋理特征,但提取結果受預置參數影響較大。mean-shift 聚類是一種無參算法,該算法可以定位代表特征的概率密度極值點,適用于白細胞紋理特征的提取,該算法主要有以下五步。
2.1 選擇圖像數據空間
彩色圖像有多種數據空間可以選擇,如灰度、RGB 顏色空間或 HSV 顏色空間中某些通道。對于白細胞圖像的紋理特征提取,選擇灰度比較有利,因為灰度圖像可以有效地減少光照和白細胞染色條件變化帶來的不利影響。
2.2 尋找特征點
使用 mean-shift 聚類算法對圖像進行處理,定位概率密度極值點的坐標作為特征點并取得其灰度值。因為數據量太少可能會丟失部分紋理特征,所以需要對特征區域進行擴展,擴展方法如 2.3 所述。
2.3 擴展特征區域
細胞紋理屬于自然紋理,灰度變化隨機性大,雖然找到了特征點,但仍然不易精確地擴展特征區域。用區域生長法可以近似地擴展特征區域,雖然并不精確,但隨后的測試表明足以滿足需求。具體如下:以上述特征點為區域生長點,以低于該點灰度值 3 個灰度級為生長終止條件進行生長,最后得到一系列特征區域。
圖 1 是用 mean-shift 聚類算法處理中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞、淋巴細胞和單核細胞等五類典型白細胞的過程示意圖。如圖 1a 所示,中性粒細胞的紋理特征為清淡的胞質中均勻分布細小一致的顆粒。如圖 1b 所示,如果直接 Mesh 其灰度圖,用常規的邊緣提取和閾值分割不易找出所有特征顆粒。經過本算法處理后,如圖 1c 所示,所有特征顆粒點都被提取并以高灰度值突出顯示。該步操作為下一步特征向量提取提供了基礎。對于圖 1d 所示的嗜酸性粒細胞,處理后其均勻粘連不易分割的粗大顆粒依舊能被很好地標示出來,如圖 1f 所示。對于圖 1g 所示的嗜堿性粒細胞,紋理特征為不均勻粗大顆粒,經本算法處理后,特征區域聚集成大小不同的塊,測量這些塊的面積和均勻度,就能識別該細胞。而對于圖 1j 所示的淋巴細胞,被處理后形成的特征區域塊如圖 1l 所示,不僅比圖 1i 的相對均勻,而且數量也比較少,因此使得其他算法最易混淆的淋巴細胞和嗜堿性粒細胞變得容易區別。最后處理單核細胞,如圖 1o 所示,其特征區域塊面積和灰度都較小,主要集中在細胞核,胞質幾乎沒有特征點,因此易于辨識。

a. 中性粒細胞;b. a 的灰度圖的 Mesh 圖;c. 處理后的 a 的 Mesh 圖;d. 嗜酸性粒細胞;e. d 的灰度圖的 Mesh 圖;f. 處理后的 d 的 Mesh 圖;g. 嗜堿性粒細胞;h. g 的灰度圖的 Mesh 圖;i. 處理后的 g 的 Mesh 圖;j. 淋巴細胞;k. j 的灰度圖的 Mesh 圖;l. 處理后的 j 的 Mesh 圖;m. 單核細胞;n. m 的灰度圖的 Mesh 圖;o. 處理后的 m 的 Mesh 圖
Figure1. Mean-shift processing of leukocytesa. neutrophil; b. Mesh of gray image of a; c. Mesh of processed image of a; d. eosinophil; e. Mesh of gray image of d; f. Mesh of processed image of d; g. basophil; h. Mesh of gray image of g; i. Mesh of processed image of g; j. lymphocyte; k. Mesh of gray image of j; l. Mesh of processed image of j; m. monocyte; n. Mesh of gray image of m; o. Mesh of processed image of m
總之,經過 mean-shift 聚類和區域生長算法處理后,五類白細胞圖像的特征點被凸顯出來,特征區域被收縮成為獨立的區域塊,統計這些特征區域的灰度、面積、分布密度等,即有利于分辨這五類白細胞。
2.4 統計特征區域的特征值,組成特征向量
經測試,選用特征點平均灰度值(
)、特征區域面積(
)、特征點間距方差(v1)、
方差(v2)和特征點數量 n 等組成特征向量 I,如公式(7)~(9)所示。
![]() |
![]() |
![]() |
式(8)中,
表示相鄰兩個特征點之間的距離。
2.5 分析特征向量值并用 ANN 實現白細胞分類
對圖 1 中第 3 列的圖像數據按照公式(7)~(9)計算后,結果如表 1 所示。

對表 1 數據分析如下:淋巴細胞和嗜堿性粒細胞的
> 140,因為它們都具有深色顆粒塊和較高的對比度,而單核細胞因顏色較淡導致
< 70;
反映了紋理粗糙度和紋理塊大小,嗜酸性粒細胞
最小,表明其粗糙度高、紋理塊小,而單核細胞
最大,因其紋理塊大而光滑;v1 描述了紋理位置分布的均勻性,淋巴細胞具有最小值,這與人眼對其致密均勻的視覺感受一致;v2 則可度量顏色均勻度和對比度,單核細胞因對比度最小而具有最小值,可以用來和相似的淋巴細胞進行區別;最后特征點數量 n 代表紋理基元的數量,是個能很好地辨識淋巴細胞的指標,因為其雖然塊大但基元數量少。總之,表 1 的數據表明特征向量 I 能有效地表達五類白細胞的紋理并互相區別。
在計算機視覺和圖像處理中,ANN 作為一種分類算法已經被廣泛應用。本文選用逆向傳播(back propagation,BP)神經網絡來進行白細胞的五分類,因為 BP 神經網絡結構比較簡單,能夠以任意精度逼近樣本,在整個網絡訓練達到收斂之后,進行識別的計算量較小、速度較快。
對于 BP 神經網絡來說,一旦確定了樣本的特征數目和輸出的目標向量以后,只需要對激勵函數、隱含層數目以及隱含層神經元的數目這三個參數進行選取就可以了。結合形態學特征向量和 5 個紋理特征向量,本文中輸入節點數目為 6,輸出節點數目為 5,激勵函數選用 S 型函數,選用單個隱含層,隱含層節點數取 15。通過對神經網絡進行訓練并對權重做出調整,使得輸出與目標向量更為接近,能更準確地對白細胞進行五分類。
3 結果分析

為了驗證本文所提方法的有效性,我們用 BC++6.0 開發了一套白細胞識別分類的軟件系統,如圖 2 所示。首先使用光學 100 倍油鏡和 USB CCD 攝像頭拍攝血涂片,采集圖像經預處理和基于 HSV 顏色空間的自動閾值[21]分割后,提取形態學特征,然后再用本文提出的算法提取紋理特征,最后使用 ANN 進行識別分類。
在進一步測試中,本文首先預測試了 150 個隨機樣本,證明了本方法的可行性。由于 150 個樣本量較少,此時得到的準確率不能很好地反映該算法在實際應用中的分類準確率。根據大數定理,實驗次數越多,事件出現的頻率越接近概率。隨后我們將樣本數擴大到 1 310 個(包含 11 個非白細胞圖像),這些樣本都預先經過專家識別分類。用本文所提算法對該 1 310 個樣本進行識別分類,并與專家識別分類結果進行比較。本文所用樣本均來自四川美生科技有限公司。
3.1 識別正確率測試
如表 2 所示,用常規形態學方法處理后,中性粒細胞因其多核特征明顯故識別率高達 94.7%,但淋巴細胞和嗜堿性粒細胞因形態相近而 < 83%,而單核細胞的形態學特征能覆蓋其他四種,所以正確率下降至 90.8%,對于非白細胞的識別率最低,因其復雜多變。

如表 3 所示,當形態學特征加上本文算法提取的紋理特征后,正確率有顯著的提升。

其中嗜堿性粒細胞全部正確識別,因為其深色顆粒紋理易被本算法提取,雖然樣本數比較少(因為臨床獲得不容易);淋巴細胞識別率也由 83.0% 提升至 93.1%,因為特征點數 n 可以很好地標示它們;而單核細胞和嗜酸性粒細胞識別率提升不太顯著,這是因為幼年期單核細胞紋理很像淋巴細胞而易被誤識別,而嗜酸性粒細胞初期紋理特別像中性粒細胞,這時即使人眼也比較難以識別。
如表 4 所示,列舉了本文算法與文獻中常見算法的對比結果,可見這些算法對嗜堿性粒細胞正確識別率相近,但對另外四種白細胞,本文算法最優。

當樣本數擴大到 1 310 后(目前文獻尚無與本文相近的大樣本數),由于出現了在小樣本檢測時沒有出現的難以識別的特殊情況,故識別率有所下降,盡管如此本文算法還是能維持較高的識別率,體現了其較好的魯棒性。
3.2 魯棒性測試
一種常見的識別困難情況是紋理弱化,如圖 3 所示,a 和 c 經專家分類均屬于嗜堿性粒細胞,但 a 圖紋理相對于標準的 c 圖紋理較弱、更光滑,因此用傳統的 GLCM 和 LBP 更容易將 a 識別為淋巴細胞,而采用本文方法對其處理后得到表 5,數據仍可正確識別。雖然淋巴細胞和嗜堿性粒細胞的
> 130 很相近,但淋巴細胞的特征點數目 n 要遠小于嗜堿性粒細胞,而且淋巴細胞的
最大。


a. 弱紋理;b. 處理(a)后的 Mesh 圖;c. 普通紋理;d. 處理(c)后的 Mesh 圖
Figure3. Processing of basophils with different repeatabilitya. weak texture; b. Mesh of processed (a); c. normal texture; d. Mesh of processed (c)
總之,針對常規紋理算法和形態學特征容易出錯的情況,本算法均能正確識別,因此本算法具有較高的魯棒性。
4 總結
本文提出了一種新型的基于 mean-shift 聚類提取自然紋理特征的方法,成功地用于人體外周血液白細胞的自動識別和五分類,對比使用形態學特征以及基于 GLCM 和 LBP 提取紋理特征的識別算法,本算法表現出較好的魯棒性,提高了系統的正確識別率。最后本文完成了系統軟件編寫,并擴大樣本數到 1 310 個(包含難以識別的特例),得到中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞、淋巴細胞、單核細胞的正確識別率分別為 95.4%、93.8%、100%、93.1%、92.4%,驗證了本算法較好的魯棒性和實用性。