為了實現用較低的類間特征維數對正常人體外周血白細胞高效分類,本文提出一種基于屬性層次關系的彩色白細胞圖像類間特異特征選取方法。本文依據形式概念的屬性約束關系,定義并權衡屬性度數值,留取類間特異性較高的屬性,實現層次關系分層優化及可視化,建立基于分層優化層次關系圖的知識表示和發現方法。以正常人體外周血白細胞區域特征為形式背景,通過此方法選取類間特異性較高的屬性,挖掘白細胞圖像六分類類別特異性,將60種類間屬性優化為12種,有效降低了特征維數,提高類間特征分類實效性。通過與經典實驗結果比對,證明了該方法的可用性和有效性。
引用本文: 郝連旺, 洪文學, 李婷. 基于屬性層次關系的白細胞圖像類間特異特征選取方法研究. 生物醫學工程學雜志, 2014, 31(6): 1202-1206. doi: 10.7507/1001-5515.20140228 復制
引言
為了使彩色白細胞圖像自動識別系統達到更高的精度要求,以往的研究方法往往應用多種方法提取出盡可能多的特征,建立高維原始特征集。但并不是特征維數越高,分類效果越好。當原始特征數過多時,不僅使獲取特征的代價增加,而且在樣本數較少時將使所設計的分類器性能降低[1],因此需要研究較為科學的特征選擇算法,能夠提取出完備描述細胞類別間可分信息的特征,從而有效地減少分類器輸入的冗余量。
德國Wille[2]于1982年把“概念”形式化成對象集與屬性集構成的二元組,把概念與概念之間的泛化和例化關系定義成序關系,序關系對對象與屬性的關聯關系可誘導出概念格,并用其相應的Hasse圖實現了對數據的可視化,從而建立了形式概念分析。形式概念分析可以將表面或隱含數據中的內在邏輯和組織結構完整地圖示化,從而為分析概念數據之間的關聯提供系統的可視化工具[3]。形式背景表達了對象與屬性的關聯關系,屬性是對象特征的抽象描述,屬性與屬性之間存在一定的約束關系,可直接影響形式背景的生成,這種約束關系即為屬性層次關系[4]。在準確定位屬性層次并確定屬性關聯關系下,可以合理有效地作出屬性約簡,并生成屬性層次關系圖,從而剔除冗余信息,挖掘類間特異性知識體系。
本文提出一種基于分層優化形式背景生成層次關系圖的新方法,依據層次關系可視化表示,標注對象與屬性注解,依據對象間屬性頻數判別屬性類間特異顯著性,建立起基于分層優化層次關系圖的知識表示和發現方法,并以正常人體外周血彩色白細胞圖像為實際應用背景,建立基于屬性層次關系的彩色白細胞圖像類間特異特征選取方法,通過與經典實驗結果比對,證明了該方法的可用性和有效性。
1 白細胞圖像區域特征描述
白細胞分類識別是血液檢驗的一項重要內容,正常人體外周血白細胞可分為六類[5]。為了實現白細胞圖像的自動分類識別,國內外研究者對分割后的彩色白細胞圖像局部區域分別抽取了形態學、色彩、光密度、紋理等多種特征[6-7]。隨著多種特征計算方法不同,也衍生出更多的特征,每種特征均具有一定的物理意義。較常見的特征描述如表 1所示。

2 屬性分層定位及屬性關系圖生成方法
在形式概念分析理論中,屬性是對象特征的抽象描述,屬性特征是對事物更抽象的哲學層次描述,屬性層次定位以及屬性關聯關系的數學描述為理清屬性層次關系奠定了數學基礎[8]。依據屬性層次定位定理、屬性關聯關系定理[9],本文提出了一種基于形式背景行列交換原理的屬性分層層次定位及屬性關系圖生成新方法。
2.1 形式背景行列交換原理
一個形式背景K=(Q,D,I),對象集合Q具有(q1,q2,q3,…,qi,…,qd)對象排列次序,屬性集合D具有(d1,d2,d3,…,dj,…,dn)屬性排列次序,且dij∈D,dij為屬性值,當qi具有dj屬性,dij=1,否則dij=0。K=(Q,D,I)轉換為分層形式背景 Ky0=(Q,D,I)的充分必要條件是具有(q1′,q2′ ,q3′,…,qi′,…,qd′)對象排列次序和(d1′,d2′,d3′,…,dj′,…,dn′)屬性排列次序。新的對象排列次序和屬性排列次序可以由下面的方法確定:首先,求ddj= Max(Σdi1,Σdi2,Σdi3,…,Σdin),i=1,2,3,…,d,ddj 確定第j列屬性值求和最大,然后對屬性列做第一列與ddj對應的j列交換,得到一個新的屬性排列次序(d1′,d2′,d3′,…,dj′,…,dn′);再做行交換,使得屬性值di1=1從d11開始連續排列,得到一個新的對象排列次序(q1′,q2′,q3′,…,qi′,…,qd′)。
2.2 屬性分層定位過程
對于Ky=(Q,D,I)的兩個子背景K1=(Q1,D1,I1)和K2=(Q2,D2,I2),其中K1=(Q1,D1,I1)為d1′屬性其屬性值di1=1對應的背景部分,K2=(Q2,D2,I2)為d1′屬性其屬性值di1=0對應的背景部分。對這兩個子形式背景做如下變換:將K2=(Q2,D2,I2)屬性值求和最大的列變換到第二列,再從d′12開始連續排列(d′12為K2的第一行第二列屬性值),注意做列變換時,K1=(Q1,D1,I1)的對應列也隨之變換。然后K1=(Q1,D1,I1)內做行變換,使得同一屬性dij=1連續。變換后得到新的形式背景Ky1:2=(Q,D,I),并且具有(q1″,q2″ ,q3″,…,qi″,…,qd″)對象排列次序和(d1″,d2″,d3″,…,dj″,…,dn″)屬性排列次序。注意Ky0=(Q,D,I)和Ky1=(Q,D,I)第一個屬性是相同的。進行第二次分層變換后,再重復上面的變換,直到屬性值求和最小。整個分層層次定位化過程完成。
盡管基于形式背景分層優化原理構造層次關系圖與概念格相似,但層次關系圖不是形式概念分析理論中的概念格。從層次描述角度看,概念格是概念層次描述;而層次關系圖是由形式背景特定屬性不為零的數目決定層次,由形式背景特定對象不為零的屬性數目決定層次層級,是概念關系描述[10]。
2.3 屬性度及屬性約簡
從數學意義上看,該分層過程實質是根據屬性集合的普遍性對集合D進行子集劃分。其目的是使普遍性高的子族外延合并包含普遍性低的子集成員的外延。該過程的數學描述為: 設形式背景中的屬性集合D={D1,D2,…,Di},Di表示背景中的第i個屬性。定義屬性Di的度為: Degree(Di)=‖D′i‖0,既能夠表示該屬性區分多類別對象普遍性,也表示每兩類間區分特異性,并呈現反比關系。其值越大,表示在當前形式背景下區分多類別對象功能越強,分類性能越普遍;值越小,表示類間區分特異性越強,類間分類效果越好。并通過選取一定計算值大小,可以達到屬性約簡目的。
2.4 屬性層次關系圖生成方法
為了制作屬性關系圖,首先把屬性集合分成D1和D2兩個部分,即令D=D1∪D2,D1與D2不一定不相交。D1與D2的確定主要考慮實際意義。D1與D2確定好后,就可以得到相應的形式背景,K1=(Q,D1,I),K2=(Q,D2,I)。如果K1=(Q,D1,I)是第1個分層優化形式背景,那么K2=(Q,D2,I)就是為了構造第2個層次關系圖的形式背景。因此,可以得到第2個層次關系圖。實際上只需要將原來的形式背景類別覆蓋的屬性列交換到形式背景前幾列,然后優化,便可以得到變換后的形式背景,再由優化后形式背景做層次關系圖。
3 白細胞圖像類間特異特征選取
3.1 特征預選
雖然每種特征具有一定的物理意義,但各種特征在類內或類間常會存在較強的統計相關性,即白細胞圖像不同信息類型間具有冗余性。若使用以上60種特征分類識別,不僅增加系統的時耗代價,而且會影響分類準確性。為此需要對以上特征進行有效選取。在六分類白細胞中,每兩類之間(共C62=15對)一 般只需要少量特征即可描述其差異,因此可采取簡單的單個特征最優組合法進行特征預選。本文選用計算較簡單的基于空間距離的Fisher準則和基于條件概率的巴氏距離為可分性判據,衡量單個特征對于某兩類白細胞如i類和j類白細胞的可分性,將判據值進行排隊,取出較少判據值較大的特征構成一個預選特征組。從而將60種白細胞特征中存在線性或非線性相關關系的特征予以剔除,簡化為18種,并得到15對每兩種白細胞類別間的預選特征組。18種白細胞圖像類間特征形式背景如表 2所示。
3.2 基于屬性層次關系圖的特異屬性選取
按照2.1節中背景規則化方法進行分層優化后,可以得到18種白細胞圖像類間特征形式背景。并按照2.2節所述,分別將分層優化之前和之后的18種白細胞圖像類間特征形式背景生成其各自所對應的屬性關系圖,如圖 1、圖 2所示,優化后的形式背景是嚴格分層表示的。


預選后白細胞類間特征背景統計,如表 2所示,每列具有“×”的個數有所不同,哪一列“×”多,就意味著這個屬性具有普遍性,哪一列“×”少,就意味著具有類間比較特異性;同時也可以看出每一行“×”的個數也有所不同,哪一行“×”最多,意味著這個對象具有最多的層次,反過來,哪一行“×”最少,意味著這個對象具有最少的層次。通過2.3節中屬性約簡方法,計算白細胞圖像特征屬性Mi的度Degree(Mi),并進行數學修正,經計算選取Degree(Mi)<0.56的屬性,即頻數大于等于6的特征X1、X4、X6、HCH、γH和LC1,將它們去除,留取類間特異性較高的屬性。屬性約簡后,將18種屬性優化為12種,優化的白細胞圖像類間特異特征形式背景如表 3所示,所生成的屬性層次關系圖如圖 3所示。



在優化后的屬性層次關系圖中的屬性層次關系可分為4部分,如圖 3中虛線圈所示。這4部分的屬性層次關系分別對應的白細胞類間特異特征形式背景,如表 4~7所示。




比較圖 3和圖 1,在對白細胞圖像類間特征背景進行基于屬性層次關系圖的屬性選取后,其層次關系圖更加簡練,類別意義更加清楚,層次關系更加鮮明。并且,表 4~7分別為具有某一屬性對象的聚類表示,將有助于建立挖掘六分類白細胞圖像類間特異性知識體系。
3.3 實驗結果
本文根據以上基于屬性層次關系選取的類間特異特征,以秦皇島人民醫院提供的281幅(BAN細胞44幅、SEG細胞33幅、EOS細胞48幅、BAS細胞40幅、LYM細胞51幅、MON細胞65幅)預處理白細胞圖像進行了BP網絡分類器分類實驗,平均分類正確率為82.3%;而依據張勇[11]中基于特征分布的類條件概率密度估計方法的特征類別可分性測度結果,對以上同組數據同種分類器平均分類正確率為75.5%;依據周穎穎[12]中基于禁忌搜索算法的分布選擇策略特征篩選結果,對以上同組數據同種分類器平均分類正確率為68.1%。對比結果如表 8所示,對于白細胞圖像六分類應用,本文提出的基于屬性層次關系的類間特異特征選取方法更加有效。

4 結論
本文依據屬性層次定位定理、屬性關聯關系定理和子背景屬性定理,提出了一種基于形式背景行列交換原理的分層層次定位及屬性關系圖生成新方法,對屬性分層定位及屬性約簡方法進行了數學推理,通過形式背景行列交換,得到優化后的形式背景,再由形式背景做出屬性層次關系圖。在對正常人體外周血六分類白細胞圖像類間特征背景進行基于屬性層次關系圖的屬性選取后,通過定義并計算權衡屬性度Degree(Di)數值大小,有效留取類間特異性較高的屬性,將60種類間屬性優化為12種,有效降低了特征維數,提高類間特征分類實效性,建立了挖掘白細胞圖像類間特異性知識體系。經與經典實驗結果比對,證明了方法的可用性和有效性。但該方法目前僅應用于人體外周正常血細胞圖像,對于病態樣本尚需進一步研究。
引言
為了使彩色白細胞圖像自動識別系統達到更高的精度要求,以往的研究方法往往應用多種方法提取出盡可能多的特征,建立高維原始特征集。但并不是特征維數越高,分類效果越好。當原始特征數過多時,不僅使獲取特征的代價增加,而且在樣本數較少時將使所設計的分類器性能降低[1],因此需要研究較為科學的特征選擇算法,能夠提取出完備描述細胞類別間可分信息的特征,從而有效地減少分類器輸入的冗余量。
德國Wille[2]于1982年把“概念”形式化成對象集與屬性集構成的二元組,把概念與概念之間的泛化和例化關系定義成序關系,序關系對對象與屬性的關聯關系可誘導出概念格,并用其相應的Hasse圖實現了對數據的可視化,從而建立了形式概念分析。形式概念分析可以將表面或隱含數據中的內在邏輯和組織結構完整地圖示化,從而為分析概念數據之間的關聯提供系統的可視化工具[3]。形式背景表達了對象與屬性的關聯關系,屬性是對象特征的抽象描述,屬性與屬性之間存在一定的約束關系,可直接影響形式背景的生成,這種約束關系即為屬性層次關系[4]。在準確定位屬性層次并確定屬性關聯關系下,可以合理有效地作出屬性約簡,并生成屬性層次關系圖,從而剔除冗余信息,挖掘類間特異性知識體系。
本文提出一種基于分層優化形式背景生成層次關系圖的新方法,依據層次關系可視化表示,標注對象與屬性注解,依據對象間屬性頻數判別屬性類間特異顯著性,建立起基于分層優化層次關系圖的知識表示和發現方法,并以正常人體外周血彩色白細胞圖像為實際應用背景,建立基于屬性層次關系的彩色白細胞圖像類間特異特征選取方法,通過與經典實驗結果比對,證明了該方法的可用性和有效性。
1 白細胞圖像區域特征描述
白細胞分類識別是血液檢驗的一項重要內容,正常人體外周血白細胞可分為六類[5]。為了實現白細胞圖像的自動分類識別,國內外研究者對分割后的彩色白細胞圖像局部區域分別抽取了形態學、色彩、光密度、紋理等多種特征[6-7]。隨著多種特征計算方法不同,也衍生出更多的特征,每種特征均具有一定的物理意義。較常見的特征描述如表 1所示。

2 屬性分層定位及屬性關系圖生成方法
在形式概念分析理論中,屬性是對象特征的抽象描述,屬性特征是對事物更抽象的哲學層次描述,屬性層次定位以及屬性關聯關系的數學描述為理清屬性層次關系奠定了數學基礎[8]。依據屬性層次定位定理、屬性關聯關系定理[9],本文提出了一種基于形式背景行列交換原理的屬性分層層次定位及屬性關系圖生成新方法。
2.1 形式背景行列交換原理
一個形式背景K=(Q,D,I),對象集合Q具有(q1,q2,q3,…,qi,…,qd)對象排列次序,屬性集合D具有(d1,d2,d3,…,dj,…,dn)屬性排列次序,且dij∈D,dij為屬性值,當qi具有dj屬性,dij=1,否則dij=0。K=(Q,D,I)轉換為分層形式背景 Ky0=(Q,D,I)的充分必要條件是具有(q1′,q2′ ,q3′,…,qi′,…,qd′)對象排列次序和(d1′,d2′,d3′,…,dj′,…,dn′)屬性排列次序。新的對象排列次序和屬性排列次序可以由下面的方法確定:首先,求ddj= Max(Σdi1,Σdi2,Σdi3,…,Σdin),i=1,2,3,…,d,ddj 確定第j列屬性值求和最大,然后對屬性列做第一列與ddj對應的j列交換,得到一個新的屬性排列次序(d1′,d2′,d3′,…,dj′,…,dn′);再做行交換,使得屬性值di1=1從d11開始連續排列,得到一個新的對象排列次序(q1′,q2′,q3′,…,qi′,…,qd′)。
2.2 屬性分層定位過程
對于Ky=(Q,D,I)的兩個子背景K1=(Q1,D1,I1)和K2=(Q2,D2,I2),其中K1=(Q1,D1,I1)為d1′屬性其屬性值di1=1對應的背景部分,K2=(Q2,D2,I2)為d1′屬性其屬性值di1=0對應的背景部分。對這兩個子形式背景做如下變換:將K2=(Q2,D2,I2)屬性值求和最大的列變換到第二列,再從d′12開始連續排列(d′12為K2的第一行第二列屬性值),注意做列變換時,K1=(Q1,D1,I1)的對應列也隨之變換。然后K1=(Q1,D1,I1)內做行變換,使得同一屬性dij=1連續。變換后得到新的形式背景Ky1:2=(Q,D,I),并且具有(q1″,q2″ ,q3″,…,qi″,…,qd″)對象排列次序和(d1″,d2″,d3″,…,dj″,…,dn″)屬性排列次序。注意Ky0=(Q,D,I)和Ky1=(Q,D,I)第一個屬性是相同的。進行第二次分層變換后,再重復上面的變換,直到屬性值求和最小。整個分層層次定位化過程完成。
盡管基于形式背景分層優化原理構造層次關系圖與概念格相似,但層次關系圖不是形式概念分析理論中的概念格。從層次描述角度看,概念格是概念層次描述;而層次關系圖是由形式背景特定屬性不為零的數目決定層次,由形式背景特定對象不為零的屬性數目決定層次層級,是概念關系描述[10]。
2.3 屬性度及屬性約簡
從數學意義上看,該分層過程實質是根據屬性集合的普遍性對集合D進行子集劃分。其目的是使普遍性高的子族外延合并包含普遍性低的子集成員的外延。該過程的數學描述為: 設形式背景中的屬性集合D={D1,D2,…,Di},Di表示背景中的第i個屬性。定義屬性Di的度為: Degree(Di)=‖D′i‖0,既能夠表示該屬性區分多類別對象普遍性,也表示每兩類間區分特異性,并呈現反比關系。其值越大,表示在當前形式背景下區分多類別對象功能越強,分類性能越普遍;值越小,表示類間區分特異性越強,類間分類效果越好。并通過選取一定計算值大小,可以達到屬性約簡目的。
2.4 屬性層次關系圖生成方法
為了制作屬性關系圖,首先把屬性集合分成D1和D2兩個部分,即令D=D1∪D2,D1與D2不一定不相交。D1與D2的確定主要考慮實際意義。D1與D2確定好后,就可以得到相應的形式背景,K1=(Q,D1,I),K2=(Q,D2,I)。如果K1=(Q,D1,I)是第1個分層優化形式背景,那么K2=(Q,D2,I)就是為了構造第2個層次關系圖的形式背景。因此,可以得到第2個層次關系圖。實際上只需要將原來的形式背景類別覆蓋的屬性列交換到形式背景前幾列,然后優化,便可以得到變換后的形式背景,再由優化后形式背景做層次關系圖。
3 白細胞圖像類間特異特征選取
3.1 特征預選
雖然每種特征具有一定的物理意義,但各種特征在類內或類間常會存在較強的統計相關性,即白細胞圖像不同信息類型間具有冗余性。若使用以上60種特征分類識別,不僅增加系統的時耗代價,而且會影響分類準確性。為此需要對以上特征進行有效選取。在六分類白細胞中,每兩類之間(共C62=15對)一 般只需要少量特征即可描述其差異,因此可采取簡單的單個特征最優組合法進行特征預選。本文選用計算較簡單的基于空間距離的Fisher準則和基于條件概率的巴氏距離為可分性判據,衡量單個特征對于某兩類白細胞如i類和j類白細胞的可分性,將判據值進行排隊,取出較少判據值較大的特征構成一個預選特征組。從而將60種白細胞特征中存在線性或非線性相關關系的特征予以剔除,簡化為18種,并得到15對每兩種白細胞類別間的預選特征組。18種白細胞圖像類間特征形式背景如表 2所示。
3.2 基于屬性層次關系圖的特異屬性選取
按照2.1節中背景規則化方法進行分層優化后,可以得到18種白細胞圖像類間特征形式背景。并按照2.2節所述,分別將分層優化之前和之后的18種白細胞圖像類間特征形式背景生成其各自所對應的屬性關系圖,如圖 1、圖 2所示,優化后的形式背景是嚴格分層表示的。


預選后白細胞類間特征背景統計,如表 2所示,每列具有“×”的個數有所不同,哪一列“×”多,就意味著這個屬性具有普遍性,哪一列“×”少,就意味著具有類間比較特異性;同時也可以看出每一行“×”的個數也有所不同,哪一行“×”最多,意味著這個對象具有最多的層次,反過來,哪一行“×”最少,意味著這個對象具有最少的層次。通過2.3節中屬性約簡方法,計算白細胞圖像特征屬性Mi的度Degree(Mi),并進行數學修正,經計算選取Degree(Mi)<0.56的屬性,即頻數大于等于6的特征X1、X4、X6、HCH、γH和LC1,將它們去除,留取類間特異性較高的屬性。屬性約簡后,將18種屬性優化為12種,優化的白細胞圖像類間特異特征形式背景如表 3所示,所生成的屬性層次關系圖如圖 3所示。



在優化后的屬性層次關系圖中的屬性層次關系可分為4部分,如圖 3中虛線圈所示。這4部分的屬性層次關系分別對應的白細胞類間特異特征形式背景,如表 4~7所示。




比較圖 3和圖 1,在對白細胞圖像類間特征背景進行基于屬性層次關系圖的屬性選取后,其層次關系圖更加簡練,類別意義更加清楚,層次關系更加鮮明。并且,表 4~7分別為具有某一屬性對象的聚類表示,將有助于建立挖掘六分類白細胞圖像類間特異性知識體系。
3.3 實驗結果
本文根據以上基于屬性層次關系選取的類間特異特征,以秦皇島人民醫院提供的281幅(BAN細胞44幅、SEG細胞33幅、EOS細胞48幅、BAS細胞40幅、LYM細胞51幅、MON細胞65幅)預處理白細胞圖像進行了BP網絡分類器分類實驗,平均分類正確率為82.3%;而依據張勇[11]中基于特征分布的類條件概率密度估計方法的特征類別可分性測度結果,對以上同組數據同種分類器平均分類正確率為75.5%;依據周穎穎[12]中基于禁忌搜索算法的分布選擇策略特征篩選結果,對以上同組數據同種分類器平均分類正確率為68.1%。對比結果如表 8所示,對于白細胞圖像六分類應用,本文提出的基于屬性層次關系的類間特異特征選取方法更加有效。

4 結論
本文依據屬性層次定位定理、屬性關聯關系定理和子背景屬性定理,提出了一種基于形式背景行列交換原理的分層層次定位及屬性關系圖生成新方法,對屬性分層定位及屬性約簡方法進行了數學推理,通過形式背景行列交換,得到優化后的形式背景,再由形式背景做出屬性層次關系圖。在對正常人體外周血六分類白細胞圖像類間特征背景進行基于屬性層次關系圖的屬性選取后,通過定義并計算權衡屬性度Degree(Di)數值大小,有效留取類間特異性較高的屬性,將60種類間屬性優化為12種,有效降低了特征維數,提高類間特征分類實效性,建立了挖掘白細胞圖像類間特異性知識體系。經與經典實驗結果比對,證明了方法的可用性和有效性。但該方法目前僅應用于人體外周正常血細胞圖像,對于病態樣本尚需進一步研究。