膠質瘤是最常見的惡性腦腫瘤,其高低級別分類是制定治療方案和預后的重要參考指標。臨床中,腦膠質瘤的高低分級診斷通常由病理醫生閱讀全景病理圖像(WSI)來完成,該任務繁瑣且對醫生經驗要求較高。根據2016年第4版《中樞神經系統腫瘤WHO分類》標準,細胞的富集程度、核異型、壞死等現象與膠質瘤分級密切相關。受該標準啟發,本文定量分析腦全景病理圖像中細胞密度和異型特征,對膠質瘤進行高低級別自動分級。首先分析全局細胞密度定位感興趣區域(ROI),提取全掃描圖像的全局密度特征,然后對感興趣區域提取局部密度特征和異型特征,最后利用特征選擇并構建平衡權重的支持向量機(SVM)分類器,5折交叉驗證的受試者工作特性曲線下的面積(AUC)為0.92 ± 0.01,準確率(ACC)為0.82 ± 0.01。實驗結果表明,本文提出的感興趣區域定位方法可快速有效地實現定位,構建的細胞密度和異型特征能夠實現膠質瘤的自動分級,為臨床診斷提供可靠依據。
引用本文: 韓繼能, 謝嘉偉, 顧松, 閆朝陽, 李建瑞, 張志強, 徐軍. 基于全景病理圖像細胞密度和異型特征的膠質瘤自動分級. 生物醫學工程學雜志, 2021, 38(6): 1062-1071. doi: 10.7507/1001-5515.202103050 復制
引言
腦腫瘤有著較高的發病率,2018年,全世界腦腫瘤病例新增296 851例,占所有類型腫瘤新增病例的1.6%,死亡病例新增241 037例,占所有類型腫瘤新增死亡病例的2.5%[1]。2015年,腦瘤在中國的所有腫瘤中排第9位,發病數為10.6萬,占所有類型腫瘤的2.32%,死亡數為5.6萬,占所有類型腫瘤的2.1%[2]。在所有原發性顱內腦腫瘤中,膠質瘤占26%,在惡性腦腫瘤中甚至占81%[3]。預后方面,低級別膠質瘤(WHO Ⅰ~Ⅱ級)患者的中位生存期為5~8年,間變膠質瘤(WHO Ⅲ級)患者的中位生存期為3年,膠質母細胞瘤(WHO Ⅳ級)患者的中位生存期為12~18個月,高齡患者的生存期通常更短[4]。因此,區分膠質瘤的高低級別對醫生制定治療方案和預后評估具有重要的作用。
在一般的診斷過程中,患者經過問診、影像檢查后,疑似病患通常需要進行穿刺或手術切除,樣本隨后被制作成全景病理圖像(whole slide image,WSI),病理醫生在顯微鏡下觀察一些與腫瘤等級相關的特征并給出相應的等級信息,如核異型(有絲分裂象明顯、核漿比增大、核多形性、核仁明顯)、壞死、血管增生等[5]。然而,人工閱片診斷的過程具有主觀性。一方面,不同經驗的病理醫生對同一病例的診斷缺乏一致性;另一方面,由于病例較多,病理醫生相對匱乏,導致病理醫生容易因為疲勞出現誤診的情況。這種繁瑣的、具有主觀性的工作如果能用計算機輔助實現,將大大提高病理醫生的工作效率,且能較好地保證診斷的一致性和可重復性。
近些年,隨著數字掃描儀的出現和以深度學習為代表的人工智能技術的快速發展,計算機輔助診斷成為熱門的研究方向,研究人員開發出許多有效的算法來實現如細胞分割[6-8]、細胞檢測[9-11]、細胞分類[12-14]、組織分割[15-16]、腫瘤分級[17-29]和預后[30]等任務。
腫瘤分級任務中的方法按使用的特征可分為兩類。一類是基于手工特征[18,20,22,26,29],優點是具有針對性和可解釋性,另一類是基于深度特征[17,21,23,25,27-28,31],優點是端到端,但不具有可解釋性。在腦膠質瘤分級任務中,Mousavi等[19]先對手動選出的感興趣區域(region of interest,ROI)進行基于圖像處理方法的細胞核分割,再對分割的結果分別使用峰—谷檢測和形態學處理來識別壞死區域和微血管增生區域,只要出現壞死或者微血管增生,就將其分為高級別,該方法所取的ROI依賴于主觀選擇,并且檢測壞死的方法太過局限,只能檢測柵欄形壞死,微血管增生的檢測效果也有待提高。Barker等[18]提出了一種更好的定位ROI的方式,它首先提取所有圖像塊的粗糙特征進行聚類,然后從每個圖像塊類簇中分別選出一個具有代表性的圖像塊作為ROI,接著對選出的這些圖像塊提取精細的特征用于后續分類,由于要對每個圖像塊提取粗糙特征,該方法耗時較長。與前兩者不同,Ertosun等[21]使用卷積神經網絡實現對取自腦膠質瘤全掃描圖像的圖像塊的分類。Ker等[17]同樣使用卷積神經網絡對人工選取的ROI進行分類,與Ertosun等[21]不同的是,他們使用了遷移學習的策略,并且使用了性能更好的Inception V3網絡[32]。Kurc等[31]提出了一種精煉預訓練網絡的方法,首先將組織區域切成諸多圖像塊,然后使用自編碼器提取各圖像塊的特征,接著使用孤立森林來篩選圖像塊,利用剩下的圖像塊來精煉DenseNet分類網絡[33],完成對少突和星型細胞瘤的分類。
上述這些工作均存在一定的缺陷。例如在定位ROI時,Mousavi等[19]和Ertosun等[21]的方法需要手動選取;Barker等的方法[18]雖然可以實現自動定位ROI,但是對每個圖像塊提取特征相當耗時;Ker等[17]的方法使用隨機取塊的方式具有不確定性。另外,基于端到端的深度學習的方法雖然可以實現分類,但可解釋性差,較難應用于臨床。
針對上面的問題,本文根據膠質瘤的臨床病理診斷標準,通過細胞全局密度分析定位ROI,并提取該區域的細胞局部密度和異型特征,構建膠質瘤等級預測模型,實現膠質瘤準確、可解釋的自動分級。
1 材料與方法
本文提出的膠質瘤高低級別預測模型包括5個模塊,整體框架如圖1所示。其中模塊①又具體分為①(a)~①(d)。

① 分割細胞核并統計數量:①(a)提取WSI前景部分并進行滑窗取塊,①(b)分割細胞核,①(c)拼接圖像塊細胞核分割結果得到WSI的細胞核分割結果,①(d)滑窗統計細胞數量;② 定位ROI;③ 提取細胞核局部密度與異型特征;④ 特征選擇;⑤ 構建膠質瘤高低級別預測模型
Figure1. The overall flowchart of the glioma low-high grade prediction model① segment nucleus and count number: ① (a) extract foreground of WSI and tile patches using slide window, ① (b) segment nucleus, ① (c) puzzle nuclei segmentation of patches to get nuclei segmentation of WSI, ① (d) count cell number using slide window; ② locate ROI; ③ extract local density and atypia features of nucleus; ④ feature selection; ⑤ build model for predicting grade of glioma
1.1 感興趣區域定位
本文使用的膠質瘤WSI來自南京大學醫學院附屬金陵醫院,共計204例,其中低級別膠質瘤(low grade glioma,LGG)71例,高級別膠質瘤(high grade glioma,HGG)133例。為了減小計算成本,在分析WSI時,需要選取ROI。本文對WSI進行密度分析以自動定位ROI。流程如下:首先,從圖像前景部分提取圖像塊,然后,對圖像塊進行細胞核分割,接著,將細胞密度高的圖像塊作為ROI。
1.1.1 前景圖像塊提取
WSI一般用多分辨率金字塔結構儲存,其中包含多個原始圖像的下采樣樣本,0級為原始尺寸圖像,1級為原始圖像下采樣2倍,以此類推。本研究中用來分析的圖像取自0級(400 ×),原始圖像尺寸巨大,需要先取塊再進行后續處理。由于背景區域占據較大比例,因此在取塊時只提取前景部分的圖像塊能夠節省大量時間。本文利用WSI的金字塔結構和坐標映射策略來提取400 × 下的2 048 × 2 048像素大小的圖像塊。首先,利用大津閾值法和圖像開閉運算得到7級下的前景部分,再利用坐標映射得到0級下的前景部分,然后提取圖像塊。
1.1.2 細胞核分割
細胞核分割是提取特征的關鍵。在WSI中,細胞核往往存在粘連或重疊問題,為了減輕該問題,本文使用Hover-Net[12]進行細胞核分割,網絡框架如圖2所示,包括細胞核語義分割分支和水平垂直圖預測分支,通過水平垂直圖加強細胞核邊界,將粘連的細胞核分開。

殘差塊中的
訓練時使用公開數據集CoNSeP[12],該數據集共包含41張400 × 下1 000 × 1 000像素大小的圖像,本文隨機選30張進行訓練,11張進行驗證,選擇在驗證集上效果最好的模型作為最終模型。使用基于CoNSeP細胞核分割數據集訓練的模型在本文的膠質瘤數據上取得了良好的細胞核分割結果,因此避免了標記額外的膠質瘤細胞核。
1.2 特征提取
1.2.1 全局細胞密度特征
由于腫瘤區域通常呈現出高細胞密度的特點,壞死區域細胞死亡則呈現低細胞密度的特點,從全局密度的角度看,存在壞死區域的WSI的各部分細胞密度呈現高方差的特點,所以分析全局細胞密度可以幫助膠質瘤分級。對于每張WSI,基于1.1.2節的圖像塊細胞核分割結果,首先得到每張圖像塊的細胞核分割結果對應的細胞核質心圖,然后拼接出400 × 下WSI的細胞質心圖 ,接著,使用大小為512像素 × 512像素(400 × 下約為128 μm)的滑動窗
統計各個窗口中細胞的數量
,其中
為每個窗口中細胞的數量,
為滑動窗口滑動的總次數,若全掃描圖像的寬為
,高為
,滑動窗口的大小為
,步長為
,則
。得到
后,計算
的均值、方差、峰度、偏度、熵、變異系數、中位數、最小值/最大值等統計量共8維特征作為全局細胞密度特征。
1.2.2 局部細胞密度特征
膠質瘤的惡性程度與細胞富集程度密切相關,本文通過設計的局部細胞密度特征量化該主觀認識。對于從每張WSI定位出的ROI,以每個細胞核為節點構建德勞內三角形[34]和細胞群落圖[35],如圖3所示。從圖3中可看出,HGG的德勞內三角形邊長比LGG的邊長更短、周長更短、面積更小;HGG的細胞群落圖中,群落往往更大,體現出細胞富集程度更高。

根據構建的德勞內三角形和細胞群落圖,提取26維德勞內三角形特征和21維細胞群落圖特征,共47維局部細胞密度特征,如表1所示。

1.2.3 細胞核異型特征
膠質瘤的惡性程度還與細胞核異型性密切相關,本文通過設計的細胞核異型特征量化異型性。對于從每張WSI定位出的ROI,利用對應的細胞核分割結果提取細胞核異型特征,如表2所示,對其中細胞核邊緣點距中心點距離下劃分的均值、方差和最小值比最大值等3個子項,再分別計算它們各自的均值、方差、峰度、偏度、熵、變異系數、中位數和最小值比最大值8維統計量,得到24維特征,加上其余8種特征描述各自的8維統計量得到的64維特征,共計88維特征。

由于異型細胞近圓度比正常細胞小,所以圖4a中展示的異型細胞的最大內接圓和最小外接圓重合程度較低,圖4b中異型細胞的邊緣到中心點的距離變化較大,邊緣不光滑。圖4c和4d對比表明HGG的異型性更高。

a. 異型細胞的最大內接圓(綠色)與最小外接圓(黃色);b. 異型細胞邊緣點距中心點(紅色)的距離;c. LGG圖像塊細胞核異型特征可視化圖;d. HGG圖像塊細胞核異型特征可視化圖
Figure4. Visualization of nuclear atypia featuresa. maximum incircle (green) and minimum circumscribed circle (yellow) of atypia nucleus; b. peripheral points’ distance to the center of atypia nucleus (red); c. nuclear atypia in patch visualization of LGG; d. nuclear atypia in patch visualization of HGG
1.3 特征選擇
在提取的特征中,存在一些冗余特征,這會增大模型的學習難度,為了減少特征的維度,讓模型更容易訓練且具有泛化性,本文首先使用秩和檢驗選出前50維特征,再使用最大相關最小冗余[36](max-relevance and min-redundancy,MRMR)選出前10維特征。
秩和檢驗:以某一維特征為例,對所有樣本按照這一維特征的值從小到大排序,再在正負兩類樣本中分別計算各自序號之和T0和T1,稱作秩和。如果T0和T1差異較大,則認為正負兩類樣本在這一維特征上有顯著差異,這種差異越大,對應著秩和檢驗的P值越小。
MRMR:互信息是MRMR算法的依據,它被用來度量一組變量中包含的關于另一組變量的信息量,互信息的值越大,兩組變量的相關性越高。MRMR算法利用互信息來量化特征與標簽之間的相關性和特征與特征之間的冗余性,希望前者盡可能大,后者盡可能小。
1.4 分類器建模
為了驗證本文提出的基于密度和異型的特征對于膠質瘤分級有效性,本文使用k近鄰分類器(k-nearest neighbor,kNN)、邏輯回歸分類器(logistic regression,LR)、SVM、平衡權重的SVM分類器(balanced SVM)和多層感知機分類器(multi-layer perceptron,MLP)在數據集上訓練并驗證,所有分類器均使用由sklearn庫集成的模型,其中kNN的k設為5,LR的最大迭代次數為1 000,SVM使用徑向基核函數,MLP的隱藏層數為10,最大迭代次數為1 000。
1.5 評價指標
本文使用AUC、ACC、敏感度(sensitivity,SEN)、特異度(specificity,SPE)和F1分數來評價模型的性能。由真陽性樣本數(true positive,TP)、假陽性樣本數(false positive,FP)、真陰性樣本數(true negative,TP)、假陰性樣本數(false negative,FN)計算ACC、SEN、SPE和F1,如式(1)~(4)所示。
![]() |
![]() |
![]() |
![]() |
2 實驗與結果
2.1 實驗數據
本研究的數據采集自南京大學醫學院附屬金陵醫院,共計204例膠質瘤患者的蘇木精-伊紅染色WSI,使用濱松數字病理切片掃描儀掃描,最大倍數為400×,所有WSI均通過倫理審查委員會同意,并獲得授權可以使用。數據集包含WHO Ⅱ級71例,Ⅲ級43例,Ⅳ級90例,將WHO Ⅱ級作為低級別,Ⅲ和Ⅳ級作為高級別,則低級別共計71例,高級別共計133例,使用5折交叉驗證評估模型的性能。
2.2 實驗環境
實驗使用的硬件配置如下:處理器為Intel(R) Xeon(R) CPU E5-2 630 v4 @ 2.20GHz,內存為32 GB),顯卡為GeForce GTX 2 080Ti, Nvidia,操作系統類型為Ubuntu 16.04,開發工具為Matlab、VS Code、Python3.7,深度學習框架為Pytorch。
2.3 結果與分析
2.3.1 膠質瘤高低級別分類定量結果
本文使用5折交叉驗證分別驗證kNN、LR、SVM、Balanced SVM和MLP模型的性能。表3展示了5種模型的AUC、ACC、SEN、SPE和F1得分,可見各個模型都取得了良好的效果,證明本文提出的選取ROI的方法和特征是有效的。其中Balanced SVM的AUC最高,因為膠質瘤病例的等級分布不平衡,高級別遠多于低級別,所以在SVM中使用類別平衡的權重可以改善樣本不平衡問題。

圖5展示了Balanced SVM模型的五折交叉驗證ROC曲線,從圖中可以看出,每一折上模型都有較高的AUC,且標準差小,模型穩定。

2.3.2 膠質瘤高低級別分類定性結果
圖6展示了不同級別膠質瘤分類的定性結果。其中全局密度頻率分布直方圖的橫軸表示滑動窗口中細胞的數量,縱軸表示一張全掃描圖像中包含特定數量細胞的滑動窗口出現的頻率,ROI細胞核分割結果中不同顏色代表不同的細胞核實例。

從圖6中的全局密度頻率分布直方圖中可以看出,LGG(WHO Ⅱ)的全局細胞密度主要分布在12~40個/128 μm2,HGG(WHO Ⅲ、Ⅳ)的密度主要分布在8~80個/128 μm2,HGG的全局細胞密度范圍跨度更大,細胞富集程度更高,此外,HGG存在壞死區域,該區域的細胞大部分死亡,因此全局密度在8個/128 μm2附近分布的概率較高。從細胞核分割結果中可以看出,粘連的細胞核能被較好地區分開。從ROI德勞內三角形特征可視化圖中可以看出,HGG的德勞內三角形的邊長比LGG更短,各三角形邊長的長度更不均勻,HGG的細胞群落更擁擠,孤立細胞更少。從ROI細胞核異型特征可視化圖中可以看出,HGG的異型程度更高。
以上結果表明,本文提出的ROI定位方法能實現有效定位,設計的全局密度特征、局部密度特征和異型特征能準確地描述膠質瘤各等級特性,定量化描述臨床診斷標準中的細胞富集程度和異型特征。
2.3.3 細胞核分割定性結果
由于本文使用的膠質瘤數據沒有細胞核的標記,無法進行定量評估,故只展示細胞核分割模型在膠質瘤病理圖像塊上的定性結果。圖7展示了使用Hover-Net模型得到的膠質瘤細胞核分割結果,在水平距離圖中,每個細胞核從左至右由藍色到紅色漸變,若兩個細胞核發生粘連,則在兩細胞核粘連部分出現紅色到藍色的突變,利用該特點,結合垂直距離圖,可以將粘連的細胞分開;從細胞核分割的局部放大圖中可以看出,粘連的細胞核被不同的顏色標記,說明粘連的細胞核能夠被較好地區分開,有助于全局細胞密度的統計和局部細胞密度和異型特征的提取。

2.3.4 特征選擇的必要性分析
圖8表明,當使用未經特征選擇的143維特征訓練分類器時,5折交叉驗證的AUC均很低,而結合圖5可知,使用特征選擇得到的10維特征訓練的分類器的5折交叉驗證效果均優于未經特征選擇時的模型。

2.3.5 特征分析
圖9的小提琴圖中,高低級別的10維特征各自的中位數和上下四分位點不同,蜂窩圖中,高低級別的樣本點傾向于聚集在各自的類別附近,表明使用秩和檢驗和MRMR方法選擇出的10維特征在高低級別上有一定的區分性。

表4列出了10維特征的具體描述,其中包括6維異型特征、2維局部細胞密度特征和2維全局細胞密度特征。對于異型特征1、2、3、4、7和9,它們的值越大,表示細胞核的輪廓越不規則或細胞核形態不一致性越大,細胞核異型性程度越高;對于局部密度特征5,值越大,代表圖像塊中細胞分布得越均勻,惡性程度越低;對于局部密度特征6,值越大,揭示圖像塊中細胞越擁擠,富集程度越高;對于全局密度8和10,越大的值意味著全掃描圖像細胞分布得越不均勻,存在壞死和細胞數量密集的區域可能性越大。

3 結語
膠質瘤的高低級別自動分類對制定治療方案和預后評估具有重要的參考價值,但目前的方法無法自動定位或快速定位ROI,并且基于深度學習的端到端的分級模型不具備可解釋性。針對目前方法的上述缺點,本文提出基于細胞密度分析的膠質瘤ROI定位方法,并且受臨床標準啟發,構建細胞全局密度特征、局部密度特征和異型特征,定量描述與臨床診斷標準相關的細胞的富集程度和異型,構建了膠質瘤的自動診斷分級模型。實驗結果表明,本文提出的基于全局細胞密度分析的方法可快速有效地定位ROI,結合設計的局部細胞密度和異型特征,量化臨床診斷標準中的細胞富集程度和細胞核異型指標,可實現膠質瘤高低級別快速、準確、具有可解釋性地分類,在南京大學醫學院附屬金陵醫院的204例數據上進行5折交叉驗證,模型具有良好的性能,為醫生對患者進行臨床診斷提供有力的輔助工具。本文的下一步工作是結合微血管增生檢測和壞死區域分割進一步提升模型的性能,同時基于密度、異型、微血管增生和壞死特征構建預后模型。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
腦腫瘤有著較高的發病率,2018年,全世界腦腫瘤病例新增296 851例,占所有類型腫瘤新增病例的1.6%,死亡病例新增241 037例,占所有類型腫瘤新增死亡病例的2.5%[1]。2015年,腦瘤在中國的所有腫瘤中排第9位,發病數為10.6萬,占所有類型腫瘤的2.32%,死亡數為5.6萬,占所有類型腫瘤的2.1%[2]。在所有原發性顱內腦腫瘤中,膠質瘤占26%,在惡性腦腫瘤中甚至占81%[3]。預后方面,低級別膠質瘤(WHO Ⅰ~Ⅱ級)患者的中位生存期為5~8年,間變膠質瘤(WHO Ⅲ級)患者的中位生存期為3年,膠質母細胞瘤(WHO Ⅳ級)患者的中位生存期為12~18個月,高齡患者的生存期通常更短[4]。因此,區分膠質瘤的高低級別對醫生制定治療方案和預后評估具有重要的作用。
在一般的診斷過程中,患者經過問診、影像檢查后,疑似病患通常需要進行穿刺或手術切除,樣本隨后被制作成全景病理圖像(whole slide image,WSI),病理醫生在顯微鏡下觀察一些與腫瘤等級相關的特征并給出相應的等級信息,如核異型(有絲分裂象明顯、核漿比增大、核多形性、核仁明顯)、壞死、血管增生等[5]。然而,人工閱片診斷的過程具有主觀性。一方面,不同經驗的病理醫生對同一病例的診斷缺乏一致性;另一方面,由于病例較多,病理醫生相對匱乏,導致病理醫生容易因為疲勞出現誤診的情況。這種繁瑣的、具有主觀性的工作如果能用計算機輔助實現,將大大提高病理醫生的工作效率,且能較好地保證診斷的一致性和可重復性。
近些年,隨著數字掃描儀的出現和以深度學習為代表的人工智能技術的快速發展,計算機輔助診斷成為熱門的研究方向,研究人員開發出許多有效的算法來實現如細胞分割[6-8]、細胞檢測[9-11]、細胞分類[12-14]、組織分割[15-16]、腫瘤分級[17-29]和預后[30]等任務。
腫瘤分級任務中的方法按使用的特征可分為兩類。一類是基于手工特征[18,20,22,26,29],優點是具有針對性和可解釋性,另一類是基于深度特征[17,21,23,25,27-28,31],優點是端到端,但不具有可解釋性。在腦膠質瘤分級任務中,Mousavi等[19]先對手動選出的感興趣區域(region of interest,ROI)進行基于圖像處理方法的細胞核分割,再對分割的結果分別使用峰—谷檢測和形態學處理來識別壞死區域和微血管增生區域,只要出現壞死或者微血管增生,就將其分為高級別,該方法所取的ROI依賴于主觀選擇,并且檢測壞死的方法太過局限,只能檢測柵欄形壞死,微血管增生的檢測效果也有待提高。Barker等[18]提出了一種更好的定位ROI的方式,它首先提取所有圖像塊的粗糙特征進行聚類,然后從每個圖像塊類簇中分別選出一個具有代表性的圖像塊作為ROI,接著對選出的這些圖像塊提取精細的特征用于后續分類,由于要對每個圖像塊提取粗糙特征,該方法耗時較長。與前兩者不同,Ertosun等[21]使用卷積神經網絡實現對取自腦膠質瘤全掃描圖像的圖像塊的分類。Ker等[17]同樣使用卷積神經網絡對人工選取的ROI進行分類,與Ertosun等[21]不同的是,他們使用了遷移學習的策略,并且使用了性能更好的Inception V3網絡[32]。Kurc等[31]提出了一種精煉預訓練網絡的方法,首先將組織區域切成諸多圖像塊,然后使用自編碼器提取各圖像塊的特征,接著使用孤立森林來篩選圖像塊,利用剩下的圖像塊來精煉DenseNet分類網絡[33],完成對少突和星型細胞瘤的分類。
上述這些工作均存在一定的缺陷。例如在定位ROI時,Mousavi等[19]和Ertosun等[21]的方法需要手動選取;Barker等的方法[18]雖然可以實現自動定位ROI,但是對每個圖像塊提取特征相當耗時;Ker等[17]的方法使用隨機取塊的方式具有不確定性。另外,基于端到端的深度學習的方法雖然可以實現分類,但可解釋性差,較難應用于臨床。
針對上面的問題,本文根據膠質瘤的臨床病理診斷標準,通過細胞全局密度分析定位ROI,并提取該區域的細胞局部密度和異型特征,構建膠質瘤等級預測模型,實現膠質瘤準確、可解釋的自動分級。
1 材料與方法
本文提出的膠質瘤高低級別預測模型包括5個模塊,整體框架如圖1所示。其中模塊①又具體分為①(a)~①(d)。

① 分割細胞核并統計數量:①(a)提取WSI前景部分并進行滑窗取塊,①(b)分割細胞核,①(c)拼接圖像塊細胞核分割結果得到WSI的細胞核分割結果,①(d)滑窗統計細胞數量;② 定位ROI;③ 提取細胞核局部密度與異型特征;④ 特征選擇;⑤ 構建膠質瘤高低級別預測模型
Figure1. The overall flowchart of the glioma low-high grade prediction model① segment nucleus and count number: ① (a) extract foreground of WSI and tile patches using slide window, ① (b) segment nucleus, ① (c) puzzle nuclei segmentation of patches to get nuclei segmentation of WSI, ① (d) count cell number using slide window; ② locate ROI; ③ extract local density and atypia features of nucleus; ④ feature selection; ⑤ build model for predicting grade of glioma
1.1 感興趣區域定位
本文使用的膠質瘤WSI來自南京大學醫學院附屬金陵醫院,共計204例,其中低級別膠質瘤(low grade glioma,LGG)71例,高級別膠質瘤(high grade glioma,HGG)133例。為了減小計算成本,在分析WSI時,需要選取ROI。本文對WSI進行密度分析以自動定位ROI。流程如下:首先,從圖像前景部分提取圖像塊,然后,對圖像塊進行細胞核分割,接著,將細胞密度高的圖像塊作為ROI。
1.1.1 前景圖像塊提取
WSI一般用多分辨率金字塔結構儲存,其中包含多個原始圖像的下采樣樣本,0級為原始尺寸圖像,1級為原始圖像下采樣2倍,以此類推。本研究中用來分析的圖像取自0級(400 ×),原始圖像尺寸巨大,需要先取塊再進行后續處理。由于背景區域占據較大比例,因此在取塊時只提取前景部分的圖像塊能夠節省大量時間。本文利用WSI的金字塔結構和坐標映射策略來提取400 × 下的2 048 × 2 048像素大小的圖像塊。首先,利用大津閾值法和圖像開閉運算得到7級下的前景部分,再利用坐標映射得到0級下的前景部分,然后提取圖像塊。
1.1.2 細胞核分割
細胞核分割是提取特征的關鍵。在WSI中,細胞核往往存在粘連或重疊問題,為了減輕該問題,本文使用Hover-Net[12]進行細胞核分割,網絡框架如圖2所示,包括細胞核語義分割分支和水平垂直圖預測分支,通過水平垂直圖加強細胞核邊界,將粘連的細胞核分開。

殘差塊中的
訓練時使用公開數據集CoNSeP[12],該數據集共包含41張400 × 下1 000 × 1 000像素大小的圖像,本文隨機選30張進行訓練,11張進行驗證,選擇在驗證集上效果最好的模型作為最終模型。使用基于CoNSeP細胞核分割數據集訓練的模型在本文的膠質瘤數據上取得了良好的細胞核分割結果,因此避免了標記額外的膠質瘤細胞核。
1.2 特征提取
1.2.1 全局細胞密度特征
由于腫瘤區域通常呈現出高細胞密度的特點,壞死區域細胞死亡則呈現低細胞密度的特點,從全局密度的角度看,存在壞死區域的WSI的各部分細胞密度呈現高方差的特點,所以分析全局細胞密度可以幫助膠質瘤分級。對于每張WSI,基于1.1.2節的圖像塊細胞核分割結果,首先得到每張圖像塊的細胞核分割結果對應的細胞核質心圖,然后拼接出400 × 下WSI的細胞質心圖 ,接著,使用大小為512像素 × 512像素(400 × 下約為128 μm)的滑動窗
統計各個窗口中細胞的數量
,其中
為每個窗口中細胞的數量,
為滑動窗口滑動的總次數,若全掃描圖像的寬為
,高為
,滑動窗口的大小為
,步長為
,則
。得到
后,計算
的均值、方差、峰度、偏度、熵、變異系數、中位數、最小值/最大值等統計量共8維特征作為全局細胞密度特征。
1.2.2 局部細胞密度特征
膠質瘤的惡性程度與細胞富集程度密切相關,本文通過設計的局部細胞密度特征量化該主觀認識。對于從每張WSI定位出的ROI,以每個細胞核為節點構建德勞內三角形[34]和細胞群落圖[35],如圖3所示。從圖3中可看出,HGG的德勞內三角形邊長比LGG的邊長更短、周長更短、面積更小;HGG的細胞群落圖中,群落往往更大,體現出細胞富集程度更高。

根據構建的德勞內三角形和細胞群落圖,提取26維德勞內三角形特征和21維細胞群落圖特征,共47維局部細胞密度特征,如表1所示。

1.2.3 細胞核異型特征
膠質瘤的惡性程度還與細胞核異型性密切相關,本文通過設計的細胞核異型特征量化異型性。對于從每張WSI定位出的ROI,利用對應的細胞核分割結果提取細胞核異型特征,如表2所示,對其中細胞核邊緣點距中心點距離下劃分的均值、方差和最小值比最大值等3個子項,再分別計算它們各自的均值、方差、峰度、偏度、熵、變異系數、中位數和最小值比最大值8維統計量,得到24維特征,加上其余8種特征描述各自的8維統計量得到的64維特征,共計88維特征。

由于異型細胞近圓度比正常細胞小,所以圖4a中展示的異型細胞的最大內接圓和最小外接圓重合程度較低,圖4b中異型細胞的邊緣到中心點的距離變化較大,邊緣不光滑。圖4c和4d對比表明HGG的異型性更高。

a. 異型細胞的最大內接圓(綠色)與最小外接圓(黃色);b. 異型細胞邊緣點距中心點(紅色)的距離;c. LGG圖像塊細胞核異型特征可視化圖;d. HGG圖像塊細胞核異型特征可視化圖
Figure4. Visualization of nuclear atypia featuresa. maximum incircle (green) and minimum circumscribed circle (yellow) of atypia nucleus; b. peripheral points’ distance to the center of atypia nucleus (red); c. nuclear atypia in patch visualization of LGG; d. nuclear atypia in patch visualization of HGG
1.3 特征選擇
在提取的特征中,存在一些冗余特征,這會增大模型的學習難度,為了減少特征的維度,讓模型更容易訓練且具有泛化性,本文首先使用秩和檢驗選出前50維特征,再使用最大相關最小冗余[36](max-relevance and min-redundancy,MRMR)選出前10維特征。
秩和檢驗:以某一維特征為例,對所有樣本按照這一維特征的值從小到大排序,再在正負兩類樣本中分別計算各自序號之和T0和T1,稱作秩和。如果T0和T1差異較大,則認為正負兩類樣本在這一維特征上有顯著差異,這種差異越大,對應著秩和檢驗的P值越小。
MRMR:互信息是MRMR算法的依據,它被用來度量一組變量中包含的關于另一組變量的信息量,互信息的值越大,兩組變量的相關性越高。MRMR算法利用互信息來量化特征與標簽之間的相關性和特征與特征之間的冗余性,希望前者盡可能大,后者盡可能小。
1.4 分類器建模
為了驗證本文提出的基于密度和異型的特征對于膠質瘤分級有效性,本文使用k近鄰分類器(k-nearest neighbor,kNN)、邏輯回歸分類器(logistic regression,LR)、SVM、平衡權重的SVM分類器(balanced SVM)和多層感知機分類器(multi-layer perceptron,MLP)在數據集上訓練并驗證,所有分類器均使用由sklearn庫集成的模型,其中kNN的k設為5,LR的最大迭代次數為1 000,SVM使用徑向基核函數,MLP的隱藏層數為10,最大迭代次數為1 000。
1.5 評價指標
本文使用AUC、ACC、敏感度(sensitivity,SEN)、特異度(specificity,SPE)和F1分數來評價模型的性能。由真陽性樣本數(true positive,TP)、假陽性樣本數(false positive,FP)、真陰性樣本數(true negative,TP)、假陰性樣本數(false negative,FN)計算ACC、SEN、SPE和F1,如式(1)~(4)所示。
![]() |
![]() |
![]() |
![]() |
2 實驗與結果
2.1 實驗數據
本研究的數據采集自南京大學醫學院附屬金陵醫院,共計204例膠質瘤患者的蘇木精-伊紅染色WSI,使用濱松數字病理切片掃描儀掃描,最大倍數為400×,所有WSI均通過倫理審查委員會同意,并獲得授權可以使用。數據集包含WHO Ⅱ級71例,Ⅲ級43例,Ⅳ級90例,將WHO Ⅱ級作為低級別,Ⅲ和Ⅳ級作為高級別,則低級別共計71例,高級別共計133例,使用5折交叉驗證評估模型的性能。
2.2 實驗環境
實驗使用的硬件配置如下:處理器為Intel(R) Xeon(R) CPU E5-2 630 v4 @ 2.20GHz,內存為32 GB),顯卡為GeForce GTX 2 080Ti, Nvidia,操作系統類型為Ubuntu 16.04,開發工具為Matlab、VS Code、Python3.7,深度學習框架為Pytorch。
2.3 結果與分析
2.3.1 膠質瘤高低級別分類定量結果
本文使用5折交叉驗證分別驗證kNN、LR、SVM、Balanced SVM和MLP模型的性能。表3展示了5種模型的AUC、ACC、SEN、SPE和F1得分,可見各個模型都取得了良好的效果,證明本文提出的選取ROI的方法和特征是有效的。其中Balanced SVM的AUC最高,因為膠質瘤病例的等級分布不平衡,高級別遠多于低級別,所以在SVM中使用類別平衡的權重可以改善樣本不平衡問題。

圖5展示了Balanced SVM模型的五折交叉驗證ROC曲線,從圖中可以看出,每一折上模型都有較高的AUC,且標準差小,模型穩定。

2.3.2 膠質瘤高低級別分類定性結果
圖6展示了不同級別膠質瘤分類的定性結果。其中全局密度頻率分布直方圖的橫軸表示滑動窗口中細胞的數量,縱軸表示一張全掃描圖像中包含特定數量細胞的滑動窗口出現的頻率,ROI細胞核分割結果中不同顏色代表不同的細胞核實例。

從圖6中的全局密度頻率分布直方圖中可以看出,LGG(WHO Ⅱ)的全局細胞密度主要分布在12~40個/128 μm2,HGG(WHO Ⅲ、Ⅳ)的密度主要分布在8~80個/128 μm2,HGG的全局細胞密度范圍跨度更大,細胞富集程度更高,此外,HGG存在壞死區域,該區域的細胞大部分死亡,因此全局密度在8個/128 μm2附近分布的概率較高。從細胞核分割結果中可以看出,粘連的細胞核能被較好地區分開。從ROI德勞內三角形特征可視化圖中可以看出,HGG的德勞內三角形的邊長比LGG更短,各三角形邊長的長度更不均勻,HGG的細胞群落更擁擠,孤立細胞更少。從ROI細胞核異型特征可視化圖中可以看出,HGG的異型程度更高。
以上結果表明,本文提出的ROI定位方法能實現有效定位,設計的全局密度特征、局部密度特征和異型特征能準確地描述膠質瘤各等級特性,定量化描述臨床診斷標準中的細胞富集程度和異型特征。
2.3.3 細胞核分割定性結果
由于本文使用的膠質瘤數據沒有細胞核的標記,無法進行定量評估,故只展示細胞核分割模型在膠質瘤病理圖像塊上的定性結果。圖7展示了使用Hover-Net模型得到的膠質瘤細胞核分割結果,在水平距離圖中,每個細胞核從左至右由藍色到紅色漸變,若兩個細胞核發生粘連,則在兩細胞核粘連部分出現紅色到藍色的突變,利用該特點,結合垂直距離圖,可以將粘連的細胞分開;從細胞核分割的局部放大圖中可以看出,粘連的細胞核被不同的顏色標記,說明粘連的細胞核能夠被較好地區分開,有助于全局細胞密度的統計和局部細胞密度和異型特征的提取。

2.3.4 特征選擇的必要性分析
圖8表明,當使用未經特征選擇的143維特征訓練分類器時,5折交叉驗證的AUC均很低,而結合圖5可知,使用特征選擇得到的10維特征訓練的分類器的5折交叉驗證效果均優于未經特征選擇時的模型。

2.3.5 特征分析
圖9的小提琴圖中,高低級別的10維特征各自的中位數和上下四分位點不同,蜂窩圖中,高低級別的樣本點傾向于聚集在各自的類別附近,表明使用秩和檢驗和MRMR方法選擇出的10維特征在高低級別上有一定的區分性。

表4列出了10維特征的具體描述,其中包括6維異型特征、2維局部細胞密度特征和2維全局細胞密度特征。對于異型特征1、2、3、4、7和9,它們的值越大,表示細胞核的輪廓越不規則或細胞核形態不一致性越大,細胞核異型性程度越高;對于局部密度特征5,值越大,代表圖像塊中細胞分布得越均勻,惡性程度越低;對于局部密度特征6,值越大,揭示圖像塊中細胞越擁擠,富集程度越高;對于全局密度8和10,越大的值意味著全掃描圖像細胞分布得越不均勻,存在壞死和細胞數量密集的區域可能性越大。

3 結語
膠質瘤的高低級別自動分類對制定治療方案和預后評估具有重要的參考價值,但目前的方法無法自動定位或快速定位ROI,并且基于深度學習的端到端的分級模型不具備可解釋性。針對目前方法的上述缺點,本文提出基于細胞密度分析的膠質瘤ROI定位方法,并且受臨床標準啟發,構建細胞全局密度特征、局部密度特征和異型特征,定量描述與臨床診斷標準相關的細胞的富集程度和異型,構建了膠質瘤的自動診斷分級模型。實驗結果表明,本文提出的基于全局細胞密度分析的方法可快速有效地定位ROI,結合設計的局部細胞密度和異型特征,量化臨床診斷標準中的細胞富集程度和細胞核異型指標,可實現膠質瘤高低級別快速、準確、具有可解釋性地分類,在南京大學醫學院附屬金陵醫院的204例數據上進行5折交叉驗證,模型具有良好的性能,為醫生對患者進行臨床診斷提供有力的輔助工具。本文的下一步工作是結合微血管增生檢測和壞死區域分割進一步提升模型的性能,同時基于密度、異型、微血管增生和壞死特征構建預后模型。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。