肺癌是一種常見的肺部惡性腫瘤,是全球發病率和死亡率最高的惡性腫瘤。對于發生了表皮生長因子受體(EGFR)基因突變的晚期非小細胞型肺癌患者,可以使用靶向藥物來進行針對性治療。EGFR 基因突變的檢測方法很多,但是各有優缺點。本文擬通過探索非小細胞型肺癌蘇木精-伊紅(HE)染色的全掃描組織病理圖像形態學特征與患者 EGFR 基因突變之間的關聯,達到預測 EGFR 基因突變風險的目的。實驗結果表明,本文所提出的 EGFR 基因突變風險預測模型的曲線下面積(AUC)在測試集上可達 72.4%,準確率為 70.8%,提示非小細胞型肺癌全掃描組織病理圖像中的組織形態學特征與 EGFR 基因突變之間存在密切關聯。本文從病理圖像的尺度來分析基因分子表型,將病理組學和分子組學相融合,建立 EGFR 基因突變風險預測模型,揭示全掃描組織病理圖像和 EGFR 基因突變風險的關聯性,或可為該領域提供一個頗具前景的研究方向。
引用本文: 王荃, 沈勤, 張澤林, 蔡程飛, 魯浩達, 周曉軍, 徐軍. 基于深度學習和組織形態分析的肺癌基因突變預測. 生物醫學工程學雜志, 2020, 37(1): 10-18. doi: 10.7507/1001-5515.201904018 復制
引言
2018 年發布的全球腫瘤統計報告顯示,肺癌是全球發病率和死亡率最高的惡性腫瘤,肺癌發病率占所有腫瘤發病率的 11.6%,死亡率占所有腫瘤致死人數的 18.4%[1]。在我國,肺癌是發病率、死亡率最高的惡性腫瘤,在排名前十的惡性腫瘤中,肺癌發病率和死亡率分別占 20.03% 和 26.99%[2]。在所有肺癌類型中,85% 是非小細胞型肺癌(non-small cell lung cancer,NSCLC)。非小細胞型肺癌又分為三種亞型:肺腺癌(lung adenocarcinoma,LUAD),鱗狀細胞肺癌(squamous cell carcinoma of the lung,LUSC)和大細胞癌[3]。研究表明,亞洲人所患的 LUAD 中表皮生長因子受體(epidermal growth factor receptor,EGFR)基因突變率遠大于北美和歐洲的患者,其中我國患者突變率約 35%~40%,而且 LUAD 中 EGFR 基因的突變概率通常會大于其他肺癌類型[4]。目前對于患有晚期 LUAD 的 EGFR 基因突變患者,臨床上主張將靶向治療作為優選方法,而對于 EGFR 基因的突變,一般可以使用具有針對性的靶向藥物對 EGFR 基因進行阻斷,從而達到控制腫瘤增長的目的[5-6],因此 EGFR 基因突變的檢測是臨床中最常規且重要的診斷手段。
通過病理圖像形態學分析來研究患者預后復發的情況,近些年引起了研究人員較大的關注。Mobadersany 等[7]提出腫瘤組織圖像的形態學特征可以反映出基因分子特征以及預測腫瘤惡化程度,利用深度學習方法將組織圖像形態學特征和基因組學整合,可以預測膠質瘤患者的生存率。Xu 等[8]提出了基于深度組織網絡自動區分結直腸全掃描組織圖像中 10 種組織成分的方法。Yu 等[9]首次通過從肺癌全掃描組織病理圖像中自動提取形態學特征,構建 LUAD 和 LUSC 的復發風險預測模型,為患者提供預后信息。Vaidya 等[10]提出將放射學—病理學相融合,結合放射學和病理學特征來預測早期肺癌復發風險,準確率達到 70%。Aerts 等[11]提出全面定量分析高分辨率計算機斷層掃描(computed tomography,CT)成像特征的圖像算法,研究 CT 成像特征與 EGFR 基因突變之間的關系,證明了放射學數據能夠預測基因突變狀態。Liu 等[12]提出了一種基于 CT 放射學特征預測 EGFR 基因突變狀態的方法,證明了放射學特征與 EGFR 基因突變有明顯相關性。這些發現表明,分析醫學圖像對于研究癌癥的治療方法、突變基因表達狀態、癌癥預后和復發風險都有著非常重要的作用。但是在近些年的相關研究中,很多工作是利用放射圖像特征來研究基因突變狀態,而從全掃描組織病理圖像的角度來分析基因突變的工作目前還比較少。
LUAD 全掃描組織病理圖像具有高度的復雜性,圖像尺寸大,壓縮后的存儲空間約為 2 GB。在這種高分辨率、大尺寸圖像中運用計算機直接處理圖像,對硬件和圖像分析算法都是一種較大的挑戰。同時圖像中組織病理結構類型雜亂,組織形態差異性非常大,難以用固定的特征來描述。這些因素都給全掃描組織病理圖像的處理帶來了巨大的難度。
針對上面的問題,本文擬通過深度學習方法來處理全掃描組織病理圖像,構建 EGFR 基因突變的風險預測模型,揭示全掃描組織病理圖像形態學特征和 EGFR 基因突變風險的關聯性,將病理組學和分子組學相融合,從病理圖像的尺度分析基因分子特征。即,本文通過深度學習方法定量分析全掃描組織病理圖像,并結合定量、有效的組織病理圖像的形態學特征,以期達到預測患者 EGFR 基因突變風險的目的。
本文的創新點如下:
(1)運用新穎的條件對抗網絡(conditional confrontation network,CGAN)[13]分割癌變上皮組織區域內的細胞核;
(2)基于上一步的分割結果,構建有效的病理組學特征以定量地描述肺部腫瘤,從而預測 EGFR 基因的突變風險。
本文將病理組學和分子組學相融合,建立 EGFR 基因突變風險預測模型,揭示全掃描組織病理圖像和 EGFR 基因突變風險的關聯性的這一思路,未來或將是一個非常有前景的研究方向。
1 材料與方法
本文提出的 EGFR 基因突變風險預測模型包括 5 個模塊,整體框架如圖1 所示:① 全掃描組織病理圖像多種組織分割;② 癌變上皮組織區域細胞核自動分割;③ 細胞核特征提取;④ 特征選擇;⑤ 構建 EGFR 基因突變風險預測模型分類器。

1.1 全掃描組織病理圖像預處理
本文使用的病理切片由南京軍區總醫院病理科提供,共收集了 50 例 LUAD 病理切片,其中 EGFR 基因突變 21 例,EGFR 基因未突變 29 例。
本文使用的 LUAD 病理切片都采用了蘇木精-伊紅(hematoxylin-eosin,HE)染色處理,但是不同時間制作的切片之間存在很大的染色差異,很難保證所有切片的染色一致。所以本文中運用顏色標準化方法[14],對所有切片進行預處理。首先選取一例切片作為目標切片,其他的切片在顏色標準化之后都將與目標切片具有相同的顏色分布。具體方法是將目標切片和待標準化的切片進行顏色空間變換,把與顯示設備相關的紅綠藍(red,green and blue,RGB)顏色空間轉換到與顯示設備無關的明亮度(luminosity,LAB)顏色空間。任何一個 RGB 顏色空間都可以在 LAB 顏色空間中測量、標定。RGB 顏色空間轉換到 LAB 顏色空間標準化后,將線性變換后在 LAB 顏色空間的圖像還原為 RGB 顏色空間的圖像,便可以實現待標準化的切片和目標切片具有一樣的顏色分布。
1.2 組織分割和細胞核分割
本文采用歐洲數字病理學大會(European congress on digital pathology,ECDP)中 Xu 等[8]提出的基于深度組織網絡,并以此對 LUAD 全掃描組織病理圖像進行 5 種典型的組織分割。5 種典型的組織成分為:癌變上皮、復雜基質(含淋巴細胞)、肺腺泡、血管/血紅細胞、簡單基質,如圖2 所示。

組織分割完成后,本文運用 CGAN 對 LUAD 癌變上皮組織區域進行細胞核分割。CGAN 采用類似文獻[15]的 U 網(U-Net)[16]編碼解碼器作為生成器,CGAN 的網絡結構及其細胞核分割的框架, 如圖3 所示。

CGAN 采用二分類器作為判別器。CGAN 分割網絡的細胞核分割結果將用于本文特征提取的模塊中。輸入一張細胞病理圖像 X 至生成器 G ,輸出是由生成器 G 產生的生成圖像 Y。判別器 D 采用一個二分類器,輸入是生成圖像 Y 和真實的細胞標記圖像 Z 。然后將判別結果送入到生成器 G 中,優化生成器 G 同時令生成器 G 生成圖像越來越擬合真實細胞標記圖像 Z ,通過生成器和判別器互相對抗,這樣就可以提高模型分割的準確率。損失函數 L 由兩部分組成。第一部分是 CGAN 損失(LGAN),如式(1)所示:
![]() |
其中,E 代表數學期望。
為了保證輸入和輸出圖像之間的相似度,所以還加入了第二部分損失,如式(2)所示:
![]() |
因此總的損失函數L,如式(3)所示:
![]() |
1.3 特征提取
在組織分割和細胞核分割模塊中,本文得到了組織分割和細胞核分割的結果,根據分割結果提取組織病理圖像的形態學特征,以期找到全掃描組織病理圖像形態學特征與 EGFR 基因突變的關聯性。
針對 1.2 小節細胞核分割的結果,提取 LUAD 癌變上皮組織區域病理圖像細胞核的病理組學特征。
綜合以上,本文針對癌變上皮組織區域提取的病理組學特征有如下 6 種:
(1)細胞核全局圖特征:每個細胞核的質心被指定為全局圖的節點,并且所有節點基于歐幾里德距離連接以構建各種全局圖。從全局圖中找到細胞核的拓撲關系和空間關系。
(2)細胞核局部聚類圖特征:首先識別細胞核的核簇,然后識別聚類的質心,從聚類圖中挖掘出拓撲和空間關系。不同于全局圖反映所有單個細胞核的微觀層次結構,聚類圖可以得到更多宏觀特征[16]。
(3)細胞核紋理特征:利用灰度共生矩陣,提取每個細胞核的紋理異質性,計算像素強度之間的二階統計量,測量這些紋理特征的平均值、中位數和標準差[17]。
(4)細胞核形狀特征:從每個細胞核輪廓提取一系列關于細胞核形狀的特征,包括細胞核的周長、面積、最大半徑和細胞核輪廓,進行傅里葉變換[18]。
(5)細胞核方向熵:通過對每個細胞核的邊界點集上的笛卡爾坐標位置進行主成分分析(principal component analysis,PCA)來確定每個細胞核的方向性,測量全掃描組織病理圖像癌變上皮組織區域的細胞核方向的紊亂度,計算關于細胞核方向的二階統計量以及所有這些統計數據的平均值和標準差[19]。
1.4 特征選擇
在很多分類問題中,由于數據量巨大,在去除不需要的特征之前很難提高分類器的準確率。減少不相關的冗余特征的數量可以大大縮短學習所需要的時間,產生具有更好泛化能力的分類器。
本文采用最小冗余最大相關(min-redundancy and max-relevance,MRMR)[20]的特征算法,假設和
分別表示特征集和分類標簽集,其中 m 和 k 分別表示特征和標簽的數量。
表示數據,其中 n 表示樣本的數量。
信息增益,計算效率高,可解釋性強,是最受歡迎的特征選擇方法之一,將其用于測量特征和標簽之間的依賴關系,需要計算第 i 個特征 fi 和標簽 C 兩者之間的信息增益,I 代表 fi 和標簽 C 兩者之間的信息增益,如式(4)所示:
![]() |
其中,H(fi)為 fi 的信息熵,為 fi 關于 C 的條件信息熵,可得到如式(5)所示:
![]() |
其中,為 xj 概率密度函數。令
為 Ck 概率密度函數,
為 xj 關于 Ck 概率密度函數,可得到如式(6)所示:
![]() |
MRMR 特征選擇方法是一種基于信息熵的方法,是根據統計最大依賴性標準選擇特征。由于直接實現最大依賴條件較為困難,所以 MRMR 采用最大化所選特征的聯合分布與分類變量之間依賴關系的近似值。一方面,MRMR 包含了所選特征和標簽信息之間的相關性;另一方面,還考慮到了特征和特征之間的相關性。MRMR 特征選擇算法是根據所選特征與標簽類信息之間的相關性,再通過各個特征與標簽類別的信息增益的均值進行計算的,而計算特征與特征之間的冗余性使用的是特征和特征之間的信息增益之和再除以子集中特征個數的平方,其中第 i 個特征 fi 和第 j 個特征fj兩者之間的信息增益計算了兩次。
最大相關性的計算公式如式(7)所示,目的是保證特征和標簽的相關性最大;而最小冗余性的計算如式(8)所示,目的是確保特征之間的冗余性最小。
![]() |
![]() |
其中,S 表示已經選擇的特征子集,C 表示分類標簽,fi 表示特征。
最后選擇標準是:計算得到的子集在保證特征與標簽的相關性較大的同時,還保證了特征的冗余性最小。根據特征選擇的經驗,特征子集的 一般選擇為
,即
。其中,n 為樣本數量。本文利用 MRMR 特征選擇算法對訓練集中細胞層次特征和組織層次特征進行特征選擇,采用使用 5 折交叉驗證的方式選擇出 10 個相關性最大而冗余性最小的有效特征,重復 100 次,然后把出現頻率最高的 10 個特征選做最終用來構建分類器的一組特征。
1.5 構建分類器
常見機器學習分類方法有線性分類器、支持向量機(support vector machine,SVM)[21-23]、決策樹和神經網絡等。其中 SVM 是一種有監督的訓練算法,在實際分類和回歸問題中被廣泛應用。SVM 就是通過最大化邊界的同時能夠最小化經驗誤差來構造超平面,因此 SVM 也被稱為最大邊界分類器。利用 SVM 映射向量到一個更高維的空間里,而在這個空間里建有一個最大間隔超平面,在分開數據的超平面的兩邊建有兩個互相平行的超平面,分隔超平面可使兩個平行超平面的距離最大化,距離越大,分類器的泛化誤差越小。為了研究 LUAD 全掃描組織病理圖像的形態學特征與 EGFR 基因突變的關聯性,本文使用 SVM 構建預測分類器。
2 實驗與結果
2.1 實驗數據
本文醫學圖像來源于南京軍區總醫院病理科,共采用 50 例 LUAD 病理切片,所有切片均通過該院倫理審查委員會同意,并獲得授權可以使用。其中 EGFR 基因突變 21 例,EGFR 基因未突變 29 例。病理科醫生將 50 例病理切片在濱松數字病理切片掃描儀(NanoZoomer-SQC13140-01,日本)上進行數字掃描。最終得到 50 例全掃描組織病理圖像作為訓練數據集,圖像格式為 ndpi 格式。在腫瘤基因組圖譜(the cancer genome atlas,TCGA)(網址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)公開數據庫上取 50 例 LUAD 全掃描組織病理圖像作為獨立測試集,其中包含 20 例 EGFR 基因突變和 30 例 EGFR 基因未突變。該數據為公開使用數據,并且符合本文中使用研究方法的設定。
在組織分割訓練模塊中,來自南京軍區總醫院病理科的臨床醫生對訓練集中的 25 例 LUAD 全掃描組織病理圖像進行標記如圖2 所示的 5 種組織成分。從這些標記的圖像中取 140 000 余張 150 × 150 像素的圖像塊,從中選取了 119 650 張作為訓練集,其中每種組織類型分別為 23 930 張;23 050 張作為驗證集,其中每種組織類型分別為 4 610 張。
在癌變上皮區域細胞核自動分割訓練模塊中,本文從癌變上皮組織區域選取了 3 310 張 1 000 × 1 000 像素的圖像塊,從中選取了 2 648 張作為訓練集,其中 1 040 張發生 EGFR 基因突變,1 608 張未發生基因突變;662 張作為驗證集,其中 260 張 EGFR 基因突變,402 張未發生基因突變。所有的實驗為了真實性,數據都是隨機選取,實驗進行了 100 次 5 折交叉驗證評估。為了實驗的統一性,所有的圖像都經過了相應的預處理。
2.2 實驗環境
實驗使用的硬件配置如下:處理器(IntelCore i7-3770 CPU@4GHz,Intel)、內存(HX432C18FB16.0 GB,Kingston)、獨立顯卡(GeForce GTX 1080ti,Nvidia)、系統類型(Ubuntu 16.04,Canonical Ltd)、開發工具(Python3.4,Guido)、深度學習框架(Caffe,Berkeley Vision and Learning Center),同時還配備了數據標注軟件(ImageScope,Aperio)。
2.3 實驗步驟
本文的實驗包括如下 5 個步驟:
第一步:LUAD 全掃描組織病理圖像組織分割。首先,從前文 2.1 小節中病理科醫生標注的 25 例 LUAD 全掃描組織病理圖像的 5 種不同組織里選取大小為 150 × 150 像素大小的圖像塊,構建訓練集和驗證集,訓練集和驗證集的數量如 2.1 小節中所描述。然后,本文采用深度學習網絡對 LUAD 全掃描組織病理圖像進行 5 種組織分割。
第二步:基于 CGAN 的癌變上皮中細胞核的自動分割。首先,從第一步中得到的癌變上皮組織區域中,取 1 000 × 1 000 像素大小的訓練圖像塊,構建訓練集和驗證集,具體訓練集和驗證集的數量如 2.1 小節中描述。接下來使用 CGAN 對所有癌變上皮組織區域的圖像塊進行細胞核分割。
第三步:特征提取。在確保前兩個步驟取得的準確率足以支撐接下來的研究后,基于前面兩部分的分割結果,提取病理圖像中的特征,主要包括細胞核全局圖特征(51 維),局部聚類圖特征(26 維),細胞核形狀特征(100 維),細胞核方向熵特征(39 維)以及核紋理特征(26 維)。
第四步:特征選擇。根據第三步中得到的特征,運用 1.4 小節中所描述的 MRMR 特征選擇,對每類特征分別選擇出 10 個相關性最大冗余性最小的特征,重復 100 次,然后把出現頻率最高的 10 個特征用來構建 SVM 分類器的一組特征。從組織病理圖像的尺度來分析基因分子表型,將病理組學和分子組學相融合,建立 EGFR 基因突變風險預測模型,揭示全掃描組織病理圖像的形態學特征和 EGFR 基因突變風險的關聯性。
2.4 結果與分析
首先對 LUAD 全掃描組織病理圖像完成了組織分割,分割準確率達到 95.74%。本文將醫生標記圖像與本文采用的自動分割方法的分割結果對比來看,本文的方法分割效果精確,大部分組織區域都已經區分開,如圖4 所示,其中紫色區域表示癌變上皮組織、綠色區域表示復雜基質(含淋巴細胞)、藍色區域表示肺腺泡、紅色區域表示血管/血紅細胞、橙色區域表示簡單基質。

接著,基于組織分割結果,針對癌變上皮組織區域完成細胞核的自動分割。本文提出的基于 CGAN 癌變上皮組織區域的細胞核分割模型像素準確率達到了 94.34%,因此說明此模型在癌變上皮區域的細胞核分割上具有良好的性能。細胞核分割結果如圖5 所示,綠色代表細胞核分割的輪廓。

對癌變上皮區域的細胞核進行特征提取時,在確保前兩個步驟取得的準確率足以支撐接下來的研究后,基于前面兩部分的分割結果,提取病理組學特征,主要包括細胞核全局圖特征(51 維)、局部聚類圖特征(26 維)、細胞核形狀特征(100 維)、細胞核方向熵特征(39 維)以及細胞核紋理特征(26 維)。病例組學特征可視化如圖6 所示,其中細胞核圖特征中藍色代表基于歐幾里德距離連接的全局核圖,細胞核紋理特征中紅色代表每個細胞核的紋理像素強度,細胞核形狀特征中綠色代表每個細胞核的輪廓,細胞核方向熵中綠色代表每個細胞核的方向紊亂度。

完成特征提取以及特征選擇之后,為了驗證本文提出方法的有效性,本文主要做了 4 組對比實驗分別是:
(1)線性判別分析(linear discriminant analysis,LDA),分別對應 PCA 降維、主成分變量重要性投影(principal component analysis variable importance projection,PCAVIP) [24]和 MRMR 三種特征選擇方法。
(2)二次判別分析(quadratic discriminant analysis,QDA),分別對應 PCA 降維、PCAVIP 和 MRMR 三種特征選擇方法。
(3)隨機森林(random forest,RF),分別對應 PCA 降維、PCAVIP 和 MRMR 三種特征選擇方法。
(4)SVM,分別對應 PCA 降維、PCAVIP 和 MRMR 三種特征選擇方法。
本文基于獲得的受試者工作特征曲線(receiver operating characteristic,ROC)的曲線下面積(area under curve,AUC),識別出性能最優的特征與分類器組合方案,如圖7 所示。證明了本文預測模型采用的 SVM 分類器與 MRMR 特征選擇(SVM-MRMR)是最優分類器。每組實驗在訓練集內進行訓練,并于獨立測試集上進行評估,4 組模型在獨立測試上的準確率結果如表1 所示。


ROC 曲線常被用來評價一個二值分類器的優劣,ROC 曲線的橫坐標為假陽性率 (false positive rate,FPR)(符號記為:FPR),縱坐標為真陽性率(true positive rate,TPR)(符號記為:TPR),準確率(accuracy)(符號記為:Acc),每個指標的含義如式(9)~式(11)所示:
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)(符號記為:TP)表示本來是陽性,被正確分類的樣本個數;假陽性(false positive,FP)(符號記為:FP)表示本來不是陽性,被分類為陽性的樣本個數;真陰性(true negative,TN)(符號記為:TN)表示本來是陰性樣本,被正確分類的樣本個數;假陰性(false negative,FN)(符號記為:FN)表示本來不是陰性,被錯誤地分類為陰性的樣本個數。
圖7 和表1 展示了這 4 種分類器和三種特征選擇方法組合后的預測性能。從定量結果分析表明,本文提出的 SVM-MRMR 的分類預測模型表現出了明顯的優勢,本文所提出的 EGFR 基因突變風險的預測模型在測試集上的 AUC 達到了 72.4%,準確率為 70.8%,表明本文選出來的特征分類準確率良好,驗證了本文所選特征的正確性。本文將組織病理圖像與分子組學相結合,通過構建 EGFR 基因突變風險的預測模型,揭示全掃描組織病理圖像的形態學特征和 EGFR 基因突變風險的關聯性,證明了 EGFR 基因突變從全掃描組織病理圖像中預測的可行性,或可為醫生做基因檢測時提供輔助性的信息。
3 結語
本文通過構建 EGFR 基因突變風險預測模型,探索 LUAD 全掃描組織病理圖像的形態學特征與 EGFR 基因突變之間的關聯。此外,本文定量分割全掃描組織病理圖像中的癌變上皮組織區域,并提取該組織區域的形態學特征,并結合 MRMR 特征選擇方法和 SVM 分類器構建肺癌 EGFR 基因突變風險的預測模型。本文不足的地方是,EGFR 基因突變風險預測模型是在較小的數據集上進行的測試。接下來將繼續選擇更大量的數據進行進一步的分析,以驗證本文提出的 EGFR 基因突變風險預測模型的有效性。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
2018 年發布的全球腫瘤統計報告顯示,肺癌是全球發病率和死亡率最高的惡性腫瘤,肺癌發病率占所有腫瘤發病率的 11.6%,死亡率占所有腫瘤致死人數的 18.4%[1]。在我國,肺癌是發病率、死亡率最高的惡性腫瘤,在排名前十的惡性腫瘤中,肺癌發病率和死亡率分別占 20.03% 和 26.99%[2]。在所有肺癌類型中,85% 是非小細胞型肺癌(non-small cell lung cancer,NSCLC)。非小細胞型肺癌又分為三種亞型:肺腺癌(lung adenocarcinoma,LUAD),鱗狀細胞肺癌(squamous cell carcinoma of the lung,LUSC)和大細胞癌[3]。研究表明,亞洲人所患的 LUAD 中表皮生長因子受體(epidermal growth factor receptor,EGFR)基因突變率遠大于北美和歐洲的患者,其中我國患者突變率約 35%~40%,而且 LUAD 中 EGFR 基因的突變概率通常會大于其他肺癌類型[4]。目前對于患有晚期 LUAD 的 EGFR 基因突變患者,臨床上主張將靶向治療作為優選方法,而對于 EGFR 基因的突變,一般可以使用具有針對性的靶向藥物對 EGFR 基因進行阻斷,從而達到控制腫瘤增長的目的[5-6],因此 EGFR 基因突變的檢測是臨床中最常規且重要的診斷手段。
通過病理圖像形態學分析來研究患者預后復發的情況,近些年引起了研究人員較大的關注。Mobadersany 等[7]提出腫瘤組織圖像的形態學特征可以反映出基因分子特征以及預測腫瘤惡化程度,利用深度學習方法將組織圖像形態學特征和基因組學整合,可以預測膠質瘤患者的生存率。Xu 等[8]提出了基于深度組織網絡自動區分結直腸全掃描組織圖像中 10 種組織成分的方法。Yu 等[9]首次通過從肺癌全掃描組織病理圖像中自動提取形態學特征,構建 LUAD 和 LUSC 的復發風險預測模型,為患者提供預后信息。Vaidya 等[10]提出將放射學—病理學相融合,結合放射學和病理學特征來預測早期肺癌復發風險,準確率達到 70%。Aerts 等[11]提出全面定量分析高分辨率計算機斷層掃描(computed tomography,CT)成像特征的圖像算法,研究 CT 成像特征與 EGFR 基因突變之間的關系,證明了放射學數據能夠預測基因突變狀態。Liu 等[12]提出了一種基于 CT 放射學特征預測 EGFR 基因突變狀態的方法,證明了放射學特征與 EGFR 基因突變有明顯相關性。這些發現表明,分析醫學圖像對于研究癌癥的治療方法、突變基因表達狀態、癌癥預后和復發風險都有著非常重要的作用。但是在近些年的相關研究中,很多工作是利用放射圖像特征來研究基因突變狀態,而從全掃描組織病理圖像的角度來分析基因突變的工作目前還比較少。
LUAD 全掃描組織病理圖像具有高度的復雜性,圖像尺寸大,壓縮后的存儲空間約為 2 GB。在這種高分辨率、大尺寸圖像中運用計算機直接處理圖像,對硬件和圖像分析算法都是一種較大的挑戰。同時圖像中組織病理結構類型雜亂,組織形態差異性非常大,難以用固定的特征來描述。這些因素都給全掃描組織病理圖像的處理帶來了巨大的難度。
針對上面的問題,本文擬通過深度學習方法來處理全掃描組織病理圖像,構建 EGFR 基因突變的風險預測模型,揭示全掃描組織病理圖像形態學特征和 EGFR 基因突變風險的關聯性,將病理組學和分子組學相融合,從病理圖像的尺度分析基因分子特征。即,本文通過深度學習方法定量分析全掃描組織病理圖像,并結合定量、有效的組織病理圖像的形態學特征,以期達到預測患者 EGFR 基因突變風險的目的。
本文的創新點如下:
(1)運用新穎的條件對抗網絡(conditional confrontation network,CGAN)[13]分割癌變上皮組織區域內的細胞核;
(2)基于上一步的分割結果,構建有效的病理組學特征以定量地描述肺部腫瘤,從而預測 EGFR 基因的突變風險。
本文將病理組學和分子組學相融合,建立 EGFR 基因突變風險預測模型,揭示全掃描組織病理圖像和 EGFR 基因突變風險的關聯性的這一思路,未來或將是一個非常有前景的研究方向。
1 材料與方法
本文提出的 EGFR 基因突變風險預測模型包括 5 個模塊,整體框架如圖1 所示:① 全掃描組織病理圖像多種組織分割;② 癌變上皮組織區域細胞核自動分割;③ 細胞核特征提取;④ 特征選擇;⑤ 構建 EGFR 基因突變風險預測模型分類器。

1.1 全掃描組織病理圖像預處理
本文使用的病理切片由南京軍區總醫院病理科提供,共收集了 50 例 LUAD 病理切片,其中 EGFR 基因突變 21 例,EGFR 基因未突變 29 例。
本文使用的 LUAD 病理切片都采用了蘇木精-伊紅(hematoxylin-eosin,HE)染色處理,但是不同時間制作的切片之間存在很大的染色差異,很難保證所有切片的染色一致。所以本文中運用顏色標準化方法[14],對所有切片進行預處理。首先選取一例切片作為目標切片,其他的切片在顏色標準化之后都將與目標切片具有相同的顏色分布。具體方法是將目標切片和待標準化的切片進行顏色空間變換,把與顯示設備相關的紅綠藍(red,green and blue,RGB)顏色空間轉換到與顯示設備無關的明亮度(luminosity,LAB)顏色空間。任何一個 RGB 顏色空間都可以在 LAB 顏色空間中測量、標定。RGB 顏色空間轉換到 LAB 顏色空間標準化后,將線性變換后在 LAB 顏色空間的圖像還原為 RGB 顏色空間的圖像,便可以實現待標準化的切片和目標切片具有一樣的顏色分布。
1.2 組織分割和細胞核分割
本文采用歐洲數字病理學大會(European congress on digital pathology,ECDP)中 Xu 等[8]提出的基于深度組織網絡,并以此對 LUAD 全掃描組織病理圖像進行 5 種典型的組織分割。5 種典型的組織成分為:癌變上皮、復雜基質(含淋巴細胞)、肺腺泡、血管/血紅細胞、簡單基質,如圖2 所示。

組織分割完成后,本文運用 CGAN 對 LUAD 癌變上皮組織區域進行細胞核分割。CGAN 采用類似文獻[15]的 U 網(U-Net)[16]編碼解碼器作為生成器,CGAN 的網絡結構及其細胞核分割的框架, 如圖3 所示。

CGAN 采用二分類器作為判別器。CGAN 分割網絡的細胞核分割結果將用于本文特征提取的模塊中。輸入一張細胞病理圖像 X 至生成器 G ,輸出是由生成器 G 產生的生成圖像 Y。判別器 D 采用一個二分類器,輸入是生成圖像 Y 和真實的細胞標記圖像 Z 。然后將判別結果送入到生成器 G 中,優化生成器 G 同時令生成器 G 生成圖像越來越擬合真實細胞標記圖像 Z ,通過生成器和判別器互相對抗,這樣就可以提高模型分割的準確率。損失函數 L 由兩部分組成。第一部分是 CGAN 損失(LGAN),如式(1)所示:
![]() |
其中,E 代表數學期望。
為了保證輸入和輸出圖像之間的相似度,所以還加入了第二部分損失,如式(2)所示:
![]() |
因此總的損失函數L,如式(3)所示:
![]() |
1.3 特征提取
在組織分割和細胞核分割模塊中,本文得到了組織分割和細胞核分割的結果,根據分割結果提取組織病理圖像的形態學特征,以期找到全掃描組織病理圖像形態學特征與 EGFR 基因突變的關聯性。
針對 1.2 小節細胞核分割的結果,提取 LUAD 癌變上皮組織區域病理圖像細胞核的病理組學特征。
綜合以上,本文針對癌變上皮組織區域提取的病理組學特征有如下 6 種:
(1)細胞核全局圖特征:每個細胞核的質心被指定為全局圖的節點,并且所有節點基于歐幾里德距離連接以構建各種全局圖。從全局圖中找到細胞核的拓撲關系和空間關系。
(2)細胞核局部聚類圖特征:首先識別細胞核的核簇,然后識別聚類的質心,從聚類圖中挖掘出拓撲和空間關系。不同于全局圖反映所有單個細胞核的微觀層次結構,聚類圖可以得到更多宏觀特征[16]。
(3)細胞核紋理特征:利用灰度共生矩陣,提取每個細胞核的紋理異質性,計算像素強度之間的二階統計量,測量這些紋理特征的平均值、中位數和標準差[17]。
(4)細胞核形狀特征:從每個細胞核輪廓提取一系列關于細胞核形狀的特征,包括細胞核的周長、面積、最大半徑和細胞核輪廓,進行傅里葉變換[18]。
(5)細胞核方向熵:通過對每個細胞核的邊界點集上的笛卡爾坐標位置進行主成分分析(principal component analysis,PCA)來確定每個細胞核的方向性,測量全掃描組織病理圖像癌變上皮組織區域的細胞核方向的紊亂度,計算關于細胞核方向的二階統計量以及所有這些統計數據的平均值和標準差[19]。
1.4 特征選擇
在很多分類問題中,由于數據量巨大,在去除不需要的特征之前很難提高分類器的準確率。減少不相關的冗余特征的數量可以大大縮短學習所需要的時間,產生具有更好泛化能力的分類器。
本文采用最小冗余最大相關(min-redundancy and max-relevance,MRMR)[20]的特征算法,假設和
分別表示特征集和分類標簽集,其中 m 和 k 分別表示特征和標簽的數量。
表示數據,其中 n 表示樣本的數量。
信息增益,計算效率高,可解釋性強,是最受歡迎的特征選擇方法之一,將其用于測量特征和標簽之間的依賴關系,需要計算第 i 個特征 fi 和標簽 C 兩者之間的信息增益,I 代表 fi 和標簽 C 兩者之間的信息增益,如式(4)所示:
![]() |
其中,H(fi)為 fi 的信息熵,為 fi 關于 C 的條件信息熵,可得到如式(5)所示:
![]() |
其中,為 xj 概率密度函數。令
為 Ck 概率密度函數,
為 xj 關于 Ck 概率密度函數,可得到如式(6)所示:
![]() |
MRMR 特征選擇方法是一種基于信息熵的方法,是根據統計最大依賴性標準選擇特征。由于直接實現最大依賴條件較為困難,所以 MRMR 采用最大化所選特征的聯合分布與分類變量之間依賴關系的近似值。一方面,MRMR 包含了所選特征和標簽信息之間的相關性;另一方面,還考慮到了特征和特征之間的相關性。MRMR 特征選擇算法是根據所選特征與標簽類信息之間的相關性,再通過各個特征與標簽類別的信息增益的均值進行計算的,而計算特征與特征之間的冗余性使用的是特征和特征之間的信息增益之和再除以子集中特征個數的平方,其中第 i 個特征 fi 和第 j 個特征fj兩者之間的信息增益計算了兩次。
最大相關性的計算公式如式(7)所示,目的是保證特征和標簽的相關性最大;而最小冗余性的計算如式(8)所示,目的是確保特征之間的冗余性最小。
![]() |
![]() |
其中,S 表示已經選擇的特征子集,C 表示分類標簽,fi 表示特征。
最后選擇標準是:計算得到的子集在保證特征與標簽的相關性較大的同時,還保證了特征的冗余性最小。根據特征選擇的經驗,特征子集的 一般選擇為
,即
。其中,n 為樣本數量。本文利用 MRMR 特征選擇算法對訓練集中細胞層次特征和組織層次特征進行特征選擇,采用使用 5 折交叉驗證的方式選擇出 10 個相關性最大而冗余性最小的有效特征,重復 100 次,然后把出現頻率最高的 10 個特征選做最終用來構建分類器的一組特征。
1.5 構建分類器
常見機器學習分類方法有線性分類器、支持向量機(support vector machine,SVM)[21-23]、決策樹和神經網絡等。其中 SVM 是一種有監督的訓練算法,在實際分類和回歸問題中被廣泛應用。SVM 就是通過最大化邊界的同時能夠最小化經驗誤差來構造超平面,因此 SVM 也被稱為最大邊界分類器。利用 SVM 映射向量到一個更高維的空間里,而在這個空間里建有一個最大間隔超平面,在分開數據的超平面的兩邊建有兩個互相平行的超平面,分隔超平面可使兩個平行超平面的距離最大化,距離越大,分類器的泛化誤差越小。為了研究 LUAD 全掃描組織病理圖像的形態學特征與 EGFR 基因突變的關聯性,本文使用 SVM 構建預測分類器。
2 實驗與結果
2.1 實驗數據
本文醫學圖像來源于南京軍區總醫院病理科,共采用 50 例 LUAD 病理切片,所有切片均通過該院倫理審查委員會同意,并獲得授權可以使用。其中 EGFR 基因突變 21 例,EGFR 基因未突變 29 例。病理科醫生將 50 例病理切片在濱松數字病理切片掃描儀(NanoZoomer-SQC13140-01,日本)上進行數字掃描。最終得到 50 例全掃描組織病理圖像作為訓練數據集,圖像格式為 ndpi 格式。在腫瘤基因組圖譜(the cancer genome atlas,TCGA)(網址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)公開數據庫上取 50 例 LUAD 全掃描組織病理圖像作為獨立測試集,其中包含 20 例 EGFR 基因突變和 30 例 EGFR 基因未突變。該數據為公開使用數據,并且符合本文中使用研究方法的設定。
在組織分割訓練模塊中,來自南京軍區總醫院病理科的臨床醫生對訓練集中的 25 例 LUAD 全掃描組織病理圖像進行標記如圖2 所示的 5 種組織成分。從這些標記的圖像中取 140 000 余張 150 × 150 像素的圖像塊,從中選取了 119 650 張作為訓練集,其中每種組織類型分別為 23 930 張;23 050 張作為驗證集,其中每種組織類型分別為 4 610 張。
在癌變上皮區域細胞核自動分割訓練模塊中,本文從癌變上皮組織區域選取了 3 310 張 1 000 × 1 000 像素的圖像塊,從中選取了 2 648 張作為訓練集,其中 1 040 張發生 EGFR 基因突變,1 608 張未發生基因突變;662 張作為驗證集,其中 260 張 EGFR 基因突變,402 張未發生基因突變。所有的實驗為了真實性,數據都是隨機選取,實驗進行了 100 次 5 折交叉驗證評估。為了實驗的統一性,所有的圖像都經過了相應的預處理。
2.2 實驗環境
實驗使用的硬件配置如下:處理器(IntelCore i7-3770 CPU@4GHz,Intel)、內存(HX432C18FB16.0 GB,Kingston)、獨立顯卡(GeForce GTX 1080ti,Nvidia)、系統類型(Ubuntu 16.04,Canonical Ltd)、開發工具(Python3.4,Guido)、深度學習框架(Caffe,Berkeley Vision and Learning Center),同時還配備了數據標注軟件(ImageScope,Aperio)。
2.3 實驗步驟
本文的實驗包括如下 5 個步驟:
第一步:LUAD 全掃描組織病理圖像組織分割。首先,從前文 2.1 小節中病理科醫生標注的 25 例 LUAD 全掃描組織病理圖像的 5 種不同組織里選取大小為 150 × 150 像素大小的圖像塊,構建訓練集和驗證集,訓練集和驗證集的數量如 2.1 小節中所描述。然后,本文采用深度學習網絡對 LUAD 全掃描組織病理圖像進行 5 種組織分割。
第二步:基于 CGAN 的癌變上皮中細胞核的自動分割。首先,從第一步中得到的癌變上皮組織區域中,取 1 000 × 1 000 像素大小的訓練圖像塊,構建訓練集和驗證集,具體訓練集和驗證集的數量如 2.1 小節中描述。接下來使用 CGAN 對所有癌變上皮組織區域的圖像塊進行細胞核分割。
第三步:特征提取。在確保前兩個步驟取得的準確率足以支撐接下來的研究后,基于前面兩部分的分割結果,提取病理圖像中的特征,主要包括細胞核全局圖特征(51 維),局部聚類圖特征(26 維),細胞核形狀特征(100 維),細胞核方向熵特征(39 維)以及核紋理特征(26 維)。
第四步:特征選擇。根據第三步中得到的特征,運用 1.4 小節中所描述的 MRMR 特征選擇,對每類特征分別選擇出 10 個相關性最大冗余性最小的特征,重復 100 次,然后把出現頻率最高的 10 個特征用來構建 SVM 分類器的一組特征。從組織病理圖像的尺度來分析基因分子表型,將病理組學和分子組學相融合,建立 EGFR 基因突變風險預測模型,揭示全掃描組織病理圖像的形態學特征和 EGFR 基因突變風險的關聯性。
2.4 結果與分析
首先對 LUAD 全掃描組織病理圖像完成了組織分割,分割準確率達到 95.74%。本文將醫生標記圖像與本文采用的自動分割方法的分割結果對比來看,本文的方法分割效果精確,大部分組織區域都已經區分開,如圖4 所示,其中紫色區域表示癌變上皮組織、綠色區域表示復雜基質(含淋巴細胞)、藍色區域表示肺腺泡、紅色區域表示血管/血紅細胞、橙色區域表示簡單基質。

接著,基于組織分割結果,針對癌變上皮組織區域完成細胞核的自動分割。本文提出的基于 CGAN 癌變上皮組織區域的細胞核分割模型像素準確率達到了 94.34%,因此說明此模型在癌變上皮區域的細胞核分割上具有良好的性能。細胞核分割結果如圖5 所示,綠色代表細胞核分割的輪廓。

對癌變上皮區域的細胞核進行特征提取時,在確保前兩個步驟取得的準確率足以支撐接下來的研究后,基于前面兩部分的分割結果,提取病理組學特征,主要包括細胞核全局圖特征(51 維)、局部聚類圖特征(26 維)、細胞核形狀特征(100 維)、細胞核方向熵特征(39 維)以及細胞核紋理特征(26 維)。病例組學特征可視化如圖6 所示,其中細胞核圖特征中藍色代表基于歐幾里德距離連接的全局核圖,細胞核紋理特征中紅色代表每個細胞核的紋理像素強度,細胞核形狀特征中綠色代表每個細胞核的輪廓,細胞核方向熵中綠色代表每個細胞核的方向紊亂度。

完成特征提取以及特征選擇之后,為了驗證本文提出方法的有效性,本文主要做了 4 組對比實驗分別是:
(1)線性判別分析(linear discriminant analysis,LDA),分別對應 PCA 降維、主成分變量重要性投影(principal component analysis variable importance projection,PCAVIP) [24]和 MRMR 三種特征選擇方法。
(2)二次判別分析(quadratic discriminant analysis,QDA),分別對應 PCA 降維、PCAVIP 和 MRMR 三種特征選擇方法。
(3)隨機森林(random forest,RF),分別對應 PCA 降維、PCAVIP 和 MRMR 三種特征選擇方法。
(4)SVM,分別對應 PCA 降維、PCAVIP 和 MRMR 三種特征選擇方法。
本文基于獲得的受試者工作特征曲線(receiver operating characteristic,ROC)的曲線下面積(area under curve,AUC),識別出性能最優的特征與分類器組合方案,如圖7 所示。證明了本文預測模型采用的 SVM 分類器與 MRMR 特征選擇(SVM-MRMR)是最優分類器。每組實驗在訓練集內進行訓練,并于獨立測試集上進行評估,4 組模型在獨立測試上的準確率結果如表1 所示。


ROC 曲線常被用來評價一個二值分類器的優劣,ROC 曲線的橫坐標為假陽性率 (false positive rate,FPR)(符號記為:FPR),縱坐標為真陽性率(true positive rate,TPR)(符號記為:TPR),準確率(accuracy)(符號記為:Acc),每個指標的含義如式(9)~式(11)所示:
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)(符號記為:TP)表示本來是陽性,被正確分類的樣本個數;假陽性(false positive,FP)(符號記為:FP)表示本來不是陽性,被分類為陽性的樣本個數;真陰性(true negative,TN)(符號記為:TN)表示本來是陰性樣本,被正確分類的樣本個數;假陰性(false negative,FN)(符號記為:FN)表示本來不是陰性,被錯誤地分類為陰性的樣本個數。
圖7 和表1 展示了這 4 種分類器和三種特征選擇方法組合后的預測性能。從定量結果分析表明,本文提出的 SVM-MRMR 的分類預測模型表現出了明顯的優勢,本文所提出的 EGFR 基因突變風險的預測模型在測試集上的 AUC 達到了 72.4%,準確率為 70.8%,表明本文選出來的特征分類準確率良好,驗證了本文所選特征的正確性。本文將組織病理圖像與分子組學相結合,通過構建 EGFR 基因突變風險的預測模型,揭示全掃描組織病理圖像的形態學特征和 EGFR 基因突變風險的關聯性,證明了 EGFR 基因突變從全掃描組織病理圖像中預測的可行性,或可為醫生做基因檢測時提供輔助性的信息。
3 結語
本文通過構建 EGFR 基因突變風險預測模型,探索 LUAD 全掃描組織病理圖像的形態學特征與 EGFR 基因突變之間的關聯。此外,本文定量分割全掃描組織病理圖像中的癌變上皮組織區域,并提取該組織區域的形態學特征,并結合 MRMR 特征選擇方法和 SVM 分類器構建肺癌 EGFR 基因突變風險的預測模型。本文不足的地方是,EGFR 基因突變風險預測模型是在較小的數據集上進行的測試。接下來將繼續選擇更大量的數據進行進一步的分析,以驗證本文提出的 EGFR 基因突變風險預測模型的有效性。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。