黑色素細胞病變發生于皮膚表層,惡性病變即為致死率極高的黑色素瘤,嚴重危害人類健康,病理組織學分析是其診斷的金標準。本文對黑色素細胞病變病理全切片圖像(WSI)進行分類研究,提出一種基于深度學習的黑色素細胞病變全流程智能化診斷方法。首先,基于CycleGAN神經網絡對多中心病理WSI進行顏色校正;其次,通過745張WSI構建以ResNet-152神經網絡為架構的深度卷積網絡預測模塊;然后,級聯以預測概率平均值計算為核心的決策融合模塊;最終,分別采用包含182張和54張WSI的內外部測試集驗證所提方法的診斷性能。實驗結果顯示,所提方法的整體準確率在內部測試集上達到94.12%,在外部測試集上超越90%;采用的顏色校正方式在組織結構保持、偽影抑制方面均優于傳統基于顏色統計或染色分離的方式。研究證實了本文所提方法可實現高精度、強魯棒的黑色素細胞病變病理WSI分類,對推動臨床病理人工智能輔助診斷具有重要的指導意義。
引用本文: 石田蕾, 張家意, 鮑泳揚, 高欣. 基于深度學習的黑色素細胞病變全流程智能化精準診斷. 生物醫學工程學雜志, 2022, 39(5): 919-927. doi: 10.7507/1001-5515.202203080 復制
引言
皮膚惡性腫瘤即皮膚癌,是世界上常見癌癥之一。其中,黑色素瘤侵襲能力最強、惡性程度最高[1],導致80%皮膚癌患者死亡[2]。黑色素瘤為惡性黑色素細胞病變,而黑色素細胞病變還包括不典型與良性兩種類型[3]。惡性黑色素細胞病變患者需進行外科手術,并聯合放化療、干擾素治療及免疫治療等輔助治療[4];不典型黑色素細胞病變患者進行外科手術后,無需輔助治療,但需密切回訪觀察;良性黑色素細胞病變患者則僅需接受外科手術切除。據皮膚癌基金會最新統計數據顯示[5],惡性黑色素細胞病變早期診斷患者術后5年存活率可達99%,但當病變細胞發生遠端轉移時,存活率僅為27%。因此,黑色素細胞病變早期精準診斷對手術方案的制定及患者預后的提升具有重要意義。
目前,黑色素細胞病變類型的診斷主要依賴病理組織學分析[6],該過程嚴重依賴病理醫師主觀經驗,據相關研究報道,病理醫師在黑色素細胞病變診斷方面,不一致率高達45.5%[7-10]。此外,傳統病理診斷耗時耗力且我國病理醫師資源嚴重短缺,臨床診斷負荷沉重,尤其是對于基層醫療中心,往往會造成患者確診及手術最佳時間的延誤。
隨著全切片掃描與人工智能(artificial intelligence,AI)技術的快速發展,基于病理全切片圖像(whole slide images,WSI)的計算機輔助診斷可為上述問題提供解決方案。近年來,深度學習(deep learning,DL)等人工智能方法在基于病理WSI的計算機輔助診斷領域取得諸多突破[11-16]。在黑色素細胞病變診斷方面,Hekler等[17-18]基于ResNet-50卷積神經網絡架構,首次提出了一種黑色素細胞病變智能診斷模型,良惡性分類準確率優于11位病理醫師(68% vs. 59.2%)。在此基礎上,Brinker等[19]通過改進ResNet-50卷積神經網絡架構,構建了一個基于ResNeXt-50卷積神經網絡架構的良惡性黑色素細胞病變智能診斷模型,準確率與18位高年資病理醫師相當(88.0% vs. 90.3%)。此外,Li等[20]通過自行設計卷積神經網絡架構,提出了一個分類性能更強的智能診斷模型,實現了目前已報道的準確率最高的(92.0%)良惡性黑色素細胞病變診斷。
上述研究結果表明,基于DL的病理WSI分類方法可以實現良惡性黑色素細胞病變的精準診斷,但對于不典型黑色素細胞病變的鑒別能力仍有待研究,而不典型黑色素細胞病變的鑒別又恰是臨床病理診斷的難點。此外,上述研究所采用的病理WSI數據均來自同一個醫療中心同一年內確診的黑色素細胞病變患者,染色一致性較好[21]。然而,病理WSI的制備與成像過程復雜,且目前病理圖像質量控制標準化流程尚未形成,不同醫療中心的病理WSI間染色變異性較強。因此,基于DL構建泛化性強的黑色素細胞病變智能診斷模型面臨巨大挑戰[22-23]。Ianni等[24]基于自編碼卷積神經網絡結構,提出了一種用于抑制多中心病理WSI染色變異的顏色校正(color normalization,CN)算法,有效地使多個中心的病理圖像顏色風格均衡至同一水平,但該算法需要配對的病理WSI數據,即同一組織切片由兩臺掃描儀采集的病理WSI數據,無法用于臨床實際診斷。
綜上所述,現有基于病理WSI的計算機輔助黑色素細胞病變診斷研究存在以下問題:① 對不典型黑色素細胞病變的鑒別研究不足。臨床中,不典型黑色素細胞病變患者手術方案與良惡性黑色素細胞病變患者不同,但不典型黑色素細胞病變的組織學模式和生物學特征均與良惡性黑色素細胞病變存在部分重疊,導致其常與良惡性黑色素細胞病變混淆。因此,精準鑒別不典型黑色素細胞病變臨床意義重大。② 對多中心病理WSI染色變異的抑制研究不足。諸多研究采用的病理WSI數據均來自同一醫療中心同一年內確診的黑色素細胞病變患者,染色一致性均較好,以此構建的黑色素細胞病變診斷模型泛化性不強,無法用于染色變異性強的病理WSI分類。雖有學者基于DL提出了顏色校正算法,但依賴配對的病理WSI數據,無法滿足臨床實際診斷需求。而數字病理發展迅猛,多中心病理WSI數據急劇增加,染色風格多樣。因此,具有臨床應用潛力的顏色校正方法是實現黑色素細胞病變臨床精準診斷的關鍵。
為此,本文提出了一種基于DL的黑色素細胞病變(良性、不典型及惡性)全流程智能化診斷方法。首先,結合K-means顏色風格聚類策略,基于CycleGAN神經網絡架構設計一種用于抑制多中心病理WSI數據間染色變異的非配對圖像顏色校正算法;然后,通過級聯ResNet-152預測模塊與預測結果融合模塊,構建一種患者級的全流程一體化黑色素細胞病變智能診斷模型。
1 數據及預處理
本文共計收集三個醫療中心981張染色風格多樣的黑色素細胞病變病理WSI數據,提出的黑色素細胞病變全流程智能化診斷方法整體框架如圖1所示,主要包含三個部分:① 圖像塊生成;② 顏色校正;③ 分類模型構建。

1.1 數據來源
入組上海交通大學醫學院附屬第九人民醫院(Center 1)、上海交通大學醫學院附屬第九人民醫院北院(Center 2)與上海市第一人民醫院寶山分院(Center 3)病理科2001年至2018年間確診的218例惡性、119例不典型及374例良性黑色素細胞病變患者。調取所有患者的蘇木精-伊紅(hematoxylin & eosin,H&E)染色病理切片。
本文收集的黑色素細胞病變患者H&E切片,入庫前具有明確的診斷結果(良性、不典型和惡性),診斷方式主要由病理醫師通過顯微鏡觀察H&E切片中細胞結構與形態判斷,若H&E確診存疑需結合患者臨床表現與免疫組化/分子檢測結果判斷。此外,這些H&E切片納入本文研究時經過一名具有30年皮膚疾病病理診斷經驗的高年資病理醫生復核,保證了文中用于分析的所有WSI的病變類型完全正確。
所有的H&E切片均采用濱松NanoZoomer S60全自動數字切片掃描儀以40倍放大倍數進行病理WSI數據采集,共計獲得457張惡性、142張不典型及382張良性黑色素細胞病變病理WSI數據。所有WSI數據均由兩名分別具有8年和15年皮膚疾病病理診斷經驗的病理醫師在已知WSI病變類型的前提下,采用NDP.view2(2.6.13版本)醫學圖像處理軟件進行病變區域標注,對于標注結果不一致的WSI圖像,病理醫師通過結合患者臨床信息(性別、年齡及解剖位置等)和小組討論達成共識。
采用隨機分層抽樣方式以8∶2比例將Center 1中黑色素細胞病變患者劃分為訓練集和內部測試集,并將Center 2和Center 3作為外部測試集(見表1)。

1.2 預處理
受限于硬件計算資源,卷積神經網絡無法直接處理包含上億像素的病理WSI數據,本文基于標注信息,對標注區域內圖像以不重疊方式進行224×224像素的圖像塊(patch)提取,并剔除有效組織占比小于60%的patch。此外,為了保證用于訓練智能診斷模型的不同類型patch數據均衡,本文以1∶3∶1比例對訓練集中惡性、不典型及良性黑色素細胞病變病理WSI中的patch進行隨機提取,并設置抽樣數目20 000對三類黑色素細胞病變patch進行隨機抽樣。
2 方法
2.1 顏色校正模塊
基于Shaban等[25]的研究,本文將病理圖像顏色校正視為染色風格遷移問題,設計了一種基于循環一致生成對抗網絡(cycle-consistent generative adversarial networks,CycleGAN)架構的顏色校正算法(StainGAN-CN)[26]。首先采用K-means聚類策略從染色風格多樣化的病理圖像中構建染色風格統一的子集病理圖像域,然后基于CycleGAN卷積神經網絡,構建一個圖像域(A域)到另一個圖像域(B域)的染色風格轉換關系。
2.1.1 K-means染色風格聚類
鑒于本文收集的Center 1病理切片制作時間跨度較大(2001年至2018年),切片間顏色差異大,本研究以Center 1生成的patch作為染色風格多樣的A域,使用K-means風格聚類算法構建染色風格相對統一的B域。具體實現過程如下。
首先,為了將病理圖像通過染色信息進行表征,本文基于朗博比爾(Lambert-Beer)光譜吸收定律將病理圖像從RGB顏色空間轉換至光密度(optical density,OD)空間[27]。設原始病理圖像 ,其中
為R、G、B三通道,n為圖像I中像素數目。
為圖像I在OD空間中的變換矩陣,常數
表示圖像I中像素最大值255。如式(1)所示:
![]() |
同時,在OD空間中采用稀疏非負矩陣分解(sparse non-negative matrix factorization,SNMF)技術對變換矩陣V以染色顏色表征基線性表出[28-29]。令染色顏色表征矩陣 表示染色顏色表征基,其中r代表基的個數,本文的病理圖像通過H、E兩種染色劑獲得,因此文中r取2。如式(2)所示:
![]() |
其中, 為染色劑吸光系數矩陣,表示病理組織對不同染色劑的吸光占比,可反映病理組織的結構信息[29]。
至此,不同染色風格的病理圖像I可由不同的染色顏色表征矩陣 表示,其中
,
。即:
![]() |
為了在二維平面中對染色顏色表征矩陣W進行K-means聚類,矩陣W需降維,本文通過計算矩陣 中列向量均值,即R、G、B三通道均值,計算方式為
,其中
,將A域中所有patch均以二維顏色特征
表示,構建特征集合
,其分布如圖2所示。

A 域:染色風格多樣圖像集;B 域:染色風格統一圖像集;顏色 0~ 4:不同染色特征子集;顏色 1:染色特征分布最為集中的子集
Figure2. K-means stain style clustering visualizationDomain A: image set with high stain style variability; Domain B: image set with the same stain style; Color 0 - 4: subsets of different stain features; Color 1: a subset with the most concentrated distribution of staining features
最后,采用K-means聚類算法對特征集合進行風格聚類以獲取特征子集,本文分別設定K為{1, 2, …, 8}進行聚類實驗,并為了保證特征子集中元素個數不少于特征集合
中元素總數的三分之一,將特征集合
劃分為五個特征子集
(圖2中不同顏色代表不同特征子集),然后將特征子集中各元素分布最集中的一個特征子集所對應的patch取出,構建B域。
2.1.2 StainGAN-CN算法
該算法的網絡結構如圖3所示。其中 和
為生成器,用于處理源域圖像,以生成與目標域風格類似的圖像,具體映射關系簡化為:
,
;
和
為判別器,
用于區分圖像是來源于A域還是由
生成,而
用于區分圖像是來源于B域還是由
生成。

A 域:染色風格多樣圖像集;B 域:染色風格統一圖像集;
Domain A: image set with high stain style variability; Domain B: image set with the same stain style;
前向循環中,來自A域的圖像a經過生成器 得到圖像
,然后交由判別器
進行圖像域來源判斷(若判斷為來源于B域,則輸出1;反之,則輸出0),為了訓練該過程,采用前向對抗損失函數,如式
所示:
![]() |
同時,圖像 經過生成器
得到圖像
,為了確保生成圖像
的過程中不丟失原始圖像a中的結構信息[30],在圖像a與經過前向循環生成的圖像
之間增加循環一致性約束,即:
![]() |
反向循環中的 和
的計算方式與前向循環類似,最終整個網絡的損失函數與目標函數如式(6)~(7)所示:
![]() |
![]() |
其中參數為損失權重,默認值為10。生成器和判別器分別采用ResNet和70×70 PatchGAN網絡架構[26]。
2.2 圖像分類模塊
鑒于組織病理圖像在形態結構、紋理特征方面的相似度較高,而淺層卷積神經網絡對復雜圖像特征提取能力有限,難以挖掘病理圖像深層次信息,但隨著網絡深度的不斷提升,梯度消失和網絡性能退化問題將會產生。為此,本文采用He等[31]提出的ResNet-152架構,以此構建深度卷積網絡預測模塊,并級聯預測結果聚合模塊,最終實現黑色素細胞病變患者的全自動診斷。
2.2.1 深度卷積網絡預測
本文的深度卷積網絡預測模塊使用的ResNet-152架構如圖4a所示,與傳統的卷積神經網絡架構相比,ResNet-152架構的主要特點在于引入了殘差單元(見圖4b),殘差單元由卷積(Conv)、批量歸一化(BN)和ReLU激活函數構成,通過增加恒等映射后擬合殘差映射函數,緩解了梯度消失和網絡性能退化問題,加速網絡訓練收斂速度的同時能夠大幅提升深度網絡的識別準確率[32]。

a. ResNet-152 網絡架構;b. 殘差單元
Figure4. Network architecture of deep convolution network prediction modulea. ResNet-152 network architecture; b. residual unit
整個網絡的輸入是采用顏色校正算法預處理后的patch樣本,大小為224 × 224 × 3。首先經過卷積層(Conv1),對輸入patch進行常規特征提取,減小特征尺寸,然后通過四個殘差塊(Resblock2~5)提取更高層次的特征信息,接著將提取到的高維特征輸入到全連接層(Fc6)進行分類輸出。圖4a中的分類器為SoftMax分類器,最終可輸出各patch的三種黑色素細胞病變類型的概率。ResNet-152網絡架構的各層參數詳見表2。

2.2.2 預測結果聚合
為了診斷患者的黑色素細胞病變類型,本文采用決策融合策略聚合每位黑色素細胞病變患者的所有patch預測結果:對每張病理WSI中所有patch的三種病變類型的預測概率分別進行統計均值計算,將其作為該張病理WSI三種病變類型的預測概率。
臨床中,醫生將不確定的病理切片暫定為可疑病例,需結合患者臨床信息進一步診斷[33]。參考這種診斷方式,本文將三種病變類型的預測概率均低于0.6的病理WSI判定為可疑類型,將所有病理WSI均為可疑類型的黑色素細胞病變患者歸為可疑病例,這種情況需病理醫師結合患者其他臨床信息進一步診斷。排除可疑病例,將患者按照其所有病理WSI診斷結果中惡性程度最高者進行判定,順序為惡性>不典型>良性。
3 實驗
3.1 實驗環境及超參設定
本文基于開源的Python機器學習庫PyTorch與NVIDIA GTX 2080Ti GPU環境構建智能診斷模型。Color-CN和Stain-CN算法采用的參考模板圖像(見圖5)由病理醫師根據病理組織著色效果從Center 1中選擇。StainGAN-CN算法與深度卷積網絡預測模塊中網絡架構的訓練超參數設置見表3,其中ResNet-152采用多分類交叉熵損失函數并采用ImageNet數據集預訓練權重。通過Center 1中生成的A域和B域數據集,進行CycleGAN網絡訓練,并在外部測試集(Center 2和Center 3)上評估顏色校正算法性能;在訓練集上訓練ResNet-152網絡,并在內外部測試集上進行智能診斷模型性能測試。

模板圖像:Color-CN、Stain-CN 算法中選定的參考模板;a. 外部測試集隨機采樣的兩個 patch 樣本;b~d. 分別經過 Color-CN、Stain-CN、StainGAN-CN 算法顏色校正后的結果
Figure5. Display of some color normalization resultsTemplate image: reference template picked in the Color-CN and Stain-CN algorithms; a. two patch samples randomly sampled from the external test set; b–d. color normalization results by Color-CN, Stain-CN, and StainGAN-CN algorithms, respectively

3.2 模型評估
為了對比顏色校正算法性能,本文采用結構相似性(structural similarity,SSIM)與峰值信噪比(peak signal-to-noise ratio,PSNR)進行定量評價,其數值越大,說明校正算法的圖像結構保持的一致性越好。因校正前后圖像顏色風格不同,影響度量SSIM和PSNR,因此,首先進行灰度變換,然后計算SSIM和PSNR。SSIM和PSNR的計算過程如下:
![]() |
![]() |
![]() |
其中,I表示一個大小為 的待校正圖像,以及
表示顏色校正后的圖像。
為圖像I的最大像素值,通常取255。
和
分別代表
的像素均值,
和
為
的標準差。
為
的協方差。
和
是避免分母為0的常數。
此外,為了評估智能診斷模型的分類性能,本文采用分類準確率(accuracy,Acc)與macro F1評分對模型的分類能力進行定量評估,其數值越大,表明模型診斷性能越好。Acc和macro F1評分的計算過程如下:
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示陽性患者被正確預測為陽性的數量;假陽性(false positive,FP)表示陰性患者被錯誤預測為陽性的數量;真陰性(true negative,TN)表示陰性患者被正確預測為陰性的數量;假陰性(false negative,FN)表示陽性患者被錯誤預測為陰性的患者數量。
3.3 對比算法
為了驗證本文設計的顏色校正算法的有效性,將本文提出的StainGAN-CN算法與其他兩種病理圖像顏色校正算法(Color-CN[34]、Stain-CN[28])進行比較,并進行黑色素細胞病變病理WSI分類性能對比。
3.3.1 Color-CN算法
首先將待校正的病理圖像和模板圖像從RGB顏色空間轉換至正交Lab顏色空間并計算模板圖像像素均值和標準差,然后對待校正圖像進行逐像素均方差變換,最后將待校正圖像映射回RGB顏色空間。
3.3.2 Stain-CN算法
首先基于Lambert-Beer光譜吸收定律將待校正的病理圖像和模板圖像從RGB空間轉換至OD空間[27],接著利用SNMF技術分離待校正病理圖像和模板圖像的染色顏色表征矩陣W和吸光系數矩陣H,然后用模板圖像的染色顏色表征矩陣W代替待校正病理圖像的染色顏色表征矩陣W,最后進行Lambert-Beer逆變換將待校正圖像映射回RGB顏色空間。
4 結果及分析
4.1 顏色校正結果及分析
受硬件計算資源的限制,本文從外部測試集中隨機提取未校正的300張patch數據,分別采用三種顏色校正算法對其處理,并計算300對patch顏色校正前后的SSIM和PSNR均值。表4結果顯示,StainGAN-CN算法對圖像結構一致性的保持能力最強。

為了直觀顯示不同算法的顏色校正能力,從外部測試集中隨機抽取兩張黑色素細胞病變原始病理patch數據(見圖5a),經過三種顏色校正算法處理的結果如圖5b~d所示。圖5a中紅色矩形框內組織與其周圍組織由于組織類別不同而著色能力不同,進而染色結果不同,使用StainGAN-CN算法顏色校正后(見圖5d)可較好地保留組織不同導致的染色差異,而Color-CN和Stain-CN算法顏色校正后(見圖5b~c)則會丟失用于組織辨別的染色差異信息,導致過校正。圖5a中黃色曲線框出的區域為無效的背景區域,使用Color-CN和Stain-CN算法顏色校正后(見圖5b~c),黃色區域被錯誤地轉換為用于診斷的有效組織區域,即引入了校正偽影,將干擾后續診斷。
4.2 診斷模型結果及分析
未采用顏色校正算法和采用顏色校正算法情況下,智能診斷模型的Acc和macro F1評分如表5所示。

從表中結果來看,未進行顏色校正時,診斷模型的Acc和macro F1評分在內部測試集上可達到93.38%和0.933,但在外部測試集上僅為76.74%和0.843,表明該情況下構建的診斷模型泛化性弱,無法進行跨數據集應用。
采用顏色校正算法后,相較于未采用顏色校正算法的情況,雖然基于Color-CN和Stain-CN算法構建的診斷模型在內部測試集上的Acc和macro F1略有下降,但在外部測試集上相較于未校正情況均有明顯提升(Color-CN:+11.63%和+0.058;Stain-CN:+11.63%和+0.016),說明顏色校正過程可有效提升診斷模型的泛化性能。
采用本文所提的StainGAN-CN顏色校正算法,相較于未采用顏色校正算法,診斷模型的Acc與macro F1評分在內部和外部測試集上均具有較大提升(內部:+0.74%和+0.005;外部:+13.96%和+0.106),且明顯高于采用Color-CN與Stain-CN算法的結果,表明StainGAN-CN算法不僅可有效提升診斷模型診斷性能,還能提高模型泛化性。
5 結論
面向黑色素細胞病變精準診斷需求,本文共收集三個醫療中心981張染色風格多樣的黑色素細胞病變病理WSI,用于構建泛化性能較強的黑色素細胞病變全流程智能化精準診斷模型。研究結果表明,StainGAN-CN算法相比于Color-CN或Stain-CN算法,病理組織結構一致性保持及偽影抑制能力較強,且StainGAN-CN算法屬于圖像域間而非圖像間的風格映射,可最大程度保持所有病理組織結構信息,為構建泛化性能強的智能診斷模型奠定基礎。正如表5結果顯示:采用StainGAN-CN算法的智能診斷模型診斷性能最強,且在外部測試集上的Acc超過90.00%。同時,本文采用的ResNet-152網絡是醫學圖像處理任務中常用架構,其特征提取能力強,可充分挖掘黑色素細胞病變中形態學辨識度低且肉眼不可見的亞型特征,為黑色素細胞病變精準診斷提供重要支撐。此外,本文通過決策融合策略,使輸入為患者病理WSI數據、輸出為黑色素細胞病變類型成為可能,構建了一種全流程智能化的診斷框架,有望提升黑色素細胞病變診斷效率。
綜上所述,本文基于DL構建的針對黑色素細胞病變病理WSI的全流程智能化精準診斷模型,對于進一步探索數字病理精準診斷的臨床轉化具有重要的借鑒意義。但本文采用的外部測試集中數據量較少,且構建的智能診斷模型僅使用患者病理切片信息。后續研究將收集更多醫療中心的黑色素細胞病變患者病理數據進行智能診斷模型診斷性能的驗證,并探索融合患者臨床數據的智能診斷模型構建方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:本文算法程序設計、結果記錄分析以及論文撰寫由石田蕾完成;張家意負責提供實驗指導、數據分析指導和論文審閱修訂;鮑泳揚醫生承擔本文工作的臨床指導;高欣研究員承擔本文工作的論文審閱修訂與總體指導。
倫理聲明:本研究通過了上海交通大學醫學院附屬第九人民醫院倫理委員會的審批(批文編號:SH9H-2020-TK389-1)。
引言
皮膚惡性腫瘤即皮膚癌,是世界上常見癌癥之一。其中,黑色素瘤侵襲能力最強、惡性程度最高[1],導致80%皮膚癌患者死亡[2]。黑色素瘤為惡性黑色素細胞病變,而黑色素細胞病變還包括不典型與良性兩種類型[3]。惡性黑色素細胞病變患者需進行外科手術,并聯合放化療、干擾素治療及免疫治療等輔助治療[4];不典型黑色素細胞病變患者進行外科手術后,無需輔助治療,但需密切回訪觀察;良性黑色素細胞病變患者則僅需接受外科手術切除。據皮膚癌基金會最新統計數據顯示[5],惡性黑色素細胞病變早期診斷患者術后5年存活率可達99%,但當病變細胞發生遠端轉移時,存活率僅為27%。因此,黑色素細胞病變早期精準診斷對手術方案的制定及患者預后的提升具有重要意義。
目前,黑色素細胞病變類型的診斷主要依賴病理組織學分析[6],該過程嚴重依賴病理醫師主觀經驗,據相關研究報道,病理醫師在黑色素細胞病變診斷方面,不一致率高達45.5%[7-10]。此外,傳統病理診斷耗時耗力且我國病理醫師資源嚴重短缺,臨床診斷負荷沉重,尤其是對于基層醫療中心,往往會造成患者確診及手術最佳時間的延誤。
隨著全切片掃描與人工智能(artificial intelligence,AI)技術的快速發展,基于病理全切片圖像(whole slide images,WSI)的計算機輔助診斷可為上述問題提供解決方案。近年來,深度學習(deep learning,DL)等人工智能方法在基于病理WSI的計算機輔助診斷領域取得諸多突破[11-16]。在黑色素細胞病變診斷方面,Hekler等[17-18]基于ResNet-50卷積神經網絡架構,首次提出了一種黑色素細胞病變智能診斷模型,良惡性分類準確率優于11位病理醫師(68% vs. 59.2%)。在此基礎上,Brinker等[19]通過改進ResNet-50卷積神經網絡架構,構建了一個基于ResNeXt-50卷積神經網絡架構的良惡性黑色素細胞病變智能診斷模型,準確率與18位高年資病理醫師相當(88.0% vs. 90.3%)。此外,Li等[20]通過自行設計卷積神經網絡架構,提出了一個分類性能更強的智能診斷模型,實現了目前已報道的準確率最高的(92.0%)良惡性黑色素細胞病變診斷。
上述研究結果表明,基于DL的病理WSI分類方法可以實現良惡性黑色素細胞病變的精準診斷,但對于不典型黑色素細胞病變的鑒別能力仍有待研究,而不典型黑色素細胞病變的鑒別又恰是臨床病理診斷的難點。此外,上述研究所采用的病理WSI數據均來自同一個醫療中心同一年內確診的黑色素細胞病變患者,染色一致性較好[21]。然而,病理WSI的制備與成像過程復雜,且目前病理圖像質量控制標準化流程尚未形成,不同醫療中心的病理WSI間染色變異性較強。因此,基于DL構建泛化性強的黑色素細胞病變智能診斷模型面臨巨大挑戰[22-23]。Ianni等[24]基于自編碼卷積神經網絡結構,提出了一種用于抑制多中心病理WSI染色變異的顏色校正(color normalization,CN)算法,有效地使多個中心的病理圖像顏色風格均衡至同一水平,但該算法需要配對的病理WSI數據,即同一組織切片由兩臺掃描儀采集的病理WSI數據,無法用于臨床實際診斷。
綜上所述,現有基于病理WSI的計算機輔助黑色素細胞病變診斷研究存在以下問題:① 對不典型黑色素細胞病變的鑒別研究不足。臨床中,不典型黑色素細胞病變患者手術方案與良惡性黑色素細胞病變患者不同,但不典型黑色素細胞病變的組織學模式和生物學特征均與良惡性黑色素細胞病變存在部分重疊,導致其常與良惡性黑色素細胞病變混淆。因此,精準鑒別不典型黑色素細胞病變臨床意義重大。② 對多中心病理WSI染色變異的抑制研究不足。諸多研究采用的病理WSI數據均來自同一醫療中心同一年內確診的黑色素細胞病變患者,染色一致性均較好,以此構建的黑色素細胞病變診斷模型泛化性不強,無法用于染色變異性強的病理WSI分類。雖有學者基于DL提出了顏色校正算法,但依賴配對的病理WSI數據,無法滿足臨床實際診斷需求。而數字病理發展迅猛,多中心病理WSI數據急劇增加,染色風格多樣。因此,具有臨床應用潛力的顏色校正方法是實現黑色素細胞病變臨床精準診斷的關鍵。
為此,本文提出了一種基于DL的黑色素細胞病變(良性、不典型及惡性)全流程智能化診斷方法。首先,結合K-means顏色風格聚類策略,基于CycleGAN神經網絡架構設計一種用于抑制多中心病理WSI數據間染色變異的非配對圖像顏色校正算法;然后,通過級聯ResNet-152預測模塊與預測結果融合模塊,構建一種患者級的全流程一體化黑色素細胞病變智能診斷模型。
1 數據及預處理
本文共計收集三個醫療中心981張染色風格多樣的黑色素細胞病變病理WSI數據,提出的黑色素細胞病變全流程智能化診斷方法整體框架如圖1所示,主要包含三個部分:① 圖像塊生成;② 顏色校正;③ 分類模型構建。

1.1 數據來源
入組上海交通大學醫學院附屬第九人民醫院(Center 1)、上海交通大學醫學院附屬第九人民醫院北院(Center 2)與上海市第一人民醫院寶山分院(Center 3)病理科2001年至2018年間確診的218例惡性、119例不典型及374例良性黑色素細胞病變患者。調取所有患者的蘇木精-伊紅(hematoxylin & eosin,H&E)染色病理切片。
本文收集的黑色素細胞病變患者H&E切片,入庫前具有明確的診斷結果(良性、不典型和惡性),診斷方式主要由病理醫師通過顯微鏡觀察H&E切片中細胞結構與形態判斷,若H&E確診存疑需結合患者臨床表現與免疫組化/分子檢測結果判斷。此外,這些H&E切片納入本文研究時經過一名具有30年皮膚疾病病理診斷經驗的高年資病理醫生復核,保證了文中用于分析的所有WSI的病變類型完全正確。
所有的H&E切片均采用濱松NanoZoomer S60全自動數字切片掃描儀以40倍放大倍數進行病理WSI數據采集,共計獲得457張惡性、142張不典型及382張良性黑色素細胞病變病理WSI數據。所有WSI數據均由兩名分別具有8年和15年皮膚疾病病理診斷經驗的病理醫師在已知WSI病變類型的前提下,采用NDP.view2(2.6.13版本)醫學圖像處理軟件進行病變區域標注,對于標注結果不一致的WSI圖像,病理醫師通過結合患者臨床信息(性別、年齡及解剖位置等)和小組討論達成共識。
采用隨機分層抽樣方式以8∶2比例將Center 1中黑色素細胞病變患者劃分為訓練集和內部測試集,并將Center 2和Center 3作為外部測試集(見表1)。

1.2 預處理
受限于硬件計算資源,卷積神經網絡無法直接處理包含上億像素的病理WSI數據,本文基于標注信息,對標注區域內圖像以不重疊方式進行224×224像素的圖像塊(patch)提取,并剔除有效組織占比小于60%的patch。此外,為了保證用于訓練智能診斷模型的不同類型patch數據均衡,本文以1∶3∶1比例對訓練集中惡性、不典型及良性黑色素細胞病變病理WSI中的patch進行隨機提取,并設置抽樣數目20 000對三類黑色素細胞病變patch進行隨機抽樣。
2 方法
2.1 顏色校正模塊
基于Shaban等[25]的研究,本文將病理圖像顏色校正視為染色風格遷移問題,設計了一種基于循環一致生成對抗網絡(cycle-consistent generative adversarial networks,CycleGAN)架構的顏色校正算法(StainGAN-CN)[26]。首先采用K-means聚類策略從染色風格多樣化的病理圖像中構建染色風格統一的子集病理圖像域,然后基于CycleGAN卷積神經網絡,構建一個圖像域(A域)到另一個圖像域(B域)的染色風格轉換關系。
2.1.1 K-means染色風格聚類
鑒于本文收集的Center 1病理切片制作時間跨度較大(2001年至2018年),切片間顏色差異大,本研究以Center 1生成的patch作為染色風格多樣的A域,使用K-means風格聚類算法構建染色風格相對統一的B域。具體實現過程如下。
首先,為了將病理圖像通過染色信息進行表征,本文基于朗博比爾(Lambert-Beer)光譜吸收定律將病理圖像從RGB顏色空間轉換至光密度(optical density,OD)空間[27]。設原始病理圖像 ,其中
為R、G、B三通道,n為圖像I中像素數目。
為圖像I在OD空間中的變換矩陣,常數
表示圖像I中像素最大值255。如式(1)所示:
![]() |
同時,在OD空間中采用稀疏非負矩陣分解(sparse non-negative matrix factorization,SNMF)技術對變換矩陣V以染色顏色表征基線性表出[28-29]。令染色顏色表征矩陣 表示染色顏色表征基,其中r代表基的個數,本文的病理圖像通過H、E兩種染色劑獲得,因此文中r取2。如式(2)所示:
![]() |
其中, 為染色劑吸光系數矩陣,表示病理組織對不同染色劑的吸光占比,可反映病理組織的結構信息[29]。
至此,不同染色風格的病理圖像I可由不同的染色顏色表征矩陣 表示,其中
,
。即:
![]() |
為了在二維平面中對染色顏色表征矩陣W進行K-means聚類,矩陣W需降維,本文通過計算矩陣 中列向量均值,即R、G、B三通道均值,計算方式為
,其中
,將A域中所有patch均以二維顏色特征
表示,構建特征集合
,其分布如圖2所示。

A 域:染色風格多樣圖像集;B 域:染色風格統一圖像集;顏色 0~ 4:不同染色特征子集;顏色 1:染色特征分布最為集中的子集
Figure2. K-means stain style clustering visualizationDomain A: image set with high stain style variability; Domain B: image set with the same stain style; Color 0 - 4: subsets of different stain features; Color 1: a subset with the most concentrated distribution of staining features
最后,采用K-means聚類算法對特征集合進行風格聚類以獲取特征子集,本文分別設定K為{1, 2, …, 8}進行聚類實驗,并為了保證特征子集中元素個數不少于特征集合
中元素總數的三分之一,將特征集合
劃分為五個特征子集
(圖2中不同顏色代表不同特征子集),然后將特征子集中各元素分布最集中的一個特征子集所對應的patch取出,構建B域。
2.1.2 StainGAN-CN算法
該算法的網絡結構如圖3所示。其中 和
為生成器,用于處理源域圖像,以生成與目標域風格類似的圖像,具體映射關系簡化為:
,
;
和
為判別器,
用于區分圖像是來源于A域還是由
生成,而
用于區分圖像是來源于B域還是由
生成。

A 域:染色風格多樣圖像集;B 域:染色風格統一圖像集;
Domain A: image set with high stain style variability; Domain B: image set with the same stain style;
前向循環中,來自A域的圖像a經過生成器 得到圖像
,然后交由判別器
進行圖像域來源判斷(若判斷為來源于B域,則輸出1;反之,則輸出0),為了訓練該過程,采用前向對抗損失函數,如式
所示:
![]() |
同時,圖像 經過生成器
得到圖像
,為了確保生成圖像
的過程中不丟失原始圖像a中的結構信息[30],在圖像a與經過前向循環生成的圖像
之間增加循環一致性約束,即:
![]() |
反向循環中的 和
的計算方式與前向循環類似,最終整個網絡的損失函數與目標函數如式(6)~(7)所示:
![]() |
![]() |
其中參數為損失權重,默認值為10。生成器和判別器分別采用ResNet和70×70 PatchGAN網絡架構[26]。
2.2 圖像分類模塊
鑒于組織病理圖像在形態結構、紋理特征方面的相似度較高,而淺層卷積神經網絡對復雜圖像特征提取能力有限,難以挖掘病理圖像深層次信息,但隨著網絡深度的不斷提升,梯度消失和網絡性能退化問題將會產生。為此,本文采用He等[31]提出的ResNet-152架構,以此構建深度卷積網絡預測模塊,并級聯預測結果聚合模塊,最終實現黑色素細胞病變患者的全自動診斷。
2.2.1 深度卷積網絡預測
本文的深度卷積網絡預測模塊使用的ResNet-152架構如圖4a所示,與傳統的卷積神經網絡架構相比,ResNet-152架構的主要特點在于引入了殘差單元(見圖4b),殘差單元由卷積(Conv)、批量歸一化(BN)和ReLU激活函數構成,通過增加恒等映射后擬合殘差映射函數,緩解了梯度消失和網絡性能退化問題,加速網絡訓練收斂速度的同時能夠大幅提升深度網絡的識別準確率[32]。

a. ResNet-152 網絡架構;b. 殘差單元
Figure4. Network architecture of deep convolution network prediction modulea. ResNet-152 network architecture; b. residual unit
整個網絡的輸入是采用顏色校正算法預處理后的patch樣本,大小為224 × 224 × 3。首先經過卷積層(Conv1),對輸入patch進行常規特征提取,減小特征尺寸,然后通過四個殘差塊(Resblock2~5)提取更高層次的特征信息,接著將提取到的高維特征輸入到全連接層(Fc6)進行分類輸出。圖4a中的分類器為SoftMax分類器,最終可輸出各patch的三種黑色素細胞病變類型的概率。ResNet-152網絡架構的各層參數詳見表2。

2.2.2 預測結果聚合
為了診斷患者的黑色素細胞病變類型,本文采用決策融合策略聚合每位黑色素細胞病變患者的所有patch預測結果:對每張病理WSI中所有patch的三種病變類型的預測概率分別進行統計均值計算,將其作為該張病理WSI三種病變類型的預測概率。
臨床中,醫生將不確定的病理切片暫定為可疑病例,需結合患者臨床信息進一步診斷[33]。參考這種診斷方式,本文將三種病變類型的預測概率均低于0.6的病理WSI判定為可疑類型,將所有病理WSI均為可疑類型的黑色素細胞病變患者歸為可疑病例,這種情況需病理醫師結合患者其他臨床信息進一步診斷。排除可疑病例,將患者按照其所有病理WSI診斷結果中惡性程度最高者進行判定,順序為惡性>不典型>良性。
3 實驗
3.1 實驗環境及超參設定
本文基于開源的Python機器學習庫PyTorch與NVIDIA GTX 2080Ti GPU環境構建智能診斷模型。Color-CN和Stain-CN算法采用的參考模板圖像(見圖5)由病理醫師根據病理組織著色效果從Center 1中選擇。StainGAN-CN算法與深度卷積網絡預測模塊中網絡架構的訓練超參數設置見表3,其中ResNet-152采用多分類交叉熵損失函數并采用ImageNet數據集預訓練權重。通過Center 1中生成的A域和B域數據集,進行CycleGAN網絡訓練,并在外部測試集(Center 2和Center 3)上評估顏色校正算法性能;在訓練集上訓練ResNet-152網絡,并在內外部測試集上進行智能診斷模型性能測試。

模板圖像:Color-CN、Stain-CN 算法中選定的參考模板;a. 外部測試集隨機采樣的兩個 patch 樣本;b~d. 分別經過 Color-CN、Stain-CN、StainGAN-CN 算法顏色校正后的結果
Figure5. Display of some color normalization resultsTemplate image: reference template picked in the Color-CN and Stain-CN algorithms; a. two patch samples randomly sampled from the external test set; b–d. color normalization results by Color-CN, Stain-CN, and StainGAN-CN algorithms, respectively

3.2 模型評估
為了對比顏色校正算法性能,本文采用結構相似性(structural similarity,SSIM)與峰值信噪比(peak signal-to-noise ratio,PSNR)進行定量評價,其數值越大,說明校正算法的圖像結構保持的一致性越好。因校正前后圖像顏色風格不同,影響度量SSIM和PSNR,因此,首先進行灰度變換,然后計算SSIM和PSNR。SSIM和PSNR的計算過程如下:
![]() |
![]() |
![]() |
其中,I表示一個大小為 的待校正圖像,以及
表示顏色校正后的圖像。
為圖像I的最大像素值,通常取255。
和
分別代表
的像素均值,
和
為
的標準差。
為
的協方差。
和
是避免分母為0的常數。
此外,為了評估智能診斷模型的分類性能,本文采用分類準確率(accuracy,Acc)與macro F1評分對模型的分類能力進行定量評估,其數值越大,表明模型診斷性能越好。Acc和macro F1評分的計算過程如下:
![]() |
![]() |
![]() |
其中,真陽性(true positive,TP)表示陽性患者被正確預測為陽性的數量;假陽性(false positive,FP)表示陰性患者被錯誤預測為陽性的數量;真陰性(true negative,TN)表示陰性患者被正確預測為陰性的數量;假陰性(false negative,FN)表示陽性患者被錯誤預測為陰性的患者數量。
3.3 對比算法
為了驗證本文設計的顏色校正算法的有效性,將本文提出的StainGAN-CN算法與其他兩種病理圖像顏色校正算法(Color-CN[34]、Stain-CN[28])進行比較,并進行黑色素細胞病變病理WSI分類性能對比。
3.3.1 Color-CN算法
首先將待校正的病理圖像和模板圖像從RGB顏色空間轉換至正交Lab顏色空間并計算模板圖像像素均值和標準差,然后對待校正圖像進行逐像素均方差變換,最后將待校正圖像映射回RGB顏色空間。
3.3.2 Stain-CN算法
首先基于Lambert-Beer光譜吸收定律將待校正的病理圖像和模板圖像從RGB空間轉換至OD空間[27],接著利用SNMF技術分離待校正病理圖像和模板圖像的染色顏色表征矩陣W和吸光系數矩陣H,然后用模板圖像的染色顏色表征矩陣W代替待校正病理圖像的染色顏色表征矩陣W,最后進行Lambert-Beer逆變換將待校正圖像映射回RGB顏色空間。
4 結果及分析
4.1 顏色校正結果及分析
受硬件計算資源的限制,本文從外部測試集中隨機提取未校正的300張patch數據,分別采用三種顏色校正算法對其處理,并計算300對patch顏色校正前后的SSIM和PSNR均值。表4結果顯示,StainGAN-CN算法對圖像結構一致性的保持能力最強。

為了直觀顯示不同算法的顏色校正能力,從外部測試集中隨機抽取兩張黑色素細胞病變原始病理patch數據(見圖5a),經過三種顏色校正算法處理的結果如圖5b~d所示。圖5a中紅色矩形框內組織與其周圍組織由于組織類別不同而著色能力不同,進而染色結果不同,使用StainGAN-CN算法顏色校正后(見圖5d)可較好地保留組織不同導致的染色差異,而Color-CN和Stain-CN算法顏色校正后(見圖5b~c)則會丟失用于組織辨別的染色差異信息,導致過校正。圖5a中黃色曲線框出的區域為無效的背景區域,使用Color-CN和Stain-CN算法顏色校正后(見圖5b~c),黃色區域被錯誤地轉換為用于診斷的有效組織區域,即引入了校正偽影,將干擾后續診斷。
4.2 診斷模型結果及分析
未采用顏色校正算法和采用顏色校正算法情況下,智能診斷模型的Acc和macro F1評分如表5所示。

從表中結果來看,未進行顏色校正時,診斷模型的Acc和macro F1評分在內部測試集上可達到93.38%和0.933,但在外部測試集上僅為76.74%和0.843,表明該情況下構建的診斷模型泛化性弱,無法進行跨數據集應用。
采用顏色校正算法后,相較于未采用顏色校正算法的情況,雖然基于Color-CN和Stain-CN算法構建的診斷模型在內部測試集上的Acc和macro F1略有下降,但在外部測試集上相較于未校正情況均有明顯提升(Color-CN:+11.63%和+0.058;Stain-CN:+11.63%和+0.016),說明顏色校正過程可有效提升診斷模型的泛化性能。
采用本文所提的StainGAN-CN顏色校正算法,相較于未采用顏色校正算法,診斷模型的Acc與macro F1評分在內部和外部測試集上均具有較大提升(內部:+0.74%和+0.005;外部:+13.96%和+0.106),且明顯高于采用Color-CN與Stain-CN算法的結果,表明StainGAN-CN算法不僅可有效提升診斷模型診斷性能,還能提高模型泛化性。
5 結論
面向黑色素細胞病變精準診斷需求,本文共收集三個醫療中心981張染色風格多樣的黑色素細胞病變病理WSI,用于構建泛化性能較強的黑色素細胞病變全流程智能化精準診斷模型。研究結果表明,StainGAN-CN算法相比于Color-CN或Stain-CN算法,病理組織結構一致性保持及偽影抑制能力較強,且StainGAN-CN算法屬于圖像域間而非圖像間的風格映射,可最大程度保持所有病理組織結構信息,為構建泛化性能強的智能診斷模型奠定基礎。正如表5結果顯示:采用StainGAN-CN算法的智能診斷模型診斷性能最強,且在外部測試集上的Acc超過90.00%。同時,本文采用的ResNet-152網絡是醫學圖像處理任務中常用架構,其特征提取能力強,可充分挖掘黑色素細胞病變中形態學辨識度低且肉眼不可見的亞型特征,為黑色素細胞病變精準診斷提供重要支撐。此外,本文通過決策融合策略,使輸入為患者病理WSI數據、輸出為黑色素細胞病變類型成為可能,構建了一種全流程智能化的診斷框架,有望提升黑色素細胞病變診斷效率。
綜上所述,本文基于DL構建的針對黑色素細胞病變病理WSI的全流程智能化精準診斷模型,對于進一步探索數字病理精準診斷的臨床轉化具有重要的借鑒意義。但本文采用的外部測試集中數據量較少,且構建的智能診斷模型僅使用患者病理切片信息。后續研究將收集更多醫療中心的黑色素細胞病變患者病理數據進行智能診斷模型診斷性能的驗證,并探索融合患者臨床數據的智能診斷模型構建方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:本文算法程序設計、結果記錄分析以及論文撰寫由石田蕾完成;張家意負責提供實驗指導、數據分析指導和論文審閱修訂;鮑泳揚醫生承擔本文工作的臨床指導;高欣研究員承擔本文工作的論文審閱修訂與總體指導。
倫理聲明:本研究通過了上海交通大學醫學院附屬第九人民醫院倫理委員會的審批(批文編號:SH9H-2020-TK389-1)。