為了克服乳腺圖像微鈣化簇檢測中假陽性率高、泛化性差等缺點,本文提出了一種結合判別式深度置信網絡(DDBNs)自動快速定位乳腺 X 線圖像中微鈣化簇區域的方法。首先,對乳腺區域進行提取及增強,將增強后的乳腺區域進行子塊重疊分割和小波濾波;之后,構建用于乳腺子塊特征提取和分類的 DDBNs 模型,將預訓練后的 DDBNs 轉換成使用 softmax 分類器的深度神經網絡(DNN),并通過反向傳播對網絡進行微調;最后,輸入待檢乳腺 X 線圖像,完成可疑病灶區域的定位。通過對乳腺攝影篩查數據庫(DDSM)中的 105 幅含有微鈣化點的圖像進行實驗驗證,本文方法獲得了 99.45% 的真陽性率和 1.89%的假陽性率,且檢測一幅 2 888 × 4 680 大小圖像的時間約 16 s。實驗結果表明:該算法在保證較高真陽性率的同時有效地降低了假陽性率,檢測到的微鈣化簇區域與專家標記區域具有高度一致性,為乳腺 X 線圖像中微鈣化簇區域的自動檢測提供了新的研究思路。
引用本文: 宋立新, 魏雪芹, 王乾, 王玉靜. 結合判別式深度置信網絡的乳腺圖像微鈣化簇區域檢測. 生物醫學工程學雜志, 2021, 38(2): 268-275. doi: 10.7507/1001-5515.202001034 復制
引言
乳腺癌是女性中最常見以及死亡率增長速度最快的癌癥,據衛生組織國際癌癥研究機構報道,到 2030 年,乳腺癌事件將增加到 110 萬[1]。因此,乳腺癌的早期診斷非常重要。微鈣化簇是早期乳腺癌的一個重要征像,30%~50% 早期乳腺癌患者的乳腺 X 線圖像上會出現微鈣化簇。微鈣化簇由微鈣化點(microcalcification,MC)形成,后者是微小的鈣沉積物,在乳腺 X 線圖像中顯示為小亮點,若每平方厘米內至少含有 3 個 MC,即形成微鈣化簇[2]。鈣化點大小不一、形態多變、分布隨機,且與周圍乳腺組織對比度低,放射科醫生由于經驗個體差異、疲勞積累等主觀因素,導致早期診斷的準確率較低[3]。計算機輔助檢測(computer-aided detection,CAD)可為閱片醫生在檢測病變和給出診斷決策時提供輔助,成為“第二診療意見”[4]。在實施乳腺癌計算機輔助探測和診斷過程中,第一個環節是如何自動發現和定位乳腺圖像中可疑的病灶區域,即感興趣區域(region of interest,ROI)。鈣化點簇的準確識別與定位是乳腺計算機輔助診斷的關鍵,對乳腺癌的早期診斷具有重要意義。
目前,關于乳腺鈣化區域的檢測算法幾乎都是基于特征提取和分類器,即先提取圖像的統計特征、紋理特征等一系列特征,之后再利用諸如人工神經網絡、隨機森林、貝葉斯分類器、支持向量機(support vector machine,SVM)等來分類。王瑞平等[5]將獨立分量分析方法應用于乳腺 ROI 得到基圖像,將待識別乳腺 ROI 在基圖像所構成的子空間進行投影得到其特征矢量;然后,應用后向傳遞神經網絡(back propagation neural network,BPNN)對乳腺樣本進行模式判別。Zhang 等[6]使用加權型分數傅里葉變換(weighted-type fractional Fourier transform,WFRFT)提取乳腺樣本圖像頻譜,通過主成分分析法對頻譜降維,最后應用 SVM 對樣本進行分類。彭慶濤等[7]利用灰度共生矩陣提取樣本圖像的能量、熵、對比度、相關性及小波分解后得到各層高頻系數的方差、能量作為特征向量,然后利用 SVM 進行訓練建立最優分類模型。Wang 等[8]基于周圍區域依賴方法提取乳腺樣本特征,之后,應用改進的隨機森林分類器進行分類。Liu 等[9]提取可疑區域的幾何特征和紋理特征,應用可能性模糊 C-均值(possibilistic fuzzy c-means,PFCM)聚類算法將乳腺樣本劃分為有無鈣化點的兩類,并計算樣本的權重大小;之后訓練加權支持向量機(weighted support vector machine,WSVM),判別可疑區域有無微鈣化。
上述對鈣化點特征提取的方法依賴于人為設計和選擇,直接影響分類結果。近年來,深度學習在醫學圖像的病變檢測方面展現了良好的應用前景[10-11]。基于深度學習的乳腺癌病理圖像分類[12-13]利用數據驅動,自動從大量數據中學習特征,避免了傳統算法中的人工設計。Wang 等[14]提出了一個基于上下文敏感的深度神經網絡(deep neural networks,DNN),它由兩個卷積神經網絡(convolutional neural networks,CNN)組成,一個子網用于提取 MC 對象的局部特征,另一個用于提取 MC 周圍的上下文信息,提取的兩路圖像特征被一起送入到全連接層中,完成乳腺正負樣本的分類判別,結果表明可以顯著降低檢測假陽性率。張新生等[15]結合細粒度級聯增強網絡與多尺度特征融合算法(multi-scale feature fusion,MFF)對微鈣化簇進行檢測,結果表明可提升微小目標的檢測準確率。Kooi 等[16]利用改進的視覺幾何群網絡(visual geometry group network,VGG)深度網絡提取微鈣化簇特征,并以優化的隨機森林算法選擇特征,該模型性能優于計算機輔助檢測所用的最新系統,但靈敏度還有待提高。
為了減少人為設計特征引發的不完備,自動學習乳腺樣本塊的特征,克服微鈣化簇檢測中假陽性率高、泛化性差等缺點,本文將小波濾波與判別式深度置信網絡(discriminative deep belief networks,DDBNs)相結合,來自動快速定位乳腺 X 線圖像中的微鈣化簇區域。
1 實驗數據
實驗中的乳腺 X 線圖像數據來自乳腺攝影篩查數據庫(Digital Database for Screening Mammography,DDSM),網址是 http://marathon.csee.usf.edu/Mammography/Database.html。該數據庫來源于美國南佛羅里達州立大學,共收集了約 2 600 個正常和非正常的病例(Case),每個病例包含四幅圖像(MLO 視圖和 CC 視圖各兩幅)[17]。非正常病例包括含有微鈣化簇或者腫塊的病例,并由放射科醫生標注病變區域和相應的良惡性診斷信息,圖像大小為 5 000 × 3 000 左右。
本文研究中,從數據庫中選取了 404 幅圖像作為實驗數據,其中含微鈣化簇的 365 幅,正常 39 幅。將實驗數據分為 DDBNs 模型實驗數據 299 幅和整體檢測算法測試數據 105 幅。DDBNs 模型實驗數據中 225 幅用于產生訓練集,74 幅用于產生測試集。DDBNs 模型訓練集和測試集由鈣化簇子塊、正常子塊和邊界子塊 3 類樣本組成,分別來自于含微鈣化簇圖像和正常乳腺圖像部分區域分割的子塊;對子塊樣本采用重疊分割的方式進行樣本數據增強,相鄰子塊重疊程度為 75%;最終訓練集含 3 類樣本數量各 5 000 個,測試集里含 3 類樣本數量各 1 000 個,且訓練集和測試集互不交疊。
2 方法
本文所提出的自動檢測微鈣化簇區域的方法主要包括:乳腺區域提取和增強、子塊分割與處理、DDBNs 模型構建、子塊特征提取與分類以及可疑病灶區域標記。微鈣化簇區域檢測總體框圖如圖 1 所示。

2.1 乳腺區域提取與增強
為去除原始乳腺 X 線圖像中的標簽、胸肌、邊緣、背景等干擾項,采用文獻[18]的閾值分割、最大連通區域、二值化掩模方法等來提取乳腺區域。圖 2 為提取的乳腺區域。

由于乳腺 X 線圖像中鈣化點與周圍乳腺組織的對比度很低,較為常用的方法有直方圖均衡化、時域濾波、空域濾波以及對比度擴展等,這些方法凸顯微鈣化簇區域效果不好。考慮到鈣化點為置于低頻背景和極高頻噪聲中的高頻信號,本文結合形態學[18]、小波變換及文獻[19]的伽馬變換(Gamma 校正)增強對比度,以突出鈣化簇信息抑制周圍組織和腺體的信息。乳腺區域形態學增強和伽馬變換增強結果如圖 3 所示。

2.2 子塊分割
為了對乳腺區域圖像進行掃描檢測和定位鈣化簇區域,本文對乳腺區域圖像進行有重疊的子塊分割,并記錄子塊位置。子塊分割大小為 96 × 96,為確保分割后的子塊同等大小,在分割乳腺區域之前,對圖像進行整分處理。若不能整分,采用圖像右邊界或者下邊界進行補零措施。子塊分割圖及三類乳腺樣本如圖 4 所示。

2.3 子塊小波濾波
鈣化點是夾雜在低頻背景和極高頻噪聲中的離散的點,為了在保留鈣化點的同時減少背景和噪聲的干擾,本文充分利用小波變換在時頻分析和多分辨率分析方面的卓越性能來分解乳腺圖像。
采用“sym4”小波基函數分解和重構乳腺子塊,分解層數為 5,分解后得到一組近似系數和十五組細節系數。之后,采用小波屏蔽濾波法和小波閾值濾波法進行對比研究。屏蔽濾波法:將小波分解后得到的近似系數以及第 5 層的小波系數置零,之后進行小波重構。小波閾值濾波法:將小波分解后得到的近似系數置零,對 1~5 層的水平、豎直、對角高頻系數分別按各自的均值加上標準方差作為閾值對其進行小波閾值處理,之后進行小波重構。乳腺子塊經小波屏蔽濾波法和小波閾值濾波法重構后的結果如圖 5 所示。

由圖 5 可看出,噪聲點與鈣化點灰度值相差較小,屏蔽濾波法使部分鈣化點也被濾除,而小波閾值濾波法能更好地保留鈣化點信息。但是,兩種方法對分類的有效性還需通過分類算法進行對比分析。
經小波去噪后的乳腺子塊中還含有偽影,即類似鈣化點的亮度微弱或面積過小的點。為了進一步去除干擾信息,本文采用以下處理方法。
(1)采用閾值法去除背景干擾,小于閾值認為是背景,予以置零。
(2)采用面積剔除法,刪除面積過小的點,以抑制噪聲的影響。
(3)采用灰度值線性拉伸來增強鈣化點信息。
鈣化塊預處理過程見圖 6。最終結果如最右側的灰度拉伸后圖像所示,最大程度地去除了背景信息,同時增強了鈣化點信息。

2.4 乳腺子塊特征提取與分類
2.4.1 DDBNs 模型構建
本文采用由兩層生成受限玻爾茲曼機(generative restricted Boltzmann machine,GRBM)和一層判別式受限玻爾茲曼機(discriminative restricted Boltzmann machine,DRBM)堆疊而成的 DDBNs 模型,作為乳腺子塊樣本特征提取與分類的初始深度學習模型,如圖 7 所示,輸入子塊特征維度 9 216,類別數 3。

GRBM 是一種基于能量的生成隨機神經網絡[20],用于提取乳腺子塊樣本高層次的特征。DRBM 除了可以對輸入數據進行特征學習外,還能對輸入和關聯目標類的聯合分布進行建模,即 DRBM 采用含有兩組可見層的單個 RBM。DRBM 模型如圖 8 所示,A 表示輸入樣本數據,B 表示類別標簽,相當于“Softmax”。通過計算樣本在每個類別標簽下的概率值,來預測最可能的類別。

將 DRBM 置于網絡的最后一層,可連續實現對輸入數據的特征提取及分類,相比于傳統的在深度學習模型的最后一層添加分類器的方法,可降低學習耗時,提高分類準確度。
2.4.2 DDBNs 模型預訓練
RBM 的訓練過程為最大化訓練樣本的似然度,本文 RBM 訓練采用快速學習算法——對比散度算法(contrastive divergence,CD)[21]。
DDBNs 使用逐層貪婪的無監督學習訓練每個 RBM 來重構它的輸入,將按最小最大值歸一化后的乳腺子塊樣本數據集送入首層 GRBM,首層 GRBM 訓練后輸出的數據作為下一層 GRBM 的輸入數據,經無監督訓練獲得 RBM 網絡參數及高層次特征。將第二層 GRBM 的輸出送入頂層 DRBM,頂層 DRBM 經有監督學習得到樣本在各類別下的后驗概率,完成樣本的初分類。
2.4.3 DDBNs 模型有監督微調
為了進一步提高網絡的分類精度,DDBNs 預訓練完成后,將 DDBNs 轉換為 Softmax 回歸層作為判別輸出的 DNN,模型結構如圖 9 所示。采用式(1)損失函數作為監督訓練的目標函數,并通過反向傳播(back propagation,BP)調整預訓練 DNN 網絡參數,直到收斂。

![]() |
式中:第一項是交叉熵損失函數, 為訓練樣本數,
為樣本類別數,
為頂層的輸入特征,
為指示函數,
在
時取 1,否則取 0;第二項是權重衰減項,
為樣本特征維度的大小,
是第
類第
個樣本所對應的模型參數。采用梯度下降法使損失函數
最小化。
3 實驗與結果分析
3.1 小波濾波法和 DDBNs 模型性能評估
預訓練階段參數設置:批次訓練尺寸大小為 100;依據初始學習率不宜過大,多次實驗后確定學習率為 0.1;總訓練次數為 50;依據隨訓練次數的增加,梯度相關性逐漸減小,動量設為[0.5,0.4,0.3,0.2,0.1,0]。微調階段參數設置:批次訓練尺寸大小為 100;總訓練次數為 300;學習率為 1;動量:0.5。本實驗的計算機環境為:中央處理器(central processing unit,CPU)(Core i7-6700 @ 3.4 GHz,Intel,美國);隨機存取存儲器(random access memory,RAM)(DDR4 16 GB,Samsung,韓國)。
為便于對分類結果進行性能評估,本文使用真陽性率(true positive rate,TPR)、假陽性率(false positive rate,FPR)、整體精度(overall accuracy,OA)三個評價指標對乳腺子塊樣本分類的準確度和穩定性進行評估。其定義如式(2)所示:
![]() |
式中:TP 表示真陽性,正確判斷含有鈣化簇子塊的樣本數;FN 表示假陰性,錯誤地將含有鈣化簇的子塊判斷為正常子塊或邊界子塊的樣本數;FP 表示假陽性,錯誤地將不含有鈣化簇的子塊判斷為含有鈣化簇子塊的樣本數;TN 表示真陰性,正確判斷不含有鈣化簇的樣本數。
為了測試 DDBNs 模型對不同小波濾波法處理的性能,采用 DDBNs 模型結構為 9 216-1 024-1 024-1 024-3,分別用經小波屏蔽濾波法和小波閾值濾波法處理后的實驗數據集進行訓練和分類。訓練集含 3 類樣本數量各有 5 000 個,測試集里含 3 類樣本數量各有 1 000 個,且訓練集和測試集互不交疊,經 10 次重復實驗,DDBNs 模型微調前后的乳腺子塊樣本測試 OA、TPR、FPR 對比如表 1 所示。

由表 1 結果看出,經微調后 OA、TPR 升高,FPR 降低,驗證了 DDBNs 網絡模型微調的有效性,小波屏蔽濾波法比小波閾值濾波法取得了更高的整體精度和更低的假陽性率,但小波閾值濾波法取得了更高的真陽性率。為了進一步考察模型在各個類別上的表現,選取其中一次實驗結果,微調后的 3 類乳腺子塊樣本分類結果混淆矩陣對比如表 2 所示。

由于本文目的是輔助醫生檢測可疑病灶區域,所以要求真陽性率盡可能高一些,因此本文后續將采用小波閾值濾波法對乳腺圖像進行檢測分析,且將本次實驗數據作為最優 DDBNs 模型。
3.2 檢測效果分析
為了進一步評估 DDBNs 模型在實際應用中的性能,我們對整幅乳腺圖像進行檢測分析,待檢圖像相鄰子塊分割的重疊程度為 50%,對所有非零子塊進行遍歷及分類判別。為進一步降低假陽性率,對 DDBNs 判別為鈣化簇的子塊,增加了塊內最少含有兩個連通區域的限制,這樣的子塊被標記出來。圖 10 分別是 5 個案例檢測效果圖,案例檢測結果如表 3 所示。


對比檢測出的可疑鈣化區域圖像和專家標注區域,可以看出可疑鈣化區域全面覆蓋專家標注鈣化區域;一幅圖像檢測時間約 20 s,速度較快。實驗中一共對 DDSM 數據庫中 105 幅圖像進行了檢測分析,乳腺區域子塊總數 212 243 個,共含鈣化簇子塊 662 個,本文算法獲得了 99.45% 的真陽性率和 1.89% 的假陽性率。
將本文方法與文獻中 4 種方法進行了比較,其中包括:基于小波分析和 SVM 檢測微鈣化簇區域[7];結合大量無病變區域的信息訓練多級組合分類器,以定位 ROI[22];采用改進小波算法實現微鈣化簇區域自動檢測[23];基于多尺度 Hessian 矩陣和 Tsallis 熵閾值法檢測微鈣化簇區域[24]。文獻檢查微鈣化簇結果如表 4 所示。

將表 4 與本文結果比較可知,有的方法雖然取得了極高的真陽性率(100%),但其假陽性率也非常高(8.65%);有的方法假陽性率特低(0.45%),但是真陽性率不算很高(97.08%);而本文方法在保證較高真陽性率的同時(99.45%),有效地降低了假陽性率(1.89%)。
4 結論
本文提出了一種將子塊分割、小波濾波與 DDBNs 相結合的方法,可自動快速檢測乳腺 X 線圖像中的可疑病灶區域。通過對原乳腺 X 線圖像預處理以及子塊預處理,不僅減少了干擾的影響,還增強了鈣化點信息;利用構建的 DDBNs 對子塊樣本數據進行特征學習與分類,使 DRBM 的特征學習和分類能力有效發揮,同時克服了人為特征設計及選取的影響,顯示了 DDBNs 模型適于提取鈣化點這種突變信號特征。實驗結果表明:本文方法在乳腺圖像的鈣化簇檢測中取得較高的真陽性率和較低的假陽性率,具有較強的泛化識別能力,為鈣化簇區域檢測奠定了基礎。
本文算法雖然取得了較高的真陽性率,但假陽性率還有待降低。另外,本文沒有對定位的病灶區域進行良惡性分類,雖然 DDBNs 模型適于提取鈣化點這種突變信號特征,但良惡性識別涉及更多的圖像特征,而 DDBNs 模型的神經元排列的一維特點是否會影響良惡性識別還有待研究。因此,結合病灶區域定位的良惡性預測依然是未來值得深入探究的課題。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
乳腺癌是女性中最常見以及死亡率增長速度最快的癌癥,據衛生組織國際癌癥研究機構報道,到 2030 年,乳腺癌事件將增加到 110 萬[1]。因此,乳腺癌的早期診斷非常重要。微鈣化簇是早期乳腺癌的一個重要征像,30%~50% 早期乳腺癌患者的乳腺 X 線圖像上會出現微鈣化簇。微鈣化簇由微鈣化點(microcalcification,MC)形成,后者是微小的鈣沉積物,在乳腺 X 線圖像中顯示為小亮點,若每平方厘米內至少含有 3 個 MC,即形成微鈣化簇[2]。鈣化點大小不一、形態多變、分布隨機,且與周圍乳腺組織對比度低,放射科醫生由于經驗個體差異、疲勞積累等主觀因素,導致早期診斷的準確率較低[3]。計算機輔助檢測(computer-aided detection,CAD)可為閱片醫生在檢測病變和給出診斷決策時提供輔助,成為“第二診療意見”[4]。在實施乳腺癌計算機輔助探測和診斷過程中,第一個環節是如何自動發現和定位乳腺圖像中可疑的病灶區域,即感興趣區域(region of interest,ROI)。鈣化點簇的準確識別與定位是乳腺計算機輔助診斷的關鍵,對乳腺癌的早期診斷具有重要意義。
目前,關于乳腺鈣化區域的檢測算法幾乎都是基于特征提取和分類器,即先提取圖像的統計特征、紋理特征等一系列特征,之后再利用諸如人工神經網絡、隨機森林、貝葉斯分類器、支持向量機(support vector machine,SVM)等來分類。王瑞平等[5]將獨立分量分析方法應用于乳腺 ROI 得到基圖像,將待識別乳腺 ROI 在基圖像所構成的子空間進行投影得到其特征矢量;然后,應用后向傳遞神經網絡(back propagation neural network,BPNN)對乳腺樣本進行模式判別。Zhang 等[6]使用加權型分數傅里葉變換(weighted-type fractional Fourier transform,WFRFT)提取乳腺樣本圖像頻譜,通過主成分分析法對頻譜降維,最后應用 SVM 對樣本進行分類。彭慶濤等[7]利用灰度共生矩陣提取樣本圖像的能量、熵、對比度、相關性及小波分解后得到各層高頻系數的方差、能量作為特征向量,然后利用 SVM 進行訓練建立最優分類模型。Wang 等[8]基于周圍區域依賴方法提取乳腺樣本特征,之后,應用改進的隨機森林分類器進行分類。Liu 等[9]提取可疑區域的幾何特征和紋理特征,應用可能性模糊 C-均值(possibilistic fuzzy c-means,PFCM)聚類算法將乳腺樣本劃分為有無鈣化點的兩類,并計算樣本的權重大小;之后訓練加權支持向量機(weighted support vector machine,WSVM),判別可疑區域有無微鈣化。
上述對鈣化點特征提取的方法依賴于人為設計和選擇,直接影響分類結果。近年來,深度學習在醫學圖像的病變檢測方面展現了良好的應用前景[10-11]。基于深度學習的乳腺癌病理圖像分類[12-13]利用數據驅動,自動從大量數據中學習特征,避免了傳統算法中的人工設計。Wang 等[14]提出了一個基于上下文敏感的深度神經網絡(deep neural networks,DNN),它由兩個卷積神經網絡(convolutional neural networks,CNN)組成,一個子網用于提取 MC 對象的局部特征,另一個用于提取 MC 周圍的上下文信息,提取的兩路圖像特征被一起送入到全連接層中,完成乳腺正負樣本的分類判別,結果表明可以顯著降低檢測假陽性率。張新生等[15]結合細粒度級聯增強網絡與多尺度特征融合算法(multi-scale feature fusion,MFF)對微鈣化簇進行檢測,結果表明可提升微小目標的檢測準確率。Kooi 等[16]利用改進的視覺幾何群網絡(visual geometry group network,VGG)深度網絡提取微鈣化簇特征,并以優化的隨機森林算法選擇特征,該模型性能優于計算機輔助檢測所用的最新系統,但靈敏度還有待提高。
為了減少人為設計特征引發的不完備,自動學習乳腺樣本塊的特征,克服微鈣化簇檢測中假陽性率高、泛化性差等缺點,本文將小波濾波與判別式深度置信網絡(discriminative deep belief networks,DDBNs)相結合,來自動快速定位乳腺 X 線圖像中的微鈣化簇區域。
1 實驗數據
實驗中的乳腺 X 線圖像數據來自乳腺攝影篩查數據庫(Digital Database for Screening Mammography,DDSM),網址是 http://marathon.csee.usf.edu/Mammography/Database.html。該數據庫來源于美國南佛羅里達州立大學,共收集了約 2 600 個正常和非正常的病例(Case),每個病例包含四幅圖像(MLO 視圖和 CC 視圖各兩幅)[17]。非正常病例包括含有微鈣化簇或者腫塊的病例,并由放射科醫生標注病變區域和相應的良惡性診斷信息,圖像大小為 5 000 × 3 000 左右。
本文研究中,從數據庫中選取了 404 幅圖像作為實驗數據,其中含微鈣化簇的 365 幅,正常 39 幅。將實驗數據分為 DDBNs 模型實驗數據 299 幅和整體檢測算法測試數據 105 幅。DDBNs 模型實驗數據中 225 幅用于產生訓練集,74 幅用于產生測試集。DDBNs 模型訓練集和測試集由鈣化簇子塊、正常子塊和邊界子塊 3 類樣本組成,分別來自于含微鈣化簇圖像和正常乳腺圖像部分區域分割的子塊;對子塊樣本采用重疊分割的方式進行樣本數據增強,相鄰子塊重疊程度為 75%;最終訓練集含 3 類樣本數量各 5 000 個,測試集里含 3 類樣本數量各 1 000 個,且訓練集和測試集互不交疊。
2 方法
本文所提出的自動檢測微鈣化簇區域的方法主要包括:乳腺區域提取和增強、子塊分割與處理、DDBNs 模型構建、子塊特征提取與分類以及可疑病灶區域標記。微鈣化簇區域檢測總體框圖如圖 1 所示。

2.1 乳腺區域提取與增強
為去除原始乳腺 X 線圖像中的標簽、胸肌、邊緣、背景等干擾項,采用文獻[18]的閾值分割、最大連通區域、二值化掩模方法等來提取乳腺區域。圖 2 為提取的乳腺區域。

由于乳腺 X 線圖像中鈣化點與周圍乳腺組織的對比度很低,較為常用的方法有直方圖均衡化、時域濾波、空域濾波以及對比度擴展等,這些方法凸顯微鈣化簇區域效果不好。考慮到鈣化點為置于低頻背景和極高頻噪聲中的高頻信號,本文結合形態學[18]、小波變換及文獻[19]的伽馬變換(Gamma 校正)增強對比度,以突出鈣化簇信息抑制周圍組織和腺體的信息。乳腺區域形態學增強和伽馬變換增強結果如圖 3 所示。

2.2 子塊分割
為了對乳腺區域圖像進行掃描檢測和定位鈣化簇區域,本文對乳腺區域圖像進行有重疊的子塊分割,并記錄子塊位置。子塊分割大小為 96 × 96,為確保分割后的子塊同等大小,在分割乳腺區域之前,對圖像進行整分處理。若不能整分,采用圖像右邊界或者下邊界進行補零措施。子塊分割圖及三類乳腺樣本如圖 4 所示。

2.3 子塊小波濾波
鈣化點是夾雜在低頻背景和極高頻噪聲中的離散的點,為了在保留鈣化點的同時減少背景和噪聲的干擾,本文充分利用小波變換在時頻分析和多分辨率分析方面的卓越性能來分解乳腺圖像。
采用“sym4”小波基函數分解和重構乳腺子塊,分解層數為 5,分解后得到一組近似系數和十五組細節系數。之后,采用小波屏蔽濾波法和小波閾值濾波法進行對比研究。屏蔽濾波法:將小波分解后得到的近似系數以及第 5 層的小波系數置零,之后進行小波重構。小波閾值濾波法:將小波分解后得到的近似系數置零,對 1~5 層的水平、豎直、對角高頻系數分別按各自的均值加上標準方差作為閾值對其進行小波閾值處理,之后進行小波重構。乳腺子塊經小波屏蔽濾波法和小波閾值濾波法重構后的結果如圖 5 所示。

由圖 5 可看出,噪聲點與鈣化點灰度值相差較小,屏蔽濾波法使部分鈣化點也被濾除,而小波閾值濾波法能更好地保留鈣化點信息。但是,兩種方法對分類的有效性還需通過分類算法進行對比分析。
經小波去噪后的乳腺子塊中還含有偽影,即類似鈣化點的亮度微弱或面積過小的點。為了進一步去除干擾信息,本文采用以下處理方法。
(1)采用閾值法去除背景干擾,小于閾值認為是背景,予以置零。
(2)采用面積剔除法,刪除面積過小的點,以抑制噪聲的影響。
(3)采用灰度值線性拉伸來增強鈣化點信息。
鈣化塊預處理過程見圖 6。最終結果如最右側的灰度拉伸后圖像所示,最大程度地去除了背景信息,同時增強了鈣化點信息。

2.4 乳腺子塊特征提取與分類
2.4.1 DDBNs 模型構建
本文采用由兩層生成受限玻爾茲曼機(generative restricted Boltzmann machine,GRBM)和一層判別式受限玻爾茲曼機(discriminative restricted Boltzmann machine,DRBM)堆疊而成的 DDBNs 模型,作為乳腺子塊樣本特征提取與分類的初始深度學習模型,如圖 7 所示,輸入子塊特征維度 9 216,類別數 3。

GRBM 是一種基于能量的生成隨機神經網絡[20],用于提取乳腺子塊樣本高層次的特征。DRBM 除了可以對輸入數據進行特征學習外,還能對輸入和關聯目標類的聯合分布進行建模,即 DRBM 采用含有兩組可見層的單個 RBM。DRBM 模型如圖 8 所示,A 表示輸入樣本數據,B 表示類別標簽,相當于“Softmax”。通過計算樣本在每個類別標簽下的概率值,來預測最可能的類別。

將 DRBM 置于網絡的最后一層,可連續實現對輸入數據的特征提取及分類,相比于傳統的在深度學習模型的最后一層添加分類器的方法,可降低學習耗時,提高分類準確度。
2.4.2 DDBNs 模型預訓練
RBM 的訓練過程為最大化訓練樣本的似然度,本文 RBM 訓練采用快速學習算法——對比散度算法(contrastive divergence,CD)[21]。
DDBNs 使用逐層貪婪的無監督學習訓練每個 RBM 來重構它的輸入,將按最小最大值歸一化后的乳腺子塊樣本數據集送入首層 GRBM,首層 GRBM 訓練后輸出的數據作為下一層 GRBM 的輸入數據,經無監督訓練獲得 RBM 網絡參數及高層次特征。將第二層 GRBM 的輸出送入頂層 DRBM,頂層 DRBM 經有監督學習得到樣本在各類別下的后驗概率,完成樣本的初分類。
2.4.3 DDBNs 模型有監督微調
為了進一步提高網絡的分類精度,DDBNs 預訓練完成后,將 DDBNs 轉換為 Softmax 回歸層作為判別輸出的 DNN,模型結構如圖 9 所示。采用式(1)損失函數作為監督訓練的目標函數,并通過反向傳播(back propagation,BP)調整預訓練 DNN 網絡參數,直到收斂。

![]() |
式中:第一項是交叉熵損失函數, 為訓練樣本數,
為樣本類別數,
為頂層的輸入特征,
為指示函數,
在
時取 1,否則取 0;第二項是權重衰減項,
為樣本特征維度的大小,
是第
類第
個樣本所對應的模型參數。采用梯度下降法使損失函數
最小化。
3 實驗與結果分析
3.1 小波濾波法和 DDBNs 模型性能評估
預訓練階段參數設置:批次訓練尺寸大小為 100;依據初始學習率不宜過大,多次實驗后確定學習率為 0.1;總訓練次數為 50;依據隨訓練次數的增加,梯度相關性逐漸減小,動量設為[0.5,0.4,0.3,0.2,0.1,0]。微調階段參數設置:批次訓練尺寸大小為 100;總訓練次數為 300;學習率為 1;動量:0.5。本實驗的計算機環境為:中央處理器(central processing unit,CPU)(Core i7-6700 @ 3.4 GHz,Intel,美國);隨機存取存儲器(random access memory,RAM)(DDR4 16 GB,Samsung,韓國)。
為便于對分類結果進行性能評估,本文使用真陽性率(true positive rate,TPR)、假陽性率(false positive rate,FPR)、整體精度(overall accuracy,OA)三個評價指標對乳腺子塊樣本分類的準確度和穩定性進行評估。其定義如式(2)所示:
![]() |
式中:TP 表示真陽性,正確判斷含有鈣化簇子塊的樣本數;FN 表示假陰性,錯誤地將含有鈣化簇的子塊判斷為正常子塊或邊界子塊的樣本數;FP 表示假陽性,錯誤地將不含有鈣化簇的子塊判斷為含有鈣化簇子塊的樣本數;TN 表示真陰性,正確判斷不含有鈣化簇的樣本數。
為了測試 DDBNs 模型對不同小波濾波法處理的性能,采用 DDBNs 模型結構為 9 216-1 024-1 024-1 024-3,分別用經小波屏蔽濾波法和小波閾值濾波法處理后的實驗數據集進行訓練和分類。訓練集含 3 類樣本數量各有 5 000 個,測試集里含 3 類樣本數量各有 1 000 個,且訓練集和測試集互不交疊,經 10 次重復實驗,DDBNs 模型微調前后的乳腺子塊樣本測試 OA、TPR、FPR 對比如表 1 所示。

由表 1 結果看出,經微調后 OA、TPR 升高,FPR 降低,驗證了 DDBNs 網絡模型微調的有效性,小波屏蔽濾波法比小波閾值濾波法取得了更高的整體精度和更低的假陽性率,但小波閾值濾波法取得了更高的真陽性率。為了進一步考察模型在各個類別上的表現,選取其中一次實驗結果,微調后的 3 類乳腺子塊樣本分類結果混淆矩陣對比如表 2 所示。

由于本文目的是輔助醫生檢測可疑病灶區域,所以要求真陽性率盡可能高一些,因此本文后續將采用小波閾值濾波法對乳腺圖像進行檢測分析,且將本次實驗數據作為最優 DDBNs 模型。
3.2 檢測效果分析
為了進一步評估 DDBNs 模型在實際應用中的性能,我們對整幅乳腺圖像進行檢測分析,待檢圖像相鄰子塊分割的重疊程度為 50%,對所有非零子塊進行遍歷及分類判別。為進一步降低假陽性率,對 DDBNs 判別為鈣化簇的子塊,增加了塊內最少含有兩個連通區域的限制,這樣的子塊被標記出來。圖 10 分別是 5 個案例檢測效果圖,案例檢測結果如表 3 所示。


對比檢測出的可疑鈣化區域圖像和專家標注區域,可以看出可疑鈣化區域全面覆蓋專家標注鈣化區域;一幅圖像檢測時間約 20 s,速度較快。實驗中一共對 DDSM 數據庫中 105 幅圖像進行了檢測分析,乳腺區域子塊總數 212 243 個,共含鈣化簇子塊 662 個,本文算法獲得了 99.45% 的真陽性率和 1.89% 的假陽性率。
將本文方法與文獻中 4 種方法進行了比較,其中包括:基于小波分析和 SVM 檢測微鈣化簇區域[7];結合大量無病變區域的信息訓練多級組合分類器,以定位 ROI[22];采用改進小波算法實現微鈣化簇區域自動檢測[23];基于多尺度 Hessian 矩陣和 Tsallis 熵閾值法檢測微鈣化簇區域[24]。文獻檢查微鈣化簇結果如表 4 所示。

將表 4 與本文結果比較可知,有的方法雖然取得了極高的真陽性率(100%),但其假陽性率也非常高(8.65%);有的方法假陽性率特低(0.45%),但是真陽性率不算很高(97.08%);而本文方法在保證較高真陽性率的同時(99.45%),有效地降低了假陽性率(1.89%)。
4 結論
本文提出了一種將子塊分割、小波濾波與 DDBNs 相結合的方法,可自動快速檢測乳腺 X 線圖像中的可疑病灶區域。通過對原乳腺 X 線圖像預處理以及子塊預處理,不僅減少了干擾的影響,還增強了鈣化點信息;利用構建的 DDBNs 對子塊樣本數據進行特征學習與分類,使 DRBM 的特征學習和分類能力有效發揮,同時克服了人為特征設計及選取的影響,顯示了 DDBNs 模型適于提取鈣化點這種突變信號特征。實驗結果表明:本文方法在乳腺圖像的鈣化簇檢測中取得較高的真陽性率和較低的假陽性率,具有較強的泛化識別能力,為鈣化簇區域檢測奠定了基礎。
本文算法雖然取得了較高的真陽性率,但假陽性率還有待降低。另外,本文沒有對定位的病灶區域進行良惡性分類,雖然 DDBNs 模型適于提取鈣化點這種突變信號特征,但良惡性識別涉及更多的圖像特征,而 DDBNs 模型的神經元排列的一維特點是否會影響良惡性識別還有待研究。因此,結合病灶區域定位的良惡性預測依然是未來值得深入探究的課題。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。