針對自動檢測醫學圖像中指定目標時存在的問題,提出了一種基于深度學習自動檢測目標位置和估計對象姿態的算法。該算法基于區域深度卷積神經網絡和目標結構的先驗知識,采用區域生成候選框網絡、感興趣區域池化策略,引入包括分類損失、邊框位置回歸定位損失和像平面內朝向損失的多任務損失函數,近似優化一個端到端的有監督定位網絡,能快速地對醫學圖像中目標自動定位,有效地為下一步的分割和參數自動提取提供定位結果。并在超聲心動圖左心室檢測中提出利用檢測額外標記點(二尖瓣環、心內膜墊和心尖),能高效地對左心室朝向姿態進行估計。為了驗證算法的魯棒性和有效性,實驗數據選取經食管超聲心動圖和核磁共振圖像。實驗結果表明算法是快速、精確和有效的。
引用本文: 陶攀, 付忠良, 朱鍇, 王莉莉. 基于深度學習的醫學計算機輔助檢測方法研究. 生物醫學工程學雜志, 2018, 35(3): 368-375. doi: 10.7507/1001-5515.201611064 復制
引言
計算機輔助檢測(computer-aided detection,CAD)是醫學影像診斷過程中的一項重要任務,是進行相關結構功能測量的前提條件。其中,二維圖像的目標組織結構自動檢測是 CAD 技術的核心基礎。在臨床實踐中,醫生需整合不同模態、不同位置方向且以不同比例顯示的圖像信息,目前的研究主要關注如何使檢測過程快速自動化。由于醫學影像自身的特殊性,比如缺乏大量高質量標注數據,大多數醫學目標組織結構存在非剛性形變,以及圖像背景前景的區分不明顯等,導致組織結構自動定位比較困難。現有大多數 CAD 系統在臨床實際應用中表現不佳,檢測結果的敏感性和特異性都較低,診斷效能較低[1]。
不同模態的醫學圖像中,如超聲、計算機斷層掃描(computed tomography,CT)和核磁共振(magnetic resonance imaging,MRI)等,都存在目標身體器官自動定位的問題。以左心室(left ventricle,LV)檢測為例,大多數 LV 定位方法主要依據位置、時間和形狀的假設。基于位置的方法僅假設心室在圖像的中心,該方法并不對不同患者心室位置的差異性以及圖像的尺寸變化進行考慮,效果較差。基于時間的方法,假設 LV 是圖像中唯一的運動對象,然而這種方法假陽性率高,除心室的運動偽影之外,還存在其他運動的器官。Sch?llhuber[2] 針對 MRI 短軸使用時空信息并消除運動偽影,由分層模式匹配算法定位包含 LV 的感興趣區域,其通過使用互信息圖像配準使運動偽影最小化,隨后估計時間—特征強度曲線進行像素分類和邊界的提取,得到最終分割結果。基于形狀的方法將 LV 視為圓(短軸)、橢圓(長軸),然而該方法通常針對異常形狀的 LV 容錯性差。Lu 等[3]使用大津閾值度量圓形程度,然后進行霍夫變換定位 LV 位置。也可搜索每個切片的質心,并用三維最小二乘擬合去除異常值,得到分割結果[4]。
不依據具體的強先驗假設,機器學習算法可通過區分前景目標對象和背景來解決目標結構自動檢測的問題。Kellman 等[5]提出了一種使用概率集成提升樹來估計 LV 姿態和用空間間隔學習 LV 短軸邊界的方法。Zhou 等[6]在超聲心動圖中通過規一化集成提升回歸學習非線性映射以定位 LV,其團隊后來提出針對多個器官的特異性置信最大化分類器,整合更高的自由度以改善回歸定位任務的精度。She 等[7]通過利用基于子模塊函數優化理論的多標記搜索策略來進行標記點的檢測。Zheng 等[8]在實現器官定位的同時,通過組合優化置信度來估計目標器官的位置、縮放及朝向等參數值。前述機器學習算法都基于弱先驗知識,啟發式設計相關特征,結合滑動窗口策略,選擇分類器分類判斷窗口中內容以估計相應位置。
近來通用物體檢測領域取得巨大進展,主要得益于深度學習能利用大量標注數據,從原始像素出發,逐層分級學習中高層抽象語義特征[9]。區域卷積神經網絡[10]在大規模自然圖像數據集(如 ImageNet[11])上,識別性能遠超傳統方法[10, 12]。當前實踐中由于深度學習需要大量的訓練數據,所以僅在少數醫學任務中取得有限的成功應用。深度學習方法用在定位檢測問題時可分為兩個階段[13]:候選框位置選取和窗口內容類別分類。例如,利用深度卷積網絡進行顯微鏡圖像中細胞檢測[14]、結合深度全卷積網絡的 MRI 心室檢測與分割[15-16]和超聲圖像解剖結構的檢測[17]。這些方法大都關注特定目標結構的檢測分割,而本文專門針對目前 CAD 普遍存在的檢測定位問題,基于改進的生成候選框的快速區域深度卷積神經網絡[18]方法,提出一種醫學目標結構檢測框架,包括:① 在區域生成網絡的基礎上引入空間變換損失使得候選框生成網絡能捕捉目標的空間變換參數;② 采用在線困難樣例挖掘策略,加快訓練收斂過程,提高檢測小目標的準確度;③ 基于目標先驗知識,針對 LV 提出利用檢測二尖瓣環、心內膜墊和心尖位置,高效估計 LV 姿態參數。為驗證該算法的魯棒性和有效性,分別針對兩個具體 CAD 應用進行實驗分析。
1 區域卷積神經網絡概覽
1.1 物體檢測形式化定義
若用 r 來表示圖像中的矩形窗口區域,令 R 表示由對象檢測系統提供的所有候選窗口的集合,將有效定位標記定義為 R 的子集,使得標記位置中內容“不重疊”,令 Y 來表示所有有效標記位置的集合。并合并常用的非最大值抑制(non-maximum suppression,NMS)過程,給定圖像 x 和窗口評分函數 f,物體檢測算法流程可定義為:
算法 1 物體檢測
Input: 圖像 x,窗口得分函數 f
1: D: = 所有候選框 r ∈ R 使得 f(x,r)>0
2: 按 f 排序 D 使得 D 1 ≥ D 2 ≥ D 3 ≥
≥ Dn
3: y?: = {}
4: for i = 1 to n do
5: 若 Di 和 y?中任意候選框不重疊
6: y?: = y?∪{ Di }
7: end for
8: Return: 物體的目標位置 y?
形式化定義物體檢測過程見式(1),式中參數定義請參考算法 1。
![]() |
通常式(1)可通過貪心搜索的方法來完成,算法將聯合最小化在算法 1 中產生假陽例的數量和最大化檢測窗口評分函數,即尋找具有最大得分但同時不重疊的滑動窗口位置集合。
1.2 區域卷積神經網絡的演進
Girshick 等[10]在 2014 年首次提出區域卷積神經網絡(region-based convolutional neural network,RCNN),對每一候選框窗口都進行一次前向傳播,這將導致冗余計算,時間復雜度高。為解決這一問題,He 等[19]和 Girshick 等[13]提出 SPP-net 和 Fast RCNN 加以改進,不再把每一候選窗口均送入網絡,而是僅對圖像特征提取一次,把原圖中候選區域投影到卷積特征圖上,然后對投影后的區域特征圖進行空間感興趣區域池化得到固定長度的特征向量。其中 Fast RCNN 中的感興趣區域池化是 SPP-Net 中多尺度空間金字塔池化的特例,僅用單一尺度的金字塔池化操作。RCNN 及其改進的 Fast RCNN 都依賴于人為設計的候選框生成方法,如選擇性搜索等。為減少生成候選框的計算時間,Faster RCNN[18]中利用區域生成網絡(region proposal networks,RPN)和檢測網絡共享提取特征的卷積層,僅提取幾百個或者更少的高質量預選窗口,且召回率較高(導致更少的假陽例)。但現有的通用物體檢測算法均是假設候選框為矩形,不能解決旋轉朝向問題。
2 候選區域生成網絡及其改進
本節將分別從候選區域生成網絡模型的結構、仿射變換候選框區域的生成、空間變換損失函數的設計、模型訓練方法等方面介紹本文所提出框架,并結合 Faster RCNN 模型提出端到端的目標檢測方法。
2.1 候選區域生成網絡模型結構
候選區域生成網絡將一圖像(任意大小)作為輸入,輸出目標候選框的集合和每個候選框內有無目標的概率估計,如圖 1b 所示,RPN 在卷積層后接兩個全卷積層完成候選區域生成功能,以實現增加滑動窗口操作。該模型使用全卷積網絡[20]處理任意大小的圖片輸入,為了和目標檢測網絡[13]共享計算,在特征提取的過程中同時計算目標檢測所需的感興趣區域的初始估計,在最后一個共享卷積層輸出的特征映射圖上滑動小網絡,卷積特征映射圖上 n × n 大小空間窗口作為該網絡全連接的輸入,本文 n 取 3。每個滑動窗口映射到一個低維向量上(如圖 1a 上方 256-d),該向量輸出給兩個全連接層:候選框位置定位回歸層和候選框類別分類層。原文中采用類別無關分類損失,即僅區分該候選框內是否包含物體(前/背景),本文將其擴展為類別相關的分類損失。

a. 引入空間不變性的 anchor 機制(上)和空間變換網絡(下);b. Faster RCNN 帶仿射變換的檢測模型框架
Figure1. The architecture of proposed detection network model frameworka. anchor mechanism of invariance of space(top)and spatial transformation network(down);b. architecture of Faster RCNN with affine transformation
為引入空間尺度不變性,采用多尺度和多縱橫比的“錨點”(anchor)框(圖 1a 上所示),該機制可看作是金字塔型參考框的回歸,避免了枚舉多尺度、多縱橫比的圖像或卷積核。在每一個滑動窗口的位置,同時預測 k 個參考區域,回歸層有 4 k 個輸出,即 k 個候選區域位置的坐標編碼,多元邏輯回歸分類層輸出(c + 1)× k 個(物體類別數 c 加背景類的)概率估計。候選框由相應的 k 個 anchor 的參數化表示,每個 anchor 以當前滑動窗口中心為中心,并對應一種尺度和長寬比,我們使用 3 種尺度和 3 種長寬比,在每一個滑動位置就有 k = 9 個 anchor。對于大小為 w × h 的卷積特征映射,總共有 w × h × k 個 anchor。
2.2 仿射變換候選框
為檢測物體的姿態,結合空間變換網絡[21](見圖 1a 下),提出帶仿射變換的候選框生成算法。之前的候選框生成方法僅考慮固定尺度和寬高比的矩形框,并未考慮物體的旋轉朝向,二維空間仿射變換可表示為:
![]() |
式中
為輸入特征圖中目標坐標系下的網格點,
為變換矩陣,
輸出特征圖中目標坐標系下的采樣網格點。其中由于圖像的坐標不是中心坐標系,寬高坐標需歸一化表示,如
,且采用圖形學中齊次坐標表示。式(2)能用六個參數定義對輸入特征圖的裁剪、平移、旋轉和縮放等變換。該公式進一步簡化為只考慮旋轉變換:
![]() |
其中 α 表示繞圖像中心順時針旋轉角度,通常變換后的像素并不是在相應網格的整數值,常用雙線性插值進行近似,變換后的候選框送入感興趣區域池化層,后接多任務損失函數。實質是把空間變換層嵌入到 RPN 網絡中,并且引入有監督的損失以指導空間變換。
2.3 朝向回歸損失函數
旋轉朝向的周期性會導致兩個問題:① 一般的損失函數并不能處理周期性損失,簡單地將模運算應用于網絡的輸出會導致不可靠的損失梯度,不能再被魯棒地優化。② 由大多數參數模型中執行的矩陣向量積產生的回歸輸出是固定的線性運算。為此提出旋轉朝向回歸損失
,第一個問題可以通過采用 Von Mise 分布[22]來解決損失函數不連續性,其近似服從于單位圓上的正態分布:
![]() |
其中 p 指相應的概率密度函數,
指角度,
是分布的平均角度,
與近似高斯方差成反比,而
是階數為 0 的修正貝塞爾函數,利用余弦函數來避免不連續性,可以得出以下損失函數:
![]() |
式中
為預測旋轉角度大小,t 為真實旋轉角度大小,稱 t 為目標值,k 為控制損失函數尾部的簡單超參數。由角度
正余弦組成的二維向量 y 替代表示,利用自然語言處理文獻中廣泛使用的余弦代價函數來解決使用線性操作預測周期值的問題:
![]() |
在神經網絡框架中的實現是相對簡單的,因為所需要的是全連接層和歸一化層,前向傳播公式如下所示:
![]() |
式中
和
是來自全連接層的可學習參數,然后反向傳播歸一化損失的導數為:
![]() |
式中歸一化確保輸出值被聯合學習,通過比較 CVM 和 Ccos,最終朝向回歸損失函數為
![]() |
式(9)與式(6)相似,主要區別在于存在 e,它將目標值附近的錯誤“下推”,實際上是較小地懲罰小錯誤。
2.4 帶朝向的多任務損失函數
多任務損失分別存在于 RPN 及檢測網絡中,圖 2 中顯示的是所提出的檢測網絡結構示意圖。每一個候選框均送入感興趣池化層,后接兩層的全連接層和多元邏輯回歸分類損失(圖 2 中 Softmax loss)、候選區域回歸定位損失(圖 2 中 Bbox.reg loss)和旋轉朝向回歸損失(圖 2 中 Rotation loss):
![]() |
式中,p 、 t 和 o 分別代表預測類別分類概率、候選框偏移量和感興趣區域內物體的朝向大小;
表示標記類別為背景,[p *>0]表示框內是否有目標的指示函數,
、
分別表示物體的候選框標記和真實朝向。
、
為兩個損失的相應平衡權重大小,詳細形式如下:
![]() |
![]() |
![]() |
和
是式(4)中的分類損失和相應的平滑 L 1 損失,c 代表類別數。

Conv:卷積層;pool:池化層;FC:全連接層;Softmax class loss:多任務損失中的分類損失;Bbox.reg loss:候選框回歸定位損失;Rotation loss:文中針對變換參數
Conv:convoluted layer;pool:pooling layer;FC:fully connected layer;Softmax class loss:the loss of classification in multitask loss;Bbox.reg loss:candidate locator loss of localization;Rotation loss:loss of Von Mise for transform parameter
2.5 困難樣例挖掘
由于醫學數據樣本標注困難,數量相對較少,一般假設與目標位置矩形框有重疊的候選框有較大概率是難以區分的,結果也可能是次優的,因為在其他位置可能存在更難區分的樣本,導致模型收斂變慢,誤警率高。在每次迭代訓練過程中采用在線困難樣例挖掘方法(Online Hard Example Mining,OHEM)[23],對所有候選框的損失進行排序,由于相似候選框重疊區域的損失很接近,可采用非極大值抑制策略限制候選框的數目,選擇前 m 個最大損失作為困難樣例,反向傳播其相應的梯度,其他候選框的梯度不進行回傳,即不更新模型權重。
3 實驗結果和分析
為驗證提出的自動檢測算法的有效性和正確性,本節將分別采用一個公開可用的 MRI 數據集,以及我們收集的來源于四川大學華西醫院麻醉科的經食管超聲心動圖數據集(不包含患者信息)進行實驗。相關實驗代碼請參考https://github.com/taopanpan/echodetection。
3.1 檢測 MRI 中 LV 短軸
紐約大學提供的公用數據集[24]包含 33 名患者的心臟 MRI 體數據,以及 LV 心內膜和心外膜的手動分割結果。該數據集中的大多數切片為包含心臟疾病的切片。該數據集使用 GE Genesis Signa MRI 掃描儀,采取 FIESTA 方案掃描獲得。每個患者的 20 個序列幀包含 8~15 個短軸切片,大小為 256 × 256,厚度為 6~13 mm,像素分辨率為 0.93~1.64 mm。為了檢驗所提出方法的定位性能,取 14 個體數據形成 1 176 個切片作為訓練集,其余作為測試集。本實驗中不使用旋轉朝向損失,評價指標采用文獻[15]中定量評估計算 LV 短軸定位的準確度、敏感性和特異性。
為評價不同深度模型對檢測效果的影響,實驗的檢測模型選取 VGG16[25] 和 ResNet101[26],訓練方法采取端到端的近似聯合優化,OHEM 表明訓練過程中采用困難樣例挖掘方法,即在訓練中只選擇損失占前 70% 的樣本進行反向傳播。訓練參數及實現與文獻[18]中一致,迭代次數為 1 000,以文獻[18]方法作為基準檢測模型(表 1 中 Baseline),評價指標采用通用的定位精度、敏感性和特異性,結果如表 1 所示,在測試集上最優檢測準確度為 99.49%,敏感性為 83.12%,特異性為 99.40%,與基準檢測模型相比精度提高超過 3%,同時特異性提高約 1.5%。


a. MRI 中左心室檢測結果;b. 心室體積測量;c. 超聲心動圖 ME4C 切面的左心室、二尖瓣環、心內膜墊和心尖位置及旋轉角度的檢測結果
Figure3. Results of the left ventricular, mitral annulus, endocardial pad and apical position and rotation anglea. the results of the left ventricular of different MRI images; b. the measurement of ventricular volume; c. the left ventricular, mitral annulus, endocardial pad and apical position and rotation angle of the ME4C section of echocardiography
另一方面,敏感性是最容易提高的指標,最優模型超基準模型約 8%,模型不能正確定位為大尺寸的心臟,導致檢測較小的 LV 切片時具有較高的假陽性,降低了整體系統性能。而困難樣例挖掘的方法沒有顯著提高特異性,因為真陰性和假陽性的概率都降低了。考慮到心臟存在異常時會導致心臟形狀的大變異性,所提出的算法均能成功定位 LV 短軸,當檢測出心室短軸時,可大致確定心室中心點(如圖 3a 所示),利用二腔心(two-chamber heart,2CH)和四腔心(four-chamber heart,4CH)切面均垂直于短軸切面的先驗,找到與短軸的 2CH 和 4CH 交集在短軸平面上的投影,然后得到投影線在二維圖像上相交的位置,即為 LV 的三維位置(如圖 3b 所示)。
3.2 檢測 LV 及其朝向
在 MRI 中檢測 LV 短軸,由于組織結構相對簡單且噪聲少,所以較容易檢測到心室位置。為驗證所提出算法的通用性,針對超聲圖像 LV 長軸切面檢測心室、二尖瓣環、心內膜墊和心尖位置,并估計 LV 朝向。主要包含單扇形和多普勒成像的雙扇形兩種由專業醫師標注食管中段四腔心(mid-esophageal four-chamber heart,ME4C)的標準切面視頻構成,視頻中包含 2~3 個心動周期,依據醫師建議從視頻中截取 5 幀,并經醫師檢驗手工篩選后得到 900 張 ME4C 切面,對切面內 LV、二尖瓣環、心內膜墊和心尖位置進行人工標注作為“金標準”。其中隨機選取 100 張作為測試集,其余作為訓練集。
訓練時采用提出的聯合多任務損失,以 VGG16 網絡作為檢測的預訓練的模型為例,在 RPN 中添加空間變換網絡實現了各個候選框的空間變換,并施加旋轉朝向損失。VGG16 網絡特征提取器包括 13 個卷積層,并輸出 512 個卷積特征圖,空間變換網絡包括具有兩個同樣卷積池化層組成的定位網絡,其由 20 個卷積核大小為 5、步長為 1 和核大小為 2 的池化層構成,兩層全連接層回歸得出 6 個仿射變換參數,其中,全連接層的激活函數需選擇為雙曲正切函數,權重高斯初始化,而變換參數初始化為[1 0 0 0 1 0]T。其他跟 Faster RCNN 中設置一致,其中
、
分別取 0.1 和 0.001;訓練方法采取端到端的近似聯合優化,迭代輪數為 50 000。

評價指標采用平均檢測精度(mean average precision,mAP),是指多個類別平均檢測精度的平均值。表 2 顯示使用所提出方法分別在 VGG16 模型和 ResNet101 模型上,結合困難樣例挖掘訓練方法得出的測試結果,其中 OHEM 表示相應模型結合在線困難樣例挖掘方法的檢測結果,STN 表示結合提出帶朝向損失的空間變換網絡的檢測結果,在測試集上,針對 LV 的檢測精度最優可達 99.1%,結果表明所提出算法在不同基礎模型上均可提高檢測精度。

為驗證所提出算法在檢測 LV 位置的同時可以回歸學習 LV 的姿態參數、預測 LV 的朝向變換,超參數 k 跟文獻[22]一致,交疊比大于 0.5 時估計姿態參數,人為標定心室朝向存在較大偏差,但可以根據二尖瓣環、心內膜墊和心尖位置估算出心室朝向角度作為對照。由于 ME4C 切面中心室的大概朝向的分布范圍在[–45°,45°]之間,通過手工構建訓練集,訓練樣本旋轉以 15° 為間隔的指定角度。通過分析相關檢測精度的估算值和預測值,可以發現二者具有很大的一致性。LV 檢測旋轉朝向的檢測性能見表 3,檢測結果如圖 3c 所示,更多實驗結果請參考給定開源地址。
為了更詳細地評估模型性能,使用檢測分析工具[27]分析了心尖位置的檢測結果,如圖 4 顯示模型可以準確(白色區域)檢測到心尖位置,召回率在 84%~87%。針對心尖位置的定位精確度較低,這是因為醫師在標定心尖位置時有很大的隨意性,且目標尺寸較小,與類似對象類別容易混淆。

a. 顯示心尖檢測精度的累積分布:正確的(Cor),定位不準確(Loc)的假陽性,與之混淆的類似類別(Sim),其他類別(Oth),以及背景(BG)。紅色實線使用“強”標準(大于 0.5 交疊比)反映精確度隨檢測增加而變化;紅色虛線則為“弱”標準(大于 0.1 交疊比)。b. 顯示排名靠前的假陽性類型的分布
Figure4. Visualization of performance for our model on apical locationa. the cumulative fraction of detections:correct (Cor), false positive due to poor localization (Loc), confusion with similar categories (Sim), others (Oth), or background (BG). The solid red line reflects the change of recall with “strong” criteria (0.5 overlap) as the number of detections increases; the dashed red line is for the “weak” criteria (0.1 overlap). b. the distribution of top-ranked false positive types
4 結語
本文利用深度學習來解決醫學圖像計算機輔助檢測問題,設計并驗證了自動檢測 MRI 中 LV 短軸和超聲心動圖中 LV 長軸切面的方法,在通用物體檢測 Faster RCNN 框架的基礎上,針對 RPN 引入空間變換,結合帶朝向損失的多任務損失,探索解決圖像平面內物體旋轉角度檢測的問題,并利用困難樣例挖掘策略加快迭代訓練。在公共 MRI 數據集和自主收集的超聲心動圖數據上進行詳盡的實驗驗證,在多個評估指標方面提供了較傳統方法更好的測試結果。但該方法仍耗費較多的標注數據,因此探索需要更少標注數據的檢測算法是將來的工作目標。
引言
計算機輔助檢測(computer-aided detection,CAD)是醫學影像診斷過程中的一項重要任務,是進行相關結構功能測量的前提條件。其中,二維圖像的目標組織結構自動檢測是 CAD 技術的核心基礎。在臨床實踐中,醫生需整合不同模態、不同位置方向且以不同比例顯示的圖像信息,目前的研究主要關注如何使檢測過程快速自動化。由于醫學影像自身的特殊性,比如缺乏大量高質量標注數據,大多數醫學目標組織結構存在非剛性形變,以及圖像背景前景的區分不明顯等,導致組織結構自動定位比較困難。現有大多數 CAD 系統在臨床實際應用中表現不佳,檢測結果的敏感性和特異性都較低,診斷效能較低[1]。
不同模態的醫學圖像中,如超聲、計算機斷層掃描(computed tomography,CT)和核磁共振(magnetic resonance imaging,MRI)等,都存在目標身體器官自動定位的問題。以左心室(left ventricle,LV)檢測為例,大多數 LV 定位方法主要依據位置、時間和形狀的假設。基于位置的方法僅假設心室在圖像的中心,該方法并不對不同患者心室位置的差異性以及圖像的尺寸變化進行考慮,效果較差。基于時間的方法,假設 LV 是圖像中唯一的運動對象,然而這種方法假陽性率高,除心室的運動偽影之外,還存在其他運動的器官。Sch?llhuber[2] 針對 MRI 短軸使用時空信息并消除運動偽影,由分層模式匹配算法定位包含 LV 的感興趣區域,其通過使用互信息圖像配準使運動偽影最小化,隨后估計時間—特征強度曲線進行像素分類和邊界的提取,得到最終分割結果。基于形狀的方法將 LV 視為圓(短軸)、橢圓(長軸),然而該方法通常針對異常形狀的 LV 容錯性差。Lu 等[3]使用大津閾值度量圓形程度,然后進行霍夫變換定位 LV 位置。也可搜索每個切片的質心,并用三維最小二乘擬合去除異常值,得到分割結果[4]。
不依據具體的強先驗假設,機器學習算法可通過區分前景目標對象和背景來解決目標結構自動檢測的問題。Kellman 等[5]提出了一種使用概率集成提升樹來估計 LV 姿態和用空間間隔學習 LV 短軸邊界的方法。Zhou 等[6]在超聲心動圖中通過規一化集成提升回歸學習非線性映射以定位 LV,其團隊后來提出針對多個器官的特異性置信最大化分類器,整合更高的自由度以改善回歸定位任務的精度。She 等[7]通過利用基于子模塊函數優化理論的多標記搜索策略來進行標記點的檢測。Zheng 等[8]在實現器官定位的同時,通過組合優化置信度來估計目標器官的位置、縮放及朝向等參數值。前述機器學習算法都基于弱先驗知識,啟發式設計相關特征,結合滑動窗口策略,選擇分類器分類判斷窗口中內容以估計相應位置。
近來通用物體檢測領域取得巨大進展,主要得益于深度學習能利用大量標注數據,從原始像素出發,逐層分級學習中高層抽象語義特征[9]。區域卷積神經網絡[10]在大規模自然圖像數據集(如 ImageNet[11])上,識別性能遠超傳統方法[10, 12]。當前實踐中由于深度學習需要大量的訓練數據,所以僅在少數醫學任務中取得有限的成功應用。深度學習方法用在定位檢測問題時可分為兩個階段[13]:候選框位置選取和窗口內容類別分類。例如,利用深度卷積網絡進行顯微鏡圖像中細胞檢測[14]、結合深度全卷積網絡的 MRI 心室檢測與分割[15-16]和超聲圖像解剖結構的檢測[17]。這些方法大都關注特定目標結構的檢測分割,而本文專門針對目前 CAD 普遍存在的檢測定位問題,基于改進的生成候選框的快速區域深度卷積神經網絡[18]方法,提出一種醫學目標結構檢測框架,包括:① 在區域生成網絡的基礎上引入空間變換損失使得候選框生成網絡能捕捉目標的空間變換參數;② 采用在線困難樣例挖掘策略,加快訓練收斂過程,提高檢測小目標的準確度;③ 基于目標先驗知識,針對 LV 提出利用檢測二尖瓣環、心內膜墊和心尖位置,高效估計 LV 姿態參數。為驗證該算法的魯棒性和有效性,分別針對兩個具體 CAD 應用進行實驗分析。
1 區域卷積神經網絡概覽
1.1 物體檢測形式化定義
若用 r 來表示圖像中的矩形窗口區域,令 R 表示由對象檢測系統提供的所有候選窗口的集合,將有效定位標記定義為 R 的子集,使得標記位置中內容“不重疊”,令 Y 來表示所有有效標記位置的集合。并合并常用的非最大值抑制(non-maximum suppression,NMS)過程,給定圖像 x 和窗口評分函數 f,物體檢測算法流程可定義為:
算法 1 物體檢測
Input: 圖像 x,窗口得分函數 f
1: D: = 所有候選框 r ∈ R 使得 f(x,r)>0
2: 按 f 排序 D 使得 D 1 ≥ D 2 ≥ D 3 ≥
≥ Dn
3: y?: = {}
4: for i = 1 to n do
5: 若 Di 和 y?中任意候選框不重疊
6: y?: = y?∪{ Di }
7: end for
8: Return: 物體的目標位置 y?
形式化定義物體檢測過程見式(1),式中參數定義請參考算法 1。
![]() |
通常式(1)可通過貪心搜索的方法來完成,算法將聯合最小化在算法 1 中產生假陽例的數量和最大化檢測窗口評分函數,即尋找具有最大得分但同時不重疊的滑動窗口位置集合。
1.2 區域卷積神經網絡的演進
Girshick 等[10]在 2014 年首次提出區域卷積神經網絡(region-based convolutional neural network,RCNN),對每一候選框窗口都進行一次前向傳播,這將導致冗余計算,時間復雜度高。為解決這一問題,He 等[19]和 Girshick 等[13]提出 SPP-net 和 Fast RCNN 加以改進,不再把每一候選窗口均送入網絡,而是僅對圖像特征提取一次,把原圖中候選區域投影到卷積特征圖上,然后對投影后的區域特征圖進行空間感興趣區域池化得到固定長度的特征向量。其中 Fast RCNN 中的感興趣區域池化是 SPP-Net 中多尺度空間金字塔池化的特例,僅用單一尺度的金字塔池化操作。RCNN 及其改進的 Fast RCNN 都依賴于人為設計的候選框生成方法,如選擇性搜索等。為減少生成候選框的計算時間,Faster RCNN[18]中利用區域生成網絡(region proposal networks,RPN)和檢測網絡共享提取特征的卷積層,僅提取幾百個或者更少的高質量預選窗口,且召回率較高(導致更少的假陽例)。但現有的通用物體檢測算法均是假設候選框為矩形,不能解決旋轉朝向問題。
2 候選區域生成網絡及其改進
本節將分別從候選區域生成網絡模型的結構、仿射變換候選框區域的生成、空間變換損失函數的設計、模型訓練方法等方面介紹本文所提出框架,并結合 Faster RCNN 模型提出端到端的目標檢測方法。
2.1 候選區域生成網絡模型結構
候選區域生成網絡將一圖像(任意大小)作為輸入,輸出目標候選框的集合和每個候選框內有無目標的概率估計,如圖 1b 所示,RPN 在卷積層后接兩個全卷積層完成候選區域生成功能,以實現增加滑動窗口操作。該模型使用全卷積網絡[20]處理任意大小的圖片輸入,為了和目標檢測網絡[13]共享計算,在特征提取的過程中同時計算目標檢測所需的感興趣區域的初始估計,在最后一個共享卷積層輸出的特征映射圖上滑動小網絡,卷積特征映射圖上 n × n 大小空間窗口作為該網絡全連接的輸入,本文 n 取 3。每個滑動窗口映射到一個低維向量上(如圖 1a 上方 256-d),該向量輸出給兩個全連接層:候選框位置定位回歸層和候選框類別分類層。原文中采用類別無關分類損失,即僅區分該候選框內是否包含物體(前/背景),本文將其擴展為類別相關的分類損失。

a. 引入空間不變性的 anchor 機制(上)和空間變換網絡(下);b. Faster RCNN 帶仿射變換的檢測模型框架
Figure1. The architecture of proposed detection network model frameworka. anchor mechanism of invariance of space(top)and spatial transformation network(down);b. architecture of Faster RCNN with affine transformation
為引入空間尺度不變性,采用多尺度和多縱橫比的“錨點”(anchor)框(圖 1a 上所示),該機制可看作是金字塔型參考框的回歸,避免了枚舉多尺度、多縱橫比的圖像或卷積核。在每一個滑動窗口的位置,同時預測 k 個參考區域,回歸層有 4 k 個輸出,即 k 個候選區域位置的坐標編碼,多元邏輯回歸分類層輸出(c + 1)× k 個(物體類別數 c 加背景類的)概率估計。候選框由相應的 k 個 anchor 的參數化表示,每個 anchor 以當前滑動窗口中心為中心,并對應一種尺度和長寬比,我們使用 3 種尺度和 3 種長寬比,在每一個滑動位置就有 k = 9 個 anchor。對于大小為 w × h 的卷積特征映射,總共有 w × h × k 個 anchor。
2.2 仿射變換候選框
為檢測物體的姿態,結合空間變換網絡[21](見圖 1a 下),提出帶仿射變換的候選框生成算法。之前的候選框生成方法僅考慮固定尺度和寬高比的矩形框,并未考慮物體的旋轉朝向,二維空間仿射變換可表示為:
![]() |
式中
為輸入特征圖中目標坐標系下的網格點,
為變換矩陣,
輸出特征圖中目標坐標系下的采樣網格點。其中由于圖像的坐標不是中心坐標系,寬高坐標需歸一化表示,如
,且采用圖形學中齊次坐標表示。式(2)能用六個參數定義對輸入特征圖的裁剪、平移、旋轉和縮放等變換。該公式進一步簡化為只考慮旋轉變換:
![]() |
其中 α 表示繞圖像中心順時針旋轉角度,通常變換后的像素并不是在相應網格的整數值,常用雙線性插值進行近似,變換后的候選框送入感興趣區域池化層,后接多任務損失函數。實質是把空間變換層嵌入到 RPN 網絡中,并且引入有監督的損失以指導空間變換。
2.3 朝向回歸損失函數
旋轉朝向的周期性會導致兩個問題:① 一般的損失函數并不能處理周期性損失,簡單地將模運算應用于網絡的輸出會導致不可靠的損失梯度,不能再被魯棒地優化。② 由大多數參數模型中執行的矩陣向量積產生的回歸輸出是固定的線性運算。為此提出旋轉朝向回歸損失
,第一個問題可以通過采用 Von Mise 分布[22]來解決損失函數不連續性,其近似服從于單位圓上的正態分布:
![]() |
其中 p 指相應的概率密度函數,
指角度,
是分布的平均角度,
與近似高斯方差成反比,而
是階數為 0 的修正貝塞爾函數,利用余弦函數來避免不連續性,可以得出以下損失函數:
![]() |
式中
為預測旋轉角度大小,t 為真實旋轉角度大小,稱 t 為目標值,k 為控制損失函數尾部的簡單超參數。由角度
正余弦組成的二維向量 y 替代表示,利用自然語言處理文獻中廣泛使用的余弦代價函數來解決使用線性操作預測周期值的問題:
![]() |
在神經網絡框架中的實現是相對簡單的,因為所需要的是全連接層和歸一化層,前向傳播公式如下所示:
![]() |
式中
和
是來自全連接層的可學習參數,然后反向傳播歸一化損失的導數為:
![]() |
式中歸一化確保輸出值被聯合學習,通過比較 CVM 和 Ccos,最終朝向回歸損失函數為
![]() |
式(9)與式(6)相似,主要區別在于存在 e,它將目標值附近的錯誤“下推”,實際上是較小地懲罰小錯誤。
2.4 帶朝向的多任務損失函數
多任務損失分別存在于 RPN 及檢測網絡中,圖 2 中顯示的是所提出的檢測網絡結構示意圖。每一個候選框均送入感興趣池化層,后接兩層的全連接層和多元邏輯回歸分類損失(圖 2 中 Softmax loss)、候選區域回歸定位損失(圖 2 中 Bbox.reg loss)和旋轉朝向回歸損失(圖 2 中 Rotation loss):
![]() |
式中,p 、 t 和 o 分別代表預測類別分類概率、候選框偏移量和感興趣區域內物體的朝向大小;
表示標記類別為背景,[p *>0]表示框內是否有目標的指示函數,
、
分別表示物體的候選框標記和真實朝向。
、
為兩個損失的相應平衡權重大小,詳細形式如下:
![]() |
![]() |
![]() |
和
是式(4)中的分類損失和相應的平滑 L 1 損失,c 代表類別數。

Conv:卷積層;pool:池化層;FC:全連接層;Softmax class loss:多任務損失中的分類損失;Bbox.reg loss:候選框回歸定位損失;Rotation loss:文中針對變換參數
Conv:convoluted layer;pool:pooling layer;FC:fully connected layer;Softmax class loss:the loss of classification in multitask loss;Bbox.reg loss:candidate locator loss of localization;Rotation loss:loss of Von Mise for transform parameter
2.5 困難樣例挖掘
由于醫學數據樣本標注困難,數量相對較少,一般假設與目標位置矩形框有重疊的候選框有較大概率是難以區分的,結果也可能是次優的,因為在其他位置可能存在更難區分的樣本,導致模型收斂變慢,誤警率高。在每次迭代訓練過程中采用在線困難樣例挖掘方法(Online Hard Example Mining,OHEM)[23],對所有候選框的損失進行排序,由于相似候選框重疊區域的損失很接近,可采用非極大值抑制策略限制候選框的數目,選擇前 m 個最大損失作為困難樣例,反向傳播其相應的梯度,其他候選框的梯度不進行回傳,即不更新模型權重。
3 實驗結果和分析
為驗證提出的自動檢測算法的有效性和正確性,本節將分別采用一個公開可用的 MRI 數據集,以及我們收集的來源于四川大學華西醫院麻醉科的經食管超聲心動圖數據集(不包含患者信息)進行實驗。相關實驗代碼請參考https://github.com/taopanpan/echodetection。
3.1 檢測 MRI 中 LV 短軸
紐約大學提供的公用數據集[24]包含 33 名患者的心臟 MRI 體數據,以及 LV 心內膜和心外膜的手動分割結果。該數據集中的大多數切片為包含心臟疾病的切片。該數據集使用 GE Genesis Signa MRI 掃描儀,采取 FIESTA 方案掃描獲得。每個患者的 20 個序列幀包含 8~15 個短軸切片,大小為 256 × 256,厚度為 6~13 mm,像素分辨率為 0.93~1.64 mm。為了檢驗所提出方法的定位性能,取 14 個體數據形成 1 176 個切片作為訓練集,其余作為測試集。本實驗中不使用旋轉朝向損失,評價指標采用文獻[15]中定量評估計算 LV 短軸定位的準確度、敏感性和特異性。
為評價不同深度模型對檢測效果的影響,實驗的檢測模型選取 VGG16[25] 和 ResNet101[26],訓練方法采取端到端的近似聯合優化,OHEM 表明訓練過程中采用困難樣例挖掘方法,即在訓練中只選擇損失占前 70% 的樣本進行反向傳播。訓練參數及實現與文獻[18]中一致,迭代次數為 1 000,以文獻[18]方法作為基準檢測模型(表 1 中 Baseline),評價指標采用通用的定位精度、敏感性和特異性,結果如表 1 所示,在測試集上最優檢測準確度為 99.49%,敏感性為 83.12%,特異性為 99.40%,與基準檢測模型相比精度提高超過 3%,同時特異性提高約 1.5%。


a. MRI 中左心室檢測結果;b. 心室體積測量;c. 超聲心動圖 ME4C 切面的左心室、二尖瓣環、心內膜墊和心尖位置及旋轉角度的檢測結果
Figure3. Results of the left ventricular, mitral annulus, endocardial pad and apical position and rotation anglea. the results of the left ventricular of different MRI images; b. the measurement of ventricular volume; c. the left ventricular, mitral annulus, endocardial pad and apical position and rotation angle of the ME4C section of echocardiography
另一方面,敏感性是最容易提高的指標,最優模型超基準模型約 8%,模型不能正確定位為大尺寸的心臟,導致檢測較小的 LV 切片時具有較高的假陽性,降低了整體系統性能。而困難樣例挖掘的方法沒有顯著提高特異性,因為真陰性和假陽性的概率都降低了。考慮到心臟存在異常時會導致心臟形狀的大變異性,所提出的算法均能成功定位 LV 短軸,當檢測出心室短軸時,可大致確定心室中心點(如圖 3a 所示),利用二腔心(two-chamber heart,2CH)和四腔心(four-chamber heart,4CH)切面均垂直于短軸切面的先驗,找到與短軸的 2CH 和 4CH 交集在短軸平面上的投影,然后得到投影線在二維圖像上相交的位置,即為 LV 的三維位置(如圖 3b 所示)。
3.2 檢測 LV 及其朝向
在 MRI 中檢測 LV 短軸,由于組織結構相對簡單且噪聲少,所以較容易檢測到心室位置。為驗證所提出算法的通用性,針對超聲圖像 LV 長軸切面檢測心室、二尖瓣環、心內膜墊和心尖位置,并估計 LV 朝向。主要包含單扇形和多普勒成像的雙扇形兩種由專業醫師標注食管中段四腔心(mid-esophageal four-chamber heart,ME4C)的標準切面視頻構成,視頻中包含 2~3 個心動周期,依據醫師建議從視頻中截取 5 幀,并經醫師檢驗手工篩選后得到 900 張 ME4C 切面,對切面內 LV、二尖瓣環、心內膜墊和心尖位置進行人工標注作為“金標準”。其中隨機選取 100 張作為測試集,其余作為訓練集。
訓練時采用提出的聯合多任務損失,以 VGG16 網絡作為檢測的預訓練的模型為例,在 RPN 中添加空間變換網絡實現了各個候選框的空間變換,并施加旋轉朝向損失。VGG16 網絡特征提取器包括 13 個卷積層,并輸出 512 個卷積特征圖,空間變換網絡包括具有兩個同樣卷積池化層組成的定位網絡,其由 20 個卷積核大小為 5、步長為 1 和核大小為 2 的池化層構成,兩層全連接層回歸得出 6 個仿射變換參數,其中,全連接層的激活函數需選擇為雙曲正切函數,權重高斯初始化,而變換參數初始化為[1 0 0 0 1 0]T。其他跟 Faster RCNN 中設置一致,其中
、
分別取 0.1 和 0.001;訓練方法采取端到端的近似聯合優化,迭代輪數為 50 000。

評價指標采用平均檢測精度(mean average precision,mAP),是指多個類別平均檢測精度的平均值。表 2 顯示使用所提出方法分別在 VGG16 模型和 ResNet101 模型上,結合困難樣例挖掘訓練方法得出的測試結果,其中 OHEM 表示相應模型結合在線困難樣例挖掘方法的檢測結果,STN 表示結合提出帶朝向損失的空間變換網絡的檢測結果,在測試集上,針對 LV 的檢測精度最優可達 99.1%,結果表明所提出算法在不同基礎模型上均可提高檢測精度。

為驗證所提出算法在檢測 LV 位置的同時可以回歸學習 LV 的姿態參數、預測 LV 的朝向變換,超參數 k 跟文獻[22]一致,交疊比大于 0.5 時估計姿態參數,人為標定心室朝向存在較大偏差,但可以根據二尖瓣環、心內膜墊和心尖位置估算出心室朝向角度作為對照。由于 ME4C 切面中心室的大概朝向的分布范圍在[–45°,45°]之間,通過手工構建訓練集,訓練樣本旋轉以 15° 為間隔的指定角度。通過分析相關檢測精度的估算值和預測值,可以發現二者具有很大的一致性。LV 檢測旋轉朝向的檢測性能見表 3,檢測結果如圖 3c 所示,更多實驗結果請參考給定開源地址。
為了更詳細地評估模型性能,使用檢測分析工具[27]分析了心尖位置的檢測結果,如圖 4 顯示模型可以準確(白色區域)檢測到心尖位置,召回率在 84%~87%。針對心尖位置的定位精確度較低,這是因為醫師在標定心尖位置時有很大的隨意性,且目標尺寸較小,與類似對象類別容易混淆。

a. 顯示心尖檢測精度的累積分布:正確的(Cor),定位不準確(Loc)的假陽性,與之混淆的類似類別(Sim),其他類別(Oth),以及背景(BG)。紅色實線使用“強”標準(大于 0.5 交疊比)反映精確度隨檢測增加而變化;紅色虛線則為“弱”標準(大于 0.1 交疊比)。b. 顯示排名靠前的假陽性類型的分布
Figure4. Visualization of performance for our model on apical locationa. the cumulative fraction of detections:correct (Cor), false positive due to poor localization (Loc), confusion with similar categories (Sim), others (Oth), or background (BG). The solid red line reflects the change of recall with “strong” criteria (0.5 overlap) as the number of detections increases; the dashed red line is for the “weak” criteria (0.1 overlap). b. the distribution of top-ranked false positive types
4 結語
本文利用深度學習來解決醫學圖像計算機輔助檢測問題,設計并驗證了自動檢測 MRI 中 LV 短軸和超聲心動圖中 LV 長軸切面的方法,在通用物體檢測 Faster RCNN 框架的基礎上,針對 RPN 引入空間變換,結合帶朝向損失的多任務損失,探索解決圖像平面內物體旋轉角度檢測的問題,并利用困難樣例挖掘策略加快迭代訓練。在公共 MRI 數據集和自主收集的超聲心動圖數據上進行詳盡的實驗驗證,在多個評估指標方面提供了較傳統方法更好的測試結果。但該方法仍耗費較多的標注數據,因此探索需要更少標注數據的檢測算法是將來的工作目標。