醫學圖像中目標的檢測和分割任務是近年來圖像處理領域中的研究熱點和難點。實例分割為屬于同一類的不同對象提供實例級標簽,因此廣泛應用于醫學圖像處理領域。本文對醫學圖像實例分割從以下幾個方面進行總結:第一,闡述實例分割的基本原理,將實例分割模型歸納為三類,并采用二維空間展示實例分割算法發展脈絡,給出六個實例分割經典模型圖;第二,從兩階段實例分割、單階段實例分割以及三維(3D)實例分割三類模型的角度出發,分別總結三類模型的思想,探討優缺點和梳理最新發展;第三,總結了實例分割在結腸組織圖像、宮頸圖像、骨顯像圖像、胃癌病理切片圖像、肺結節計算機斷層掃描圖像和乳腺X線片圖像等六種醫學圖像的應用現狀;第四,討論當前醫學圖像實例分割領域面對的主要挑戰,并展望未來的發展方向。本文系統總結實例分割的原理、模型、特點,以及實例分割在醫學圖像處理領域中的應用,對實例分割的研究具有積極的指導意義。
引用本文: 周濤, 趙雅楠, 陸惠玲, 侯森寶, 鄭小敏. 醫學圖像實例分割:從有候選區域向無候選區域. 生物醫學工程學雜志, 2022, 39(6): 1218-1232. doi: 10.7507/1001-5515.202201034 復制
引言
基于深度學習的醫學圖像目標檢測、分割技術是利用卷積神經網絡(convolutional neural network,CNN)來理解圖像中二維(two-dimensional,2D)像素或三維(three-dimensional,3D)立體像素所代表的人體器官或病灶區域。在醫學圖像處理中,實例分割對研究顯著目標(如器官)、弱小目標(如病灶)等具有重要意義。其中,人體器官是指由多種組織相互結合構成具有一定形態和功能的結構單位,病灶是指在機體的局部范圍內具有病原微生物的病變組織,器官或組織的某一部分被致病因子破壞就會形成病灶。相對于器官而言,病灶所成的影像在醫學圖像中具有像素個數少、邊緣不清晰等特點,導致在醫學圖像中精準檢測并識別出病灶的難度較大,因此研究基于深度學習的器官、病灶的檢測和分割任務至關重要。
隨著計算機輔助診斷技術(computer aided diagnosis,CAD)的發展和醫學影像數據量的增加,原本需要醫生依靠專業知識和閱片經驗來手動標注每一張影像,轉換為以計算機技術為輔助工具,利用深度學習方法來自動提取醫學圖像中深層特征信息,實現對病灶的定位識別和疾病的診斷治療。因此,基于深度學習的人體器官和病灶區域的檢測分割方法能為醫生的工作帶來幫助,有利于提高診斷效率和準確率。作為醫學圖像處理領域的基本問題,圖像理解可以分為圖像分類、目標檢測、語義分割和實例分割四個基本任務,如圖1所示。圖像分類就是預測醫學圖像中顯著目標(如器官)等的類別,如圖1a所示;目標檢測不僅識別器官類別,還要預測器官位置,如圖1b所示;語義分割是預測輸入醫學圖像中每一個像素點的類別,是對醫學圖像的像素級分類,如圖1c所示;實例分割是在語義分割的基礎上,區分出同一類器官的不同個體,既是對醫學圖像的像素級分割,又是對象級識別,如圖1d所示將腎分為左腎和右腎。目標檢測的結果是器官的邊界框和類別,實例分割的結果則是器官的掩膜和類別;與語義分割相比,實例分割需要標注出同一類別器官的不同對象實例,每個像素都根據其所在的實例進行標注;傳統的醫學圖像分割方法存在不能定位的缺點,而醫學圖像實例分割方法可以實現對人體器官和病灶區域的精確定位。由此可見,實例分割能夠精準確定人體器官位置,區分同一類器官的不同個體,適用于更加復雜和多樣的醫學圖像分割任務。因此,深入研究醫學圖像實例分割方法具有十分重要的意義。

a. 圖像分類;b. 目標檢測;c. 語義分割;d. 實例分割
Figure1. Four basic tasks of image comprehension in whole-body bone scan imagesa. image classification; b. object detection; c. semantic segmentation; d. instance segmentation
醫學圖像實例分割的思想是結合目標檢測和語義分割兩個階段。通過目標檢測找出醫學圖像中器官或病灶所在位置,然后對檢測框內器官或病灶進行像素級別的語義分割,為屬于同一類的不同實例提供標簽,其分割精度和效率都較好[1]。實例分割作為醫學影像處理中的研究熱點,已廣泛應用于結腸腺體、腎、肝臟、胃、肺、乳腺等器官的檢測分割任務中。Jiang等[2]將實例分割應用到腎活檢病理圖像,實驗證明該模型對多染腎小球的分割和分類具有良好的有效性和魯棒性;Vania等[3]使用多級優化Mask RCNN模型對椎間盤進行實例分割,通過263名椎間盤患者的磁共振圖像(magnetic resonance imaging,MRI)證明了該模型的有效性;李佳昇[4]提出一種應用于結直腸癌肝轉移的模型,實現了對患者腹部肝臟腫瘤的分割與檢測。綜上所述,醫學圖像實例分割技術能夠對人體器官和病灶區域準確定位并精確分割。
本文綜述了從有候選區域向無候選區域演化的醫學圖像實例分割的研究進展,主要工作有:第一,闡述實例分割的基本原理,將實例分割模型歸納為三類,兩階段實例分割發展過程中模型演化思路是有候選區域向無候選區域演變,單階段實例分割發展過程中模型演化思路是有錨框向無錨框演變,3D實例分割發展過程中模型演化思路是有候選區域向無候選區域發展,從這三個方面采用二維空間架構展示實例分割算法,并給出六個實例分割經典模型圖。第二,從兩階段實例分割、單階段實例分割以及3D實例分割三類模型的角度出發,分別總結三類模型的算法思想,探討其優缺點以及梳理最新進展。第三,對實例分割技術在結腸組織圖像、宮頸圖像、骨顯像圖像、胃癌病理切片圖像、肺結節計算機斷層掃描(computed tomography,CT)圖像和乳腺X線片(X-ray)圖像等六種醫學圖像中的應用進行總結。第四,指出當前醫學圖像實例分割領域面對的挑戰,并展望未來的發展方向,希望為研究醫學圖像實例分割方法的學者提供相關參考和幫助。
1 醫學圖像實例分割的基本原理
醫學圖像實例分割是一種基于區域的分割方法,在各個檢測框內對人體器官和病灶區域進行像素級分割。優點是在實例級別上進行顯著目標和弱小目標的檢測任務,在像素級別上進行語義分割任務,有效提高定位和識別精度。其中,語義分割是一種基于對象類的分割方法,用以預測醫學圖像中每個像素點的類標簽并進行分割,而實例分割是預測醫學圖像中每個像素點的對象標簽,用以識別同一類器官的不同對象。2014年,Hariharan等[5]提出SDS(simultaneous detection and segmentation)模型,在該模型中最早體現出實例分割思想,與其他模型不同的是,該方法將檢測和分割任務結合在一起,通過生成建議、特征提取、區域分類以及區域改良四個步驟生成最終實例掩膜[6]。同年,Girshick等[7]提出R-CNN(region-CNN)模型,是一個用于目標檢測和語義分割的神經網絡模型,該模型將區域建議和CNN模型結合起來,包括三個模塊,一是區域建議模塊,用于建議候選區域集合,二是特征提取模塊,用于從建議的候選區域中提取特定大小的特征向量,三是支持向量機(support vector machine,SVM),用于判別分類。因此,R-CNN模型是早期用于定位目標和語義分割的結構。
醫學圖像實例分割的基本原理如圖2所示,整體由三個階段組成:第一階段是由卷積和池化等操作構成的特征提取網絡,第二階段是由自下而上和自上而下的特征卷積構成的特征融合網絡,第三階段是由多個預測頭實現特征預測。基本原理是首先經過特征提取網絡對輸入的醫學圖像進行特征提取,在網絡的淺層部分提取細節特征,深層部分提取抽象特征,將原始特征信息進行重新組合來為后續階段提供特征層,然后通過特征融合網絡將深層特征圖信息和淺層特征圖信息進行交互融合,增強特征圖中的邊緣、位置、細節信息與語義信息,最后通過特征預測頭將人體器官或者病變區域的位置、類別以及掩膜信息進行回歸輸出。

從有候選區域向無候選區域發展的醫學圖像實例分割模型分類及發展歷程如圖3所示。橫軸代表模型分類,整體來看是從有候選區域向無候選區域、有錨框向無錨框演變發展,縱軸代表時間進展。其中,SDS模型最早體現實例分割思想,R-CNN模型是用于目標檢測和語義分割。從2014年起,實例分割模型逐步演化出三大類型,包括兩階段實例分割模型、單階段實例分割模型以及3D實例分割模型。兩階段實例分割模型首先通過區域建議網絡(region proposal network,RPN)生成感興趣區域(region of interest,ROI),然后在候選區域內對目標對象進行分割,生成實例級掩膜,包括基于檢測和基于分割的方法。單階段實例分割模型是不需要RPN網絡生成候選區域這個階段,直接同時對醫學圖像中所有目標對象進行檢測分割,包括有錨框和無錨框的方法。3D實例分割模型中,有候選區域的方法是首先生成候選區域,然后在3D檢測框內進行分割,而無候選區域的方法是通過聚類將具有同一特征的體素分組在一起。

為了進一步說明發展脈絡,本文在圖3所示框架下總結歸納從兩階段到單階段演變的典型實例分割模型圖,如圖4所示。按照不同階段不同類型模型的發展順序對經典網絡架構進行圖形化描述。兩階段模型分為基于檢測的模型和基于分割的模型,其中基于檢測的模型包括基于滑動窗口的模型(見圖4a)、基于區域候選的模型(見圖4b)、基于邊界編碼的模型(見圖4c)和基于分割的實例分割模型(見圖4d)。單階段模型分為有錨框的實例分割模型(見圖4e)和無錨框的實例分割模型(見圖4f)。

a. 基于滑動窗口的模型;b. 基于區域候選的模型;c. 基于邊界編碼的模型; d. 基于分割的實例分割模型;e. 有錨框的實例分割模型;f. 無錨框的實例分割模型
Figure4. Typical instance segmentation models diagrama. model based on sliding window; b. model based on regional candidate; c. model based on boundary coding; d. model based on segmentation; e. model with anchor box; f. model without anchor box
2 兩階段實例分割模型
兩階段實例分割模型是將醫學圖像經過檢測和分割兩個階段得到實例級器官和病灶掩膜。其中,檢測階段是指對人體器官和病灶區域檢測后得到邊界框,分割階段是指在邊界框內部區域分割后得到器官和病灶實例掩膜。該類模型的優點是能夠有效預測出精確掩膜。針對傳統兩階段實例分割模型存在生成的掩膜精度較低,實例定位不準確以及實例邊界信息易被忽略等問題,許多研究者繼續深入研究,提出一系列新的兩階段實例分割模型。本節對兩階段實例分割模型從有候選區域向無候選區域的發展演變進行歸納總結。
2.1 基于檢測的實例分割
基于檢測的實例分割模型是首先檢測醫學圖像中顯著目標(如器官)、弱小目標(如病灶)所在區域,然后在候選區域內對其進行語義分割,生成實例掩膜。優點是通過檢測和分割兩個階段分別處理,能夠有效實現精準定位和精確分割;缺點是由于需要經過兩個階段處理得到對象級掩膜,導致基于檢測的實例分割模型速度較慢,過程較復雜。本節對基于滑動窗口的模型、基于區域候選的模型和基于邊界編碼的模型進行總結歸納。
2.1.1 基于滑動窗口的模型
兩階段實例分割模型的檢測階段需要在醫學圖像中對器官和病灶標出檢測框,而在標注候選區域過程中最簡單直接的方法是滑動窗口法。滑動窗口法是指通過使用不同尺度的滑動窗在醫學圖像的不同位置上滑動,在滑動過程中使用訓練好的分類器對每個醫學圖像塊分類判別用以識別其中是否包含器官或者病灶,如圖4a所示。優點是過程簡單;缺點包括如下幾個方面:一、該方法是一種窮舉法,需要在醫學圖像上按照從左至右、從上至下的順序滑動某一尺寸的窗口,把所有可能的圖像塊都窮舉出來,計算復雜度高;二、對于滑動窗口的尺寸大小、滑動步長、滑動策略等需要人為干預設定,即窗口尺寸大小不容易確定,需要不斷嘗試,運算量大;三、在醫學全身掃描圖像中,由于大部分區域內不存在器官目標,且背景區域所占面積較大,而基于滑動窗口的模型需要在整幅圖像上多次滑動判別,存在效率較低和復雜度高的問題。
2015年,Pinheiro等[8]提出DeepMask模型,該模型是在VGG網絡(visual geometry group network)基礎上增加分割和分類兩個分支。其中分割分支由一個1×1的卷積層加全連接層組成,用以實現對目標對象類別的識別并輸出分割掩膜;分類分支是由一個2×2的最大池化層后加兩個全連接層組成,通過輸出目標對象分數,用以判斷目標對象是否滿足位于正中心位置以及完整存在于圖塊當中的要求。該模型不依賴于邊緣等低層級分割,而是直接學習原始圖像并生成對象建議。但存在的問題是DeepMask模型產生的是粗略掩膜,不能滿足像素級分割要求。
2016年,針對DeepMask產生的是粗略掩膜且目標對象邊緣不精細的問題,Pinheiro等[9]提出SharpMask模型用以提煉DeepMask的輸出掩膜。該模型在DeepMask基礎上提出優化模塊,每個優化模塊的輸入是上一層傳下來的粗略掩膜和下一層傳上去的低層特征,通過逐層貫穿模型的優化模塊,將粗略掩膜和低層特征融合,最終輸出精細的對象掩膜。
2.1.2 基于區域候選的模型
傳統的候選框提取方法是選擇性搜索,通過基于圖的分割方法生成初始區域,然后按照相似度合并規則合并可能性最高的區域,直到最后合并成候選區域,但是該方法速度慢。2016年,Ren等[10]提出Faster R-CNN模型,直接使用RPN代替選擇性搜索方法來提取候選框。該方法只對醫學圖像中最有可能包含人體器官和病灶區域的部分進行檢測,優點是有效減少時間消耗,提高生成檢測框速度。基于滑動窗口的模型中候選區域是找出來的,而基于區域候選的模型中區域是依據先驗知識計算并通過勾畫出ROI得到的,相較于滑動窗口方法,基于區域候選的模型是一種重要的兩階段實例分割方法。主要模型分類如圖5所示。

這里將基于區域候選的模型分為六種類型。第一類是基于特征提取的區域候選模型,是指將像素分類,通過特征提取實現實例分割任務,其代表模型有FCIS(fully convolutional instance-aware semantic segmentation)[11]和序列化標簽傳播與增強網絡(label propagation and enhancement network,Label-PENet)[12]等。第二類是基于Faster R-CNN的區域候選模型,是指以兩階段目標檢測模型Faster R-CNN為基礎的分割模型,主要從掩膜和邊界框兩方面進行考慮,可有效提高掩膜和定位的精確度,其代表模型有Mask R-CNN[13]、MaskLab[14]、具有特征金字塔注意的Mask R-CNN[15]、Mask Scoring R-CNN[16]、LevelSet R-CNN[17]、帶有空間注意力的Mask RCNN(Mask RCNN with spatial attention,S-Mask-RCNN)[18]、基于概率的Mask RCNN(probability-based Mask RCNN,P-Mask RCNN)[19]、Corner Mask-RCNN[20]和基于注意力聚合的特征金字塔網絡(attention aggregation based feature pyramid network,A2-FPN)[21]等。其中Mask RCNN模型是在Faster R-CNN基礎上做了兩方面工作,一是增加掩膜預測分支,用以生成目標對象掩膜;二是采用ROI Align代替ROI Pooling,用以將像素對齊,從而提高掩膜精度。該模型對RPN找到的每個ROI分別進行類別預測、邊界框預測以及掩膜預測任務,其整體結構如圖4b所示。第三類是基于生成建議的區域候選模型,是指通過給出建議,使模型產生更好的實例分割結果,其代表模型有自適應實例選擇網絡(adaptive instance selection network,AdaptIS)[22]和Nodule-Plus R-CNN[23]等。第四類是基于級聯的區域候選模型,是一種解決多任務的網絡模型,通過多階段處理將實例分割中檢測和分割任務充分利用,較好地解決多任務問題,提高各種任務的性能,其代表模型有混合任務級聯(hybrid task cascade,HTC)[24]和Cascade R-CNN[25]等。第五類是基于密集預測的區域候選模型,是指通過遵循全卷積神經網絡(fully convolution network,FCN)結構進行密集預測,具有高性能的特點,代表模型有帶有原型對齊的網絡(network with prototype alignment,PANet)[26]和D2Det[27]等。第六類是基于少鏡頭學習的區域候選模型,是指模型在面對少量標注數據情況下訓練并能夠解決實例分割任務,代表模型有PANet[26]和全導向網絡(fully guided network,FGN)[28]等。
2.1.3 基于邊界編碼的模型
基于邊界編碼的模型是指模型對人體器官邊界像素具有敏感性,能夠對邊界附近的像素進行分類,從而提高掩膜和位置的預測精度。因為RPN方法是通過一個FCN網絡來實現[29],FCN具有平移不變的特性,對同樣的像素在不同位置上有相同的響應,即平等對待醫學圖像中的所有像素,而實例分割具有平移變換的特性,需要像素具有不同響應,采用基于區域候選的模型會導致器官和病灶實例的邊界信息被忽略,從而造成掩膜預測不準確等問題。因此,基于邊界編碼的模型具有邊緣和掩膜生成準確率高的特點。
從時間的角度來看,2017年的代表模型有邊界感知實例分割(boundary-aware instance segmentation,BAIS)[30]和ESE-Seg[31];2019年的代表模型有MegDetV2[32];2020年的代表模型有Deep Snake[33]、有監督邊緣注意網絡(supervised edge attention network,SEANet)[34]、帶有邊界形狀掩碼的網絡(network with bounding shape masks,BshapeNet+)[35]和邊界保留Mask RCNN(boundary-preserving Mask RCNN,BMask RCNN)[36];2021年的代表模型有深度形狀導向級聯方法(deeply shape-guided cascade,DSC)[37]和邊界塊優化方法(boundary patch refinement,BPR)[38]等。
2017年,Hayder等[30]提出BAIS模型,首先采用具有殘差反卷積架構的對象掩膜網絡(object mask network,OMN)將目標對象的形狀以密集的多值映射編碼表示,然后經過解碼得到二進制掩膜用以實現分割,最后將OMN集成到多任務網絡級聯框架中,以端到端形式生成實例級分割掩膜。2017年,Xu等[31]提出ESE-Seg模型,該模型是基于邊界編碼模型的一種典型算法,其基本結構如圖4c所示,包括生成形狀矢量和生成檢測框兩個任務,通過把目標對象的邊界經過張量運算進行顯式解碼,利用內中心半徑方法將輪廓上的點轉換為極坐標形式,用以形成對象的形狀向量,利用切比雪夫多項式對函數處理使得形狀向量更加切合真實對象,有效實現對多個對象只進行一次傳遞后獲得所有形狀,減少計算復雜度。
2019年,Li等[32]提出MegDetV2模型。該模型是一種雙通道網絡,在訓練階段分別訓練特征金字塔網絡(feature pyramid network,FPN)和Mask R-CNN進行檢測和分割任務;在測試階段使用FPN生成的邊界框作為Mask R-CNN的建議,有效實現分而治之。
2020年,Peng等[33]提出Deep Snake模型,該模型用目標對象的極值點構造的八邊形作為初始輪廓輸入,通過迭代變形初始輪廓得到匹配目標對象的邊界形狀,整個過程對一組有序的點構成的輪廓不斷修正,可有效實現精確預測掩膜,解決忽略邊界的問題。2020年,Chen等[34]提出SEANet模型,該模型包括兩個分支,一個是用于檢測的完全卷積邊框頭分支,一個是用于分割的邊緣注意頭分支,前者通過學習目標對象特征與檢測邊界框之間的交并比(intersection over union,IoU)分數,從中選擇得分最高的檢測框用于分割任務,后者通過引入邊緣注意模塊突出前景目標同時抑制背景噪聲。2020年,Kang等[35]提出BshapeNet+模型,該模型是在Mask R-CNN基礎上增加邊界(bounding shape,bshape)掩膜作為分支,標記目標對象邊界像素為1,其余為0,以表示邊界形狀掩膜,另一個是邊框(bounding box,bbox)掩膜,標記回歸框像素為1,其余為0,以表示回歸框,這兩種新型掩膜都可以使邊界變厚,有效提高實例分割效果。2020年,針對利用FCN實現實例分割任務導致生成粗略掩膜和不精確定位的問題,Cheng等[36]提出BMask RCNN模型,該模型是在Mask R-CNN基礎上增加一個保留邊界的預測頭,通過特征融合模塊使邊界分支和掩膜分支相互學習,利用邊界對掩膜提供的位置信息和掩膜對邊界提供的語義信息來提高實例掩膜定位精度。
2021年,針對級聯結構只是單向利用關系,即利用迭代細化的邊界框檢測在級聯結構中進行掩膜預測,Ding等[37]提出DSC方法,利用精確的掩膜分割在級聯結構中進行邊界框檢測,通過引入初始形狀引導、顯示形狀引導以及隱式形狀引導三種引導,在掩膜預測和邊界框檢測兩個任務之間形成雙向關系,有利于實現精確分割。
2.2 基于分割的實例分割
實例分割包括目標檢測和語義分割兩個核心任務。2015年,Long等[29]提出的FCN較好地解決了語義分割問題。與基于CNN的語義分割模型相比,FCN將網絡最后連接的全連接層換成卷積層,輸出的是熱圖而非向量,可有效地保留原始圖像的空間信息,從而通過預測每個像素點的類別來實現像素級別的分類。基于分割的實例分割模型首先進行像素級別的語義分割,然后將像素組合分類用以生成器官或病灶實例,如圖4d所示。該方法的優點是保持細節信息,一定程度上解決了檢測框定位不準確的問題;缺點是分割效果較差,無法很好地應用于復雜醫學圖像。
從時間的角度來看,2017年的代表模型有順序分組網絡(sequential grouping network,SGN)[39]、Deep Watershed Transform[40]和InstanceCut[41];2019年的代表模型有基于親和金字塔的單次實例分割(single-shot instance segmentation with affinity pyramid,SSAP)[42];2020年的代表模型有帶點監督的基于建議的實例分割(proposal-based instance segmentation with point supervision,WISE-Net)[43];2021年的代表模型有RefineMask[44]等。2017年,Shu等[39]提出SGN模型,采用分組方式,通過順序使用神經網絡解決子分組問題。首先從每幅圖像的行和列像素中預測水平和垂直斷點,然后使用斷點組成水平和垂直線段,最后將水平和垂直線段分組成組件以形成對象實例。2019年,針對傳統的基于分割方法需要多次傳遞來預測掩膜,Gao等[42]提出SSAP模型,將親和金字塔引入實例分割,僅需要一次預測就可以推斷出實例掩膜,其中學習親和金字塔以分層形式計算兩個像素點屬于同一對象實例的概率。2020年,Laradji等[43]提出WISE-Net模型,該模型包括定位網絡(localization network,L-Net)和嵌入網絡(embedding network,E-Net),前者以點級注釋方式定位每個目標對象位置,后者將屬于同一實例對象的相似像素分組嵌入在一起,以得到由L-Net定位的對象掩膜。2021,Zhang等[44]提出RefineMask方法,在FPN基礎上引入語義頭和掩膜頭,將FPN中分辨率最高的特征圖作為語義頭的輸入,生成細粒度特征,掩膜頭則是以多階段的方式逐步融合,即以迭代的方式對原始粗糙掩膜進一步細化,利用邊界感知細化(boundary-aware refinement,BAR)模塊關注邊界區域,使得邊界更加清晰,有利于生成準確掩膜。
3 單階段實例分割模型
近年來兩階段實例分割模型在數字醫學圖像領域取得較好效果,但是由于模型的串行處理,需要先依賴定位操作來選取局部特征以預測掩膜,處理速度較慢,不能滿足實時實例分割的要求。針對上述兩階段模型存在的問題,許多研究者將檢測和分割兩個階段相結合,即通過單個階段完成檢測和分割任務。單階段實例分割模型就是指同時進行器官或病灶的定位和分割,以并行方式處理醫學圖像,具有速度快的特點。本節對單階段實例分割模型從有錨框向無錨框的發展演變進行歸納總結。
3.1 有錨框的實例分割
有錨框的實例分割是指在單階段實例分割中采用錨框作為區域選擇方法,以每個像素為中心產生與目標對象大小相匹配的邊界框,以回歸相應的人體器官或病灶區域。優點是通過預先設定的錨框對邊界框進行預測,準確度高。缺點是密集使用錨框會生成多個候選區域,而多個候選框之間可能存在相似或重疊部分,導致計算量大,時間復雜度高。
從時間的角度來看,2019年的代表模型有YOLACT[45]、單階段顯著實例分割(single stage salient-instance segmentation,S4Net)[46]和TensorMask[47];2020年的代表模型有YOLACT++[48]、輕量級混合精度量化YOLACT(mixed-precision quantization for lightweight YOLACT,MPQ-YOLACT)[49]、深度多邊形變換的實例分割(deep polygon transformer for instance segmentation,PolyTransform)[50]、有效的單階段方法(effective single-stage approach,Mask SSD)[51]和高效的實例分割網絡(efficient instance segmentation network,EISNET)[52]等。2019年,Bolya等[45]提出YOLACT模型,其整體結構如圖4e所示,是第一個實時實例分割模型,其骨干網是由殘差神經網絡(residual neural network,ResNet)[53]和FPN構成,采用兩個并行子分支結構,第一個分支用于產生原型掩膜,第二個分支用于產生掩膜系數,然后將兩個分支的輸出線性組合,通過裁剪和閾值化操作得到最終實例掩膜。在YOLACT中,引入了快速非極大值抑制(fast non maximum suppression,Fast NMS),相較于非極大值抑制(non maximum suppression,NMS)具有速度快的優點。2020年,針對YOLACT模型中平均精度(mean average precision,mAP)值較低的問題,Bolya等[48]提出YOLACT++模型。該模型在YOLACT基礎上加以改進,一是添加高效的快速掩膜重評分網絡,將預測結果按照實例分割的真正質量綜合排序;二是將可變形卷積(deformable convolution,DConv)引入骨干網中,通過有間隔地使用DConv,增強模型處理不同類型實例的能力;三是優化預測頭結構,用以優化錨框。2020年,Liang等[50]提出PolyTransform模型,結合基于多邊形的方法進一步產生精確掩膜,通過變形網絡將初始化多邊形扭曲轉換為更加適合目標的局部幾何邊界,有效捕捉目標對象的局部形狀,解決由于遮擋而導致目標對象分裂的問題。
3.2 無錨框的實例分割
無錨框的實例分割是指不依賴于預先設定的錨框,直接對回歸框的位置和類別進行預測。其優點是不依賴預定義的錨框,速度快。因此,單階段無錨框的實例分割模型成為主流。本節對無錨框的實例分割進行總結歸納,分類結構如圖6所示。

無錨框的實例分割模型可分為五種類型。第一類是基于實例類別的模型,代表模型有SOLO[54]和SOLOv2[55]等;第二類是基于單階段檢測器的模型,代表模型有嵌入耦合的單階段實例分割(embedding coupling for one-stage instance segmentation,EmbedMask)[56]、基于極坐標表示的單次實例分割(single shot instance segmentation with polar representation,PolarMask)[57]、自頂向下結合自底向上的實例分割(top-down meets bottom-up for instance segmentation,BlendMask)[58]、CenterMask[59]、基于條件卷積的實例分割[60](conditional convolutions for instance segmentation,CondInst)和基于單像素重建的單階段實例分割(single-pixel reconstruction for one-stage instance segmentation,SPRNet)[61]等;第三類是基于點策略的模型,代表模型有PolarMask[57]、PointRend[62]和基于邊界點表示的單階段實例分割(one-stage instance segmentation with boundary points representation,BorderPointsMask)[63]等;第四類是基于向量的掩膜預測模型,代表模型有基于掩膜編碼的單次實例分割(mask encoding for single shot instance segmentation,MEInst)[64]和CentroidNetV2[65]等;第五種是基于編碼解碼結構的模型,代表模型有基于深度學習的重疊生物對象實例分割(instance segmentation of overlapping biological objects using deep learning,ISOODL)[66]和帶有樣式轉換的實例分割(style transfer with instance segmentation,IST)[67]等。
3.2.1 基于實例類別的模型
基于實例類別的模型是指將實例分割分為預測類別和生成掩膜兩個子任務,將目標對象的類別放在通道上,即分割問題轉化為分類問題。
2020年,Wang等[54]提出SOLO模型,該模型是基于實例類別模型的一種典型算法,其基本結構如圖4f所示,在FCN基礎上采用類別預測分支和掩膜生成分支對中心處于網格中的對象進行處理,分別產生相應的語義類別和實例掩膜,該模型將輸入圖像劃分為s × s的網格,每個格子對應一個通道,共有s × s個輸出通道,但是圖像中通常不會存在較多實例,存在計算量大的缺點。針對許多通道多余的問題,在原始頭(vanilla head)基礎上改進為解耦頭,通過將掩膜分支分解為X方向分支和Y方向分支處理,輸出通道數從s × s變為s + s,有效降低輸出維度和減少計算資源消耗,同時沒有損失模型精度。2020年,Wang等[55]提出SOLOv2模型,在SOLO基礎上引入動態頭,將掩膜分支分解為內核分支和功能分支,有效提高運算速度。在SOLOv2模型中將NMS改進為Matrix NMS,通過使用并行矩陣運算單次實現NMS,解決了多次迭代的問題,從而實現速度提升。
3.2.2 基于單階段檢測器的模型
基于單階段檢測器的模型是指在單階段目標檢測模型的基礎上加以改進,有效將實例分割和目標檢測聯系起來,得到更加精確的掩膜。
2019年,Ying等[56]提出EmbedMask模型,候選框嵌入是對全局信息的編碼,像素嵌入是對局部信息的編碼,通過將二者結合實現對目標的精確分割,根據嵌入來確定候選框和像素嵌入的距離,從而決定像素是否屬于該候選框。2020年,Xie等[57]提出PolarMask模型,在全卷積單階段目標檢測(fully convolution one-stage object detection,FCOS)算法基礎上將通道數從n = 4變為n = 36來回歸36條射線長度,提出極坐標中心(polar centerness)和極坐標IoU損失(polar iou loss),前者實現反向傳播和并行計算來提高訓練速度,后者實現優化來提高定位精度。2020年,Chen等[58]提出BlendMask模型,該模型包括FCOS模型和掩膜分支,其中掩膜分支由底部模塊(bottom module)、頂層(tower)和融合模塊(blender)三部分構成。2020年,Lee等[59]提出CenterMask模型,在FCOS模型的基礎上增添空間注意力引導掩膜(spatial attention-guided mask,SAG-Mask)。2020年,Tian等[60]提出CondInst模型,將條件卷積引入實例分割,包括FCOS模型和Mask FCN頭,其中FCOS用于檢測目標對象類別,Mask FCN頭使用動態參數以對不同對象實例產生不同的參數值來生成實例掩膜。2021年,Yu等[61]提出SPRNet模型,在單階段檢測器的基礎上引入單像素重構分支,用以將每個像素直接重建為像素級掩膜。
3.2.3 基于點策略的模型
基于點策略的模型是指將實例分割問題轉換為目標輪廓點選取問題,有效生成更加精細的掩膜。2020年,Xie等[57]提出PolarMask模型,該模型采用極坐標方法將角度和距離作為坐標來確定輪廓上的點,通過極坐標的原點和原點到輪廓上點的距離來分別表示實例中心分類和密集距離回歸任務,提出極坐標中心和極坐標IoU損失,分別處理實例中心樣本和密集距離回歸。2020年,Kirillov等[62]提出PointRend模型,通過一個輕量級預測頭生成一個粗糙掩膜,然后通過選取邊界點,經過逐步迭代以不斷增強邊界細節,生成高質量高像素的實例掩膜。2022年,Yang等[63]提出BorderPointsMask模型,這是一種基于邊界點表示的模型,由骨干網絡、特征金字塔網絡以及預測頭組成。
3.2.4 基于向量的掩膜預測模型
基于向量的掩膜預測模型是指通過使用向量來表示掩膜。2020年,Zhang等[64]提出MEInst模型,將二維掩膜編碼成緊湊向量,通過壓縮掩膜有效降低其特征向量維度。
3.2.5 基于編碼解碼結構的模型
基于編碼解碼結構的模型是指模型包括編碼器和解碼器結構[68]。2018年,Bohm等[66]提出ISOODL模型,通過構建雙頭U-net模型對重疊對象同時進行檢測和分割任務,其中一條收縮路徑的特征圖被兩條擴展路徑所共用。
4 3D實例分割模型
3D實例分割模型是指能夠在3D場景中區分出相同類別中的目標個體。該方法優點是能夠更好地分割3D醫學圖像中的人體器官,缺點是與已經成熟的2D實例分割模型相比,3D實例分割模型在網絡模型性能、效率以及準確度方面還有待提高。本節將對3D實例分割模型從有候選區域向無候選區域的發展演變進行歸納總結,如圖7所示。

4.1 有候選區域的實例分割
有候選區域的實例分割是指首先在3D醫學圖像中生成候選區域,然后在候選區域內進行掩膜預測以得到實例標簽。優點是該方法通過兩個過程,即先得到候選區域,然后在特定區域內進行實例分割,獲得的實例位置更準確,實例掩膜更精確。缺點是由于生成大量的候選區域,需要使用NMS等方法對候選區域進行選擇處理,導致運算量大,時間復雜度高。代表模型有相似組建議網絡(similarity group proposal network,SGPN)[69]、生成形狀建議網絡(generative shape proposal network,GSPN)[70]、三維語義實例分割(3D semantic instance segmentation,3D-SIS)[71]、帶有邊界框的3D實例分割(bounding boxes for 3D instance segmentation,3D-BoNet)[72]和Mask-MCNet[73]等。
2018年,Wang等[69]提出SGPN模型,該模型有三個分支:第一個分支是通過計算每對點之間的距離得出相似度,用以構造一個相似度矩陣得到點分組建議;第二個分支是通過置信圖將點分組建議進行修剪處理;第三個分支是通過語義預測為每個組生成語義類,取得良好的3D實例分割結果。
2019年,Yi等[70]提出GSPN模型,通過重構噪聲觀測形狀來生成3D對象形狀建議,通過將GSPN和基于區域的PointNet模型相結合來生成對象建議和實例掩膜。2019年,Hou等[71]提出3D-SIS模型,將2D特征、3D顏色以及幾何特征相融合,有效利用幾何特征和顏色特征來給出對象建議并預測實例掩膜,從而提高實例分割精確度。2019年,Yang等[72]提出3D-BoNet模型,該模型是一種基于邊界框回歸的端到端方法,包括主干網絡和兩個分支,其中兩個分支分別用于3D邊界框回歸預測和點掩膜預測。
2021年,Zanjani等[73]提出Mask-MCNet模型,該模型包括骨干網絡、RPN以及檢測、定位、掩膜三個預測分支,其中骨干網絡是基于MLP架構的深度網絡以提取特征。
4.2 無候選區域的實例分割
無候選區域的實例分割是指在3D醫學圖像中將相同語義標簽的點,即屬于同一個實例的點通過聚類方法分組在一起。優點是不需要獲取器官或病灶的候選區域,直接得到實例分割結果。缺點是實例定位不準確,生成的實例掩膜較差。代表模型有聯合語義實例分割模型(joint semantic-instance segmentation,JSIS3D)[74]、關聯實例和語義分割(associatively segmenting instances and semantics,ASIS)[75]、雙設定點分組的3D實例分割(dual-set point grouping for 3D instance segmentation,PointGroup)[76]、占用感知3D實例分割(occupancy-aware 3D instance segmentation,OccuSeg)[77]、多尺度語義關聯與顯著點聚類優化方法(multi-scale semantic association and salient point clustering optimization,SASO)[78]、多建議聚合的3D語義實例分割(multi-proposal aggregation for 3D semantic instance segmentation,3D-MPA)[79]、基于特征自相似性和跨任務概率網絡(feature self-similarity and cross-task probability,JSPNet)[80]、3D鳥瞰圖實例分割(3D bird’s-eye-view instance segmentation,3D-BEVIS)[81]、耦合特征選擇的語義實例分割(semantic-instance segmentation via coupled feature selection,3DCFS)[82]、AS-NET[83]、種子點選擇網絡(seed point selection network,SPSN)[84]以及基于稀疏卷積的多尺度親和力3D實例分割(multi-scale affinity with sparse convolution,MASC)[85]等,具體模型思想及特點如表1所示。

5 實例分割在醫學圖像處理領域的應用
實例分割是醫學圖像處理的熱點和難點,將醫學圖像和實例分割技術相結合的癌癥自動輔助診斷系統在醫學圖像處理領域中具有良好的應用前景,能夠更好地輔助醫生對疾病進行識別診斷和規劃治療。本節針對實例分割技術在結腸組織圖像、宮頸圖像、骨顯像圖像、胃癌病理切片圖像、肺結節CT圖像和乳腺X線片圖像等六種醫學圖像的應用現狀進行總結,如圖8所示。

對于結腸組織圖像,Graham等[86]采用最小信息丟失擴張網絡(minimal information loss dilated network,MILD-Net)用于結腸組織圖像中的腺體實例分割,在傳統殘差單元基礎上引入MIL單元和膨脹殘差單元這兩種殘差單位,以解決最大池化造成的信息丟失問題。對于宮頸圖像,Said等[87]采用Mask R-CNN模型用于彩色宮頸圖像的實例分割和分類,該模型通過檢測ROI生成邊界框,然后將ROI傳遞給分類器生成類別,最后對邊界框內目標對象進行分割得到掩膜。對于骨顯像圖像,Apiparakoon等[88]采用MaligNet模型結合半監督學習用于骨顯像圖像中骨病變實例分割,該模型是基于FPN的CNN網絡,將全身骨骼顯著圖送入單鏡頭多盒檢測器中檢測胸部區域,然后輸入模型中進行病灶的實例分割。對于胃癌病理切片圖像,Cao等[89]采用Mask R-CNN模型用于胃癌診斷。對于肺結節CT圖像,Yan等[90]提出改進的Mask R-CNN模型,在Mask R-CNN基礎上使用新的焦點損失來解決由于目標小、背景大而造成負樣本所占權重大的問題。對于乳腺X線片圖像,Bhatti等[91]提出嵌入FPN的Mask R-CNN模型,該模型將Mask R-CNN的特征提取部分用FPN替代來生成質量更高的多尺度特征圖,在多個尺度上提取特征后顯示病變,有效提高檢測病變的準確性。
6 總結與展望
本文首先闡述醫學圖像實例分割的基本原理;然后將實例分割的模型發展映射到二維空間,分別從有候選區域向無候選區域、有錨框向無錨框發展角度總結兩階段實例分割、單階段實例分割以及3D實例分割這三類在模型方面的研究進展;最后探討實例分割模型在醫學圖像處理領域中的應用,為醫生進行識別診斷和治療規劃提供參考。
綜上所述,醫學圖像實例分割較之傳統的分割方法能夠提供位置信息,與語義分割相比能夠提供實例級標注,在醫學圖像中具有精準判斷人體器官或者病灶區域邊界、大小、類別和理解多角度、深層次的語義信息的能力。近年來,實例分割技術逐步成為各領域研究人員重點關注的問題,并且取得一定進展,但是仍存在諸多挑戰。
第一,實例分割在醫學器官圖像中應用廣泛,但是實例分割在病灶圖像中還存在漏分割、過分割和錯分割的問題,與器官圖像相比,病灶區域像素個數少,不能對病灶區域準確測量,從而不能得出該組織器官的病變狀況以輔助醫生做出精確診斷。因此,發展以弱小目標(如病灶)的實例分割模型對臨床醫生診斷治療具有重要意義。
第二,在醫學圖像處理領域中,大部分深度學習模型是基于有監督的方式,需要依賴人工標注的數據集,而且大多數醫學圖像還缺乏帶標簽的數據標注,人工標注存在費時耗力和成本較高的缺點。因此,發展使用少量帶標簽數據,結合大量無標簽數據訓練的小樣本、半監督和弱監督實例分割模型,將有助于降低標注成本,提高診斷效果。
第三,實例分割在醫學圖像處理中取得良好效果,但仍存在參數和特征遷移的挑戰,如何從源領域中選擇對醫學目標領域有用的實例特征以及如何進行源領域實例參數權重分配是研究者們亟待解決的問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:趙雅楠為綜述主要撰寫人,負責文獻資料的整理收集與分析;周濤參與論文修改與指導;陸惠玲參與論文審閱修訂;侯森寶參與資料收集與論文修改;鄭小敏參與論文指導與審校。
引言
基于深度學習的醫學圖像目標檢測、分割技術是利用卷積神經網絡(convolutional neural network,CNN)來理解圖像中二維(two-dimensional,2D)像素或三維(three-dimensional,3D)立體像素所代表的人體器官或病灶區域。在醫學圖像處理中,實例分割對研究顯著目標(如器官)、弱小目標(如病灶)等具有重要意義。其中,人體器官是指由多種組織相互結合構成具有一定形態和功能的結構單位,病灶是指在機體的局部范圍內具有病原微生物的病變組織,器官或組織的某一部分被致病因子破壞就會形成病灶。相對于器官而言,病灶所成的影像在醫學圖像中具有像素個數少、邊緣不清晰等特點,導致在醫學圖像中精準檢測并識別出病灶的難度較大,因此研究基于深度學習的器官、病灶的檢測和分割任務至關重要。
隨著計算機輔助診斷技術(computer aided diagnosis,CAD)的發展和醫學影像數據量的增加,原本需要醫生依靠專業知識和閱片經驗來手動標注每一張影像,轉換為以計算機技術為輔助工具,利用深度學習方法來自動提取醫學圖像中深層特征信息,實現對病灶的定位識別和疾病的診斷治療。因此,基于深度學習的人體器官和病灶區域的檢測分割方法能為醫生的工作帶來幫助,有利于提高診斷效率和準確率。作為醫學圖像處理領域的基本問題,圖像理解可以分為圖像分類、目標檢測、語義分割和實例分割四個基本任務,如圖1所示。圖像分類就是預測醫學圖像中顯著目標(如器官)等的類別,如圖1a所示;目標檢測不僅識別器官類別,還要預測器官位置,如圖1b所示;語義分割是預測輸入醫學圖像中每一個像素點的類別,是對醫學圖像的像素級分類,如圖1c所示;實例分割是在語義分割的基礎上,區分出同一類器官的不同個體,既是對醫學圖像的像素級分割,又是對象級識別,如圖1d所示將腎分為左腎和右腎。目標檢測的結果是器官的邊界框和類別,實例分割的結果則是器官的掩膜和類別;與語義分割相比,實例分割需要標注出同一類別器官的不同對象實例,每個像素都根據其所在的實例進行標注;傳統的醫學圖像分割方法存在不能定位的缺點,而醫學圖像實例分割方法可以實現對人體器官和病灶區域的精確定位。由此可見,實例分割能夠精準確定人體器官位置,區分同一類器官的不同個體,適用于更加復雜和多樣的醫學圖像分割任務。因此,深入研究醫學圖像實例分割方法具有十分重要的意義。

a. 圖像分類;b. 目標檢測;c. 語義分割;d. 實例分割
Figure1. Four basic tasks of image comprehension in whole-body bone scan imagesa. image classification; b. object detection; c. semantic segmentation; d. instance segmentation
醫學圖像實例分割的思想是結合目標檢測和語義分割兩個階段。通過目標檢測找出醫學圖像中器官或病灶所在位置,然后對檢測框內器官或病灶進行像素級別的語義分割,為屬于同一類的不同實例提供標簽,其分割精度和效率都較好[1]。實例分割作為醫學影像處理中的研究熱點,已廣泛應用于結腸腺體、腎、肝臟、胃、肺、乳腺等器官的檢測分割任務中。Jiang等[2]將實例分割應用到腎活檢病理圖像,實驗證明該模型對多染腎小球的分割和分類具有良好的有效性和魯棒性;Vania等[3]使用多級優化Mask RCNN模型對椎間盤進行實例分割,通過263名椎間盤患者的磁共振圖像(magnetic resonance imaging,MRI)證明了該模型的有效性;李佳昇[4]提出一種應用于結直腸癌肝轉移的模型,實現了對患者腹部肝臟腫瘤的分割與檢測。綜上所述,醫學圖像實例分割技術能夠對人體器官和病灶區域準確定位并精確分割。
本文綜述了從有候選區域向無候選區域演化的醫學圖像實例分割的研究進展,主要工作有:第一,闡述實例分割的基本原理,將實例分割模型歸納為三類,兩階段實例分割發展過程中模型演化思路是有候選區域向無候選區域演變,單階段實例分割發展過程中模型演化思路是有錨框向無錨框演變,3D實例分割發展過程中模型演化思路是有候選區域向無候選區域發展,從這三個方面采用二維空間架構展示實例分割算法,并給出六個實例分割經典模型圖。第二,從兩階段實例分割、單階段實例分割以及3D實例分割三類模型的角度出發,分別總結三類模型的算法思想,探討其優缺點以及梳理最新進展。第三,對實例分割技術在結腸組織圖像、宮頸圖像、骨顯像圖像、胃癌病理切片圖像、肺結節計算機斷層掃描(computed tomography,CT)圖像和乳腺X線片(X-ray)圖像等六種醫學圖像中的應用進行總結。第四,指出當前醫學圖像實例分割領域面對的挑戰,并展望未來的發展方向,希望為研究醫學圖像實例分割方法的學者提供相關參考和幫助。
1 醫學圖像實例分割的基本原理
醫學圖像實例分割是一種基于區域的分割方法,在各個檢測框內對人體器官和病灶區域進行像素級分割。優點是在實例級別上進行顯著目標和弱小目標的檢測任務,在像素級別上進行語義分割任務,有效提高定位和識別精度。其中,語義分割是一種基于對象類的分割方法,用以預測醫學圖像中每個像素點的類標簽并進行分割,而實例分割是預測醫學圖像中每個像素點的對象標簽,用以識別同一類器官的不同對象。2014年,Hariharan等[5]提出SDS(simultaneous detection and segmentation)模型,在該模型中最早體現出實例分割思想,與其他模型不同的是,該方法將檢測和分割任務結合在一起,通過生成建議、特征提取、區域分類以及區域改良四個步驟生成最終實例掩膜[6]。同年,Girshick等[7]提出R-CNN(region-CNN)模型,是一個用于目標檢測和語義分割的神經網絡模型,該模型將區域建議和CNN模型結合起來,包括三個模塊,一是區域建議模塊,用于建議候選區域集合,二是特征提取模塊,用于從建議的候選區域中提取特定大小的特征向量,三是支持向量機(support vector machine,SVM),用于判別分類。因此,R-CNN模型是早期用于定位目標和語義分割的結構。
醫學圖像實例分割的基本原理如圖2所示,整體由三個階段組成:第一階段是由卷積和池化等操作構成的特征提取網絡,第二階段是由自下而上和自上而下的特征卷積構成的特征融合網絡,第三階段是由多個預測頭實現特征預測。基本原理是首先經過特征提取網絡對輸入的醫學圖像進行特征提取,在網絡的淺層部分提取細節特征,深層部分提取抽象特征,將原始特征信息進行重新組合來為后續階段提供特征層,然后通過特征融合網絡將深層特征圖信息和淺層特征圖信息進行交互融合,增強特征圖中的邊緣、位置、細節信息與語義信息,最后通過特征預測頭將人體器官或者病變區域的位置、類別以及掩膜信息進行回歸輸出。

從有候選區域向無候選區域發展的醫學圖像實例分割模型分類及發展歷程如圖3所示。橫軸代表模型分類,整體來看是從有候選區域向無候選區域、有錨框向無錨框演變發展,縱軸代表時間進展。其中,SDS模型最早體現實例分割思想,R-CNN模型是用于目標檢測和語義分割。從2014年起,實例分割模型逐步演化出三大類型,包括兩階段實例分割模型、單階段實例分割模型以及3D實例分割模型。兩階段實例分割模型首先通過區域建議網絡(region proposal network,RPN)生成感興趣區域(region of interest,ROI),然后在候選區域內對目標對象進行分割,生成實例級掩膜,包括基于檢測和基于分割的方法。單階段實例分割模型是不需要RPN網絡生成候選區域這個階段,直接同時對醫學圖像中所有目標對象進行檢測分割,包括有錨框和無錨框的方法。3D實例分割模型中,有候選區域的方法是首先生成候選區域,然后在3D檢測框內進行分割,而無候選區域的方法是通過聚類將具有同一特征的體素分組在一起。

為了進一步說明發展脈絡,本文在圖3所示框架下總結歸納從兩階段到單階段演變的典型實例分割模型圖,如圖4所示。按照不同階段不同類型模型的發展順序對經典網絡架構進行圖形化描述。兩階段模型分為基于檢測的模型和基于分割的模型,其中基于檢測的模型包括基于滑動窗口的模型(見圖4a)、基于區域候選的模型(見圖4b)、基于邊界編碼的模型(見圖4c)和基于分割的實例分割模型(見圖4d)。單階段模型分為有錨框的實例分割模型(見圖4e)和無錨框的實例分割模型(見圖4f)。

a. 基于滑動窗口的模型;b. 基于區域候選的模型;c. 基于邊界編碼的模型; d. 基于分割的實例分割模型;e. 有錨框的實例分割模型;f. 無錨框的實例分割模型
Figure4. Typical instance segmentation models diagrama. model based on sliding window; b. model based on regional candidate; c. model based on boundary coding; d. model based on segmentation; e. model with anchor box; f. model without anchor box
2 兩階段實例分割模型
兩階段實例分割模型是將醫學圖像經過檢測和分割兩個階段得到實例級器官和病灶掩膜。其中,檢測階段是指對人體器官和病灶區域檢測后得到邊界框,分割階段是指在邊界框內部區域分割后得到器官和病灶實例掩膜。該類模型的優點是能夠有效預測出精確掩膜。針對傳統兩階段實例分割模型存在生成的掩膜精度較低,實例定位不準確以及實例邊界信息易被忽略等問題,許多研究者繼續深入研究,提出一系列新的兩階段實例分割模型。本節對兩階段實例分割模型從有候選區域向無候選區域的發展演變進行歸納總結。
2.1 基于檢測的實例分割
基于檢測的實例分割模型是首先檢測醫學圖像中顯著目標(如器官)、弱小目標(如病灶)所在區域,然后在候選區域內對其進行語義分割,生成實例掩膜。優點是通過檢測和分割兩個階段分別處理,能夠有效實現精準定位和精確分割;缺點是由于需要經過兩個階段處理得到對象級掩膜,導致基于檢測的實例分割模型速度較慢,過程較復雜。本節對基于滑動窗口的模型、基于區域候選的模型和基于邊界編碼的模型進行總結歸納。
2.1.1 基于滑動窗口的模型
兩階段實例分割模型的檢測階段需要在醫學圖像中對器官和病灶標出檢測框,而在標注候選區域過程中最簡單直接的方法是滑動窗口法。滑動窗口法是指通過使用不同尺度的滑動窗在醫學圖像的不同位置上滑動,在滑動過程中使用訓練好的分類器對每個醫學圖像塊分類判別用以識別其中是否包含器官或者病灶,如圖4a所示。優點是過程簡單;缺點包括如下幾個方面:一、該方法是一種窮舉法,需要在醫學圖像上按照從左至右、從上至下的順序滑動某一尺寸的窗口,把所有可能的圖像塊都窮舉出來,計算復雜度高;二、對于滑動窗口的尺寸大小、滑動步長、滑動策略等需要人為干預設定,即窗口尺寸大小不容易確定,需要不斷嘗試,運算量大;三、在醫學全身掃描圖像中,由于大部分區域內不存在器官目標,且背景區域所占面積較大,而基于滑動窗口的模型需要在整幅圖像上多次滑動判別,存在效率較低和復雜度高的問題。
2015年,Pinheiro等[8]提出DeepMask模型,該模型是在VGG網絡(visual geometry group network)基礎上增加分割和分類兩個分支。其中分割分支由一個1×1的卷積層加全連接層組成,用以實現對目標對象類別的識別并輸出分割掩膜;分類分支是由一個2×2的最大池化層后加兩個全連接層組成,通過輸出目標對象分數,用以判斷目標對象是否滿足位于正中心位置以及完整存在于圖塊當中的要求。該模型不依賴于邊緣等低層級分割,而是直接學習原始圖像并生成對象建議。但存在的問題是DeepMask模型產生的是粗略掩膜,不能滿足像素級分割要求。
2016年,針對DeepMask產生的是粗略掩膜且目標對象邊緣不精細的問題,Pinheiro等[9]提出SharpMask模型用以提煉DeepMask的輸出掩膜。該模型在DeepMask基礎上提出優化模塊,每個優化模塊的輸入是上一層傳下來的粗略掩膜和下一層傳上去的低層特征,通過逐層貫穿模型的優化模塊,將粗略掩膜和低層特征融合,最終輸出精細的對象掩膜。
2.1.2 基于區域候選的模型
傳統的候選框提取方法是選擇性搜索,通過基于圖的分割方法生成初始區域,然后按照相似度合并規則合并可能性最高的區域,直到最后合并成候選區域,但是該方法速度慢。2016年,Ren等[10]提出Faster R-CNN模型,直接使用RPN代替選擇性搜索方法來提取候選框。該方法只對醫學圖像中最有可能包含人體器官和病灶區域的部分進行檢測,優點是有效減少時間消耗,提高生成檢測框速度。基于滑動窗口的模型中候選區域是找出來的,而基于區域候選的模型中區域是依據先驗知識計算并通過勾畫出ROI得到的,相較于滑動窗口方法,基于區域候選的模型是一種重要的兩階段實例分割方法。主要模型分類如圖5所示。

這里將基于區域候選的模型分為六種類型。第一類是基于特征提取的區域候選模型,是指將像素分類,通過特征提取實現實例分割任務,其代表模型有FCIS(fully convolutional instance-aware semantic segmentation)[11]和序列化標簽傳播與增強網絡(label propagation and enhancement network,Label-PENet)[12]等。第二類是基于Faster R-CNN的區域候選模型,是指以兩階段目標檢測模型Faster R-CNN為基礎的分割模型,主要從掩膜和邊界框兩方面進行考慮,可有效提高掩膜和定位的精確度,其代表模型有Mask R-CNN[13]、MaskLab[14]、具有特征金字塔注意的Mask R-CNN[15]、Mask Scoring R-CNN[16]、LevelSet R-CNN[17]、帶有空間注意力的Mask RCNN(Mask RCNN with spatial attention,S-Mask-RCNN)[18]、基于概率的Mask RCNN(probability-based Mask RCNN,P-Mask RCNN)[19]、Corner Mask-RCNN[20]和基于注意力聚合的特征金字塔網絡(attention aggregation based feature pyramid network,A2-FPN)[21]等。其中Mask RCNN模型是在Faster R-CNN基礎上做了兩方面工作,一是增加掩膜預測分支,用以生成目標對象掩膜;二是采用ROI Align代替ROI Pooling,用以將像素對齊,從而提高掩膜精度。該模型對RPN找到的每個ROI分別進行類別預測、邊界框預測以及掩膜預測任務,其整體結構如圖4b所示。第三類是基于生成建議的區域候選模型,是指通過給出建議,使模型產生更好的實例分割結果,其代表模型有自適應實例選擇網絡(adaptive instance selection network,AdaptIS)[22]和Nodule-Plus R-CNN[23]等。第四類是基于級聯的區域候選模型,是一種解決多任務的網絡模型,通過多階段處理將實例分割中檢測和分割任務充分利用,較好地解決多任務問題,提高各種任務的性能,其代表模型有混合任務級聯(hybrid task cascade,HTC)[24]和Cascade R-CNN[25]等。第五類是基于密集預測的區域候選模型,是指通過遵循全卷積神經網絡(fully convolution network,FCN)結構進行密集預測,具有高性能的特點,代表模型有帶有原型對齊的網絡(network with prototype alignment,PANet)[26]和D2Det[27]等。第六類是基于少鏡頭學習的區域候選模型,是指模型在面對少量標注數據情況下訓練并能夠解決實例分割任務,代表模型有PANet[26]和全導向網絡(fully guided network,FGN)[28]等。
2.1.3 基于邊界編碼的模型
基于邊界編碼的模型是指模型對人體器官邊界像素具有敏感性,能夠對邊界附近的像素進行分類,從而提高掩膜和位置的預測精度。因為RPN方法是通過一個FCN網絡來實現[29],FCN具有平移不變的特性,對同樣的像素在不同位置上有相同的響應,即平等對待醫學圖像中的所有像素,而實例分割具有平移變換的特性,需要像素具有不同響應,采用基于區域候選的模型會導致器官和病灶實例的邊界信息被忽略,從而造成掩膜預測不準確等問題。因此,基于邊界編碼的模型具有邊緣和掩膜生成準確率高的特點。
從時間的角度來看,2017年的代表模型有邊界感知實例分割(boundary-aware instance segmentation,BAIS)[30]和ESE-Seg[31];2019年的代表模型有MegDetV2[32];2020年的代表模型有Deep Snake[33]、有監督邊緣注意網絡(supervised edge attention network,SEANet)[34]、帶有邊界形狀掩碼的網絡(network with bounding shape masks,BshapeNet+)[35]和邊界保留Mask RCNN(boundary-preserving Mask RCNN,BMask RCNN)[36];2021年的代表模型有深度形狀導向級聯方法(deeply shape-guided cascade,DSC)[37]和邊界塊優化方法(boundary patch refinement,BPR)[38]等。
2017年,Hayder等[30]提出BAIS模型,首先采用具有殘差反卷積架構的對象掩膜網絡(object mask network,OMN)將目標對象的形狀以密集的多值映射編碼表示,然后經過解碼得到二進制掩膜用以實現分割,最后將OMN集成到多任務網絡級聯框架中,以端到端形式生成實例級分割掩膜。2017年,Xu等[31]提出ESE-Seg模型,該模型是基于邊界編碼模型的一種典型算法,其基本結構如圖4c所示,包括生成形狀矢量和生成檢測框兩個任務,通過把目標對象的邊界經過張量運算進行顯式解碼,利用內中心半徑方法將輪廓上的點轉換為極坐標形式,用以形成對象的形狀向量,利用切比雪夫多項式對函數處理使得形狀向量更加切合真實對象,有效實現對多個對象只進行一次傳遞后獲得所有形狀,減少計算復雜度。
2019年,Li等[32]提出MegDetV2模型。該模型是一種雙通道網絡,在訓練階段分別訓練特征金字塔網絡(feature pyramid network,FPN)和Mask R-CNN進行檢測和分割任務;在測試階段使用FPN生成的邊界框作為Mask R-CNN的建議,有效實現分而治之。
2020年,Peng等[33]提出Deep Snake模型,該模型用目標對象的極值點構造的八邊形作為初始輪廓輸入,通過迭代變形初始輪廓得到匹配目標對象的邊界形狀,整個過程對一組有序的點構成的輪廓不斷修正,可有效實現精確預測掩膜,解決忽略邊界的問題。2020年,Chen等[34]提出SEANet模型,該模型包括兩個分支,一個是用于檢測的完全卷積邊框頭分支,一個是用于分割的邊緣注意頭分支,前者通過學習目標對象特征與檢測邊界框之間的交并比(intersection over union,IoU)分數,從中選擇得分最高的檢測框用于分割任務,后者通過引入邊緣注意模塊突出前景目標同時抑制背景噪聲。2020年,Kang等[35]提出BshapeNet+模型,該模型是在Mask R-CNN基礎上增加邊界(bounding shape,bshape)掩膜作為分支,標記目標對象邊界像素為1,其余為0,以表示邊界形狀掩膜,另一個是邊框(bounding box,bbox)掩膜,標記回歸框像素為1,其余為0,以表示回歸框,這兩種新型掩膜都可以使邊界變厚,有效提高實例分割效果。2020年,針對利用FCN實現實例分割任務導致生成粗略掩膜和不精確定位的問題,Cheng等[36]提出BMask RCNN模型,該模型是在Mask R-CNN基礎上增加一個保留邊界的預測頭,通過特征融合模塊使邊界分支和掩膜分支相互學習,利用邊界對掩膜提供的位置信息和掩膜對邊界提供的語義信息來提高實例掩膜定位精度。
2021年,針對級聯結構只是單向利用關系,即利用迭代細化的邊界框檢測在級聯結構中進行掩膜預測,Ding等[37]提出DSC方法,利用精確的掩膜分割在級聯結構中進行邊界框檢測,通過引入初始形狀引導、顯示形狀引導以及隱式形狀引導三種引導,在掩膜預測和邊界框檢測兩個任務之間形成雙向關系,有利于實現精確分割。
2.2 基于分割的實例分割
實例分割包括目標檢測和語義分割兩個核心任務。2015年,Long等[29]提出的FCN較好地解決了語義分割問題。與基于CNN的語義分割模型相比,FCN將網絡最后連接的全連接層換成卷積層,輸出的是熱圖而非向量,可有效地保留原始圖像的空間信息,從而通過預測每個像素點的類別來實現像素級別的分類。基于分割的實例分割模型首先進行像素級別的語義分割,然后將像素組合分類用以生成器官或病灶實例,如圖4d所示。該方法的優點是保持細節信息,一定程度上解決了檢測框定位不準確的問題;缺點是分割效果較差,無法很好地應用于復雜醫學圖像。
從時間的角度來看,2017年的代表模型有順序分組網絡(sequential grouping network,SGN)[39]、Deep Watershed Transform[40]和InstanceCut[41];2019年的代表模型有基于親和金字塔的單次實例分割(single-shot instance segmentation with affinity pyramid,SSAP)[42];2020年的代表模型有帶點監督的基于建議的實例分割(proposal-based instance segmentation with point supervision,WISE-Net)[43];2021年的代表模型有RefineMask[44]等。2017年,Shu等[39]提出SGN模型,采用分組方式,通過順序使用神經網絡解決子分組問題。首先從每幅圖像的行和列像素中預測水平和垂直斷點,然后使用斷點組成水平和垂直線段,最后將水平和垂直線段分組成組件以形成對象實例。2019年,針對傳統的基于分割方法需要多次傳遞來預測掩膜,Gao等[42]提出SSAP模型,將親和金字塔引入實例分割,僅需要一次預測就可以推斷出實例掩膜,其中學習親和金字塔以分層形式計算兩個像素點屬于同一對象實例的概率。2020年,Laradji等[43]提出WISE-Net模型,該模型包括定位網絡(localization network,L-Net)和嵌入網絡(embedding network,E-Net),前者以點級注釋方式定位每個目標對象位置,后者將屬于同一實例對象的相似像素分組嵌入在一起,以得到由L-Net定位的對象掩膜。2021,Zhang等[44]提出RefineMask方法,在FPN基礎上引入語義頭和掩膜頭,將FPN中分辨率最高的特征圖作為語義頭的輸入,生成細粒度特征,掩膜頭則是以多階段的方式逐步融合,即以迭代的方式對原始粗糙掩膜進一步細化,利用邊界感知細化(boundary-aware refinement,BAR)模塊關注邊界區域,使得邊界更加清晰,有利于生成準確掩膜。
3 單階段實例分割模型
近年來兩階段實例分割模型在數字醫學圖像領域取得較好效果,但是由于模型的串行處理,需要先依賴定位操作來選取局部特征以預測掩膜,處理速度較慢,不能滿足實時實例分割的要求。針對上述兩階段模型存在的問題,許多研究者將檢測和分割兩個階段相結合,即通過單個階段完成檢測和分割任務。單階段實例分割模型就是指同時進行器官或病灶的定位和分割,以并行方式處理醫學圖像,具有速度快的特點。本節對單階段實例分割模型從有錨框向無錨框的發展演變進行歸納總結。
3.1 有錨框的實例分割
有錨框的實例分割是指在單階段實例分割中采用錨框作為區域選擇方法,以每個像素為中心產生與目標對象大小相匹配的邊界框,以回歸相應的人體器官或病灶區域。優點是通過預先設定的錨框對邊界框進行預測,準確度高。缺點是密集使用錨框會生成多個候選區域,而多個候選框之間可能存在相似或重疊部分,導致計算量大,時間復雜度高。
從時間的角度來看,2019年的代表模型有YOLACT[45]、單階段顯著實例分割(single stage salient-instance segmentation,S4Net)[46]和TensorMask[47];2020年的代表模型有YOLACT++[48]、輕量級混合精度量化YOLACT(mixed-precision quantization for lightweight YOLACT,MPQ-YOLACT)[49]、深度多邊形變換的實例分割(deep polygon transformer for instance segmentation,PolyTransform)[50]、有效的單階段方法(effective single-stage approach,Mask SSD)[51]和高效的實例分割網絡(efficient instance segmentation network,EISNET)[52]等。2019年,Bolya等[45]提出YOLACT模型,其整體結構如圖4e所示,是第一個實時實例分割模型,其骨干網是由殘差神經網絡(residual neural network,ResNet)[53]和FPN構成,采用兩個并行子分支結構,第一個分支用于產生原型掩膜,第二個分支用于產生掩膜系數,然后將兩個分支的輸出線性組合,通過裁剪和閾值化操作得到最終實例掩膜。在YOLACT中,引入了快速非極大值抑制(fast non maximum suppression,Fast NMS),相較于非極大值抑制(non maximum suppression,NMS)具有速度快的優點。2020年,針對YOLACT模型中平均精度(mean average precision,mAP)值較低的問題,Bolya等[48]提出YOLACT++模型。該模型在YOLACT基礎上加以改進,一是添加高效的快速掩膜重評分網絡,將預測結果按照實例分割的真正質量綜合排序;二是將可變形卷積(deformable convolution,DConv)引入骨干網中,通過有間隔地使用DConv,增強模型處理不同類型實例的能力;三是優化預測頭結構,用以優化錨框。2020年,Liang等[50]提出PolyTransform模型,結合基于多邊形的方法進一步產生精確掩膜,通過變形網絡將初始化多邊形扭曲轉換為更加適合目標的局部幾何邊界,有效捕捉目標對象的局部形狀,解決由于遮擋而導致目標對象分裂的問題。
3.2 無錨框的實例分割
無錨框的實例分割是指不依賴于預先設定的錨框,直接對回歸框的位置和類別進行預測。其優點是不依賴預定義的錨框,速度快。因此,單階段無錨框的實例分割模型成為主流。本節對無錨框的實例分割進行總結歸納,分類結構如圖6所示。

無錨框的實例分割模型可分為五種類型。第一類是基于實例類別的模型,代表模型有SOLO[54]和SOLOv2[55]等;第二類是基于單階段檢測器的模型,代表模型有嵌入耦合的單階段實例分割(embedding coupling for one-stage instance segmentation,EmbedMask)[56]、基于極坐標表示的單次實例分割(single shot instance segmentation with polar representation,PolarMask)[57]、自頂向下結合自底向上的實例分割(top-down meets bottom-up for instance segmentation,BlendMask)[58]、CenterMask[59]、基于條件卷積的實例分割[60](conditional convolutions for instance segmentation,CondInst)和基于單像素重建的單階段實例分割(single-pixel reconstruction for one-stage instance segmentation,SPRNet)[61]等;第三類是基于點策略的模型,代表模型有PolarMask[57]、PointRend[62]和基于邊界點表示的單階段實例分割(one-stage instance segmentation with boundary points representation,BorderPointsMask)[63]等;第四類是基于向量的掩膜預測模型,代表模型有基于掩膜編碼的單次實例分割(mask encoding for single shot instance segmentation,MEInst)[64]和CentroidNetV2[65]等;第五種是基于編碼解碼結構的模型,代表模型有基于深度學習的重疊生物對象實例分割(instance segmentation of overlapping biological objects using deep learning,ISOODL)[66]和帶有樣式轉換的實例分割(style transfer with instance segmentation,IST)[67]等。
3.2.1 基于實例類別的模型
基于實例類別的模型是指將實例分割分為預測類別和生成掩膜兩個子任務,將目標對象的類別放在通道上,即分割問題轉化為分類問題。
2020年,Wang等[54]提出SOLO模型,該模型是基于實例類別模型的一種典型算法,其基本結構如圖4f所示,在FCN基礎上采用類別預測分支和掩膜生成分支對中心處于網格中的對象進行處理,分別產生相應的語義類別和實例掩膜,該模型將輸入圖像劃分為s × s的網格,每個格子對應一個通道,共有s × s個輸出通道,但是圖像中通常不會存在較多實例,存在計算量大的缺點。針對許多通道多余的問題,在原始頭(vanilla head)基礎上改進為解耦頭,通過將掩膜分支分解為X方向分支和Y方向分支處理,輸出通道數從s × s變為s + s,有效降低輸出維度和減少計算資源消耗,同時沒有損失模型精度。2020年,Wang等[55]提出SOLOv2模型,在SOLO基礎上引入動態頭,將掩膜分支分解為內核分支和功能分支,有效提高運算速度。在SOLOv2模型中將NMS改進為Matrix NMS,通過使用并行矩陣運算單次實現NMS,解決了多次迭代的問題,從而實現速度提升。
3.2.2 基于單階段檢測器的模型
基于單階段檢測器的模型是指在單階段目標檢測模型的基礎上加以改進,有效將實例分割和目標檢測聯系起來,得到更加精確的掩膜。
2019年,Ying等[56]提出EmbedMask模型,候選框嵌入是對全局信息的編碼,像素嵌入是對局部信息的編碼,通過將二者結合實現對目標的精確分割,根據嵌入來確定候選框和像素嵌入的距離,從而決定像素是否屬于該候選框。2020年,Xie等[57]提出PolarMask模型,在全卷積單階段目標檢測(fully convolution one-stage object detection,FCOS)算法基礎上將通道數從n = 4變為n = 36來回歸36條射線長度,提出極坐標中心(polar centerness)和極坐標IoU損失(polar iou loss),前者實現反向傳播和并行計算來提高訓練速度,后者實現優化來提高定位精度。2020年,Chen等[58]提出BlendMask模型,該模型包括FCOS模型和掩膜分支,其中掩膜分支由底部模塊(bottom module)、頂層(tower)和融合模塊(blender)三部分構成。2020年,Lee等[59]提出CenterMask模型,在FCOS模型的基礎上增添空間注意力引導掩膜(spatial attention-guided mask,SAG-Mask)。2020年,Tian等[60]提出CondInst模型,將條件卷積引入實例分割,包括FCOS模型和Mask FCN頭,其中FCOS用于檢測目標對象類別,Mask FCN頭使用動態參數以對不同對象實例產生不同的參數值來生成實例掩膜。2021年,Yu等[61]提出SPRNet模型,在單階段檢測器的基礎上引入單像素重構分支,用以將每個像素直接重建為像素級掩膜。
3.2.3 基于點策略的模型
基于點策略的模型是指將實例分割問題轉換為目標輪廓點選取問題,有效生成更加精細的掩膜。2020年,Xie等[57]提出PolarMask模型,該模型采用極坐標方法將角度和距離作為坐標來確定輪廓上的點,通過極坐標的原點和原點到輪廓上點的距離來分別表示實例中心分類和密集距離回歸任務,提出極坐標中心和極坐標IoU損失,分別處理實例中心樣本和密集距離回歸。2020年,Kirillov等[62]提出PointRend模型,通過一個輕量級預測頭生成一個粗糙掩膜,然后通過選取邊界點,經過逐步迭代以不斷增強邊界細節,生成高質量高像素的實例掩膜。2022年,Yang等[63]提出BorderPointsMask模型,這是一種基于邊界點表示的模型,由骨干網絡、特征金字塔網絡以及預測頭組成。
3.2.4 基于向量的掩膜預測模型
基于向量的掩膜預測模型是指通過使用向量來表示掩膜。2020年,Zhang等[64]提出MEInst模型,將二維掩膜編碼成緊湊向量,通過壓縮掩膜有效降低其特征向量維度。
3.2.5 基于編碼解碼結構的模型
基于編碼解碼結構的模型是指模型包括編碼器和解碼器結構[68]。2018年,Bohm等[66]提出ISOODL模型,通過構建雙頭U-net模型對重疊對象同時進行檢測和分割任務,其中一條收縮路徑的特征圖被兩條擴展路徑所共用。
4 3D實例分割模型
3D實例分割模型是指能夠在3D場景中區分出相同類別中的目標個體。該方法優點是能夠更好地分割3D醫學圖像中的人體器官,缺點是與已經成熟的2D實例分割模型相比,3D實例分割模型在網絡模型性能、效率以及準確度方面還有待提高。本節將對3D實例分割模型從有候選區域向無候選區域的發展演變進行歸納總結,如圖7所示。

4.1 有候選區域的實例分割
有候選區域的實例分割是指首先在3D醫學圖像中生成候選區域,然后在候選區域內進行掩膜預測以得到實例標簽。優點是該方法通過兩個過程,即先得到候選區域,然后在特定區域內進行實例分割,獲得的實例位置更準確,實例掩膜更精確。缺點是由于生成大量的候選區域,需要使用NMS等方法對候選區域進行選擇處理,導致運算量大,時間復雜度高。代表模型有相似組建議網絡(similarity group proposal network,SGPN)[69]、生成形狀建議網絡(generative shape proposal network,GSPN)[70]、三維語義實例分割(3D semantic instance segmentation,3D-SIS)[71]、帶有邊界框的3D實例分割(bounding boxes for 3D instance segmentation,3D-BoNet)[72]和Mask-MCNet[73]等。
2018年,Wang等[69]提出SGPN模型,該模型有三個分支:第一個分支是通過計算每對點之間的距離得出相似度,用以構造一個相似度矩陣得到點分組建議;第二個分支是通過置信圖將點分組建議進行修剪處理;第三個分支是通過語義預測為每個組生成語義類,取得良好的3D實例分割結果。
2019年,Yi等[70]提出GSPN模型,通過重構噪聲觀測形狀來生成3D對象形狀建議,通過將GSPN和基于區域的PointNet模型相結合來生成對象建議和實例掩膜。2019年,Hou等[71]提出3D-SIS模型,將2D特征、3D顏色以及幾何特征相融合,有效利用幾何特征和顏色特征來給出對象建議并預測實例掩膜,從而提高實例分割精確度。2019年,Yang等[72]提出3D-BoNet模型,該模型是一種基于邊界框回歸的端到端方法,包括主干網絡和兩個分支,其中兩個分支分別用于3D邊界框回歸預測和點掩膜預測。
2021年,Zanjani等[73]提出Mask-MCNet模型,該模型包括骨干網絡、RPN以及檢測、定位、掩膜三個預測分支,其中骨干網絡是基于MLP架構的深度網絡以提取特征。
4.2 無候選區域的實例分割
無候選區域的實例分割是指在3D醫學圖像中將相同語義標簽的點,即屬于同一個實例的點通過聚類方法分組在一起。優點是不需要獲取器官或病灶的候選區域,直接得到實例分割結果。缺點是實例定位不準確,生成的實例掩膜較差。代表模型有聯合語義實例分割模型(joint semantic-instance segmentation,JSIS3D)[74]、關聯實例和語義分割(associatively segmenting instances and semantics,ASIS)[75]、雙設定點分組的3D實例分割(dual-set point grouping for 3D instance segmentation,PointGroup)[76]、占用感知3D實例分割(occupancy-aware 3D instance segmentation,OccuSeg)[77]、多尺度語義關聯與顯著點聚類優化方法(multi-scale semantic association and salient point clustering optimization,SASO)[78]、多建議聚合的3D語義實例分割(multi-proposal aggregation for 3D semantic instance segmentation,3D-MPA)[79]、基于特征自相似性和跨任務概率網絡(feature self-similarity and cross-task probability,JSPNet)[80]、3D鳥瞰圖實例分割(3D bird’s-eye-view instance segmentation,3D-BEVIS)[81]、耦合特征選擇的語義實例分割(semantic-instance segmentation via coupled feature selection,3DCFS)[82]、AS-NET[83]、種子點選擇網絡(seed point selection network,SPSN)[84]以及基于稀疏卷積的多尺度親和力3D實例分割(multi-scale affinity with sparse convolution,MASC)[85]等,具體模型思想及特點如表1所示。

5 實例分割在醫學圖像處理領域的應用
實例分割是醫學圖像處理的熱點和難點,將醫學圖像和實例分割技術相結合的癌癥自動輔助診斷系統在醫學圖像處理領域中具有良好的應用前景,能夠更好地輔助醫生對疾病進行識別診斷和規劃治療。本節針對實例分割技術在結腸組織圖像、宮頸圖像、骨顯像圖像、胃癌病理切片圖像、肺結節CT圖像和乳腺X線片圖像等六種醫學圖像的應用現狀進行總結,如圖8所示。

對于結腸組織圖像,Graham等[86]采用最小信息丟失擴張網絡(minimal information loss dilated network,MILD-Net)用于結腸組織圖像中的腺體實例分割,在傳統殘差單元基礎上引入MIL單元和膨脹殘差單元這兩種殘差單位,以解決最大池化造成的信息丟失問題。對于宮頸圖像,Said等[87]采用Mask R-CNN模型用于彩色宮頸圖像的實例分割和分類,該模型通過檢測ROI生成邊界框,然后將ROI傳遞給分類器生成類別,最后對邊界框內目標對象進行分割得到掩膜。對于骨顯像圖像,Apiparakoon等[88]采用MaligNet模型結合半監督學習用于骨顯像圖像中骨病變實例分割,該模型是基于FPN的CNN網絡,將全身骨骼顯著圖送入單鏡頭多盒檢測器中檢測胸部區域,然后輸入模型中進行病灶的實例分割。對于胃癌病理切片圖像,Cao等[89]采用Mask R-CNN模型用于胃癌診斷。對于肺結節CT圖像,Yan等[90]提出改進的Mask R-CNN模型,在Mask R-CNN基礎上使用新的焦點損失來解決由于目標小、背景大而造成負樣本所占權重大的問題。對于乳腺X線片圖像,Bhatti等[91]提出嵌入FPN的Mask R-CNN模型,該模型將Mask R-CNN的特征提取部分用FPN替代來生成質量更高的多尺度特征圖,在多個尺度上提取特征后顯示病變,有效提高檢測病變的準確性。
6 總結與展望
本文首先闡述醫學圖像實例分割的基本原理;然后將實例分割的模型發展映射到二維空間,分別從有候選區域向無候選區域、有錨框向無錨框發展角度總結兩階段實例分割、單階段實例分割以及3D實例分割這三類在模型方面的研究進展;最后探討實例分割模型在醫學圖像處理領域中的應用,為醫生進行識別診斷和治療規劃提供參考。
綜上所述,醫學圖像實例分割較之傳統的分割方法能夠提供位置信息,與語義分割相比能夠提供實例級標注,在醫學圖像中具有精準判斷人體器官或者病灶區域邊界、大小、類別和理解多角度、深層次的語義信息的能力。近年來,實例分割技術逐步成為各領域研究人員重點關注的問題,并且取得一定進展,但是仍存在諸多挑戰。
第一,實例分割在醫學器官圖像中應用廣泛,但是實例分割在病灶圖像中還存在漏分割、過分割和錯分割的問題,與器官圖像相比,病灶區域像素個數少,不能對病灶區域準確測量,從而不能得出該組織器官的病變狀況以輔助醫生做出精確診斷。因此,發展以弱小目標(如病灶)的實例分割模型對臨床醫生診斷治療具有重要意義。
第二,在醫學圖像處理領域中,大部分深度學習模型是基于有監督的方式,需要依賴人工標注的數據集,而且大多數醫學圖像還缺乏帶標簽的數據標注,人工標注存在費時耗力和成本較高的缺點。因此,發展使用少量帶標簽數據,結合大量無標簽數據訓練的小樣本、半監督和弱監督實例分割模型,將有助于降低標注成本,提高診斷效果。
第三,實例分割在醫學圖像處理中取得良好效果,但仍存在參數和特征遷移的挑戰,如何從源領域中選擇對醫學目標領域有用的實例特征以及如何進行源領域實例參數權重分配是研究者們亟待解決的問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:趙雅楠為綜述主要撰寫人,負責文獻資料的整理收集與分析;周濤參與論文修改與指導;陸惠玲參與論文審閱修訂;侯森寶參與資料收集與論文修改;鄭小敏參與論文指導與審校。