中耳炎是常見的耳科疾病之一,其準確診斷能夠預防傳導性聽力損傷的惡化,以及避免抗生素的過度使用。目前中耳炎診斷主要由醫生依據耳鏡設備反饋的圖像進行目視檢查。因耳鏡設備圖片拍攝質量及醫生診斷經驗的影響,該主觀檢查存在較大的誤診率。針對該問題,本文提出采用快速區域卷積神經網絡對臨床采集的數字耳鏡影像進行分析。首先,通過圖像數據增強和預處理,擴充了臨床耳鏡數據集樣本數量。然后,根據耳鏡圖片特征針對性地篩選出卷積神經網絡進行特征提取,同時引入特征金字塔網絡以進行多尺度的特征提取,增強檢測能力。最后,采用錨框尺度優化和超參數調整的快速卷積神經網絡進行識別,并通過隨機選取的測試集檢驗該方法的有效性。結果顯示,在測試樣本中耳鏡圖片的總體識別準確率達到91.43%。以上研究表明,所提方法有效提高了耳鏡圖片分類的準確率,有望輔助臨床診斷。
引用本文: 盧碩辰, 劉后廣, 楊建華, 劉送永, 周雷, 黃新生. 基于快速區域卷積神經網絡的中耳炎影像計算機輔助診斷研究. 生物醫學工程學雜志, 2021, 38(6): 1054-1061. doi: 10.7507/1001-5515.202009022 復制
引言
中耳炎(otitis media,OM)是一種與中耳腔和上呼吸道相關的炎癥性疾病[1],在全世界的發病率和患病率都相當高[2]。中耳炎的類型多種多樣,其中急性中耳炎(acute otitis media,AOM)和慢性化膿性中耳炎(chronic suppurative otitis media,CSOM)是最常見的中耳炎類型[3]。中耳炎的準確診斷,對其治療至關重要。中耳炎早期漏診會造成治療不及時,引起傳導性聽力損傷;而其診斷過度則會導致患者抗生素使用過度,造成細菌病原體多重抗藥性問題[4]。臨床上,目前醫院所使用的中耳炎診斷方法主要包括耳鏡檢查、鼓室導納診斷和超聲檢查[5]。其中,耳鏡檢查主要是通過照相機、鹵素光源、低功率放大鏡等將耳膜部拍攝成圖像,并將拍攝的圖像傳輸到計算機,由醫生根據耳膜部圖像診斷[6]。由于其設備成本低、操作簡單,被臨床上廣泛采用[7]。但這種方法完全依賴于醫生的診斷經驗,受醫生個人醫術水平的限制,有臨床研究顯示不同醫生對同一組患者的診斷結果相差較大[8]。
近年來,隨著機器學習的發展,機器學習方法被廣泛應用于醫學影像的分析,提供更客觀的預測來輔助醫生臨床診斷[9-10]。鑒于基于耳鏡的中耳炎人工診斷準確率受限于醫生的個人醫術水平,很多學者也開始探索研究采用機器學習的方法來輔助診斷中耳炎[11-15]。Mironic?等[12]基于臨床采集的彩色耳鏡圖像,利用k最近鄰、多層神經網絡和支持向量機等6種算法進行中耳炎分類。實驗結果表明支持向量機的分類效果最好,準確率達到72.04%。針對中耳炎顯性視覺特征集中出現在鼓膜的特點,Shie等[13]利用活動輪廓的圖像分割算法從耳鏡圖像中獲取鼓膜,采用方向梯度直方圖和局部二值模式進行特征提取,最后采用Adaboost算法實現中耳炎識別。該方法雖然準確率達到88.06%,但要求精準的圖像分割,很難應用在復雜的實際工況。為了對急性中耳炎、慢性化膿性中耳炎、耳垢或異物阻塞以及正常鼓膜進行分類,Myburgh等[14]提出一種基于圖像處理技術和決策樹(decision tree,DT)分類算法的中耳炎自動診斷模型,檢測準確率達80.61%。但是決策樹算法根據訓練圖像產生固定結構,面對新增圖像則必須重新設計。所以在他的另一項研究中利用人工神經網絡(artificial neural network,ANN)構建診斷系統[15],用于診斷5種類型的中耳炎。其研究結果表明,人工神經網絡對耳鏡設備采集的圖像保證了86.84%的分類精度。
上述研究為中耳炎的計算機輔助診斷提供了重要的參考,但機器學習方法都經歷了繁瑣的人工特征提取過程,需要耗費大量時間成本和人力成本,并且由于數字耳鏡圖像特征復雜,人為剖析病變特征可能會受主觀因素干擾而產生疏漏[16]。此外,上述研究中數字耳鏡圖片的訓練樣本量過小,盡管達到了較高的準確率,但無法保證中耳炎分類模型的泛化性能。近幾年卷積神經網絡在目標檢測領域中,特別是在準確率和泛化性能上都取得突破性進展[17],它能夠通過對大量數據的訓練自適應學習圖像特征,實現對目標的精準識別與定位[18]。因此,能否針對中耳炎耳鏡影像特征,利用卷積神經網絡克服現有方法的不足,提高中耳炎病變識別的準確率,是本文研究的重點。
針對上述問題,本文提出了一種基于快速區域卷積神經網絡(faster region convolutional neural network,Faster RCNN)的方法進行中耳炎耳鏡影像診斷。首先,針對現有中耳炎影像數據有限與卷積神經網絡所需訓練數據量大的矛盾,采用圖像增強技術擴充數據集樣本。然后,使用篩選后的卷積神經網絡進行特征提取,并在此過程中使用特征金字塔網絡獲取多尺度特征圖,輸入耳鏡影像區域提議網絡(region proposal network,RPN)對分類和邊界框進行回歸。最后,使用經過錨框優化和超參數調整的快速卷積神經網絡進行識別,并在測試集上進行實驗驗證。
1 數據準備
1.1 耳鏡影像數據集
本文參考CTG ANALYSIS學術平臺上中耳炎媒體研究小組發布的開源耳鏡影像數據集[19],并針對慢性化膿型中耳炎樣本和耳垢樣本數量不足的問題,整合了Viscaino等與智利大學臨床醫院耳鼻喉科合作創建的中耳炎影像數據集[20]。數據集中的圖像是采用標準的耳鏡設備從醫院的志愿者患者身上采集,連接到個人計算機,由具有醫學背景的耳鼻喉科專家檢查標記,并存儲在指定的耳鏡影像病變分類文件夾中。盡管原數據集包含九種不同的中耳炎類型,由于某些耳鏡影像樣本數量有限且不具備有效的視覺特征。因此,本文只關注正常鼓膜、急性中耳炎,慢性化膿型中耳炎和耳垢的分類。
1.2 數據預處理
實驗采用Pascal VOC數據集格式[21],利用圖片標注軟件LabelImg在已知病變分類的基礎上進行數字耳鏡影像的標注及xml文件的保存。本實驗隨機選取數據集中的80%作為訓練驗證集(train&validation),其余20%作為測試集(test),用于評估最終模型的泛化能力。其中訓練驗證集中80%作為訓練集(train),20%作為驗證集(validation)。
2 方法
為了能夠準確地檢測中耳炎,本文選擇Faster RCNN算法作為目標檢測的基礎網絡框架[22]。該算法能夠實現端到端計算,檢測精度和速度都有了大幅提升[23]。其原理如圖1所示,首先對輸入的原始耳鏡影像進行圖像增強,針對增強后的耳鏡影像利用改進的特征提取網絡進行特征提取,再將提取的特征分別輸入優化后的耳鏡影像RPN網絡和檢測網絡,接下來感興趣區域(region of interest,ROI)池化層將耳鏡影像特征提取網絡和耳鏡影像RPN網絡的輸出進行整合,然后再經過全連接層分別輸入到分類層和邊界回歸層,最終得到精確的中耳炎診斷信息和檢測框的準確位置[24]。

2.1 訓練參數設置
Faster RCNN的訓練過程主要分為四步:第一步,進行特征提取和RPN網絡的訓練;第二步,使用RPN網絡訓練Faster RCNN網絡;第三步,使用Faster RCNN網絡得出的權重重新訓練RPN網絡;第四步,使用更新的RPN網絡重新訓練Faster RCNN網絡。通過上述步驟的循環,實現訓練權重的更新。
訓練中的參數設置必須保證能夠在適當的訓練時間達到理想的收斂,將初始學習率、學習衰減系數、學習衰減周期等參數分別調整如表1所示。所有模型的訓練采用使用動量的隨機梯度下降算法(stochastic gradient descent with momentum,SGDM)。

2.2 耳鏡影像數據增強
深度學習算法的性能往往依賴于在訓練過程中充足地訓練樣本數據,為模型提供大量數據特征進行學習[25]。原始耳鏡影像數據集的樣本數目有限,在訓練過程中易產生過擬合現象,從而對新數據集失去預測能力。因此本文使用圖像增強方法來改善數據集樣本有限的問題,提高模型的泛化能力[26]。圖像增強方法主要包括翻轉、旋轉、縮放、裁剪和噪聲。為避免干擾耳鏡影像的細化特征信息,本文僅采用旋轉的方法進行數據增強。旋轉方法主要是通過改變圍繞其中心的逆時針旋轉的角度生成新圖像。如圖2所示,采用90、180、270°的旋轉角從每個原始圖像生成三個附加樣本,原始數據集中樣本數從1 297增加至5 188,如表2所示,詳細展示了原始樣本情況及圖像增強后的樣本情況。


2.3 特征提取網絡改進
在特征提取模塊中,卷積神經網絡通過卷積層、池化層和全連接層提取檢測圖像特征形成卷積特征圖。隨著深度學習的發展,卷積神經網絡的層數不斷加深。這一現象導致訓練時間劇增和計算資源浪費,并且針對特定應用,識別準確率趨于穩定甚至會有下降的表現。因此本文根據數字耳鏡影像特征,對Faster RCNN框架下的VGGNet-16[27]、ResNet-50、ResNet-101[28]和MobileNet[29]四種卷積神經網絡模型進行對比。使用ImageNet數據集預訓練的模型初始化權值,并進行遷移學習和微調[30],篩選出能夠更好地提取中耳炎特征的網絡。
上述的基礎特征提取模塊通過卷積神經網絡卷積核的計算,特征圖向高語義特征、低分辨率的方向發展,此過程會導致細節信息的丟失,所以本文在特征提取模塊引入特征金字塔網絡(feature pyramid network,FPN)[31]。如圖3所示,該網絡首先通過自下而上的路徑進行多尺度特征提取,然后通過橫向鏈接將深層特征圖與相鄰的淺層特征圖融合,并在每個特征圖上均進行預測。其中融合計算具體為將底層特征圖通過1×1卷積的操作減少輸出特征圖的通道數,獲得與高層特征圖相同的通道數。再對高層金字塔特征圖進行兩倍上采樣,將兩種特征圖像素疊加得到輸出。

2.4 RPN網絡優化
RPN網絡作為Faster RCNN網絡的重要組成部分,通過獲取共享卷積層生成的特征圖作為輸入[32],如圖4所示。對特征映射中的每個位置執行k個錨框,每個位置產生4 × k個坐標參數和2 × k個得分參數[33]。對于目標檢測任務而言,RPN網絡中的錨框尺度直接影響中耳炎檢測的準確率。所以根據耳鏡影像數據集中的鼓膜區域的長寬比特征針對性地修改錨框的尺度,在長寬比為(0.5,1,2)的基礎上,將錨框尺度(8,16,32)與(16,32,64)進行對比。

RPN網絡通過損失函數進行分類和邊界框回歸,對檢測輸出的預測邊界框進行非最大值抑制整合最優結果,生成候選區域。所以在實驗中通過多次調整非極大值抑制閾值進行對比,確定最優的參數設置。其中RPN整體損失函數[21]如式(1)所示:
![]() |
式(1)中,i為候選框的索引;pi表示每個候選框中N+1個類別的概率分布,以及N個分類目標和1個背景區域;pi* 表示判斷是否有目標;Ncls為訓練批量的大小;Nreg為錨框數量;λ為訓練平衡權重;ti為標記框坐標。
其中分類損失Lcls是一個二分類(前景和背景)的邏輯回歸損失函數,定義如式(2)~(3)所示:
![]() |
![]() |
邊界框回歸損失Lreg定義如式(4)~(5)所示:
![]() |
![]() |
3 實驗結果與分析
3.1 實驗環境及性能評價指標
所有訓練和測試的過程的實驗環境如下:① 軟件環境:操作系統(Windows 10),開發工具(Python 3.6.5,Anaconda,Spyder)、深度學習框架(Tensorflow,Google Brain)。② 硬件環境:處理器(AMD Ryzen 7 1700 CPU @3.0 GHz),內存(8GB DDR3 Kingston),獨立顯卡(GeForce RTX 2060 6GB)。
為了驗證本文方法的有效性,選用精確率(Precision)、召回率(Recall)以及平均精確率(average precision,AP)等作為主要評估指標[34]。精確率、召回率的定義如式(6)~(7)所示。
![]() |
![]() |
其中TP指正樣本被正確分類的樣本個數;FP表示負樣本卻被錯誤分類為正樣本的個數;TN指負樣本被正確分類為負樣本的個數;FN表示正樣本被錯誤分類為負樣本的個數。
AP是由Precision-Recall曲線所圍成的面積,表示單個類別的識別準確率。平均準確率均值(mean average precision,MAP)表示所有類別總體識別準確率,與AP值之間關系如式(8)所示。
![]() |
在接下來的實驗中,首先通過MAP模型評價指標篩選出整體性能足夠優越的模型,再通過錨框尺度優化和超參數調整,對篩選出的模型進一步優化。
3.2 不同特征提取網絡對比實驗
本實驗在Faster RCNN方法的基礎上,分別用VGGNet-16、ResNet-50、ResNet-101和MobileNet特征提取網絡進行訓練,并進行同步驗證。隨著模型訓練的迭代次數的增加,不同特征提取網絡的損失曲線如圖5所示。在4個特征提取模型損失函數曲線中,均有不同程度的震蕩。主要原因為某些耳鏡影像特征不夠明顯、圖片拍攝質量限制等,使得數據的學習變得困難。由于VGGNet-16網絡和MobileNet網絡層數較淺,收斂速度更快,均從4 000次開始實現收斂。而殘差網絡ResNet-50和ResNet-101網絡更深,因此訓練時間更長,需要的迭代次數更多。所以本實驗在對比所有特征提取網絡4 000次訓練模型的基礎上,增加對比了ResNet網絡經過6 000次訓練的模型。

上述訓練模型在測試集上的表現如表3所示,從中可見,相較于VGGNet-16和MobileNet,由于網絡深度的原因,ResNet網絡的收斂速度更慢,但是在檢測準確率方面,ResNet網絡表現出更加優異的性能。同時,在殘差網絡大框架相同的情況下,ResNet-101的檢測準確率又優于ResNet-50。因此,在本文后續的實驗中均采用ResNet-101作為特征提取網絡。

基于選擇的特征提取網絡進行特征金字塔網絡的改進前后對比,特征金字塔網絡使特征提取過程融合不同等級的語義信息,完成多尺度特征的提取,使得最終的預測特征圖效果更好。實驗結果如表4所示,該方法顯著提升了檢測的準確率。

3.3 RPN網絡優化實驗
實驗過程中RPN網絡的錨框尺度和超參數的設置對實驗結果均有影響。通過對數據集中的鼓膜區域的面積和長寬比特征進行統計,針對性地修改錨框的尺度,在長寬比為(0.5,1,2)的基礎上,將錨框尺度(8,16,32)與(16,32,64)進行對比。在上述實驗的基礎上,選擇引入FPN的ResNet-101作為特征提取網絡,在超參數設置方面,在置信度閾值保持不變的情況下,選擇非極大值抑制閾值進行對比實驗,實驗結果如圖6所示。

由圖6可見,錨框尺度(8,16,32)更適應于本文中的耳鏡影像數據集,模型取得更高的識別準確率。在錨框尺度為(8,16,32)條件下進一步對比,非極大值抑制閾值為0.5時,過濾多余候選框的效果最好,提升了檢測準確率,模型對4個分類的平均識別準確率達到最高的90.79%。綜上所述,通過對比實驗確定了最優的錨框尺度和超參數。
3.4 ResNet-101網絡下增強耳鏡影像數據集實驗
圖像增強技術將耳鏡影像數據集中的樣本數量從1 297個增加到5 188個,使用上述實驗確定的錨框尺度和超參數,以ResNet-101作為特征提取網絡進行實驗,實驗過程中由于數據集中的批量大小和樣本數量造成模型訓練時間大幅增加。由于本文的耳鏡影像數據總量不足,為了充分證明模型的檢測性能,同時進行了十折交叉驗證[35],將數據集分成十份,輪流將其中一份作為測試數據,其余作為訓練數據,將十次測試的結果取均值,作為模型最終的總體識別準確率。在原始數據測試集和增強數據測試集測試,實驗結果如表5所示。通過增強數據集訓練的模型提高了正常鼓膜、慢性化膿性中耳炎和耳垢樣本的準確率,在總體識別準確率上最終提高到了91.89%,增強了模型性能。通過十折交叉驗證的實驗,總體識別準確率達到了91.43%,充分驗證了本文模型的泛化性能。

但是,該結果對于急性中耳炎檢測而言仍然沒有達到理想的狀態,原因是急性中耳炎主要特征為鼓膜腫脹、膜上或膜后液體發紅。受限于部分耳鏡影像質量,炎癥區域不明顯,與正常鼓膜區別較小,從而出現錯檢情況。其次,在臨床診斷中采集樣本不足,導致特征學習不充分。將本文方法與計算機輔助中耳炎影像診斷的相關研究中使用未改進的Faster RCNN方法[36]進行對比,文獻中未改進的Faster RCNN方法識別準確率為90.48%,可見本文提出的方法總體識別準確率較之進一步提高。
對比之前文獻中所提到的機器學習方法,如決策樹[14]和人工神經網絡[15],本研究的檢測準確率得到了進一步提升。在完成圖片分類任務的基礎上在圖中直接標注了病變具體位置。通過對測試集中圖片進行抽樣測試,檢測平均速度可達到0.27 s/幅,檢測結果如圖7所示,檢測結果標簽中包含檢測病變類別與檢測病變的置信度,置信度表示判定為當前病變結果的概率。

由圖7可見,改進的Faster RCNN算法在中耳炎診斷中具有較高的檢測置信度,影像定位也取得很大的進步。考慮到目前的數據集相對較小,雖然通過數據增強在一定程度上能夠滿足深度學習的訓練要求,但是更多的臨床數據會進一步增強模型的泛化能力,并且目前模型的檢測準確率還受到耳鏡影像背景環境的影響,復雜的耳鏡影像背景導致檢測不準確,因此,擴大臨床數據規模,在復雜背景下進行精確的中耳炎診斷,不斷提高模型診斷準確率,是我們未來研究的方向。
4 結論
針對當前臨床中耳炎診斷方法的準確率低、存在主觀因素影響等現狀,本文提出一種基于Faster RCNN的中耳炎影像計算機輔助診斷方法。研究結果表明,引入特征金字塔結構的ResNet-101的特征提取網絡能夠更好地提取耳鏡數據集特征,在訓練時間和檢測準確率方面表現優異。通過錨框尺度的優化和超參數調整進行RPN網絡的優化,能夠進一步提高檢測精度。此外,通過數據增強的方式擴大訓練樣本數量,一定程度上保證了模型的泛化性能。相較于傳統方法,本文的方法對于降低臨床中耳炎誤診率、輔助醫生進行客觀的檢查提供了更好的選擇。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
中耳炎(otitis media,OM)是一種與中耳腔和上呼吸道相關的炎癥性疾病[1],在全世界的發病率和患病率都相當高[2]。中耳炎的類型多種多樣,其中急性中耳炎(acute otitis media,AOM)和慢性化膿性中耳炎(chronic suppurative otitis media,CSOM)是最常見的中耳炎類型[3]。中耳炎的準確診斷,對其治療至關重要。中耳炎早期漏診會造成治療不及時,引起傳導性聽力損傷;而其診斷過度則會導致患者抗生素使用過度,造成細菌病原體多重抗藥性問題[4]。臨床上,目前醫院所使用的中耳炎診斷方法主要包括耳鏡檢查、鼓室導納診斷和超聲檢查[5]。其中,耳鏡檢查主要是通過照相機、鹵素光源、低功率放大鏡等將耳膜部拍攝成圖像,并將拍攝的圖像傳輸到計算機,由醫生根據耳膜部圖像診斷[6]。由于其設備成本低、操作簡單,被臨床上廣泛采用[7]。但這種方法完全依賴于醫生的診斷經驗,受醫生個人醫術水平的限制,有臨床研究顯示不同醫生對同一組患者的診斷結果相差較大[8]。
近年來,隨著機器學習的發展,機器學習方法被廣泛應用于醫學影像的分析,提供更客觀的預測來輔助醫生臨床診斷[9-10]。鑒于基于耳鏡的中耳炎人工診斷準確率受限于醫生的個人醫術水平,很多學者也開始探索研究采用機器學習的方法來輔助診斷中耳炎[11-15]。Mironic?等[12]基于臨床采集的彩色耳鏡圖像,利用k最近鄰、多層神經網絡和支持向量機等6種算法進行中耳炎分類。實驗結果表明支持向量機的分類效果最好,準確率達到72.04%。針對中耳炎顯性視覺特征集中出現在鼓膜的特點,Shie等[13]利用活動輪廓的圖像分割算法從耳鏡圖像中獲取鼓膜,采用方向梯度直方圖和局部二值模式進行特征提取,最后采用Adaboost算法實現中耳炎識別。該方法雖然準確率達到88.06%,但要求精準的圖像分割,很難應用在復雜的實際工況。為了對急性中耳炎、慢性化膿性中耳炎、耳垢或異物阻塞以及正常鼓膜進行分類,Myburgh等[14]提出一種基于圖像處理技術和決策樹(decision tree,DT)分類算法的中耳炎自動診斷模型,檢測準確率達80.61%。但是決策樹算法根據訓練圖像產生固定結構,面對新增圖像則必須重新設計。所以在他的另一項研究中利用人工神經網絡(artificial neural network,ANN)構建診斷系統[15],用于診斷5種類型的中耳炎。其研究結果表明,人工神經網絡對耳鏡設備采集的圖像保證了86.84%的分類精度。
上述研究為中耳炎的計算機輔助診斷提供了重要的參考,但機器學習方法都經歷了繁瑣的人工特征提取過程,需要耗費大量時間成本和人力成本,并且由于數字耳鏡圖像特征復雜,人為剖析病變特征可能會受主觀因素干擾而產生疏漏[16]。此外,上述研究中數字耳鏡圖片的訓練樣本量過小,盡管達到了較高的準確率,但無法保證中耳炎分類模型的泛化性能。近幾年卷積神經網絡在目標檢測領域中,特別是在準確率和泛化性能上都取得突破性進展[17],它能夠通過對大量數據的訓練自適應學習圖像特征,實現對目標的精準識別與定位[18]。因此,能否針對中耳炎耳鏡影像特征,利用卷積神經網絡克服現有方法的不足,提高中耳炎病變識別的準確率,是本文研究的重點。
針對上述問題,本文提出了一種基于快速區域卷積神經網絡(faster region convolutional neural network,Faster RCNN)的方法進行中耳炎耳鏡影像診斷。首先,針對現有中耳炎影像數據有限與卷積神經網絡所需訓練數據量大的矛盾,采用圖像增強技術擴充數據集樣本。然后,使用篩選后的卷積神經網絡進行特征提取,并在此過程中使用特征金字塔網絡獲取多尺度特征圖,輸入耳鏡影像區域提議網絡(region proposal network,RPN)對分類和邊界框進行回歸。最后,使用經過錨框優化和超參數調整的快速卷積神經網絡進行識別,并在測試集上進行實驗驗證。
1 數據準備
1.1 耳鏡影像數據集
本文參考CTG ANALYSIS學術平臺上中耳炎媒體研究小組發布的開源耳鏡影像數據集[19],并針對慢性化膿型中耳炎樣本和耳垢樣本數量不足的問題,整合了Viscaino等與智利大學臨床醫院耳鼻喉科合作創建的中耳炎影像數據集[20]。數據集中的圖像是采用標準的耳鏡設備從醫院的志愿者患者身上采集,連接到個人計算機,由具有醫學背景的耳鼻喉科專家檢查標記,并存儲在指定的耳鏡影像病變分類文件夾中。盡管原數據集包含九種不同的中耳炎類型,由于某些耳鏡影像樣本數量有限且不具備有效的視覺特征。因此,本文只關注正常鼓膜、急性中耳炎,慢性化膿型中耳炎和耳垢的分類。
1.2 數據預處理
實驗采用Pascal VOC數據集格式[21],利用圖片標注軟件LabelImg在已知病變分類的基礎上進行數字耳鏡影像的標注及xml文件的保存。本實驗隨機選取數據集中的80%作為訓練驗證集(train&validation),其余20%作為測試集(test),用于評估最終模型的泛化能力。其中訓練驗證集中80%作為訓練集(train),20%作為驗證集(validation)。
2 方法
為了能夠準確地檢測中耳炎,本文選擇Faster RCNN算法作為目標檢測的基礎網絡框架[22]。該算法能夠實現端到端計算,檢測精度和速度都有了大幅提升[23]。其原理如圖1所示,首先對輸入的原始耳鏡影像進行圖像增強,針對增強后的耳鏡影像利用改進的特征提取網絡進行特征提取,再將提取的特征分別輸入優化后的耳鏡影像RPN網絡和檢測網絡,接下來感興趣區域(region of interest,ROI)池化層將耳鏡影像特征提取網絡和耳鏡影像RPN網絡的輸出進行整合,然后再經過全連接層分別輸入到分類層和邊界回歸層,最終得到精確的中耳炎診斷信息和檢測框的準確位置[24]。

2.1 訓練參數設置
Faster RCNN的訓練過程主要分為四步:第一步,進行特征提取和RPN網絡的訓練;第二步,使用RPN網絡訓練Faster RCNN網絡;第三步,使用Faster RCNN網絡得出的權重重新訓練RPN網絡;第四步,使用更新的RPN網絡重新訓練Faster RCNN網絡。通過上述步驟的循環,實現訓練權重的更新。
訓練中的參數設置必須保證能夠在適當的訓練時間達到理想的收斂,將初始學習率、學習衰減系數、學習衰減周期等參數分別調整如表1所示。所有模型的訓練采用使用動量的隨機梯度下降算法(stochastic gradient descent with momentum,SGDM)。

2.2 耳鏡影像數據增強
深度學習算法的性能往往依賴于在訓練過程中充足地訓練樣本數據,為模型提供大量數據特征進行學習[25]。原始耳鏡影像數據集的樣本數目有限,在訓練過程中易產生過擬合現象,從而對新數據集失去預測能力。因此本文使用圖像增強方法來改善數據集樣本有限的問題,提高模型的泛化能力[26]。圖像增強方法主要包括翻轉、旋轉、縮放、裁剪和噪聲。為避免干擾耳鏡影像的細化特征信息,本文僅采用旋轉的方法進行數據增強。旋轉方法主要是通過改變圍繞其中心的逆時針旋轉的角度生成新圖像。如圖2所示,采用90、180、270°的旋轉角從每個原始圖像生成三個附加樣本,原始數據集中樣本數從1 297增加至5 188,如表2所示,詳細展示了原始樣本情況及圖像增強后的樣本情況。


2.3 特征提取網絡改進
在特征提取模塊中,卷積神經網絡通過卷積層、池化層和全連接層提取檢測圖像特征形成卷積特征圖。隨著深度學習的發展,卷積神經網絡的層數不斷加深。這一現象導致訓練時間劇增和計算資源浪費,并且針對特定應用,識別準確率趨于穩定甚至會有下降的表現。因此本文根據數字耳鏡影像特征,對Faster RCNN框架下的VGGNet-16[27]、ResNet-50、ResNet-101[28]和MobileNet[29]四種卷積神經網絡模型進行對比。使用ImageNet數據集預訓練的模型初始化權值,并進行遷移學習和微調[30],篩選出能夠更好地提取中耳炎特征的網絡。
上述的基礎特征提取模塊通過卷積神經網絡卷積核的計算,特征圖向高語義特征、低分辨率的方向發展,此過程會導致細節信息的丟失,所以本文在特征提取模塊引入特征金字塔網絡(feature pyramid network,FPN)[31]。如圖3所示,該網絡首先通過自下而上的路徑進行多尺度特征提取,然后通過橫向鏈接將深層特征圖與相鄰的淺層特征圖融合,并在每個特征圖上均進行預測。其中融合計算具體為將底層特征圖通過1×1卷積的操作減少輸出特征圖的通道數,獲得與高層特征圖相同的通道數。再對高層金字塔特征圖進行兩倍上采樣,將兩種特征圖像素疊加得到輸出。

2.4 RPN網絡優化
RPN網絡作為Faster RCNN網絡的重要組成部分,通過獲取共享卷積層生成的特征圖作為輸入[32],如圖4所示。對特征映射中的每個位置執行k個錨框,每個位置產生4 × k個坐標參數和2 × k個得分參數[33]。對于目標檢測任務而言,RPN網絡中的錨框尺度直接影響中耳炎檢測的準確率。所以根據耳鏡影像數據集中的鼓膜區域的長寬比特征針對性地修改錨框的尺度,在長寬比為(0.5,1,2)的基礎上,將錨框尺度(8,16,32)與(16,32,64)進行對比。

RPN網絡通過損失函數進行分類和邊界框回歸,對檢測輸出的預測邊界框進行非最大值抑制整合最優結果,生成候選區域。所以在實驗中通過多次調整非極大值抑制閾值進行對比,確定最優的參數設置。其中RPN整體損失函數[21]如式(1)所示:
![]() |
式(1)中,i為候選框的索引;pi表示每個候選框中N+1個類別的概率分布,以及N個分類目標和1個背景區域;pi* 表示判斷是否有目標;Ncls為訓練批量的大小;Nreg為錨框數量;λ為訓練平衡權重;ti為標記框坐標。
其中分類損失Lcls是一個二分類(前景和背景)的邏輯回歸損失函數,定義如式(2)~(3)所示:
![]() |
![]() |
邊界框回歸損失Lreg定義如式(4)~(5)所示:
![]() |
![]() |
3 實驗結果與分析
3.1 實驗環境及性能評價指標
所有訓練和測試的過程的實驗環境如下:① 軟件環境:操作系統(Windows 10),開發工具(Python 3.6.5,Anaconda,Spyder)、深度學習框架(Tensorflow,Google Brain)。② 硬件環境:處理器(AMD Ryzen 7 1700 CPU @3.0 GHz),內存(8GB DDR3 Kingston),獨立顯卡(GeForce RTX 2060 6GB)。
為了驗證本文方法的有效性,選用精確率(Precision)、召回率(Recall)以及平均精確率(average precision,AP)等作為主要評估指標[34]。精確率、召回率的定義如式(6)~(7)所示。
![]() |
![]() |
其中TP指正樣本被正確分類的樣本個數;FP表示負樣本卻被錯誤分類為正樣本的個數;TN指負樣本被正確分類為負樣本的個數;FN表示正樣本被錯誤分類為負樣本的個數。
AP是由Precision-Recall曲線所圍成的面積,表示單個類別的識別準確率。平均準確率均值(mean average precision,MAP)表示所有類別總體識別準確率,與AP值之間關系如式(8)所示。
![]() |
在接下來的實驗中,首先通過MAP模型評價指標篩選出整體性能足夠優越的模型,再通過錨框尺度優化和超參數調整,對篩選出的模型進一步優化。
3.2 不同特征提取網絡對比實驗
本實驗在Faster RCNN方法的基礎上,分別用VGGNet-16、ResNet-50、ResNet-101和MobileNet特征提取網絡進行訓練,并進行同步驗證。隨著模型訓練的迭代次數的增加,不同特征提取網絡的損失曲線如圖5所示。在4個特征提取模型損失函數曲線中,均有不同程度的震蕩。主要原因為某些耳鏡影像特征不夠明顯、圖片拍攝質量限制等,使得數據的學習變得困難。由于VGGNet-16網絡和MobileNet網絡層數較淺,收斂速度更快,均從4 000次開始實現收斂。而殘差網絡ResNet-50和ResNet-101網絡更深,因此訓練時間更長,需要的迭代次數更多。所以本實驗在對比所有特征提取網絡4 000次訓練模型的基礎上,增加對比了ResNet網絡經過6 000次訓練的模型。

上述訓練模型在測試集上的表現如表3所示,從中可見,相較于VGGNet-16和MobileNet,由于網絡深度的原因,ResNet網絡的收斂速度更慢,但是在檢測準確率方面,ResNet網絡表現出更加優異的性能。同時,在殘差網絡大框架相同的情況下,ResNet-101的檢測準確率又優于ResNet-50。因此,在本文后續的實驗中均采用ResNet-101作為特征提取網絡。

基于選擇的特征提取網絡進行特征金字塔網絡的改進前后對比,特征金字塔網絡使特征提取過程融合不同等級的語義信息,完成多尺度特征的提取,使得最終的預測特征圖效果更好。實驗結果如表4所示,該方法顯著提升了檢測的準確率。

3.3 RPN網絡優化實驗
實驗過程中RPN網絡的錨框尺度和超參數的設置對實驗結果均有影響。通過對數據集中的鼓膜區域的面積和長寬比特征進行統計,針對性地修改錨框的尺度,在長寬比為(0.5,1,2)的基礎上,將錨框尺度(8,16,32)與(16,32,64)進行對比。在上述實驗的基礎上,選擇引入FPN的ResNet-101作為特征提取網絡,在超參數設置方面,在置信度閾值保持不變的情況下,選擇非極大值抑制閾值進行對比實驗,實驗結果如圖6所示。

由圖6可見,錨框尺度(8,16,32)更適應于本文中的耳鏡影像數據集,模型取得更高的識別準確率。在錨框尺度為(8,16,32)條件下進一步對比,非極大值抑制閾值為0.5時,過濾多余候選框的效果最好,提升了檢測準確率,模型對4個分類的平均識別準確率達到最高的90.79%。綜上所述,通過對比實驗確定了最優的錨框尺度和超參數。
3.4 ResNet-101網絡下增強耳鏡影像數據集實驗
圖像增強技術將耳鏡影像數據集中的樣本數量從1 297個增加到5 188個,使用上述實驗確定的錨框尺度和超參數,以ResNet-101作為特征提取網絡進行實驗,實驗過程中由于數據集中的批量大小和樣本數量造成模型訓練時間大幅增加。由于本文的耳鏡影像數據總量不足,為了充分證明模型的檢測性能,同時進行了十折交叉驗證[35],將數據集分成十份,輪流將其中一份作為測試數據,其余作為訓練數據,將十次測試的結果取均值,作為模型最終的總體識別準確率。在原始數據測試集和增強數據測試集測試,實驗結果如表5所示。通過增強數據集訓練的模型提高了正常鼓膜、慢性化膿性中耳炎和耳垢樣本的準確率,在總體識別準確率上最終提高到了91.89%,增強了模型性能。通過十折交叉驗證的實驗,總體識別準確率達到了91.43%,充分驗證了本文模型的泛化性能。

但是,該結果對于急性中耳炎檢測而言仍然沒有達到理想的狀態,原因是急性中耳炎主要特征為鼓膜腫脹、膜上或膜后液體發紅。受限于部分耳鏡影像質量,炎癥區域不明顯,與正常鼓膜區別較小,從而出現錯檢情況。其次,在臨床診斷中采集樣本不足,導致特征學習不充分。將本文方法與計算機輔助中耳炎影像診斷的相關研究中使用未改進的Faster RCNN方法[36]進行對比,文獻中未改進的Faster RCNN方法識別準確率為90.48%,可見本文提出的方法總體識別準確率較之進一步提高。
對比之前文獻中所提到的機器學習方法,如決策樹[14]和人工神經網絡[15],本研究的檢測準確率得到了進一步提升。在完成圖片分類任務的基礎上在圖中直接標注了病變具體位置。通過對測試集中圖片進行抽樣測試,檢測平均速度可達到0.27 s/幅,檢測結果如圖7所示,檢測結果標簽中包含檢測病變類別與檢測病變的置信度,置信度表示判定為當前病變結果的概率。

由圖7可見,改進的Faster RCNN算法在中耳炎診斷中具有較高的檢測置信度,影像定位也取得很大的進步。考慮到目前的數據集相對較小,雖然通過數據增強在一定程度上能夠滿足深度學習的訓練要求,但是更多的臨床數據會進一步增強模型的泛化能力,并且目前模型的檢測準確率還受到耳鏡影像背景環境的影響,復雜的耳鏡影像背景導致檢測不準確,因此,擴大臨床數據規模,在復雜背景下進行精確的中耳炎診斷,不斷提高模型診斷準確率,是我們未來研究的方向。
4 結論
針對當前臨床中耳炎診斷方法的準確率低、存在主觀因素影響等現狀,本文提出一種基于Faster RCNN的中耳炎影像計算機輔助診斷方法。研究結果表明,引入特征金字塔結構的ResNet-101的特征提取網絡能夠更好地提取耳鏡數據集特征,在訓練時間和檢測準確率方面表現優異。通過錨框尺度的優化和超參數調整進行RPN網絡的優化,能夠進一步提高檢測精度。此外,通過數據增強的方式擴大訓練樣本數量,一定程度上保證了模型的泛化性能。相較于傳統方法,本文的方法對于降低臨床中耳炎誤診率、輔助醫生進行客觀的檢查提供了更好的選擇。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。