引用本文: 孫功鵬, 王曉玲, 徐立璋, 李嫦, 王雯鈺, 易佐慧子, 鄭紅梅, 李志清, 陳長征. 應用人工智能識別超廣角眼底照相多病種的初步研究. 中華眼底病雜志, 2022, 38(2): 132-138. doi: 10.3760/cma.j.cn511434-20211228-00728 復制
眼底疾病的早期發現和治療對預防視力下降具有重要意義。近年,人工智能(AI)發展迅速,已經被廣泛應用于視網膜疾病的早期篩查、診斷及療效預測[1]。既往基于普通眼底彩色照相的多疾病分類AI算法,有望對眼底疾病早期篩查和臨床決策產生較好的輔助作用[2-4]。但傳統眼底彩色照相成像范圍較小,視野局限。超廣角眼底照相(UWFI)成像范圍廣,單次掃描可獲取200°眼底圖像,同時具有非接觸、免散瞳及操作便捷等優勢,目前已廣泛應用于眼底疾病的篩查[5-6]。既往文獻報道的UWFI成像結合AI輔助疾病診治應用在各個單病種的識別中表現優異,特別是在周邊視網膜變性、視網膜脫離(RD)、視網膜出血、糖尿病視網膜病變(DR)、青光眼視神經病變等疾病中具有較高的準確性[7-11]。AI與UWFI影像優勢的結合,將可能以低成本、高性能的特點為眼底疾病的篩查帶來新篇章。為此,我們設計并訓練了一個基于UWFI的多疾病分類AI模型,初步探究利用深度學習算法識別正常眼底及多個常見眼底疾病的可行性。現將結果報道如下。
1 對象和方法
回顧性研究。本研究經武漢大學人民醫院臨床倫理委員會審批(倫理號:WDRY2021-K034),遵循《赫爾辛基宣言》原則。本研究圖像資料中均不包含患者個人信息,倫理委員會對患者的知情同意進行了豁免。
2016年至2021年于武漢大學人民醫院眼科就診并行UWFI檢查的1 123例患者的1 608張圖像用于UWFI多疾病分類AI模型構建。其中,正常眼底、DR、視網膜靜脈阻塞(RVO)、病理性近視(PM)、RD(圖1)分別為371、320、330、319、268張。

圖像分類流程及數據準備。由1名經訓練的研究生排除成像范圍小(眼底成像受眼瞼及睫毛遮擋超過1/3)、存在明顯屈光間質混濁以及存在激光光凝、硅油或氣體填充等治療痕跡的眼底圖像;由2名具有3年以上眼底影像經驗的主治醫生分別對圖像進行分類,分類相同的圖像納入數據集。存在不同分類意見的圖像由1名25年以上工作經驗的高年資醫師進行裁定。納入疾病診斷標準:DR:UWFI上可見微動脈瘤、點狀出血、硬性滲出、棉絨斑,包括伴有視盤及視網膜新生血管、纖維增生、視網膜前出血和玻璃體積血等一種或多種DR眼底改變,或超廣角熒光素眼底血管造影(UWFA)觀察到眼底存在明顯微動脈瘤、無灌注區,包括伴有新生血管強熒光及熒光素滲漏、出血遮蔽熒光等一種或多種DR眼底改變。RVO:UWFI上可見火焰狀出血、靜脈紆曲擴張、棉絨斑、伴或不伴視盤水腫。PM:基于META-PM分類系統[12]。RD:視網膜呈綠色隆起,伴或不伴視網膜裂孔。
每例患者每只眼僅納入1張圖像,存在多個病種的圖像被同時置于多個病種文件夾中。為保證各類數據量平衡以擬合神經網絡,各類疾病圖像數量基本一致。1 608張圖像按照9∶1∶1劃分為訓練集、驗證集和內部測試集,同時確保任意一張圖像不會同時用于訓練和驗證(表1)。選取來自天津醫科大學眼科醫院106例患者的135張圖像作為外部測試集。

網絡構成及優化。選取EfficientNet-B7作為主干網絡,對納入的UWFI圖像進行分類分析。此模型為Google在2019年提出的基于卷積神經網絡的高精度圖像分類深度學習模型[13]。為獲得更好的模型表現,對每一個MBConv模塊中添加1個壓縮和激勵網絡模塊[14],使模型更加專注。同時模型訓練中加入L2正則化方法,有效避免過擬合。訓練中使用CrossEntropyLoss作為損失函數,設定Adam優化器,初始學習率為3e-4,L2正則項設為0.002。
模型訓練。原始UWFI圖像大小為3900×3072像素,為非正方形。所有輸入圖像先進行預處理,使得模型輸入大小為224×224像素。開始訓練前對訓練集和驗證集進行數據增強,包括鏡像翻轉、添加隨機噪聲、隨機區塊、隨機對比度增強的方法。與原始數據集比較,訓練集和驗證集大小增加了4倍,得到訓練集5 248張圖像,驗證集592張圖像(圖2)。

模型評估。使用受試者工作特征(ROC)曲線、ROC曲線下面積(AUC)、靈敏度、特異性、準確率評估分類模型在測試集上的表現,所有數據均使用數值及95%可信區間(CI)表達。此外,將數據集在ResNet50和ResNet101模型上進行訓練,對比觀察EfficientNet與上述兩種模型的性能。所有統計分析均由python 3.7.11完成。
2 結果
經過訓練,UWFI多疾病分類AI模型在內部、外部測試集上的總分類準確率分別為92.57%(95%CI 91.13%~92.92%)、88.89%(95%CI 88.11%~90.02%)。其中,正常眼底分別為96.62%、92.59 %,DR分別為95.95%、95.56 %,RVO分別為96.62%、98.52%,PM分別為98.65%、97.04%,RD分別為97.30%、94.07%(表2)。

ROC曲線分析結果顯示,UWFI多疾病分類AI模型內部、外部測試集的平均AUC分別為0.993、0.983。其中,正常眼底分別為0.994、0.939,DR分別為0.999、0.995,RVO分別為0.985、1.000,PM分別為0.991、0.993,RD分別為0.995、0.990(表3,圖3)。


本數據集在網絡模型ResNet50、ResNet101上的訓練結果顯示,內部測試集總準確率分別為75.00%(95%CI 73.50%~77.26%)、90.54%(95%CI 89.76%~91.14%);外部測試集總準確率分別為51.11%(95%CI 46.37%~54.99%)、65.19%(95%CI 62.31%~66.99%)。ROC曲線分析結果顯示,內部、外部測試集ResNet50的平均AUC分別為0.912、0.766;ResNet101的平均AUC分別為0.988、0.915(表4,圖4)。網絡模型EfficientNet的性能(內部、外部測試集平均AUC分別為0.993、0.983)較ResNet50、ResNet101更高。


3 討論
本研究初步探討了AI對UWFI多病種分類任務的能力,結果顯示,UWFI多疾病分類AI模型在內部、外部測試集上對正常眼底、DR、RVO、PM、RD識別的AUC分別達到了0.994、0.939,0.999、0.995,0.985、1.000,0.991、0.993,0.995、0.990。該模型基于較小樣本量,仍然對納入的常見眼底疾病實現了較高的識別準確性,將有可能輔助應用于眼科相關學科、基層醫院或體檢中心,客觀快速地實現對眼底疾病的早期篩查與轉診。
早期研究多對常見眼底疾病構建單病種識別模型[15-18]。然而眼底疾病種類繁多,單病種識別如DR等常局限于相關科室如內分泌科,難以應用于實際臨床工作中。近年國內多個團隊在彩色眼底像多分類任務模型上取得卓越成果[2-4]。Li等[2]設計了一個依據普通彩色眼底像輔助12種主要眼底疾病診斷的AI模型,具有巨大的真實世界應用前景。Cen等[3]擴大AI分類類別至39種眼底病變,適用于更廣的眼科臨床環境;中山大學中山眼科中心團隊設計的AI模型CARE系統在國家級真實研究中表現良好[4]。這些AI平臺應用到真實世界環境將極大提升眼底疾病的早期篩查和診治。
傳統眼底彩色照相成像范圍較為局限,UWFI具有免散瞳、成像廣、快捷等優點,使眼底疾病的篩查更加全面便捷[5]。日本學者利用卷積神經網絡將多個單病種以較高的精度與正常眼分類[16-21]。然而這一模式難以轉化,僅能證明深度學習在識別單病種上的可行性,臨床應用價值不高。中山大學中山眼科中心團隊則利用高質量數據將AI專注于眼底病灶的識別、分類及定位,在視網膜周邊變性及裂孔、RD及視網膜出血等病灶的識別上均達到高水平[7-9],充分發揮UWFI成像視野廣的優勢。
目前基于UWFI的眼底多病種AI模型依然較少[22]。本研究基于圖像分類模型,較ResNet50、ResNet101具有顯著優勢。ResNet50網絡結構簡單,參數較少檢測速度較快,但精度和泛化能力相較EfficientNet差;ResNet101較ResNet50網絡深度和參數總量均大幅度提升,在檢測精度上有較大改觀。EfficientNet具有低參數、高精度、訓練策略靈活的特點。該模型輔助我們在較小的樣本量下即實現了更高的準確性。未來我們將繼續擴大樣本量及病種類別,希望構建一個更多病種的UWFI AI診斷模型。
本研究的不足:(1)本研究目前納入病種較少,未能覆蓋其他更多常見眼底疾病,未來需進一步增加病種數量;(2)由于病種較少且較為典型,未對比AI模型與眼科臨床醫師的水平;(3)除部分DR、RVO及正常眼底的診斷同時依據彩色眼底像及UWFA外,多數診斷僅依賴于眼底彩色照相進行經驗診斷。
眼底疾病的早期發現和治療對預防視力下降具有重要意義。近年,人工智能(AI)發展迅速,已經被廣泛應用于視網膜疾病的早期篩查、診斷及療效預測[1]。既往基于普通眼底彩色照相的多疾病分類AI算法,有望對眼底疾病早期篩查和臨床決策產生較好的輔助作用[2-4]。但傳統眼底彩色照相成像范圍較小,視野局限。超廣角眼底照相(UWFI)成像范圍廣,單次掃描可獲取200°眼底圖像,同時具有非接觸、免散瞳及操作便捷等優勢,目前已廣泛應用于眼底疾病的篩查[5-6]。既往文獻報道的UWFI成像結合AI輔助疾病診治應用在各個單病種的識別中表現優異,特別是在周邊視網膜變性、視網膜脫離(RD)、視網膜出血、糖尿病視網膜病變(DR)、青光眼視神經病變等疾病中具有較高的準確性[7-11]。AI與UWFI影像優勢的結合,將可能以低成本、高性能的特點為眼底疾病的篩查帶來新篇章。為此,我們設計并訓練了一個基于UWFI的多疾病分類AI模型,初步探究利用深度學習算法識別正常眼底及多個常見眼底疾病的可行性。現將結果報道如下。
1 對象和方法
回顧性研究。本研究經武漢大學人民醫院臨床倫理委員會審批(倫理號:WDRY2021-K034),遵循《赫爾辛基宣言》原則。本研究圖像資料中均不包含患者個人信息,倫理委員會對患者的知情同意進行了豁免。
2016年至2021年于武漢大學人民醫院眼科就診并行UWFI檢查的1 123例患者的1 608張圖像用于UWFI多疾病分類AI模型構建。其中,正常眼底、DR、視網膜靜脈阻塞(RVO)、病理性近視(PM)、RD(圖1)分別為371、320、330、319、268張。

圖像分類流程及數據準備。由1名經訓練的研究生排除成像范圍小(眼底成像受眼瞼及睫毛遮擋超過1/3)、存在明顯屈光間質混濁以及存在激光光凝、硅油或氣體填充等治療痕跡的眼底圖像;由2名具有3年以上眼底影像經驗的主治醫生分別對圖像進行分類,分類相同的圖像納入數據集。存在不同分類意見的圖像由1名25年以上工作經驗的高年資醫師進行裁定。納入疾病診斷標準:DR:UWFI上可見微動脈瘤、點狀出血、硬性滲出、棉絨斑,包括伴有視盤及視網膜新生血管、纖維增生、視網膜前出血和玻璃體積血等一種或多種DR眼底改變,或超廣角熒光素眼底血管造影(UWFA)觀察到眼底存在明顯微動脈瘤、無灌注區,包括伴有新生血管強熒光及熒光素滲漏、出血遮蔽熒光等一種或多種DR眼底改變。RVO:UWFI上可見火焰狀出血、靜脈紆曲擴張、棉絨斑、伴或不伴視盤水腫。PM:基于META-PM分類系統[12]。RD:視網膜呈綠色隆起,伴或不伴視網膜裂孔。
每例患者每只眼僅納入1張圖像,存在多個病種的圖像被同時置于多個病種文件夾中。為保證各類數據量平衡以擬合神經網絡,各類疾病圖像數量基本一致。1 608張圖像按照9∶1∶1劃分為訓練集、驗證集和內部測試集,同時確保任意一張圖像不會同時用于訓練和驗證(表1)。選取來自天津醫科大學眼科醫院106例患者的135張圖像作為外部測試集。

網絡構成及優化。選取EfficientNet-B7作為主干網絡,對納入的UWFI圖像進行分類分析。此模型為Google在2019年提出的基于卷積神經網絡的高精度圖像分類深度學習模型[13]。為獲得更好的模型表現,對每一個MBConv模塊中添加1個壓縮和激勵網絡模塊[14],使模型更加專注。同時模型訓練中加入L2正則化方法,有效避免過擬合。訓練中使用CrossEntropyLoss作為損失函數,設定Adam優化器,初始學習率為3e-4,L2正則項設為0.002。
模型訓練。原始UWFI圖像大小為3900×3072像素,為非正方形。所有輸入圖像先進行預處理,使得模型輸入大小為224×224像素。開始訓練前對訓練集和驗證集進行數據增強,包括鏡像翻轉、添加隨機噪聲、隨機區塊、隨機對比度增強的方法。與原始數據集比較,訓練集和驗證集大小增加了4倍,得到訓練集5 248張圖像,驗證集592張圖像(圖2)。

模型評估。使用受試者工作特征(ROC)曲線、ROC曲線下面積(AUC)、靈敏度、特異性、準確率評估分類模型在測試集上的表現,所有數據均使用數值及95%可信區間(CI)表達。此外,將數據集在ResNet50和ResNet101模型上進行訓練,對比觀察EfficientNet與上述兩種模型的性能。所有統計分析均由python 3.7.11完成。
2 結果
經過訓練,UWFI多疾病分類AI模型在內部、外部測試集上的總分類準確率分別為92.57%(95%CI 91.13%~92.92%)、88.89%(95%CI 88.11%~90.02%)。其中,正常眼底分別為96.62%、92.59 %,DR分別為95.95%、95.56 %,RVO分別為96.62%、98.52%,PM分別為98.65%、97.04%,RD分別為97.30%、94.07%(表2)。

ROC曲線分析結果顯示,UWFI多疾病分類AI模型內部、外部測試集的平均AUC分別為0.993、0.983。其中,正常眼底分別為0.994、0.939,DR分別為0.999、0.995,RVO分別為0.985、1.000,PM分別為0.991、0.993,RD分別為0.995、0.990(表3,圖3)。


本數據集在網絡模型ResNet50、ResNet101上的訓練結果顯示,內部測試集總準確率分別為75.00%(95%CI 73.50%~77.26%)、90.54%(95%CI 89.76%~91.14%);外部測試集總準確率分別為51.11%(95%CI 46.37%~54.99%)、65.19%(95%CI 62.31%~66.99%)。ROC曲線分析結果顯示,內部、外部測試集ResNet50的平均AUC分別為0.912、0.766;ResNet101的平均AUC分別為0.988、0.915(表4,圖4)。網絡模型EfficientNet的性能(內部、外部測試集平均AUC分別為0.993、0.983)較ResNet50、ResNet101更高。


3 討論
本研究初步探討了AI對UWFI多病種分類任務的能力,結果顯示,UWFI多疾病分類AI模型在內部、外部測試集上對正常眼底、DR、RVO、PM、RD識別的AUC分別達到了0.994、0.939,0.999、0.995,0.985、1.000,0.991、0.993,0.995、0.990。該模型基于較小樣本量,仍然對納入的常見眼底疾病實現了較高的識別準確性,將有可能輔助應用于眼科相關學科、基層醫院或體檢中心,客觀快速地實現對眼底疾病的早期篩查與轉診。
早期研究多對常見眼底疾病構建單病種識別模型[15-18]。然而眼底疾病種類繁多,單病種識別如DR等常局限于相關科室如內分泌科,難以應用于實際臨床工作中。近年國內多個團隊在彩色眼底像多分類任務模型上取得卓越成果[2-4]。Li等[2]設計了一個依據普通彩色眼底像輔助12種主要眼底疾病診斷的AI模型,具有巨大的真實世界應用前景。Cen等[3]擴大AI分類類別至39種眼底病變,適用于更廣的眼科臨床環境;中山大學中山眼科中心團隊設計的AI模型CARE系統在國家級真實研究中表現良好[4]。這些AI平臺應用到真實世界環境將極大提升眼底疾病的早期篩查和診治。
傳統眼底彩色照相成像范圍較為局限,UWFI具有免散瞳、成像廣、快捷等優點,使眼底疾病的篩查更加全面便捷[5]。日本學者利用卷積神經網絡將多個單病種以較高的精度與正常眼分類[16-21]。然而這一模式難以轉化,僅能證明深度學習在識別單病種上的可行性,臨床應用價值不高。中山大學中山眼科中心團隊則利用高質量數據將AI專注于眼底病灶的識別、分類及定位,在視網膜周邊變性及裂孔、RD及視網膜出血等病灶的識別上均達到高水平[7-9],充分發揮UWFI成像視野廣的優勢。
目前基于UWFI的眼底多病種AI模型依然較少[22]。本研究基于圖像分類模型,較ResNet50、ResNet101具有顯著優勢。ResNet50網絡結構簡單,參數較少檢測速度較快,但精度和泛化能力相較EfficientNet差;ResNet101較ResNet50網絡深度和參數總量均大幅度提升,在檢測精度上有較大改觀。EfficientNet具有低參數、高精度、訓練策略靈活的特點。該模型輔助我們在較小的樣本量下即實現了更高的準確性。未來我們將繼續擴大樣本量及病種類別,希望構建一個更多病種的UWFI AI診斷模型。
本研究的不足:(1)本研究目前納入病種較少,未能覆蓋其他更多常見眼底疾病,未來需進一步增加病種數量;(2)由于病種較少且較為典型,未對比AI模型與眼科臨床醫師的水平;(3)除部分DR、RVO及正常眼底的診斷同時依據彩色眼底像及UWFA外,多數診斷僅依賴于眼底彩色照相進行經驗診斷。