近年來,人工智能(AI)技術發展迅速,已經成為醫學領域的研究前沿熱點之一。基于人工神經網絡的深度學習算法是其中最具代表性的工具。眼科學的進步有賴于多種影像手段的進步,而AI技術的便捷性和高效性使其在眼科疾病篩查、診療以及隨訪中表現出巨大的應用前景。當前,眼科AI技術的相關研究圍繞多病種和多模態兩個方面展開,在眼科常見疾病方面已經有許多有價值的成果相繼報道。需要強調的是,眼科AI產品在實際應用方面仍然面臨一些問題,監管機制和評價標準尚未形成一個完整和統一的體系,在大范圍投入臨床使用前還有諸多方面亟待優化。眼科AI技術的創新是多學科融合的產物,對我國公共衛生事業具有相當重要的意義,也必將在臨床實踐中使廣大患者獲益。
引用本文: 陳有信, 張碧磊, 張弘哲. 眼科人工智能技術的現狀與問題. 中華眼底病雜志, 2019, 35(2): 119-123. doi: 10.3760/cma.j.issn.1005-1015.2019.02.003 復制
人工智能(AI)是計算機科學的一個分支,它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學,其研究領域包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。實際上,自計算機發明以來,AI的概念就一直在起起伏伏中發展,但受制于技術水平和條件,發展較慢。近年來,得益于大數據科學的蓬勃發展、計算機性能的顯著提升以及相關研究工具的成功開發,AI研究已經走上前所未有的快車道;而AI在醫學領域中的應用更是得到了空前發展。AI得以實現要歸功于合理的工具與方法論,其中最為常用的是機器學習(machine learning),它是人工智能技術的一個子集,其核心是使用統計的方法/算法和大量的數據訓練,讓計算機隨著“經驗”的加強來提升能力。它包括數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、DNA序列測序、語音和手寫識別、機器人等運用。深度學習(deep learning)是機器學習的子集,它讓基于多層神經網絡的計算成為可能。深度學習作為機器學習的一種實現方法,基本原理是構建出模仿人類神經系統的多層人工神經網絡(artificial neural networks),并在海量數據集的基礎上進行反復多次的自我訓練,使其具有像人腦一樣高效的模式識別能力和學習能力。此外,在深度學習的眾多分支當中,卷積神經網絡(convolutional neural networks)被廣泛用于圖像的模式識別,因為它更接近于實際存在的生物神經網絡結構,所以在計算機視覺中表現出色。尤其是基于深度學習的語義分割,是自然圖像分割的最優解,在如火如荼的眼科AI研究當中,就用到了大量的卷積神經網絡技術。現代眼科學的發展與多種影像技術手段的進步密不可分;因此,AI在眼科影像學領域已經成為當前研究熱點。AI及深度學習在多模態圖像分割與數據合成、自動分類及描述、數據分析量化和可視化方面取得了前所未有的成果,其臨床應用的潛力體現在篩查評估、輔助診療和監測隨訪等諸多方面,這將有助于實現診療的個體化和大規模管理,并輔助眼科醫師提供高質量的診斷或治療[1]。
1 眼科AI技術的研究現狀
1.1 糖尿病視網膜病變(DR)
DR造成的視力損害已經是一項全球密切關注的公共衛生問題。DR作為內分泌代謝性疾病的并發癥,在確診原發疾病的早期就進行眼底檢查和跟蹤隨訪,將會幫助患者在相當長的時間內保存視力。所以近年來,基于眼底彩色照相的DR人工智能診斷技術是眾多眼科AI研究團隊競相角逐的目標,已經有多個AI診斷系統成形并各自公布了相關數據,顯示出不錯的準確性。
早在2012年,就有科研人員提出使用計算機自動化方法識別DR眼底圖像中的特征性病變——微動脈瘤和新生血管[2]。研究通過提取圖像特征構建多示例學習框架,將圖像按照有無上述病變進行自動分類,但是對于更多的病灶細節則顯得無能為力。隨后,Abràmoff等[3]在之前的基礎上加入了深度學習算法,發現這提高了機器識別的表現,靈敏度達96.8%(95%CI 93.3%~98.8%)。盡管該結果與在此之前公布的無深度學習的算法(94.4%~99.3%)相比沒有統計學差異,但特異性(87.0%,95%CI 84.2%~89.4%)明顯優于后者(55.7%~63.0%),而且沒有遺漏病變程度較為嚴重的病例(如重度非增生型DR、增生型DR)或者黃斑水腫。盡管該研究也只是證明了與標準化數據集上的經典非深度學習算法相比,加入深度學習算法能夠有效提高識別性能,而沒有在實際臨床采集的眼底照片數據庫中進行測試,但這項研究成果依舊令人鼓舞,因為它昭示著深度學習作為新的工具在DR識別中大有可為。它激勵了后續的相關研究繼續深入,并在一定程度上完善了它的不足之處[4]。
在這一領域,我國科學家同樣做出了深入探索。例如,中山大學眼科中心已經開發出基于深度學習的AI算法用于檢測威脅視力的DR,如增生型DR和黃斑水腫。在大樣本測試集上,AI的表現相當出色,靈敏度達97.0%,特異性達91.4%[5]。
2018年4月,美國FDA批準了第一臺用于基層眼科醫療的AI DR檢測設備IDx-DR以輔助DR的篩查,其可靠性已在先前相關實驗中得到證明[3, 6]。這一設備投入臨床使用將會大幅度提升社區醫療機構對DR的篩查效率,讓DR在早期即可得到治療,但實際效果還有待后續臨床實踐檢驗。
1.2 老年性黃斑變性(AMD)
早期和中期的AMD可以是無癥狀的,因此有可能在檢查環節中漏診。并且,傳統的識別方法需要消耗大量時間以及訓練有素的人力資源,帶有一定主觀性。對于風險人群,如能早期識別黃斑部的病變并及時采取干預措施具有重要意義。
來自約翰霍普金斯大學的研究團隊在AREDS(Age-Related Eye Disease Study)眼底圖像數據庫的基礎上,利用深度學習算法自動識別和評估彩色眼底像是否存在AMD,準確率達88.4%~91.6%,與人工判別結果相差無幾[7]。但是該成果完全依賴于AREDS數據庫中的130 000多張圖像,沒有使用單獨收集的實際臨床數據對模型進行測試,這也是其后續改進的方向之一,包括使用更復雜的神經網絡來提高識別性能。預計到2050年,全球AMD風險人口數將高達2.44億[8]。因此,推廣這種高效便捷的篩查手段對全球防盲治盲工作的意義不言而喻。
機器學習的識別對象已經不僅僅局限于彩色眼底像,AI研究已經在關注從多模態影像大數據中充分挖掘相關信息并加以綜合利用。例如,OCT在臨床實踐上已經得到了廣泛應用,可以直觀地反映視網膜早期病變,極大地方便了臨床醫師的診療。基于OCT技術,現已利用機器學習構建出多個智能決策支持系統[9]。Treder等[10]利用開源的TensorFlow工具構建AI算法識別OCT圖像,在區分健康眼底與滲出型AMD方面達到了比較高的準確度;和基于彩色眼底像的AI自動識別系統相比,其準確率更高。這表明在黃斑疾病的AI檢測方面,OCT更具優勢,這固然與OCT自身的成像原理有關。隨著更多圖像數據的加入、算法的改進以及訓練循環的增加,AI將有可能識別出更多種類的黃斑部病變,以及在更多圖像細節上評估AMD的進展情況。Samina等[11]構建的算法能夠同時識別多個病種,包括視網膜水腫、AMD和中心性漿液性脈絡膜視網膜病變。這一系統在使用OCT圖像識別AMD時展現出令人滿意的準確率,不僅能夠判別出受檢者是否存在視網膜病變,還能夠進一步指出視網膜病變的類型。AI在其中扮演的角色值得繼續探索。
1.3 青光眼
青光眼是一種退行性視神經病變,是全球導致失明的主要原因之一。C/D是評價青光眼視神經損害的常用指標,所以,用于青光眼的計算機自動診斷系統能否從視網膜圖像中分割出視盤和視杯區域將是成敗的關鍵。考慮到這一區域可能存在形狀不規則、邊界不清晰以及受制于成像方式等問題,青光眼的AI診斷頗具挑戰性。
視神經頭(ONH)區域的分割對于AI評估青光眼具有很大價值。盡管有幾種方案被提出,但由于缺乏標準化數據集而難以評估和比較各種方法的性能。Sivaswamy等[12]建立了一個較為全面的包含正常眼和青光眼的視網膜圖像數據集,由多為專家進行手動分割,并提供包含盤沿切跡在內的其他ONH區域信息。該團隊將數據集開放,旨在促進青光眼AI診斷的研究,并幫助開發可靠的解決方案。
Hiroki等[13]提出的一種可視化方案能夠同時識別DR和青光眼視神經病變,靈敏度為90%(95%CI 82%~95%)。雖然低于DR識別的準確性,但這不失為一種很好的嘗試。除了普通眼底彩色照相,新近的研究證明基于超廣角眼底成像技術的深度學習算法,也能夠對青光眼及其嚴重程度做出較好的識別和判斷。
1.4 其他疾病
除上述3種常見眼部疾病之外,眼科AI在屈光不正、早產兒視網膜病變(ROP)、視網膜脫離和眼部腫瘤等疾病的診斷中表現出良好的發展前景[14-17]。
眼科AI技術不僅僅在眼科疾病的診療中取得長足進步,在其他全身系統性疾病中的應用也取得了初步成果。例如,心血管疾病的綜合管理和風險評分需要獲得患者的多項生理生化指標并加以分析,但這些指標并不總是容易及時、準確地獲取,或者可能需要有創檢查。視網膜血管是人體中少數幾處可以直接觀察的血管,并且,視網膜血管的大小和形態也能夠在一定程度上反映出全身心血管系統的健康狀況,這就為心血管疾病的風險因素分析提供了全新思路,即其中某些指標可以直接從散瞳后獲取到的彩色眼底像中分析得知。鑒于彩色眼底像的獲得是無創而快速的,如能加以AI算法的輔助,將具有極高的臨床價值。Poplin等[18]創建的AI算法并訓練其從彩色眼底像中自動提取出年齡、性別、吸煙史、收縮壓、糖化血紅蛋白等心血管風險因素,該模型未來還需在基于不同人口的數據集上進行進一步驗證,但后續進展仍然值得期待。近來還有研究認為OCT血管成像(OCTA)中視網膜結構與血管的變化可能與阿茲海默癥和輕微認知障礙等神經退行性疾病存在一定關聯[19]。相信AI也能在之后的深入研究中發揮作用,并有望替代許多神經疾病昂貴的影像檢查,或者預測和監控神經系統疾病的發生及進展。
2 眼科AI技術的問題和挑戰
2.1 數據集的標準化問題
在AI系統研發的過程中,除了高效合理的算法設計之外,構建專業化的數據集是極為重要的一環。以DR為例,目前國際上比較有代表性的彩色眼底像標準數據庫包括美國Kaggle和法國Messidor-2。這些數據集已經被包括Google在內的多個AI研究團隊作為訓練集或測試集。但需要強調的是,這些數據集本身的設計對臨床適用性的考慮不足,數據質量參差不齊,標注標準不一;因此,基于上述數據集的DR標注結果在某種程度上可靠性存在問題。如果眼科AI診療技術要向臨床應用推進,構建大樣本量的標準化數據集將成為先決條件,同時要有權威的、被認可的高質量數據標注,大樣本標準數據集和高質量的數據標注將會最終影響AI系統的性能。
人工閱片標注存在一定主觀性,所以在數據集的質控上,須由多名經過培訓的相關人員完成。針對爭議圖像,還應當設有異議仲裁機制,降低因標注人員個人原因引起的隨機誤差和團隊認知水平造成的系統性錯誤。除標注質量外,圖像本身質量也很重要。圖像質量欠佳的原因可能包括設備問題、操作人員問題或患者自身眼部情況問題,在圖像被算法識別或納入標準化數據集之前,首先對圖像質量作一判斷是有必要的。
針對這一問題,已經有許多研究團隊在標準化數據集的構建方面邁出實質性步伐。例如印度DR圖像數據集是第一個代表印度人口的標準化數據庫,它包含大量典型的DR病變,由人工標注了DR分期和包括黃斑水腫在內的多種病變信息,使其非常適合用于早期檢測DR圖像AI分析算法的開發和評測[20]。北京協和醫院的眼科團隊也在致力于開發建立一個涵蓋主要眼底病病種、可適用于多種臨床應用場景、基于真實世界多樣性臨床數據的多中心大樣本眼底病AI訓練集和測試集。數據庫最終將是公益性和開放性的,其中包含大量經高質量精準標注的數據,并會進行動態更新。
2.2 AI識別結果的判讀問題
AI深度學習模型的圖像識別和分類是基于圖像本身的特征,而不是像臨床醫師那樣直接判斷出熟悉的病變表現,這種機制上巨大差異導致神經網絡本身具有“黑箱模型”的特點,算法內部更具體的機制及每一卷積層的物理含義并不十分明確。所以,AI系統在臨床應用時不可以只依賴于機器的準確性,在準確性和可解釋性之間必須要有所取舍,有所平衡。某些AI算法的病變劃分等級可能偏于保守,即在模棱兩可的情況下劃歸為程度較高的病變,這與神經網絡的參數設置有關。如此一來,雖然可以避免漏掉可疑病變,降低漏診率,但也存在加大醫療支出負擔的問題。顯然,這也需要AI工程技術人員與臨床醫師在實際使用的過程中達成共識。
以DR為例,對于識別出的輕度非增生型DR來說,采取DR相關的治療手段積極干預并非首選。患者轉診至眼科可能只會被要求觀察隨訪,但這并不意味著AI系統的檢測是徒勞的。恰恰相反,這提示出現早期DR的患者應聽從內科/內分泌科醫師的專業意見,強化血糖控制,改善生活方式,延緩自身DR的進展和視力損害的發生。從這一角度來說,應當正確認識眼科AI系統和AI設備在臨床診療中的角色,也需要對AI抱有合理的期望,從而正確理解AI識別結果。
2.3 AI系統的臨床評價和審批監管問題
需要指出的是,AI技術在醫療領域仍然是一項新技術,AI技術及相關設備投入臨床應用必須滿足相關準入標準。為保證在臨床使用過程中的安全性和有效性,還需建立健全符合醫療評價規范的AI產品評價體系。評價體系應當是規范、合理、可實施的,也應隨著技術的不斷發展和臨床實踐動態增刪。所有相關技術產品都應該嚴格限制在評價體系的框架內,在鼓勵創新的同時,嚴守醫療安全底線。
眼科AI產品的臨床評價包括數據集測試和臨床試驗兩個方面。臨床評價標準數據集對規范化、標準化的臨床評價至關重要。而對于臨床試驗,是否符合臨床應用場景是評判人工智能系統的金標準,在試驗評價的過程中優先選擇靈敏度、特異性、AUC為主要觀察指標,以盡可能客觀地反映AI產品的性能。
AI產品作為醫療器械,必須滿足國家藥品監督管理總局關于醫療器械的相關法規要求。此前,國家衛生健康委員會印發的《人工智能輔助診斷技術管理規范(2017版)》中強調醫療機構應具備與AI輔助診斷技術相適應的軟硬件設施和人員配置,開展AI輔助診斷的醫師應取得AI輔助診斷技術執業范圍的《醫師執業證書》,接受相關系統培訓,具有5年以上相關臨床診療工作經驗;其同時還對AI培訓機構做出了具體規定。
3 眼科AI技術的前景與展望
AI技術的便捷性和高效性是其最突出的優勢。由于我國醫療資源分配不均衡,基層醫療機構診療水平參差不齊,特別是眼科執業醫師人才隊伍的缺乏,導致許多患者不能得到及時的診斷和干預,因此錯失最佳治療時機。基于深度學習的眼科AI技術的發展,對我國公共衛生事業無疑具有重大意義。這不僅在于它能夠優化醫療資源配置,提高基層眼科疾病的診治水平,提高眼科專業服務的規范性和可及性,更重要的是還能降低醫療成本和醫保經費負擔,有效推動防盲治盲工作的開展,使眾多老少邊窮地區的患者從中獲益。
目前,眼科AI的研究還多半在研究單模態或多模態圖像識別技術,旨在某些特殊的場景下進行AI輔助篩查、輔助診斷。但隨著計算機技術日新月異的發展,尤其是大數據應用,AI在眼科的應用將會不斷拓展,AI技術將有望完成更多的回顧性研究、臨床資料的綜合分析,進而在疾病預測和防控、疾病綜合評估、治療方案的決策中發揮作用,即所謂眼科診療機器人系統。在治療方面,已經有機器人視網膜內血管注藥、黃斑前膜手術、眼內激光光凝等方面的機器人研究探索。
值得一提的是,互聯網聯合AI技術在我國的眼病診療中將會起到突出作用。先進的互聯網技術(如5G技術)因其網絡傳輸速度快以及遠程圖像或視頻的傳輸沒有延遲,而使遠程即時診斷、遠程指導眼科手術、激光等操作成為可能,這將是解決我國“看病難、看病貴”的重要手段。
當然,目前眼科AI產品在實際應用方面仍然面臨很多問題,如技術不夠成熟、測試和評估缺乏客觀指標、服務的定價收費以及倫理問題、法律法規問題等。AI如何在眼科診療中健康發展,還需要社會各界進一步摸索和研究。
總而言之,眼科AI技術的創新來源于臨床,服務于臨床,并由臨床來評價,也必將在臨床實踐中不斷推陳出新。眼科AI技術正蓬勃發展,讓我們張開雙臂,用一種積極的態度,擁抱它的到來。
人工智能(AI)是計算機科學的一個分支,它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學,其研究領域包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。實際上,自計算機發明以來,AI的概念就一直在起起伏伏中發展,但受制于技術水平和條件,發展較慢。近年來,得益于大數據科學的蓬勃發展、計算機性能的顯著提升以及相關研究工具的成功開發,AI研究已經走上前所未有的快車道;而AI在醫學領域中的應用更是得到了空前發展。AI得以實現要歸功于合理的工具與方法論,其中最為常用的是機器學習(machine learning),它是人工智能技術的一個子集,其核心是使用統計的方法/算法和大量的數據訓練,讓計算機隨著“經驗”的加強來提升能力。它包括數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、DNA序列測序、語音和手寫識別、機器人等運用。深度學習(deep learning)是機器學習的子集,它讓基于多層神經網絡的計算成為可能。深度學習作為機器學習的一種實現方法,基本原理是構建出模仿人類神經系統的多層人工神經網絡(artificial neural networks),并在海量數據集的基礎上進行反復多次的自我訓練,使其具有像人腦一樣高效的模式識別能力和學習能力。此外,在深度學習的眾多分支當中,卷積神經網絡(convolutional neural networks)被廣泛用于圖像的模式識別,因為它更接近于實際存在的生物神經網絡結構,所以在計算機視覺中表現出色。尤其是基于深度學習的語義分割,是自然圖像分割的最優解,在如火如荼的眼科AI研究當中,就用到了大量的卷積神經網絡技術。現代眼科學的發展與多種影像技術手段的進步密不可分;因此,AI在眼科影像學領域已經成為當前研究熱點。AI及深度學習在多模態圖像分割與數據合成、自動分類及描述、數據分析量化和可視化方面取得了前所未有的成果,其臨床應用的潛力體現在篩查評估、輔助診療和監測隨訪等諸多方面,這將有助于實現診療的個體化和大規模管理,并輔助眼科醫師提供高質量的診斷或治療[1]。
1 眼科AI技術的研究現狀
1.1 糖尿病視網膜病變(DR)
DR造成的視力損害已經是一項全球密切關注的公共衛生問題。DR作為內分泌代謝性疾病的并發癥,在確診原發疾病的早期就進行眼底檢查和跟蹤隨訪,將會幫助患者在相當長的時間內保存視力。所以近年來,基于眼底彩色照相的DR人工智能診斷技術是眾多眼科AI研究團隊競相角逐的目標,已經有多個AI診斷系統成形并各自公布了相關數據,顯示出不錯的準確性。
早在2012年,就有科研人員提出使用計算機自動化方法識別DR眼底圖像中的特征性病變——微動脈瘤和新生血管[2]。研究通過提取圖像特征構建多示例學習框架,將圖像按照有無上述病變進行自動分類,但是對于更多的病灶細節則顯得無能為力。隨后,Abràmoff等[3]在之前的基礎上加入了深度學習算法,發現這提高了機器識別的表現,靈敏度達96.8%(95%CI 93.3%~98.8%)。盡管該結果與在此之前公布的無深度學習的算法(94.4%~99.3%)相比沒有統計學差異,但特異性(87.0%,95%CI 84.2%~89.4%)明顯優于后者(55.7%~63.0%),而且沒有遺漏病變程度較為嚴重的病例(如重度非增生型DR、增生型DR)或者黃斑水腫。盡管該研究也只是證明了與標準化數據集上的經典非深度學習算法相比,加入深度學習算法能夠有效提高識別性能,而沒有在實際臨床采集的眼底照片數據庫中進行測試,但這項研究成果依舊令人鼓舞,因為它昭示著深度學習作為新的工具在DR識別中大有可為。它激勵了后續的相關研究繼續深入,并在一定程度上完善了它的不足之處[4]。
在這一領域,我國科學家同樣做出了深入探索。例如,中山大學眼科中心已經開發出基于深度學習的AI算法用于檢測威脅視力的DR,如增生型DR和黃斑水腫。在大樣本測試集上,AI的表現相當出色,靈敏度達97.0%,特異性達91.4%[5]。
2018年4月,美國FDA批準了第一臺用于基層眼科醫療的AI DR檢測設備IDx-DR以輔助DR的篩查,其可靠性已在先前相關實驗中得到證明[3, 6]。這一設備投入臨床使用將會大幅度提升社區醫療機構對DR的篩查效率,讓DR在早期即可得到治療,但實際效果還有待后續臨床實踐檢驗。
1.2 老年性黃斑變性(AMD)
早期和中期的AMD可以是無癥狀的,因此有可能在檢查環節中漏診。并且,傳統的識別方法需要消耗大量時間以及訓練有素的人力資源,帶有一定主觀性。對于風險人群,如能早期識別黃斑部的病變并及時采取干預措施具有重要意義。
來自約翰霍普金斯大學的研究團隊在AREDS(Age-Related Eye Disease Study)眼底圖像數據庫的基礎上,利用深度學習算法自動識別和評估彩色眼底像是否存在AMD,準確率達88.4%~91.6%,與人工判別結果相差無幾[7]。但是該成果完全依賴于AREDS數據庫中的130 000多張圖像,沒有使用單獨收集的實際臨床數據對模型進行測試,這也是其后續改進的方向之一,包括使用更復雜的神經網絡來提高識別性能。預計到2050年,全球AMD風險人口數將高達2.44億[8]。因此,推廣這種高效便捷的篩查手段對全球防盲治盲工作的意義不言而喻。
機器學習的識別對象已經不僅僅局限于彩色眼底像,AI研究已經在關注從多模態影像大數據中充分挖掘相關信息并加以綜合利用。例如,OCT在臨床實踐上已經得到了廣泛應用,可以直觀地反映視網膜早期病變,極大地方便了臨床醫師的診療。基于OCT技術,現已利用機器學習構建出多個智能決策支持系統[9]。Treder等[10]利用開源的TensorFlow工具構建AI算法識別OCT圖像,在區分健康眼底與滲出型AMD方面達到了比較高的準確度;和基于彩色眼底像的AI自動識別系統相比,其準確率更高。這表明在黃斑疾病的AI檢測方面,OCT更具優勢,這固然與OCT自身的成像原理有關。隨著更多圖像數據的加入、算法的改進以及訓練循環的增加,AI將有可能識別出更多種類的黃斑部病變,以及在更多圖像細節上評估AMD的進展情況。Samina等[11]構建的算法能夠同時識別多個病種,包括視網膜水腫、AMD和中心性漿液性脈絡膜視網膜病變。這一系統在使用OCT圖像識別AMD時展現出令人滿意的準確率,不僅能夠判別出受檢者是否存在視網膜病變,還能夠進一步指出視網膜病變的類型。AI在其中扮演的角色值得繼續探索。
1.3 青光眼
青光眼是一種退行性視神經病變,是全球導致失明的主要原因之一。C/D是評價青光眼視神經損害的常用指標,所以,用于青光眼的計算機自動診斷系統能否從視網膜圖像中分割出視盤和視杯區域將是成敗的關鍵。考慮到這一區域可能存在形狀不規則、邊界不清晰以及受制于成像方式等問題,青光眼的AI診斷頗具挑戰性。
視神經頭(ONH)區域的分割對于AI評估青光眼具有很大價值。盡管有幾種方案被提出,但由于缺乏標準化數據集而難以評估和比較各種方法的性能。Sivaswamy等[12]建立了一個較為全面的包含正常眼和青光眼的視網膜圖像數據集,由多為專家進行手動分割,并提供包含盤沿切跡在內的其他ONH區域信息。該團隊將數據集開放,旨在促進青光眼AI診斷的研究,并幫助開發可靠的解決方案。
Hiroki等[13]提出的一種可視化方案能夠同時識別DR和青光眼視神經病變,靈敏度為90%(95%CI 82%~95%)。雖然低于DR識別的準確性,但這不失為一種很好的嘗試。除了普通眼底彩色照相,新近的研究證明基于超廣角眼底成像技術的深度學習算法,也能夠對青光眼及其嚴重程度做出較好的識別和判斷。
1.4 其他疾病
除上述3種常見眼部疾病之外,眼科AI在屈光不正、早產兒視網膜病變(ROP)、視網膜脫離和眼部腫瘤等疾病的診斷中表現出良好的發展前景[14-17]。
眼科AI技術不僅僅在眼科疾病的診療中取得長足進步,在其他全身系統性疾病中的應用也取得了初步成果。例如,心血管疾病的綜合管理和風險評分需要獲得患者的多項生理生化指標并加以分析,但這些指標并不總是容易及時、準確地獲取,或者可能需要有創檢查。視網膜血管是人體中少數幾處可以直接觀察的血管,并且,視網膜血管的大小和形態也能夠在一定程度上反映出全身心血管系統的健康狀況,這就為心血管疾病的風險因素分析提供了全新思路,即其中某些指標可以直接從散瞳后獲取到的彩色眼底像中分析得知。鑒于彩色眼底像的獲得是無創而快速的,如能加以AI算法的輔助,將具有極高的臨床價值。Poplin等[18]創建的AI算法并訓練其從彩色眼底像中自動提取出年齡、性別、吸煙史、收縮壓、糖化血紅蛋白等心血管風險因素,該模型未來還需在基于不同人口的數據集上進行進一步驗證,但后續進展仍然值得期待。近來還有研究認為OCT血管成像(OCTA)中視網膜結構與血管的變化可能與阿茲海默癥和輕微認知障礙等神經退行性疾病存在一定關聯[19]。相信AI也能在之后的深入研究中發揮作用,并有望替代許多神經疾病昂貴的影像檢查,或者預測和監控神經系統疾病的發生及進展。
2 眼科AI技術的問題和挑戰
2.1 數據集的標準化問題
在AI系統研發的過程中,除了高效合理的算法設計之外,構建專業化的數據集是極為重要的一環。以DR為例,目前國際上比較有代表性的彩色眼底像標準數據庫包括美國Kaggle和法國Messidor-2。這些數據集已經被包括Google在內的多個AI研究團隊作為訓練集或測試集。但需要強調的是,這些數據集本身的設計對臨床適用性的考慮不足,數據質量參差不齊,標注標準不一;因此,基于上述數據集的DR標注結果在某種程度上可靠性存在問題。如果眼科AI診療技術要向臨床應用推進,構建大樣本量的標準化數據集將成為先決條件,同時要有權威的、被認可的高質量數據標注,大樣本標準數據集和高質量的數據標注將會最終影響AI系統的性能。
人工閱片標注存在一定主觀性,所以在數據集的質控上,須由多名經過培訓的相關人員完成。針對爭議圖像,還應當設有異議仲裁機制,降低因標注人員個人原因引起的隨機誤差和團隊認知水平造成的系統性錯誤。除標注質量外,圖像本身質量也很重要。圖像質量欠佳的原因可能包括設備問題、操作人員問題或患者自身眼部情況問題,在圖像被算法識別或納入標準化數據集之前,首先對圖像質量作一判斷是有必要的。
針對這一問題,已經有許多研究團隊在標準化數據集的構建方面邁出實質性步伐。例如印度DR圖像數據集是第一個代表印度人口的標準化數據庫,它包含大量典型的DR病變,由人工標注了DR分期和包括黃斑水腫在內的多種病變信息,使其非常適合用于早期檢測DR圖像AI分析算法的開發和評測[20]。北京協和醫院的眼科團隊也在致力于開發建立一個涵蓋主要眼底病病種、可適用于多種臨床應用場景、基于真實世界多樣性臨床數據的多中心大樣本眼底病AI訓練集和測試集。數據庫最終將是公益性和開放性的,其中包含大量經高質量精準標注的數據,并會進行動態更新。
2.2 AI識別結果的判讀問題
AI深度學習模型的圖像識別和分類是基于圖像本身的特征,而不是像臨床醫師那樣直接判斷出熟悉的病變表現,這種機制上巨大差異導致神經網絡本身具有“黑箱模型”的特點,算法內部更具體的機制及每一卷積層的物理含義并不十分明確。所以,AI系統在臨床應用時不可以只依賴于機器的準確性,在準確性和可解釋性之間必須要有所取舍,有所平衡。某些AI算法的病變劃分等級可能偏于保守,即在模棱兩可的情況下劃歸為程度較高的病變,這與神經網絡的參數設置有關。如此一來,雖然可以避免漏掉可疑病變,降低漏診率,但也存在加大醫療支出負擔的問題。顯然,這也需要AI工程技術人員與臨床醫師在實際使用的過程中達成共識。
以DR為例,對于識別出的輕度非增生型DR來說,采取DR相關的治療手段積極干預并非首選。患者轉診至眼科可能只會被要求觀察隨訪,但這并不意味著AI系統的檢測是徒勞的。恰恰相反,這提示出現早期DR的患者應聽從內科/內分泌科醫師的專業意見,強化血糖控制,改善生活方式,延緩自身DR的進展和視力損害的發生。從這一角度來說,應當正確認識眼科AI系統和AI設備在臨床診療中的角色,也需要對AI抱有合理的期望,從而正確理解AI識別結果。
2.3 AI系統的臨床評價和審批監管問題
需要指出的是,AI技術在醫療領域仍然是一項新技術,AI技術及相關設備投入臨床應用必須滿足相關準入標準。為保證在臨床使用過程中的安全性和有效性,還需建立健全符合醫療評價規范的AI產品評價體系。評價體系應當是規范、合理、可實施的,也應隨著技術的不斷發展和臨床實踐動態增刪。所有相關技術產品都應該嚴格限制在評價體系的框架內,在鼓勵創新的同時,嚴守醫療安全底線。
眼科AI產品的臨床評價包括數據集測試和臨床試驗兩個方面。臨床評價標準數據集對規范化、標準化的臨床評價至關重要。而對于臨床試驗,是否符合臨床應用場景是評判人工智能系統的金標準,在試驗評價的過程中優先選擇靈敏度、特異性、AUC為主要觀察指標,以盡可能客觀地反映AI產品的性能。
AI產品作為醫療器械,必須滿足國家藥品監督管理總局關于醫療器械的相關法規要求。此前,國家衛生健康委員會印發的《人工智能輔助診斷技術管理規范(2017版)》中強調醫療機構應具備與AI輔助診斷技術相適應的軟硬件設施和人員配置,開展AI輔助診斷的醫師應取得AI輔助診斷技術執業范圍的《醫師執業證書》,接受相關系統培訓,具有5年以上相關臨床診療工作經驗;其同時還對AI培訓機構做出了具體規定。
3 眼科AI技術的前景與展望
AI技術的便捷性和高效性是其最突出的優勢。由于我國醫療資源分配不均衡,基層醫療機構診療水平參差不齊,特別是眼科執業醫師人才隊伍的缺乏,導致許多患者不能得到及時的診斷和干預,因此錯失最佳治療時機。基于深度學習的眼科AI技術的發展,對我國公共衛生事業無疑具有重大意義。這不僅在于它能夠優化醫療資源配置,提高基層眼科疾病的診治水平,提高眼科專業服務的規范性和可及性,更重要的是還能降低醫療成本和醫保經費負擔,有效推動防盲治盲工作的開展,使眾多老少邊窮地區的患者從中獲益。
目前,眼科AI的研究還多半在研究單模態或多模態圖像識別技術,旨在某些特殊的場景下進行AI輔助篩查、輔助診斷。但隨著計算機技術日新月異的發展,尤其是大數據應用,AI在眼科的應用將會不斷拓展,AI技術將有望完成更多的回顧性研究、臨床資料的綜合分析,進而在疾病預測和防控、疾病綜合評估、治療方案的決策中發揮作用,即所謂眼科診療機器人系統。在治療方面,已經有機器人視網膜內血管注藥、黃斑前膜手術、眼內激光光凝等方面的機器人研究探索。
值得一提的是,互聯網聯合AI技術在我國的眼病診療中將會起到突出作用。先進的互聯網技術(如5G技術)因其網絡傳輸速度快以及遠程圖像或視頻的傳輸沒有延遲,而使遠程即時診斷、遠程指導眼科手術、激光等操作成為可能,這將是解決我國“看病難、看病貴”的重要手段。
當然,目前眼科AI產品在實際應用方面仍然面臨很多問題,如技術不夠成熟、測試和評估缺乏客觀指標、服務的定價收費以及倫理問題、法律法規問題等。AI如何在眼科診療中健康發展,還需要社會各界進一步摸索和研究。
總而言之,眼科AI技術的創新來源于臨床,服務于臨床,并由臨床來評價,也必將在臨床實踐中不斷推陳出新。眼科AI技術正蓬勃發展,讓我們張開雙臂,用一種積極的態度,擁抱它的到來。