隨著人工智能(AI)概念的推廣和技術的發展,在醫療領域逐漸出現基于AI算法的疾病篩查系統。這類系統可用于疾病的大規模篩查,以緩解基層醫療衛生壓力。近年來,AI算法在眼底彩色照相黃斑區域的病變體征分析和識別中展現了良好的性能,隨著時間的推移,未來定會出現適用于基層篩查的眼底病變體征篩查系統。因此,為了規范基于AI算法構建的黃斑區域病變體征篩查系統的設計及臨床應用,中華醫學會眼科學分會眼底病學組聯合相關專家,經過調研問題、討論生產證據、召開指南研討會等環節,針對基層篩查系統的黃斑區域和病變體征定義、AI應用場景、算法模型構建、數據集的建立和標注、架構和功能設計和圖像數據采集等方面制定統一標準,以便指導篩查工作的開展。
引用本文: 中華醫學會眼科學分會眼底病學組, 人工智能研發應用專家指導組. 面向基層的人工智能眼底彩色照相黃斑區域病變體征篩查系統規范化設計及應用指南. 中華眼底病雜志, 2022, 38(9): 711-728. doi: 10.3760/cma.j.cn511434-20220616-00364 復制
一 人工智能(AI)黃斑區域病變體征篩查系統研發和應用的目的及意義
黃斑區主要與精細視覺及色覺等視功能相關,黃斑區出現病變,是視力下降的主要因素之一。由于黃斑區域的敏感性,該區域的損傷可造成中心視力的下降,對患者的生活質量影響較大[1]。早期眼科篩查是降低病變風險、避免視力喪失的積極手段。數據顯示,全國約有4.48萬眼科醫生,這意味著平均1個眼科醫生要為約3.125萬人提供醫療服務[2]。由此可見,供需的極度不平衡,使我國眼科醫生在眼底疾病篩查中面臨較大的工作壓力,同時也存在一部分患者無法得到及時的篩查及治療的情況。因此,借助AI、自動化、信息化技術實現大基數人口的眼底篩查是必然的發展趨勢[3]。
眼底彩色照相(以下簡稱為眼底彩照)是一種方便、非接觸式的眼科檢查,可觀察視神經、視網膜、脈絡膜以及屈光間質中是否存在病變,是目前篩查眼底疾病最具成本效益的成像方式[4]。黃斑區域內可發生的疾病種類眾多,表現多樣,如老年性黃斑病變、中心性漿液性脈絡膜視網膜病變、中心性滲出性脈絡膜視網膜病變及視網膜靜脈阻塞等[5]。眼底彩照能提供的病變信息有限,臨床上難以基于單一眼底彩照檢查給出準確的疾病診斷結論。但在基層篩查應用場景中,篩查系統僅需給出黃斑區域內是否出現可疑病變體征的結論,若出現一定程度的病變體征,則認為受檢人存在黃斑區域內眼疾的患病風險,需到醫院進行進一步的檢查。由此可見,基層篩查可僅基于眼底彩照進行,并且可只在病變體征維度進行分析。因此,本指南擬規范面向基層的眼底彩照黃斑區域病變體征篩查系統的設計及應用。由于非散瞳眼底彩照可滿足檢查區域的呈現,因此一般情況下,本指南討論的眼底彩照為非散瞳情況下采集的。
隨著基于醫療大數據的逐步建立以及AI篩查技術的發展和應用,很多高質量的AI算法已成功應用于醫學輔助診斷,如利用圖像對皮膚癌進行判別[6],分析乳腺癌淋巴結轉移[7]等。在眼科方面,2017年,Gargeya和Leng[8]利用75 137例糖尿病患者的眼底彩照訓練AI模型,使其檢測糖尿病視網膜病變的靈敏度和特異性分別達到了94%和98%。此外,基于眼底彩照的AI模型在青光眼的篩查工作中也展現了良好的性能[9]。
目前在世界范圍內,黃斑區域病變體征的AI識別及篩查尚未建立統一的數據來源、模型構建、臨床評價等方面的標準,因此限制了AI篩查系統在該領域的臨床應用。本指南制定小組在中華醫學會眼科學分會青光眼學組和中國醫學裝備協會眼科人工智能學組發布的《中國基于眼底照相的人工智能青光眼輔助篩查系統規范化設計及應用指南(2020)》[9]以及中國醫藥教育協會智能醫學專業委員會智能眼科學組和國家重點研發計劃“眼科多模態成像及人工智能診療系統的研發和應用”項目組發布的《基于眼底照相的糖尿病視網膜病變人工智能篩查系統應用指南》[10]的基礎上,參考了中國食品藥品檢定研究院組織起草的《人工智能醫療器械行業標準》[11-13]和中國質量檢驗協會發布的《眼底彩照標注與質量控制規范》(T/CAQI 166-2020)[14],制定了可供系統研發工程師和基層醫生等相關人員參考的篩查系統設計及應用指南。具體而言,本指南旨在對黃斑區域及相關病變體征定義、AI應用場景、算法模型構建、數據集的建立和標注、篩查系統架構和功能的設計、圖像數據的采集等方面提供參考性意見,以期規范AI系統在黃斑區域病變體征基層篩查中的應用,推動我國眼底病早期篩查水平的整體提升。本指南內容未來會根據醫療器械領域新法規、新標準以及黃斑區域內疾病診療新指南的更新進行及時迭代。
二 黃斑區域和病變體征
一 黃斑區域
根據年齡相關性眼底病變研究[15],在討論老年性黃斑病變時,將黃斑區域定義為以中心小凹為中心、半徑為2倍視盤直徑(DD)的圓形區域。其黃斑區域與視盤邊緣幾乎相切(圖1)。此外,在解剖學上,黃斑區定義為顳側上下血管弓內5.5 mm范圍內的區域[16]。

綜合上述黃斑區域定義,本指南定義黃斑區域為中點在黃斑中心小凹的圓形區域,其半徑為2 DD、黃斑中心小凹到上下血管弓最小距離以及黃斑中心小凹到視盤邊緣最小距離中的最小值(圖2)。

二 黃斑區域病變體征
在黃斑區域病變體征的早期篩查場景中,我們不但需要檢測高風險疾病相關體征;同時需要關注潛在風險體征和潛在病發區域。本指南對黃斑區域內病變體征進行定義,疑似出現以下任意一項體征時建議轉診;若確定出現至少一項下述體征,則確定轉診。
1、直徑大于125 μm的玻璃膜疣(drusen)[17]。玻璃膜疣是膠樣或透明的小體,是視網膜色素上皮(RPE)細胞異常代謝產物在視網膜上的異常沉積所致。125 μm相當于視盤顳下方邊緣處靜脈管徑大小。臨床上將玻璃膜疣分為4型[18]:(1)硬性疣:表現為邊緣清晰的黃色圓點;(2)軟性疣:表現為邊緣不清晰互相融合的病灶,伴有RPE色素改變;(3)混合性疣:兼有上述兩型的的臨床表現;(4)退化性疣:眼底可見不規則形如“地圖”或“暈輪狀”萎縮區,并逐漸擴張,可因鈣化而呈現為白色。
2、地圖樣萎縮(GA)[17]。其病理表現為RPE、脈絡膜毛細血管及其上光感受器細胞丟失,眼底可見邊界清晰的單灶或多灶脈絡膜視網膜萎縮區,其中脈絡膜組織的可見度增加,周圍常見大小不等的玻璃膜疣。
3、伴有至少一個直徑大于125 μm的出血或滲出的新生血管[17]。黃斑新生血管可分為3類[19]:(1)1型黃斑新生血管,其起源于脈絡膜的新生血管,終止于RPE下;(2)2型黃斑新生血管,其起源于脈絡膜的新生血管,穿過RPE,在視網膜神經纖維層下生長,眼底彩照可見橘紅色樣病灶;(3)3型黃斑新生血管,其起源于視網膜中間層的新生血管,向RPE生長,是從視網膜循環向下生長至外層視網膜的血管復合體,表現為視網膜下液和滲出、視網膜退化、視網膜脫離、視網膜下新生血管膜。表現為黃斑中心小凹或中心小凹旁某一象限內有一不規則的類圓形病灶,呈灰白色或黃白色,病灶周圍可見出血或反光暈。此外,視網膜新生血管表現為起源自視盤表面及視網膜的小靜脈,沿視網膜表面生長,在有玻璃體粘連的部位可長入玻璃體內,并含有數量不等的纖維組織。
4、存在至少一個滲出灶直徑大于125 μm的滲出(exudation)[20]。硬性滲出表現為邊界清晰的臘樣色斑點或斑塊,可數個或成堆出現;軟性滲出又稱為棉絨斑或棉絮狀白斑,表現為邊界不清的灰白色斑。
5、存在至少一個出血灶直徑大于125 μm的出血(hemorrhage)[20]。按出血所在的視網膜層次的不同,可分為視網膜前出血、視網膜淺層出血、視網膜深層出血、RPE下出血以及多層次同時受累。視網膜前出血表現為鮮紅色,多呈“舟狀”,形成典型液面。視網膜淺層出血多呈鮮紅色“火焰狀”,可表現為Roth斑,即出血性病灶中央可見白色小點,為毛細血管破裂時產生的血小板-纖維蛋白血栓[21];視網膜深層出血呈點狀、圓形的暗紅色小斑片,沿著神經走行縱向擴散。視網膜下出血多成暗紅色,RPE下出血多成棕紅色。
6、瘢痕(scar)[20]。滲出物在視網膜間隙刺激RPE與膠質細胞增生,最終形成纖維機化瘢痕組織,表現為邊界清晰的類圓形黃褐色斑塊[22]。
7、色素變動(pigment mottling)。其可分為色素增生(hyperpigmentation)與色素缺失(depigmentation)兩種。色素增生即累及黃斑區域且有影響視力可能的色素增生體征[20],表現為有突或分支的黑點或白點,逐漸聚集為墨黑色或白色的“蜘蛛狀”或骨細胞樣斑點,可為不規則條狀。色素缺失表現為界限清楚的淡白色或淡黃色斑塊。
8、黃斑裂孔(macular hole)[23]。黃斑部呈一圓形或橢圓形的邊緣銳利的孔洞,偶見不規則形,裂孔大小不一。
9、黃斑前膜(epiretinal membrane)[24]。眼底黃斑區及附近視網膜表面可見一層半透明、菲薄或增厚發灰的無血管性增生膜,視網膜出現褶皺,附近視網膜小血管紆曲。
10、黃斑水腫(macular edema)[17]。根據糖尿病視網膜病變早期治療研究[25],有臨床意義的黃斑水腫表現為:(1)視網膜水腫增厚,范圍在黃斑中心500 μm區域以內;(2)硬性滲出(附近視網膜增厚),侵犯黃斑中心500 μm區域以內;(3)視網膜增厚范圍大,位于黃斑任一象限,但有部分侵犯黃斑中心區1 DD之內。囊樣黃斑水腫[26-27]表現為黃斑中心小凹光反射彌散或消失,視網膜增厚,水腫區呈不同程度反光增強或“綢緞樣”反光。晚期黃斑水腫呈“蜂窩狀”或囊狀外觀,囊壁視網膜厚薄不均勻,可見“蜂窩狀”內部分隔及血管暗影。
11、視網膜脫離(retinal detachment)[28-29]。其包括孔源性視網膜脫離、滲出性視網膜脫離及牽拉性視網膜脫離。孔源性視網膜脫離中,淺脫離的視網膜表現為色澤變淡,與正常的橘紅色呈明顯界限;局部高度脫離的視網膜呈灰白色“球形”突入玻璃體腔;廣泛脫離的視網膜起伏不平,其上血管紆曲爬行;陳舊的視網膜脫離上下可見增生膜,呈不規則條索狀,視網膜表面或全層皺襞形成。滲出性視網膜脫離表面較光滑,無牽拉皺褶。牽拉性視網膜脫離表面可見增生膜或粘連的機化組織。
12、眼內占位性病變(intraocular space-occupying lesions)。該病變表現多樣,臨床上需結合其他輔助檢查協助診斷。
13、其他。非上述類別體征的黃斑區異常。
上述體征與黃斑區域常見病變的對應關系如表1所示。

值得注意的是,本指南給出了上述13種黃斑區域病變體征。篩查系統設計人員在定義系統可篩查病變體征時,請根據產品設定,按實際需求參考本指南及醫學專家建議。
三 AI算法在黃斑區域病變體征篩查中的應用場景
一 病變體征檢測
AI算法可基于輸入的眼底彩照,提供圖像中是否存在本指南第2部分第2節“黃斑區域病變體征”定義的病變體征的結論。同一張眼底彩照上可檢出多種病變體征,因此該任務是一個多標簽的分類任務,即標簽之間不互斥[30]。AI模型可對輸入圖像同時進行是否有玻璃膜疣、是否有地圖樣萎縮、是否有新生血管等情況的判別(圖3)。在臨床應用中,可針對每種病變體征的分類結果進行評估,評估指標可用靈敏度、特異性、Kappa值等。一般認為,與臨床診斷報告中病變體征是否出現這一參考標準(參考標準:診斷和治療過程或基于標注過程建立的基準,可包含疾病、生理狀態或生理異常以及位置和程度等信息標簽[1])比較的Kappa值≥0.80時,二者的一致性非常好;Kappa值介于0.61~0.80之間,二者的一致性較好;Kappa值介于0.41~0.60之間,二者的一致性為中等;Kappa值介于0.21~0.40之間,二者的一致性勉強可接受;當Kappa值≤0.20時,則認為幾乎沒有一致性[31]。AI算法的性能目標是使模型預測結果達到與專業人員診斷結果非常好的一致率,即Kappa值達到0.8以上。

二 病變體征定位
AI算法可對輸入眼底彩照中的指定病變體征進行定位。如針對本指南第2部分第2節“黃斑區域病變體征”定義的病變體征,AI模型可從圖像中定位出具體的病灶出現區域(圖4)。圖中交疊的檢測框說明交疊區域內存在不止一種病變體征。請注意,按照計算機視覺算法,目標檢測框多為矩形框,檢測出的病灶在矩形框內,但不一定完全充溢整個矩形框。定位模型在臨床中的應用目的通常是提供目標病變或組織的位置信息,提醒醫生重點觀察該區域。這種應用的效果評估通常與計算機視覺中目標檢測[32]任務的評估指標一致,具體指標將在本指南第4部分第5節第2點“病變體征定位”中介紹。

三 病變體征分割
AI算法可對輸入眼底彩照中的指定病變體征進行分割。如針對本指南第2部分第2節“黃斑區域病變體征”定義的病變體征,AI模型可從圖像中分割出具體的病變輪廓[33](圖5)。分割模型在臨床中的應用目的通常是可視化或量化目標病變或組織,輔助醫生觀察以及診斷。這種應用的效果通常與計算機視覺中分割任務的評估指標[34]一致,具體指標將在本指南第4部分第5節第3點“病變體征分割”中介紹。

四 AI算法的其他應用
AI算法除了用于病變體征的分析,還可以擴展至疾病維度的應用中,本指南給出疾病分類和分級兩個應用參考,可作為篩查系統的后續擴展功能。病變體征篩查系統無需包含這兩種疾病維度的功能。
1、疾病分類。AI算法可對輸入圖像進行是否有黃斑區域疾病的判別,該功能的結論是有或無黃斑區域疾病,屬于二分類任務。若需細分到具體黃斑區域疾病種類,可擴展成多分類或多類別分類任務。該場景中AI算法和臨床中疾病診斷結果參考標準的Kappa值可衡量AI算法與專業醫生診斷結果的一致性。
2、疾病分級。AI算法可根據輸入圖像,對疾病進行識別與分級(分期)(圖6)。疾病分級是一個多分類任務。臨床應用中的評估方式與疾病分類相似,可用靈敏度、特異性、準確率、Kappa值等評估測度來衡量應用效果的好壞。

四 AI黃斑區域病變體征篩查系統的算法構建和準確性要求
一 數據收集與質量控制
數據作為AI“思考”和“決策”的基礎,是AI技術得以實現的基石。在AI黃斑區域病變體征篩查系統構建、驗證、生產等過程中,均離不開大量數據集的支持。眼底數據采集過程需要拍攝醫生/技師嚴格按照標準圖像的拍攝要求進行操作,避免上傳質量不合格的圖像。本指南將彩色眼底圖像質量分為合格、可接受和不合格三類[35]。合格:圖像不存在質量問題,拍攝位置符合本指南的彩色眼底圖像采集標準對拍攝位置的要求(圖7A);可接受:存在輕微的曝光問題(邊緣輕度漏光)、不影響判讀的小污損、輕微的失焦或模糊圖像等(圖7B,7C);不合格:嚴重曝光異常、嚴重屈光間質混濁、大片污損、信息缺失及無關圖像等(圖8)。


每只受檢眼拍攝至少1張可供AI系統分析和醫生閱讀的圖像并保存,要求位置正確,對焦清晰,曝光適中,沒有間質混濁圖像,能夠清晰顯示視網膜、黃斑區及視盤結構,具體質量要求如下[36]:(1)除玻璃膜疣、色素異常或新生血管等眼底黃斑疾病相關體征外,圖中90%的血管可以辨認。(2)主要眼底結構位置正確,使用單視野圖像篩查時,圖像視野范圍水平與垂直方向均不小于45°,黃斑中心小凹距離圖的邊緣超過2 DD,視盤距離圖的邊緣超過2 DD;使用雙視野圖像時,每個視野水平與垂直方向均不小于45°,黃斑區圖像要求黃斑中心小凹距離圖像中心<1.5 DD,視盤區圖像要求視盤中心距離圖像中心<1.5 DD;視盤與黃斑中心連線和水平線的夾角不大于24°。(3)成像范圍內無影響判讀的暗影和(或)高亮反光區域。(4)曝光適度,無過曝光或欠曝光。(5)無鏡頭污漬、眼瞼和(或)睫毛等遮擋影,無運動偽影。(6)無圖像中未顯示患眼、拍攝非眼底范圍的眼底彩照等圖像錯誤。
圖像未達到以上質量要求時,需進行如下調整:(1)主要眼底結構位置不正確:調整受試者坐姿,調節固視點,確認患者有無斜視或其他眼部異常情況,重新拍攝圖像。(2)過曝光、欠曝光及對焦錯誤:調節眼底相機曝光與對焦設定,重新拍攝圖像;如觀察到圖像過暗,應確認患者瞳孔大小,并相應縮短患眼暴露在明亮燈光下的時間,降低檢查室亮度。(3)瞳孔過小,無法獲得滿意的小瞳孔眼底圖像結果:臨床醫生排除散瞳的禁忌癥后考慮散瞳后采集眼底圖像。(4)眼瞼、睫毛遮擋:提示患者在拍照過程中睜大眼瞼,必要時協助患者提高眼瞼,并重新拍攝圖像。(5)虹膜反光:提示患者緊盯固視點,不要移開視線,重新拍攝圖像。(6)鏡頭污漬:檢查并清理鏡頭。(7)信息缺失:確認圖像信息存儲完整,重新拍攝并儲存圖像。(8)外眼、非眼底圖像:防止上傳鏡頭蓋未打開圖像、誤觸拍攝的環境圖像以及外眼檢查圖像等無關圖像。
本指南建議數據集中圖像的收集需考慮以下納入與排除標準:納入標準:(1)單視野/雙視野拍攝的眼底彩照;(2)圖像質量為合格或可接受。排除標準:(1)圖像質量為不合格;(2)圖像中存在治療痕跡。
二 數據集構建
本指南按照AI模型構建、模型效果檢驗以及臨床試驗三個環節將篩查系統設計和應用過程中涉及到的數據集分為三大類(圖9)。其中,模型構建數據集中調優集可稱驗證集,測試集可稱內部測試集,模型效果檢驗以及臨床試驗數據集可稱外部測試集。各類數據集間不可出現重復的樣本以及重復的被檢者。另外,醫療數據的收錄需通過倫理審批并注意提前將數據做脫敏處理。指南參考人員可根據實際應用場景和條件,選擇性參考本指南相關內容。

1、模型構建數據集來源
模型構建數據集的作用是為模型訓練、調優和自測提供帶標簽的數據,使模型學習到最優參數,實現好的篩查效果。由于不同眼底彩色相機存在拍攝角度、成像色彩、清晰度等方面的差異,為了提升AI模型的泛化能力,需使收集的圖像數據采集自多種機型、多種拍攝條件。泛化能力指AI算法對新鮮樣本的適應能力。AI技術中機器學習的目的是學到隱含在數據背后的規律,對具有同一規律的數據集以外的數據,經過訓練的模型也能給出合適的輸出。綜合參考糖尿病視網膜病變[10]和青光眼[9]兩種眼疾篩查的AI系統應用指南,本指南建議收集的數據集來源不少于3家醫療機構(滿足采集環境、采集人員操作多樣性),涉及機型不少于3種(滿足采集設備多樣性)。由于本指南針對的是中國人群眼疾篩查應用場景,所以模型構建的數據來源種族為單一的中國人群。同時,數據集中樣本需覆蓋多民族、多地區、多年齡層人群。AI模型構建過程中,數據集的來源可包含各類公開數據集(如各級別醫院、眼科中心、流行病學調查數據和互聯網公開數據等),但必須符合本指南第4部分第3節介紹的標注辦法,不符合的必須重新標注。所有數據的獲取須經相關單位的倫理審查委員會批準。
值得注意的是,為了符合篩查系統應用時輸入的圖像可能存在質量高低不一致的實際情況,在收集數據時,不可人為挑取質量好的眼底圖像。在各家醫療機構收集圖像時,應當從以往隊列中隨機抽取樣本構建數據集。
2、模型構建數據集劃分
本指南建議將模型構建數據集采用留出法[37]進行劃分,留出法是直接將數據集劃分為三個互斥的集合,分別為訓練集、調優集和測試集。參考Google公司在JAMA發表的糖尿病視網膜病變識別論文[38]中使用的數據劃分比例:訓練集和調優集總比例為91.56%,測試集比例為8.35%。本指南建議在模型構建數據集中,訓練集和調優集占比在90.00%左右,測試集占比為10.00%左右。對于訓練集和調優集的劃分,可根據具體情況,按照AI技術應用中常用的8∶1或7∶2比例劃分。請注意,此處的測試集僅用于模型構建環節中的自測。另外,除了訓練集、調優集和測試集三個集合的劃分外,篩查系統也可根據模型特性,將數據集僅劃分為訓練集(包括調優集)和測試集。
數據集劃分建議注意的一點是保證訓練集、驗證集和測試集數據分布的一致性[39],即所包含的各類別圖像數占比保持一致,這里的類別需考慮圖像所屬病變體征類別、受試者年齡與性別類別、圖像采集機構與機型類別等。同時,建議測試集符合預期應用場景的數據分布,并且數據劃分過程中需注意同一受試者的多張眼底彩照應劃分至訓練集、驗證集或測試集中的某一個集合,不可出現同一受試者的多張圖像劃分至不同數據集合的情況。
3、模型構建數據集數量
由上一節模型構建數據集劃分可知,本指南建議測試集占比達到總數據集數量的10.00%。下面本指南將根據AI模型的預期效果,推導測試集中各病變體征類別圖像需要的數量,以此提供模型構建數據集總數量的建議。
根據評估指標的置信區間樣本量計算公式[40]計算所需各類別樣本數量:
![]() |
公式(1)中:Z為可信水平的Z統計量,Δ為允許誤差,P為預期評估指標(靈敏度或特異性),N為所需樣本量。設定顯著性水平α=0.05(雙側),則預期評估指標的允許誤差Δ為5%:
(1)當AI模型預期的靈敏度為90%、特異性為90%時,則各病變體征所屬圖像對應的陽性或陰性樣本量最小分別為:
![]() |
即,測試集中包含本指南第2部分第2節“黃斑區域病變體征”中定義的各病變體征和無目標體征樣本分別至少需要138張圖像。(2)當AI模型預期的靈敏度為85%、特異性為85%時,單類最少需196張圖像。
參考上述計算結果,本指南建議模型構建數據集中測試集里涉及第2部分第2節“黃斑區域病變體征”定義的每類病變體征的樣本數量至少為200張。參考青光眼輔助篩查系統規范化設計及應用指南(篩查陽性樣本∶正常眼底樣本∶其他眼疾樣本=2∶7∶1),建議[4]測試集中包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張(若設計的篩查系統可篩查多種病變體征,則不同體征樣本可互為“有其他眼底疾病的”樣本)。根據測試集在模型構建總數據集中的占比,推導可得模型構建環節總數據集中符合本指南第2部分第2節“黃斑區域病變體征”定義的各類病變體征的樣本至少為2 000例。建議模型構建總數據集中包含的臨床正常眼底圖像至少7 000張,包含有其他眼底疾病的眼底圖像至少1 000張。在保證每類陽性樣本數量至少2 000的基礎上,收集到與之滿足流行病學分布的正常眼底樣本和其他眼疾樣本數量十分困難,因此本指南對正常眼底樣本和其他眼疾樣本數量進行了建議。在此前提下,本指南也建議收集的數據集中各類型樣本量盡可能地滿足流行病學分布。請注意,同一張圖像上可出現多種病變體征,即一張圖像上可存在多個標簽。
此外,本指南建議收集的數據集中每類樣本的樣本數量按照采集機構和機型均衡分配;每類樣本中樣本性別和所屬年齡段分布建議參考病變體征對應的黃斑區域疾病在不同性別和不同年齡段的發病率。
4、模型效果檢驗數據集來源及數量
為了驗證AI模型的效果,除了在模型構建時使用測試集進行驗證外,在模型構建完成后,還可收集額外的數據集對效果進行檢驗。此環節收集的數據要求與模型構建數據集一致,需滿足采集環境、采集人員操作多樣性,滿足采集設備多樣性,滿足民族、地區、年齡多樣性等。本數據仍可來源于公開數據集,但必須符合本指南第4部分第3節介紹的標注辦法,不符合的需重新標注。所有數據的獲取須經相關單位的倫理審查委員會批準。為了滿足對篩查系統泛化能力的驗證,此數據集涉及的采集環境、采集人員、采集設備應盡可能不同于上述模型構建數據集。如圖9所示,模型效果檢驗數據集可由多個構成,這些數據集可用于多個廠商或第三方機構對篩查系統的驗證。
模型效果檢驗數據集數量通常由廠商和第三方機構根據檢測要求制定。此外,也可參考本指南第4部分第2節第3點“模型構建數據集數量”中模型構建過程中測試集數量,準備的數據集中涉及本指南第2部分第2節“黃斑區域病變體征”定義的每類病變體征的樣本數量至少為200張,包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張。同時,為了滿足對不同質量圖像篩查效果的驗證,檢驗數據集中需要有圖像質量合格和可接受兩種情況的測試樣本,其中圖像質量的判斷標準請參考本指南“數據收集與質量控制”中數據質量控制標準。按照評估指標的可信區間樣本量計算公式(1),檢驗數據集中每種質量的圖像應至少有200張。每個檢驗圖像上的圖像質量標簽和包含病變體征標簽同時存在。
5、臨床試驗數據集來源及數量
設計臨床試驗的目的是驗證AI模型的性能,本指南建議臨床試驗采用前瞻性、配對、多中心、預期目標法進行試驗設計。設計的主要依據為《醫療器械臨床試驗質量管理規范》[41]、《人工智能醫療器械注冊審查指導原則》[39]和《深度學習輔助決策醫療器械軟件審批要點》[42],具體包括:(1)多中心:醫療器械臨床試驗應在3個及以上臨床試驗機構中進行,即多中心臨床試驗。各中心與模型構建數據集來源非同源,且每個中心包含每類病變體征的眼底圖像數量建議均衡。(2)配對:試驗中同一受試者的眼底彩照將同時采用AI模型和對照方法(中心閱片)來進行閱片,即配對設計。(3)預期目標法:試驗所收集數據量需滿足可驗證AI模型在臨床場景應用的靈敏度和特異性是否達到預期目標的條件。(4)用于檢驗AI模型臨床效果的臨床試驗數據集需代表真實世界中臨床數據資料的質量和多元化的分布狀態,應當保證樣本分布符合臨床實際情況,且與模型構建過程使用的數據集無交集。
在臨床試驗中,為驗證AI模型是否達到預期目標,需要的樣本數量可與本指南“數據集構建”中計算的測試集數據量一致,即本指南建議臨床試驗提供的數據集中涉及第2部分第2節“黃斑區域病變體征”定義的每種病變體征圖像至少為200張,包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張。與第4部分第2節第4點“模型效果檢驗數據集來源及數量”中介紹的模型驗證數據集模型驗證數據集類似,為了滿足對不同質量圖像篩查效果的檢測,臨床試驗數據集中需要有圖像質量合格和可接受兩種情況的測試樣本,按照評估指標的可信區間樣本量計算公式(1),臨床試驗數據集中每種質量的圖像應至少有200張。
值得注意的是,本指南建議用來進行模型測試和檢驗的數據集符合預期應用場景的數據分布,根據黃斑區域病變相關的流行病學調查[43-45],本指南第2部分第2節“黃斑區域病變體征”中涉及的病變體征中患病率最低的為色素增生(0.10%),患病率最高的為玻璃膜疣和地圖樣萎縮(7.21%)。若用來進行模型測試或檢驗的數據集中色素增生體征所屬圖像數為200張,則玻璃膜疣和地圖樣萎縮兩種體征對應的圖像數需達到14 420張,無黃斑區域病變相關體征的圖像數至少需達到16萬張,在實踐中難以實現。因此,本指南建議在保證用來進行模型測試或檢驗的數據集中涉及第2部分第2節“黃斑區域病變體征”定義的每種病變體征圖像至少為200張,包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張的前提下,盡可能地增加患病率大的體征和無病變體征等類別對應的樣本數。
三 數據集標注
上述數據集的標注和臨床試驗數據集的中心閱片,均可采用本節描述的標注方式,標注后的結果作為各個任務的“參考標準”。
1、標注模式
按照《眼底彩照標注與質量控制規范》[14],本指南建議標注采用3+2+1或3+2+2的方式,即3名標注醫生+2名高級醫生+1或2名仲裁專家。標注醫生為有執業醫師資格證或是經過相關專業培訓合格的醫學專業人員;高級醫生為在眼底病領域工作5年及以上的專業人員;仲裁專家為職稱為副主任醫師及以上的更高級別專家。若三名標注醫生中存在兩位標注結果不完全一致,則引入兩名高級醫生。若兩位高級醫生標注一致,則以兩位高級醫生的標注結果為準;若不一致,則再引入一至兩名仲裁專家。仲裁專家評審后,提供最終結論。
2、標注人員
標注人員應接受數據標注培訓,培訓內容應包含標注軟件操作流程,標注規程等。人員培訓及考核具體內容如下:(1)培訓內容:1)為了規范標注過程,需由標注系統研發工程師對標注醫生、評估醫生和仲裁專家就如何使用標注系統進行培訓。2)為了統一對眼底圖像標注規則的認識,需由眼底病專家(三甲醫院眼底病專業主任醫師)依據病變體征的定義對標注醫生進行培訓。(2)考核機制:1)采用實操的方法進行考核。從每個病變體征隨機選取一定張數的圖像作為考核圖像,由眼底病專家和參加考核的標注醫生同時標注所有選取圖像指定形式的標簽(詳見第4部分第3節“數據集標注”),計算標注醫生與眼底專家標注結果的一致率。 2)考核指標:標注一致率要求不低于一定比例。根據眼底專家評估,本指南建議考核合格的標注醫生和眼底病專家標注一致的樣本數占比不低于80%。
3、標注過程
本指南涉及的標注對象為彩色眼底圖像,標注形式需按照篩查系統功能進行設定(表2)。篩查系統可同時包含多項功能,因此標注形式可有多種。

標注過程包含以下三個重要內容:圖像中治療痕跡的判定、圖像可讀性的判定以及圖像具體標注流程(圖10)。醫生標注前須由標注系統管理員分配用戶名和密碼,隨后標注醫生登錄進入標注系統,開始標注工作。(1)治療痕跡判定:如果發現治療痕跡,如激光斑、硅油填充、氣體填充、外加壓/環扎等,則該圖像不需要標注,直接剔除;(2)圖像可讀性判定:圖像拍攝質量會影響可讀性,若圖像因欠曝、過曝或其他拍攝原因導致黃斑區域1/3以上不可讀,則建議該圖像不標注,直接剔除。

4、標注質量評估
在標注過程中,本指南建議對標注質量進行評估。評估可從正確性和重復性兩個角度進行。評估過程與標注人員考核過程相似,從已標注圖像中隨機抽取一批圖像(建議包含200個樣本)作為評估圖像集,請眼底病專家對評估圖像集進行標注。正確性評估:對比標注醫生和眼底病專家對評估圖像集的標注結果,若標注結果一致率達到預設比例,則認為標注醫生標注正確性合格。重復性評估:將評估圖像集重復投入標注數據池,由標注醫生進行二次標注,隨后對比評估圖像集中各圖像兩次標注結果,若標注結果一致率達到預設比例,則認為標注醫生標注重復性合格。標注質量不合格的醫生將接受二次培訓,標注不合格的圖像將抹去已有標簽后放回標注數據池重新進行標注。
四 算法模型構建
本指南中涉及的第2部分第2節“黃斑區域病變體征”篩查AI模型負責提供圖像中有或無黃斑區域病變體征存在的參考意見、具體病變體征的分割或定位可視化展示等。
在模型構建過程中,訓練集圖像和相應標注會輸入模型,供其學習圖像與目標任務的映射關系、更新模型參數[37]。在訓練過程中,算法可對圖像進行初步的預處理,如圖像前景提取、圖像縮放到固定尺寸、圖像色調增強等,其目的是通過對輸入圖像的尺寸和色調標準化來減小機型之間的樣本差異。同時算法可以對原始圖像進行隨機左右翻轉、旋轉、平移和剪裁,調節圖像色彩和明暗程度等圖像增強操作,目的是增強訓練樣本的多樣性以及數量。此外,算法還可以在訓練過程中對圖像引入隨機噪聲,增強模型對于噪聲和對抗樣本攻擊的健壯性[46]。訓練結束后,在調優集上對模型進行優化。調優結束后,模型可以在測試集上進行測試及性能評估。
五 算法模型評估指標
本指南第3部分“AI算法在黃斑區域病變體征篩查匯總的應用場景”中介紹了AI算法在黃斑區域病變體征篩查中的應用場景有病變體征檢測、病變體征定位、病變體征分割以及擴展的疾病分級和疾病診斷。本指南將按照不同的應用場景介紹算法模型的評估指標。
1、病變體征檢測
病變體征檢測屬于多標簽分類任務,該任務的模型評估指標主要有靈敏度、特異性、漏檢率、精確率、分數、AUC分數及Kappa值等,具體評估指標定義及計算公式如下所示[11-12]。靈敏度(sensitive,Sen):又可稱召回率(recall)、查全率,是真陽性樣本占全體陽性樣本的比例。
![]() |
特異性(special,Spe):真陰性病例占全體陰性病例的比例。
![]() |
漏檢率(miss rate,MR):即檢測中未發現的陽性樣本占全體陽性樣本的比例。
![]() |
精確率(precision,Pre):又稱查準率、陽性預測值,是真陽性樣本占算法判為陽性樣本的比例。
![]() |
陰性預測值(negative prediction value,NPV):真陰性樣本占被算法判為陰性樣本的比例。
![]() |
準確率(accuracy,Acc):算法診斷正確的樣本占全體樣本的比例。
![]() |
F1分數:召回率和精確率的調和平均數。
![]() |
約登指數:也稱正確指數,假設假陰性(漏診率)和假陽性(誤診率)危害同等意義,約登指數為靈敏度與特異度之和減去1,指數越大說明篩查效果越好。
![]() |
受試者操作特征(receiver operating characteristic)曲線下面積(area under curve)。受試者操作特征是通過在一組預設閾值下計算篩查系統在測試集上的靈敏度和特異性,從而產生一組(1-特異度,靈敏度)操作點,將這些操作點依次連接形成的曲線。
Kappa系數:用于評價篩查系統與參考標注診斷結果一致性的指標。
![]() |
公式(11)中R1是真陽性和假陽性例數的總和,R2是假陰性和真陰性例數的總和,C1是真陽性和假陰性例數的總和,C2是假陽性和真陰性例數的總和,N是樣本例數總和。
2、病變體征定位
定位任務的結果可以有兩種表現形式:一是輸出目標中心點的坐標信息,二是輸出目標所在方框的信息。對于第一種只輸出一個點坐標的模型,評估指標通常選用平均歐式距離;對于第二種輸出一個矩形框的模型,處理的是目標探測任務,評估指標通常為交并比和平均的精確率均值。
平均歐式距離(mean euclidean distance,MED):
![]() |
交并比(intersection over Union,IoU),衡量預測框和醫生標注的目標框參考標準的重疊程度:
![]() |
平均精確度均值(mean average precision,mAP):在多目標定位任務中用于計算各類目標定位的平均精確度的平均值[47],計算過程如下:在目標定位任務中,模型會提供目標框內對應某類別的概率值,這個概率值被稱為置信度。在置信度高于設定閾值時,保留當前預測結果。計算預測框與目標框參考標準的IoU,在IoU結果大于設定閾值且預測框內預測類別與目標框參考標準內類別一致時,認為預測結果為真陽性。其余被認為是假陽性結果。通過由大至小改變置信度閾值,計算模型輸出結果的精確率和召回率,可以畫出Precision-Recall曲線,曲線下面積記為精確率均值(average precision,AP)[48]。在得到每個類別的目標檢測AP后,可求目標檢測任務的mAP測度:
![]() |
公式(14)中K為目標檢測任務中包含類別總數,APi為第i個類別目標預測結果的AP測度值。
3、病變體征分割
分割任務的模型評估指標主要有DICE系數(dice coefficient)、Jaccard系數(交并比)、靈敏度、特異性等。其中,由于分割任務可視為將圖像像素點分為前景與背景的二分類任務,因此靈敏度和特異性兩個指標可用于評估分割模型對每個像素點判別的效果。
DICE系數,分割輪廓與參考標準輪廓的交集占分割輪廓與參考標準輪廓平均值的比例:
![]() |
其中|X∩Y|是X和Y之間的交集,|X|和|Y|分表表示X和Y的元素的個數。
Jaccard系數(jaccard coefficient):分割輪廓與參考標準輪的交集占分割輪廓與目標輪廓并集的比例,又稱交并比(IoU)。
![]() |
4、其他應用模型評估
本指南第3部分第4節“AI算法的其他應用”介紹了兩類在疾病維度分析的AI模型,分別用于疾病的分類(診斷)和分級。由于這兩類應用均屬于分類研究,因此評估指標可參考本指南第4部分第5節第1條。
5、模型綜合評估指標
(1)篩查符合率:模型提供的陽性病例結果占中心閱片判定陽性病例結果的百分比。(2)重復性需求:同一操作醫生/技師在滿足配置環境要求的不同服務器上部署運行AI輔助篩查系統,對于同一張圖像,應能再現其預測結果。(3)再現性需求:不同操作醫生/技師在同一配置環境下于不同時間段分別獨立部署運行AI輔助篩查系統,對于同一張圖像,應能再現其預測結果。(4)健壯性需求:AI篩查系統對于多中心、多機型臨床數據應有穩定的指標表現,主要指標的統計性能變化建議控制在一定范圍內,具體范圍數值需視篩查系統功能和相應醫療器械標準、法規而定。
五 AI黃斑區域病變體征篩查系統的應用標準
一 AI輔助篩查系統的類型
離線版AI系統可安裝在計算機或移動電子設備上,無需網絡即可對輸入的眼底彩照進行黃斑區域病變體征的智能篩查輔助診斷,并生成篩查報告。離線版AI系統反饋速度快,參考《基于眼底照相的糖尿病視網膜病變人工智能篩查系統應用指南》[10]建議,離線版AI系統輸入彩色眼底照片至輸出篩查結果時間應控制在1 min以內。本指南建議應用機構保留篩查系統的離線版本。
在線版AI系統適用于有一定網絡使用條件的單位,需要將脫敏的眼底彩照通過網絡傳輸上傳到云端,隨后在云端進行黃斑區域病變體征的智能篩查,并傳回結果。之后結合受檢者信息,生成報告供使用者下載、確認。在線版系統對硬件設備、網絡傳輸速度和傳輸安全要求高。參考《基于眼底照相的糖尿病視網膜病變人工智能篩查系統應用指南》[10],在線版AI系統輸入彩色眼底照片至輸出篩查結果時間應控制在5 min內。
二 篩查系統的架構和功能
黃斑區域病變體征輔助篩查系統應當具備的架構包括受檢者管理、采集圖像顯示、采集圖像質量評估、AI篩查、專科醫生擬診意見輸入和報告生成。篩查系統的功能視實際應用需求而定,可包括判別病變體征是否存在、病變等級、提供病變體征所處區域、具體輪廓等功能。系統的部署應當適應相應機構的環境和網絡情況。
1、受檢者管理
在系統中可進行受檢者信息的錄入、修改和查看。受檢者信息包括個人基本信息[如姓名、年齡、性別、醫療身份標識(ID)等]和相關檢查信息(如視力、眼壓、血壓等),可為醫生提供詳細的患者信息,以此核實采集圖像與患者匹配無誤。
2、圖像顯示
展示采集的右眼、左眼的眼底圖像。該圖不可編輯,但可被縮放、平移,方便醫生分析。
3、圖像質量評估
本指南建議采用的質量評分方案應覆蓋拍攝位置、亮度、清晰度、以及信息是否缺失四部分(詳見第4部分第1節“數據收集與質量控制”),以判斷圖像質量是否能夠用來觀察或檢測黃斑區域病變體征。篩查系統可提供當前采集圖像的質量評估結果(合格、可接受、不合格)。
4、AI篩查
篩查系統最主要的模塊即為AI篩查,系統開發者需根據設計的篩查功能,訓練相應的AI模型,使其完成AI篩查環節。AI模型輸出的結果將展示在篩查系統提供的最終報告中,且需注明“該結果來自AI篩查系統”。報告中展示的篩查結果形式取決于系統預設的篩查功能,即預測受檢者是否屬于轉診病例、判斷圖像中具體出現了何種病變體征、提供病變體征所處區域、病變體征輪廓信息等。
5、專科醫生擬診意見
專科醫生復核AI篩查結果,并提供擬診意見。參考國內外現有的AI輔助篩查系統應用指南[9],擬診意見建議在24 h內提供。本指南建議設計的篩查系統中預留專科醫生擬診意見輸入模塊。
6、報告生成
篩查報告以電子版或紙質版形式提供給受檢者,內容應覆蓋本指南的篩查范圍,且符合健康體檢主檢報告撰寫標準和規范[49]。
7、篩查系統部署方式
離線版AI黃斑區域病變體征篩查系統部署在本地設備中,在線版AI黃斑區域病變體征篩查系統使用云端遠程部署。
三 彩色眼底圖像采集硬件要求
黃斑區域病變體征篩查系統建議使用半自動或全自動免散大瞳孔平面彩色眼底照相機,各項指標參數應參考如下要求:(1)對焦方式:機器可支持自動對焦。(2)曝光方式:機器支持自動曝光。(3)視場角度:使用單視野時水平方向不小于45°,垂直方向不小于45°[35];或使用雙視野時每個視野水平方向不小于45°,垂直方向不小于45°。(4)可拍攝的最小瞳孔直徑:標準模式瞳孔最小約4 mm,小瞳孔模式瞳孔最小約3.3 mm。(5)分辨率:視野范圍內最小分辨率不小于眼底照相機行業標準要求[50]。(6)屈光補償范圍:不小于±15 D。(7)內固視點:眼底照相機的內置固視點至少可調節至3個位置,分別對應以視盤中心為視野中心、以黃斑中心為視野中心、以視盤和黃斑連線的中點為視野中心的位置,且可根據需要指定固視點。(8)圖像存儲格式:支持無損壓縮的TIFF格式或無損壓縮的PNG格式,支持壓縮JPEG格式(壓縮比例不大于10:1),支持DICOM格式。(9)圖像拍攝像素:不低于1 800萬像素。
四 圖像采集視野標準
1、單視野拍攝法:以黃斑和視盤連線的中點為拍攝視野的中心,成像至少涵蓋45°視網膜區域[35](圖11A)。

2、雙視野拍攝法:視野1以黃斑中心小凹為拍攝視野的中心,成像至少涵蓋45°視網膜區域;視野2以視盤為拍攝視野的中心,成像至少涵蓋45°視網膜區域,且能涵蓋視盤周邊2 DD的區域,能夠清晰觀察到視盤、黃斑區、上下方視網膜血管弓的第一分支(圖11B,11C)。
拍攝的圖像質量需按照本指南第4部分第1節“數據收集與質量控制”中的標準進行判別,對于不合格圖像需重新拍攝。
五 黃斑區域病變的AI篩查方案
1、彩色眼底圖像的質量評估
AI系統分析前可對圖像進行質量評估,此模塊將根據圖像質量控制標準,從拍攝位置、清晰度和可讀范圍三個角度考察采集圖像的質量:(1)拍攝位置:檢查圖像各區域是否有偏轉、移位。(2)清晰度:檢查對焦是否準確,視盤表面、視網膜主干血管、視網膜分支血管、黃斑、視網膜病變等結構是否清晰可辨。(3)可讀范圍:檢查視野范圍內是否完整包含視盤、黃斑區、上下血管弓區域,是否有睫毛或其他異物遮擋。
圖像質量分為合格、可接受、不合格三種。若檢測中采集圖像質量合格,則正常進行后續AI篩查分析;若圖像質量為可接受,操作者可選擇繼新進行AI篩查分析,但在“篩查結果”處應注明“圖像質量偏差,結果僅供參考”,另外操作者也可選擇重新拍攝受檢者眼底圖像;若圖像質量不合格,操作者必須重新采集受檢者眼底圖像,若3次拍攝均得到質量不達標的圖像,則拍攝失敗,無法進行后續AI篩查分析。
2、篩查方案指導標準和原則
(1)黃斑區域病變體征分割/定位指導標準
針對本指南第2部分第2節“黃斑區域病變體征”中列出的黃斑病變體征(玻璃膜疣、地圖樣萎縮、新生血管、滲出、出血、瘢痕、色素增生等),建議AI篩查系統提供體征分割結果的可視化展示。為了方便醫生觀察病變,本指南建議篩查系統提供的可視化方式為病變體征分割結果的邊緣顯示或定位結果的檢測框顯示。
(2)黃斑區域病變體征檢出指導標準
按照本指南第2部分第2節“黃斑區域病變體征”列出的病變體征定義,建議AI篩查系統提供輸入眼底彩照中是否有以上體征存在的判別結果。
(3)黃斑區域病變體征篩查的指導原則
醫生先參考AI結果,糾正不認可的部分,再以此向患者詳細解釋說明AI篩查結果的內容和意義,同時需說明AI輔助診斷不等同于專業醫生診斷。醫生可根據AI篩查結果,并結合受檢者的視力[51]及臨床表現,為其提供下一步專業的診療建議:1)未見黃斑區域病變相關體征(低風險、無需轉診)的受檢者,建議每年進行1次眼底健康檢查。2)眼底疑似出現1項相關體征(中風險、建議轉診)的受檢者,或僅通過眼底圖無法明確判定屬于“黃斑區域病變體征”黃斑區域病變項目中體征表現,按照臨床經驗,傾向于進行進一步的檢查;3)眼底確定出現至少1項相關體征(高風險、確定轉診)的受檢者,應盡快到醫院進行詳盡的檢查。
六 篩查報告要求
(1)受檢者的基本信息:病歷號/醫療ID、姓名、年齡、性別、受檢眼別。(2)眼科相關信息:視力、眼壓、眼科疾病史、眼科治療史(手術、用藥)。(3)圖像采集設備信息:采集日期、設備型號、成像范圍、圖像儲存格式。(4)篩查系統相關信息:算法類型及版本、算法適用機型、圖像分析日期。(5)圖像評估:圖像質量。(6)AI篩查結果:受檢眼的診斷、患病或健康的概率、黃斑區域病變體征性眼底改變方面的描述。具體地,建議包括本指南第2部分“黃斑區域病變體征”中列出的病變體征是否存在結果,病變體征分割/定位顯示。(7)專科醫生擬診意見。(8)權責說明。
七 數據存儲
眼底彩照的存儲需要滿足數據的存儲安全、管理的高效和方便醫院信息系統(HIS)[52]、圖像存檔通信系統(PACS)[53]、AI輔助篩查系統在使用上的便捷。具體要求如下:(1)模型構建數據集可由開發機構存儲,模型驗證數據集可由第三方檢測機構存儲,臨床試驗數據集可由各試驗中心存儲;模型接受第三方檢測機構和臨床試驗中心測試時,建議采用盲測方式,即數據集不流入模型開發機構。(2)PNG格式、JPG格式、TIFF格式或DICOM格式存儲。(3)AI模型預測結果需保存,并能關聯到受檢者、檢查信息和眼底彩照。(4)本地和云端部署的AI篩查系統都需要對數據進行備份,在存儲容量達到一定的閾值時需要告警,系統管理員要進行存儲更新。(5)AI篩查系統和醫院PACS、HIS對接需要滿足醫療相關協議規范。
八 數據安全
參照我國《中華人民共和國數據安全法》、《個人信息保護法》、《網絡安全法》、《人口健康信息管理辦法》,應做到:
1、數據脫敏:對于不影響疾病診斷的受試者敏感信息,如姓名、聯系電話、身份證號、家庭住址等,應進行脫敏處理。數據脫敏時需注意在執行數據漂白,抹去敏感內容的同時保持原有的數據特征,保證開發、測試等不受到脫敏的影響,達成脫敏前后的數據一致性和有效性。
2、數據使用用戶管理:包括用戶身份管理、認證管理和授權管理。為每個用戶創建唯一的用戶賬號,并對用戶身份進行鑒別,確保數據訪問控制和安全審計可以追溯到個人賬號。數據訪問需有統一的身份認證機制,對于敏感數據,可采用多步驗證技術,防止誤操作。需要根據數據訪問主體身份,以及被訪問數據的密級,實現對各類數據的訪問授權。
3、數據使用日志管理:捕獲系統內完整活動的記錄且不可更改,確保每一項用戶破壞性操作被記錄審計、保證操作可回溯,進而可輔助快速定位系統是否遭受惡意的操作和攻擊。
4、傳輸加密:需通過安全傳輸方式和標準加密協議,滿足平臺以及傳輸敏感數據的需求,避免數據被非法訪問、竊聽或旁路嗅探。設置敏感數據流轉監控、數據流轉關聯分析等環節,保證流轉操作安全進行。
5、存儲安全:數據存儲過程需使用加密措施進行防護,降低數據泄露風險。加密算法需使用安全強度符合國家安全要求的商用密碼算法。存儲階段除了保障數據訪問權限的控制,還需考慮備份和容災問題,可通過本地存儲、網絡存儲等多種方式實現數據多副本多數據中心的同步和備份,實現數據的異地容災,從容應對極端災難。
6、明確責任人:AI黃斑區域病變體征篩查系統落地應用的機構需明確數據安全責任人,并制定數據安全的管理制度和應急機制。
六 AI黃斑區域病變體征篩查系統的局限與未來發展方向
目前AI系統對不同機型和不同拍攝質量圖像的篩查效果穩定性有待提高,因此,現存的AI篩查系統需對拍攝設備和拍攝方式進行嚴格的約束。值得期待的是,AI領域出現了域自適應學習(domain adaptation learning,AI技術,一種遷移學習方式,能夠有效地解決訓練樣本和測試樣本概率分布不一致的學習問題,是當前機器學習的熱點研究領域,在自然語言處理、文本分析、影像分析、生物信息學、跨語言分析、視頻分析、情感分析和手寫體識別等領域有廣泛應用)相關研究[54-55],該研究可緩解AI模型在不同機型采集的不同質量圖像上篩查效果健壯性差的問題。此外,由于AI中的深度學習技術通常是個“黑盒”,因此基于此項技術實現疾病判別的AI系統存在難以解釋的問題。本指南以病變體征為檢測目標,在第3部分“AI算法在黃斑區域病變體征篩查中的應用場景”中提出了病變體征檢測、定位、分割等任務。其中,檢測出病變體征位置可作為受試者復查時的關注區域提示,提示醫師注意一段時間內該區域內病變體征增多或減少。因此,建議在醫療場景應用AI系統時要覆蓋疾病診斷過程中的若干子任務。
本指南針對的是輸入眼底彩照單一模態數據的病變體征篩查場景,由于黃斑區域疾病的復雜性,單一模態數據無法提供全面的眼結構和病變信息,因此未來可發展多種眼底圖像模態輸入的AI輔助黃斑區域疾病的篩查系統。值得注意的是,這種輔助篩查系統迫切需要眼底檢查硬件的發展,如出現方便拍攝、價格低的光相干斷層掃描采集設備等。目前已達成共識的是AI系統在醫療中的應用需要有專業醫生的復核,因此,AI可視為輔助醫生的工具,AI篩查不等同于專業醫生診斷。目前AI篩查系統在某些疾病/體征的早期篩查中有很好的應用,可緩解篩查人口基數大、專業醫生人數不足等問題。相信在未來,會有更多基于智能技術的疾病/體征篩查系統出現。
七 附錄:黃斑區域病變體征標注參考示例(表3 )

形成指南意見的專家組成員
醫學意見指導專家組
中華醫學會眼科學分會眼底病學組
張 明 四川大學華西醫院(本文主要負責人,執筆)
許 迅 上海交通大學附屬第一人民醫院(組長)
王雨生 第四軍醫大學西京醫院 (副組長)
魏文斌 首都醫科大學附屬北京同仁醫院(副組長)
趙明威 北京大學人民醫院(副組長)
陳有信 北京協和醫院
李筱榮 天津醫科大學眼科中心
陸 方 四川大學華西醫院
劉慶淮 江蘇省人民醫院
雷 博 河南省眼科研究所
曲進鋒 北京大學人民醫院
文 峰 中山大學中山眼科中心
俞素勤 上海交通大學附屬第一人民醫院
楊衛華 南京醫科大學附屬眼科醫院
張少沖 深圳市眼科醫院
杜 亮 四川大學華西醫院 中國循證醫學中心
王冬玥 四川大學華西醫院(非學組委員,秘書)
人工智能技術意見指導專家組
許言午 北京百度網訊科技有限公司(執筆)
劉 江 南方科技大學計算機科學與工程系
徐向民 華南理工大學未來技術學院
陳 杰 鵬城實驗室
譚明奎 華南理工大學軟件學院
夏 勇 西北工業大學計算機學院
雷柏英 深圳大學生物醫學工程學院
趙一天 中國科學院寧波材料所慈溪生物醫學工程研究所
朱鵬志 廣東省醫療器械質量監督檢驗所
方慧卉 北京康夫子健康技術有限公司(秘書)
楊大陸 北京百度網訊科技有限公司
孫欽佩 北京康夫子健康技術有限公司
張思琦 北京百度網訊科技有限公司
指南外審專家組成員
醫學專家組
姚克 浙江大學醫學院附屬第二醫院
黎曉新 廈門大學附屬廈門眼科中心
王寧利 北京同仁醫院
孫興懷 復旦大學附屬眼耳鼻喉科醫院
惠延年 空軍軍醫大學西京醫院
陳長征 武漢大學人民醫院
李世迎 廈門大學附屬翔安醫院
劉曉玲 溫州醫科大學附屬眼視光醫院
盧 海 北京同仁醫院
呂 林 中山大學中山眼科中心
彭曉燕 北京同仁醫院
沈 吟 武漢大學人民醫院
孫曉東 上海交通大學附屬第一人民醫院
王 敏 復旦大學附屬眼耳鼻喉科醫院
徐格致 復旦大學附屬眼耳鼻喉科醫院
嚴 宏 西安市第四醫院
顏 華 天津醫科大學總醫院
于偉泓 北京協和醫院
張 含 中國醫科大學附屬第一醫院
趙培泉 上海交通大學醫學院附屬新華醫院
人工智能專家組
閔 棟 中國信息通信研究院云計算與大數據研究所
王 浩 中國食品藥品檢定研究院
何暉光 中國科學院自動化研究所
段立新 電子科技大學計算機科學與工程學院
吳慶耀 華南理工大學軟件學院
聲明 本指南制定嚴格按照世界衛生組織、中華醫學會的指南制定規范,并參考指南研究與評價工具和國際實踐指南報告標準,旨在為基層眼底篩查服務提供指導,不是在各種情況下都必須遵循的醫療標準,也不是為特殊個體提供的保健措施;本指南所包括的信息或資料的準確性、完整性、合法性、可靠性、可操作性不承擔任何法律責任;本指南制定過程中嚴格遵循世界衛生組織指南制定利益沖突條例和指南倫理道德標準,全體參與成員均填寫利益沖突聲明表,經過評價與指南制定不存在直接利益沖突
一 人工智能(AI)黃斑區域病變體征篩查系統研發和應用的目的及意義
黃斑區主要與精細視覺及色覺等視功能相關,黃斑區出現病變,是視力下降的主要因素之一。由于黃斑區域的敏感性,該區域的損傷可造成中心視力的下降,對患者的生活質量影響較大[1]。早期眼科篩查是降低病變風險、避免視力喪失的積極手段。數據顯示,全國約有4.48萬眼科醫生,這意味著平均1個眼科醫生要為約3.125萬人提供醫療服務[2]。由此可見,供需的極度不平衡,使我國眼科醫生在眼底疾病篩查中面臨較大的工作壓力,同時也存在一部分患者無法得到及時的篩查及治療的情況。因此,借助AI、自動化、信息化技術實現大基數人口的眼底篩查是必然的發展趨勢[3]。
眼底彩色照相(以下簡稱為眼底彩照)是一種方便、非接觸式的眼科檢查,可觀察視神經、視網膜、脈絡膜以及屈光間質中是否存在病變,是目前篩查眼底疾病最具成本效益的成像方式[4]。黃斑區域內可發生的疾病種類眾多,表現多樣,如老年性黃斑病變、中心性漿液性脈絡膜視網膜病變、中心性滲出性脈絡膜視網膜病變及視網膜靜脈阻塞等[5]。眼底彩照能提供的病變信息有限,臨床上難以基于單一眼底彩照檢查給出準確的疾病診斷結論。但在基層篩查應用場景中,篩查系統僅需給出黃斑區域內是否出現可疑病變體征的結論,若出現一定程度的病變體征,則認為受檢人存在黃斑區域內眼疾的患病風險,需到醫院進行進一步的檢查。由此可見,基層篩查可僅基于眼底彩照進行,并且可只在病變體征維度進行分析。因此,本指南擬規范面向基層的眼底彩照黃斑區域病變體征篩查系統的設計及應用。由于非散瞳眼底彩照可滿足檢查區域的呈現,因此一般情況下,本指南討論的眼底彩照為非散瞳情況下采集的。
隨著基于醫療大數據的逐步建立以及AI篩查技術的發展和應用,很多高質量的AI算法已成功應用于醫學輔助診斷,如利用圖像對皮膚癌進行判別[6],分析乳腺癌淋巴結轉移[7]等。在眼科方面,2017年,Gargeya和Leng[8]利用75 137例糖尿病患者的眼底彩照訓練AI模型,使其檢測糖尿病視網膜病變的靈敏度和特異性分別達到了94%和98%。此外,基于眼底彩照的AI模型在青光眼的篩查工作中也展現了良好的性能[9]。
目前在世界范圍內,黃斑區域病變體征的AI識別及篩查尚未建立統一的數據來源、模型構建、臨床評價等方面的標準,因此限制了AI篩查系統在該領域的臨床應用。本指南制定小組在中華醫學會眼科學分會青光眼學組和中國醫學裝備協會眼科人工智能學組發布的《中國基于眼底照相的人工智能青光眼輔助篩查系統規范化設計及應用指南(2020)》[9]以及中國醫藥教育協會智能醫學專業委員會智能眼科學組和國家重點研發計劃“眼科多模態成像及人工智能診療系統的研發和應用”項目組發布的《基于眼底照相的糖尿病視網膜病變人工智能篩查系統應用指南》[10]的基礎上,參考了中國食品藥品檢定研究院組織起草的《人工智能醫療器械行業標準》[11-13]和中國質量檢驗協會發布的《眼底彩照標注與質量控制規范》(T/CAQI 166-2020)[14],制定了可供系統研發工程師和基層醫生等相關人員參考的篩查系統設計及應用指南。具體而言,本指南旨在對黃斑區域及相關病變體征定義、AI應用場景、算法模型構建、數據集的建立和標注、篩查系統架構和功能的設計、圖像數據的采集等方面提供參考性意見,以期規范AI系統在黃斑區域病變體征基層篩查中的應用,推動我國眼底病早期篩查水平的整體提升。本指南內容未來會根據醫療器械領域新法規、新標準以及黃斑區域內疾病診療新指南的更新進行及時迭代。
二 黃斑區域和病變體征
一 黃斑區域
根據年齡相關性眼底病變研究[15],在討論老年性黃斑病變時,將黃斑區域定義為以中心小凹為中心、半徑為2倍視盤直徑(DD)的圓形區域。其黃斑區域與視盤邊緣幾乎相切(圖1)。此外,在解剖學上,黃斑區定義為顳側上下血管弓內5.5 mm范圍內的區域[16]。

綜合上述黃斑區域定義,本指南定義黃斑區域為中點在黃斑中心小凹的圓形區域,其半徑為2 DD、黃斑中心小凹到上下血管弓最小距離以及黃斑中心小凹到視盤邊緣最小距離中的最小值(圖2)。

二 黃斑區域病變體征
在黃斑區域病變體征的早期篩查場景中,我們不但需要檢測高風險疾病相關體征;同時需要關注潛在風險體征和潛在病發區域。本指南對黃斑區域內病變體征進行定義,疑似出現以下任意一項體征時建議轉診;若確定出現至少一項下述體征,則確定轉診。
1、直徑大于125 μm的玻璃膜疣(drusen)[17]。玻璃膜疣是膠樣或透明的小體,是視網膜色素上皮(RPE)細胞異常代謝產物在視網膜上的異常沉積所致。125 μm相當于視盤顳下方邊緣處靜脈管徑大小。臨床上將玻璃膜疣分為4型[18]:(1)硬性疣:表現為邊緣清晰的黃色圓點;(2)軟性疣:表現為邊緣不清晰互相融合的病灶,伴有RPE色素改變;(3)混合性疣:兼有上述兩型的的臨床表現;(4)退化性疣:眼底可見不規則形如“地圖”或“暈輪狀”萎縮區,并逐漸擴張,可因鈣化而呈現為白色。
2、地圖樣萎縮(GA)[17]。其病理表現為RPE、脈絡膜毛細血管及其上光感受器細胞丟失,眼底可見邊界清晰的單灶或多灶脈絡膜視網膜萎縮區,其中脈絡膜組織的可見度增加,周圍常見大小不等的玻璃膜疣。
3、伴有至少一個直徑大于125 μm的出血或滲出的新生血管[17]。黃斑新生血管可分為3類[19]:(1)1型黃斑新生血管,其起源于脈絡膜的新生血管,終止于RPE下;(2)2型黃斑新生血管,其起源于脈絡膜的新生血管,穿過RPE,在視網膜神經纖維層下生長,眼底彩照可見橘紅色樣病灶;(3)3型黃斑新生血管,其起源于視網膜中間層的新生血管,向RPE生長,是從視網膜循環向下生長至外層視網膜的血管復合體,表現為視網膜下液和滲出、視網膜退化、視網膜脫離、視網膜下新生血管膜。表現為黃斑中心小凹或中心小凹旁某一象限內有一不規則的類圓形病灶,呈灰白色或黃白色,病灶周圍可見出血或反光暈。此外,視網膜新生血管表現為起源自視盤表面及視網膜的小靜脈,沿視網膜表面生長,在有玻璃體粘連的部位可長入玻璃體內,并含有數量不等的纖維組織。
4、存在至少一個滲出灶直徑大于125 μm的滲出(exudation)[20]。硬性滲出表現為邊界清晰的臘樣色斑點或斑塊,可數個或成堆出現;軟性滲出又稱為棉絨斑或棉絮狀白斑,表現為邊界不清的灰白色斑。
5、存在至少一個出血灶直徑大于125 μm的出血(hemorrhage)[20]。按出血所在的視網膜層次的不同,可分為視網膜前出血、視網膜淺層出血、視網膜深層出血、RPE下出血以及多層次同時受累。視網膜前出血表現為鮮紅色,多呈“舟狀”,形成典型液面。視網膜淺層出血多呈鮮紅色“火焰狀”,可表現為Roth斑,即出血性病灶中央可見白色小點,為毛細血管破裂時產生的血小板-纖維蛋白血栓[21];視網膜深層出血呈點狀、圓形的暗紅色小斑片,沿著神經走行縱向擴散。視網膜下出血多成暗紅色,RPE下出血多成棕紅色。
6、瘢痕(scar)[20]。滲出物在視網膜間隙刺激RPE與膠質細胞增生,最終形成纖維機化瘢痕組織,表現為邊界清晰的類圓形黃褐色斑塊[22]。
7、色素變動(pigment mottling)。其可分為色素增生(hyperpigmentation)與色素缺失(depigmentation)兩種。色素增生即累及黃斑區域且有影響視力可能的色素增生體征[20],表現為有突或分支的黑點或白點,逐漸聚集為墨黑色或白色的“蜘蛛狀”或骨細胞樣斑點,可為不規則條狀。色素缺失表現為界限清楚的淡白色或淡黃色斑塊。
8、黃斑裂孔(macular hole)[23]。黃斑部呈一圓形或橢圓形的邊緣銳利的孔洞,偶見不規則形,裂孔大小不一。
9、黃斑前膜(epiretinal membrane)[24]。眼底黃斑區及附近視網膜表面可見一層半透明、菲薄或增厚發灰的無血管性增生膜,視網膜出現褶皺,附近視網膜小血管紆曲。
10、黃斑水腫(macular edema)[17]。根據糖尿病視網膜病變早期治療研究[25],有臨床意義的黃斑水腫表現為:(1)視網膜水腫增厚,范圍在黃斑中心500 μm區域以內;(2)硬性滲出(附近視網膜增厚),侵犯黃斑中心500 μm區域以內;(3)視網膜增厚范圍大,位于黃斑任一象限,但有部分侵犯黃斑中心區1 DD之內。囊樣黃斑水腫[26-27]表現為黃斑中心小凹光反射彌散或消失,視網膜增厚,水腫區呈不同程度反光增強或“綢緞樣”反光。晚期黃斑水腫呈“蜂窩狀”或囊狀外觀,囊壁視網膜厚薄不均勻,可見“蜂窩狀”內部分隔及血管暗影。
11、視網膜脫離(retinal detachment)[28-29]。其包括孔源性視網膜脫離、滲出性視網膜脫離及牽拉性視網膜脫離。孔源性視網膜脫離中,淺脫離的視網膜表現為色澤變淡,與正常的橘紅色呈明顯界限;局部高度脫離的視網膜呈灰白色“球形”突入玻璃體腔;廣泛脫離的視網膜起伏不平,其上血管紆曲爬行;陳舊的視網膜脫離上下可見增生膜,呈不規則條索狀,視網膜表面或全層皺襞形成。滲出性視網膜脫離表面較光滑,無牽拉皺褶。牽拉性視網膜脫離表面可見增生膜或粘連的機化組織。
12、眼內占位性病變(intraocular space-occupying lesions)。該病變表現多樣,臨床上需結合其他輔助檢查協助診斷。
13、其他。非上述類別體征的黃斑區異常。
上述體征與黃斑區域常見病變的對應關系如表1所示。

值得注意的是,本指南給出了上述13種黃斑區域病變體征。篩查系統設計人員在定義系統可篩查病變體征時,請根據產品設定,按實際需求參考本指南及醫學專家建議。
三 AI算法在黃斑區域病變體征篩查中的應用場景
一 病變體征檢測
AI算法可基于輸入的眼底彩照,提供圖像中是否存在本指南第2部分第2節“黃斑區域病變體征”定義的病變體征的結論。同一張眼底彩照上可檢出多種病變體征,因此該任務是一個多標簽的分類任務,即標簽之間不互斥[30]。AI模型可對輸入圖像同時進行是否有玻璃膜疣、是否有地圖樣萎縮、是否有新生血管等情況的判別(圖3)。在臨床應用中,可針對每種病變體征的分類結果進行評估,評估指標可用靈敏度、特異性、Kappa值等。一般認為,與臨床診斷報告中病變體征是否出現這一參考標準(參考標準:診斷和治療過程或基于標注過程建立的基準,可包含疾病、生理狀態或生理異常以及位置和程度等信息標簽[1])比較的Kappa值≥0.80時,二者的一致性非常好;Kappa值介于0.61~0.80之間,二者的一致性較好;Kappa值介于0.41~0.60之間,二者的一致性為中等;Kappa值介于0.21~0.40之間,二者的一致性勉強可接受;當Kappa值≤0.20時,則認為幾乎沒有一致性[31]。AI算法的性能目標是使模型預測結果達到與專業人員診斷結果非常好的一致率,即Kappa值達到0.8以上。

二 病變體征定位
AI算法可對輸入眼底彩照中的指定病變體征進行定位。如針對本指南第2部分第2節“黃斑區域病變體征”定義的病變體征,AI模型可從圖像中定位出具體的病灶出現區域(圖4)。圖中交疊的檢測框說明交疊區域內存在不止一種病變體征。請注意,按照計算機視覺算法,目標檢測框多為矩形框,檢測出的病灶在矩形框內,但不一定完全充溢整個矩形框。定位模型在臨床中的應用目的通常是提供目標病變或組織的位置信息,提醒醫生重點觀察該區域。這種應用的效果評估通常與計算機視覺中目標檢測[32]任務的評估指標一致,具體指標將在本指南第4部分第5節第2點“病變體征定位”中介紹。

三 病變體征分割
AI算法可對輸入眼底彩照中的指定病變體征進行分割。如針對本指南第2部分第2節“黃斑區域病變體征”定義的病變體征,AI模型可從圖像中分割出具體的病變輪廓[33](圖5)。分割模型在臨床中的應用目的通常是可視化或量化目標病變或組織,輔助醫生觀察以及診斷。這種應用的效果通常與計算機視覺中分割任務的評估指標[34]一致,具體指標將在本指南第4部分第5節第3點“病變體征分割”中介紹。

四 AI算法的其他應用
AI算法除了用于病變體征的分析,還可以擴展至疾病維度的應用中,本指南給出疾病分類和分級兩個應用參考,可作為篩查系統的后續擴展功能。病變體征篩查系統無需包含這兩種疾病維度的功能。
1、疾病分類。AI算法可對輸入圖像進行是否有黃斑區域疾病的判別,該功能的結論是有或無黃斑區域疾病,屬于二分類任務。若需細分到具體黃斑區域疾病種類,可擴展成多分類或多類別分類任務。該場景中AI算法和臨床中疾病診斷結果參考標準的Kappa值可衡量AI算法與專業醫生診斷結果的一致性。
2、疾病分級。AI算法可根據輸入圖像,對疾病進行識別與分級(分期)(圖6)。疾病分級是一個多分類任務。臨床應用中的評估方式與疾病分類相似,可用靈敏度、特異性、準確率、Kappa值等評估測度來衡量應用效果的好壞。

四 AI黃斑區域病變體征篩查系統的算法構建和準確性要求
一 數據收集與質量控制
數據作為AI“思考”和“決策”的基礎,是AI技術得以實現的基石。在AI黃斑區域病變體征篩查系統構建、驗證、生產等過程中,均離不開大量數據集的支持。眼底數據采集過程需要拍攝醫生/技師嚴格按照標準圖像的拍攝要求進行操作,避免上傳質量不合格的圖像。本指南將彩色眼底圖像質量分為合格、可接受和不合格三類[35]。合格:圖像不存在質量問題,拍攝位置符合本指南的彩色眼底圖像采集標準對拍攝位置的要求(圖7A);可接受:存在輕微的曝光問題(邊緣輕度漏光)、不影響判讀的小污損、輕微的失焦或模糊圖像等(圖7B,7C);不合格:嚴重曝光異常、嚴重屈光間質混濁、大片污損、信息缺失及無關圖像等(圖8)。


每只受檢眼拍攝至少1張可供AI系統分析和醫生閱讀的圖像并保存,要求位置正確,對焦清晰,曝光適中,沒有間質混濁圖像,能夠清晰顯示視網膜、黃斑區及視盤結構,具體質量要求如下[36]:(1)除玻璃膜疣、色素異常或新生血管等眼底黃斑疾病相關體征外,圖中90%的血管可以辨認。(2)主要眼底結構位置正確,使用單視野圖像篩查時,圖像視野范圍水平與垂直方向均不小于45°,黃斑中心小凹距離圖的邊緣超過2 DD,視盤距離圖的邊緣超過2 DD;使用雙視野圖像時,每個視野水平與垂直方向均不小于45°,黃斑區圖像要求黃斑中心小凹距離圖像中心<1.5 DD,視盤區圖像要求視盤中心距離圖像中心<1.5 DD;視盤與黃斑中心連線和水平線的夾角不大于24°。(3)成像范圍內無影響判讀的暗影和(或)高亮反光區域。(4)曝光適度,無過曝光或欠曝光。(5)無鏡頭污漬、眼瞼和(或)睫毛等遮擋影,無運動偽影。(6)無圖像中未顯示患眼、拍攝非眼底范圍的眼底彩照等圖像錯誤。
圖像未達到以上質量要求時,需進行如下調整:(1)主要眼底結構位置不正確:調整受試者坐姿,調節固視點,確認患者有無斜視或其他眼部異常情況,重新拍攝圖像。(2)過曝光、欠曝光及對焦錯誤:調節眼底相機曝光與對焦設定,重新拍攝圖像;如觀察到圖像過暗,應確認患者瞳孔大小,并相應縮短患眼暴露在明亮燈光下的時間,降低檢查室亮度。(3)瞳孔過小,無法獲得滿意的小瞳孔眼底圖像結果:臨床醫生排除散瞳的禁忌癥后考慮散瞳后采集眼底圖像。(4)眼瞼、睫毛遮擋:提示患者在拍照過程中睜大眼瞼,必要時協助患者提高眼瞼,并重新拍攝圖像。(5)虹膜反光:提示患者緊盯固視點,不要移開視線,重新拍攝圖像。(6)鏡頭污漬:檢查并清理鏡頭。(7)信息缺失:確認圖像信息存儲完整,重新拍攝并儲存圖像。(8)外眼、非眼底圖像:防止上傳鏡頭蓋未打開圖像、誤觸拍攝的環境圖像以及外眼檢查圖像等無關圖像。
本指南建議數據集中圖像的收集需考慮以下納入與排除標準:納入標準:(1)單視野/雙視野拍攝的眼底彩照;(2)圖像質量為合格或可接受。排除標準:(1)圖像質量為不合格;(2)圖像中存在治療痕跡。
二 數據集構建
本指南按照AI模型構建、模型效果檢驗以及臨床試驗三個環節將篩查系統設計和應用過程中涉及到的數據集分為三大類(圖9)。其中,模型構建數據集中調優集可稱驗證集,測試集可稱內部測試集,模型效果檢驗以及臨床試驗數據集可稱外部測試集。各類數據集間不可出現重復的樣本以及重復的被檢者。另外,醫療數據的收錄需通過倫理審批并注意提前將數據做脫敏處理。指南參考人員可根據實際應用場景和條件,選擇性參考本指南相關內容。

1、模型構建數據集來源
模型構建數據集的作用是為模型訓練、調優和自測提供帶標簽的數據,使模型學習到最優參數,實現好的篩查效果。由于不同眼底彩色相機存在拍攝角度、成像色彩、清晰度等方面的差異,為了提升AI模型的泛化能力,需使收集的圖像數據采集自多種機型、多種拍攝條件。泛化能力指AI算法對新鮮樣本的適應能力。AI技術中機器學習的目的是學到隱含在數據背后的規律,對具有同一規律的數據集以外的數據,經過訓練的模型也能給出合適的輸出。綜合參考糖尿病視網膜病變[10]和青光眼[9]兩種眼疾篩查的AI系統應用指南,本指南建議收集的數據集來源不少于3家醫療機構(滿足采集環境、采集人員操作多樣性),涉及機型不少于3種(滿足采集設備多樣性)。由于本指南針對的是中國人群眼疾篩查應用場景,所以模型構建的數據來源種族為單一的中國人群。同時,數據集中樣本需覆蓋多民族、多地區、多年齡層人群。AI模型構建過程中,數據集的來源可包含各類公開數據集(如各級別醫院、眼科中心、流行病學調查數據和互聯網公開數據等),但必須符合本指南第4部分第3節介紹的標注辦法,不符合的必須重新標注。所有數據的獲取須經相關單位的倫理審查委員會批準。
值得注意的是,為了符合篩查系統應用時輸入的圖像可能存在質量高低不一致的實際情況,在收集數據時,不可人為挑取質量好的眼底圖像。在各家醫療機構收集圖像時,應當從以往隊列中隨機抽取樣本構建數據集。
2、模型構建數據集劃分
本指南建議將模型構建數據集采用留出法[37]進行劃分,留出法是直接將數據集劃分為三個互斥的集合,分別為訓練集、調優集和測試集。參考Google公司在JAMA發表的糖尿病視網膜病變識別論文[38]中使用的數據劃分比例:訓練集和調優集總比例為91.56%,測試集比例為8.35%。本指南建議在模型構建數據集中,訓練集和調優集占比在90.00%左右,測試集占比為10.00%左右。對于訓練集和調優集的劃分,可根據具體情況,按照AI技術應用中常用的8∶1或7∶2比例劃分。請注意,此處的測試集僅用于模型構建環節中的自測。另外,除了訓練集、調優集和測試集三個集合的劃分外,篩查系統也可根據模型特性,將數據集僅劃分為訓練集(包括調優集)和測試集。
數據集劃分建議注意的一點是保證訓練集、驗證集和測試集數據分布的一致性[39],即所包含的各類別圖像數占比保持一致,這里的類別需考慮圖像所屬病變體征類別、受試者年齡與性別類別、圖像采集機構與機型類別等。同時,建議測試集符合預期應用場景的數據分布,并且數據劃分過程中需注意同一受試者的多張眼底彩照應劃分至訓練集、驗證集或測試集中的某一個集合,不可出現同一受試者的多張圖像劃分至不同數據集合的情況。
3、模型構建數據集數量
由上一節模型構建數據集劃分可知,本指南建議測試集占比達到總數據集數量的10.00%。下面本指南將根據AI模型的預期效果,推導測試集中各病變體征類別圖像需要的數量,以此提供模型構建數據集總數量的建議。
根據評估指標的置信區間樣本量計算公式[40]計算所需各類別樣本數量:
![]() |
公式(1)中:Z為可信水平的Z統計量,Δ為允許誤差,P為預期評估指標(靈敏度或特異性),N為所需樣本量。設定顯著性水平α=0.05(雙側),則預期評估指標的允許誤差Δ為5%:
(1)當AI模型預期的靈敏度為90%、特異性為90%時,則各病變體征所屬圖像對應的陽性或陰性樣本量最小分別為:
![]() |
即,測試集中包含本指南第2部分第2節“黃斑區域病變體征”中定義的各病變體征和無目標體征樣本分別至少需要138張圖像。(2)當AI模型預期的靈敏度為85%、特異性為85%時,單類最少需196張圖像。
參考上述計算結果,本指南建議模型構建數據集中測試集里涉及第2部分第2節“黃斑區域病變體征”定義的每類病變體征的樣本數量至少為200張。參考青光眼輔助篩查系統規范化設計及應用指南(篩查陽性樣本∶正常眼底樣本∶其他眼疾樣本=2∶7∶1),建議[4]測試集中包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張(若設計的篩查系統可篩查多種病變體征,則不同體征樣本可互為“有其他眼底疾病的”樣本)。根據測試集在模型構建總數據集中的占比,推導可得模型構建環節總數據集中符合本指南第2部分第2節“黃斑區域病變體征”定義的各類病變體征的樣本至少為2 000例。建議模型構建總數據集中包含的臨床正常眼底圖像至少7 000張,包含有其他眼底疾病的眼底圖像至少1 000張。在保證每類陽性樣本數量至少2 000的基礎上,收集到與之滿足流行病學分布的正常眼底樣本和其他眼疾樣本數量十分困難,因此本指南對正常眼底樣本和其他眼疾樣本數量進行了建議。在此前提下,本指南也建議收集的數據集中各類型樣本量盡可能地滿足流行病學分布。請注意,同一張圖像上可出現多種病變體征,即一張圖像上可存在多個標簽。
此外,本指南建議收集的數據集中每類樣本的樣本數量按照采集機構和機型均衡分配;每類樣本中樣本性別和所屬年齡段分布建議參考病變體征對應的黃斑區域疾病在不同性別和不同年齡段的發病率。
4、模型效果檢驗數據集來源及數量
為了驗證AI模型的效果,除了在模型構建時使用測試集進行驗證外,在模型構建完成后,還可收集額外的數據集對效果進行檢驗。此環節收集的數據要求與模型構建數據集一致,需滿足采集環境、采集人員操作多樣性,滿足采集設備多樣性,滿足民族、地區、年齡多樣性等。本數據仍可來源于公開數據集,但必須符合本指南第4部分第3節介紹的標注辦法,不符合的需重新標注。所有數據的獲取須經相關單位的倫理審查委員會批準。為了滿足對篩查系統泛化能力的驗證,此數據集涉及的采集環境、采集人員、采集設備應盡可能不同于上述模型構建數據集。如圖9所示,模型效果檢驗數據集可由多個構成,這些數據集可用于多個廠商或第三方機構對篩查系統的驗證。
模型效果檢驗數據集數量通常由廠商和第三方機構根據檢測要求制定。此外,也可參考本指南第4部分第2節第3點“模型構建數據集數量”中模型構建過程中測試集數量,準備的數據集中涉及本指南第2部分第2節“黃斑區域病變體征”定義的每類病變體征的樣本數量至少為200張,包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張。同時,為了滿足對不同質量圖像篩查效果的驗證,檢驗數據集中需要有圖像質量合格和可接受兩種情況的測試樣本,其中圖像質量的判斷標準請參考本指南“數據收集與質量控制”中數據質量控制標準。按照評估指標的可信區間樣本量計算公式(1),檢驗數據集中每種質量的圖像應至少有200張。每個檢驗圖像上的圖像質量標簽和包含病變體征標簽同時存在。
5、臨床試驗數據集來源及數量
設計臨床試驗的目的是驗證AI模型的性能,本指南建議臨床試驗采用前瞻性、配對、多中心、預期目標法進行試驗設計。設計的主要依據為《醫療器械臨床試驗質量管理規范》[41]、《人工智能醫療器械注冊審查指導原則》[39]和《深度學習輔助決策醫療器械軟件審批要點》[42],具體包括:(1)多中心:醫療器械臨床試驗應在3個及以上臨床試驗機構中進行,即多中心臨床試驗。各中心與模型構建數據集來源非同源,且每個中心包含每類病變體征的眼底圖像數量建議均衡。(2)配對:試驗中同一受試者的眼底彩照將同時采用AI模型和對照方法(中心閱片)來進行閱片,即配對設計。(3)預期目標法:試驗所收集數據量需滿足可驗證AI模型在臨床場景應用的靈敏度和特異性是否達到預期目標的條件。(4)用于檢驗AI模型臨床效果的臨床試驗數據集需代表真實世界中臨床數據資料的質量和多元化的分布狀態,應當保證樣本分布符合臨床實際情況,且與模型構建過程使用的數據集無交集。
在臨床試驗中,為驗證AI模型是否達到預期目標,需要的樣本數量可與本指南“數據集構建”中計算的測試集數據量一致,即本指南建議臨床試驗提供的數據集中涉及第2部分第2節“黃斑區域病變體征”定義的每種病變體征圖像至少為200張,包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張。與第4部分第2節第4點“模型效果檢驗數據集來源及數量”中介紹的模型驗證數據集模型驗證數據集類似,為了滿足對不同質量圖像篩查效果的檢測,臨床試驗數據集中需要有圖像質量合格和可接受兩種情況的測試樣本,按照評估指標的可信區間樣本量計算公式(1),臨床試驗數據集中每種質量的圖像應至少有200張。
值得注意的是,本指南建議用來進行模型測試和檢驗的數據集符合預期應用場景的數據分布,根據黃斑區域病變相關的流行病學調查[43-45],本指南第2部分第2節“黃斑區域病變體征”中涉及的病變體征中患病率最低的為色素增生(0.10%),患病率最高的為玻璃膜疣和地圖樣萎縮(7.21%)。若用來進行模型測試或檢驗的數據集中色素增生體征所屬圖像數為200張,則玻璃膜疣和地圖樣萎縮兩種體征對應的圖像數需達到14 420張,無黃斑區域病變相關體征的圖像數至少需達到16萬張,在實踐中難以實現。因此,本指南建議在保證用來進行模型測試或檢驗的數據集中涉及第2部分第2節“黃斑區域病變體征”定義的每種病變體征圖像至少為200張,包含的臨床正常眼底圖像至少700張,包含有其他眼底疾病的眼底圖像至少100張的前提下,盡可能地增加患病率大的體征和無病變體征等類別對應的樣本數。
三 數據集標注
上述數據集的標注和臨床試驗數據集的中心閱片,均可采用本節描述的標注方式,標注后的結果作為各個任務的“參考標準”。
1、標注模式
按照《眼底彩照標注與質量控制規范》[14],本指南建議標注采用3+2+1或3+2+2的方式,即3名標注醫生+2名高級醫生+1或2名仲裁專家。標注醫生為有執業醫師資格證或是經過相關專業培訓合格的醫學專業人員;高級醫生為在眼底病領域工作5年及以上的專業人員;仲裁專家為職稱為副主任醫師及以上的更高級別專家。若三名標注醫生中存在兩位標注結果不完全一致,則引入兩名高級醫生。若兩位高級醫生標注一致,則以兩位高級醫生的標注結果為準;若不一致,則再引入一至兩名仲裁專家。仲裁專家評審后,提供最終結論。
2、標注人員
標注人員應接受數據標注培訓,培訓內容應包含標注軟件操作流程,標注規程等。人員培訓及考核具體內容如下:(1)培訓內容:1)為了規范標注過程,需由標注系統研發工程師對標注醫生、評估醫生和仲裁專家就如何使用標注系統進行培訓。2)為了統一對眼底圖像標注規則的認識,需由眼底病專家(三甲醫院眼底病專業主任醫師)依據病變體征的定義對標注醫生進行培訓。(2)考核機制:1)采用實操的方法進行考核。從每個病變體征隨機選取一定張數的圖像作為考核圖像,由眼底病專家和參加考核的標注醫生同時標注所有選取圖像指定形式的標簽(詳見第4部分第3節“數據集標注”),計算標注醫生與眼底專家標注結果的一致率。 2)考核指標:標注一致率要求不低于一定比例。根據眼底專家評估,本指南建議考核合格的標注醫生和眼底病專家標注一致的樣本數占比不低于80%。
3、標注過程
本指南涉及的標注對象為彩色眼底圖像,標注形式需按照篩查系統功能進行設定(表2)。篩查系統可同時包含多項功能,因此標注形式可有多種。

標注過程包含以下三個重要內容:圖像中治療痕跡的判定、圖像可讀性的判定以及圖像具體標注流程(圖10)。醫生標注前須由標注系統管理員分配用戶名和密碼,隨后標注醫生登錄進入標注系統,開始標注工作。(1)治療痕跡判定:如果發現治療痕跡,如激光斑、硅油填充、氣體填充、外加壓/環扎等,則該圖像不需要標注,直接剔除;(2)圖像可讀性判定:圖像拍攝質量會影響可讀性,若圖像因欠曝、過曝或其他拍攝原因導致黃斑區域1/3以上不可讀,則建議該圖像不標注,直接剔除。

4、標注質量評估
在標注過程中,本指南建議對標注質量進行評估。評估可從正確性和重復性兩個角度進行。評估過程與標注人員考核過程相似,從已標注圖像中隨機抽取一批圖像(建議包含200個樣本)作為評估圖像集,請眼底病專家對評估圖像集進行標注。正確性評估:對比標注醫生和眼底病專家對評估圖像集的標注結果,若標注結果一致率達到預設比例,則認為標注醫生標注正確性合格。重復性評估:將評估圖像集重復投入標注數據池,由標注醫生進行二次標注,隨后對比評估圖像集中各圖像兩次標注結果,若標注結果一致率達到預設比例,則認為標注醫生標注重復性合格。標注質量不合格的醫生將接受二次培訓,標注不合格的圖像將抹去已有標簽后放回標注數據池重新進行標注。
四 算法模型構建
本指南中涉及的第2部分第2節“黃斑區域病變體征”篩查AI模型負責提供圖像中有或無黃斑區域病變體征存在的參考意見、具體病變體征的分割或定位可視化展示等。
在模型構建過程中,訓練集圖像和相應標注會輸入模型,供其學習圖像與目標任務的映射關系、更新模型參數[37]。在訓練過程中,算法可對圖像進行初步的預處理,如圖像前景提取、圖像縮放到固定尺寸、圖像色調增強等,其目的是通過對輸入圖像的尺寸和色調標準化來減小機型之間的樣本差異。同時算法可以對原始圖像進行隨機左右翻轉、旋轉、平移和剪裁,調節圖像色彩和明暗程度等圖像增強操作,目的是增強訓練樣本的多樣性以及數量。此外,算法還可以在訓練過程中對圖像引入隨機噪聲,增強模型對于噪聲和對抗樣本攻擊的健壯性[46]。訓練結束后,在調優集上對模型進行優化。調優結束后,模型可以在測試集上進行測試及性能評估。
五 算法模型評估指標
本指南第3部分“AI算法在黃斑區域病變體征篩查匯總的應用場景”中介紹了AI算法在黃斑區域病變體征篩查中的應用場景有病變體征檢測、病變體征定位、病變體征分割以及擴展的疾病分級和疾病診斷。本指南將按照不同的應用場景介紹算法模型的評估指標。
1、病變體征檢測
病變體征檢測屬于多標簽分類任務,該任務的模型評估指標主要有靈敏度、特異性、漏檢率、精確率、分數、AUC分數及Kappa值等,具體評估指標定義及計算公式如下所示[11-12]。靈敏度(sensitive,Sen):又可稱召回率(recall)、查全率,是真陽性樣本占全體陽性樣本的比例。
![]() |
特異性(special,Spe):真陰性病例占全體陰性病例的比例。
![]() |
漏檢率(miss rate,MR):即檢測中未發現的陽性樣本占全體陽性樣本的比例。
![]() |
精確率(precision,Pre):又稱查準率、陽性預測值,是真陽性樣本占算法判為陽性樣本的比例。
![]() |
陰性預測值(negative prediction value,NPV):真陰性樣本占被算法判為陰性樣本的比例。
![]() |
準確率(accuracy,Acc):算法診斷正確的樣本占全體樣本的比例。
![]() |
F1分數:召回率和精確率的調和平均數。
![]() |
約登指數:也稱正確指數,假設假陰性(漏診率)和假陽性(誤診率)危害同等意義,約登指數為靈敏度與特異度之和減去1,指數越大說明篩查效果越好。
![]() |
受試者操作特征(receiver operating characteristic)曲線下面積(area under curve)。受試者操作特征是通過在一組預設閾值下計算篩查系統在測試集上的靈敏度和特異性,從而產生一組(1-特異度,靈敏度)操作點,將這些操作點依次連接形成的曲線。
Kappa系數:用于評價篩查系統與參考標注診斷結果一致性的指標。
![]() |
公式(11)中R1是真陽性和假陽性例數的總和,R2是假陰性和真陰性例數的總和,C1是真陽性和假陰性例數的總和,C2是假陽性和真陰性例數的總和,N是樣本例數總和。
2、病變體征定位
定位任務的結果可以有兩種表現形式:一是輸出目標中心點的坐標信息,二是輸出目標所在方框的信息。對于第一種只輸出一個點坐標的模型,評估指標通常選用平均歐式距離;對于第二種輸出一個矩形框的模型,處理的是目標探測任務,評估指標通常為交并比和平均的精確率均值。
平均歐式距離(mean euclidean distance,MED):
![]() |
交并比(intersection over Union,IoU),衡量預測框和醫生標注的目標框參考標準的重疊程度:
![]() |
平均精確度均值(mean average precision,mAP):在多目標定位任務中用于計算各類目標定位的平均精確度的平均值[47],計算過程如下:在目標定位任務中,模型會提供目標框內對應某類別的概率值,這個概率值被稱為置信度。在置信度高于設定閾值時,保留當前預測結果。計算預測框與目標框參考標準的IoU,在IoU結果大于設定閾值且預測框內預測類別與目標框參考標準內類別一致時,認為預測結果為真陽性。其余被認為是假陽性結果。通過由大至小改變置信度閾值,計算模型輸出結果的精確率和召回率,可以畫出Precision-Recall曲線,曲線下面積記為精確率均值(average precision,AP)[48]。在得到每個類別的目標檢測AP后,可求目標檢測任務的mAP測度:
![]() |
公式(14)中K為目標檢測任務中包含類別總數,APi為第i個類別目標預測結果的AP測度值。
3、病變體征分割
分割任務的模型評估指標主要有DICE系數(dice coefficient)、Jaccard系數(交并比)、靈敏度、特異性等。其中,由于分割任務可視為將圖像像素點分為前景與背景的二分類任務,因此靈敏度和特異性兩個指標可用于評估分割模型對每個像素點判別的效果。
DICE系數,分割輪廓與參考標準輪廓的交集占分割輪廓與參考標準輪廓平均值的比例:
![]() |
其中|X∩Y|是X和Y之間的交集,|X|和|Y|分表表示X和Y的元素的個數。
Jaccard系數(jaccard coefficient):分割輪廓與參考標準輪的交集占分割輪廓與目標輪廓并集的比例,又稱交并比(IoU)。
![]() |
4、其他應用模型評估
本指南第3部分第4節“AI算法的其他應用”介紹了兩類在疾病維度分析的AI模型,分別用于疾病的分類(診斷)和分級。由于這兩類應用均屬于分類研究,因此評估指標可參考本指南第4部分第5節第1條。
5、模型綜合評估指標
(1)篩查符合率:模型提供的陽性病例結果占中心閱片判定陽性病例結果的百分比。(2)重復性需求:同一操作醫生/技師在滿足配置環境要求的不同服務器上部署運行AI輔助篩查系統,對于同一張圖像,應能再現其預測結果。(3)再現性需求:不同操作醫生/技師在同一配置環境下于不同時間段分別獨立部署運行AI輔助篩查系統,對于同一張圖像,應能再現其預測結果。(4)健壯性需求:AI篩查系統對于多中心、多機型臨床數據應有穩定的指標表現,主要指標的統計性能變化建議控制在一定范圍內,具體范圍數值需視篩查系統功能和相應醫療器械標準、法規而定。
五 AI黃斑區域病變體征篩查系統的應用標準
一 AI輔助篩查系統的類型
離線版AI系統可安裝在計算機或移動電子設備上,無需網絡即可對輸入的眼底彩照進行黃斑區域病變體征的智能篩查輔助診斷,并生成篩查報告。離線版AI系統反饋速度快,參考《基于眼底照相的糖尿病視網膜病變人工智能篩查系統應用指南》[10]建議,離線版AI系統輸入彩色眼底照片至輸出篩查結果時間應控制在1 min以內。本指南建議應用機構保留篩查系統的離線版本。
在線版AI系統適用于有一定網絡使用條件的單位,需要將脫敏的眼底彩照通過網絡傳輸上傳到云端,隨后在云端進行黃斑區域病變體征的智能篩查,并傳回結果。之后結合受檢者信息,生成報告供使用者下載、確認。在線版系統對硬件設備、網絡傳輸速度和傳輸安全要求高。參考《基于眼底照相的糖尿病視網膜病變人工智能篩查系統應用指南》[10],在線版AI系統輸入彩色眼底照片至輸出篩查結果時間應控制在5 min內。
二 篩查系統的架構和功能
黃斑區域病變體征輔助篩查系統應當具備的架構包括受檢者管理、采集圖像顯示、采集圖像質量評估、AI篩查、專科醫生擬診意見輸入和報告生成。篩查系統的功能視實際應用需求而定,可包括判別病變體征是否存在、病變等級、提供病變體征所處區域、具體輪廓等功能。系統的部署應當適應相應機構的環境和網絡情況。
1、受檢者管理
在系統中可進行受檢者信息的錄入、修改和查看。受檢者信息包括個人基本信息[如姓名、年齡、性別、醫療身份標識(ID)等]和相關檢查信息(如視力、眼壓、血壓等),可為醫生提供詳細的患者信息,以此核實采集圖像與患者匹配無誤。
2、圖像顯示
展示采集的右眼、左眼的眼底圖像。該圖不可編輯,但可被縮放、平移,方便醫生分析。
3、圖像質量評估
本指南建議采用的質量評分方案應覆蓋拍攝位置、亮度、清晰度、以及信息是否缺失四部分(詳見第4部分第1節“數據收集與質量控制”),以判斷圖像質量是否能夠用來觀察或檢測黃斑區域病變體征。篩查系統可提供當前采集圖像的質量評估結果(合格、可接受、不合格)。
4、AI篩查
篩查系統最主要的模塊即為AI篩查,系統開發者需根據設計的篩查功能,訓練相應的AI模型,使其完成AI篩查環節。AI模型輸出的結果將展示在篩查系統提供的最終報告中,且需注明“該結果來自AI篩查系統”。報告中展示的篩查結果形式取決于系統預設的篩查功能,即預測受檢者是否屬于轉診病例、判斷圖像中具體出現了何種病變體征、提供病變體征所處區域、病變體征輪廓信息等。
5、專科醫生擬診意見
專科醫生復核AI篩查結果,并提供擬診意見。參考國內外現有的AI輔助篩查系統應用指南[9],擬診意見建議在24 h內提供。本指南建議設計的篩查系統中預留專科醫生擬診意見輸入模塊。
6、報告生成
篩查報告以電子版或紙質版形式提供給受檢者,內容應覆蓋本指南的篩查范圍,且符合健康體檢主檢報告撰寫標準和規范[49]。
7、篩查系統部署方式
離線版AI黃斑區域病變體征篩查系統部署在本地設備中,在線版AI黃斑區域病變體征篩查系統使用云端遠程部署。
三 彩色眼底圖像采集硬件要求
黃斑區域病變體征篩查系統建議使用半自動或全自動免散大瞳孔平面彩色眼底照相機,各項指標參數應參考如下要求:(1)對焦方式:機器可支持自動對焦。(2)曝光方式:機器支持自動曝光。(3)視場角度:使用單視野時水平方向不小于45°,垂直方向不小于45°[35];或使用雙視野時每個視野水平方向不小于45°,垂直方向不小于45°。(4)可拍攝的最小瞳孔直徑:標準模式瞳孔最小約4 mm,小瞳孔模式瞳孔最小約3.3 mm。(5)分辨率:視野范圍內最小分辨率不小于眼底照相機行業標準要求[50]。(6)屈光補償范圍:不小于±15 D。(7)內固視點:眼底照相機的內置固視點至少可調節至3個位置,分別對應以視盤中心為視野中心、以黃斑中心為視野中心、以視盤和黃斑連線的中點為視野中心的位置,且可根據需要指定固視點。(8)圖像存儲格式:支持無損壓縮的TIFF格式或無損壓縮的PNG格式,支持壓縮JPEG格式(壓縮比例不大于10:1),支持DICOM格式。(9)圖像拍攝像素:不低于1 800萬像素。
四 圖像采集視野標準
1、單視野拍攝法:以黃斑和視盤連線的中點為拍攝視野的中心,成像至少涵蓋45°視網膜區域[35](圖11A)。

2、雙視野拍攝法:視野1以黃斑中心小凹為拍攝視野的中心,成像至少涵蓋45°視網膜區域;視野2以視盤為拍攝視野的中心,成像至少涵蓋45°視網膜區域,且能涵蓋視盤周邊2 DD的區域,能夠清晰觀察到視盤、黃斑區、上下方視網膜血管弓的第一分支(圖11B,11C)。
拍攝的圖像質量需按照本指南第4部分第1節“數據收集與質量控制”中的標準進行判別,對于不合格圖像需重新拍攝。
五 黃斑區域病變的AI篩查方案
1、彩色眼底圖像的質量評估
AI系統分析前可對圖像進行質量評估,此模塊將根據圖像質量控制標準,從拍攝位置、清晰度和可讀范圍三個角度考察采集圖像的質量:(1)拍攝位置:檢查圖像各區域是否有偏轉、移位。(2)清晰度:檢查對焦是否準確,視盤表面、視網膜主干血管、視網膜分支血管、黃斑、視網膜病變等結構是否清晰可辨。(3)可讀范圍:檢查視野范圍內是否完整包含視盤、黃斑區、上下血管弓區域,是否有睫毛或其他異物遮擋。
圖像質量分為合格、可接受、不合格三種。若檢測中采集圖像質量合格,則正常進行后續AI篩查分析;若圖像質量為可接受,操作者可選擇繼新進行AI篩查分析,但在“篩查結果”處應注明“圖像質量偏差,結果僅供參考”,另外操作者也可選擇重新拍攝受檢者眼底圖像;若圖像質量不合格,操作者必須重新采集受檢者眼底圖像,若3次拍攝均得到質量不達標的圖像,則拍攝失敗,無法進行后續AI篩查分析。
2、篩查方案指導標準和原則
(1)黃斑區域病變體征分割/定位指導標準
針對本指南第2部分第2節“黃斑區域病變體征”中列出的黃斑病變體征(玻璃膜疣、地圖樣萎縮、新生血管、滲出、出血、瘢痕、色素增生等),建議AI篩查系統提供體征分割結果的可視化展示。為了方便醫生觀察病變,本指南建議篩查系統提供的可視化方式為病變體征分割結果的邊緣顯示或定位結果的檢測框顯示。
(2)黃斑區域病變體征檢出指導標準
按照本指南第2部分第2節“黃斑區域病變體征”列出的病變體征定義,建議AI篩查系統提供輸入眼底彩照中是否有以上體征存在的判別結果。
(3)黃斑區域病變體征篩查的指導原則
醫生先參考AI結果,糾正不認可的部分,再以此向患者詳細解釋說明AI篩查結果的內容和意義,同時需說明AI輔助診斷不等同于專業醫生診斷。醫生可根據AI篩查結果,并結合受檢者的視力[51]及臨床表現,為其提供下一步專業的診療建議:1)未見黃斑區域病變相關體征(低風險、無需轉診)的受檢者,建議每年進行1次眼底健康檢查。2)眼底疑似出現1項相關體征(中風險、建議轉診)的受檢者,或僅通過眼底圖無法明確判定屬于“黃斑區域病變體征”黃斑區域病變項目中體征表現,按照臨床經驗,傾向于進行進一步的檢查;3)眼底確定出現至少1項相關體征(高風險、確定轉診)的受檢者,應盡快到醫院進行詳盡的檢查。
六 篩查報告要求
(1)受檢者的基本信息:病歷號/醫療ID、姓名、年齡、性別、受檢眼別。(2)眼科相關信息:視力、眼壓、眼科疾病史、眼科治療史(手術、用藥)。(3)圖像采集設備信息:采集日期、設備型號、成像范圍、圖像儲存格式。(4)篩查系統相關信息:算法類型及版本、算法適用機型、圖像分析日期。(5)圖像評估:圖像質量。(6)AI篩查結果:受檢眼的診斷、患病或健康的概率、黃斑區域病變體征性眼底改變方面的描述。具體地,建議包括本指南第2部分“黃斑區域病變體征”中列出的病變體征是否存在結果,病變體征分割/定位顯示。(7)專科醫生擬診意見。(8)權責說明。
七 數據存儲
眼底彩照的存儲需要滿足數據的存儲安全、管理的高效和方便醫院信息系統(HIS)[52]、圖像存檔通信系統(PACS)[53]、AI輔助篩查系統在使用上的便捷。具體要求如下:(1)模型構建數據集可由開發機構存儲,模型驗證數據集可由第三方檢測機構存儲,臨床試驗數據集可由各試驗中心存儲;模型接受第三方檢測機構和臨床試驗中心測試時,建議采用盲測方式,即數據集不流入模型開發機構。(2)PNG格式、JPG格式、TIFF格式或DICOM格式存儲。(3)AI模型預測結果需保存,并能關聯到受檢者、檢查信息和眼底彩照。(4)本地和云端部署的AI篩查系統都需要對數據進行備份,在存儲容量達到一定的閾值時需要告警,系統管理員要進行存儲更新。(5)AI篩查系統和醫院PACS、HIS對接需要滿足醫療相關協議規范。
八 數據安全
參照我國《中華人民共和國數據安全法》、《個人信息保護法》、《網絡安全法》、《人口健康信息管理辦法》,應做到:
1、數據脫敏:對于不影響疾病診斷的受試者敏感信息,如姓名、聯系電話、身份證號、家庭住址等,應進行脫敏處理。數據脫敏時需注意在執行數據漂白,抹去敏感內容的同時保持原有的數據特征,保證開發、測試等不受到脫敏的影響,達成脫敏前后的數據一致性和有效性。
2、數據使用用戶管理:包括用戶身份管理、認證管理和授權管理。為每個用戶創建唯一的用戶賬號,并對用戶身份進行鑒別,確保數據訪問控制和安全審計可以追溯到個人賬號。數據訪問需有統一的身份認證機制,對于敏感數據,可采用多步驗證技術,防止誤操作。需要根據數據訪問主體身份,以及被訪問數據的密級,實現對各類數據的訪問授權。
3、數據使用日志管理:捕獲系統內完整活動的記錄且不可更改,確保每一項用戶破壞性操作被記錄審計、保證操作可回溯,進而可輔助快速定位系統是否遭受惡意的操作和攻擊。
4、傳輸加密:需通過安全傳輸方式和標準加密協議,滿足平臺以及傳輸敏感數據的需求,避免數據被非法訪問、竊聽或旁路嗅探。設置敏感數據流轉監控、數據流轉關聯分析等環節,保證流轉操作安全進行。
5、存儲安全:數據存儲過程需使用加密措施進行防護,降低數據泄露風險。加密算法需使用安全強度符合國家安全要求的商用密碼算法。存儲階段除了保障數據訪問權限的控制,還需考慮備份和容災問題,可通過本地存儲、網絡存儲等多種方式實現數據多副本多數據中心的同步和備份,實現數據的異地容災,從容應對極端災難。
6、明確責任人:AI黃斑區域病變體征篩查系統落地應用的機構需明確數據安全責任人,并制定數據安全的管理制度和應急機制。
六 AI黃斑區域病變體征篩查系統的局限與未來發展方向
目前AI系統對不同機型和不同拍攝質量圖像的篩查效果穩定性有待提高,因此,現存的AI篩查系統需對拍攝設備和拍攝方式進行嚴格的約束。值得期待的是,AI領域出現了域自適應學習(domain adaptation learning,AI技術,一種遷移學習方式,能夠有效地解決訓練樣本和測試樣本概率分布不一致的學習問題,是當前機器學習的熱點研究領域,在自然語言處理、文本分析、影像分析、生物信息學、跨語言分析、視頻分析、情感分析和手寫體識別等領域有廣泛應用)相關研究[54-55],該研究可緩解AI模型在不同機型采集的不同質量圖像上篩查效果健壯性差的問題。此外,由于AI中的深度學習技術通常是個“黑盒”,因此基于此項技術實現疾病判別的AI系統存在難以解釋的問題。本指南以病變體征為檢測目標,在第3部分“AI算法在黃斑區域病變體征篩查中的應用場景”中提出了病變體征檢測、定位、分割等任務。其中,檢測出病變體征位置可作為受試者復查時的關注區域提示,提示醫師注意一段時間內該區域內病變體征增多或減少。因此,建議在醫療場景應用AI系統時要覆蓋疾病診斷過程中的若干子任務。
本指南針對的是輸入眼底彩照單一模態數據的病變體征篩查場景,由于黃斑區域疾病的復雜性,單一模態數據無法提供全面的眼結構和病變信息,因此未來可發展多種眼底圖像模態輸入的AI輔助黃斑區域疾病的篩查系統。值得注意的是,這種輔助篩查系統迫切需要眼底檢查硬件的發展,如出現方便拍攝、價格低的光相干斷層掃描采集設備等。目前已達成共識的是AI系統在醫療中的應用需要有專業醫生的復核,因此,AI可視為輔助醫生的工具,AI篩查不等同于專業醫生診斷。目前AI篩查系統在某些疾病/體征的早期篩查中有很好的應用,可緩解篩查人口基數大、專業醫生人數不足等問題。相信在未來,會有更多基于智能技術的疾病/體征篩查系統出現。
七 附錄:黃斑區域病變體征標注參考示例(表3 )

形成指南意見的專家組成員
醫學意見指導專家組
中華醫學會眼科學分會眼底病學組
張 明 四川大學華西醫院(本文主要負責人,執筆)
許 迅 上海交通大學附屬第一人民醫院(組長)
王雨生 第四軍醫大學西京醫院 (副組長)
魏文斌 首都醫科大學附屬北京同仁醫院(副組長)
趙明威 北京大學人民醫院(副組長)
陳有信 北京協和醫院
李筱榮 天津醫科大學眼科中心
陸 方 四川大學華西醫院
劉慶淮 江蘇省人民醫院
雷 博 河南省眼科研究所
曲進鋒 北京大學人民醫院
文 峰 中山大學中山眼科中心
俞素勤 上海交通大學附屬第一人民醫院
楊衛華 南京醫科大學附屬眼科醫院
張少沖 深圳市眼科醫院
杜 亮 四川大學華西醫院 中國循證醫學中心
王冬玥 四川大學華西醫院(非學組委員,秘書)
人工智能技術意見指導專家組
許言午 北京百度網訊科技有限公司(執筆)
劉 江 南方科技大學計算機科學與工程系
徐向民 華南理工大學未來技術學院
陳 杰 鵬城實驗室
譚明奎 華南理工大學軟件學院
夏 勇 西北工業大學計算機學院
雷柏英 深圳大學生物醫學工程學院
趙一天 中國科學院寧波材料所慈溪生物醫學工程研究所
朱鵬志 廣東省醫療器械質量監督檢驗所
方慧卉 北京康夫子健康技術有限公司(秘書)
楊大陸 北京百度網訊科技有限公司
孫欽佩 北京康夫子健康技術有限公司
張思琦 北京百度網訊科技有限公司
指南外審專家組成員
醫學專家組
姚克 浙江大學醫學院附屬第二醫院
黎曉新 廈門大學附屬廈門眼科中心
王寧利 北京同仁醫院
孫興懷 復旦大學附屬眼耳鼻喉科醫院
惠延年 空軍軍醫大學西京醫院
陳長征 武漢大學人民醫院
李世迎 廈門大學附屬翔安醫院
劉曉玲 溫州醫科大學附屬眼視光醫院
盧 海 北京同仁醫院
呂 林 中山大學中山眼科中心
彭曉燕 北京同仁醫院
沈 吟 武漢大學人民醫院
孫曉東 上海交通大學附屬第一人民醫院
王 敏 復旦大學附屬眼耳鼻喉科醫院
徐格致 復旦大學附屬眼耳鼻喉科醫院
嚴 宏 西安市第四醫院
顏 華 天津醫科大學總醫院
于偉泓 北京協和醫院
張 含 中國醫科大學附屬第一醫院
趙培泉 上海交通大學醫學院附屬新華醫院
人工智能專家組
閔 棟 中國信息通信研究院云計算與大數據研究所
王 浩 中國食品藥品檢定研究院
何暉光 中國科學院自動化研究所
段立新 電子科技大學計算機科學與工程學院
吳慶耀 華南理工大學軟件學院
聲明 本指南制定嚴格按照世界衛生組織、中華醫學會的指南制定規范,并參考指南研究與評價工具和國際實踐指南報告標準,旨在為基層眼底篩查服務提供指導,不是在各種情況下都必須遵循的醫療標準,也不是為特殊個體提供的保健措施;本指南所包括的信息或資料的準確性、完整性、合法性、可靠性、可操作性不承擔任何法律責任;本指南制定過程中嚴格遵循世界衛生組織指南制定利益沖突條例和指南倫理道德標準,全體參與成員均填寫利益沖突聲明表,經過評價與指南制定不存在直接利益沖突