目前人工智能(AI)在多種眼科疾病的診斷治療中取得了日益廣泛的應用,但依然存在很多問題。由于AI產品的準確性缺乏標準測試集、金標準以及公認的評價體系,難以對多項研究結果進行橫向比較。而在圖像生成領域,評價體系更存在較大空白。在臨床應用中,眼科AI研究常與臨床實際需求脫節,被寄予了過高的期望,且對臨床數據的質量及數量均具有較高的要求,限制了AI研究成果轉化。利用眼底影像對全身性疾病進行預測、識別是新晉的研究熱點,但其研究結果缺乏可解釋性,限制了臨床醫生的接受度。眼科AI研究也因缺乏完善的法律規定、監管機制,涉及患者隱私風險及數據安全,且存在因商業化加重醫療資源不公平性的風險,而飽受倫理爭議。
引用本文: 陳有信, 馮時, 趙清. 眼科人工智能研究的相關問題. 中華眼底病雜志, 2022, 38(2): 89-92. doi: 10.3760/cma.j.cn511434-20220210-00077 復制
近年來,基于人工智能(AI)針對多種眼科疾病進行篩查、診斷、療效預測、治療方案選擇和并發癥預測的研究大量涌現,且病種幾乎涵蓋眼科所有常見疾病。由于眼科AI研究多基于大數據及圖像,早期多集中于糖尿病視網膜病變、視網膜靜脈阻塞、老年性黃斑變性、青光眼等常見眼后節疾病,而近年來越來越多AI研究涉及圓錐角膜、感染性角膜炎、屈光手術、角膜移植、翼狀胬肉、白內障、閉角型青光眼、虹膜腫瘤等眼前節疾病[1]。研究納入的圖像數據從過去比較單一的彩色眼底像,到光相干斷層掃描(OCT),或與OCT相結合的多模態影像,也有諸如熒光素眼底血管造影、裂隙燈顯微鏡、角膜地形圖、角膜內皮顯微鏡、眼前節OCT、超聲生物顯微鏡等,種類日益增多[1]。目前,多項研究已經證實AI可以僅憑借一張彩色眼底像對多種眼底疾病進行篩查,其篩查能力也通過了真實世界數據的檢驗[2],超廣角彩色眼底像也為快速病變識別、眼底病篩查提供了新的可能性[3]。在識別特定病灶、鑒別診斷相似疾病、分級評估病情、預測疾病進程、預測治療反應等方面,AI也具有極大潛力[4]。盡管眼科AI研究方興未艾,成果豐碩,但依然存在很多問題。
1 眼科AI效果評價問題
1.1 不可證偽的預測
AI的一大特點是“黑箱模型”,算法作為擬合函數,依據輸入值給出輸出值,但其內部運算機制及對應的臨床特征并不明確,缺乏可解釋性,這也限制了臨床醫生對AI算法的接受度。這一問題在基于AI進行預測的研究問題中尤為普遍,因為預測結果往往是無法證偽的。目前認為,雖然針對特征人群的診斷或治療效果進行預測是有價值的,但是對于個體診斷進行的預測卻難以評價其真實效果。因此,寄希望于AI技術指導個體患者的診療思路是不可行的。
1.2 缺乏公認評價體系
目前尚無公認的評價體系對AI產品的準確性進行評價。目前基于深度學習算法進行診斷的眾多研究采用了多種方法計算模型的效果,這就導致多項研究之間難以進行橫向比較,從而評價研究結果的優劣。而且由于模型的測試結果只對測試集負責,標準測試集的缺乏也導致針對某一模型的評價難以被廣泛認可。也就是說,在某個測試集上表現十分優秀的算法,在另外一個十分相似的測試集上也未必能有同樣出色的表現。有研究提出,算法模型的全面評價應包括疾病發病率、1類及2類錯誤、置信區間、目標準確度、靈敏度及特異性等眾多指標[5],但這也不足以解決標準測試集缺乏帶來的評價問題。此外,許多研究采用的金標準可能缺乏權威性,不足以用于評價AI模型。Krause等[6]發現,在針對糖尿病視網膜病變的微動脈瘤、視網膜出血等病灶的標注方面,眼底病醫生的標注準確性顯著高于所有眼科醫生綜合的標注準確性。因此,AI研究采用的金標準數據來源也十分重要,應對具體醫生專業、年資進行詳細說明。
1.3 圖像生成領域評價困境
如果AI研究輸出的并非特定判斷或分類,而是合成圖像,采用何種指標對合成圖像的真實性及準確性進行衡量需要進一步研究及探討。目前廣泛采用的方法為請不參與研究的眼科醫生在生成圖像、真實圖像中挑選出真實圖像,依據醫生識別出真實圖像的幾率,評判生成圖像是否具備“以假亂真”的能力。比如,2020年Liu等[7]利用AI算法,基于老年性黃斑變性患者治療前的OCT圖像,生成接受抗血管內皮生長因子藥物治療后的OCT圖像。該研究僅能通過臨床醫生分辨真偽圖像的幾率來定性評估圖像的真實性,無法對生成圖像的優劣進行定量評價。這是所有圖像生成類AI研究面臨的共性問題。
2 眼科AI臨床應用中的問題
2.1 期望過高
盡管深度學習算法可以從大量數據中識別出那些復雜的非線性關系,但是依然無法挖掘出不存在于數據中的信息。目前一大熱門研究方向是利用AI對未來發展進行預測,包括對患者接受特定治療效果、病情進展速度、并發癥發生幾率等進行預測。但是由于很多疾病的發展受到除臨床因素外的社會心理等因素影響,單純依賴臨床數據的深度學習算法在預測疾病長期預后等問題上有較大局限性[8]。針對大部分經驗豐富的臨床醫師都無法解答的問題,AI技術往往也無法給出答案。對AI技術抱有脫離現實情況的幻想是不切實際的。
2.2 數據需求量大
AI算法高度受限于訓練及測試的數據質量。AI所需數據量大,數據來源多種多樣,且多半并非結構化數據。這一點與經過審慎的研究設計、盡量避免數據偏倚的傳統臨床研究不同。患者個人意愿、數據采集不全、患者人群偏倚等問題都會導致納入算法模型的數據出現偏倚[8],數據來源單一也會導致研究結果過擬合,缺乏推廣應用價值。對于高度依賴影像學的眼科來說,不同設備采集的影像之間就存在掃描范圍、圖片清晰度、放大倍數、對特定結構識別能力等差異,從而影響算法模型的準確性和普適性[5]。通過納入多個人種、多種設備的數據增加數據多樣性有助于解決這一問題[9]。此外,醫學數據具有其時效性,尤其是對于利用深度學習算法進行預測的問題,臨床數據的相關性“半衰期”僅有大概4個月[10],這就對臨床數據的收集提出了更高的要求。
2.3 與臨床實際需求脫節
現有的AI研究常致力于將AI與臨床醫師的表現進行反復對比,以期證明AI可以超越臨床醫生,而這其實是脫離臨床需求的。基于AI的眼科研究需要將臨床醫學與計算機科學這兩個截然不同的領域結合起來。兩個領域的碰撞有助于為許多問題提供嶄新的解讀視角,從而誕生大量的相關研究。但是作為眼科醫生,我們應明確AI的作用是輔助醫師解決臨床問題的工具。比如,利用AI對人群進行可疑病變的篩查,需要與AI技術人員達成共識,調整算法參數的設置,保證算法具備較高的靈敏度,降低漏診率。將AI與臨床醫生結合,實現1+1>2的效果,才是AI最好的出路。
3 眼底影像與全身疾病關聯性研究的問題
視網膜血管是全身唯一可視的小血管,可以反映出患者的全身健康狀況。而眼底彩色照相便宜、便捷,適用于人群的廣泛篩查。目前已有多項研究利用眼底彩色照相研發AI,對患者的年齡、性別、身高、體重、身體系數、血壓水平、血糖水平、甲狀腺功能、腎功能、是否吸煙、頸動脈硬化評分、心腦血管不良事件發生率和冠脈鈣沉積指數進行預測,且均取得了較高的準確性[11-14],躍升為新晉研究熱點。但廣受爭議的問題是,為何僅用1張彩色眼底像可以發映出如此之多的患者信息,甚至包括性別、身高這類臨床意義上與小血管關聯不強的信息。部分研究應用熱圖或軟性注意力機制分析模型識別出深度學習算法著重分析的圖像區域,可以幫助臨床醫生理解算法機制,提高接受度[13,15],但是也不能完全解釋“黑箱子”帶來的疑惑。
缺乏可解釋性意味著臨床醫師對AI產品的接受度、信任度降低,從而增加了研究落地、成果轉化的困難。目前有研究通過輸出一個中間媒介,來解釋AI模型的輸出結果。比如,De Fauw等[16]提出的算法模型可以依據OCT圖像診斷中心性漿液性脈絡膜視網膜病變。該模型可以進行圖像分隔,定量評估與病變緊密相關的病變結構,生成視網膜各層結構厚度的二維圖形,幫助臨床醫生理解模型的診斷過程。
4 眼科AI研究的倫理問題
4.1 法律規定與監管機制
AI產品想要應用于臨床實踐必須滿足國家藥品監督管理總局關于醫療器械的相關法規要求,保證AI技術安全、可靠且可控地發展,明確醫療AI的責任承擔問題。此前,我國國家衛生健康委員會醫院管理研究所發布《人工智能藍皮書:中國醫療人工智能發展報告》對擁有自主性的強AI產品進行了進一步的探討,提出所有倫理審查辦法必須符合世界醫學會發布的《赫爾辛基宣言》、世界衛生組織參與制定的《涉及人的健康相關研究國際倫理指南》、我國原國家衛生與計劃生育委員會頒布的《涉及人的生物醫學研究倫理審查辦法》,全面分析解決AI技術研究和臨床轉化應用中敏感的、特有的倫理問題。
4.2 隱私風險及數據安全
醫療AI的研發、測試、應用過程都涉及到大量寶貴的醫療數據資源。包括患者個人基本信息、疾病信息在內的醫療數據的收集、儲存、處理及使用均需要審慎處理。作為臨床醫生,應保證患者對數據使用的知情同意,且在將數據交由AI技術人員進行處理前,由己方或第三方機構對患者隱私數據進行脫敏。此外,醫療數據應只在研究限定范圍內使用,而非成為AI產品研發企業的數據儲備。如何在利用大數據研發AI技術的同時保護數據安全,也是亟需思考的問題。
4.3 商業化將加劇醫療資源不均
基于深度學習的眼科AI技術發展,將有助于提高基層醫療質量,優化醫療資源配置,輔助基層醫生進行臨床診療。但另一方面,如果AI產品過度商業化,甚至被醫藥企業壟斷,隨之而來的利益糾紛將令這項技術只能在少數經濟發達地區應用,造成醫療資源分布的進一步失衡,侵犯貧困患者平等的生命健康權利。對于那些可以切實提高醫療質量的AI技術,醫療從業者應肩負其推廣普及義務,讓各個地區的患者都可以從中獲益[4]。
近年來,基于人工智能(AI)針對多種眼科疾病進行篩查、診斷、療效預測、治療方案選擇和并發癥預測的研究大量涌現,且病種幾乎涵蓋眼科所有常見疾病。由于眼科AI研究多基于大數據及圖像,早期多集中于糖尿病視網膜病變、視網膜靜脈阻塞、老年性黃斑變性、青光眼等常見眼后節疾病,而近年來越來越多AI研究涉及圓錐角膜、感染性角膜炎、屈光手術、角膜移植、翼狀胬肉、白內障、閉角型青光眼、虹膜腫瘤等眼前節疾病[1]。研究納入的圖像數據從過去比較單一的彩色眼底像,到光相干斷層掃描(OCT),或與OCT相結合的多模態影像,也有諸如熒光素眼底血管造影、裂隙燈顯微鏡、角膜地形圖、角膜內皮顯微鏡、眼前節OCT、超聲生物顯微鏡等,種類日益增多[1]。目前,多項研究已經證實AI可以僅憑借一張彩色眼底像對多種眼底疾病進行篩查,其篩查能力也通過了真實世界數據的檢驗[2],超廣角彩色眼底像也為快速病變識別、眼底病篩查提供了新的可能性[3]。在識別特定病灶、鑒別診斷相似疾病、分級評估病情、預測疾病進程、預測治療反應等方面,AI也具有極大潛力[4]。盡管眼科AI研究方興未艾,成果豐碩,但依然存在很多問題。
1 眼科AI效果評價問題
1.1 不可證偽的預測
AI的一大特點是“黑箱模型”,算法作為擬合函數,依據輸入值給出輸出值,但其內部運算機制及對應的臨床特征并不明確,缺乏可解釋性,這也限制了臨床醫生對AI算法的接受度。這一問題在基于AI進行預測的研究問題中尤為普遍,因為預測結果往往是無法證偽的。目前認為,雖然針對特征人群的診斷或治療效果進行預測是有價值的,但是對于個體診斷進行的預測卻難以評價其真實效果。因此,寄希望于AI技術指導個體患者的診療思路是不可行的。
1.2 缺乏公認評價體系
目前尚無公認的評價體系對AI產品的準確性進行評價。目前基于深度學習算法進行診斷的眾多研究采用了多種方法計算模型的效果,這就導致多項研究之間難以進行橫向比較,從而評價研究結果的優劣。而且由于模型的測試結果只對測試集負責,標準測試集的缺乏也導致針對某一模型的評價難以被廣泛認可。也就是說,在某個測試集上表現十分優秀的算法,在另外一個十分相似的測試集上也未必能有同樣出色的表現。有研究提出,算法模型的全面評價應包括疾病發病率、1類及2類錯誤、置信區間、目標準確度、靈敏度及特異性等眾多指標[5],但這也不足以解決標準測試集缺乏帶來的評價問題。此外,許多研究采用的金標準可能缺乏權威性,不足以用于評價AI模型。Krause等[6]發現,在針對糖尿病視網膜病變的微動脈瘤、視網膜出血等病灶的標注方面,眼底病醫生的標注準確性顯著高于所有眼科醫生綜合的標注準確性。因此,AI研究采用的金標準數據來源也十分重要,應對具體醫生專業、年資進行詳細說明。
1.3 圖像生成領域評價困境
如果AI研究輸出的并非特定判斷或分類,而是合成圖像,采用何種指標對合成圖像的真實性及準確性進行衡量需要進一步研究及探討。目前廣泛采用的方法為請不參與研究的眼科醫生在生成圖像、真實圖像中挑選出真實圖像,依據醫生識別出真實圖像的幾率,評判生成圖像是否具備“以假亂真”的能力。比如,2020年Liu等[7]利用AI算法,基于老年性黃斑變性患者治療前的OCT圖像,生成接受抗血管內皮生長因子藥物治療后的OCT圖像。該研究僅能通過臨床醫生分辨真偽圖像的幾率來定性評估圖像的真實性,無法對生成圖像的優劣進行定量評價。這是所有圖像生成類AI研究面臨的共性問題。
2 眼科AI臨床應用中的問題
2.1 期望過高
盡管深度學習算法可以從大量數據中識別出那些復雜的非線性關系,但是依然無法挖掘出不存在于數據中的信息。目前一大熱門研究方向是利用AI對未來發展進行預測,包括對患者接受特定治療效果、病情進展速度、并發癥發生幾率等進行預測。但是由于很多疾病的發展受到除臨床因素外的社會心理等因素影響,單純依賴臨床數據的深度學習算法在預測疾病長期預后等問題上有較大局限性[8]。針對大部分經驗豐富的臨床醫師都無法解答的問題,AI技術往往也無法給出答案。對AI技術抱有脫離現實情況的幻想是不切實際的。
2.2 數據需求量大
AI算法高度受限于訓練及測試的數據質量。AI所需數據量大,數據來源多種多樣,且多半并非結構化數據。這一點與經過審慎的研究設計、盡量避免數據偏倚的傳統臨床研究不同。患者個人意愿、數據采集不全、患者人群偏倚等問題都會導致納入算法模型的數據出現偏倚[8],數據來源單一也會導致研究結果過擬合,缺乏推廣應用價值。對于高度依賴影像學的眼科來說,不同設備采集的影像之間就存在掃描范圍、圖片清晰度、放大倍數、對特定結構識別能力等差異,從而影響算法模型的準確性和普適性[5]。通過納入多個人種、多種設備的數據增加數據多樣性有助于解決這一問題[9]。此外,醫學數據具有其時效性,尤其是對于利用深度學習算法進行預測的問題,臨床數據的相關性“半衰期”僅有大概4個月[10],這就對臨床數據的收集提出了更高的要求。
2.3 與臨床實際需求脫節
現有的AI研究常致力于將AI與臨床醫師的表現進行反復對比,以期證明AI可以超越臨床醫生,而這其實是脫離臨床需求的。基于AI的眼科研究需要將臨床醫學與計算機科學這兩個截然不同的領域結合起來。兩個領域的碰撞有助于為許多問題提供嶄新的解讀視角,從而誕生大量的相關研究。但是作為眼科醫生,我們應明確AI的作用是輔助醫師解決臨床問題的工具。比如,利用AI對人群進行可疑病變的篩查,需要與AI技術人員達成共識,調整算法參數的設置,保證算法具備較高的靈敏度,降低漏診率。將AI與臨床醫生結合,實現1+1>2的效果,才是AI最好的出路。
3 眼底影像與全身疾病關聯性研究的問題
視網膜血管是全身唯一可視的小血管,可以反映出患者的全身健康狀況。而眼底彩色照相便宜、便捷,適用于人群的廣泛篩查。目前已有多項研究利用眼底彩色照相研發AI,對患者的年齡、性別、身高、體重、身體系數、血壓水平、血糖水平、甲狀腺功能、腎功能、是否吸煙、頸動脈硬化評分、心腦血管不良事件發生率和冠脈鈣沉積指數進行預測,且均取得了較高的準確性[11-14],躍升為新晉研究熱點。但廣受爭議的問題是,為何僅用1張彩色眼底像可以發映出如此之多的患者信息,甚至包括性別、身高這類臨床意義上與小血管關聯不強的信息。部分研究應用熱圖或軟性注意力機制分析模型識別出深度學習算法著重分析的圖像區域,可以幫助臨床醫生理解算法機制,提高接受度[13,15],但是也不能完全解釋“黑箱子”帶來的疑惑。
缺乏可解釋性意味著臨床醫師對AI產品的接受度、信任度降低,從而增加了研究落地、成果轉化的困難。目前有研究通過輸出一個中間媒介,來解釋AI模型的輸出結果。比如,De Fauw等[16]提出的算法模型可以依據OCT圖像診斷中心性漿液性脈絡膜視網膜病變。該模型可以進行圖像分隔,定量評估與病變緊密相關的病變結構,生成視網膜各層結構厚度的二維圖形,幫助臨床醫生理解模型的診斷過程。
4 眼科AI研究的倫理問題
4.1 法律規定與監管機制
AI產品想要應用于臨床實踐必須滿足國家藥品監督管理總局關于醫療器械的相關法規要求,保證AI技術安全、可靠且可控地發展,明確醫療AI的責任承擔問題。此前,我國國家衛生健康委員會醫院管理研究所發布《人工智能藍皮書:中國醫療人工智能發展報告》對擁有自主性的強AI產品進行了進一步的探討,提出所有倫理審查辦法必須符合世界醫學會發布的《赫爾辛基宣言》、世界衛生組織參與制定的《涉及人的健康相關研究國際倫理指南》、我國原國家衛生與計劃生育委員會頒布的《涉及人的生物醫學研究倫理審查辦法》,全面分析解決AI技術研究和臨床轉化應用中敏感的、特有的倫理問題。
4.2 隱私風險及數據安全
醫療AI的研發、測試、應用過程都涉及到大量寶貴的醫療數據資源。包括患者個人基本信息、疾病信息在內的醫療數據的收集、儲存、處理及使用均需要審慎處理。作為臨床醫生,應保證患者對數據使用的知情同意,且在將數據交由AI技術人員進行處理前,由己方或第三方機構對患者隱私數據進行脫敏。此外,醫療數據應只在研究限定范圍內使用,而非成為AI產品研發企業的數據儲備。如何在利用大數據研發AI技術的同時保護數據安全,也是亟需思考的問題。
4.3 商業化將加劇醫療資源不均
基于深度學習的眼科AI技術發展,將有助于提高基層醫療質量,優化醫療資源配置,輔助基層醫生進行臨床診療。但另一方面,如果AI產品過度商業化,甚至被醫藥企業壟斷,隨之而來的利益糾紛將令這項技術只能在少數經濟發達地區應用,造成醫療資源分布的進一步失衡,侵犯貧困患者平等的生命健康權利。對于那些可以切實提高醫療質量的AI技術,醫療從業者應肩負其推廣普及義務,讓各個地區的患者都可以從中獲益[4]。