在人工智能醫學影像領域,影像標注是所有人工智能研發的關鍵因素。傳統的人工標注過程中,數據獲取困難、手工勞動強度大、專業性強、標注質量低等問題突出,亟需智能化的多模態醫學影像標注系統,去滿足標注工作的開展。因此,四川大學華西醫院基于影像云平臺收集了院內和聯盟醫院的多模態影像數據,通過信息化技術設計了多模態醫學影像標注系統,集成各種圖像處理算法以及人工智能模型來簡化影像數據標注工作。標注系統的建設提高了院內數據標注效率,為院內人工智能影像研究和相關產業建設提供必要的數據支持,從而推動院內醫學影像相關的人工智能產業落地。
引用本文: 楊豪, 張睿, 王覓也. 基于影像云的多模態醫學影像標注系統的開發. 華西醫學, 2021, 36(9): 1271-1276. doi: 10.7507/1002-0179.202012182 復制
目前人工智能(artificial intelligence,AI)和大數據技術已廣泛應用于醫學影像領域[1],通過智能模型對影像數據進行分析和挖掘,幫助臨床實現疾病篩查、輔助決策、預后評估等工作,減輕醫生負擔的同時提升患者滿意度[2]。經調研,國內大型三級甲等醫院在 AI 結合醫學影像研究與產品化的過程中,都會面臨模型的穩健性和有效性低這樣的共性問題,其主要原因在于原始醫學影像數據與計算機模型算法之間固有的“語義鴻溝”,導致原始數據不能直接用于智能模型訓練[3],而數據標注預先把需計算機識別的影像打上標簽,產生訓練數據,通過計算機不斷識別這些圖像特征,最終實現計算機的自主識別。訓練數據的量級和標準化程度直接決定了 AI 模型的表現能力[4];此外,同一病例可有多種不同的影像形態表現形式包括數字放射成像、CT、MRI 等,雖然多模態數據因成像機制不同而能從多種層面提供臨床信息,但多模態影像也加大了院內數據標注的工作量和實現難度。隨著標注工作的展開發現,目前存在的主要瓶頸如下:① 缺少影像數據標注模板,標注數據的一致性很難統一,當患者數據存在多種復雜征象標注工作時,醫生或相關研究人員需要花費大量時間和精力來進行樣本標注,導致其缺乏相應的科研或產品開發動力;② 醫院存有多種模態的影像數據,但缺少系統平臺可以同時兼容多模態數據的標注工作;③ 在醫學影像標注領域,標注需求差異巨大、標注場景多變,多樣的標注類型,使得標注工作繁瑣耗時且錯誤頻出,如何結合標準的標注模板和 AI 技術來輔助醫生進行數據標注,在提升標注效率的同時保證標注的準確性也是當前的一大難點。近年隨著云計算、存儲技術在醫療行業應用的不斷成熟,四川大學華西醫院已協同各醫療聯合體(醫聯體)單位建設了區域級別的影像云中心,實現了影像數據的快速調用。基于影像云建立多模態數據標注系統,將完成針對多模態數據的復雜征象標注工作,結合圖像算法和 AI 技術提升標注效率和標注數據質量。自 2020 年底,基于影像云的多模態醫學影像標注系統已在院內上線使用,不僅能滿足院內相關科研需求,更能反哺院內智能應用,得到更加精確的輔助診斷模型。通過院內數據標注,可得到大量帶標簽的影像數據,為院內 AI 研究和相關智能應用提供寶貴的數據資產。本文將就基于影像云的多模態醫學影像標注系統的開發應用作一介紹。
1 系統結構開發
1.1 系統架構
系統整體基于 asp.net core 技術的 B/S 架構進行平臺架構設計,適配 Chrome 瀏覽器;數據庫采用 MSSQL 的主從方式搭建來保證數據安全;前端則基于 Element-UI 和 Vue.js 框架進行開發;由于涉及到影像 AI 相關處理,服務器硬件資源采用 NVDIA Tesla V100、32GB 內存以及 2.2 GHz 主頻的 Intel Xeon E5-2650 v4(Broadwell)處理器。此外,為保證醫生閱片及標注的流暢度,客戶端內存配置為 8 G,單用戶帶寬設置為 20 M。
為保障數據安全,系統通過虛擬專用網絡[5]對接影像云系統。通過及時獲取院內及醫聯體單位的影像數據,提供標注服務,形成區域級別的影像標注平臺。標注結果僅以對象簡譜(Java Script Object Notation,JSON)形式[6]保存在服務器中,不用占據過多的存儲資源。當臨床業務或科研使用時,自動調用原始影像和 JSON 標注結果生成標注影像,從而實現同院內信息化環境相融合,系統架構見圖1。

1.2 流程設計
以往的數據標注過程,是科室自發組織人員借助各種開源工具(如 3D Slicer、itk-SNAP 等)來進行標注[7]。但醫學影像標注所需的類型及標簽繁多,一項標注任務,可能需要同時借助多款標注軟件,同時由于缺乏系統化的組織和管理,數據標注的質量無法得到保障。此外,不同醫生的標注習慣存在一定的差異,標注流程和規范難以統一,后續標注數據的整合和處理,往往會耗費科研人員大量的時間和精力。因此為規范數據標注流程,提升數據標注質量,保證數據安全,系統采用項目制管理的方式。各科室根據需求建立相應的項目組配置成員角色,包括項目管理員、標注員、審核員。
項目管理員:基于院內不同科室需求分配項目管理員,負責各自項目內的標注人員、審核人員的角色分配、任務分配,及標注后數據的管理和共享配置等;可根據研究需求設置標注次數,單一任務支持同時分配給多人標注。此外,系統支持多模態影像數據的標注,可覆蓋院內大部分影像數據的需求,為保證標注數據的一致性,需要項目管理員對標注數據、標注模型、標注模板進行統一配置見圖2。

標注員:標注員通過查看任務列表,獲取需要標注的影像數據,再按照統一模板進行標注工作。同時支持按時間維度和患者唯一識別號(通常是院內登記號)等方式來篩選標注任務。為保障標注過程中數據不丟失,支持在線標注和離線標注后上傳 2 種標注模式。
審核員:通常是由擁有豐富臨床經驗的醫師擔任,負責審核項目組成員已標注的數據,通過任務審核機制來盡可能保證標注數據質量,進行數據校對和標注修改或補充,可以將不合格的標注數據回傳給標注員重新標注。
數據標注過程中通過各個角色成員之間的相互分工和配合,盡可能將院內的標注流程規范化、合理化,提高數據質量和標注效率,具體流程見圖3。

1.3 標注功能設計
訓練數據集的大小以及數據標注的準確性是 AI 相關研究有效性的基礎[8]。系統支持讀取多種模態的影像信息并展示,在數據標注模塊中不僅提供了支持點、框、線等的基礎標注工具,還提供了多種智能標注工具,來提升標注效率。此外,結合 AI 模型,提供了 AI 輔助標注功能,使標注過程更加智能和準確。
1.3.1 基本標注模塊
臨床診斷往往涉及多種數據模態,如 MRI、X 線、超聲等,同時也包含多種數據格式,如圖像、視頻、三維數據等。平臺兼容全部數據模態和格式,對于影像數據,支持多樣的基本標注方式,包括點、線、面、體的交叉組合,樣本的類別標注,病灶區域的框選,以及像素級別的區域標注等。在基本標注完成后,支持對標注影像進行反復修改,逐步提升標注精度。
1.3.2 智能標注工具
基于各種圖形圖像算法,能夠加快標注員的標注效率,簡化標注過程,極大地降低人力成本并使標注質量大幅提升。本系統支持以下智能標注方式:① 基于水平集[9]算法的輪廓標注功能,操作者只需要確定一個大的篩選框,算法可以自動找出框內輪廓;② 基于自適應算法[10]的框選方法,標注工具可以自動調整框的位置和大小,確定標注病灶區的最小邊界框;③ 自動化輪廓跟蹤,基于智能剪刀算法(intelligent scissors)[11],跟據圖像邊緣信息搜索 2 個種子點之間的最優路徑,有效的引導用戶得到準確的目標邊界。標注效果見圖4。

a. 基于水平集的輪廓標注;b. 自適應算法的最小邊界框;c. 自動化輪廓追蹤
1.3.3 AI 輔助模塊
在面臨大規模、復雜的標注需求時,如多征象數據標注或視頻幀數據,若完全依賴醫生手動標注或智能標注工具,既會給標注員帶來沉重的負擔,也會嚴重制約 AI 研究項目的進度[12]。而隨著 AI 技術的飛速發展,數據標注模式從人工標注逐漸轉化為人工標注+AI 輔助標注相結合,即通過 AI 模型自動生成標注結果,然后再由標注員在此基礎上進行校正。目前院內已有較成熟的 AI 輔助模型有:針對于肺炎患者的 CT 影像病灶標注的肺炎模型,以及適用于 CT 影像分割的 AI 骨模型,包括胸骨、肋骨、椎骨、肩胛骨、鎖骨等。AI 模型可通過解析圖像和用戶輸入的矩形框來輸出病灶每一層的輪廓,從而提升標注效率(圖5)。

用紅色方框選定病灶區域的大致位置后 AI 模型可以準確地對肺炎病灶區進行勾選
1.3.4 標注計費
不同于其他類型的數據標注,醫學影像的標注目前存在以下難點:一是參與標注的人員需要有豐富的臨床經驗,數據標注質量將直接影響到模型的表現效果,無法將復雜的標注工作交由第三方公司;二是院內醫師對于醫學影像標注的積極性較低,參與人員較少,很難完成大規模的數據標注工作。基于以上現實問題,我們設計了計費模塊,可實時統計標注和審核費用,以此來激勵院內更多醫師利用空余時間來參與數據標注的工作。
2 系統應用效果
多模態影像標注系統,針對醫學影像標注工作涉及多種模態數據、手工標注工作繁瑣耗時、標注結果差異性較大、數據質量較低等特點。通過豐富的智能標注工具以及智能輔助模塊,能夠有效地提升數據標注的效率;同時,系統通過設定標注模板以及任務審核機制,來提升標注結果的統一性以及準確率。自系統 2020 年底院內上線起,院內研究團隊就立即開展了關于卵圓孔未閉患者的心臟超聲的科研項目,通過影像標注平臺實現了高效的心臟超聲影像標注,截止 2021 年 4 月,共完成了 62 例陽性病例影像標注工作,在智能模型構建過程中選取了其中 49 例作為訓練集,包含標注圖像 10 214 張,13 例作為測試集,圖像 2 700 張,通過標注系統的應用,保證了 AI 模型的數據規模和標注質量,從而實現了超聲關鍵幀定位和卵圓孔未閉患者超聲可疑區域自動識別,具體實現效果見圖6。

a. 任務列表;b. 心臟超聲標注(黃色勾選區域)
此外,通過完成肺部影像的多征象復雜標注任務,院內還部署了相關肺部結節檢出和危險程度分級、肺部常見征象智能識別等產品,大幅降低了醫生的工作負荷。系統可以兼容多種模態的影像數據標注工作,可以支持院內各個科室和研究團隊影像項目的開展,系統在院內多模態數據標注中的應用見圖7。

勾選區域為數據標注區域;a. 心臟數據標注(彩色多普勒超聲);b. 肺葉肺段分割數據標注(CT);c. 胸部平片異常數據標注(X 光);d. 腦出血數據標注(MRI)
3 結語
目前標注平臺存在最大的問題是由于存儲壓力和調取速度,難以將標注結果集成到院內的影像歸檔和通信系統當中。當前標注系統是對符合醫學數字成像和通信協議的醫學影像中的某些圖像序列增添灰階圖像顯示狀態(grayscale softcopy presentation state,GSPS)來表示圖像標注。但將新增的 GSPS 序列信息[13]同步到業務系統中會改變原始影像的存儲,因此需要存儲分離來保障原始數據的有效性,這會對存儲資源帶來極大的壓力。目前可行的解決方案是將標注結果以 JSON 形式單獨存儲,再以超文本傳輸協議的表述性狀態傳遞接口與其他業務系統進行集成[14],在每次讀取標注影像結果時,需要在同時提取原始影像和標注結果再在系統進行解析,生成標注影像,由于涉及到影像云系統的改造,可能會對響應速度造成一定的影響。目前的應對措施是對于熱數據[15]和冷數據[16]采用不同的集成方式,在減輕存儲壓力的同時也能在一定程度上滿足業務需求。
總的來說,基于影像云的多模態數據標注系統,相比與普通數據標注工具,打破了以往各科室獨立開展的影像標注工作的模式,采用平臺管理,同時兼容多種模態數據標注方式,將標注結果統一存儲在數據服務器中,真正實現了全院級別的影像標注平臺,并歸檔形成院內數據資產,幫助研究者更高效地開展各類影像數據的標注工作。隨著 AI 技術和醫療行業的不斷結合,可為科研項目提供高質量的影像數據支持,并且可以作為定量評估 AI 醫療成果的基準平臺,從而推動院內 AI 結合醫學影像的相關科研和產業順利落地。
目前人工智能(artificial intelligence,AI)和大數據技術已廣泛應用于醫學影像領域[1],通過智能模型對影像數據進行分析和挖掘,幫助臨床實現疾病篩查、輔助決策、預后評估等工作,減輕醫生負擔的同時提升患者滿意度[2]。經調研,國內大型三級甲等醫院在 AI 結合醫學影像研究與產品化的過程中,都會面臨模型的穩健性和有效性低這樣的共性問題,其主要原因在于原始醫學影像數據與計算機模型算法之間固有的“語義鴻溝”,導致原始數據不能直接用于智能模型訓練[3],而數據標注預先把需計算機識別的影像打上標簽,產生訓練數據,通過計算機不斷識別這些圖像特征,最終實現計算機的自主識別。訓練數據的量級和標準化程度直接決定了 AI 模型的表現能力[4];此外,同一病例可有多種不同的影像形態表現形式包括數字放射成像、CT、MRI 等,雖然多模態數據因成像機制不同而能從多種層面提供臨床信息,但多模態影像也加大了院內數據標注的工作量和實現難度。隨著標注工作的展開發現,目前存在的主要瓶頸如下:① 缺少影像數據標注模板,標注數據的一致性很難統一,當患者數據存在多種復雜征象標注工作時,醫生或相關研究人員需要花費大量時間和精力來進行樣本標注,導致其缺乏相應的科研或產品開發動力;② 醫院存有多種模態的影像數據,但缺少系統平臺可以同時兼容多模態數據的標注工作;③ 在醫學影像標注領域,標注需求差異巨大、標注場景多變,多樣的標注類型,使得標注工作繁瑣耗時且錯誤頻出,如何結合標準的標注模板和 AI 技術來輔助醫生進行數據標注,在提升標注效率的同時保證標注的準確性也是當前的一大難點。近年隨著云計算、存儲技術在醫療行業應用的不斷成熟,四川大學華西醫院已協同各醫療聯合體(醫聯體)單位建設了區域級別的影像云中心,實現了影像數據的快速調用。基于影像云建立多模態數據標注系統,將完成針對多模態數據的復雜征象標注工作,結合圖像算法和 AI 技術提升標注效率和標注數據質量。自 2020 年底,基于影像云的多模態醫學影像標注系統已在院內上線使用,不僅能滿足院內相關科研需求,更能反哺院內智能應用,得到更加精確的輔助診斷模型。通過院內數據標注,可得到大量帶標簽的影像數據,為院內 AI 研究和相關智能應用提供寶貴的數據資產。本文將就基于影像云的多模態醫學影像標注系統的開發應用作一介紹。
1 系統結構開發
1.1 系統架構
系統整體基于 asp.net core 技術的 B/S 架構進行平臺架構設計,適配 Chrome 瀏覽器;數據庫采用 MSSQL 的主從方式搭建來保證數據安全;前端則基于 Element-UI 和 Vue.js 框架進行開發;由于涉及到影像 AI 相關處理,服務器硬件資源采用 NVDIA Tesla V100、32GB 內存以及 2.2 GHz 主頻的 Intel Xeon E5-2650 v4(Broadwell)處理器。此外,為保證醫生閱片及標注的流暢度,客戶端內存配置為 8 G,單用戶帶寬設置為 20 M。
為保障數據安全,系統通過虛擬專用網絡[5]對接影像云系統。通過及時獲取院內及醫聯體單位的影像數據,提供標注服務,形成區域級別的影像標注平臺。標注結果僅以對象簡譜(Java Script Object Notation,JSON)形式[6]保存在服務器中,不用占據過多的存儲資源。當臨床業務或科研使用時,自動調用原始影像和 JSON 標注結果生成標注影像,從而實現同院內信息化環境相融合,系統架構見圖1。

1.2 流程設計
以往的數據標注過程,是科室自發組織人員借助各種開源工具(如 3D Slicer、itk-SNAP 等)來進行標注[7]。但醫學影像標注所需的類型及標簽繁多,一項標注任務,可能需要同時借助多款標注軟件,同時由于缺乏系統化的組織和管理,數據標注的質量無法得到保障。此外,不同醫生的標注習慣存在一定的差異,標注流程和規范難以統一,后續標注數據的整合和處理,往往會耗費科研人員大量的時間和精力。因此為規范數據標注流程,提升數據標注質量,保證數據安全,系統采用項目制管理的方式。各科室根據需求建立相應的項目組配置成員角色,包括項目管理員、標注員、審核員。
項目管理員:基于院內不同科室需求分配項目管理員,負責各自項目內的標注人員、審核人員的角色分配、任務分配,及標注后數據的管理和共享配置等;可根據研究需求設置標注次數,單一任務支持同時分配給多人標注。此外,系統支持多模態影像數據的標注,可覆蓋院內大部分影像數據的需求,為保證標注數據的一致性,需要項目管理員對標注數據、標注模型、標注模板進行統一配置見圖2。

標注員:標注員通過查看任務列表,獲取需要標注的影像數據,再按照統一模板進行標注工作。同時支持按時間維度和患者唯一識別號(通常是院內登記號)等方式來篩選標注任務。為保障標注過程中數據不丟失,支持在線標注和離線標注后上傳 2 種標注模式。
審核員:通常是由擁有豐富臨床經驗的醫師擔任,負責審核項目組成員已標注的數據,通過任務審核機制來盡可能保證標注數據質量,進行數據校對和標注修改或補充,可以將不合格的標注數據回傳給標注員重新標注。
數據標注過程中通過各個角色成員之間的相互分工和配合,盡可能將院內的標注流程規范化、合理化,提高數據質量和標注效率,具體流程見圖3。

1.3 標注功能設計
訓練數據集的大小以及數據標注的準確性是 AI 相關研究有效性的基礎[8]。系統支持讀取多種模態的影像信息并展示,在數據標注模塊中不僅提供了支持點、框、線等的基礎標注工具,還提供了多種智能標注工具,來提升標注效率。此外,結合 AI 模型,提供了 AI 輔助標注功能,使標注過程更加智能和準確。
1.3.1 基本標注模塊
臨床診斷往往涉及多種數據模態,如 MRI、X 線、超聲等,同時也包含多種數據格式,如圖像、視頻、三維數據等。平臺兼容全部數據模態和格式,對于影像數據,支持多樣的基本標注方式,包括點、線、面、體的交叉組合,樣本的類別標注,病灶區域的框選,以及像素級別的區域標注等。在基本標注完成后,支持對標注影像進行反復修改,逐步提升標注精度。
1.3.2 智能標注工具
基于各種圖形圖像算法,能夠加快標注員的標注效率,簡化標注過程,極大地降低人力成本并使標注質量大幅提升。本系統支持以下智能標注方式:① 基于水平集[9]算法的輪廓標注功能,操作者只需要確定一個大的篩選框,算法可以自動找出框內輪廓;② 基于自適應算法[10]的框選方法,標注工具可以自動調整框的位置和大小,確定標注病灶區的最小邊界框;③ 自動化輪廓跟蹤,基于智能剪刀算法(intelligent scissors)[11],跟據圖像邊緣信息搜索 2 個種子點之間的最優路徑,有效的引導用戶得到準確的目標邊界。標注效果見圖4。

a. 基于水平集的輪廓標注;b. 自適應算法的最小邊界框;c. 自動化輪廓追蹤
1.3.3 AI 輔助模塊
在面臨大規模、復雜的標注需求時,如多征象數據標注或視頻幀數據,若完全依賴醫生手動標注或智能標注工具,既會給標注員帶來沉重的負擔,也會嚴重制約 AI 研究項目的進度[12]。而隨著 AI 技術的飛速發展,數據標注模式從人工標注逐漸轉化為人工標注+AI 輔助標注相結合,即通過 AI 模型自動生成標注結果,然后再由標注員在此基礎上進行校正。目前院內已有較成熟的 AI 輔助模型有:針對于肺炎患者的 CT 影像病灶標注的肺炎模型,以及適用于 CT 影像分割的 AI 骨模型,包括胸骨、肋骨、椎骨、肩胛骨、鎖骨等。AI 模型可通過解析圖像和用戶輸入的矩形框來輸出病灶每一層的輪廓,從而提升標注效率(圖5)。

用紅色方框選定病灶區域的大致位置后 AI 模型可以準確地對肺炎病灶區進行勾選
1.3.4 標注計費
不同于其他類型的數據標注,醫學影像的標注目前存在以下難點:一是參與標注的人員需要有豐富的臨床經驗,數據標注質量將直接影響到模型的表現效果,無法將復雜的標注工作交由第三方公司;二是院內醫師對于醫學影像標注的積極性較低,參與人員較少,很難完成大規模的數據標注工作。基于以上現實問題,我們設計了計費模塊,可實時統計標注和審核費用,以此來激勵院內更多醫師利用空余時間來參與數據標注的工作。
2 系統應用效果
多模態影像標注系統,針對醫學影像標注工作涉及多種模態數據、手工標注工作繁瑣耗時、標注結果差異性較大、數據質量較低等特點。通過豐富的智能標注工具以及智能輔助模塊,能夠有效地提升數據標注的效率;同時,系統通過設定標注模板以及任務審核機制,來提升標注結果的統一性以及準確率。自系統 2020 年底院內上線起,院內研究團隊就立即開展了關于卵圓孔未閉患者的心臟超聲的科研項目,通過影像標注平臺實現了高效的心臟超聲影像標注,截止 2021 年 4 月,共完成了 62 例陽性病例影像標注工作,在智能模型構建過程中選取了其中 49 例作為訓練集,包含標注圖像 10 214 張,13 例作為測試集,圖像 2 700 張,通過標注系統的應用,保證了 AI 模型的數據規模和標注質量,從而實現了超聲關鍵幀定位和卵圓孔未閉患者超聲可疑區域自動識別,具體實現效果見圖6。

a. 任務列表;b. 心臟超聲標注(黃色勾選區域)
此外,通過完成肺部影像的多征象復雜標注任務,院內還部署了相關肺部結節檢出和危險程度分級、肺部常見征象智能識別等產品,大幅降低了醫生的工作負荷。系統可以兼容多種模態的影像數據標注工作,可以支持院內各個科室和研究團隊影像項目的開展,系統在院內多模態數據標注中的應用見圖7。

勾選區域為數據標注區域;a. 心臟數據標注(彩色多普勒超聲);b. 肺葉肺段分割數據標注(CT);c. 胸部平片異常數據標注(X 光);d. 腦出血數據標注(MRI)
3 結語
目前標注平臺存在最大的問題是由于存儲壓力和調取速度,難以將標注結果集成到院內的影像歸檔和通信系統當中。當前標注系統是對符合醫學數字成像和通信協議的醫學影像中的某些圖像序列增添灰階圖像顯示狀態(grayscale softcopy presentation state,GSPS)來表示圖像標注。但將新增的 GSPS 序列信息[13]同步到業務系統中會改變原始影像的存儲,因此需要存儲分離來保障原始數據的有效性,這會對存儲資源帶來極大的壓力。目前可行的解決方案是將標注結果以 JSON 形式單獨存儲,再以超文本傳輸協議的表述性狀態傳遞接口與其他業務系統進行集成[14],在每次讀取標注影像結果時,需要在同時提取原始影像和標注結果再在系統進行解析,生成標注影像,由于涉及到影像云系統的改造,可能會對響應速度造成一定的影響。目前的應對措施是對于熱數據[15]和冷數據[16]采用不同的集成方式,在減輕存儲壓力的同時也能在一定程度上滿足業務需求。
總的來說,基于影像云的多模態數據標注系統,相比與普通數據標注工具,打破了以往各科室獨立開展的影像標注工作的模式,采用平臺管理,同時兼容多種模態數據標注方式,將標注結果統一存儲在數據服務器中,真正實現了全院級別的影像標注平臺,并歸檔形成院內數據資產,幫助研究者更高效地開展各類影像數據的標注工作。隨著 AI 技術和醫療行業的不斷結合,可為科研項目提供高質量的影像數據支持,并且可以作為定量評估 AI 醫療成果的基準平臺,從而推動院內 AI 結合醫學影像的相關科研和產業順利落地。