本文探討彈性和 B 型超聲雙模態影像組學定量特征對淋巴結病變的多分類診斷意義。本文回顧性研究 248 例患者共 251 個淋巴結(良性 89 個,淋巴瘤 70 個,轉移性 92 個)的彈性和 B 型雙模態超聲圖像。首先提取彈性和 B 型超聲的雙模態影像組學定量特征,每個模態包括形態學特征、影像強度特征和灰度共生矩陣特征共 212 個特征;然后利用三種基于信息論的特征選擇方法,即條件信息特征提取法、條件互信息最大化法和雙輸入對稱相關性法,選取不同的影像組學特征子集;接著采用支持向量機在每個模態的影像組學特征子集上進行良性淋巴結、淋巴瘤和轉移性淋巴結的多分類診斷;最后利用 Adaboost 算法融合不同模態和不同特征子集的分類結果。經過五折交叉驗證的淋巴結病變多分類準確率和全組 F1 值分別達到 76.09%±1.41%、75.88%±4.32%;選擇良性淋巴結、淋巴瘤和轉移性淋巴結分別為正樣本時,多分類受試者操作特性曲線下面積分別為 0.77、0.93 和 0.84。本文研究結果表明運用 Adaboost 融合雙模態影像組學特征有助于提升淋巴結的多分類性能。本文方法有望用于三類淋巴結病變的輔助診斷。
引用本文: 石頡, 江建偉, 常婉英, 陳曼, 張麒. 面向淋巴結病變多分類鑒別的彈性和 B 型雙模態超聲影像組學. 生物醫學工程學雜志, 2019, 36(6): 957-963. doi: 10.7507/1001-5515.201807015 復制
引言
淋巴結是人體內重要的免疫器官。淋巴結病變分為良性病變和惡性病變,其中惡性病變又分為淋巴瘤和轉移性惡性腫瘤等[1]。淋巴結病變的多分類鑒別診斷(良性淋巴結、淋巴瘤和轉移性淋巴結)對淋巴結病變的臨床治療決策和預后預測具有重要意義。常規 B 型超聲常用于淋巴結的診斷,可以提供有價值的淋巴結結構信息,包括大小、形狀、邊界、邊緣和內部回聲[2]。近年,實時彈性成像(real-time elastography,RTE)開始用于評估淋巴結的彈性。RTE 利用手持換能器對組織施壓產生應變,提供了淋巴結生物力學特性的診斷信息[3],是對常規 B 型超聲的有益補充。
臨床上一般由有經驗的醫生對淋巴結超聲圖像進行視覺觀察得出診斷結果[4]。然而,視覺觀察受到觀察者自身以及不同觀察者間的主觀影響,限制了診斷的客觀性、準確性和可重復性。因此,需要研究計算機輔助診斷(computer-aided diagnosis,CAD)來減少主觀性以及對觀察者的依賴性,更精確、有效地對淋巴結進行診斷[5]。
影像組學(radiomics)是一種新興的 CAD 技術,它根據醫學圖像的高通量特征來鑒別疾病、幫助評估療效并進行預后預測[6-8]。影像組學包括圖像的獲取與預處理、定量特征的提取和選擇以及模型的分類和預測等步驟[9]。2012 年 Lambin 等[10]首次提出影像組學在醫學圖像上的應用原理,即借助計算機技術,高通量地從醫學影像學圖像中提取影像特征,通過高通量定量分析,將影像特征轉化為具有高分辨率的可挖掘數據空間;Aerts 等[6]在 2014 年通過影像組學方法提取計算機斷層掃描圖像特征來分析肺癌和頭頸癌的表現分型,結果顯示影像組學特征與腫瘤的基因表達高度相關,驗證了影像組學特征具有預后能力;Cameron 等[7]在 2016 年采用影像組學定量分析前列腺癌磁共振圖像,提取影像組學紋理特征,構建模型并成功實現對前列腺癌的自動檢測;2017 年 Zhang 等[8]通過影像組學的方法提取乳腺組織的彈性信息,對乳腺癌超聲彈性圖像進行良惡性分類。目前,影像組學的應用領域主要集中在計算機斷層掃描、磁共振以及超聲等單模態醫學圖像,結合雙模態圖像的影像組學技術仍是一項具有挑戰性的任務。
本研究組近期將影像組學應用于乳腺癌腋窩淋巴結的分類中,采用最小絕對壓縮方法對彈性和 B 型雙模態超聲影像組學特征進行特征選擇,對良性淋巴結和轉移性淋巴結進行二分類[9]。然而,淋巴結病變通常還包括淋巴瘤,臨床實踐中需進行三分類;另一方面,最小絕對壓縮是否性能足夠優越,能否在雙模態特征選擇中得到有效特征值得商榷;此外,集成多種模態和特征選擇方法的分類結果有望使分類性能進一步提高。因此,本文進一步探索將影像組學的方法拓展到淋巴結的多分類(良性淋巴結、淋巴瘤和轉移性淋巴結)診斷中,采用三種基于信息論的特征選擇方法選取優化特征子集,用集成分類器融合多種模態和特征選擇方法的預測結果提高三類淋巴結病變的診斷準確率。
1 方法
本文利用影像組學方法通過彈性和 B 型雙模態超聲診斷淋巴結,流程圖如圖 1 所示。首先分別從彈性和 B 型超聲圖像中提取雙模態定量特征;然后利用三種基于信息論的方法進行影像組學特征選擇,分別是條件最大熵特征提取法(conditional infomax feature extraction,CIFE)[11]、條件互信息最大化法(conditional mutual information maximization,CMIM)[12]以及雙輸入對稱相關性法(double input symmetric relevance,DISR)[13];接著利用支持向量機(support vector machine,SVM)診斷淋巴結[14];最后采用 Adaboost 融合不同模型(2 模態*3 子集)的分類結果[15]。

1.1 圖像獲取與預處理
本文收集上海交通大學醫學院附屬同仁醫院 2013 年 12 月至 2015 年 12 月常規超聲檢查及超聲彈性成像的 248 例患者共 251 個淋巴結(89 個良性淋巴結,記為 0 類;70 個淋巴瘤,記為 1 類;92 個轉移性淋巴結,記為 2 類)。本實驗獲得了上海交通大學醫學院附屬同仁醫院倫理委員會批準,所有患者均書面簽署知情同意書。所有淋巴結均以病理診斷為金標準。超聲檢查由一位經驗豐富的超聲科醫師完成,該醫師使用 Mylab 90 彩色超聲診斷儀(Esaote,Genoa,意大利),探頭型號為 L523,頻率為 4~13 MHz。RTE 成像系統在全屏幕下提供雙模態可視化(見圖 2a),其中左邊部分是 B 型超聲圖像,右邊部分是 RTE。RTE 顯示為疊加在 B 型圖像上的半透明顏色彈性圖(見圖 2c)。根據色彩條將 RTE 圖像轉換成軟度圖(見圖 2d),色彩條值從 0(最硬)到 1(最軟)[9]。由一位有 5 年經驗以上的超聲科醫師勾勒出淋巴結的邊界(見圖 2e)。

a. 雙模態圖像;b. B 型超聲圖;c. 彈性超聲成像;d. 彩色超聲圖映射的軟度圖;e. 感興趣區域及其二值化模板
Figure2. Dual-modal visualization of a lymph node ultrasound imagea. a dual-modal image;b. B-mode ultrasound;c. RTE;d. softness map retrieval from a color elastogram;e. the region of interest depicted as a binary template
1.2 特征提取
本文分別從 B 型和彈性雙模態圖像中提取影像組學量化特征,每個模態包括 25 個形態學特征、127 個影像強度特征和 60 個灰度共生矩陣(gray level co-occurrence matrix,GLCM)特征。淋巴結的勾畫著重在 B 型超聲圖像上進行,同時亦需對照觀察彈性圖,因此形態學特征同時計入 B 型與彈性超聲特征。影像強度特征和 GLCM 特征分別在 B 型超聲和彈性超聲兩個模態上計算。根據特征的物理意義分為以下三類:
(1)形態學特征:定量描述淋巴結的形狀。包括:面積、周長、等效直徑、長軸和短軸長度、實心度等。
(2)影像強度特征:表示圖像像素值的分布,即 B 型圖像的灰度值或彈性圖像的軟度值。包括平均值、標準差、方差、偏度、峰值、直方圖熵和多個百分位數[9],以及淋巴結內外強度特征的比值。
(3)GLCM 特征:表示圖像的紋理。針對每幅圖片分別計算特定角度 θ 和距離 d 的 GLCM,然后對不同方向上的結果求均值,最終得到 60 個特征。包括 GLCM 的對比度、能量、均一度和熵[9]。其中對比度與熵反映圖像紋理的非均勻程度,灰度分布越不均勻,取值越大;能量與均一度則表征圖像紋理的同質性,其值越大說明紋理的不同區域區間變化越少,分布越均勻。本文求 GLCM 時設定 θ = 0,45,90,135° 四個方向,距離 d = 1,2,,15 pix。
1.3 特征選擇
本文采用基于信息論的特征選擇方法,主要利用特征與分類類別間以及特征與特征間的互信息來衡量特征的相關性和冗余性[16]。通常,所選特征和類別之間互信息越大,表明該特征包含的類別相關信息越多,對分類越有利;待輸入特征與已選輸入特征之間的互信息越大,說明該特征包含的冗余信息越多,越不利于分類。
基于信息論的特征選擇對未選擇特征的計算準則見如下公式:
![]() |
S 用來存放選出的特征,初始化為空集。Y 是類別標簽,U 為原始特征集合,Xk 表示第 k 個特征,Xk 屬于集合 U。J(.)是特征選擇的準則,一般來說,J(.)的值越大,則特征 Xk 越有利于分類。g(.)是變量 I(Xj; Xk)和 I(Xj ; Xk|Y)的函數。I(Xk; Y)是 Xk 和類別標簽 Y 的互信息,I(Xj; Xk)是已選特征 Xj 和未選特征 Xk 間的互信息,I(Xj; Xk|Y)是已選特征 Xj 和未選特征 Xk 在類別標簽 Y 下的條件信息增益。
如前文所述,本文采用三種特征選擇方法:CIFE 法、CMIM 法和 DISR 法。根據 g(.)是否為線性函數,得到對未選擇特征 Xk 不同的計算準則。當 g(.)函數是非線性函數時,得到 CIFE 計算準則如下:
![]() |
通過計算未選擇特征與分類類別的相關性、未選擇特征和已選擇特征間的冗余性以及已選擇特征和未選擇特征在類別標簽下的條件信息增益,得出共同作用下的 J(.)值。當 g(.)函數是線性函數時,得到 CMIM 計算準則如下:
![]() |
CIFE 迭代的選擇特征,使目前所選擇的所有特征與類別標簽間的互信息最大化。
DISR 采用規范化的方法規范互信息,計算準則如下:
![]() |
I(XjXk; Y)是已選特征 Xj、未選特征 Xk 與類別標簽 Y 的互信息,H(XjXkY)是已選特征 Xj、未選特征 Xk、類別標簽 Y 的聯合熵。
采用 CIFE、CMIM、DISR 三種特征選擇的方法分別對 B 型特征、RTE 特征和雙模態特征進行特征選擇。算法描述如表 1 所示。

1.4 分類
SVM 是一種常用的分類模型[14]。其基本思想是將給定的訓練樣本集在樣本空間中找到一個劃分超平面,將不同類別的樣本分開[17]。本文使用 SVM 對良性淋巴結、淋巴瘤和轉移性淋巴結進行多分類,得到待預測樣本屬于每一類的概率,概率最大值對應的類就是淋巴結多分類預測的結果。
1.5 模型融合
通過將多個學習器進行結合,常可獲得比單一學習器顯著優越的泛化能力。通常先從初始訓練集訓練出初級學習器,然后“生成”一個新數據集用于訓練次級學習器。在模型訓練中,初級學習器的輸出被當作樣本的輸入特征,而初始輸入樣本的類別標簽仍被當作樣本的標簽。
Adaboost 是一種高精度的分類器,常用于融合多個學習模型,提高預測精度[15]。將 SVM 作為初級分類器,Adaboost 作為次級學習器。將優化特征子集作為初級學習器的輸入,SVM 多分類預測概率當作一個新數據集輸入到 Adaboost 次級學習器中。通過 Adaboost 次級學習器融合多個 SVM 學習器,對樣本進行再學習,得到最終的診斷結果。
2 實驗與結果
2.1 實驗
本文提出的淋巴結多分類多模型融合算法與以下分類結果進行比較:① 單獨使用淋巴結 B 型特征進行特征選擇再通過 SVM 分類器分類;② 單獨使用淋巴結 RTE 型特征進行特征選擇再通過 SVM 分類器分類;③ 使用 B 型特征和 RTE 特征的串聯融合進行特征選擇再通過 SVM 分類器分類。
為了量化影像組學預測模型的準確性,針對所有樣本執行五折交叉驗證以避免隨機劃分數據集引入的樣本偏差[18]。在多分類問題中分別對每一類做觀測,此時該類別作為正樣本,其余類別為負樣本,結合學習器預測的類別,觀測每一類樣本時均可得到真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negtive,TN)、假反例(false negtive,FN)。
在多分類模型中,精確度(precision)和召回率(recall)是較為合適的評估指標。精確度和召回率分別定義為:
![]() |
![]() |
精確度和召回率是一對矛盾的度量,因而也用 F1 值進行評估,它是精確度和召回率的加權平均值,其中 F1 值在 1 處達到最佳值,在 0 處達到最差分數。F1 值的公式為:
![]() |
針對每一類別,均可得到相應的精確度、召回率和 F1 值。本文還計算了三個類別 F1 值的平均值,稱全組 F1 值。
此外,本文采用分類準確度(accuracy,ACC)衡量整體預測準確性,定義為:正確分類樣本數占總樣本數的比值。為了進一步了解模態和算法預測準確性的影響,本文采用受試者工作特征(receiver operating characteristic,ROC)曲線和 ROC 曲線下面積(area under ROC curve,AUC)作為評估指標。
2.2 單模態結果
將 B 型特征分別采用 CIFE、CMIM 和 DISR 進行影像組學特征選擇,三種方法對應的優化特征子集分別含有 62、63、42 個特征,如表 2 所示,得到最佳 ACC、全組 F1 值為 71.30% ± 3.34%、71.45% ± 5.57%。同理,對 RTE 特征分別采用 CIFE、CMIM 和 DISR 進行特征選擇,得到的優化特征子集分別為 76、50、54 個特征,如表 3 所示,得到最佳 ACC、全組 F1 值為 68.12% ± 5.42%、67.59% ± 8.12%。上述結果顯示單獨 B 型模態的分類效果要好于單獨彈性模態。


2.3 雙模態結果
如表 4 所示,將 B 型特征和 RTE 特征串聯融合,對串聯融合特征分別采用 CIFE、CMIM 和 DISR 進行特征選擇,得到優化特征子集分別為 72、26、42 個特征。串聯融合特征分類結果最佳 ACC、全組 F1 值分別為 74.09% ± 2.61%、74.67% ± 4.19%。串聯融合特征比單獨 B 型特征的 ACC、全組 F1 值分別至少提高了 2.79%、3.22%,比 RTE 特征至少提高了 5.96%、7.08%。這說明當只采用一個模態進行分類時,其效果不如雙模態,B 型和彈性模態之間信息有互補作用。

2.4 Adaboost 融合 SVM 分類器
表 5 顯示,Adaboost 算法融合 SVM 分類器后模型的 ACC、全組 F1 值分別為 76.09% ± 1.41%、75.88% ± 4.32%,與 SVM 初級分類模型相比,準確度 ACC 和全組 F1 值分別提高了至少 2.00%和 1.21%。表明 Adaboost 具有潛在的優勢。ROC 曲線如圖 3 所示,0、1、2 類分別作為正樣本時的 AUC 為 0.77、0.93、0.84。


3 討論與結論
本文主要提出一個基于影像組學的雙模態超聲淋巴結多分類架構。從 B 型超聲圖像和 RTE 圖像提取出影像組學定量特征,通過基于信息論特征選擇方法從原始定量特征中選擇出影像組學優化特征子集,利用 SVM 作為初級分類器對每個模態的特征子集進行分類,最后使用 Adaboost 融合 SVM 初級分類器,對良性淋巴結、淋巴瘤和轉移性淋巴結的多分類預測最高準確率和全組 F1 值分別為 76.09% ± 1.41%、75.88% ± 4.32%,0、1、2 三類作為正樣本時 AUC 分別為 0.77、0.93、0.84。結果表明基于雙模態超聲影像組學的架構對于淋巴結多分類具有可行性。在未來的臨床診斷中,該影像組學方法有望作為區分良性淋巴結、淋巴瘤和轉移性淋巴結的有用工具。
近年來,淋巴結的 CAD 技術已經得到廣泛的應用。Moon 等[19]利用超聲預測乳腺癌患者的腋窩淋巴結轉移與否,借助 Logistic 回歸模型對 114 例患者(49 個轉移性淋巴結)進行分類,準確率、敏感性和特異性分別為 81.58%、81.63% 和 81.54%;紀巖磊等[20]通過聯合常規超聲、超聲彈性成像診斷乳腺癌患者反應性淋巴結和轉移性淋巴結,66 個淋巴結(其中 32 個為轉移性)的準確率、敏感性和特異性分別為 70.72%、87.50% 和 52.90%;Bhatia 等[21]利用 RTE 對頸部淋巴結良惡性進行診斷,74 個淋巴結(其中 37 個惡性)的準確率、敏感性和特異性分別為 73.00%、62.20% 和 83.80%。這些研究中均采用二分類模型,只考慮兩種類別淋巴結的分類,而本文采用多分類模型區分良性、淋巴瘤和轉移性三種淋巴結,更符合復雜的臨床診斷需求。文獻[19]提取了 21 個量化特征,文獻[20]提取了 9 個量化特征,本文采用影像組學的方法高通量地提取大量特征(424 個),然后基于信息論進行特征選擇,以提升模型的性能。相比于以往研究僅采用單模態特征或簡單融合雙模態特征,本文從兩個角度,即模態和模型分別進行融合,得到最終結果。考慮到本文樣本包含三個類別的淋巴結,比上述文獻中報道的兩分類情形更為復雜困難,但分類準確度仍達到 76.09%。因此,本文方法顯示出一定的優越性。
本文樣本數較少,需要在后續的研究中積累更多的病例以深入研究方法的有效性。影像組學需要提取高通量的特征,在未來的研究中,我們將結合雙模態圖像設計更多的量化特征,以提高淋巴結的分類準確率。本文研究集中在 B 型和彈性超聲,并未包括其他模態,在以后的研究中將引入其他超聲模態,如超聲造影、多普勒超聲和剪切波成像,以便進行更全面的模態融合。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
淋巴結是人體內重要的免疫器官。淋巴結病變分為良性病變和惡性病變,其中惡性病變又分為淋巴瘤和轉移性惡性腫瘤等[1]。淋巴結病變的多分類鑒別診斷(良性淋巴結、淋巴瘤和轉移性淋巴結)對淋巴結病變的臨床治療決策和預后預測具有重要意義。常規 B 型超聲常用于淋巴結的診斷,可以提供有價值的淋巴結結構信息,包括大小、形狀、邊界、邊緣和內部回聲[2]。近年,實時彈性成像(real-time elastography,RTE)開始用于評估淋巴結的彈性。RTE 利用手持換能器對組織施壓產生應變,提供了淋巴結生物力學特性的診斷信息[3],是對常規 B 型超聲的有益補充。
臨床上一般由有經驗的醫生對淋巴結超聲圖像進行視覺觀察得出診斷結果[4]。然而,視覺觀察受到觀察者自身以及不同觀察者間的主觀影響,限制了診斷的客觀性、準確性和可重復性。因此,需要研究計算機輔助診斷(computer-aided diagnosis,CAD)來減少主觀性以及對觀察者的依賴性,更精確、有效地對淋巴結進行診斷[5]。
影像組學(radiomics)是一種新興的 CAD 技術,它根據醫學圖像的高通量特征來鑒別疾病、幫助評估療效并進行預后預測[6-8]。影像組學包括圖像的獲取與預處理、定量特征的提取和選擇以及模型的分類和預測等步驟[9]。2012 年 Lambin 等[10]首次提出影像組學在醫學圖像上的應用原理,即借助計算機技術,高通量地從醫學影像學圖像中提取影像特征,通過高通量定量分析,將影像特征轉化為具有高分辨率的可挖掘數據空間;Aerts 等[6]在 2014 年通過影像組學方法提取計算機斷層掃描圖像特征來分析肺癌和頭頸癌的表現分型,結果顯示影像組學特征與腫瘤的基因表達高度相關,驗證了影像組學特征具有預后能力;Cameron 等[7]在 2016 年采用影像組學定量分析前列腺癌磁共振圖像,提取影像組學紋理特征,構建模型并成功實現對前列腺癌的自動檢測;2017 年 Zhang 等[8]通過影像組學的方法提取乳腺組織的彈性信息,對乳腺癌超聲彈性圖像進行良惡性分類。目前,影像組學的應用領域主要集中在計算機斷層掃描、磁共振以及超聲等單模態醫學圖像,結合雙模態圖像的影像組學技術仍是一項具有挑戰性的任務。
本研究組近期將影像組學應用于乳腺癌腋窩淋巴結的分類中,采用最小絕對壓縮方法對彈性和 B 型雙模態超聲影像組學特征進行特征選擇,對良性淋巴結和轉移性淋巴結進行二分類[9]。然而,淋巴結病變通常還包括淋巴瘤,臨床實踐中需進行三分類;另一方面,最小絕對壓縮是否性能足夠優越,能否在雙模態特征選擇中得到有效特征值得商榷;此外,集成多種模態和特征選擇方法的分類結果有望使分類性能進一步提高。因此,本文進一步探索將影像組學的方法拓展到淋巴結的多分類(良性淋巴結、淋巴瘤和轉移性淋巴結)診斷中,采用三種基于信息論的特征選擇方法選取優化特征子集,用集成分類器融合多種模態和特征選擇方法的預測結果提高三類淋巴結病變的診斷準確率。
1 方法
本文利用影像組學方法通過彈性和 B 型雙模態超聲診斷淋巴結,流程圖如圖 1 所示。首先分別從彈性和 B 型超聲圖像中提取雙模態定量特征;然后利用三種基于信息論的方法進行影像組學特征選擇,分別是條件最大熵特征提取法(conditional infomax feature extraction,CIFE)[11]、條件互信息最大化法(conditional mutual information maximization,CMIM)[12]以及雙輸入對稱相關性法(double input symmetric relevance,DISR)[13];接著利用支持向量機(support vector machine,SVM)診斷淋巴結[14];最后采用 Adaboost 融合不同模型(2 模態*3 子集)的分類結果[15]。

1.1 圖像獲取與預處理
本文收集上海交通大學醫學院附屬同仁醫院 2013 年 12 月至 2015 年 12 月常規超聲檢查及超聲彈性成像的 248 例患者共 251 個淋巴結(89 個良性淋巴結,記為 0 類;70 個淋巴瘤,記為 1 類;92 個轉移性淋巴結,記為 2 類)。本實驗獲得了上海交通大學醫學院附屬同仁醫院倫理委員會批準,所有患者均書面簽署知情同意書。所有淋巴結均以病理診斷為金標準。超聲檢查由一位經驗豐富的超聲科醫師完成,該醫師使用 Mylab 90 彩色超聲診斷儀(Esaote,Genoa,意大利),探頭型號為 L523,頻率為 4~13 MHz。RTE 成像系統在全屏幕下提供雙模態可視化(見圖 2a),其中左邊部分是 B 型超聲圖像,右邊部分是 RTE。RTE 顯示為疊加在 B 型圖像上的半透明顏色彈性圖(見圖 2c)。根據色彩條將 RTE 圖像轉換成軟度圖(見圖 2d),色彩條值從 0(最硬)到 1(最軟)[9]。由一位有 5 年經驗以上的超聲科醫師勾勒出淋巴結的邊界(見圖 2e)。

a. 雙模態圖像;b. B 型超聲圖;c. 彈性超聲成像;d. 彩色超聲圖映射的軟度圖;e. 感興趣區域及其二值化模板
Figure2. Dual-modal visualization of a lymph node ultrasound imagea. a dual-modal image;b. B-mode ultrasound;c. RTE;d. softness map retrieval from a color elastogram;e. the region of interest depicted as a binary template
1.2 特征提取
本文分別從 B 型和彈性雙模態圖像中提取影像組學量化特征,每個模態包括 25 個形態學特征、127 個影像強度特征和 60 個灰度共生矩陣(gray level co-occurrence matrix,GLCM)特征。淋巴結的勾畫著重在 B 型超聲圖像上進行,同時亦需對照觀察彈性圖,因此形態學特征同時計入 B 型與彈性超聲特征。影像強度特征和 GLCM 特征分別在 B 型超聲和彈性超聲兩個模態上計算。根據特征的物理意義分為以下三類:
(1)形態學特征:定量描述淋巴結的形狀。包括:面積、周長、等效直徑、長軸和短軸長度、實心度等。
(2)影像強度特征:表示圖像像素值的分布,即 B 型圖像的灰度值或彈性圖像的軟度值。包括平均值、標準差、方差、偏度、峰值、直方圖熵和多個百分位數[9],以及淋巴結內外強度特征的比值。
(3)GLCM 特征:表示圖像的紋理。針對每幅圖片分別計算特定角度 θ 和距離 d 的 GLCM,然后對不同方向上的結果求均值,最終得到 60 個特征。包括 GLCM 的對比度、能量、均一度和熵[9]。其中對比度與熵反映圖像紋理的非均勻程度,灰度分布越不均勻,取值越大;能量與均一度則表征圖像紋理的同質性,其值越大說明紋理的不同區域區間變化越少,分布越均勻。本文求 GLCM 時設定 θ = 0,45,90,135° 四個方向,距離 d = 1,2,,15 pix。
1.3 特征選擇
本文采用基于信息論的特征選擇方法,主要利用特征與分類類別間以及特征與特征間的互信息來衡量特征的相關性和冗余性[16]。通常,所選特征和類別之間互信息越大,表明該特征包含的類別相關信息越多,對分類越有利;待輸入特征與已選輸入特征之間的互信息越大,說明該特征包含的冗余信息越多,越不利于分類。
基于信息論的特征選擇對未選擇特征的計算準則見如下公式:
![]() |
S 用來存放選出的特征,初始化為空集。Y 是類別標簽,U 為原始特征集合,Xk 表示第 k 個特征,Xk 屬于集合 U。J(.)是特征選擇的準則,一般來說,J(.)的值越大,則特征 Xk 越有利于分類。g(.)是變量 I(Xj; Xk)和 I(Xj ; Xk|Y)的函數。I(Xk; Y)是 Xk 和類別標簽 Y 的互信息,I(Xj; Xk)是已選特征 Xj 和未選特征 Xk 間的互信息,I(Xj; Xk|Y)是已選特征 Xj 和未選特征 Xk 在類別標簽 Y 下的條件信息增益。
如前文所述,本文采用三種特征選擇方法:CIFE 法、CMIM 法和 DISR 法。根據 g(.)是否為線性函數,得到對未選擇特征 Xk 不同的計算準則。當 g(.)函數是非線性函數時,得到 CIFE 計算準則如下:
![]() |
通過計算未選擇特征與分類類別的相關性、未選擇特征和已選擇特征間的冗余性以及已選擇特征和未選擇特征在類別標簽下的條件信息增益,得出共同作用下的 J(.)值。當 g(.)函數是線性函數時,得到 CMIM 計算準則如下:
![]() |
CIFE 迭代的選擇特征,使目前所選擇的所有特征與類別標簽間的互信息最大化。
DISR 采用規范化的方法規范互信息,計算準則如下:
![]() |
I(XjXk; Y)是已選特征 Xj、未選特征 Xk 與類別標簽 Y 的互信息,H(XjXkY)是已選特征 Xj、未選特征 Xk、類別標簽 Y 的聯合熵。
采用 CIFE、CMIM、DISR 三種特征選擇的方法分別對 B 型特征、RTE 特征和雙模態特征進行特征選擇。算法描述如表 1 所示。

1.4 分類
SVM 是一種常用的分類模型[14]。其基本思想是將給定的訓練樣本集在樣本空間中找到一個劃分超平面,將不同類別的樣本分開[17]。本文使用 SVM 對良性淋巴結、淋巴瘤和轉移性淋巴結進行多分類,得到待預測樣本屬于每一類的概率,概率最大值對應的類就是淋巴結多分類預測的結果。
1.5 模型融合
通過將多個學習器進行結合,常可獲得比單一學習器顯著優越的泛化能力。通常先從初始訓練集訓練出初級學習器,然后“生成”一個新數據集用于訓練次級學習器。在模型訓練中,初級學習器的輸出被當作樣本的輸入特征,而初始輸入樣本的類別標簽仍被當作樣本的標簽。
Adaboost 是一種高精度的分類器,常用于融合多個學習模型,提高預測精度[15]。將 SVM 作為初級分類器,Adaboost 作為次級學習器。將優化特征子集作為初級學習器的輸入,SVM 多分類預測概率當作一個新數據集輸入到 Adaboost 次級學習器中。通過 Adaboost 次級學習器融合多個 SVM 學習器,對樣本進行再學習,得到最終的診斷結果。
2 實驗與結果
2.1 實驗
本文提出的淋巴結多分類多模型融合算法與以下分類結果進行比較:① 單獨使用淋巴結 B 型特征進行特征選擇再通過 SVM 分類器分類;② 單獨使用淋巴結 RTE 型特征進行特征選擇再通過 SVM 分類器分類;③ 使用 B 型特征和 RTE 特征的串聯融合進行特征選擇再通過 SVM 分類器分類。
為了量化影像組學預測模型的準確性,針對所有樣本執行五折交叉驗證以避免隨機劃分數據集引入的樣本偏差[18]。在多分類問題中分別對每一類做觀測,此時該類別作為正樣本,其余類別為負樣本,結合學習器預測的類別,觀測每一類樣本時均可得到真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negtive,TN)、假反例(false negtive,FN)。
在多分類模型中,精確度(precision)和召回率(recall)是較為合適的評估指標。精確度和召回率分別定義為:
![]() |
![]() |
精確度和召回率是一對矛盾的度量,因而也用 F1 值進行評估,它是精確度和召回率的加權平均值,其中 F1 值在 1 處達到最佳值,在 0 處達到最差分數。F1 值的公式為:
![]() |
針對每一類別,均可得到相應的精確度、召回率和 F1 值。本文還計算了三個類別 F1 值的平均值,稱全組 F1 值。
此外,本文采用分類準確度(accuracy,ACC)衡量整體預測準確性,定義為:正確分類樣本數占總樣本數的比值。為了進一步了解模態和算法預測準確性的影響,本文采用受試者工作特征(receiver operating characteristic,ROC)曲線和 ROC 曲線下面積(area under ROC curve,AUC)作為評估指標。
2.2 單模態結果
將 B 型特征分別采用 CIFE、CMIM 和 DISR 進行影像組學特征選擇,三種方法對應的優化特征子集分別含有 62、63、42 個特征,如表 2 所示,得到最佳 ACC、全組 F1 值為 71.30% ± 3.34%、71.45% ± 5.57%。同理,對 RTE 特征分別采用 CIFE、CMIM 和 DISR 進行特征選擇,得到的優化特征子集分別為 76、50、54 個特征,如表 3 所示,得到最佳 ACC、全組 F1 值為 68.12% ± 5.42%、67.59% ± 8.12%。上述結果顯示單獨 B 型模態的分類效果要好于單獨彈性模態。


2.3 雙模態結果
如表 4 所示,將 B 型特征和 RTE 特征串聯融合,對串聯融合特征分別采用 CIFE、CMIM 和 DISR 進行特征選擇,得到優化特征子集分別為 72、26、42 個特征。串聯融合特征分類結果最佳 ACC、全組 F1 值分別為 74.09% ± 2.61%、74.67% ± 4.19%。串聯融合特征比單獨 B 型特征的 ACC、全組 F1 值分別至少提高了 2.79%、3.22%,比 RTE 特征至少提高了 5.96%、7.08%。這說明當只采用一個模態進行分類時,其效果不如雙模態,B 型和彈性模態之間信息有互補作用。

2.4 Adaboost 融合 SVM 分類器
表 5 顯示,Adaboost 算法融合 SVM 分類器后模型的 ACC、全組 F1 值分別為 76.09% ± 1.41%、75.88% ± 4.32%,與 SVM 初級分類模型相比,準確度 ACC 和全組 F1 值分別提高了至少 2.00%和 1.21%。表明 Adaboost 具有潛在的優勢。ROC 曲線如圖 3 所示,0、1、2 類分別作為正樣本時的 AUC 為 0.77、0.93、0.84。


3 討論與結論
本文主要提出一個基于影像組學的雙模態超聲淋巴結多分類架構。從 B 型超聲圖像和 RTE 圖像提取出影像組學定量特征,通過基于信息論特征選擇方法從原始定量特征中選擇出影像組學優化特征子集,利用 SVM 作為初級分類器對每個模態的特征子集進行分類,最后使用 Adaboost 融合 SVM 初級分類器,對良性淋巴結、淋巴瘤和轉移性淋巴結的多分類預測最高準確率和全組 F1 值分別為 76.09% ± 1.41%、75.88% ± 4.32%,0、1、2 三類作為正樣本時 AUC 分別為 0.77、0.93、0.84。結果表明基于雙模態超聲影像組學的架構對于淋巴結多分類具有可行性。在未來的臨床診斷中,該影像組學方法有望作為區分良性淋巴結、淋巴瘤和轉移性淋巴結的有用工具。
近年來,淋巴結的 CAD 技術已經得到廣泛的應用。Moon 等[19]利用超聲預測乳腺癌患者的腋窩淋巴結轉移與否,借助 Logistic 回歸模型對 114 例患者(49 個轉移性淋巴結)進行分類,準確率、敏感性和特異性分別為 81.58%、81.63% 和 81.54%;紀巖磊等[20]通過聯合常規超聲、超聲彈性成像診斷乳腺癌患者反應性淋巴結和轉移性淋巴結,66 個淋巴結(其中 32 個為轉移性)的準確率、敏感性和特異性分別為 70.72%、87.50% 和 52.90%;Bhatia 等[21]利用 RTE 對頸部淋巴結良惡性進行診斷,74 個淋巴結(其中 37 個惡性)的準確率、敏感性和特異性分別為 73.00%、62.20% 和 83.80%。這些研究中均采用二分類模型,只考慮兩種類別淋巴結的分類,而本文采用多分類模型區分良性、淋巴瘤和轉移性三種淋巴結,更符合復雜的臨床診斷需求。文獻[19]提取了 21 個量化特征,文獻[20]提取了 9 個量化特征,本文采用影像組學的方法高通量地提取大量特征(424 個),然后基于信息論進行特征選擇,以提升模型的性能。相比于以往研究僅采用單模態特征或簡單融合雙模態特征,本文從兩個角度,即模態和模型分別進行融合,得到最終結果。考慮到本文樣本包含三個類別的淋巴結,比上述文獻中報道的兩分類情形更為復雜困難,但分類準確度仍達到 76.09%。因此,本文方法顯示出一定的優越性。
本文樣本數較少,需要在后續的研究中積累更多的病例以深入研究方法的有效性。影像組學需要提取高通量的特征,在未來的研究中,我們將結合雙模態圖像設計更多的量化特征,以提高淋巴結的分類準確率。本文研究集中在 B 型和彈性超聲,并未包括其他模態,在以后的研究中將引入其他超聲模態,如超聲造影、多普勒超聲和剪切波成像,以便進行更全面的模態融合。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。