本文利用影像組學的方法預測乳腺腫瘤分子標記物雌激素受體(ER)。首先采用基于相位信息的動態輪廓模型(PBAC)對乳腺圖像進行分割,其次對乳腺超聲圖像中腫瘤的形態、紋理、小波三個方面的 404 個高通量特征進行提取并予以量化,然后利用 R 語言以及結合最大相關最小冗余(mRMR)準則的遺傳算法進行特征篩選,最后利用支持向量機(SVM)和 AdaBoost 進行分類判別,實現根據乳腺超聲圖像預測分子病理指標 ER 的目的。對 104 例臨床乳腺腫瘤超聲圖像數據進行實驗,在使用 AdaBoost 作為分類器的情況下得到了最優指標,即分子標記物 ER 的預測準確率最高可以達到 75.96%,受試者操作特性曲線下的面積(AUC)最高達到 79.39%。實驗結果證明了利用影像組學方法預測乳腺癌 ER 表達情況的可行性。
引用本文: 劉桐桐, 李佳偉, 胡雨舟, 余錦華, 郭翌, 汪源源, 常才. 基于影像組學預測乳腺癌雌激素受體表達情況的可行性分析. 生物醫學工程學雜志, 2017, 34(4): 597-601. doi: 10.7507/1001-5515.201611033 復制
引言
乳腺癌是全球女性最為常見的惡性腫瘤之一[1]。醫學影像通過無損的檢查方法,為臨床醫生提供人體組織的特征信息,用于指導疾病診斷[2-4]。相較于其他醫學影像手段,超聲檢查簡便、廉價、無輻射、實時并且無創,在臨床上已經廣泛應用于乳腺腫瘤的診斷中[5]。
乳腺腫瘤分子標記物包括雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)、人表皮生長因子受體 2(human epidermal growth factor receptor-2,HER2)及增殖細胞核抗原(KI67 antigen,KI67)。其中 ER 被確定為常用且有效的對乳腺腫瘤判斷預后、指導內分泌治療及化療的分子標記物之一[6]。常用的 ER 獲取方式是提取病理切片并進行檢驗,這種方式是有損的。
影像組學(radiomics)技術提供了一種無損估計分子標記物的新思路,它采用醫學影像的高通量特征來預測生物組織的分子病理、基因等信息,包括圖像的獲取和重建、圖像自動分割、高通量特征提取和篩選、結果分類判別等階段。2012 年 Lambin 等[2]提出了影像組學的概念和假說。同年,Kumar 等[3]提出了影像組學的流程和若干需要注意的事項以及挑戰。Aerts 等[4]在 2014 年提出了通過影像組學方法解碼圖像特征和腫瘤表現型的關系的方法,探索醫學影像特征與分子病理學的關聯。目前,已發表的工作主要集中在電子計算機斷層掃描(compu-ted tomography,CT)以及磁共振成像(magnetic resonance imaging,MRI)圖像中,且多針對肺癌、頭頸癌、結腸癌和前列腺癌,在乳腺超聲中則未有相關報道[4, 7-9]。
本文將影像組學的方法擴展到乳腺超聲診斷中,利用影像組學的方法無損預測乳腺腫瘤分子標記物 ER。針對乳腺超聲影像組學分析,提出有效的圖像分割、特征提取、特征篩選及分類預測方案。
1 方法
本文利用影像組學的方法,研究通過乳腺超聲圖像對乳腺腫瘤分子標記物 ER 進行預測。該方法主要運用機器學習等技術,通過圖像分割、特征提取、特征篩選和分類判別,實現根據乳腺超聲圖像預測分子病理指標 ER 的目標。首先采用基于相位信息的動態輪廓模型(phase-based active contour,PBAC)對乳腺超聲圖像進行分割,其次提取并量化乳腺超聲圖像的形態、紋理、小波三個方面的 404 個高通量特征,然后選擇 R 語言以及結合最大相關最小冗余(minimum-redundancy-maximum-relevance,mRMR)準則的遺傳算法對以上特征進行篩選,最后利用支持向量機(support vector machine,SVM)和 AdaBoost 作為分類器進行分類判別。系統框圖見圖 1。

1.1 基于相位信息的動態輪廓模型自動分割
常用的醫學影像自動分割方法,分為基于區域的分割、邊緣檢測法、基于神經網絡的方法、基于模糊集理論的方法、結合區域與邊界技術的方法等。通過對已有的幾種分割方法進行比較,最終采用蔡凌云[10]提出的 PBAC 方法。她認為在檢測結構信息(如邊界信息等)時,根據圖像的局部相位信息進行檢測會更有效。此外,基于相位信息的方法也較少受到超聲圖像的斑點噪聲及低對比度特性的影響。為了應對圖像強度的非均質性,該方法基于區域的能量項選擇了可變區域擬合(region-scalable fitting,RSF)能量項,并根據局部相位信息去構建新的邊界指示子。因此該方法對于不同區域都有良好的分割效果。
PBAC 模型是一種混合模型,結合圖像的邊界信息和區域信息,所以它的能量函數 EPBAC 由基于區域的 RSF 能量函數 ERSF 和基于相位反對稱(phase asymmetry,PA)的邊界能量函數 EPA 兩部分組成,整體的能量函數可表達為[10]:
![]() |
1.2 特征提取
影像組學技術的重點在于高通量特征的提取。本文綜合多方面信息,從形態、紋理、小波三個角度,提取了 404 個高通量特征來描述乳腺腫瘤[10-15],如表 1 所示。

1.3 特征篩選
影像組學方法所要求提取的特征是大量的高通量特征,需要一個高維的特征向量。但并非所有特征對于特定的判別目標都是有用的;對于特征維度大于樣本例數的情況,分類器的訓練時間會變長、分類效果會被削弱,并且可能會發生過擬合、維數災難等現象。因此,特征維度的降低和選擇是十分必要的步驟。
本文對提取的 404 個特征進行了兩次篩選。首先利用 R 語言畫熱圖方法進行第一次篩選,選出有一定統計意義的特征[4]。熱圖是一種將獨立的數據顯示為有色矩陣的圖,采用無監督聚類法,將相似的數據分在鄰近的位置并以類似的顏色表示。這里采用歐氏距離作為類間距離算子。在 R 語言中,以 ER 為標準,計算特征與指標的相關性,得到 χ2 檢驗的 P 值,保留 P 值<0.05 的特征。
然后利用結合 mRMR 的遺傳算法對剩余特征進行第二次篩選。特征篩選分為過濾法和封裝法,過濾法是通過一定的準則對特征進行篩選,而封裝法則要后續的學習算法進行效果的驗證。考慮到過濾法與后續的學習算法無關,不能針對特定的分類算法選出最優子集,因此選擇遺傳算法。但傳統的遺傳算法未考慮到篩選特征的數目和不同特征之間的關系,不易得到最優解,且容易得到偏高的特征子集維數。結合 mRMR 準則的遺傳算法可用以解決該問題,該方法定義了根據變量間的互信息而變化的適應度函數,利用數據內在聯系評定特征子集并排序,提出新的適應度函數,定義為[10]:
![]() |
其中 Rank 表示所選擇特征 mRMR 排序值之和。此函數僅在分類準確率 Accuracy 高且特征排序值低時有最大值,并抑制其他情況。根據 mRMR 準則,優先選擇排序值低的特征,這些特征的分辨力較強,特征重合區較小。
經過兩次特征篩選,得到了一個維數較低、分辨力強的特征子集,用于分子標記物 ER 的分類判別。
1.4 分類判別
常用的分類算法分為有監督學習和無監督學習,無監督學習一般應用于無教師的情況。本研究在分類器的訓練中,以 ER 的陰性和陽性為標簽、高通量特征為輸入、分類判別結果為輸出進行學習。雖然常用的有監督學習分類方法很多,但通過實驗比較發現有些分類器結構復雜參數眾多,有些分類效果較差。而 SVM 收斂速度快,分類準確率高;AdaBoost 結構簡單,不需要調節較多參數。因此,本文選擇并比較了這兩種常用的分類算法:SVM 和 AdaBoost[9]。
SVM 方法主要針對二分類問題,搜尋一個可以將兩類數據點分隔開的超平面,以保證分類器錯誤率達到最低。最優超平面是使支持向量能夠有盡可能大的間隔的平面。支持向量就是使超平面兩側的數據到超平面的間隔最小的樣本組成的向量。
AdaBoost 的精髓是由多個弱分類器組成一個強分類器,以提高分類準確率。AdaBoost 對于每個弱分類器的準確率要求并不高。最后通過對訓練所得的弱分類器進行線性加權組合就可以得到一個強分類器。AdaBoost 為每個弱分類器都配備了一個權重值 α,根據情況更新每個樣本的權重,第一個弱分類器分類正確的樣本權重會降低,分類錯誤的樣本權重會升高,得到新的樣本權重 D,并不斷對權重向量 D 進行更新。直到訓練錯誤率為 0 或者弱分類器的數目達到設定值為止,最終訓練出多個弱分類器并得到相應的權重。
2 結果
2.1 環境與數據
本文對復旦大學附屬腫瘤醫院超聲科采集到的 104 例乳腺腫瘤患者數據進行分析。每位患者的數據包括超聲圖像及其臨床驗證的分子標志物 ER 值。
為評價不同特征向量組合在不同分類器下的性能,采用多種指標來進行量化的評價。對分類器性能進行整體評估的接受者操作特性(receiver operating characteristic,ROC)曲線,使用 ROC 曲線下的面積(area under the ROC curve,AUC)進行評價。除此之外,還包括準確度(accuracy,ACC)、敏感度(sensitivity,SENS)、特異度(specificity,SPEC)、陽性預測值(positive predictive value,PPV)、陰性預測值(negative predictive value,NPV)及 Matthew 相關系數(Matthew’s correlation co-efficient,MCC)[10]。
實驗中采取留一法,每次從數據集中抽取 103 例數據作訓練集,剩余的 1 例作測試集。
2.2 實驗結果
首先對 104 例乳腺腫瘤超聲圖像進行分割處理。原始圖像為 DICOM 圖像,先進行感興趣區域(region of interest,ROI)選取,然后進行自動分割。由有經驗的醫生判斷分割結果是否準確,對于自動分割結果準確性較差的圖像進行手動分割,104 例數據中 61.54% 為采用 PBAC 自動分割,38.46% 采用手動分割結果。作為例子,圖 2 為一例惡性乳腺腫瘤圖像測試算法效果。實驗結果說明 PBAC 模型的分割效果較好。

其次,本文以分割得到的 ROI 區域和邊緣輪廓為輸入,經過特征提取程序的運算,得到了 104 幅圖像的 104×404 特征向量。
經過一次篩選特征維度從 404 下降為 76,二次篩選后下降為 38。R 語言篩選后所作的 ER 熱圖如圖 3 所示。每一行代表一個特征,每一列代表一個患者。可以看出特征在一定程度上進行了聚類,表明了特征和分子標記物 ER 之間存在一定的相關性。

最后,對分子標記物 ER 進行分類判別。分類器的分類結果如表 2 所示,AUC 指標的最優結果以粗體表示,All_404 為未篩選的特征,R_76 為經過一次篩選的特征,R2GA_38 為經過二次篩選的特征。就結果而言,各項指標從整體來看 AdaBoost 要優于 SVM,并且 AdaBoost 的 AUC 明顯大于 SVM 的 AUC。最優指標是 ER 在使用 AdaBoost 進行分類的情況下,準確率最高達到 75.96%,AUC 最高達到 79.39%。

3 結論
本文基于影像組學的方法,用 PBAC 方法實現乳腺超聲圖像的自動分割,提取形態、紋理、小波三個方面的 404 個特征,經過 R 語言和結合 mRMR 準則的遺傳算法進行兩次特征篩選,最后使用 SVM 和 AdaBoost 進行分類判別。最優指標是在使用 AdaBoost 進行分類的情況下得到的,對分子標記物 ER 的預測準確率最高達到 75.96%,AUC 最高達到 79.39%。該結果表明了影像組學方法在乳腺腫瘤超聲圖像領域預測分子標記物具有一定的可行性,對于用影像組學的方法對疾病進行無損可重復的預測研究有較強的指導意義。
引言
乳腺癌是全球女性最為常見的惡性腫瘤之一[1]。醫學影像通過無損的檢查方法,為臨床醫生提供人體組織的特征信息,用于指導疾病診斷[2-4]。相較于其他醫學影像手段,超聲檢查簡便、廉價、無輻射、實時并且無創,在臨床上已經廣泛應用于乳腺腫瘤的診斷中[5]。
乳腺腫瘤分子標記物包括雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)、人表皮生長因子受體 2(human epidermal growth factor receptor-2,HER2)及增殖細胞核抗原(KI67 antigen,KI67)。其中 ER 被確定為常用且有效的對乳腺腫瘤判斷預后、指導內分泌治療及化療的分子標記物之一[6]。常用的 ER 獲取方式是提取病理切片并進行檢驗,這種方式是有損的。
影像組學(radiomics)技術提供了一種無損估計分子標記物的新思路,它采用醫學影像的高通量特征來預測生物組織的分子病理、基因等信息,包括圖像的獲取和重建、圖像自動分割、高通量特征提取和篩選、結果分類判別等階段。2012 年 Lambin 等[2]提出了影像組學的概念和假說。同年,Kumar 等[3]提出了影像組學的流程和若干需要注意的事項以及挑戰。Aerts 等[4]在 2014 年提出了通過影像組學方法解碼圖像特征和腫瘤表現型的關系的方法,探索醫學影像特征與分子病理學的關聯。目前,已發表的工作主要集中在電子計算機斷層掃描(compu-ted tomography,CT)以及磁共振成像(magnetic resonance imaging,MRI)圖像中,且多針對肺癌、頭頸癌、結腸癌和前列腺癌,在乳腺超聲中則未有相關報道[4, 7-9]。
本文將影像組學的方法擴展到乳腺超聲診斷中,利用影像組學的方法無損預測乳腺腫瘤分子標記物 ER。針對乳腺超聲影像組學分析,提出有效的圖像分割、特征提取、特征篩選及分類預測方案。
1 方法
本文利用影像組學的方法,研究通過乳腺超聲圖像對乳腺腫瘤分子標記物 ER 進行預測。該方法主要運用機器學習等技術,通過圖像分割、特征提取、特征篩選和分類判別,實現根據乳腺超聲圖像預測分子病理指標 ER 的目標。首先采用基于相位信息的動態輪廓模型(phase-based active contour,PBAC)對乳腺超聲圖像進行分割,其次提取并量化乳腺超聲圖像的形態、紋理、小波三個方面的 404 個高通量特征,然后選擇 R 語言以及結合最大相關最小冗余(minimum-redundancy-maximum-relevance,mRMR)準則的遺傳算法對以上特征進行篩選,最后利用支持向量機(support vector machine,SVM)和 AdaBoost 作為分類器進行分類判別。系統框圖見圖 1。

1.1 基于相位信息的動態輪廓模型自動分割
常用的醫學影像自動分割方法,分為基于區域的分割、邊緣檢測法、基于神經網絡的方法、基于模糊集理論的方法、結合區域與邊界技術的方法等。通過對已有的幾種分割方法進行比較,最終采用蔡凌云[10]提出的 PBAC 方法。她認為在檢測結構信息(如邊界信息等)時,根據圖像的局部相位信息進行檢測會更有效。此外,基于相位信息的方法也較少受到超聲圖像的斑點噪聲及低對比度特性的影響。為了應對圖像強度的非均質性,該方法基于區域的能量項選擇了可變區域擬合(region-scalable fitting,RSF)能量項,并根據局部相位信息去構建新的邊界指示子。因此該方法對于不同區域都有良好的分割效果。
PBAC 模型是一種混合模型,結合圖像的邊界信息和區域信息,所以它的能量函數 EPBAC 由基于區域的 RSF 能量函數 ERSF 和基于相位反對稱(phase asymmetry,PA)的邊界能量函數 EPA 兩部分組成,整體的能量函數可表達為[10]:
![]() |
1.2 特征提取
影像組學技術的重點在于高通量特征的提取。本文綜合多方面信息,從形態、紋理、小波三個角度,提取了 404 個高通量特征來描述乳腺腫瘤[10-15],如表 1 所示。

1.3 特征篩選
影像組學方法所要求提取的特征是大量的高通量特征,需要一個高維的特征向量。但并非所有特征對于特定的判別目標都是有用的;對于特征維度大于樣本例數的情況,分類器的訓練時間會變長、分類效果會被削弱,并且可能會發生過擬合、維數災難等現象。因此,特征維度的降低和選擇是十分必要的步驟。
本文對提取的 404 個特征進行了兩次篩選。首先利用 R 語言畫熱圖方法進行第一次篩選,選出有一定統計意義的特征[4]。熱圖是一種將獨立的數據顯示為有色矩陣的圖,采用無監督聚類法,將相似的數據分在鄰近的位置并以類似的顏色表示。這里采用歐氏距離作為類間距離算子。在 R 語言中,以 ER 為標準,計算特征與指標的相關性,得到 χ2 檢驗的 P 值,保留 P 值<0.05 的特征。
然后利用結合 mRMR 的遺傳算法對剩余特征進行第二次篩選。特征篩選分為過濾法和封裝法,過濾法是通過一定的準則對特征進行篩選,而封裝法則要后續的學習算法進行效果的驗證。考慮到過濾法與后續的學習算法無關,不能針對特定的分類算法選出最優子集,因此選擇遺傳算法。但傳統的遺傳算法未考慮到篩選特征的數目和不同特征之間的關系,不易得到最優解,且容易得到偏高的特征子集維數。結合 mRMR 準則的遺傳算法可用以解決該問題,該方法定義了根據變量間的互信息而變化的適應度函數,利用數據內在聯系評定特征子集并排序,提出新的適應度函數,定義為[10]:
![]() |
其中 Rank 表示所選擇特征 mRMR 排序值之和。此函數僅在分類準確率 Accuracy 高且特征排序值低時有最大值,并抑制其他情況。根據 mRMR 準則,優先選擇排序值低的特征,這些特征的分辨力較強,特征重合區較小。
經過兩次特征篩選,得到了一個維數較低、分辨力強的特征子集,用于分子標記物 ER 的分類判別。
1.4 分類判別
常用的分類算法分為有監督學習和無監督學習,無監督學習一般應用于無教師的情況。本研究在分類器的訓練中,以 ER 的陰性和陽性為標簽、高通量特征為輸入、分類判別結果為輸出進行學習。雖然常用的有監督學習分類方法很多,但通過實驗比較發現有些分類器結構復雜參數眾多,有些分類效果較差。而 SVM 收斂速度快,分類準確率高;AdaBoost 結構簡單,不需要調節較多參數。因此,本文選擇并比較了這兩種常用的分類算法:SVM 和 AdaBoost[9]。
SVM 方法主要針對二分類問題,搜尋一個可以將兩類數據點分隔開的超平面,以保證分類器錯誤率達到最低。最優超平面是使支持向量能夠有盡可能大的間隔的平面。支持向量就是使超平面兩側的數據到超平面的間隔最小的樣本組成的向量。
AdaBoost 的精髓是由多個弱分類器組成一個強分類器,以提高分類準確率。AdaBoost 對于每個弱分類器的準確率要求并不高。最后通過對訓練所得的弱分類器進行線性加權組合就可以得到一個強分類器。AdaBoost 為每個弱分類器都配備了一個權重值 α,根據情況更新每個樣本的權重,第一個弱分類器分類正確的樣本權重會降低,分類錯誤的樣本權重會升高,得到新的樣本權重 D,并不斷對權重向量 D 進行更新。直到訓練錯誤率為 0 或者弱分類器的數目達到設定值為止,最終訓練出多個弱分類器并得到相應的權重。
2 結果
2.1 環境與數據
本文對復旦大學附屬腫瘤醫院超聲科采集到的 104 例乳腺腫瘤患者數據進行分析。每位患者的數據包括超聲圖像及其臨床驗證的分子標志物 ER 值。
為評價不同特征向量組合在不同分類器下的性能,采用多種指標來進行量化的評價。對分類器性能進行整體評估的接受者操作特性(receiver operating characteristic,ROC)曲線,使用 ROC 曲線下的面積(area under the ROC curve,AUC)進行評價。除此之外,還包括準確度(accuracy,ACC)、敏感度(sensitivity,SENS)、特異度(specificity,SPEC)、陽性預測值(positive predictive value,PPV)、陰性預測值(negative predictive value,NPV)及 Matthew 相關系數(Matthew’s correlation co-efficient,MCC)[10]。
實驗中采取留一法,每次從數據集中抽取 103 例數據作訓練集,剩余的 1 例作測試集。
2.2 實驗結果
首先對 104 例乳腺腫瘤超聲圖像進行分割處理。原始圖像為 DICOM 圖像,先進行感興趣區域(region of interest,ROI)選取,然后進行自動分割。由有經驗的醫生判斷分割結果是否準確,對于自動分割結果準確性較差的圖像進行手動分割,104 例數據中 61.54% 為采用 PBAC 自動分割,38.46% 采用手動分割結果。作為例子,圖 2 為一例惡性乳腺腫瘤圖像測試算法效果。實驗結果說明 PBAC 模型的分割效果較好。

其次,本文以分割得到的 ROI 區域和邊緣輪廓為輸入,經過特征提取程序的運算,得到了 104 幅圖像的 104×404 特征向量。
經過一次篩選特征維度從 404 下降為 76,二次篩選后下降為 38。R 語言篩選后所作的 ER 熱圖如圖 3 所示。每一行代表一個特征,每一列代表一個患者。可以看出特征在一定程度上進行了聚類,表明了特征和分子標記物 ER 之間存在一定的相關性。

最后,對分子標記物 ER 進行分類判別。分類器的分類結果如表 2 所示,AUC 指標的最優結果以粗體表示,All_404 為未篩選的特征,R_76 為經過一次篩選的特征,R2GA_38 為經過二次篩選的特征。就結果而言,各項指標從整體來看 AdaBoost 要優于 SVM,并且 AdaBoost 的 AUC 明顯大于 SVM 的 AUC。最優指標是 ER 在使用 AdaBoost 進行分類的情況下,準確率最高達到 75.96%,AUC 最高達到 79.39%。

3 結論
本文基于影像組學的方法,用 PBAC 方法實現乳腺超聲圖像的自動分割,提取形態、紋理、小波三個方面的 404 個特征,經過 R 語言和結合 mRMR 準則的遺傳算法進行兩次特征篩選,最后使用 SVM 和 AdaBoost 進行分類判別。最優指標是在使用 AdaBoost 進行分類的情況下得到的,對分子標記物 ER 的預測準確率最高達到 75.96%,AUC 最高達到 79.39%。該結果表明了影像組學方法在乳腺腫瘤超聲圖像領域預測分子標記物具有一定的可行性,對于用影像組學的方法對疾病進行無損可重復的預測研究有較強的指導意義。