自身免疫性胰腺炎(AIP)是慢性胰腺炎中的一種獨特亞型,其臨床表現與胰腺導管腺癌(PDA)非常相似,故 AIP 患者經常被誤診為 PDA,承受不必要的手術。18F-FDG 正電子發射斷層顯像/X 線計算機體層成像(PET/CT)檢查可以同時提供胰腺形態、密度和功能代謝的綜合信息,有助于對 AIP 和 PDA 進行鑒別。然而目前臨床上缺乏對 PET/CT 圖像紋理特征的分析,基于現有的診斷手段對二者進行準確鑒別依然存在困難。因此,本文基于多模紋理特征研究 AIP 與 PDA 的鑒別。本文首先采用多種特征提取算法來提取 CT 和 PET 圖像內的紋理特征,然后采用 Fisher 準則和與支持向量機(SVM)相結合的序列前向浮動選擇算法(SFFS)選擇鑒別性能最優的多模特征子集,最后采用 SVM 分類器實現 AIP 與 PDA 的鑒別。結果表明,對病灶的紋理分析有助于實現 AIP 與 PDA 的準確鑒別。
引用本文: 張玉全, 程超, 劉兆邦, 潘桂霞, 孫高峰, 楊曉冬, 左長京. 基于 18F-FDG PET/CT 多模紋理特征的自身免疫性胰腺炎與胰腺導管腺癌鑒別方法. 生物醫學工程學雜志, 2019, 36(5): 755-762. doi: 10.7507/1001-5515.201807012 復制
引言
自身免疫性胰腺炎(autoimmune pancreatitis,AIP)是慢性胰腺炎中的一種獨特亞型,它與自身免疫機制相關,類固醇激素治療對其效果顯著[1]。胰腺導管腺癌(pancreatic ductal adenocarcinoma,PDA)是胰腺癌中最常見的一種形式,需要根治性手術治療,且預后差[2]。AIP 在臨床表現上與 PDA 存在極大的相似性,使得 AIP 患者常被誤診為 PDA 而接受不必要的胰腺切除手術。國內外研究表明,在被診斷為 PDA 的患者中,有 5%~21% 最終被證實是 AIP[3-4]。因此,實現 AIP 與 PDA 的準確鑒別意義重大。
AIP 的診斷標準主要包括影像學檢查、血清學檢查、組織學檢查、胰腺外器官受累情況和激素治療后的反應等[5-6]。血清學指標對 AIP 的敏感性和特異性仍有爭議[7],而有創性的穿刺活檢敏感性不高,因此影像學檢查在臨床診斷中發揮了關鍵性的作用。傳統影像學檢查,如超聲、計算機斷層顯像(computed tomography,CT)和磁共振成像(magnetic resonance imaging,MRI),它們均反映胰腺組織的解剖學信息,當 AIP 患者胰腺表現出局灶性增大和“雙管征”時,僅基于解剖學信息極易將其誤診為 PDA。18F-氟脫氧葡萄糖(18F-fluorodeoxglucose,18F-FDG)正電子發射斷層顯像/X 線計算機體層成像儀(positron emission tomography/computed tomography,PET/CT)集功能顯像和解剖顯像于一體,可以同時提供胰腺形態、密度及功能代謝的綜合信息,尤其在胰腺外器官的檢查方面擁有不可替代的優勢,對 AIP 和 PDA 的鑒別價值極大[8]。然而,目前臨床上常用的定量分析指標,如標準攝取值(standardized uptake value,SUV)無法挖掘病灶內的代謝變化信息,而人眼對灰階又不敏感,當 AIP 患者胰腺表現出局灶性的18F-FDG 高攝取及腫大時,容易導致誤診[9]。針對這一情況,本文旨在深入挖掘18F-FDG PET/CT 圖像中的胰腺病灶內部特征[10],利用計算機輔助診斷技術實現 AIP 與 PDA 的鑒別診斷。
截止目前,計算機輔助診斷技術在鑒別 AIP 與 PDA 方面的價值如何尚未見報道。在其他胰腺疾病分析場景中,Gazit 等[11]基于增強 CT 圖像對胰腺導管內乳頭狀黏液性腫瘤惡性程度進行評估,構建了隨機森林(random forest,RF)和 Adaboost 兩個分類模型。在基于超聲內鏡圖像對 PDA 與慢性胰腺炎[12]和 AIP 與慢性胰腺炎[13]進行鑒別的研究中,研究人員采用序列前向選擇算法對提取到的特征進行篩選,最后采用支持向量機(support vector machine,SVM)[14]進行分類。上述研究均基于單一模態的解剖學影像信息,缺乏對功能代謝信息和多模態互補信息的探討。鑒于18F-FDG PET/CT 在鑒別 AIP 與 PDA 中的價值,本文基于該多模態圖像研究 AIP 與 PDA 的鑒別診斷,提出了一個基于多模紋理特征的 SVM 鑒別模型。
鑒于深度學習算法對數據量要求較高[15],本文采用統計、頻域變換和多分辨率灰度直方圖等特征提取算法來提取 CT 和 PET 圖像內的紋理特征。經 Fisher 準則對特征進行預篩選后,為充分考慮特征間的相關性,本文采用序列前向浮動選擇算法(sequence forward floating selection algorithm,SFFS)[16]選擇最優多模特征子集。最后,本文采用 SVM 分類器實現 AIP 與 PDA 的鑒別。
1 方法
本文首先基于胰腺在 PET/CT 成像中的顯像特點及臨床數據處理方式,對收集到的 PET/CT 數據進行預處理,然后采用多種特征提取算法分別提取 CT 和 PET 圖像感興趣區(region of interest,ROI)內的紋理特征。為降低特征維度,我們先采用 Fisher 準則進行特征預篩選,剔除 Fisher 比接近于 0 的特征,之后,我們選擇在小樣本上具有穩定表現的 SVM 分類器作為最終分類器,并將它結合到 SFFS 內,構建 SFFS-SVM 特征選擇算法,為 SVM 分類器選擇最有利于其性能的多模特征子集。最后,SVM 分類器基于該多模特征子集實現 AIP 與 PDA 的鑒別。基于多模紋理特征的 AIP 與 PDA 鑒別的具體步驟如下所示。
1.1 數據預處理
對于 CT 數據,根據胰腺組織 CT 值范圍,本文截取[?10, 100]HU 內的內容以增強圖像細節;對于 PET 數據,本文先采用雙三次內插使其獲得與 CT 圖像相同的空間分辨率(0.98 mm×0.98 mm),然后,采用圖像剛性配準算法將 PET 數據配準到與其對應的 CT 數據上,最后將其灰度值變換到臨床上常用的 SUV 值來進行后續特征計算。本文中,我們以胰腺病灶為 ROI,數據預處理過程如圖 1 所示。

1.2 多模紋理特征提取
不同模態的圖像因其成像原理不同而含有不同的信息。對于 CT 圖像,其灰度差異能夠凸顯病灶組織的粗糙度、規則性和方向性;對于 PET 圖像,其灰度值可以反映病灶組織的代謝情況,而空間密度差異則可以反映病灶內部的代謝變化。本文首先基于采集到的原始數據計算臨床上常用的 4 個診斷特征:CT 圖像 ROI 內的平均 CT 值和最大 CT 值(CTmean、CTmax)以及 PET 圖像 ROI 內的平均 SUV 值和最大 SUV 值(SUVmean、SUVmax),然后本文將 CT 和 PET 圖像內的灰度值轉換到 0~255 來進行紋理信息的提取。本文中,我們采用統計、頻域變換和多分辨率直方圖算法來提取多模態圖像病灶內部的紋理特征。
對于灰度共生矩陣(gray level co-occurrence matrix,GLCM),為提高運算效率,本文在不影響紋理特征的前提下進行了灰度級壓縮,將 CT 和 PET 圖像壓縮到 16 個灰度級。類似地,對于灰度差分統計(gray level difference statistics,GLDS)、灰度游程矩陣(gray level run length matrix,GLRLM)、局部灰度差分矩陣(neighborhood gray tone difference matrix,NGTDM)和灰度區域尺寸矩陣(gray level zone size matrix,GLSZM)[17],本文將 CT 和 PET 圖像壓縮至 32 個灰度級以進行相關統計特征的提取。
本文采用 Gabor 濾波器[18]進行頻域特征的提取。Gabor 濾波器是經尺度伸縮和方向旋轉產生的一組帶通濾波器,在空域與頻域均有較好的分辨率。本文中,我們采用以 5 個尺度(波長為 2 到 6)、4 個方向(0°,45°,90°,135°)的 Gabor 函數為母波函數的小波變換來提取 ROI 在不同頻域尺度和紋理方向的特征信息。
多分辨率灰度直方圖特征[19]具有平移和旋轉不變性,同時對噪聲和尺寸變化不敏感,且相較于高階紋理統計特征,其在表達圖像密度空間信息時計算更加簡單。本文中,考慮到 ROI 的實際尺寸,我們先采用高斯濾波金字塔算法來獲得 3 個不同分辨率的 ROI 圖像,然后計算累計直方圖來獲得 2 個差分直方圖,并以 4 為步長對灰度級為 256 的差分直方圖進行欠采樣,最后連接欠采樣后的 2 個差分直方圖形成 128 維的多分辨率灰度直方圖特征向量。
本文最終從 CT 和 PET 圖像中共提取了 418 個特征,特征分量集合見表 1。

1.3 特征選擇與建模
上述特征提取過程提取到的大量特征存在特征冗余,為了避免引發“維度災難”,降低學習難度,需要選取合適的特征選擇方法來剔除不相關和冗余特征。Fisher 準則和 SFFS[16]算法是常見的兩種特征選擇算法,前者計算復雜度小且易于推廣,后者直接把要使用的分類器的性能作為特征子集的評價準則,在分類器上獲得的準確率一般較高。因此,本文先采用 Fisher 準則進行特征預篩選,剔除鑒別性能極差的特征,然后采用 SFFS 算法選出最優的多模特征子集。
Fisher 準則的主要思想是類內距離小、類間距離大的特征鑒別性能更強。本文采用單個特征的 Fisher 比作為篩選準則,將 Fisher 準則與后續的 SFFS 算法相結合對預篩選的 Fisher 閾值進行網格調優,最終從原有 418 個特征中篩選出 Fisher 比大于 0.01 的 293 個特征,從而節省后續 SFFS 特征選擇中的計算開銷。
本文中,我們采用在小樣本上具有穩定表現的 SVM 分類器對 AIP 和 PDA 進行鑒別。SVM 分類器根據結構風險最小化準則,以最大化分類間隔構造最優分類超平面來提高分類器的泛化能力,它能較好地解決非線性、高維數和局部極小點等問題。為提高 SVM 分類器的鑒別能力,本文把在 SVM 分類器上的表現作為 SFFS 算法的評價準則,構建 SFFS-SVM 特征選擇算法,為 SVM 分類器選擇最有利于其鑒別性能的特征子集,該算法的特征子集搜索過程如表 2 所述。

在特征子集搜索過程中,對于搜索到的每個特征子集,我們在 SVM 分類器上進行 10 次 10 折交叉驗證,以它們 F1 值的平均值作為該特征子集鑒別性能的評價函數。10 次 10 折交叉驗證的具體過程如下:① 將數據集隨機劃分成 10 組,輪流取其中 9 組患者的 ROI 樣本作為訓練集,用于訓練 SVM 分類器,剩余 1 組作為測試集,計算 SVM 分類器在當前測試集上的 F1 值,10 次實驗后,計算 10 次實驗 F1 值的平均值;② 將步驟① 重復 10 次,對 10 次隨機劃分得到的 F1 值的平均值求平均。步驟① 用于消除單一測試集上 F1 值具有的偶然性,步驟② 用于消除每次數據集隨機劃分帶來的結果的隨機性。F1 值是精確率(precision)和召回率(recall)的調和平均,是對二者的綜合評價。其中精確率可以反映 AIP 被錯誤預測的情況,而召回率則可以反映樣本中所有 PDA 被正確預測的情況。F1 值、精確率及召回率的定義分別見公式(1)~(3):
![]() |
其中:
![]() |
![]() |
其中,TP:真陽性例數,是指 PDA 被識別為 PDA 的個數;FN:假陰性例數,是指 PDA 被識別為 AIP 的個數;FP:假陽性例數,是指 AIP 被識別為 PDA 的個數;TN:真陰性例數,是指 AIP 被識別為 AIP 的個數。
當選中的特征總數連續增加 4 個而沒有使整體分類性能獲得提升時,停止搜索。最后,我們在 SFFS-SVM 特征選擇算法搜索到的最優多模特征子集上構建 SVM 鑒別模型,實現 AIP 與 PDA 的鑒別。本文采用敏感性(sensitivity)、特異性(specificity)、陰性預測值(negative predictive value,NPV)和陽性預測值(positive predictive value,PPV)對模型的性能進行分析,其定義分別如式(4)~(7)所示。
![]() |
![]() |
![]() |
![]() |
2 結果與分析
2.1 實驗環境
軟件環境:Windows10 操作系統,MatlabR2017a;硬件環境:Intel(R)Xeon(R)CPU E5-2960 v3 @ 2.60 GHz,64 GB 內存。
2.2 數據來源
本研究為回顧性分析,經上海市長海醫院倫理委員會審查,在確保病患個人隱私的基礎上可以免除知情同意。PET/CT 原始數據集在長海醫院核醫學科采集,其中 AIP 患者 45 例(彌漫性 26 例,局灶性 19 例),PDA 患者 66 例。所有患者均通過組織學檢查或液基細胞學檢查確診。所有 PET/CT 數據均是在注射顯像劑約 1 h 后由德國西門子公司 Biograph64 PET/CT 掃描儀掃描獲得,CT 數據和 PET 數據的像素大小分別為 0.98 mm 和 4.07 mm,層距為 3 mm。圖2 為一例 AIP 患者的原始數據。本研究中的 ROI 是在經驗豐富的核醫學科醫師指導下,在 3D Slicer[20]軟件上目測確認胰腺在 PET 圖像中的代謝濃聚灶,取橫斷面 SUV 值最大層面,結合 CT 圖像中的解剖學信息在 CT 圖像上沿病灶邊緣手動精確勾畫得出。

a. 腹部橫斷面 CT 圖像;b. 腹部橫斷面 PET 圖像;c. 腹部橫斷面 PET/CT 圖像;d. 全身冠狀面 PET/CT 圖像
Figure2. PET/CT raw dataa. abdominal cross section CT image; b. abdominal cross section PET image; c. abdominal cross section PET/CT image; d. whole body coronal PET/CT image
2.3 實驗分析
2.3.1 SFFS-SVM 特征選擇性能分析
當 SFFS 結合不同的分類器時,由于分類器的學習方式不同,搜索到的最優特征子集及表現出的分類性能也不同。如圖3 所示,本文對比分析了幾種常見的分類器與 SFFS 結合時的表現,包括 Fisher 線性判別(Fisher’s linear discriminant analysis,LDA)分類器、k-近鄰(k-nearest neighbors,kNN)分類器、分類回歸樹(classification and regression tree,CART)和 SVM。需要指出的是,由于 SFFS 算法在特征選擇過程中的特性,同一特征個數下可能對應不同時刻產生的多個特征子集,因此,本文對這些特征子集在 10 次 10 折交叉驗證中產生的 F1 值平均值取最高值作為圖3 中在當前特征個數下的 F1 值。

對于 4 種不同的分類器,當選中的特征個數小于 5 時,F1 值隨著選中的特征個數的增加而增加,表明多個特征的組合更有利于 AIP 與 PDA 的鑒別。當選中的特征個數超過 5 時,LDA、kNN 和 CART 開始出現過擬合,鑒別性能開始下降。由于 SVM 分類器在小樣本上解決非線性、高維數問題的能力更強,所以在其 F1 值達到最高值后,F1 值不會因選中的特征個數的增加而出現明顯下降。在進一步的實驗中我們發現,當選中的特征個數超過 19 個時,SVM 分類器才會出現過擬合現象。對比 4 種不同分類器我們可以發現,SVM 分類器優勢較大,其 F1 值最高可以達到 91.26%,此時選中的最優特征子集共包含 8 個特征。
2.3.2 多模特征分析
SFFS-SVM 特征選擇算法選中的 8 個多模特征如圖4 所示。在選擇的特征中,PET 圖像中的基于 GLDS 的角度方向二階距的 Fisher 比最大,證明其所代表的紋理粗糙度對 AIP 與 PDA 的鑒別能力較強。對該特征進一步研究發現,在 AIP 樣本中該特征值較大,表明 AIP 患者病灶內的功能代謝變化較大,紋理更粗糙。當 SVM 分類器僅基于該特征進行鑒別時,10 次 10 折交叉驗證的 F1 值平均值可以達到 83.93%,高于 SUVmax 的 80.37%,表明該特征對 AIP 與 PDA 的鑒別能力高于臨床上常用的 SUVmax 指標,將這兩個特征組合使用時,F1 值為 84.05%。選中的其余 6 個紋理特征單獨使用時不具備鑒別能力,將它們與上述兩個特征組合使用時,可以將 F1 值提升至 91.26%,表明胰腺病灶內部的多模紋理特征的組合使用有助于對 AIP 與 PDA 進行鑒別。

灰點表示 Fisher 準則選出的 293 個特征;藍點表示 SFFS-SVM 特征選擇算法選出的 8 個特征,自左至右依次為:CT 圖像的基于 GLCM 的聚塊陰影度、基于 NGTDM 的紋理強度、基于 GLSZM 的小區域低灰度因子、多分辨率灰度直方圖的第 26 和第 46 個特征,以及 PET 圖像的 SUVmax、基于 GLDS 的角度方向二階距和多分辨率灰度直方圖的第 90 個特征,相應的 Fisher 比依次為:0.049 0,0.058 7,0.045 9,0.012 2,0.018 1,0.406 8,0.577 7,0.045 9
Figure4. Feature analysisgray points represents the 293 features selected by the Fisher criterion; blue points represents the 8 features selected by the SFFS-SVM algorithm, from left to right: GLCM-based cluster shade, NGTDM-based strength, GLSZM-based small zone low gray level emphasis, and multi-resolution gray histogram’s 26th and 46th feature for CT image; SUVmax, GLDS based angular second-order moment and multi-resolution gray histogram’s 90th feature for PET image; the corresponding Fisher ratios are 0.049 0, 0.058 7, 0.045 9, 0.012 2, 0.018 1, 0.406 8, 0.577 7, 0.045 9, respectively
對比圖4 中不同模態的特征可以發現,PET 圖像中的特征的 Fisher 比更大,這表明 PET 圖像反映的病灶內部代謝的變化更有助于 AIP 與 PDA 的鑒別。為了進一步研究不同模態的特征的鑒別能力,本文基于 SFFS-SVM 特征選擇算法分別對從 CT 圖像中提取到的特征和從 PET 圖像中提取到的特征進行篩選,得到的最優特征子集分別包括 9 個和 3 個特征,SVM 分類器在上述特征子集上的性能對比見圖5,其中 PET/CT 指的是上文中的將多模態特征組合后再進行特征選擇獲得的 8 個最優特征的性能。圖5 表明,相對于 CT 圖像特征,PET 圖像特征可以使 SVM 鑒別模型獲得更高的特異性和準確率。同時我們可以發現,將兩種模態的特征組合在一起進行篩選得到的最優多模特征子集可以使鑒別模型的特異性和準確率都得到大幅提升。

2.3.3 模型性能分析
(1)不同鑒別模型的性能對比
本節中,我們將本文構建的 SVM 鑒別模型與其他胰腺醫學圖像分析任務[12]中用到的 RF 和 Adaboost 模型進行性能對比。為了保證對比的公平性,本文同樣以 10 次 10 折交叉驗證得到的 F1 值的平均值作為評價指標,對 Fisher 準則預篩選的閾值、RF 中樹的數量及 Adaboost 中的迭代次數進行網格調優。最終,對于 RF,其預篩選的 Fisher 閾值為 0.13,樹的數量為 60 棵;對于 Adaboost,其對應的 Fisher 閾值為 0.11,迭代次數為 40 次。
為了在不同截斷點對模型進行對比,我們進行受試者工作特征曲線(receiver operating characteristic curve,ROC)分析。對于每個模型,本文采用 bootstrap 自助采樣的方法對數據集采樣 5 000 次,計算模型在每次采樣下得到的 ROC 曲線及曲線下面積(area under curve,AUC)。本文對 5 000 次采樣得到的 ROC 曲線求平均,不同模型的平均 ROC 曲線如圖6 所示。本文對不同模型平均 ROC 曲線的 AUC 值進行計算,可以得到 SVM 鑒別模型的 AUC 值為 0.921 8,高于 RF 的 0.834 7 和 Adaboost 的 0.854 8。進一步地,本文基于不同模型 5 000 次采樣得到的 AUC 值,采用成對 t 檢驗對模型的性能差異進行分析。結果表明,在 95% 的置信度下,SVM 鑒別模型相對于 Adaboost 和 RF 的差異有統計學意義(P<0.001,P<0.001),Adaboost 與 RF 的識別性能差異也具有統計學意義(P<0.001)。

(2)模型性能討論
目前臨床上基于 PET/CT 對 AIP 與 PDA 進行鑒別的研究大多基于 SUV 值。Ozaki 等[21]對 15 例 AIP 和 26 例 PDA 的胰腺 SUV 值進行了定量分析,結果顯示兩組病例的 SUVmax 無顯著差異。Zhang 等[8]對 26 例 AIP 患者和 40 例 PDA 患者進行的一項定量研究中,胰腺 SUVmax 對 AIP 與 PDA 的鑒別準確率為 72.7%。因此,由于腫瘤異質性的特點,SUVmax 不能完全表征病灶的代謝情況,無法進行準確鑒別。
本文中,我們采用 10 次 10 折交叉驗證法和留一法兩種驗證方法對基于多模紋理特征的 SVM 模型的識別性能進行驗證。留一法是指每次輪流留下一例患者的樣本作為測試集,其他全部用作訓練集,以提高樣本利用率。留一法和 10 次 10 折交叉驗證得到的模型性能統計見表3。從表3 可以發現,本文方法在 10 次 10 折交叉驗證中的平均鑒別準確率為 89.28%,在留一法驗證中的鑒別準確率為 89.19%。盡管與 Ozaki 等[21]和 Zhang 等[8]的研究基于不同的數據集,但本文在更大的數據集上(45 例 AIP,66 例 PDA)表現出的性能優勢可以表明,病灶內部的紋理特征有助于實現 AIP 與 PDA 的準確鑒別。此外,本模型在兩種驗證方式中有相似的性能表現,且在 10 次 10 折交叉驗證中各項性能指標的標準差均小于 1%,體現出本模型具有較高的穩定性;同時,在兩種驗證方式中,本模型的敏感性與特異性都非常接近,表明本模型可以無偏地對 AIP 與 PDA 進行鑒別。

本文中,我們收集了 PET/CT 數據集對應的臨床診斷結果,該結果由上海市長海醫院具有 10 年以上臨床經驗的兩名核醫學科醫生共同討論決定,其中一人為副高以上人員。在臨床診斷結果中,敏感性為 95.45%(63 例/66 例),特異性為 75.56%(34 例/45 例),鑒別準確率為 87.39%(97 例/111 例)。相比于本文方法,現有臨床診斷手段敏感性高而特異性低,容易將 AIP 誤診為 PDA,在鑒別準確率方面,本文方法略高于現有臨床診斷手段。綜上所述,對病灶內部的紋理分析可以取得略高于現有臨床診斷手段的結果,由于其特異性較高,將其作為現有臨床診斷手段的補充將有助于提高 AIP 的診斷準確率。
3 總結與展望
針對臨床上 AIP 與 PDA 準確鑒別存在的困難,本文提出了一個基于18F-FDG PET/CT 多模紋理特征的 SVM 鑒別模型。本文首先以胰腺病灶為 ROI,利用統計、頻域變換和多分辨率灰度直方圖算法來提取 CT 和 PET 圖像內的紋理特征。然后,利用 Fisher 準則對提取到的特征進行預篩選后,本文采用 SFFS-SVM 特征選擇算法來選擇出鑒別性能最優的多模特征子集。最后,本文基于該子集建立了一個 SVM 鑒別模型實現 AIP 與 PDA 的鑒別。bootstrap 抽樣實驗結果表明,本文構建的 SVM 鑒別模型在識別性能上優于隨機森林和 Adaboost 算法。10 次 10 折交叉驗證和留一法實驗結果表明,該模型具有較高的鑒別準確率,可以無偏地對 AIP 與 PDA 進行鑒別。對多模特征和模型性能的分析表明,對胰腺 PET/CT 病灶內部的紋理特征進行分析有助于實現 AIP 與 PDA 的準確鑒別。
在后續工作中,我們將進一步擴充數據集,在大數據集上利用深度學習的方法提取多模態圖像中的病灶內部特征。此外,如何有效地實現 PET/CT 圖像在像素級別上的數據融合,在避免丟失原有信息的前提下引入更多具有區分性的信息,也是我們后續的一個研究方向。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
自身免疫性胰腺炎(autoimmune pancreatitis,AIP)是慢性胰腺炎中的一種獨特亞型,它與自身免疫機制相關,類固醇激素治療對其效果顯著[1]。胰腺導管腺癌(pancreatic ductal adenocarcinoma,PDA)是胰腺癌中最常見的一種形式,需要根治性手術治療,且預后差[2]。AIP 在臨床表現上與 PDA 存在極大的相似性,使得 AIP 患者常被誤診為 PDA 而接受不必要的胰腺切除手術。國內外研究表明,在被診斷為 PDA 的患者中,有 5%~21% 最終被證實是 AIP[3-4]。因此,實現 AIP 與 PDA 的準確鑒別意義重大。
AIP 的診斷標準主要包括影像學檢查、血清學檢查、組織學檢查、胰腺外器官受累情況和激素治療后的反應等[5-6]。血清學指標對 AIP 的敏感性和特異性仍有爭議[7],而有創性的穿刺活檢敏感性不高,因此影像學檢查在臨床診斷中發揮了關鍵性的作用。傳統影像學檢查,如超聲、計算機斷層顯像(computed tomography,CT)和磁共振成像(magnetic resonance imaging,MRI),它們均反映胰腺組織的解剖學信息,當 AIP 患者胰腺表現出局灶性增大和“雙管征”時,僅基于解剖學信息極易將其誤診為 PDA。18F-氟脫氧葡萄糖(18F-fluorodeoxglucose,18F-FDG)正電子發射斷層顯像/X 線計算機體層成像儀(positron emission tomography/computed tomography,PET/CT)集功能顯像和解剖顯像于一體,可以同時提供胰腺形態、密度及功能代謝的綜合信息,尤其在胰腺外器官的檢查方面擁有不可替代的優勢,對 AIP 和 PDA 的鑒別價值極大[8]。然而,目前臨床上常用的定量分析指標,如標準攝取值(standardized uptake value,SUV)無法挖掘病灶內的代謝變化信息,而人眼對灰階又不敏感,當 AIP 患者胰腺表現出局灶性的18F-FDG 高攝取及腫大時,容易導致誤診[9]。針對這一情況,本文旨在深入挖掘18F-FDG PET/CT 圖像中的胰腺病灶內部特征[10],利用計算機輔助診斷技術實現 AIP 與 PDA 的鑒別診斷。
截止目前,計算機輔助診斷技術在鑒別 AIP 與 PDA 方面的價值如何尚未見報道。在其他胰腺疾病分析場景中,Gazit 等[11]基于增強 CT 圖像對胰腺導管內乳頭狀黏液性腫瘤惡性程度進行評估,構建了隨機森林(random forest,RF)和 Adaboost 兩個分類模型。在基于超聲內鏡圖像對 PDA 與慢性胰腺炎[12]和 AIP 與慢性胰腺炎[13]進行鑒別的研究中,研究人員采用序列前向選擇算法對提取到的特征進行篩選,最后采用支持向量機(support vector machine,SVM)[14]進行分類。上述研究均基于單一模態的解剖學影像信息,缺乏對功能代謝信息和多模態互補信息的探討。鑒于18F-FDG PET/CT 在鑒別 AIP 與 PDA 中的價值,本文基于該多模態圖像研究 AIP 與 PDA 的鑒別診斷,提出了一個基于多模紋理特征的 SVM 鑒別模型。
鑒于深度學習算法對數據量要求較高[15],本文采用統計、頻域變換和多分辨率灰度直方圖等特征提取算法來提取 CT 和 PET 圖像內的紋理特征。經 Fisher 準則對特征進行預篩選后,為充分考慮特征間的相關性,本文采用序列前向浮動選擇算法(sequence forward floating selection algorithm,SFFS)[16]選擇最優多模特征子集。最后,本文采用 SVM 分類器實現 AIP 與 PDA 的鑒別。
1 方法
本文首先基于胰腺在 PET/CT 成像中的顯像特點及臨床數據處理方式,對收集到的 PET/CT 數據進行預處理,然后采用多種特征提取算法分別提取 CT 和 PET 圖像感興趣區(region of interest,ROI)內的紋理特征。為降低特征維度,我們先采用 Fisher 準則進行特征預篩選,剔除 Fisher 比接近于 0 的特征,之后,我們選擇在小樣本上具有穩定表現的 SVM 分類器作為最終分類器,并將它結合到 SFFS 內,構建 SFFS-SVM 特征選擇算法,為 SVM 分類器選擇最有利于其性能的多模特征子集。最后,SVM 分類器基于該多模特征子集實現 AIP 與 PDA 的鑒別。基于多模紋理特征的 AIP 與 PDA 鑒別的具體步驟如下所示。
1.1 數據預處理
對于 CT 數據,根據胰腺組織 CT 值范圍,本文截取[?10, 100]HU 內的內容以增強圖像細節;對于 PET 數據,本文先采用雙三次內插使其獲得與 CT 圖像相同的空間分辨率(0.98 mm×0.98 mm),然后,采用圖像剛性配準算法將 PET 數據配準到與其對應的 CT 數據上,最后將其灰度值變換到臨床上常用的 SUV 值來進行后續特征計算。本文中,我們以胰腺病灶為 ROI,數據預處理過程如圖 1 所示。

1.2 多模紋理特征提取
不同模態的圖像因其成像原理不同而含有不同的信息。對于 CT 圖像,其灰度差異能夠凸顯病灶組織的粗糙度、規則性和方向性;對于 PET 圖像,其灰度值可以反映病灶組織的代謝情況,而空間密度差異則可以反映病灶內部的代謝變化。本文首先基于采集到的原始數據計算臨床上常用的 4 個診斷特征:CT 圖像 ROI 內的平均 CT 值和最大 CT 值(CTmean、CTmax)以及 PET 圖像 ROI 內的平均 SUV 值和最大 SUV 值(SUVmean、SUVmax),然后本文將 CT 和 PET 圖像內的灰度值轉換到 0~255 來進行紋理信息的提取。本文中,我們采用統計、頻域變換和多分辨率直方圖算法來提取多模態圖像病灶內部的紋理特征。
對于灰度共生矩陣(gray level co-occurrence matrix,GLCM),為提高運算效率,本文在不影響紋理特征的前提下進行了灰度級壓縮,將 CT 和 PET 圖像壓縮到 16 個灰度級。類似地,對于灰度差分統計(gray level difference statistics,GLDS)、灰度游程矩陣(gray level run length matrix,GLRLM)、局部灰度差分矩陣(neighborhood gray tone difference matrix,NGTDM)和灰度區域尺寸矩陣(gray level zone size matrix,GLSZM)[17],本文將 CT 和 PET 圖像壓縮至 32 個灰度級以進行相關統計特征的提取。
本文采用 Gabor 濾波器[18]進行頻域特征的提取。Gabor 濾波器是經尺度伸縮和方向旋轉產生的一組帶通濾波器,在空域與頻域均有較好的分辨率。本文中,我們采用以 5 個尺度(波長為 2 到 6)、4 個方向(0°,45°,90°,135°)的 Gabor 函數為母波函數的小波變換來提取 ROI 在不同頻域尺度和紋理方向的特征信息。
多分辨率灰度直方圖特征[19]具有平移和旋轉不變性,同時對噪聲和尺寸變化不敏感,且相較于高階紋理統計特征,其在表達圖像密度空間信息時計算更加簡單。本文中,考慮到 ROI 的實際尺寸,我們先采用高斯濾波金字塔算法來獲得 3 個不同分辨率的 ROI 圖像,然后計算累計直方圖來獲得 2 個差分直方圖,并以 4 為步長對灰度級為 256 的差分直方圖進行欠采樣,最后連接欠采樣后的 2 個差分直方圖形成 128 維的多分辨率灰度直方圖特征向量。
本文最終從 CT 和 PET 圖像中共提取了 418 個特征,特征分量集合見表 1。

1.3 特征選擇與建模
上述特征提取過程提取到的大量特征存在特征冗余,為了避免引發“維度災難”,降低學習難度,需要選取合適的特征選擇方法來剔除不相關和冗余特征。Fisher 準則和 SFFS[16]算法是常見的兩種特征選擇算法,前者計算復雜度小且易于推廣,后者直接把要使用的分類器的性能作為特征子集的評價準則,在分類器上獲得的準確率一般較高。因此,本文先采用 Fisher 準則進行特征預篩選,剔除鑒別性能極差的特征,然后采用 SFFS 算法選出最優的多模特征子集。
Fisher 準則的主要思想是類內距離小、類間距離大的特征鑒別性能更強。本文采用單個特征的 Fisher 比作為篩選準則,將 Fisher 準則與后續的 SFFS 算法相結合對預篩選的 Fisher 閾值進行網格調優,最終從原有 418 個特征中篩選出 Fisher 比大于 0.01 的 293 個特征,從而節省后續 SFFS 特征選擇中的計算開銷。
本文中,我們采用在小樣本上具有穩定表現的 SVM 分類器對 AIP 和 PDA 進行鑒別。SVM 分類器根據結構風險最小化準則,以最大化分類間隔構造最優分類超平面來提高分類器的泛化能力,它能較好地解決非線性、高維數和局部極小點等問題。為提高 SVM 分類器的鑒別能力,本文把在 SVM 分類器上的表現作為 SFFS 算法的評價準則,構建 SFFS-SVM 特征選擇算法,為 SVM 分類器選擇最有利于其鑒別性能的特征子集,該算法的特征子集搜索過程如表 2 所述。

在特征子集搜索過程中,對于搜索到的每個特征子集,我們在 SVM 分類器上進行 10 次 10 折交叉驗證,以它們 F1 值的平均值作為該特征子集鑒別性能的評價函數。10 次 10 折交叉驗證的具體過程如下:① 將數據集隨機劃分成 10 組,輪流取其中 9 組患者的 ROI 樣本作為訓練集,用于訓練 SVM 分類器,剩余 1 組作為測試集,計算 SVM 分類器在當前測試集上的 F1 值,10 次實驗后,計算 10 次實驗 F1 值的平均值;② 將步驟① 重復 10 次,對 10 次隨機劃分得到的 F1 值的平均值求平均。步驟① 用于消除單一測試集上 F1 值具有的偶然性,步驟② 用于消除每次數據集隨機劃分帶來的結果的隨機性。F1 值是精確率(precision)和召回率(recall)的調和平均,是對二者的綜合評價。其中精確率可以反映 AIP 被錯誤預測的情況,而召回率則可以反映樣本中所有 PDA 被正確預測的情況。F1 值、精確率及召回率的定義分別見公式(1)~(3):
![]() |
其中:
![]() |
![]() |
其中,TP:真陽性例數,是指 PDA 被識別為 PDA 的個數;FN:假陰性例數,是指 PDA 被識別為 AIP 的個數;FP:假陽性例數,是指 AIP 被識別為 PDA 的個數;TN:真陰性例數,是指 AIP 被識別為 AIP 的個數。
當選中的特征總數連續增加 4 個而沒有使整體分類性能獲得提升時,停止搜索。最后,我們在 SFFS-SVM 特征選擇算法搜索到的最優多模特征子集上構建 SVM 鑒別模型,實現 AIP 與 PDA 的鑒別。本文采用敏感性(sensitivity)、特異性(specificity)、陰性預測值(negative predictive value,NPV)和陽性預測值(positive predictive value,PPV)對模型的性能進行分析,其定義分別如式(4)~(7)所示。
![]() |
![]() |
![]() |
![]() |
2 結果與分析
2.1 實驗環境
軟件環境:Windows10 操作系統,MatlabR2017a;硬件環境:Intel(R)Xeon(R)CPU E5-2960 v3 @ 2.60 GHz,64 GB 內存。
2.2 數據來源
本研究為回顧性分析,經上海市長海醫院倫理委員會審查,在確保病患個人隱私的基礎上可以免除知情同意。PET/CT 原始數據集在長海醫院核醫學科采集,其中 AIP 患者 45 例(彌漫性 26 例,局灶性 19 例),PDA 患者 66 例。所有患者均通過組織學檢查或液基細胞學檢查確診。所有 PET/CT 數據均是在注射顯像劑約 1 h 后由德國西門子公司 Biograph64 PET/CT 掃描儀掃描獲得,CT 數據和 PET 數據的像素大小分別為 0.98 mm 和 4.07 mm,層距為 3 mm。圖2 為一例 AIP 患者的原始數據。本研究中的 ROI 是在經驗豐富的核醫學科醫師指導下,在 3D Slicer[20]軟件上目測確認胰腺在 PET 圖像中的代謝濃聚灶,取橫斷面 SUV 值最大層面,結合 CT 圖像中的解剖學信息在 CT 圖像上沿病灶邊緣手動精確勾畫得出。

a. 腹部橫斷面 CT 圖像;b. 腹部橫斷面 PET 圖像;c. 腹部橫斷面 PET/CT 圖像;d. 全身冠狀面 PET/CT 圖像
Figure2. PET/CT raw dataa. abdominal cross section CT image; b. abdominal cross section PET image; c. abdominal cross section PET/CT image; d. whole body coronal PET/CT image
2.3 實驗分析
2.3.1 SFFS-SVM 特征選擇性能分析
當 SFFS 結合不同的分類器時,由于分類器的學習方式不同,搜索到的最優特征子集及表現出的分類性能也不同。如圖3 所示,本文對比分析了幾種常見的分類器與 SFFS 結合時的表現,包括 Fisher 線性判別(Fisher’s linear discriminant analysis,LDA)分類器、k-近鄰(k-nearest neighbors,kNN)分類器、分類回歸樹(classification and regression tree,CART)和 SVM。需要指出的是,由于 SFFS 算法在特征選擇過程中的特性,同一特征個數下可能對應不同時刻產生的多個特征子集,因此,本文對這些特征子集在 10 次 10 折交叉驗證中產生的 F1 值平均值取最高值作為圖3 中在當前特征個數下的 F1 值。

對于 4 種不同的分類器,當選中的特征個數小于 5 時,F1 值隨著選中的特征個數的增加而增加,表明多個特征的組合更有利于 AIP 與 PDA 的鑒別。當選中的特征個數超過 5 時,LDA、kNN 和 CART 開始出現過擬合,鑒別性能開始下降。由于 SVM 分類器在小樣本上解決非線性、高維數問題的能力更強,所以在其 F1 值達到最高值后,F1 值不會因選中的特征個數的增加而出現明顯下降。在進一步的實驗中我們發現,當選中的特征個數超過 19 個時,SVM 分類器才會出現過擬合現象。對比 4 種不同分類器我們可以發現,SVM 分類器優勢較大,其 F1 值最高可以達到 91.26%,此時選中的最優特征子集共包含 8 個特征。
2.3.2 多模特征分析
SFFS-SVM 特征選擇算法選中的 8 個多模特征如圖4 所示。在選擇的特征中,PET 圖像中的基于 GLDS 的角度方向二階距的 Fisher 比最大,證明其所代表的紋理粗糙度對 AIP 與 PDA 的鑒別能力較強。對該特征進一步研究發現,在 AIP 樣本中該特征值較大,表明 AIP 患者病灶內的功能代謝變化較大,紋理更粗糙。當 SVM 分類器僅基于該特征進行鑒別時,10 次 10 折交叉驗證的 F1 值平均值可以達到 83.93%,高于 SUVmax 的 80.37%,表明該特征對 AIP 與 PDA 的鑒別能力高于臨床上常用的 SUVmax 指標,將這兩個特征組合使用時,F1 值為 84.05%。選中的其余 6 個紋理特征單獨使用時不具備鑒別能力,將它們與上述兩個特征組合使用時,可以將 F1 值提升至 91.26%,表明胰腺病灶內部的多模紋理特征的組合使用有助于對 AIP 與 PDA 進行鑒別。

灰點表示 Fisher 準則選出的 293 個特征;藍點表示 SFFS-SVM 特征選擇算法選出的 8 個特征,自左至右依次為:CT 圖像的基于 GLCM 的聚塊陰影度、基于 NGTDM 的紋理強度、基于 GLSZM 的小區域低灰度因子、多分辨率灰度直方圖的第 26 和第 46 個特征,以及 PET 圖像的 SUVmax、基于 GLDS 的角度方向二階距和多分辨率灰度直方圖的第 90 個特征,相應的 Fisher 比依次為:0.049 0,0.058 7,0.045 9,0.012 2,0.018 1,0.406 8,0.577 7,0.045 9
Figure4. Feature analysisgray points represents the 293 features selected by the Fisher criterion; blue points represents the 8 features selected by the SFFS-SVM algorithm, from left to right: GLCM-based cluster shade, NGTDM-based strength, GLSZM-based small zone low gray level emphasis, and multi-resolution gray histogram’s 26th and 46th feature for CT image; SUVmax, GLDS based angular second-order moment and multi-resolution gray histogram’s 90th feature for PET image; the corresponding Fisher ratios are 0.049 0, 0.058 7, 0.045 9, 0.012 2, 0.018 1, 0.406 8, 0.577 7, 0.045 9, respectively
對比圖4 中不同模態的特征可以發現,PET 圖像中的特征的 Fisher 比更大,這表明 PET 圖像反映的病灶內部代謝的變化更有助于 AIP 與 PDA 的鑒別。為了進一步研究不同模態的特征的鑒別能力,本文基于 SFFS-SVM 特征選擇算法分別對從 CT 圖像中提取到的特征和從 PET 圖像中提取到的特征進行篩選,得到的最優特征子集分別包括 9 個和 3 個特征,SVM 分類器在上述特征子集上的性能對比見圖5,其中 PET/CT 指的是上文中的將多模態特征組合后再進行特征選擇獲得的 8 個最優特征的性能。圖5 表明,相對于 CT 圖像特征,PET 圖像特征可以使 SVM 鑒別模型獲得更高的特異性和準確率。同時我們可以發現,將兩種模態的特征組合在一起進行篩選得到的最優多模特征子集可以使鑒別模型的特異性和準確率都得到大幅提升。

2.3.3 模型性能分析
(1)不同鑒別模型的性能對比
本節中,我們將本文構建的 SVM 鑒別模型與其他胰腺醫學圖像分析任務[12]中用到的 RF 和 Adaboost 模型進行性能對比。為了保證對比的公平性,本文同樣以 10 次 10 折交叉驗證得到的 F1 值的平均值作為評價指標,對 Fisher 準則預篩選的閾值、RF 中樹的數量及 Adaboost 中的迭代次數進行網格調優。最終,對于 RF,其預篩選的 Fisher 閾值為 0.13,樹的數量為 60 棵;對于 Adaboost,其對應的 Fisher 閾值為 0.11,迭代次數為 40 次。
為了在不同截斷點對模型進行對比,我們進行受試者工作特征曲線(receiver operating characteristic curve,ROC)分析。對于每個模型,本文采用 bootstrap 自助采樣的方法對數據集采樣 5 000 次,計算模型在每次采樣下得到的 ROC 曲線及曲線下面積(area under curve,AUC)。本文對 5 000 次采樣得到的 ROC 曲線求平均,不同模型的平均 ROC 曲線如圖6 所示。本文對不同模型平均 ROC 曲線的 AUC 值進行計算,可以得到 SVM 鑒別模型的 AUC 值為 0.921 8,高于 RF 的 0.834 7 和 Adaboost 的 0.854 8。進一步地,本文基于不同模型 5 000 次采樣得到的 AUC 值,采用成對 t 檢驗對模型的性能差異進行分析。結果表明,在 95% 的置信度下,SVM 鑒別模型相對于 Adaboost 和 RF 的差異有統計學意義(P<0.001,P<0.001),Adaboost 與 RF 的識別性能差異也具有統計學意義(P<0.001)。

(2)模型性能討論
目前臨床上基于 PET/CT 對 AIP 與 PDA 進行鑒別的研究大多基于 SUV 值。Ozaki 等[21]對 15 例 AIP 和 26 例 PDA 的胰腺 SUV 值進行了定量分析,結果顯示兩組病例的 SUVmax 無顯著差異。Zhang 等[8]對 26 例 AIP 患者和 40 例 PDA 患者進行的一項定量研究中,胰腺 SUVmax 對 AIP 與 PDA 的鑒別準確率為 72.7%。因此,由于腫瘤異質性的特點,SUVmax 不能完全表征病灶的代謝情況,無法進行準確鑒別。
本文中,我們采用 10 次 10 折交叉驗證法和留一法兩種驗證方法對基于多模紋理特征的 SVM 模型的識別性能進行驗證。留一法是指每次輪流留下一例患者的樣本作為測試集,其他全部用作訓練集,以提高樣本利用率。留一法和 10 次 10 折交叉驗證得到的模型性能統計見表3。從表3 可以發現,本文方法在 10 次 10 折交叉驗證中的平均鑒別準確率為 89.28%,在留一法驗證中的鑒別準確率為 89.19%。盡管與 Ozaki 等[21]和 Zhang 等[8]的研究基于不同的數據集,但本文在更大的數據集上(45 例 AIP,66 例 PDA)表現出的性能優勢可以表明,病灶內部的紋理特征有助于實現 AIP 與 PDA 的準確鑒別。此外,本模型在兩種驗證方式中有相似的性能表現,且在 10 次 10 折交叉驗證中各項性能指標的標準差均小于 1%,體現出本模型具有較高的穩定性;同時,在兩種驗證方式中,本模型的敏感性與特異性都非常接近,表明本模型可以無偏地對 AIP 與 PDA 進行鑒別。

本文中,我們收集了 PET/CT 數據集對應的臨床診斷結果,該結果由上海市長海醫院具有 10 年以上臨床經驗的兩名核醫學科醫生共同討論決定,其中一人為副高以上人員。在臨床診斷結果中,敏感性為 95.45%(63 例/66 例),特異性為 75.56%(34 例/45 例),鑒別準確率為 87.39%(97 例/111 例)。相比于本文方法,現有臨床診斷手段敏感性高而特異性低,容易將 AIP 誤診為 PDA,在鑒別準確率方面,本文方法略高于現有臨床診斷手段。綜上所述,對病灶內部的紋理分析可以取得略高于現有臨床診斷手段的結果,由于其特異性較高,將其作為現有臨床診斷手段的補充將有助于提高 AIP 的診斷準確率。
3 總結與展望
針對臨床上 AIP 與 PDA 準確鑒別存在的困難,本文提出了一個基于18F-FDG PET/CT 多模紋理特征的 SVM 鑒別模型。本文首先以胰腺病灶為 ROI,利用統計、頻域變換和多分辨率灰度直方圖算法來提取 CT 和 PET 圖像內的紋理特征。然后,利用 Fisher 準則對提取到的特征進行預篩選后,本文采用 SFFS-SVM 特征選擇算法來選擇出鑒別性能最優的多模特征子集。最后,本文基于該子集建立了一個 SVM 鑒別模型實現 AIP 與 PDA 的鑒別。bootstrap 抽樣實驗結果表明,本文構建的 SVM 鑒別模型在識別性能上優于隨機森林和 Adaboost 算法。10 次 10 折交叉驗證和留一法實驗結果表明,該模型具有較高的鑒別準確率,可以無偏地對 AIP 與 PDA 進行鑒別。對多模特征和模型性能的分析表明,對胰腺 PET/CT 病灶內部的紋理特征進行分析有助于實現 AIP 與 PDA 的準確鑒別。
在后續工作中,我們將進一步擴充數據集,在大數據集上利用深度學習的方法提取多模態圖像中的病灶內部特征。此外,如何有效地實現 PET/CT 圖像在像素級別上的數據融合,在避免丟失原有信息的前提下引入更多具有區分性的信息,也是我們后續的一個研究方向。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。