引用本文: 何花, 楊德倫, 孫碩, 何立, 馬翔, 趙蒙蒙, 鄧家駿, 馬敏杰, 韓彪, 陳昶. 基于影像組學的機器學習模型輔助肺磨玻璃結節浸潤程度鑒別的應用價值. 中國胸心血管外科臨床雜志, 2023, 30(4): 522-531. doi: 10.7507/1007-4848.202209015 復制
磨玻璃結節(ground-glass nodules,GGNs)根據是否含有實性成分分為混合GGNs和純GGNs[1]。近年來,隨著低劑量螺旋CT(low-dose computed tomography,LDCT)的發展,越來越多肺GGNs被發現,目前亞洲地區肺癌門診患者多為GGNs患者[2]。國際早期肺癌行動計劃(I-ELCAP)報道了CT檢查發現的GGNs的惡性概率(34%)明顯高于實性結節(7%)[3],因此術前準確區分GGNs浸潤程度可輔助臨床醫生為不同的患者制定個性化精準診療方案,在保證總生存期不變的情況下盡可能多地保留患者肺功能、提高患者生存質量、避免過度治療等方面具有重要意義。
目前GGNs術前診斷評估方法包括侵入性和非侵入性檢測方法。對GGNs的評估受到診斷工具CT、正電子發射體層成像(positron emission tomography,PET)[4-5]和非手術活檢[6-7]相對不敏感的限制,如LDCT的高假陽性率、PET昂貴的費用以及對于亞實性結節有限的評估價值。侵入性檢測方法,如經皮肺穿刺活檢術、支氣管鏡組織采樣、細針抽吸活檢[8],由于存在取樣不充分和假陰性結果等而存在一些局限性,操作不規范容易造成咯血、氣胸等并發癥[9];還增加了患者的醫療費用,一項分析[10]表明40%的肺癌醫保支出源自良性肺結節的侵入性操作。
影像組學通過高通量計算從醫學圖像中提取和分析臨床醫生肉眼看不到的定量圖像特征[11-13]。先前已有研究[14-15]利用影像組學特征建立診斷或預后模型,并開發用于臨床決策支持和個性化診斷的臨床工具。此外影像組學具有以下優勢:與穿刺活檢受限于取材量、取材部位差異而存在假陰性結果相比,影像組學在無創的條件下通過對整個病灶以及病灶微環境進行完整分析可以解釋腫瘤內以及腫瘤間的異質性[16-17]。但目前影像組學所產生的高通量信息處理也給臨床帶來一定挑戰。既往的研究報道支持向量機(support vector machine,SVM)在處理、分析這些大量的信息方面具有高效進行復雜運算的優勢。因此鑒于以上情況,本研究旨在建立基于影像組學特征的SVM模型預測術前GGNs浸潤程度,并探討其針對不同實性成分直徑GGNs的預測能力,與Mayo及Brock模型進行性能對比以及對臨床醫生診療的輔助價值。
1 資料與方法
1.1 臨床資料
回顧性收集上海市肺科醫院2021年3月—7月、蘭州大學第一醫院2019年1月—2022年5月胸外科手術完整切除的肺GGNs患者的臨床資料。納入標準:(1)術前1個月內CT掃描發現肺亞實性結節;(2)病理診斷為非典型腺瘤樣增生(atypical adenomatous hyperplasia,AAH)、原位腺癌(adenocarcinoma in situ,AIS)、微浸潤腺癌(minimally invasive adenocarcinoma,MIA)、浸潤性腺癌(invasive adenocarcinoma,IA)中任意一種;(3)結節實性成分直徑<3 cm;(4)術前未行任何治療;(5)過去5年內無肺癌及其他惡性腫瘤史。排除標準:(1)術前無就診醫院CT資料;(2)非薄層CT圖像資料(<3 mm)或其他無法獲取薄層CT影像的情況。使用簡單隨機化分組方法將納入患者按7∶3 比例隨機分為訓練集和測試集。
1.2 一般資料采集
記錄患者的姓名、性別、年齡、吸煙史、既往史、家族史等資料。
1.3 圖像獲取與結節分割
使用圖像存檔與通信系統(PACS)從2家醫院檢索術前CT圖像。蘭州大學第一醫院CT掃描參數為:(1)GE Discovery CT750 HD 64排螺旋CT(GE公司,美國)。管電壓:120 kV;管電流:自動管電流調節;螺距:0.863 1;層厚:1 mm;視野:350 mm;圖像矩陣:512×521;(2)Siemens Somatom Definition AS+ 64排螺旋CT(西門子醫療系統,德國)。管電壓:120 kV;管電流:自動管電流調節;螺距:1.2;層厚:1 mm;視野:326 mm;圖像矩陣:512×521。上海市肺科醫院CT掃描參數為:Siemens Somatom Definition AS(西門子醫療系統,德國)或Brilliance 40(飛利浦醫療系統,荷蘭)。在120 kV管電壓和200 mA管電流下,不使用造影劑。Siemens組使用Somatom Definition AS掃描儀(640.625 mm檢測器,1.0節距)。在飛利浦組,使用華晨40掃描儀(400.625 mm探測器配置,0.4節距)進行掃描。按以下參數對所有CT資料進行重建:卷積核=170 f,層間距2 mm,層厚2 mm,肺窗窗位?450~?600 Hu,窗寬1 200~1 500 Hu。檢查前對患者行呼吸訓練,掃描時患者平躺于CT掃描床上,雙臂向上抱頭狀,儀器自動從肺尖掃描至肺底,仰臥位深吸一口氣后屏住呼吸開始掃描。由2位研究者使用已發布的3D Slicer軟件(4.10.1版本,www.slicer.org),采用手工方式對每個CT圖像結節進行感興趣區域 (region of interest,ROI)勾畫,結節涉及的每個層面都需勾畫,在此區域中手動排除支氣管、大血管、骨骼和縱隔等非肺組織區域;見圖1。所有勾畫工作均在薄層肺窗圖像上完成。從整個樣本中隨機選擇30例患者由2名研究者獨立分割病灶使用組內相關系數(intraclass correlation coefficient,ICC),評估2名研究者之間的一致性。記錄結節部位、最大直徑和結節類型,并判斷結節是否具有毛刺征、是否存在鈣化、是否合并肺氣腫,出現爭議時商討解決。

1.4 影像組學特征提取與篩選
2名研究者對病灶進行手動分割的一致性較好,觀察者間ICC為0.87。將每個人工標注的ROI使用Python3.7.1中的PyRadiomics包(www.python.org) 進行影像組學特征提取,共提取了1 317個影像組學特征,包括一階統計特征(first order statistics)、形狀特征(shape)、紋理特征和高階統計特征,共分為7類:(1)一階統計特征(n=252);(2)形狀(n=14);(3)灰度共生矩陣(GLCM,n=336);(4)灰度依賴矩陣(GLDM,n=197);(5)灰度運行長度矩陣(GLSZM,n=224);(6)灰度大小區域矩陣(GLSZM,n=224);(7)領域灰度差矩陣(NGTDM,n=70)。其中一階統計量描述了CT圖像ROI的強度信息,如標準差、均數、方差等特征。形狀特征反映了區域的大小和形狀,如最大直徑、體積、表面積等特征。紋理特征可量化區域異質性差異。高階統計特征指從原始圖像的小波變換中得到的一階統計特征和紋理特征,包括平方根、小波和對數等特征。采用最小冗余最大相關性(max-relevance and min-redundancy,mRMR)和最小絕對收縮與選擇算子(least absolute shrinkage and selection operator,LASSO)方法5折交叉驗證篩選有判別肺結節腫瘤浸潤程度價值的影像組學特征。LASSO算法的基本原理是通過構造添加一階范數懲罰項即所有回歸系數絕對值之和,將所有變量的回歸系數進行收縮,隨著懲罰參數(λ)的增加,越來越多的系數被快速收縮至0,未被收縮至0的變量則被保留下來進行模型訓練。
1.5 病理診斷方法及分類標準
所有手術切除的結節病灶分別由患者所在醫院病理科醫師將標本經4%中性甲醛固定液固定、病灶切片、石蠟包埋、制片、蘇木精-伊紅染色(HE染色),由2名經驗豐富的高年資病理診斷醫師(侯立坤、孫少華)經過顯微鏡讀片后做出診斷,當結果不一致時經綜合討論達成一致。根據2015年世界衛生組織病理分類診斷標準[18]:(1)AAH:局部病變(≤0.5 cm),上皮細胞出現輕-中度不典型增生,未出現間質性炎性反應和纖維組織增生;(2)AIS:腫瘤細胞沿肺泡壁以貼壁的方式生長,未發現肺間質、血管或者胸膜浸潤;(3)MIA:腺泡細胞以貼壁式生長為主且浸潤灶直徑≤0.5 cm;(4)IA:局灶性病變,病變浸潤直徑>0.5 cm。根據病理結果將肺腺癌分為非浸潤性病變(AAH+AIS)和浸潤性病變(MIA+IA)。
1.6 Mayo和Brock模型
目前Mayo和Brock模型是國內外公認的肺結節惡性概率預測模型,惡性概率P=ex/(1+ex),其中x取值不同。Mayo模型[19]x=?6.827 2+(0.039 1×年齡)+(0.791 7×吸煙史)+(1.338 8×惡性腫瘤史)+(0.127 4×結節直徑)+(1.040 7×毛刺征)+(0.783 8×上葉位置)。Brock模型[20]x=?6.614 4+(0.646 7×性別)+(?5.553 7×直徑)+(0.930 9×毛刺征)+(0.600 9×上葉位置)。以病理診斷結果為金標準,分別繪制這2個模型的受試者工作特征(receiver operating characteristic,ROC)曲線。
1.7 統計學分析
使用SPSS 25進行統計分析,計量資料不服從正態分布采用中位數(上下四分位數)[M(P25,P75)]描述,組間比較采用秩和檢驗。服從正態分布的計量資料采用均數±標準差(±s)描述,組間比較采用t檢驗;計數資料以例數及率表示,組間比較采用χ2檢驗。Python3.7.1進行特征篩選以及SVM模型建立,并計算敏感度、特異度、預測準確率、陰性預測值、陽性預測值等指標評估模型的預測性能,繪制決策曲線和校準曲線以評估模型的預測價值。MedCalc統計軟件進行分析,將SVM模型與Mayo、Brock模型預測性能進行比較。P≤0.05為差異有統計學意義。
1.8 倫理審查
本研究方案經上海市肺科醫院倫理委員會批準(批準號:K20-003),免除知情同意。
2 結果
2.1 基線資料
共納入400例患者,其中女267 例、男 133 例,平均年齡(52.4±12.7)歲。訓練集280例,測試集120例。兩組患者年齡、實性成分最大徑、結節最大徑、浸潤程度、病理亞型、病變位置、結節性質等方面差異無統計學意義(P>0.05)。測試集中女性患者比例略高于訓練集(P=0.044);見表1。


2.2 影像組學特征篩選
各影像組學特征收縮系數的收縮路徑曲線及篩選出的影像組學特征見圖2。隨著影像組學特征的λ值增大,進入模型的變量減少,變量系數的絕對值也逐漸向0靠近。最后LASSO篩選出8個影像組學特征非零系數的潛在預測特征。

2.3 模型診斷性能評估
在預測早期肺腺癌非浸潤病變和浸潤性病變的二分類問題上,該模型在訓練集的AUC值為0.91[95%CI(0.88,0.94)],測試集的AUC值為0.86[95%CI(0.80,0.93)];為了驗證該模型在不同結節大小中的區分性能,我們根據結節最大徑進行了亞組分析,由于>20 mm組結節均為浸潤性病變,未進行性能分析。該SVM模型在訓練集和測試集的不同結節直徑亞組中表現出較為穩定的區分性能;見表2。2個數據集及亞組預測值和真實值的混淆矩陣見圖3~4。SVM模型的AUC明顯優于Mayo模型0.73[95%CI(0.68,0.78)]和Brock模型0.73[95%CI(0.68,0.78)];見圖5。




a:SVM模型在訓練集和測試集和Mayo以及Brock模型的ROC曲線下面積;b:訓練集和測試集不同結節大小亞組的ROC曲線下面積;SVM:支持向量機;ROC:受試者工作特征
2.4 模型的預測價值
通過決策曲線圖可見預測模型的臨床凈收益高于所有干預和無干預曲線,說明該模型能夠在臨床上獲益;見圖6。校準曲線圖可見預測模型的預測值與真實值間的誤差較小,具有較高的準確度;見圖7。

a:訓練集決策曲線;b:測試集決策曲線

2.5 輔助價值探究
我們通過2名初級胸外科住院醫師(A和B)在有或無SVM模型輔助下,分別對結節腫瘤浸潤程度判斷情況進行比較來評估該模型的臨床實用價值,用Delong test判斷ROC曲線是否有統計學意義。醫師A在模型輔助下判斷肺結節腫瘤浸潤程度AUC值從0.75[95%CI(0.70,0.79)]提升到0.82[95%CI(0.78,0.85),P<0.01];醫師B在模型輔助下AUC值從0.64[95%CI(0.59,0.69)]提升到0.77[95%CI(0.73,0.81),P<0.000 1]。在該模型輔助下,敏感度、特異度、準確率均明顯提高;見表3。

3 討論
機器學習是人工智能的一個分支,包含深度學習和機器學習算法,在醫學領域的應用十分廣泛[21-23]。機器學習通過從大量數據中學習如何執行特定任務,并在學習過程中逐漸提升該任務的執行表現,最終產生可以順利執行該任務的計算機算法。機器學習、人工神經網絡等模型已經應用于肺癌的診斷[13, 24-25],并且在內部數據中取得了很好的鑒別性能和準確率[26]。然而這些工具存在有限的外部驗證、過擬合以及無法解釋的結果等缺陷。過去10年中新出現的證據表明醫學圖像中包含與病理學、血液學、基因組學、蛋白質組學互補的數據[12]。在許多研究[12, 27-30]中證實了影像組學在疾病診斷、腫瘤分期、基因突變預測、生存預后等方面有更高的敏感性和特異性。Chae等[31]利用紋理特征建立了人工神經網絡以區分部分實性肺結節是非浸潤病變還是浸潤性病變,其AUC達0.98,但是由于樣本量較小(86個)且未進行驗證,因此不可排除存在過擬合的可能以及缺乏泛化性。Lu等[32]建立的區分浸潤性和惰性結節的模型AUC為0.846,鑒別診斷的性能有待進一步提高。
通過肉眼在胸部CT中獲取的信息有限,可能會遺漏一些定義肺結節類型的重要信息,此外早期浸潤性病變和非浸潤性病變在影像學表現上存在重疊導致LDCT在早期檢測方面存在許多局限性,包括檢測到大量不確定結節以及對惰性腫瘤的過度診斷,可能導致臨床并發癥甚至死亡[33]。術中冰凍切片時肺泡間隔嚴重變形以及完全塌陷,因此術中冰凍組織學的病理檢查有時不足以確定AIS、MIA、IA,從而導致切除范圍不足或者術后再次補充肺葉切除的可能性[34]。而ROI包括肺結節的整個三維空間,與術中冰凍獲取的部分腫瘤相比,理論上有一定的優勢。
本研究建立并驗證了基于影像組學特征的SVM模型來鑒別浸潤性病變和非浸潤性病變,該模型在測試集和亞組均表現出了較好的預測性能。我們的研究中證明了第十百分位數(first order statistics)、均方根(first order statistics)、短行程灰度強調(GLRLM)、歸一化依賴不均勻性(GLDM)、大依賴灰度強調(GLDM)、相關信息測度1(GLCM)、區域熵(GLSZM)是預測肺亞實性結節腫瘤浸潤程度的影響因素。GLCM是一種統計紋理的分析方法,評估像素之間的空間關系,并確定特定的像素組合在圖像中出現的頻率。既往有研究[35]報道GLCM中的總和平均值和一階類別的均勻性可以鑒別浸潤性和非浸潤性腺癌。均方根是衡量灰度水平與均值差異的一個指標,能夠代表結節密度的異質性,這與侵襲性腫瘤的生物學有關[31, 36]。區域熵是衡量區域大小和灰度水平分布的不確定性和隨機性,其值越高表示紋理特征的異質性越強,越傾向于侵襲性腫瘤。短行程灰度強調可以量化短運行長度和低灰度水平值間的聯合分布。對比度是衡量空間強度變化的尺度,但也取決于整體灰度的動態范圍,當動態范圍和空間變化率都很高時,對比度值越大。歸一化依賴不均勻性衡量整個圖像依賴的相似性,較低的值表明相互依賴的圖像間較強的同質性。相關研究[36-37]也報道了一階統計特征(first order statistics)可以有效鑒別IA和非浸潤性病變或MIA。
不同于其他學者[37-38]的研究基于MIA完整切除時可以和AIS一樣達到100%的5年生存率,將MIA歸類為惰性病變。本研究認為MIA雖然沒有淋巴結及血行轉移,但是可以轉變為IA,可行肺葉切除或亞肺葉切除。并且MIA和AIS在微環境、laminin-5表達水平[39]、TP53突變頻率方面[40]存在差異,因此將MIA和IA歸類為浸潤性病變進行研究。 雖然有些研究[34, 41-42]報道即使在結節直徑小的、純GGNs中出現病理浸潤性特征也并不罕見。在我們的亞組分析中,結節最大徑>20 mm組全部為浸潤性病變,其中84.9%(45/53)為亞實性結節,側面反映了結節最大徑和結節性質對評估肺結節腫瘤浸潤程度有一定的意義,但由于本研究樣本量較小,需要進一步進行多中心、大樣本量的前瞻性研究來驗證。
本研究的一個優勢是通過將2個中心的數據混合后隨機分為訓練集和測試集,從而降低了來自不同機構中人口統計學和臨床協變量間的差異。但尚存在一定的局限性:(1)本研究為回顧性研究,并且僅納入了經手術切除的AAH及肺腺癌患者,排除了其他惡性組織類型及良性病變,存在一定的選擇偏倚;(2)采用手工勾畫ROI,雖然經過第三位經驗豐富的醫師進行檢查,但未對分割的可變性進行評估,因此需要開發一種可靠、穩健的自動切割方法來解決這一問題;(3)患者間的CT掃描方案未統一,可能導致對放射組學特征估計的偏差;(4)應當進一步探究結節周圍影像組學特征是否會額外增加肺結節腫瘤浸潤程度的預測性能。
綜上所述,基于影像組學特征的機器學習模型是一種較為可行的鑒別診斷肺結節腫瘤浸潤程度的工具,為結節實性成分直徑<3 cm肺亞實性結節腫瘤浸潤性的鑒別診斷提供了輔助價值,可以為臨床醫師術前制定最佳的治療干預方案提供參考價值,避免過度治療或延誤治療。
利益沖突:無。
作者貢獻:何花、楊德倫、趙蒙蒙、鄧家駿負責文章構思和設計;馬敏杰、韓彪、陳昶提供研究材料和患者資料;何花、楊德倫、孫碩、何立、馬翔負責數據收集和整理;何花、楊德倫、趙蒙蒙、鄧家駿負責數據分析和解釋;所有作者參與文章寫作與定稿。
磨玻璃結節(ground-glass nodules,GGNs)根據是否含有實性成分分為混合GGNs和純GGNs[1]。近年來,隨著低劑量螺旋CT(low-dose computed tomography,LDCT)的發展,越來越多肺GGNs被發現,目前亞洲地區肺癌門診患者多為GGNs患者[2]。國際早期肺癌行動計劃(I-ELCAP)報道了CT檢查發現的GGNs的惡性概率(34%)明顯高于實性結節(7%)[3],因此術前準確區分GGNs浸潤程度可輔助臨床醫生為不同的患者制定個性化精準診療方案,在保證總生存期不變的情況下盡可能多地保留患者肺功能、提高患者生存質量、避免過度治療等方面具有重要意義。
目前GGNs術前診斷評估方法包括侵入性和非侵入性檢測方法。對GGNs的評估受到診斷工具CT、正電子發射體層成像(positron emission tomography,PET)[4-5]和非手術活檢[6-7]相對不敏感的限制,如LDCT的高假陽性率、PET昂貴的費用以及對于亞實性結節有限的評估價值。侵入性檢測方法,如經皮肺穿刺活檢術、支氣管鏡組織采樣、細針抽吸活檢[8],由于存在取樣不充分和假陰性結果等而存在一些局限性,操作不規范容易造成咯血、氣胸等并發癥[9];還增加了患者的醫療費用,一項分析[10]表明40%的肺癌醫保支出源自良性肺結節的侵入性操作。
影像組學通過高通量計算從醫學圖像中提取和分析臨床醫生肉眼看不到的定量圖像特征[11-13]。先前已有研究[14-15]利用影像組學特征建立診斷或預后模型,并開發用于臨床決策支持和個性化診斷的臨床工具。此外影像組學具有以下優勢:與穿刺活檢受限于取材量、取材部位差異而存在假陰性結果相比,影像組學在無創的條件下通過對整個病灶以及病灶微環境進行完整分析可以解釋腫瘤內以及腫瘤間的異質性[16-17]。但目前影像組學所產生的高通量信息處理也給臨床帶來一定挑戰。既往的研究報道支持向量機(support vector machine,SVM)在處理、分析這些大量的信息方面具有高效進行復雜運算的優勢。因此鑒于以上情況,本研究旨在建立基于影像組學特征的SVM模型預測術前GGNs浸潤程度,并探討其針對不同實性成分直徑GGNs的預測能力,與Mayo及Brock模型進行性能對比以及對臨床醫生診療的輔助價值。
1 資料與方法
1.1 臨床資料
回顧性收集上海市肺科醫院2021年3月—7月、蘭州大學第一醫院2019年1月—2022年5月胸外科手術完整切除的肺GGNs患者的臨床資料。納入標準:(1)術前1個月內CT掃描發現肺亞實性結節;(2)病理診斷為非典型腺瘤樣增生(atypical adenomatous hyperplasia,AAH)、原位腺癌(adenocarcinoma in situ,AIS)、微浸潤腺癌(minimally invasive adenocarcinoma,MIA)、浸潤性腺癌(invasive adenocarcinoma,IA)中任意一種;(3)結節實性成分直徑<3 cm;(4)術前未行任何治療;(5)過去5年內無肺癌及其他惡性腫瘤史。排除標準:(1)術前無就診醫院CT資料;(2)非薄層CT圖像資料(<3 mm)或其他無法獲取薄層CT影像的情況。使用簡單隨機化分組方法將納入患者按7∶3 比例隨機分為訓練集和測試集。
1.2 一般資料采集
記錄患者的姓名、性別、年齡、吸煙史、既往史、家族史等資料。
1.3 圖像獲取與結節分割
使用圖像存檔與通信系統(PACS)從2家醫院檢索術前CT圖像。蘭州大學第一醫院CT掃描參數為:(1)GE Discovery CT750 HD 64排螺旋CT(GE公司,美國)。管電壓:120 kV;管電流:自動管電流調節;螺距:0.863 1;層厚:1 mm;視野:350 mm;圖像矩陣:512×521;(2)Siemens Somatom Definition AS+ 64排螺旋CT(西門子醫療系統,德國)。管電壓:120 kV;管電流:自動管電流調節;螺距:1.2;層厚:1 mm;視野:326 mm;圖像矩陣:512×521。上海市肺科醫院CT掃描參數為:Siemens Somatom Definition AS(西門子醫療系統,德國)或Brilliance 40(飛利浦醫療系統,荷蘭)。在120 kV管電壓和200 mA管電流下,不使用造影劑。Siemens組使用Somatom Definition AS掃描儀(640.625 mm檢測器,1.0節距)。在飛利浦組,使用華晨40掃描儀(400.625 mm探測器配置,0.4節距)進行掃描。按以下參數對所有CT資料進行重建:卷積核=170 f,層間距2 mm,層厚2 mm,肺窗窗位?450~?600 Hu,窗寬1 200~1 500 Hu。檢查前對患者行呼吸訓練,掃描時患者平躺于CT掃描床上,雙臂向上抱頭狀,儀器自動從肺尖掃描至肺底,仰臥位深吸一口氣后屏住呼吸開始掃描。由2位研究者使用已發布的3D Slicer軟件(4.10.1版本,www.slicer.org),采用手工方式對每個CT圖像結節進行感興趣區域 (region of interest,ROI)勾畫,結節涉及的每個層面都需勾畫,在此區域中手動排除支氣管、大血管、骨骼和縱隔等非肺組織區域;見圖1。所有勾畫工作均在薄層肺窗圖像上完成。從整個樣本中隨機選擇30例患者由2名研究者獨立分割病灶使用組內相關系數(intraclass correlation coefficient,ICC),評估2名研究者之間的一致性。記錄結節部位、最大直徑和結節類型,并判斷結節是否具有毛刺征、是否存在鈣化、是否合并肺氣腫,出現爭議時商討解決。

1.4 影像組學特征提取與篩選
2名研究者對病灶進行手動分割的一致性較好,觀察者間ICC為0.87。將每個人工標注的ROI使用Python3.7.1中的PyRadiomics包(www.python.org) 進行影像組學特征提取,共提取了1 317個影像組學特征,包括一階統計特征(first order statistics)、形狀特征(shape)、紋理特征和高階統計特征,共分為7類:(1)一階統計特征(n=252);(2)形狀(n=14);(3)灰度共生矩陣(GLCM,n=336);(4)灰度依賴矩陣(GLDM,n=197);(5)灰度運行長度矩陣(GLSZM,n=224);(6)灰度大小區域矩陣(GLSZM,n=224);(7)領域灰度差矩陣(NGTDM,n=70)。其中一階統計量描述了CT圖像ROI的強度信息,如標準差、均數、方差等特征。形狀特征反映了區域的大小和形狀,如最大直徑、體積、表面積等特征。紋理特征可量化區域異質性差異。高階統計特征指從原始圖像的小波變換中得到的一階統計特征和紋理特征,包括平方根、小波和對數等特征。采用最小冗余最大相關性(max-relevance and min-redundancy,mRMR)和最小絕對收縮與選擇算子(least absolute shrinkage and selection operator,LASSO)方法5折交叉驗證篩選有判別肺結節腫瘤浸潤程度價值的影像組學特征。LASSO算法的基本原理是通過構造添加一階范數懲罰項即所有回歸系數絕對值之和,將所有變量的回歸系數進行收縮,隨著懲罰參數(λ)的增加,越來越多的系數被快速收縮至0,未被收縮至0的變量則被保留下來進行模型訓練。
1.5 病理診斷方法及分類標準
所有手術切除的結節病灶分別由患者所在醫院病理科醫師將標本經4%中性甲醛固定液固定、病灶切片、石蠟包埋、制片、蘇木精-伊紅染色(HE染色),由2名經驗豐富的高年資病理診斷醫師(侯立坤、孫少華)經過顯微鏡讀片后做出診斷,當結果不一致時經綜合討論達成一致。根據2015年世界衛生組織病理分類診斷標準[18]:(1)AAH:局部病變(≤0.5 cm),上皮細胞出現輕-中度不典型增生,未出現間質性炎性反應和纖維組織增生;(2)AIS:腫瘤細胞沿肺泡壁以貼壁的方式生長,未發現肺間質、血管或者胸膜浸潤;(3)MIA:腺泡細胞以貼壁式生長為主且浸潤灶直徑≤0.5 cm;(4)IA:局灶性病變,病變浸潤直徑>0.5 cm。根據病理結果將肺腺癌分為非浸潤性病變(AAH+AIS)和浸潤性病變(MIA+IA)。
1.6 Mayo和Brock模型
目前Mayo和Brock模型是國內外公認的肺結節惡性概率預測模型,惡性概率P=ex/(1+ex),其中x取值不同。Mayo模型[19]x=?6.827 2+(0.039 1×年齡)+(0.791 7×吸煙史)+(1.338 8×惡性腫瘤史)+(0.127 4×結節直徑)+(1.040 7×毛刺征)+(0.783 8×上葉位置)。Brock模型[20]x=?6.614 4+(0.646 7×性別)+(?5.553 7×直徑)+(0.930 9×毛刺征)+(0.600 9×上葉位置)。以病理診斷結果為金標準,分別繪制這2個模型的受試者工作特征(receiver operating characteristic,ROC)曲線。
1.7 統計學分析
使用SPSS 25進行統計分析,計量資料不服從正態分布采用中位數(上下四分位數)[M(P25,P75)]描述,組間比較采用秩和檢驗。服從正態分布的計量資料采用均數±標準差(±s)描述,組間比較采用t檢驗;計數資料以例數及率表示,組間比較采用χ2檢驗。Python3.7.1進行特征篩選以及SVM模型建立,并計算敏感度、特異度、預測準確率、陰性預測值、陽性預測值等指標評估模型的預測性能,繪制決策曲線和校準曲線以評估模型的預測價值。MedCalc統計軟件進行分析,將SVM模型與Mayo、Brock模型預測性能進行比較。P≤0.05為差異有統計學意義。
1.8 倫理審查
本研究方案經上海市肺科醫院倫理委員會批準(批準號:K20-003),免除知情同意。
2 結果
2.1 基線資料
共納入400例患者,其中女267 例、男 133 例,平均年齡(52.4±12.7)歲。訓練集280例,測試集120例。兩組患者年齡、實性成分最大徑、結節最大徑、浸潤程度、病理亞型、病變位置、結節性質等方面差異無統計學意義(P>0.05)。測試集中女性患者比例略高于訓練集(P=0.044);見表1。


2.2 影像組學特征篩選
各影像組學特征收縮系數的收縮路徑曲線及篩選出的影像組學特征見圖2。隨著影像組學特征的λ值增大,進入模型的變量減少,變量系數的絕對值也逐漸向0靠近。最后LASSO篩選出8個影像組學特征非零系數的潛在預測特征。

2.3 模型診斷性能評估
在預測早期肺腺癌非浸潤病變和浸潤性病變的二分類問題上,該模型在訓練集的AUC值為0.91[95%CI(0.88,0.94)],測試集的AUC值為0.86[95%CI(0.80,0.93)];為了驗證該模型在不同結節大小中的區分性能,我們根據結節最大徑進行了亞組分析,由于>20 mm組結節均為浸潤性病變,未進行性能分析。該SVM模型在訓練集和測試集的不同結節直徑亞組中表現出較為穩定的區分性能;見表2。2個數據集及亞組預測值和真實值的混淆矩陣見圖3~4。SVM模型的AUC明顯優于Mayo模型0.73[95%CI(0.68,0.78)]和Brock模型0.73[95%CI(0.68,0.78)];見圖5。




a:SVM模型在訓練集和測試集和Mayo以及Brock模型的ROC曲線下面積;b:訓練集和測試集不同結節大小亞組的ROC曲線下面積;SVM:支持向量機;ROC:受試者工作特征
2.4 模型的預測價值
通過決策曲線圖可見預測模型的臨床凈收益高于所有干預和無干預曲線,說明該模型能夠在臨床上獲益;見圖6。校準曲線圖可見預測模型的預測值與真實值間的誤差較小,具有較高的準確度;見圖7。

a:訓練集決策曲線;b:測試集決策曲線

2.5 輔助價值探究
我們通過2名初級胸外科住院醫師(A和B)在有或無SVM模型輔助下,分別對結節腫瘤浸潤程度判斷情況進行比較來評估該模型的臨床實用價值,用Delong test判斷ROC曲線是否有統計學意義。醫師A在模型輔助下判斷肺結節腫瘤浸潤程度AUC值從0.75[95%CI(0.70,0.79)]提升到0.82[95%CI(0.78,0.85),P<0.01];醫師B在模型輔助下AUC值從0.64[95%CI(0.59,0.69)]提升到0.77[95%CI(0.73,0.81),P<0.000 1]。在該模型輔助下,敏感度、特異度、準確率均明顯提高;見表3。

3 討論
機器學習是人工智能的一個分支,包含深度學習和機器學習算法,在醫學領域的應用十分廣泛[21-23]。機器學習通過從大量數據中學習如何執行特定任務,并在學習過程中逐漸提升該任務的執行表現,最終產生可以順利執行該任務的計算機算法。機器學習、人工神經網絡等模型已經應用于肺癌的診斷[13, 24-25],并且在內部數據中取得了很好的鑒別性能和準確率[26]。然而這些工具存在有限的外部驗證、過擬合以及無法解釋的結果等缺陷。過去10年中新出現的證據表明醫學圖像中包含與病理學、血液學、基因組學、蛋白質組學互補的數據[12]。在許多研究[12, 27-30]中證實了影像組學在疾病診斷、腫瘤分期、基因突變預測、生存預后等方面有更高的敏感性和特異性。Chae等[31]利用紋理特征建立了人工神經網絡以區分部分實性肺結節是非浸潤病變還是浸潤性病變,其AUC達0.98,但是由于樣本量較小(86個)且未進行驗證,因此不可排除存在過擬合的可能以及缺乏泛化性。Lu等[32]建立的區分浸潤性和惰性結節的模型AUC為0.846,鑒別診斷的性能有待進一步提高。
通過肉眼在胸部CT中獲取的信息有限,可能會遺漏一些定義肺結節類型的重要信息,此外早期浸潤性病變和非浸潤性病變在影像學表現上存在重疊導致LDCT在早期檢測方面存在許多局限性,包括檢測到大量不確定結節以及對惰性腫瘤的過度診斷,可能導致臨床并發癥甚至死亡[33]。術中冰凍切片時肺泡間隔嚴重變形以及完全塌陷,因此術中冰凍組織學的病理檢查有時不足以確定AIS、MIA、IA,從而導致切除范圍不足或者術后再次補充肺葉切除的可能性[34]。而ROI包括肺結節的整個三維空間,與術中冰凍獲取的部分腫瘤相比,理論上有一定的優勢。
本研究建立并驗證了基于影像組學特征的SVM模型來鑒別浸潤性病變和非浸潤性病變,該模型在測試集和亞組均表現出了較好的預測性能。我們的研究中證明了第十百分位數(first order statistics)、均方根(first order statistics)、短行程灰度強調(GLRLM)、歸一化依賴不均勻性(GLDM)、大依賴灰度強調(GLDM)、相關信息測度1(GLCM)、區域熵(GLSZM)是預測肺亞實性結節腫瘤浸潤程度的影響因素。GLCM是一種統計紋理的分析方法,評估像素之間的空間關系,并確定特定的像素組合在圖像中出現的頻率。既往有研究[35]報道GLCM中的總和平均值和一階類別的均勻性可以鑒別浸潤性和非浸潤性腺癌。均方根是衡量灰度水平與均值差異的一個指標,能夠代表結節密度的異質性,這與侵襲性腫瘤的生物學有關[31, 36]。區域熵是衡量區域大小和灰度水平分布的不確定性和隨機性,其值越高表示紋理特征的異質性越強,越傾向于侵襲性腫瘤。短行程灰度強調可以量化短運行長度和低灰度水平值間的聯合分布。對比度是衡量空間強度變化的尺度,但也取決于整體灰度的動態范圍,當動態范圍和空間變化率都很高時,對比度值越大。歸一化依賴不均勻性衡量整個圖像依賴的相似性,較低的值表明相互依賴的圖像間較強的同質性。相關研究[36-37]也報道了一階統計特征(first order statistics)可以有效鑒別IA和非浸潤性病變或MIA。
不同于其他學者[37-38]的研究基于MIA完整切除時可以和AIS一樣達到100%的5年生存率,將MIA歸類為惰性病變。本研究認為MIA雖然沒有淋巴結及血行轉移,但是可以轉變為IA,可行肺葉切除或亞肺葉切除。并且MIA和AIS在微環境、laminin-5表達水平[39]、TP53突變頻率方面[40]存在差異,因此將MIA和IA歸類為浸潤性病變進行研究。 雖然有些研究[34, 41-42]報道即使在結節直徑小的、純GGNs中出現病理浸潤性特征也并不罕見。在我們的亞組分析中,結節最大徑>20 mm組全部為浸潤性病變,其中84.9%(45/53)為亞實性結節,側面反映了結節最大徑和結節性質對評估肺結節腫瘤浸潤程度有一定的意義,但由于本研究樣本量較小,需要進一步進行多中心、大樣本量的前瞻性研究來驗證。
本研究的一個優勢是通過將2個中心的數據混合后隨機分為訓練集和測試集,從而降低了來自不同機構中人口統計學和臨床協變量間的差異。但尚存在一定的局限性:(1)本研究為回顧性研究,并且僅納入了經手術切除的AAH及肺腺癌患者,排除了其他惡性組織類型及良性病變,存在一定的選擇偏倚;(2)采用手工勾畫ROI,雖然經過第三位經驗豐富的醫師進行檢查,但未對分割的可變性進行評估,因此需要開發一種可靠、穩健的自動切割方法來解決這一問題;(3)患者間的CT掃描方案未統一,可能導致對放射組學特征估計的偏差;(4)應當進一步探究結節周圍影像組學特征是否會額外增加肺結節腫瘤浸潤程度的預測性能。
綜上所述,基于影像組學特征的機器學習模型是一種較為可行的鑒別診斷肺結節腫瘤浸潤程度的工具,為結節實性成分直徑<3 cm肺亞實性結節腫瘤浸潤性的鑒別診斷提供了輔助價值,可以為臨床醫師術前制定最佳的治療干預方案提供參考價值,避免過度治療或延誤治療。
利益沖突:無。
作者貢獻:何花、楊德倫、趙蒙蒙、鄧家駿負責文章構思和設計;馬敏杰、韓彪、陳昶提供研究材料和患者資料;何花、楊德倫、孫碩、何立、馬翔負責數據收集和整理;何花、楊德倫、趙蒙蒙、鄧家駿負責數據分析和解釋;所有作者參與文章寫作與定稿。