引用本文: 胡仁旺, 龔建平. 基于臨床特征與基因組學構建胃癌總體生存率模型. 中國普外基礎與臨床雜志, 2021, 28(4): 465-471. doi: 10.7507/1007-9424.202007053 復制
胃癌是常見的消化系統惡性腫瘤,臨床預后較差。目前的主要治療方法是手術切除和放化療等輔助治療[1]。臨床工作中判斷患者的預后主要根據術后病理分期,即 TNM 分期系統[2]。但單獨的 TNM 分期系統只能給臨床醫生提供一個初步的腫瘤進展情況,而患者和家屬所關注的術后生存率卻無法得到更加準確的判斷[3]。隨著基因芯片的發展和測序技術的進步,目前全基因組測序已經變得越來越普遍。 美國癌癥基因圖譜(TCGA)數據庫,包含各種腫瘤患者詳細的臨床信息和全基因組測序信息,已經得到大量文獻的引用[4]。因此,利用 TCGA 數據庫將胃癌患者的臨床信息與基因測序信息結合合并起來,篩選出影響胃癌患者總體生存率的基因,將具有統計學差異的基因與臨床信息合并構建出可以預測患者總體生存率的模型,從而對患者的總體生存率有一個更加詳細的了解,可以有效地服務于臨床工作。
1 資料與方法
1.1 數據來源
通過 TCGA 數據庫,下載胃癌患者的臨床信息和基因組測序信息,將臨床信息與基因組測序信息合并,刪除臨床缺失值和隨訪時間小于 30 d 的患者的臨床信息。
1.2 基因與臨床病理指標篩選方法
通過 R 軟件(版本號 3.6.0)的“limma”包對納入患者的全基因表達量進行標準化處理,包括:① 刪除缺失基因表達量的患者信息;② 重復測序基因,取平均值合并處理;③ 對患者的基因測序值均取 log2 進行標準化處理。篩選出胃癌患者的腫瘤組織與癌旁組織之間表達差異的基因,利用 R 軟件“survival”包在這些表達差異基因中篩選出影響患者總體生存率的基因。通過 R 軟件“glmnet”包和“survival”包進行 Lasson 回歸達到初步降維目的,縮小差異基因范圍。通過 R 軟件“survminer”包采用逐步回歸法進行 COX 回歸風險模型構建并進行風險評分,篩選出預測能力最優的預測模型。納入的基因在基因表達差異和對患者總體生存率的影響上均需具有統計學意義。
1.3 統計學方法
所有統計均通過 R 軟件完成,腫瘤組織與癌旁組織基因差異表達采用 Wilcox 檢驗,生存分析采用 Kaplan-Meier 法,納入模型的臨床信息和基因組信息采用單因素 COX 回歸的方法篩選,采用 Lasson 回歸進行降維二次篩選,通過多元 COX 回歸模型進行預測模型構建。檢驗水準 α=0.05。
2 結果
通過上述方法進行數據整理后,最終納入胃癌患者 311 例,其中男 198 例,女 113 例;T1 期 14 例,T2 期 66 例,T3 期 150 例,T4 期 81 例;N0 期 93 例,N1 期 86 例,N2 期 67 例,N3 期 65 例;M0 期 289 例,M1 期 22 例。中位年齡 67 歲、四分位間距 (P25,P75)為(58,72)。通過基因表達差異和總體生存率差異影響及單因素 COX 回歸篩選出 114 個基因,通過 Lasson 回歸降維篩選,納入 35 個基因,通過使用逐步法構建多元 COX 回歸模型,通過反復篩選,最終將患者年齡、T 分期、N 分期、M 分期和 12 個基因(INCENP、IGHD3-16、ITFG1-AS1、NEK5、MATN3、YWHABP2、SYT12、LINC01210、ZNF385C、LINC01980、CYMP-AS1 和 FAT3)納入預測模型。
2.1 納入預測模型的基因和胃癌臨床病理指標對患者總體生存率的單因素分析結果
結果見圖1。如圖1 所示:通過單因素 COX 回歸分析發現,納入該預測模型的臨床信息如年齡、T 分期、N 分期和 M 分期為胃癌患者總體生存率的影響因素(P<0.05)。納入預測模型的 12 個基因單因素 COX 分析結果顯示:高表達的 IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因均為影響胃癌患者總體生存率的危險因素(P<0.05);低表達的 INCENP、NEK5 和 LINC01210 基因均為影響胃癌患者總體生存率的危險因素(P<0.05)。

2.2 預測模型的構建(COX 回歸模型)
通過 R 語言軟件,采用逐步法反復構建多元 COX 回歸模型,通過反復篩選和構建,納入預測效能即受試者操作特征(ROC)曲線下面積(AUC)最大且納入基因數量相對較少的預測模型,其結果見圖2。如圖2 所示:最終將患者年齡、T 分期、N 分期、M 分期和 12 個基因納入模型。其中高齡、高 T 分期、高 N 分期和高 M 分期仍為影響胃癌總體生存率的風險因素;高表達的 IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因通過多因素 COX 回歸分析后仍然為影響胃癌患者總體生存率的危險因素;低表達的 INCENP、NEK5 和 LINC01210 基因也仍為影響胃癌患者總體生存率的危險因素。這些指標單因素分析和多因素分析均具有統計學意義(P<0.05),可作為判斷胃癌生存時間的獨立危險因素。

2.3 預測模型的風險生存曲線
以預測模型的風險評分中位值為界,將納入的患者分為高風險組和低風險組 2 組,通過 R 軟件進行生存分析,發現高風險組患者的總體生存率明顯低于低風險組,差異具有統計學意義(χ2=54.7,P<0.001)。見圖3a。

a、b:分別為預測模型的風險生存曲線(a)和校正曲線(b);c–d:分別為臨床模型(c)、基因模型(d)和臨床+基因模型(e)預測患者 1、3 和 5 年總體生存率的 ROC 曲線;f–h:分別為 3 種模型預測患者 1 年(f)、3 年(g)、5 年(h)總體生存率的 DCA 曲線
2.4 預測模型的評估
通過 R 軟件繪制預測模型的校正曲線,當預測模型預測的生存概率與患者的實際生存概率接近時,即圖3b 中的 3 條折線與虛線接近時則說明預測效能較好。通過圖3b 可知,該模型的 1 年、3 年及 5 年的預測效能均較好。
2.5 預測模型的對比
不同預測模型之間的對比采用AUC 值的大小來判斷, AUC 值越大,預測效果越好。本研究將單獨臨床模型(由年齡、T、N、M 分期構建)、單獨基因模型(INCENP、IGHD3-16、ITFG1-AS1、NEK5、MATN3、YWHABP2、SYT12、LINC01210、ZNF385C、LINC01980、CYMP-AS1 及 FAT3)和臨床指標與基因組學共同構建的模型即臨床+基因模型(年齡、T、N、M 分期和 12 個基因)進行對比,結果發現,在預測胃癌患者的 1 年生存率(單獨臨床模型 AUC=0.645、單獨基因模型 AUC=0.722、臨床+基因模型 AUC=0.765)、3 年生存率(單獨臨床模型 AUC=0.648、單獨基因模型 AUC=0.757、臨床+基因模型 AUC=0.806)及 5 年生存率(單獨臨床模型 AUC=0.630、單獨基因模型 AUC=0.783、臨床+基因模型 AUC=0.831)方面,單獨基因模型較單獨臨床模型預測能力明顯提高,臨床+基因模型較單獨基因模型預測能力又明顯提高(圖3c-3e)。鑒于 ROC 曲線主要是從特異度和敏感度考慮,追求的是準確性,不能完全避免假陰性和假陽性的概率,因此本研究引入另一種判別方法[5-6]:即決策曲線分析法(decision curve analysis,DCA)。通過 DCA 曲線下面積來對比不同預測模型的預測能力,為定性判斷。如圖3f-3h 所示:對比胃癌患者的 1 年(圖3f)、3 年 (圖3g)和 5 年 (圖3h)生存率的 DCA 曲線,其預測能力方面:臨床+基因模型>單獨基因模型>單獨臨床模型。同時,為了進一步評估模型的預測能力,檢測模型的預測值與實際值的一致性,通過計算 C 指數發現:單獨臨床模型 C 指數為 0.634,單獨基因模型的 C 指數為 0.721,臨床+基因模型的 C 指數為 0.760,該結果提示,臨床+基因模型的預測值與實際值具有較好的一致性。
2.6 納入預測模型的 12 個基因與患者總體生存率的關系
以基因表達量中位值為界,將納入該模型的 12 個基因分為高、低表達組 2 組。通過 R 軟件采用 Kaplan-Meier 法繪制的生存曲線見圖4。由圖4 可見,在胃癌患者中,基因 IGHD3-16(χ2=5.5,P=1.918e–02)、ITFG1-AS1(χ2=4,P=4.518e–02)、MATN3(χ2=20.7,P=5.237e–06)、YWHABP2(χ2=5.9,P=1.551e–02)、SYT12(χ2=5.3,P=2.115e–02)、ZNF385C(χ2=5.6,P=1.816e–02)、LINC01980(χ2=4.3,P=3.786e–02)、CYMP-AS1(χ2=4.6,P=3.214e–02)和 FAT3(χ2=7.1,P=7.623e–03)高表達組患者的總體生存率明顯低于低表達組,基因 INCENP(χ2=4.0,P=4.456e–02)、NEK5(χ2=5.0,P=2.554e–02)和 LINC01210(χ2=4.5,P=3.454e–02)高表達組患者的總體生存率明顯高于低表達組,差異均具有統計學意義。以上研究結果顯示:經單因素分析和多因素分析,這 12 個基因均是胃癌的預后危險因素,提示其可能是影響胃癌預后的新的基因靶點。

a:INCENP 基因;b:IGHD3-16 基因;c:ITFG1-AS1 基因;d:NEK5 基因;e:MATN3 基因;f:YWHABP2 基因;g:SYT12 基因;h:LINC01210 基因;i:ZNF385C 基因;j:LINC01980 基因;k:CYMP-AS1 基因;l:FAT3 基因
2.7 預測模型的列線圖繪制
通過繪制預測模型的列線圖(圖5),計算每例患者各個指標的評分,相加后得出總分,從而預測胃癌患者的 1、3 和 5 年總體生存率,可以使預測模型可視化,能更好地預測患者的總體生存率,更好地指導臨床工作。

3 討論
近年來,隨著對胃癌發病機制研究的逐漸深入,越來越多的外科醫生認識到決定胃癌患者術后生存時間的因素除了完整切除腫瘤外,還可能與腫瘤基因的表達相關[7-9]。傳統的 TNM 分期系統得到了很多外科醫生的認可,在臨床工作中我們也最關注患者術后的病理分期。但單獨依靠 TNM 分期系統,似乎很難準確判斷患者的整體預后,例如在臨床工作中,我們會發現有一些病理分期較早的患者可能術后總體生存率并不是太高。隨著近些年基因測序技術的發展和成本的降低,某些基因表達量的檢測已經變得很常見。由于 TNM 分期系統本身預測胃癌患者術后生存率的能力并不是太高,分析本研究納入的數據發現,單獨的臨床模型其預測患者 1 年生存率的能力為 64.5%、預測患者 3 年生存率的能力為 64.8%、預測患者 5 年生存率的能力為 63.0%。因此,能否將患者的臨床信息與基因表達信息合并,構建一個新的預測模型,從而增加預測能力,更加好地判斷患者的術后總體生存率,這也成為了本研究的一個出發點。
通過 R 軟件,利用多元 COX 回歸分析的方法,對經過單因素 COX 回歸和 Lasson 回歸篩選后得到的臨床指標和基因列表進行預測模型構建。通過反復構建預測模型,采用逐步法,不斷地增加或減去某一變量,尋找到預測能力最大且納入的基因相對較少的預測模型,這樣也便于臨床工作的開展。最終該模型將患者的年齡、T 分期、N 分期、M 分期和 12 個基因納入。結果發現隨著年齡、T 分期、N 分期和 M 分期的增加患者的總體生存率越來越低。而對于納入的 12 個基因,本研究結果發現,隨著 IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因表達量的增高,胃癌患者的總體生存率降低,而隨著 INCENP、NEK5 和 LINC01210 基因表達量的增高,胃癌患者的總體生存率也增高。這 12 個基因通過單因素 COX 分析和多因素 COX 分析后,其均具有統計學意義,該結果提示:模型中納入的每個基因均可作為胃癌預后的獨立風險因素,可能是決定胃癌預后的靶基因。
納入該模型的 LINC01210 基因和 LINC01980 基因為長鏈非編碼蛋白 RNA,而近年來越來越多的研究者[10-12]認識到了非編碼 RNA 的重要作用。非編碼 RNA 雖然不直接編碼蛋白,但其卻明顯地影響著編碼基因表達過程,例如基因的翻譯、修飾等生物學過程[13-14]。因此,我們也需要對非編碼 RNA 提高重視。目前關于 INCENP 基因在胃癌中的具體發生機制尚不清楚,但有研究[15-16]表明其為胃癌預后的風險因素。NEK5 基因目前雖然在胃癌中沒有研究,但目前的研究表明其促進有絲分裂中心體的完整性和中心體凝聚力的喪失[17],在乳腺癌中通過上調細胞周期蛋白 A2 促進乳腺癌細胞增殖[18],且與甲狀腺癌的腫瘤侵襲性具有明顯相關性[19]。MATN3 基因目前有文獻證實其為胃癌預后的風險因素[20-21],SYT12 基因與口腔癌和肺腺癌的腫瘤侵襲及進展明顯相關[22-23],但尚無在胃癌中的研究報道。FAT3 基因為 FAT 基因家族的一部分,目前的研究[24-25]表明,FAT 基因家族與多種腫瘤細胞的侵襲具有相關性。2 個非編碼基因 LINC01210 和 LINC01980 在胃癌中也尚無研究,但有在其他腫瘤中的研究結果,例如 LINC01210 基因通過下調 KLF4 基因表達加速卵巢癌細胞的增殖、侵襲和遷移[26],LINC01980 基因與食管癌細胞侵襲明顯相關[27],有研究[28]表明其可通過調節 miR-190a-5p/MYO5A 通路促進食管鱗狀細胞癌的進展。而對于 IGHD3-16、ITFG1-AS1、YWHABP2、ZNF385C 和 CYMP-AS1 基因目前在腫瘤中無相關研究,故在此處未加以討論。
本研究構建的預測模型能夠較好地預測胃癌患者的總體生存率,即使單獨的 12 個基因模型(1、3、5 年生存率預測能力分別為 72.2%、75.7%、78.3%)也較傳統的臨床模型預測能力(分別為 64.5%、64.8%、63.0%)明顯提高,其對于那些術前只有病理活檢結果的患者具有重要的臨床意義,可以通過檢測基因表達量來預測總體生存率。而將臨床信息與 12 個基因結合后構建的列線圖模型,其1、3、5 年預測能力更高(分別為 76.5%、80.6%、83.1%),接近或超過 80%。由于基因測序變得越來越簡便,目前很多醫院及實驗室均可以很輕松開展,因此通過檢測模型中 12 個基因的表達量再與患者的臨床信息結合,利用該模型繪制的列線圖便可較容易和準確地預測患者的總體生存率。
當然本研究也存在一定的局限性,即使目前基因測序已經變得很簡單,測序技術方面也已經沒有較大問題,但是臨床應用與實驗室階段又有所不同,目前基因檢測的價格仍然較為昂貴、技術較為繁瑣,且商業化的基因檢測有時無法進行自主性選擇。不過這些局限性隨著測序技術的進一步發展可以得到有效的解決,測序成本可能也會越來越低,基因測序的自主選擇性也會越來越大,本預測模型將會有較大的臨床應用價值。
4 結論
納入模型的 12 個基因在胃癌患者中,IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因高表達者的總體生存率明顯低于低表達者,INCENP、NEK5 和 LINC01210 基因高表達者的總體生存率明顯高于低表達者,差異均具有統計學意義。結合臨床特征和基因組學構建的胃癌預測模型有較好的預測能力,1 年、3 年及 5 年總體生存率的預測能力接近或超過 80%,較單獨臨床預測模型的預測能力明顯提高。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:文章由胡仁旺獨立撰寫成稿,龔建平進行文章審核。
胃癌是常見的消化系統惡性腫瘤,臨床預后較差。目前的主要治療方法是手術切除和放化療等輔助治療[1]。臨床工作中判斷患者的預后主要根據術后病理分期,即 TNM 分期系統[2]。但單獨的 TNM 分期系統只能給臨床醫生提供一個初步的腫瘤進展情況,而患者和家屬所關注的術后生存率卻無法得到更加準確的判斷[3]。隨著基因芯片的發展和測序技術的進步,目前全基因組測序已經變得越來越普遍。 美國癌癥基因圖譜(TCGA)數據庫,包含各種腫瘤患者詳細的臨床信息和全基因組測序信息,已經得到大量文獻的引用[4]。因此,利用 TCGA 數據庫將胃癌患者的臨床信息與基因測序信息結合合并起來,篩選出影響胃癌患者總體生存率的基因,將具有統計學差異的基因與臨床信息合并構建出可以預測患者總體生存率的模型,從而對患者的總體生存率有一個更加詳細的了解,可以有效地服務于臨床工作。
1 資料與方法
1.1 數據來源
通過 TCGA 數據庫,下載胃癌患者的臨床信息和基因組測序信息,將臨床信息與基因組測序信息合并,刪除臨床缺失值和隨訪時間小于 30 d 的患者的臨床信息。
1.2 基因與臨床病理指標篩選方法
通過 R 軟件(版本號 3.6.0)的“limma”包對納入患者的全基因表達量進行標準化處理,包括:① 刪除缺失基因表達量的患者信息;② 重復測序基因,取平均值合并處理;③ 對患者的基因測序值均取 log2 進行標準化處理。篩選出胃癌患者的腫瘤組織與癌旁組織之間表達差異的基因,利用 R 軟件“survival”包在這些表達差異基因中篩選出影響患者總體生存率的基因。通過 R 軟件“glmnet”包和“survival”包進行 Lasson 回歸達到初步降維目的,縮小差異基因范圍。通過 R 軟件“survminer”包采用逐步回歸法進行 COX 回歸風險模型構建并進行風險評分,篩選出預測能力最優的預測模型。納入的基因在基因表達差異和對患者總體生存率的影響上均需具有統計學意義。
1.3 統計學方法
所有統計均通過 R 軟件完成,腫瘤組織與癌旁組織基因差異表達采用 Wilcox 檢驗,生存分析采用 Kaplan-Meier 法,納入模型的臨床信息和基因組信息采用單因素 COX 回歸的方法篩選,采用 Lasson 回歸進行降維二次篩選,通過多元 COX 回歸模型進行預測模型構建。檢驗水準 α=0.05。
2 結果
通過上述方法進行數據整理后,最終納入胃癌患者 311 例,其中男 198 例,女 113 例;T1 期 14 例,T2 期 66 例,T3 期 150 例,T4 期 81 例;N0 期 93 例,N1 期 86 例,N2 期 67 例,N3 期 65 例;M0 期 289 例,M1 期 22 例。中位年齡 67 歲、四分位間距 (P25,P75)為(58,72)。通過基因表達差異和總體生存率差異影響及單因素 COX 回歸篩選出 114 個基因,通過 Lasson 回歸降維篩選,納入 35 個基因,通過使用逐步法構建多元 COX 回歸模型,通過反復篩選,最終將患者年齡、T 分期、N 分期、M 分期和 12 個基因(INCENP、IGHD3-16、ITFG1-AS1、NEK5、MATN3、YWHABP2、SYT12、LINC01210、ZNF385C、LINC01980、CYMP-AS1 和 FAT3)納入預測模型。
2.1 納入預測模型的基因和胃癌臨床病理指標對患者總體生存率的單因素分析結果
結果見圖1。如圖1 所示:通過單因素 COX 回歸分析發現,納入該預測模型的臨床信息如年齡、T 分期、N 分期和 M 分期為胃癌患者總體生存率的影響因素(P<0.05)。納入預測模型的 12 個基因單因素 COX 分析結果顯示:高表達的 IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因均為影響胃癌患者總體生存率的危險因素(P<0.05);低表達的 INCENP、NEK5 和 LINC01210 基因均為影響胃癌患者總體生存率的危險因素(P<0.05)。

2.2 預測模型的構建(COX 回歸模型)
通過 R 語言軟件,采用逐步法反復構建多元 COX 回歸模型,通過反復篩選和構建,納入預測效能即受試者操作特征(ROC)曲線下面積(AUC)最大且納入基因數量相對較少的預測模型,其結果見圖2。如圖2 所示:最終將患者年齡、T 分期、N 分期、M 分期和 12 個基因納入模型。其中高齡、高 T 分期、高 N 分期和高 M 分期仍為影響胃癌總體生存率的風險因素;高表達的 IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因通過多因素 COX 回歸分析后仍然為影響胃癌患者總體生存率的危險因素;低表達的 INCENP、NEK5 和 LINC01210 基因也仍為影響胃癌患者總體生存率的危險因素。這些指標單因素分析和多因素分析均具有統計學意義(P<0.05),可作為判斷胃癌生存時間的獨立危險因素。

2.3 預測模型的風險生存曲線
以預測模型的風險評分中位值為界,將納入的患者分為高風險組和低風險組 2 組,通過 R 軟件進行生存分析,發現高風險組患者的總體生存率明顯低于低風險組,差異具有統計學意義(χ2=54.7,P<0.001)。見圖3a。

a、b:分別為預測模型的風險生存曲線(a)和校正曲線(b);c–d:分別為臨床模型(c)、基因模型(d)和臨床+基因模型(e)預測患者 1、3 和 5 年總體生存率的 ROC 曲線;f–h:分別為 3 種模型預測患者 1 年(f)、3 年(g)、5 年(h)總體生存率的 DCA 曲線
2.4 預測模型的評估
通過 R 軟件繪制預測模型的校正曲線,當預測模型預測的生存概率與患者的實際生存概率接近時,即圖3b 中的 3 條折線與虛線接近時則說明預測效能較好。通過圖3b 可知,該模型的 1 年、3 年及 5 年的預測效能均較好。
2.5 預測模型的對比
不同預測模型之間的對比采用AUC 值的大小來判斷, AUC 值越大,預測效果越好。本研究將單獨臨床模型(由年齡、T、N、M 分期構建)、單獨基因模型(INCENP、IGHD3-16、ITFG1-AS1、NEK5、MATN3、YWHABP2、SYT12、LINC01210、ZNF385C、LINC01980、CYMP-AS1 及 FAT3)和臨床指標與基因組學共同構建的模型即臨床+基因模型(年齡、T、N、M 分期和 12 個基因)進行對比,結果發現,在預測胃癌患者的 1 年生存率(單獨臨床模型 AUC=0.645、單獨基因模型 AUC=0.722、臨床+基因模型 AUC=0.765)、3 年生存率(單獨臨床模型 AUC=0.648、單獨基因模型 AUC=0.757、臨床+基因模型 AUC=0.806)及 5 年生存率(單獨臨床模型 AUC=0.630、單獨基因模型 AUC=0.783、臨床+基因模型 AUC=0.831)方面,單獨基因模型較單獨臨床模型預測能力明顯提高,臨床+基因模型較單獨基因模型預測能力又明顯提高(圖3c-3e)。鑒于 ROC 曲線主要是從特異度和敏感度考慮,追求的是準確性,不能完全避免假陰性和假陽性的概率,因此本研究引入另一種判別方法[5-6]:即決策曲線分析法(decision curve analysis,DCA)。通過 DCA 曲線下面積來對比不同預測模型的預測能力,為定性判斷。如圖3f-3h 所示:對比胃癌患者的 1 年(圖3f)、3 年 (圖3g)和 5 年 (圖3h)生存率的 DCA 曲線,其預測能力方面:臨床+基因模型>單獨基因模型>單獨臨床模型。同時,為了進一步評估模型的預測能力,檢測模型的預測值與實際值的一致性,通過計算 C 指數發現:單獨臨床模型 C 指數為 0.634,單獨基因模型的 C 指數為 0.721,臨床+基因模型的 C 指數為 0.760,該結果提示,臨床+基因模型的預測值與實際值具有較好的一致性。
2.6 納入預測模型的 12 個基因與患者總體生存率的關系
以基因表達量中位值為界,將納入該模型的 12 個基因分為高、低表達組 2 組。通過 R 軟件采用 Kaplan-Meier 法繪制的生存曲線見圖4。由圖4 可見,在胃癌患者中,基因 IGHD3-16(χ2=5.5,P=1.918e–02)、ITFG1-AS1(χ2=4,P=4.518e–02)、MATN3(χ2=20.7,P=5.237e–06)、YWHABP2(χ2=5.9,P=1.551e–02)、SYT12(χ2=5.3,P=2.115e–02)、ZNF385C(χ2=5.6,P=1.816e–02)、LINC01980(χ2=4.3,P=3.786e–02)、CYMP-AS1(χ2=4.6,P=3.214e–02)和 FAT3(χ2=7.1,P=7.623e–03)高表達組患者的總體生存率明顯低于低表達組,基因 INCENP(χ2=4.0,P=4.456e–02)、NEK5(χ2=5.0,P=2.554e–02)和 LINC01210(χ2=4.5,P=3.454e–02)高表達組患者的總體生存率明顯高于低表達組,差異均具有統計學意義。以上研究結果顯示:經單因素分析和多因素分析,這 12 個基因均是胃癌的預后危險因素,提示其可能是影響胃癌預后的新的基因靶點。

a:INCENP 基因;b:IGHD3-16 基因;c:ITFG1-AS1 基因;d:NEK5 基因;e:MATN3 基因;f:YWHABP2 基因;g:SYT12 基因;h:LINC01210 基因;i:ZNF385C 基因;j:LINC01980 基因;k:CYMP-AS1 基因;l:FAT3 基因
2.7 預測模型的列線圖繪制
通過繪制預測模型的列線圖(圖5),計算每例患者各個指標的評分,相加后得出總分,從而預測胃癌患者的 1、3 和 5 年總體生存率,可以使預測模型可視化,能更好地預測患者的總體生存率,更好地指導臨床工作。

3 討論
近年來,隨著對胃癌發病機制研究的逐漸深入,越來越多的外科醫生認識到決定胃癌患者術后生存時間的因素除了完整切除腫瘤外,還可能與腫瘤基因的表達相關[7-9]。傳統的 TNM 分期系統得到了很多外科醫生的認可,在臨床工作中我們也最關注患者術后的病理分期。但單獨依靠 TNM 分期系統,似乎很難準確判斷患者的整體預后,例如在臨床工作中,我們會發現有一些病理分期較早的患者可能術后總體生存率并不是太高。隨著近些年基因測序技術的發展和成本的降低,某些基因表達量的檢測已經變得很常見。由于 TNM 分期系統本身預測胃癌患者術后生存率的能力并不是太高,分析本研究納入的數據發現,單獨的臨床模型其預測患者 1 年生存率的能力為 64.5%、預測患者 3 年生存率的能力為 64.8%、預測患者 5 年生存率的能力為 63.0%。因此,能否將患者的臨床信息與基因表達信息合并,構建一個新的預測模型,從而增加預測能力,更加好地判斷患者的術后總體生存率,這也成為了本研究的一個出發點。
通過 R 軟件,利用多元 COX 回歸分析的方法,對經過單因素 COX 回歸和 Lasson 回歸篩選后得到的臨床指標和基因列表進行預測模型構建。通過反復構建預測模型,采用逐步法,不斷地增加或減去某一變量,尋找到預測能力最大且納入的基因相對較少的預測模型,這樣也便于臨床工作的開展。最終該模型將患者的年齡、T 分期、N 分期、M 分期和 12 個基因納入。結果發現隨著年齡、T 分期、N 分期和 M 分期的增加患者的總體生存率越來越低。而對于納入的 12 個基因,本研究結果發現,隨著 IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因表達量的增高,胃癌患者的總體生存率降低,而隨著 INCENP、NEK5 和 LINC01210 基因表達量的增高,胃癌患者的總體生存率也增高。這 12 個基因通過單因素 COX 分析和多因素 COX 分析后,其均具有統計學意義,該結果提示:模型中納入的每個基因均可作為胃癌預后的獨立風險因素,可能是決定胃癌預后的靶基因。
納入該模型的 LINC01210 基因和 LINC01980 基因為長鏈非編碼蛋白 RNA,而近年來越來越多的研究者[10-12]認識到了非編碼 RNA 的重要作用。非編碼 RNA 雖然不直接編碼蛋白,但其卻明顯地影響著編碼基因表達過程,例如基因的翻譯、修飾等生物學過程[13-14]。因此,我們也需要對非編碼 RNA 提高重視。目前關于 INCENP 基因在胃癌中的具體發生機制尚不清楚,但有研究[15-16]表明其為胃癌預后的風險因素。NEK5 基因目前雖然在胃癌中沒有研究,但目前的研究表明其促進有絲分裂中心體的完整性和中心體凝聚力的喪失[17],在乳腺癌中通過上調細胞周期蛋白 A2 促進乳腺癌細胞增殖[18],且與甲狀腺癌的腫瘤侵襲性具有明顯相關性[19]。MATN3 基因目前有文獻證實其為胃癌預后的風險因素[20-21],SYT12 基因與口腔癌和肺腺癌的腫瘤侵襲及進展明顯相關[22-23],但尚無在胃癌中的研究報道。FAT3 基因為 FAT 基因家族的一部分,目前的研究[24-25]表明,FAT 基因家族與多種腫瘤細胞的侵襲具有相關性。2 個非編碼基因 LINC01210 和 LINC01980 在胃癌中也尚無研究,但有在其他腫瘤中的研究結果,例如 LINC01210 基因通過下調 KLF4 基因表達加速卵巢癌細胞的增殖、侵襲和遷移[26],LINC01980 基因與食管癌細胞侵襲明顯相關[27],有研究[28]表明其可通過調節 miR-190a-5p/MYO5A 通路促進食管鱗狀細胞癌的進展。而對于 IGHD3-16、ITFG1-AS1、YWHABP2、ZNF385C 和 CYMP-AS1 基因目前在腫瘤中無相關研究,故在此處未加以討論。
本研究構建的預測模型能夠較好地預測胃癌患者的總體生存率,即使單獨的 12 個基因模型(1、3、5 年生存率預測能力分別為 72.2%、75.7%、78.3%)也較傳統的臨床模型預測能力(分別為 64.5%、64.8%、63.0%)明顯提高,其對于那些術前只有病理活檢結果的患者具有重要的臨床意義,可以通過檢測基因表達量來預測總體生存率。而將臨床信息與 12 個基因結合后構建的列線圖模型,其1、3、5 年預測能力更高(分別為 76.5%、80.6%、83.1%),接近或超過 80%。由于基因測序變得越來越簡便,目前很多醫院及實驗室均可以很輕松開展,因此通過檢測模型中 12 個基因的表達量再與患者的臨床信息結合,利用該模型繪制的列線圖便可較容易和準確地預測患者的總體生存率。
當然本研究也存在一定的局限性,即使目前基因測序已經變得很簡單,測序技術方面也已經沒有較大問題,但是臨床應用與實驗室階段又有所不同,目前基因檢測的價格仍然較為昂貴、技術較為繁瑣,且商業化的基因檢測有時無法進行自主性選擇。不過這些局限性隨著測序技術的進一步發展可以得到有效的解決,測序成本可能也會越來越低,基因測序的自主選擇性也會越來越大,本預測模型將會有較大的臨床應用價值。
4 結論
納入模型的 12 個基因在胃癌患者中,IGHD3-16、ITFG1-AS1、MATN3、YWHABP2、SYT12、ZNF385C、LINC01980、CYMP-AS1 和 FAT3 基因高表達者的總體生存率明顯低于低表達者,INCENP、NEK5 和 LINC01210 基因高表達者的總體生存率明顯高于低表達者,差異均具有統計學意義。結合臨床特征和基因組學構建的胃癌預測模型有較好的預測能力,1 年、3 年及 5 年總體生存率的預測能力接近或超過 80%,較單獨臨床預測模型的預測能力明顯提高。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:文章由胡仁旺獨立撰寫成稿,龔建平進行文章審核。