引用本文: 龔佳祺, 劉瑩, 曾渝, 詹雯意, 汪曉東, 李立. 結直腸癌患者的就診年齡與術前腫瘤相關特征的關系:基于DACCA的真實世界數據研究. 中國普外基礎與臨床雜志, 2022, 29(3): 362-370. doi: 10.7507/1007-9424.202201050 復制
源于真實世界場景的華西腸癌數據庫(database from colorectal cancer,DACCA),為結直腸癌數據的結構化應用提供了基礎。如前系列報道,筆者團隊已經對于數據庫的構建方式和數據庫呈現的基本數據狀態完成了第1板塊(數據構建)和第2板塊(數據研究)的闡述。后續筆者團隊將逐步進行第3板塊(數據庫解讀)和第4板塊(數據庫決策)逐步展示利用DACCA數據如何回答在結直腸癌全生命周期流程中的諸多臨床問題。
在數據庫解讀第1章(人群特征)的第1部分 [體質量指數(body mass index, BMI)的系列研究內容] 后,筆者將對第2部分(年齡相關系列研究內容)進行解讀。結直腸癌患者的發病年齡有逐漸年輕化的趨勢,這將導致疾病治療的負擔進一步加重,同時可能降低人群總體生存效果[1-5]。通過年齡的差異,分析結直腸癌患者治療過程中的數據特征,可以幫助醫生針對不同年齡段的患者選擇更為合理、有效的決策方案,因此后續的文章將圍繞這個主題進行。現筆者結合DACCA數據庫資料就第一個科學問題:年齡與結直腸癌患者手術治療前的腫瘤相關特征間的關系進行探討。
1 資料與方法
1.1 數據庫版本
本次數據分析選取的DACCA數據庫版本為2022年1月5日更新版。
1.2 收集的DACCA數據庫應用參數
1.2.1 參數的選擇
本研究選擇的主要分組指標為年齡,選取分析所用的數據項目包括癌前病變、癌家族史、腫瘤部位、腫瘤距齒狀線距離、腫瘤形態、腫瘤方位、腫瘤性質、分化程度、CT評估準確性、腔內超聲、肝臟超聲、MRI評估準確性、正電子發射斷層顯像/電子計算機X射線斷層掃描(positron emission tomography/ computed tomography,PET/CT)和骨掃描。對于選擇參數的定義和分類方式,參考DACCA數據庫系列論文[6-8]。
1.2.2 研究相關定義
在DACCA中,年齡是采用短數值形式進行保存,呈現為連續數值資料的結構。本研究中為比較不同年齡段的差異化,筆者根據我國的年齡分段方式將本研究患者的年齡參數劃分為≤35歲(含嬰兒、幼兒、兒童、少年及青年5個階段,本研究將其設定為年輕組)、35~59歲(設定為中年組)和≥60歲(設定為老年組)3個組,以分析3組患者之間術前腫瘤特征的差異。 部分數據按照本次研究需要重新清洗劃分:① 在統計描述中,將癌家族史劃分為本人有結直腸腫瘤史、本人有其他消化系統腫瘤史、本人有其他腫瘤史、親屬有結直腸腫瘤史、親屬有其他消化系統腫瘤史和親屬有其他腫瘤史。② 將CT評估準確性、腔內超聲、肝臟超聲、MRI評估準確性、PET/CT和骨掃描綜合轉為術前TNM分期,分類方式見《數據庫建設第六部分:結直腸癌分期的標簽與結構化》 [6]。
1.3 DACCA數據庫的篩選方案
根據研究的需要,筆者團隊以“手術日期”和“年齡”作為排序條件,并按照下述條件一次進行篩選:① 總數據庫的信息篩選;② 剔除數據條目查實重復的數據;③ 以“手術日期”為條件,剔除“空”數據;④ 以“年齡”為條件,剔除“空”數據;⑤ 剔除數據條目可疑或無效的數據。
1.4 統計學方法
本次DACCA數據庫分析的統計描述工具為Excel(Office 365,Microsoft,Redmond,WA,USA),數據分析工具為SPSS26.0軟件。計數資料以例(%)進行描述;計量資料經 Kolmogorov Smirnov 檢驗,符合正態分布時以均數±標準差(±s)表示,不服從正態分布者以中位數和四分位間距表示。本研究中腫瘤距齒狀線距離為計量數據;分化程度和術前TNM分期為等級數據;癌前病變、癌家族史、腫瘤部位、腫瘤形態、腫瘤部位和腫瘤性質為分類數據。針對不同的數據類型統計學方法分別采用秩和檢驗和卡方檢驗,對于卡方檢驗受限數據采用Fisher精確檢驗和蒙特卡洛精確檢驗。檢驗水準 α=0.05。
2 結果
對2022年1月5日更新的數據庫,按照篩選條件得到7 856條患者數據量,具體流程詳見圖1。

2.1 年齡的分布
本研究中,結直腸癌患者年齡為16~104歲、(60±12.8)歲。按照上述年齡分組原則,年輕組數據量296條(占所有研究數據的3.8%),中年組數據量3 300條(占所有研究數據的42.0%),老年組數據量4 260條(占所有研究數據的54.2%)。
2.2 結直腸癌患者的癌前病變與年齡的關系
本次研究中,結直腸癌患者癌前病變有數據者4 806條,其中無癌前病變的數據774條(占癌前病變有數據者的16.1%),有癌前病變的數據303條(占癌前病變有數據者的6.3%),未明確是否存在癌前病變的數據3 729條(占癌前病變有數據者的77.6%)。按照是否有癌前病變分析:老年組中無癌前病變數據367條(68.5%,367/536),有癌前病變數據169條(31.5%,169/536);中年組中無癌前病變數據366條(75.0%,366/488),有癌前病變數據122條(25.0%,122/488);年輕組中無癌前病變數據41條(77.4%,41/53),有癌前病變數據12條(22.6%,12/53)。不同年齡分組有/無癌前病變的構成比的差異有統計學意義(χ2=6.219,P=0.045)。
在有癌前病變的患者中,單發/多發息肉者57條(占有癌前病變者的18.8%),單發/多發腺瘤者65條(占有癌前病變者的21.5%),炎性腸病者30條(占有癌前病變者的9.9%),慢性結腸炎15條(占有癌前病變者的5.0%),血吸蟲病109條(占有癌前病變者的36.0%),家族性腺瘤息肉病(familial adenomatous polyposis,FAP) 27條(占有癌前病變者的8.9%)。按照年齡分組,不同年齡段中各癌前病變的構成比差異有統計學意義(χ2=51.698,P<0.001)。見表1。

2.3 結直腸癌患者的癌家族史與年齡的關系
本次研究中,結直腸癌患者癌家族史有數據者5 886條,其中無癌家族史數據88條(占癌家族史有數據者的1.5%),有癌家族史數據1 243條(占癌家族史有數據者的21.1%),未明確是否存在癌家族史數據4 555條(占癌家族史有數據者的77.4%)。按照是否有癌家族史分析:老年組中無癌家族史數據32條(4.9%,32/650),有癌家族史數據618條(95.1%,618/650);中年組中無癌家族史數據41條(6.5%,41/633),有癌家族史數據592條(93.5%,592/633);年輕組中無癌家族史數據15條(31.3%,15/48),有癌家族史數據33條(68.8%,33/48)。不同年齡分組有/無癌家族史的構成比的差異有統計學意義(χ2=50.212,P<0.001)。
在有癌家族史的患者中(1 243條),患者本人有癌癥病史者278條(占有癌家族史者的22.4%),本人無癌癥病史者965條(占本人有癌家族史者的77.6%);其中結直腸癌病史者125條(占本人有癌癥病史者的45.0%),其他消化系統癌病史者29條(占本人有癌癥病史者的10.4%),其他系統癌病史者124條(占本人有癌癥病史者的44.6%)。不同年齡分組之間,患者本人癌家族史中不同腫瘤病史的構成比差異有統計學意義(χ2=9.880,P=0.027)。在有癌家族史的患者中,患者親屬有結直腸癌病史者439條(占親屬有癌癥病史者的38.8%),其他消化系統癌病史者376條(占親屬有癌癥病史者的33.3%),其他系統癌病史者315條(占親屬有癌癥病史者的27.9%),不同年齡分組之間,親屬癌家族史中不同腫瘤病史構成比的差異有統計學意義(χ2=16.138,P=0.003)。具體見如表2。

2.4 結直腸癌患者的腫瘤部位與年齡的關系
本次研究中,首先分析了結直腸癌原發癌數量的分布情況,共有數據7 185 例(條),其中單原發癌數據7 009例(條),占腫瘤部位有數據者的97.6%;多原發癌數據176例(條),包括雙原發癌163例(占腫瘤部位有數據者的2.3%),三原發癌12例(占腫瘤部位有數據者的0.2%),四原發癌1例(占腫瘤部位有數據者的0.0%)。在不同年齡分組之間,原發癌不同數量的構成比差異有統計學意義(χ2=12.973,P=0.036),見表3。

分析7 009例(條)單原發癌:其中腫瘤位于直腸者5 354例(條),占單原發癌患者的76.4%;位于結腸者1 655例(條),占單原發癌患者的23.6%。在不同年齡分組之間,腫瘤位于直腸和結腸部位的構成比差異無統計學意義(χ2=1.914,P=0.384)。在所有單原發直腸癌患者中,不同腫瘤部位構成情況見表4,其中直腸肛管部位者最多,有1 162例(條),占單原發直腸癌患者的21.7%,累及全直腸者有1例(條),占單原發直腸癌患者的0.0%。按照構成比分布,不同年齡分組之間不同腫瘤部位的構成比差異有統計學意義(χ2=43.817,P<0.001)。 在所有單原發結腸癌患者中,不同腫瘤部位構成情況見表5,其中腫瘤位于結腸肝曲者最多、371例(條),占單原發結腸癌患者的22.4%;累及全結腸者9例(條),占單原發結腸癌患者的0.5%。按照構成比分布,不同年齡分組間的差異有統計學意義(χ2=86.704,P<0.001)。


對176例多原發癌作進一步分析,其中多原發部位均在直腸者73例(150條),占多原發癌患者的41.5%(73/176),多原發部位的分布詳見表6,其中直腸中段最多,有39條(占多原發部位均在直腸者數據的26.0%),直腸腹膜返折部和直腸(未定位)最少,各有1條(占多原發部位均在直腸者數據的0.7%)。不同年齡分組之間多原發癌均在直腸者腫瘤部位的構成比差異無統計學意義(χ2=11.108,P=0.142)。

多原發部位均在結腸者32例(68條),占多原發癌患者的18.2%(32/176),多原發部位分布見表7,其中乙狀結腸最多、15條(占多原發部位均在結腸者數據的22.1%),回盲部最少、5條(占多原發部位均在結腸者數據的7.4%)。不同年齡分組之間構成比差異無統計學意義(χ2=9.111,P=0.738)。

多原發部位跨結腸和直腸部位者71例(148條),占多原發癌患者的40.3%(71/176),多原發部位分布詳見表8,其中乙狀結腸最多,有32條(占多原發部位跨結腸和直腸者數據的21.6%),全結腸最少,有1條(占多原發部位跨結腸和直腸者數據的0.7%)。不同年齡分組之間多原發部位跨結腸和直腸者腫瘤部位的構成比差異無統計學意義(χ2=27.132,P=0.878)。

2.5 直腸癌患者腫瘤距齒狀線距離與年齡的關系
本研究中僅針對直腸癌患者分析腫瘤距齒狀線距離,提供該距離的數據共4 877條(占直腸癌患者的91.1 %(4 877/5 353)。所有腫瘤距齒狀線的距離為–3.2~15 cm,經檢驗數據不服從正態分布,其中位數(四分位間距)為2.00 cm(3.00 cm),其中老年組為–3.2~15 cm、5.00 cm(7.00 cm),中年組為–3~15 cm、4.00 cm(6.50 cm),年輕組為–2~15 cm、3.75 cm(5.30cm),在不同年齡組之間腫瘤距齒狀線距離的差異有統計學意義(H=28.589,P<0.001)。
2.6 結直腸癌患者腫瘤方位與年齡的關系
本研究中,有腫瘤方位的數據6 081條(占所有研究數據的77.4%),具體分布見表9。其中,腫瘤累及腸壁一圈者最多、2 772條(45.6%),累積后壁者最少、284條(4.7%)。不同年齡組之間腫瘤方位的構成比差異無統計學意義(χ2=14.795,P=0.140)。

2.7 結直腸癌腫瘤病理學性質與年齡的關系
本研究中,有腫瘤病理學性質的數據5 663條(占所有研究數據的72.1%),具體分析見表10。其中腺癌最多,有4 413條(占有腫瘤病理學性質數據者的77.9%),透明細胞癌和脂肪肉瘤最少,各1條(占有腫瘤病理學性質數據者的0.0%)。不同年齡組之間,不同腫瘤病理學性質的構成比差異有統計學意義(χ2=121.387,P<0.001)。

2.8 結直腸癌腫瘤形態與年齡的關系
本研究中,結直腸癌的腫瘤大體形態有數據者5 572條(占所有研究數據的70.9%),詳見表11。其中潰瘍型最多、2 304條(占腫瘤形態有數據者的41.3%),帶蒂息肉型最少、3條(占腫瘤形態有數據者的0.1%)。不同年齡組之間不同腫瘤形態的構成比差異有統計學意義(χ2=89.719,P<0.001)。

2.9 結直腸癌分化程度與年齡的關系
本研究中,結直腸癌分化程度有數據者5 522條(占所有數據的70.3%),具體分布見表12。其中,中分化者最多,有3 499條(占分化程度有數據者的63.4%),高分化者最少,有211條(占分化程度有數據者的3.8%)。不同年齡組之間,腫瘤不同分化程度的構成比差異有統計學意義(H=43.544,P<0.001)。

2.10 結直腸癌術前TNM分期與年齡的關系
本研究中,根據前文方法綜合分析轉化得到結直腸癌的術前TNM分期數據3 824條(占所有研究數據的48.7%),具體分布見表12。不同年齡組之間,結直腸癌的術前TNM分期的構成比差異有統計學意義(H=7.547,P=0.023)。
3 討論
3.1 年齡與結直腸癌的發生
目前,主流的觀點還是認為結直腸癌更容易發生在中老年人群,但是近年來從流行病學的研究中發現年輕型的結直腸癌正在增加[1-5]。這種年輕化的趨勢,會導致結直腸癌的疾病負擔進一步加重,并且嚴重威脅到人群的壽命狀態。因此,關注結直腸癌與年齡的關系,具有一定的現實意義。
然而從結直腸癌的專病數據隊列的構建條件上看,通常會缺乏致病因素這樣的數據參數,因為這一部分的信息多來自于患者就診前。所以筆者在利用DACCA進行數據挖掘時,無法通過健康人群暴露因素情況,分析與發病年齡的關系,這些內容也是專病數據隊列與人群健康大數據相融合的點。本研究所涉及的系列論文,數據挖掘的前提是基于結直腸癌的診療數據,分析與年齡之間的關系,因此多數情況下,更適合為進入診療階段的患者提供決策建議。
從病史采集上看,DACCA由于需要獲取部分既往信息,因此還可以嘗試分析年齡與結直腸癌發生的部分風險關系。從本研究中就可以看出,患者在就診時是否伴有癌前病變與年齡之間存在相關性(χ2=6.219,P=0.045),在年輕型的結直腸癌患者中沒有癌前病變者的占比更大(77.4%)。提示年齡的增長,可能會導致患者出現更多的癌前病變狀態,這也符合機體老化過程的特點。同時需要注意的是DACCA的癌前病變采集是與患者診斷為結直腸癌的時間是同步的,也就是說這些癌前病變只能提示在診斷結直腸癌的同時患者確實存在癌前病變狀態。如診斷為直腸癌者,同時腸鏡檢查還發現血吸蟲卵沉積,血吸蟲卵沉積這種致癌因素[9-13]是否與患者本人罹患直腸癌存在關聯,還有待分析。因此,本研究對不同年齡組的結直腸癌患者存在不同癌前病變的構成情況進行了進一步分析,結果發現不同年齡組之間的癌前病變構成比的差異具有統計學意義(χ2=51.698,P<0.001),其中年輕型結直腸癌患者的FAP構成比例明顯高于其他年齡段,這再次印證了FAP是罹患結直腸癌的高危因素,當然類似的研究已經有較為確定的報道[14-16]。
在通過對癌家族史數據的分析中,本研究進一步分析了結直腸癌患者的年齡與家族史之間的關系。目前,結直腸癌的發病與部分癌家族特征存在相關性[17-21],確切的癌家族特點已經是癌癥發病與遺傳特征的表觀特征,即在沒有進行大規模人群的癌癥風險基因的檢測基礎上,我們通常會通過確切患癌的家族成員,推論其同家族的人員是否受到遺傳風險的影響,以便于我們向其推薦是否需要積極完善結直腸癌的篩查。本研究結果顯示是否有癌家族史在不同年齡組之間的差異具有統計學意義(χ2=50.212,P<0.001),而且主要集中在中年組(35~59歲年齡段)存在有癌家族史的結直腸癌患者比例相對更高(37.8%)。這可能是因為中年型的結直腸癌患者更容易獲取其家族史詳細信息。而對于多數老年結直腸癌患者,經常在病史追問家族史的時候,其父母的患病及死亡原因通常比較模糊。結合中年結直腸癌患者的癌家族史特征,對于這一類患者,我們可以基于患者的癌家族史更進一步挖掘遺傳學相關的研究,或許對于深入分析結直腸癌的遺傳特征有一定的幫助。
同時,本研究也對癌家族史的具體腫瘤類型進行了分析,結果顯示在不同年齡組之間不同腫瘤病史構成比的差異有統計學意義,其中特別之處是,年輕結直腸癌患者的親屬中出現結直腸癌(同類型癌癥)的比例(71.0%)明顯高于其他年齡組。這或許能說明,當親屬中出現結直腸癌的患者,對于年輕人的結直腸癌篩查就有相當的必要性。從這一點上看,對于我們臨床獲取癌家族史信息后,向患者家屬提供科普建議時提供了依據[22-23]。
3.2 年齡與結直腸癌的腫瘤特征
DACCA提供的是專病診療型數據,因此這些數據呈現的腫瘤學狀態是臨床醫生更為關注的。特別是年齡存在差異時,在開始系列治療措施前,明確患者的腫瘤學特征,將有助于臨床醫生進一步的精細化臨床決策方案的制定。
本研究首先分析了原發癌數量這一特征。因為目前臨床上發現,結直腸癌患者很可能在就診時原發癌數量不是單一的(即單原發癌),在結腸和直腸這個解剖結構中,患者可能同時存在多個結直腸癌病灶。明確原發癌數量這對外科干預有相當重要的意義。本研究結果發現,年輕結直腸癌患者中出現超過單原發癌的比例并不高,而中年和老年結直腸癌患者都有2%~3%的比例出現雙原發癌的情況。所以在進行全結直腸鏡評估時,需要更重視中老年結直腸癌患者的腫瘤數量,尤其是出現梗阻改變、腸鏡無法通過下端的結直腸癌病變情況下,要充分注意避免遺漏其他部位的結直腸癌[24-29]。
由于單原發的結直腸癌患者最多,本研究進一步分析了這些患者腫瘤所在的部位的構成情況。結果發現不同年齡組之間,單原發直腸癌患者腫瘤不同部位的構成比在差異(χ2=43.817,P<0.001),在本結直腸癌專病隊列中,無論哪個年齡段的患者,直腸肛管癌始終是構成比例最高的群體,這一特征與DACCA的數據源所在醫院的專科服務特點存在關系。在詳細分析直腸癌患者的構成特點中可以發現,老年直腸癌患者中腫瘤位于肛管的比例(1.7%)小于其他年齡段,而年輕直腸癌患者中腫瘤位于直腸中段的比例(6.3%)小于其他年齡段。同樣分析了結腸癌患者的構成特點,結果顯示中年結腸癌患者中腫瘤位于降結腸的比例(15.0 %)高于其他年齡段,而年輕結腸癌患者中腫瘤位于乙狀結腸的比例(15.7%)低于其他年齡段。
對于直腸癌患者,腫瘤距齒狀線的距離是重要的表觀參數之一。在部分結直腸癌指南中,直腸癌處于極低位被認為是高風險因素之一[30-31]。在我國的直腸癌患者群體中,是否可以實現“保肛”的功能訴求,是重要的臨床需求之一。在本次研究的分析中發現,年輕直腸癌患者的腫瘤距齒狀線距離的中位數低于中老年患者(H=28.589,P<0.001)。該結果提示需要更為關注年輕直腸癌患者的治療方案決策,即需要通過有效的新輔助治療方案和極限保肛技術,更好地保障患者的功能需求。也可理解為越是年輕的患者對于保留良好的肛門功能,獲取更好的局部效果和長期生存都有更高的要求。
另外一項重要的結直腸癌惡性程度參數就是腫瘤的分化程度。本研究結果發現,年輕結直腸癌患者中腫瘤為低分化的比例明顯要高于其他年齡段(H=43.544,P<0.001)。提示結直腸癌患者就診時越為年輕,腫瘤的惡性程度可能更高。因此,年輕結直腸癌患者對于綜合治療的需求可能更高。因此,如果按照流行病學的推論年輕結直腸癌發生率在增加,那在結直腸癌綜合治療方案決策時,就有必要對年輕型這一特征作更為深入的研究,以具有目標性的改善年輕結直腸癌患者的預后。
同樣是結直腸癌嚴重程度的指標之一,分期也非常重要。但是在術前狀態下,我們通常只能先獲得術前的臨床TNM分期或臨床+影像學的TNM分期。本研究發現,在不同年齡組之間,術前TNM分期的構成比存在差異(H=7.547,P=0.023);同時還發現,年輕結直腸癌患者術前TNM分期為Ⅲ期的患者構成比超過了40%,系Ⅲ~Ⅳ期者的比例高達67.4%。該結果再次說明年輕結直腸癌有更差的預后風險。因此,從腫瘤惡性程度的評估上看,年輕結直腸癌患者是急需要關注治療效果的人群。
4 結論
結直腸癌患者的術前腫瘤特征與就診年齡存在多種關聯。年輕結直腸癌患者多不伴有癌前病變,若有癌前病變多是是FAP。年輕結直腸癌患者的親屬癌家族史中同樣罹患結直腸癌的比例更高。從腫瘤發生部位來看,年輕結直腸癌患者出現單原發癌的比例高于中老年患者。直腸癌中的年輕患者腫瘤距齒狀線的距離更小、部位更低,出現低分化惡性腫瘤的比例更高,同時分期相對更晚。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:龔佳祺主要負責數據統計和描述、結果制圖、文章撰寫;劉瑩主要負責大綱梳理、文章修改;曾渝主要負責統計分析;詹雯意主要負責數據描述;汪曉東主要負責文章數據源、文章修改;李立主要負責文章指導。
倫理聲明:本研究通過了四川大學華西醫院生物醫學倫理委員會審批 [批文編號2019年審(140號)]。
源于真實世界場景的華西腸癌數據庫(database from colorectal cancer,DACCA),為結直腸癌數據的結構化應用提供了基礎。如前系列報道,筆者團隊已經對于數據庫的構建方式和數據庫呈現的基本數據狀態完成了第1板塊(數據構建)和第2板塊(數據研究)的闡述。后續筆者團隊將逐步進行第3板塊(數據庫解讀)和第4板塊(數據庫決策)逐步展示利用DACCA數據如何回答在結直腸癌全生命周期流程中的諸多臨床問題。
在數據庫解讀第1章(人群特征)的第1部分 [體質量指數(body mass index, BMI)的系列研究內容] 后,筆者將對第2部分(年齡相關系列研究內容)進行解讀。結直腸癌患者的發病年齡有逐漸年輕化的趨勢,這將導致疾病治療的負擔進一步加重,同時可能降低人群總體生存效果[1-5]。通過年齡的差異,分析結直腸癌患者治療過程中的數據特征,可以幫助醫生針對不同年齡段的患者選擇更為合理、有效的決策方案,因此后續的文章將圍繞這個主題進行。現筆者結合DACCA數據庫資料就第一個科學問題:年齡與結直腸癌患者手術治療前的腫瘤相關特征間的關系進行探討。
1 資料與方法
1.1 數據庫版本
本次數據分析選取的DACCA數據庫版本為2022年1月5日更新版。
1.2 收集的DACCA數據庫應用參數
1.2.1 參數的選擇
本研究選擇的主要分組指標為年齡,選取分析所用的數據項目包括癌前病變、癌家族史、腫瘤部位、腫瘤距齒狀線距離、腫瘤形態、腫瘤方位、腫瘤性質、分化程度、CT評估準確性、腔內超聲、肝臟超聲、MRI評估準確性、正電子發射斷層顯像/電子計算機X射線斷層掃描(positron emission tomography/ computed tomography,PET/CT)和骨掃描。對于選擇參數的定義和分類方式,參考DACCA數據庫系列論文[6-8]。
1.2.2 研究相關定義
在DACCA中,年齡是采用短數值形式進行保存,呈現為連續數值資料的結構。本研究中為比較不同年齡段的差異化,筆者根據我國的年齡分段方式將本研究患者的年齡參數劃分為≤35歲(含嬰兒、幼兒、兒童、少年及青年5個階段,本研究將其設定為年輕組)、35~59歲(設定為中年組)和≥60歲(設定為老年組)3個組,以分析3組患者之間術前腫瘤特征的差異。 部分數據按照本次研究需要重新清洗劃分:① 在統計描述中,將癌家族史劃分為本人有結直腸腫瘤史、本人有其他消化系統腫瘤史、本人有其他腫瘤史、親屬有結直腸腫瘤史、親屬有其他消化系統腫瘤史和親屬有其他腫瘤史。② 將CT評估準確性、腔內超聲、肝臟超聲、MRI評估準確性、PET/CT和骨掃描綜合轉為術前TNM分期,分類方式見《數據庫建設第六部分:結直腸癌分期的標簽與結構化》 [6]。
1.3 DACCA數據庫的篩選方案
根據研究的需要,筆者團隊以“手術日期”和“年齡”作為排序條件,并按照下述條件一次進行篩選:① 總數據庫的信息篩選;② 剔除數據條目查實重復的數據;③ 以“手術日期”為條件,剔除“空”數據;④ 以“年齡”為條件,剔除“空”數據;⑤ 剔除數據條目可疑或無效的數據。
1.4 統計學方法
本次DACCA數據庫分析的統計描述工具為Excel(Office 365,Microsoft,Redmond,WA,USA),數據分析工具為SPSS26.0軟件。計數資料以例(%)進行描述;計量資料經 Kolmogorov Smirnov 檢驗,符合正態分布時以均數±標準差(±s)表示,不服從正態分布者以中位數和四分位間距表示。本研究中腫瘤距齒狀線距離為計量數據;分化程度和術前TNM分期為等級數據;癌前病變、癌家族史、腫瘤部位、腫瘤形態、腫瘤部位和腫瘤性質為分類數據。針對不同的數據類型統計學方法分別采用秩和檢驗和卡方檢驗,對于卡方檢驗受限數據采用Fisher精確檢驗和蒙特卡洛精確檢驗。檢驗水準 α=0.05。
2 結果
對2022年1月5日更新的數據庫,按照篩選條件得到7 856條患者數據量,具體流程詳見圖1。

2.1 年齡的分布
本研究中,結直腸癌患者年齡為16~104歲、(60±12.8)歲。按照上述年齡分組原則,年輕組數據量296條(占所有研究數據的3.8%),中年組數據量3 300條(占所有研究數據的42.0%),老年組數據量4 260條(占所有研究數據的54.2%)。
2.2 結直腸癌患者的癌前病變與年齡的關系
本次研究中,結直腸癌患者癌前病變有數據者4 806條,其中無癌前病變的數據774條(占癌前病變有數據者的16.1%),有癌前病變的數據303條(占癌前病變有數據者的6.3%),未明確是否存在癌前病變的數據3 729條(占癌前病變有數據者的77.6%)。按照是否有癌前病變分析:老年組中無癌前病變數據367條(68.5%,367/536),有癌前病變數據169條(31.5%,169/536);中年組中無癌前病變數據366條(75.0%,366/488),有癌前病變數據122條(25.0%,122/488);年輕組中無癌前病變數據41條(77.4%,41/53),有癌前病變數據12條(22.6%,12/53)。不同年齡分組有/無癌前病變的構成比的差異有統計學意義(χ2=6.219,P=0.045)。
在有癌前病變的患者中,單發/多發息肉者57條(占有癌前病變者的18.8%),單發/多發腺瘤者65條(占有癌前病變者的21.5%),炎性腸病者30條(占有癌前病變者的9.9%),慢性結腸炎15條(占有癌前病變者的5.0%),血吸蟲病109條(占有癌前病變者的36.0%),家族性腺瘤息肉病(familial adenomatous polyposis,FAP) 27條(占有癌前病變者的8.9%)。按照年齡分組,不同年齡段中各癌前病變的構成比差異有統計學意義(χ2=51.698,P<0.001)。見表1。

2.3 結直腸癌患者的癌家族史與年齡的關系
本次研究中,結直腸癌患者癌家族史有數據者5 886條,其中無癌家族史數據88條(占癌家族史有數據者的1.5%),有癌家族史數據1 243條(占癌家族史有數據者的21.1%),未明確是否存在癌家族史數據4 555條(占癌家族史有數據者的77.4%)。按照是否有癌家族史分析:老年組中無癌家族史數據32條(4.9%,32/650),有癌家族史數據618條(95.1%,618/650);中年組中無癌家族史數據41條(6.5%,41/633),有癌家族史數據592條(93.5%,592/633);年輕組中無癌家族史數據15條(31.3%,15/48),有癌家族史數據33條(68.8%,33/48)。不同年齡分組有/無癌家族史的構成比的差異有統計學意義(χ2=50.212,P<0.001)。
在有癌家族史的患者中(1 243條),患者本人有癌癥病史者278條(占有癌家族史者的22.4%),本人無癌癥病史者965條(占本人有癌家族史者的77.6%);其中結直腸癌病史者125條(占本人有癌癥病史者的45.0%),其他消化系統癌病史者29條(占本人有癌癥病史者的10.4%),其他系統癌病史者124條(占本人有癌癥病史者的44.6%)。不同年齡分組之間,患者本人癌家族史中不同腫瘤病史的構成比差異有統計學意義(χ2=9.880,P=0.027)。在有癌家族史的患者中,患者親屬有結直腸癌病史者439條(占親屬有癌癥病史者的38.8%),其他消化系統癌病史者376條(占親屬有癌癥病史者的33.3%),其他系統癌病史者315條(占親屬有癌癥病史者的27.9%),不同年齡分組之間,親屬癌家族史中不同腫瘤病史構成比的差異有統計學意義(χ2=16.138,P=0.003)。具體見如表2。

2.4 結直腸癌患者的腫瘤部位與年齡的關系
本次研究中,首先分析了結直腸癌原發癌數量的分布情況,共有數據7 185 例(條),其中單原發癌數據7 009例(條),占腫瘤部位有數據者的97.6%;多原發癌數據176例(條),包括雙原發癌163例(占腫瘤部位有數據者的2.3%),三原發癌12例(占腫瘤部位有數據者的0.2%),四原發癌1例(占腫瘤部位有數據者的0.0%)。在不同年齡分組之間,原發癌不同數量的構成比差異有統計學意義(χ2=12.973,P=0.036),見表3。

分析7 009例(條)單原發癌:其中腫瘤位于直腸者5 354例(條),占單原發癌患者的76.4%;位于結腸者1 655例(條),占單原發癌患者的23.6%。在不同年齡分組之間,腫瘤位于直腸和結腸部位的構成比差異無統計學意義(χ2=1.914,P=0.384)。在所有單原發直腸癌患者中,不同腫瘤部位構成情況見表4,其中直腸肛管部位者最多,有1 162例(條),占單原發直腸癌患者的21.7%,累及全直腸者有1例(條),占單原發直腸癌患者的0.0%。按照構成比分布,不同年齡分組之間不同腫瘤部位的構成比差異有統計學意義(χ2=43.817,P<0.001)。 在所有單原發結腸癌患者中,不同腫瘤部位構成情況見表5,其中腫瘤位于結腸肝曲者最多、371例(條),占單原發結腸癌患者的22.4%;累及全結腸者9例(條),占單原發結腸癌患者的0.5%。按照構成比分布,不同年齡分組間的差異有統計學意義(χ2=86.704,P<0.001)。


對176例多原發癌作進一步分析,其中多原發部位均在直腸者73例(150條),占多原發癌患者的41.5%(73/176),多原發部位的分布詳見表6,其中直腸中段最多,有39條(占多原發部位均在直腸者數據的26.0%),直腸腹膜返折部和直腸(未定位)最少,各有1條(占多原發部位均在直腸者數據的0.7%)。不同年齡分組之間多原發癌均在直腸者腫瘤部位的構成比差異無統計學意義(χ2=11.108,P=0.142)。

多原發部位均在結腸者32例(68條),占多原發癌患者的18.2%(32/176),多原發部位分布見表7,其中乙狀結腸最多、15條(占多原發部位均在結腸者數據的22.1%),回盲部最少、5條(占多原發部位均在結腸者數據的7.4%)。不同年齡分組之間構成比差異無統計學意義(χ2=9.111,P=0.738)。

多原發部位跨結腸和直腸部位者71例(148條),占多原發癌患者的40.3%(71/176),多原發部位分布詳見表8,其中乙狀結腸最多,有32條(占多原發部位跨結腸和直腸者數據的21.6%),全結腸最少,有1條(占多原發部位跨結腸和直腸者數據的0.7%)。不同年齡分組之間多原發部位跨結腸和直腸者腫瘤部位的構成比差異無統計學意義(χ2=27.132,P=0.878)。

2.5 直腸癌患者腫瘤距齒狀線距離與年齡的關系
本研究中僅針對直腸癌患者分析腫瘤距齒狀線距離,提供該距離的數據共4 877條(占直腸癌患者的91.1 %(4 877/5 353)。所有腫瘤距齒狀線的距離為–3.2~15 cm,經檢驗數據不服從正態分布,其中位數(四分位間距)為2.00 cm(3.00 cm),其中老年組為–3.2~15 cm、5.00 cm(7.00 cm),中年組為–3~15 cm、4.00 cm(6.50 cm),年輕組為–2~15 cm、3.75 cm(5.30cm),在不同年齡組之間腫瘤距齒狀線距離的差異有統計學意義(H=28.589,P<0.001)。
2.6 結直腸癌患者腫瘤方位與年齡的關系
本研究中,有腫瘤方位的數據6 081條(占所有研究數據的77.4%),具體分布見表9。其中,腫瘤累及腸壁一圈者最多、2 772條(45.6%),累積后壁者最少、284條(4.7%)。不同年齡組之間腫瘤方位的構成比差異無統計學意義(χ2=14.795,P=0.140)。

2.7 結直腸癌腫瘤病理學性質與年齡的關系
本研究中,有腫瘤病理學性質的數據5 663條(占所有研究數據的72.1%),具體分析見表10。其中腺癌最多,有4 413條(占有腫瘤病理學性質數據者的77.9%),透明細胞癌和脂肪肉瘤最少,各1條(占有腫瘤病理學性質數據者的0.0%)。不同年齡組之間,不同腫瘤病理學性質的構成比差異有統計學意義(χ2=121.387,P<0.001)。

2.8 結直腸癌腫瘤形態與年齡的關系
本研究中,結直腸癌的腫瘤大體形態有數據者5 572條(占所有研究數據的70.9%),詳見表11。其中潰瘍型最多、2 304條(占腫瘤形態有數據者的41.3%),帶蒂息肉型最少、3條(占腫瘤形態有數據者的0.1%)。不同年齡組之間不同腫瘤形態的構成比差異有統計學意義(χ2=89.719,P<0.001)。

2.9 結直腸癌分化程度與年齡的關系
本研究中,結直腸癌分化程度有數據者5 522條(占所有數據的70.3%),具體分布見表12。其中,中分化者最多,有3 499條(占分化程度有數據者的63.4%),高分化者最少,有211條(占分化程度有數據者的3.8%)。不同年齡組之間,腫瘤不同分化程度的構成比差異有統計學意義(H=43.544,P<0.001)。

2.10 結直腸癌術前TNM分期與年齡的關系
本研究中,根據前文方法綜合分析轉化得到結直腸癌的術前TNM分期數據3 824條(占所有研究數據的48.7%),具體分布見表12。不同年齡組之間,結直腸癌的術前TNM分期的構成比差異有統計學意義(H=7.547,P=0.023)。
3 討論
3.1 年齡與結直腸癌的發生
目前,主流的觀點還是認為結直腸癌更容易發生在中老年人群,但是近年來從流行病學的研究中發現年輕型的結直腸癌正在增加[1-5]。這種年輕化的趨勢,會導致結直腸癌的疾病負擔進一步加重,并且嚴重威脅到人群的壽命狀態。因此,關注結直腸癌與年齡的關系,具有一定的現實意義。
然而從結直腸癌的專病數據隊列的構建條件上看,通常會缺乏致病因素這樣的數據參數,因為這一部分的信息多來自于患者就診前。所以筆者在利用DACCA進行數據挖掘時,無法通過健康人群暴露因素情況,分析與發病年齡的關系,這些內容也是專病數據隊列與人群健康大數據相融合的點。本研究所涉及的系列論文,數據挖掘的前提是基于結直腸癌的診療數據,分析與年齡之間的關系,因此多數情況下,更適合為進入診療階段的患者提供決策建議。
從病史采集上看,DACCA由于需要獲取部分既往信息,因此還可以嘗試分析年齡與結直腸癌發生的部分風險關系。從本研究中就可以看出,患者在就診時是否伴有癌前病變與年齡之間存在相關性(χ2=6.219,P=0.045),在年輕型的結直腸癌患者中沒有癌前病變者的占比更大(77.4%)。提示年齡的增長,可能會導致患者出現更多的癌前病變狀態,這也符合機體老化過程的特點。同時需要注意的是DACCA的癌前病變采集是與患者診斷為結直腸癌的時間是同步的,也就是說這些癌前病變只能提示在診斷結直腸癌的同時患者確實存在癌前病變狀態。如診斷為直腸癌者,同時腸鏡檢查還發現血吸蟲卵沉積,血吸蟲卵沉積這種致癌因素[9-13]是否與患者本人罹患直腸癌存在關聯,還有待分析。因此,本研究對不同年齡組的結直腸癌患者存在不同癌前病變的構成情況進行了進一步分析,結果發現不同年齡組之間的癌前病變構成比的差異具有統計學意義(χ2=51.698,P<0.001),其中年輕型結直腸癌患者的FAP構成比例明顯高于其他年齡段,這再次印證了FAP是罹患結直腸癌的高危因素,當然類似的研究已經有較為確定的報道[14-16]。
在通過對癌家族史數據的分析中,本研究進一步分析了結直腸癌患者的年齡與家族史之間的關系。目前,結直腸癌的發病與部分癌家族特征存在相關性[17-21],確切的癌家族特點已經是癌癥發病與遺傳特征的表觀特征,即在沒有進行大規模人群的癌癥風險基因的檢測基礎上,我們通常會通過確切患癌的家族成員,推論其同家族的人員是否受到遺傳風險的影響,以便于我們向其推薦是否需要積極完善結直腸癌的篩查。本研究結果顯示是否有癌家族史在不同年齡組之間的差異具有統計學意義(χ2=50.212,P<0.001),而且主要集中在中年組(35~59歲年齡段)存在有癌家族史的結直腸癌患者比例相對更高(37.8%)。這可能是因為中年型的結直腸癌患者更容易獲取其家族史詳細信息。而對于多數老年結直腸癌患者,經常在病史追問家族史的時候,其父母的患病及死亡原因通常比較模糊。結合中年結直腸癌患者的癌家族史特征,對于這一類患者,我們可以基于患者的癌家族史更進一步挖掘遺傳學相關的研究,或許對于深入分析結直腸癌的遺傳特征有一定的幫助。
同時,本研究也對癌家族史的具體腫瘤類型進行了分析,結果顯示在不同年齡組之間不同腫瘤病史構成比的差異有統計學意義,其中特別之處是,年輕結直腸癌患者的親屬中出現結直腸癌(同類型癌癥)的比例(71.0%)明顯高于其他年齡組。這或許能說明,當親屬中出現結直腸癌的患者,對于年輕人的結直腸癌篩查就有相當的必要性。從這一點上看,對于我們臨床獲取癌家族史信息后,向患者家屬提供科普建議時提供了依據[22-23]。
3.2 年齡與結直腸癌的腫瘤特征
DACCA提供的是專病診療型數據,因此這些數據呈現的腫瘤學狀態是臨床醫生更為關注的。特別是年齡存在差異時,在開始系列治療措施前,明確患者的腫瘤學特征,將有助于臨床醫生進一步的精細化臨床決策方案的制定。
本研究首先分析了原發癌數量這一特征。因為目前臨床上發現,結直腸癌患者很可能在就診時原發癌數量不是單一的(即單原發癌),在結腸和直腸這個解剖結構中,患者可能同時存在多個結直腸癌病灶。明確原發癌數量這對外科干預有相當重要的意義。本研究結果發現,年輕結直腸癌患者中出現超過單原發癌的比例并不高,而中年和老年結直腸癌患者都有2%~3%的比例出現雙原發癌的情況。所以在進行全結直腸鏡評估時,需要更重視中老年結直腸癌患者的腫瘤數量,尤其是出現梗阻改變、腸鏡無法通過下端的結直腸癌病變情況下,要充分注意避免遺漏其他部位的結直腸癌[24-29]。
由于單原發的結直腸癌患者最多,本研究進一步分析了這些患者腫瘤所在的部位的構成情況。結果發現不同年齡組之間,單原發直腸癌患者腫瘤不同部位的構成比在差異(χ2=43.817,P<0.001),在本結直腸癌專病隊列中,無論哪個年齡段的患者,直腸肛管癌始終是構成比例最高的群體,這一特征與DACCA的數據源所在醫院的專科服務特點存在關系。在詳細分析直腸癌患者的構成特點中可以發現,老年直腸癌患者中腫瘤位于肛管的比例(1.7%)小于其他年齡段,而年輕直腸癌患者中腫瘤位于直腸中段的比例(6.3%)小于其他年齡段。同樣分析了結腸癌患者的構成特點,結果顯示中年結腸癌患者中腫瘤位于降結腸的比例(15.0 %)高于其他年齡段,而年輕結腸癌患者中腫瘤位于乙狀結腸的比例(15.7%)低于其他年齡段。
對于直腸癌患者,腫瘤距齒狀線的距離是重要的表觀參數之一。在部分結直腸癌指南中,直腸癌處于極低位被認為是高風險因素之一[30-31]。在我國的直腸癌患者群體中,是否可以實現“保肛”的功能訴求,是重要的臨床需求之一。在本次研究的分析中發現,年輕直腸癌患者的腫瘤距齒狀線距離的中位數低于中老年患者(H=28.589,P<0.001)。該結果提示需要更為關注年輕直腸癌患者的治療方案決策,即需要通過有效的新輔助治療方案和極限保肛技術,更好地保障患者的功能需求。也可理解為越是年輕的患者對于保留良好的肛門功能,獲取更好的局部效果和長期生存都有更高的要求。
另外一項重要的結直腸癌惡性程度參數就是腫瘤的分化程度。本研究結果發現,年輕結直腸癌患者中腫瘤為低分化的比例明顯要高于其他年齡段(H=43.544,P<0.001)。提示結直腸癌患者就診時越為年輕,腫瘤的惡性程度可能更高。因此,年輕結直腸癌患者對于綜合治療的需求可能更高。因此,如果按照流行病學的推論年輕結直腸癌發生率在增加,那在結直腸癌綜合治療方案決策時,就有必要對年輕型這一特征作更為深入的研究,以具有目標性的改善年輕結直腸癌患者的預后。
同樣是結直腸癌嚴重程度的指標之一,分期也非常重要。但是在術前狀態下,我們通常只能先獲得術前的臨床TNM分期或臨床+影像學的TNM分期。本研究發現,在不同年齡組之間,術前TNM分期的構成比存在差異(H=7.547,P=0.023);同時還發現,年輕結直腸癌患者術前TNM分期為Ⅲ期的患者構成比超過了40%,系Ⅲ~Ⅳ期者的比例高達67.4%。該結果再次說明年輕結直腸癌有更差的預后風險。因此,從腫瘤惡性程度的評估上看,年輕結直腸癌患者是急需要關注治療效果的人群。
4 結論
結直腸癌患者的術前腫瘤特征與就診年齡存在多種關聯。年輕結直腸癌患者多不伴有癌前病變,若有癌前病變多是是FAP。年輕結直腸癌患者的親屬癌家族史中同樣罹患結直腸癌的比例更高。從腫瘤發生部位來看,年輕結直腸癌患者出現單原發癌的比例高于中老年患者。直腸癌中的年輕患者腫瘤距齒狀線的距離更小、部位更低,出現低分化惡性腫瘤的比例更高,同時分期相對更晚。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:龔佳祺主要負責數據統計和描述、結果制圖、文章撰寫;劉瑩主要負責大綱梳理、文章修改;曾渝主要負責統計分析;詹雯意主要負責數據描述;汪曉東主要負責文章數據源、文章修改;李立主要負責文章指導。
倫理聲明:本研究通過了四川大學華西醫院生物醫學倫理委員會審批 [批文編號2019年審(140號)]。