引用本文: 汪曉東, 陳夢然, 曾渝, 劉健博, 李立. 數據庫研究第五部分:結直腸癌的腫瘤特征. 中國普外基礎與臨床雜志, 2020, 27(2): 196-208. doi: 10.7507/1007-9424.201911119 復制
華西腸癌數據庫(Database from Colorectal Cancer,DACCA)是華西醫院結直腸外科以真實世界研究(RWS)為思路和理念而建設的數據庫[1-10]。如前述,筆者團隊將推出系列數據庫報道,包括:數據庫研究、數據庫建設、數據庫解讀、數據庫決策等。本文為數據庫研究第一章的第五部分。
盡管 DACCA 數據庫的命名選擇“癌”作為表達形式,但是實際上是涵蓋了所有可能成為數據源的結直腸惡性腫瘤(malignant tumor)[11],這就不再是傳統意義上所表達的癌(cancer),從而便于我們可以更好地保存并建立常見惡性腫瘤、甚至是罕見惡性腫瘤的數據隊列。
腫瘤特征或者叫腫瘤學特征,是對于結直腸癌數據庫作出多種關聯判斷的重要基準數據之一。這些特征不僅關聯到術前的治療方案和決策[12-13],也會對于手術方案的決策造成影響,更重要的是在最終的預后(“結果-關聯”)上有重要的意義。對于不同的癌癥數據庫來說,如何設計并采集對應的腫瘤特征,存在有一定的共性,也會有差異。本次數據庫研究的報道,則是展示在 DACCA 數據庫的設計框架下,結直腸癌數據集具有怎樣的腫瘤特征。
1 資料和方法
1.1 數據庫版本
本次數據分析選取的 DACCA 版本為 2019 年9 月 26 日更新版。
1.2 收集的 DACCA 數據庫應用參數
本次研究選取的數據項目的基礎定義,將在“數據庫建設”系列報道五中詳細說明。本次選擇的部分數據項目包括:手術日期(date of surgery)、癌前病變(precancerous lesion)、癌家族(cancer family)、腫瘤部位(location of tumor)、緣距(distance to the dentate line)、腫瘤形態(morphology of tumor)、大小(size)、方位(position)、發生(happening and origination)、分化(differentiation)、腫瘤病理(pathology of tumor)、Ki-67(Ki-67 protein)、梗阻(obstruction)、套疊(intussusception)、穿孔(perforation)、疼痛(pain)、水腫(edema)和出血(hemorrhage)。
1.3 DACCA 數據庫的篩選方案
根據本研究的需要,筆者團隊以腫瘤部位作為第一篩選條件,將手術日期作為第二篩選條件,并依次進行篩選:總數據庫信息篩選后(22 933 條),根據“手術日期”和“腫瘤部位”兩項主要篩選條件,在 DACCA 數據庫中至少必須其中 1 項條件不為“空”,篩選后的信息為 17 876 條,進行查重以及剔除數據信息為“待定、可疑”者,篩選后為 11 898 條。具體篩選過程詳見圖1。本次數據庫篩選完成時間為 2019 年 10 月 6 日。

1.4 數據定義解釋
在本次 DACCA 數據庫中,對于腫瘤合并癥的定義方式,盡管會在數據庫建設第五部分中詳細解讀,但是為便于讀者閱讀本文中部分圖表內容,在此說明腫瘤合并癥中的標簽以簡要示意,具體見表1。

1.5 統計學方法
本次 DACCA 數據庫分析的工具應用為 Excel(Office 365,Microsoft,Redmond,WA,USA)。經典統計學描述和線性趨勢分析均由 Excel 統計圖表工具完成。檢驗水準 α=0.05。
2 結果
截至 2019 年 10 月 6 日,數據庫疊加后,符合篩選條件的數據病案(數據行,lines)總量為 11 898 條。
2.1 DACCA 數據庫中的“癌前病變”和“癌家族”特征
DACCA 數據庫中,“癌前病變”數據列具有有效信息的數據共計 1 275 條(10.7%),無有效信息的數據共計 10 623 條(89.3%)。其中,“癌前病變”有效信息提示結直腸癌患者“有”癌前病變的數據為 541 條(占有效信息的 42.4%),“沒有”癌前病變的數據為 734 條(占有效信息的 57.6%),兩者比為 1∶1.36。
根據 DACCA 數據庫中提供的“癌前病變”標記類型,其中“多發息肉”是最主要的癌前病變類型,共計 234 條,占有癌前病變的數據總量的 43.3%。所有癌前病變類型的具體分布詳見表2。

在 DACCA 數據庫中,有“癌家族史”標記的數據共計 1 116 條,占本次分析數據總量的 9.4%;余下未作標記的數據共計 10 782 條,占數據總量的 90.6%。1 116 條中,對于有“癌家族史”標記的數據為 761 條,占本次分析數據總量的 6.4%;無“癌家族史”標記的數據為 355 條,占本次分析數據總量的 3.0%。
2.2 DACCA 數據庫中的腫瘤發生特征
在 DACCA 數據庫中,對“腫瘤發生”類型進行標記的數據量為 4 798 條,占本次數據分析總量的 40.3%。余下未作“腫瘤發生”類型標記的數據量為 7 100 條,占本次數據分析總量的 59.7%。DACCA 數據庫中對于“腫瘤發生”的定義,將在數據庫建設第五部分中詳細描述,總體概述其概念為:本次入組數據庫時,結直腸癌病灶是處于首發的狀態還是其他非首發的狀態。
根據“腫瘤發生”的類型劃分后,本研究數據的腫瘤發生類型和占比詳見表3。可見在 DACCA 數據庫中“原發性”的結直腸癌占絕大多數,“轉移性”的結直腸癌最少。

2.3 DACCA 數據庫中的腫瘤部位特征
為更準確地對數據進行分析描述,在 DACCA 數據庫中,我們將以最為主要的“原發性”和“多原發”結直腸癌進行腫瘤部位的詳細分析。
2.3.1 原發性結直腸癌的腫瘤部位特征
在 DACCA 數據庫中的“原發性”結直腸癌中,“腫瘤部位”位于直腸的數據為 3 424 條,占“原發性”結直腸癌總數據的 76.9%;位于結腸的數據為 1 030 條,占 23.1%。
再根據更為精準的腫瘤部位進行分析,結果顯示,在原發性直腸癌中,最主要的“腫瘤部位”在“直腸超低位”者最多,有 710 條,占所有原發性直腸癌數據的 20.7%。具體分類特點詳見表4。在原發性結腸癌中,最主要的“腫瘤部位”在“結腸肝曲”者最多,有 242 條,占所有原發性結腸癌數據的 23.5%。具體分類特點詳見表5。


由于原發性直腸癌不僅腫瘤的具體部位非常重要,腫瘤下緣距離齒狀線的高度( “緣距” )也是臨床中重要的指標之一。因此本次針對 DACCA 數據庫中的“腫瘤部位”進行分析時,將原發性直腸癌的“緣距”進行了分析。總體數據分析結果顯示,DACCA 數據庫中原發性直腸癌的“緣距”的中位數為 5 cm(范圍:–1~25 cm)。按照“手術日期”作為年份變化的參考,呈現 2007–2019 年連續 13 年期間,“緣距”平均值的變化趨勢。線性分析結果顯示,=0.170 3x+4.97,P=0.001 9,提示 DACCA 數據庫中原發性直腸癌的“緣距”呈現了逐年升高的趨勢,詳見圖2。

2.3.2 多原發性結直腸癌的腫瘤部位特征
在 DACCA 數據庫中,共計有 172 條標記的“多原發性”結直腸癌的數據,占本次研究分析總量的 1.4%。其中,“雙原發”的結直腸癌最多。按照多原發的腫瘤部位數量,分別還有“三原發”、“四原發和“五原發”,具體詳見表6。

根據“多原發”結直腸癌不同來源部位的分布,作進一步分析。其中,“多原發”腫瘤原發部位均在結腸的數據為 35 條,占“多原發”結直腸癌總數據量的 20.3%。按照腫瘤可能分布的部位,具體分析數據占比,結果詳見表7。“多原發”腫瘤原發部位均在直腸的數據為 72 條,占“多原發”結直腸癌總數據量的 41.9%。按照腫瘤可能分布的部位,具體分析數據占比,結果詳見表8。“多原發”腫瘤原發部位既有結腸也有直腸的數據為 65 條,占“多原發”結直腸癌總數據量的 37.8%。按照腫瘤可能分布的部位,具體分析數據占比,結果詳見表9。



2.4 DACCA 數據庫中的腫瘤形態特征
DACCA 數據庫中對于腫瘤形態特征有較為詳細的描述,不等同于通常定義中的腫瘤病理大體形態。腫瘤形態特征具體的定義方式將在數據庫建設第五部分中進行詳細解讀。在本次分析中,按照“原發性”和“多原發”進行初步劃分后,作進一步的分析。
其中為“原發性”結直腸癌的數據中,有“腫瘤形態”的數據為 4 255 條,占分析總數據量的 35.8%。按照 DACCA 數據庫的“腫瘤形態”分類方式,其中最常見的“腫瘤形態”為“潰瘍型”,共計 1 802 條,占有“腫瘤形態”數據信息的 42.4%。更為詳細的“腫瘤形態”劃分結果具體見表10。其中為“多原發”結直腸癌的數據中,可能存在“腫瘤形態”不一致的情況,本次分析選取既為“多原發”且多原發不同部位腫瘤的形態一致的數據,共計 33 條,其中最多見的“腫瘤形態”為“潰瘍型”,為 17 條,占所有符合本條件分析總數據的 51.5%,詳見表11。


2.5 DACCA 數據庫中的腫瘤大小特征
在本次 DACCA 數據庫中分析“腫瘤大小”時,將數據框中原有的兩最長徑線作整理,只提取其中最長徑作為本次分析的數據來源,經整理后,可以提供最長徑的數據為 4 456 條,占原發性數據總量(含原發和多原發)的 96.3%。針對“原發性”結直腸癌進行分析,所有數據的最長徑的中位數為 5 cm(范圍:0~15 cm)。再按照“原發性”分類下劃分為“直腸癌”的數據,其最長徑的中位數為 5 cm(范圍:0~12 cm),“結腸癌”最長徑的中位數為 6 cm(范圍:0~15 cm)。
2.6 DACCA 數據庫中的腫瘤方位特征
DACCA 數據庫中,對于“腫瘤方位”有詳細的設計與定義,具體詳見數據庫建設第五部分。本次研究分析,選擇“原發性”結直腸癌的數據作為分析對象,這是由于“原發性”結直腸癌數據只針對單一惡性腫瘤部位進行分析,可以直接判斷具體的構成比。本組“原發性”結直腸癌中,且有“腫瘤方位”標記的數據為 4 118 條,占“原發性”數據總量的 89.0%。其中,“腫瘤方位”為“一圈”(即腫瘤累及到腸腔 1 周)的數據為 1 837 條(占該部分數據總數的 44.6%),是構成比最高的一類,詳見表12。

在“原發性”結直腸癌的數據中,分別對“腫瘤部位”在直腸和結腸的數據進行進一步分析,可見這兩種主要的大體分類下,也都是“一圈”的數據量最大,其中來自“直腸”的數據為 1 139 條(35.0%),來自結腸的數據為 698 條(81.1%)。詳見表13 和表14。


2.7 DACCA 數據庫中的腫瘤分化特征
在 DACCA 數據庫的“腫瘤分化”方面,分別就“原發性”和“多原發”進行分析。
“原發性”結直腸癌總計可以分析的數據為4 177 條,占本次研究總分析量的 35.1%。其中,“中分化”的數據量最大,為 2 730 條(占所有“原發性”結直腸癌的 65.4%),“低分化”的數據為1 352 條(占 32.4%),“高分化”的數據為 94 條(占 2.2%),“未分化”的數據為 1 條(未超過 0.01%)。再按照“腫瘤部位”在直腸和結腸進行劃分后,其具體占比詳見表15 和表16。


“多原發”結直腸癌總計有可以分析的數據為 160 條,占本次研究總分析量的 1.3%。為進行數據標簽統一的分析,在本次研究中,將“多原發”中多個腫瘤部位的“腫瘤分化”統一選擇保留分化程度最低的數據。其中,“中分化”的數據構成比例最高,為 98 條,占 61.3%;此外“低分化”的數據為 58 條,占 36.2%;“高分化”的數據為4 條,占 2.5%。
2.8 DACCA 數據庫中的病理性質特征
本次針對 DACCA 數據庫的研究,分析了所有在本數據庫中的惡性腫瘤。按照“原發性”和“多原發”進行劃分后作構成比的分析。
在“原發性”結直腸癌的數據分析中,其中標記了病理性質的有效數據有 4 355 條,占總分析數據量的 36.6%。可見其中最多的是腫瘤性質為“腺癌”的數據,為 3 387 條,占所有“原發性”結直腸癌數據的 77.8%。詳見表17。再根據“腫瘤部位”劃分為直腸和結腸進行分析。“原發性”直腸癌的有效數據,為 3 350 條,占總分析數據量的 28.2%。其中最多的為“腺癌”,2 664 條,占 79.5%。詳見表18。“原發性”結腸癌的有效數據為 1 005 條,占總分析數據量的 8.5%。其中最多的為“腺癌”,723 條,占 71.9%。詳見表19。



在“多原發”結直腸癌數據分析中,標記了有效數據的為 161 條,占總數據分析量的 1.3%。由于“多原發”結直腸癌不同腫瘤部位的“腫瘤性質”可能不同,在本次研究中進行總體的構成比分析。其中,“多原發”結直腸癌多個部位腫瘤的性質均為“腺癌”的數據為 103 條,占所有“多原發”結直腸癌總數據的 64.0%。其他的構成具體情況詳見表20。

2.9 DACCA 數據庫中標記的 Ki-67 指數
DACCA 數據庫中存在單列的 Ki-67 指數數據,作為細胞增殖的相關抗原,在結直腸癌數據庫中以腫瘤相關特征作為記錄。在本次研究中,標記了有效的 Ki-67 指數的數據共計 1 893 條,占全部分析數據的 15.9%。總體上看,Ki-67 指數為 0~95%、(59.0±20.1)%。
按照“原發性”結直腸癌進行劃分,所有“原發性”結直腸癌標記了有效 Ki-67 指數的數據共計 1 736 條,占全部原發性數據的 39.0%。總體上看,Ki-67 指數為 0~95%、(59.0±20.0)%。其中,“原發性”直腸癌的 Ki-67 指數為 0~95%、(59.0±20.4)%;“原發性”結腸癌的 Ki-67 指數為 1%~90%、(59.0±18.9)%。
按照“多原發”結直腸癌進行分析,所有“多原發”結直腸癌標記了有效 Ki-67 指數的數據共計 52 條,占全部多原發數據的 30.3%。其 Ki-67 指數為 1%~90%、(59.0±23.0)%。
2.10 DACCA 數據庫中的腫瘤合并癥特征
2.10.1 梗阻
在 DACCA 數據庫中,對于腫瘤合并癥進行分級設置,其對應級別在數據庫研究第五部分有詳細說明,為便于讀者閱讀,本研究中對于分級定義的簡要說明,在前述方法段中有所闡述。
所有本次研究分析的數據中,有效標記“梗阻”合并癥的數據為 3 853 條(除了“多原發”和“原發”,還包括“轉移性”、“復發性”和“再發性”,下文其他腫瘤合并癥同此情況),占總數據量的 32.4%。其中分級為 0(無梗阻)的數據為1 456 條,占所有“梗阻”標記數據總數的 37.8%。詳見圖3a。按照“腫瘤部位”劃分,結腸癌伴梗阻的數據為 912 條,占所有“梗阻”標記數據總數的 23.7%;直腸癌伴梗阻的數據為 2 941 條,占所有“梗阻”標記數據總數的 76.3%,詳見圖3b 和圖3c。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴梗阻的數據為 3 740 條,占所有“梗阻”標記數據總數的 97.1%;“多原發”結直腸癌伴梗阻的數據為 137 條,占所有“梗阻”標記數據總數的 3.6%。具體見圖3d 和圖3e。

a:結直腸癌伴梗阻的分級;b:結腸癌伴梗阻的分級;c:直腸癌伴梗阻的分級;d:原發性結直腸癌伴梗阻的分級;e:多原發性結直腸癌伴梗阻的分級;f:結直腸癌伴套疊的分級;g:直腸癌伴套疊的分級;h:結腸癌伴套疊的分級;i:原發性結直腸癌伴套疊的分級;j:多原發性結直腸癌伴套疊的分級;k:結直腸癌伴穿孔的分級;l:直腸癌伴穿孔的分級;m:結腸癌伴穿孔的分級;n:原發性結直腸癌伴穿孔的分級;o:多原發性結直腸癌伴穿孔的分級;p:結直腸癌伴疼痛的分級;q:結腸癌伴疼痛的分級;r:直腸癌伴疼痛的分級;s:原發性結直腸癌伴疼痛的分級;t:多原發性結直腸癌伴疼痛的分級
2.10.2 套疊
所有本次研究分析的數據中,有效標記“套疊”合并癥的數據為 3 355 條,占總數據量的 28.2%。其中分級為 0(無套疊)的數據為 3 224 條,占所有“套疊”標記數據總數的 96.1%。其他具體分級詳見圖3f。按照“腫瘤部位”劃分,結腸癌伴套疊的數據為 748 條,占所有“套疊”標記數據總數的 22.3%;直腸癌伴套疊的數據為 2 607 條,占所有“套疊”標記數據總數的 77.7%。詳見圖3g 和圖3h。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴套疊的數據為3 270 條,占所有“套疊”標記數據總數的 97.5%;“多原發”結直腸癌伴套疊的數據為 118 條,占所有“套疊”標記數據總數的 3.5%。見圖3i 和圖3j。
2.10.3 穿孔
所有本次研究分析的數據中,有效標記“穿孔”合并癥的數據為 3 361 條,占總數據量的 28.3%。其中分級為 0(無穿孔)的數據為 3 079 條,占所有“穿孔”標記數據總數的 91.6%。其他具體分級詳見圖3k。按照“腫瘤部位”劃分,結腸癌伴穿孔的數據為 745 條,占所有“穿孔”標記數據總數的 22.2%;直腸癌伴穿孔的數據為 2 616 條,占所有“穿孔”標記數據總數的 77.8%。詳見圖3l 和圖3m。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴穿孔的數據為 3 276條,占所有“穿孔”標記數據總數的 97.2%;“多原發”結直腸癌伴套疊的數據為 118 條,占所有“穿孔”標記數據總數的 3.5%。見圖3n 和圖3o。
2.10.4 疼痛
所有本次研究分析的數據中,有效標記“疼痛”合并癥的數據為 3 365 條,占總數據量的 28.3%。其中分級為 0(無疼痛)的數據為 2 726 條,占所有“疼痛”標記數據總數的 81.0%。其他具體分級詳見圖3p。按照“腫瘤部位”劃分,結腸癌伴疼痛的數據為 741 條,占所有“疼痛”標記數據總數的 22.0%;直腸癌伴疼痛的數據為 2 624 條,占所有“疼痛”標記數據總數的 78.0%。詳見圖3q 和圖3r。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴疼痛的數據為3 277 條,占所有“疼痛”標記數據總數的 97.4%;“多原發”結直腸癌伴疼痛的數據為 118 條,占所有“疼痛”標記數據總數的 3.5%。見圖3s 和圖3t。
2.10.5 水腫
所有本次研究分析的數據中,有效標記“水腫”合并癥的數據為 3 445 條,占總數據量的 29.0%。其中分級為 0(無水腫)的數據為 1 099 條,占所有“水腫”標記數據總數的 31.9%。其他具體分級詳見圖4a。按照“腫瘤部位”劃分,結腸癌伴水腫的數據為 769 條,占所有“水腫”標記數據總數的 22.3%;直腸癌伴水腫的數據為 2 676 條,占所有“水腫”標記數據總數的 77.7%。詳見圖4b 和圖4c。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴水腫的數據為 3 357條,占所有“水腫”標記數據總數的 97.4%;“多原發”結直腸癌伴水腫的數據為 126 條,占所有“水腫”標記數據總數的 3.7%。詳見圖4d 和圖4e。

a:結直腸癌伴水腫的分級;b:直腸癌伴水腫的分級;c:結腸癌伴水腫的分級;d:原發性結直腸癌伴水腫的分級;e:多原發性結直腸癌伴水腫的分級;f:結直腸癌伴出血的分級;g:直腸癌伴出血的分級;h:結腸癌伴出血的分級;i:原發性結直腸癌伴出血的分級;j:多原發性結直腸癌伴出血的分級
2.10.6 出血
所有本次研究分析的數據中,有效標記“出血”合并癥的數據為 3 357 條,占總數據量的 28.2%。其中分級為 0(無出血)的數據為 2 681 條,占所有“出血”標記數據總數的 79.9%。其他具體分級詳見圖4f。按照“腫瘤部位”劃分,結腸癌伴出血的數據為 743 條,占所有“出血”標記數據總數的 22.1%;直腸癌伴出血的數據為 2 614 條,占所有“出血”標記數據總數的 77.9%。詳見圖4g 和圖4h。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴出血的數據為3 272 條,占所有“出血”標記數據總數的 97.5%;“多原發”結直腸癌伴出血的數據為 121 條,占所有“出血”標記數據總數的 3.6%。具體見圖4i 和圖4j。
3 討論
3.1 從數據庫解析癌前病變與家族史
本研究中,我們將“癌前病變”和“家族史”劃歸為腫瘤特征的一部分進行分析。這樣的分類方式并不一定完全的合理,更多是為了對 DACCA 數據庫進行逐一解讀。“癌前病變”和“家族史”更應該放在數據庫的深度解析中,歸屬于結直腸癌患者的病情演變特征。
前述研究(數據庫研究第四部分)[5]中的“首診臨床癥狀”以及“誤診、誤治”行為,都是對結直腸癌患者就診前的一系列重要臨床行為的解讀。圍繞 DACCA 數據庫最核心的“行為-結果”模式,在就診前發生的所有行為,最終對于患者演變為結直腸癌,以及患者結直腸癌初診時的腫瘤嚴重程度的基線狀態[14],都是重要的影響因素。盡管大量的臨床研究報道和宣傳都普遍認同“我國結直腸癌患者就診時,分期相對更晚”[15],但是為什么演變為如此情況?這就和患者就診前的臨床行為形成關聯。由于目前的人工智能模型技術,在追溯這些因果關聯的分析上具有了明顯的優勢[16],因此,我們對于 DACCA 數據庫的構建,正好可以與人工智能模型技術相結合,達到體現臨床數據庫和利用數據挖掘線索的重要目的。
就本次研究中所分析出的“癌前病變”分布,我們可以明顯地發現,多發的結直腸息肉是最為多見的形式之一(43.2%)。這也和國內外針對結直腸癌早期預防與治療的推薦一致,對于結腸息肉應高度予以重視[17-18]。對這一數據的關注,已經在臨床上逐步得到體現。對于目前門診就診的結腸鏡檢查后的患者,一旦遇到結腸息肉,越來越多的醫生會給予患者積極選擇內鏡下切除息肉[17-18]的醫囑,這也是對預防結直腸癌愈發重視的表現。從結直腸癌早期預防的角度上看,美國結直腸外科醫師協會(ASCRS)的推薦中也提到,針對“腺瘤性息肉”和“家族性腺瘤息肉病”應盡早進行干預,以避免惡變[19]。反推 DACCA 數據庫體現出的我們對于“癌前病變”的認知,筆者認為,首先在結直腸癌患者的病史采集中,應該重視對于可疑癌前病變進行全面采集,如本次 DACCA 數據庫結果所示,我們獲取的可能導致癌變的危險信息都成為了入組數據庫的來源。并針對患者存在的可疑癌前病變,及時給予手術處理以及必要的隨訪關注。這樣的過程,可能可以進一步降低結直腸癌的發生率。
基于同樣的考慮,我們在結直腸癌患者家族史的數據采集上,也尤為注意。家族史是一個非常寬泛的內容,在 DACCA 數據庫中我們的記錄形式也遠非本研究中的“是”與“否”這么簡單,而是對家族史的親屬關系以及發生惡性腫瘤的類型都有相應的記錄。家族史的研究不僅是臨床的研究范疇之一,也是遺傳學的研究范圍[20]。完整研究家族史與結直腸癌發生發展的臨床關系,以及結果判斷,需要一個長周期、全家族性的研究分析。這一點也就導致臨床研究相對困難。而且家族遺傳傾向和遺傳性家族疾病在本質上也有區別[21]。比如我們在討論 FAP[22]時,可能已經直接在遺傳性疾病范疇內進行分析。而近年來,越來越多的研究開始關心家族遺傳傾向這個概念,這是為了在探究既往已經確定定論的家族遺傳疾病外,尋找其他可能的遺傳風險,這為家族中可能存在的結直腸癌高風險患者提供了重要的早期篩查依據。本研究從 DACCA 數據庫的數據只能初步判斷,可能需要關注的結直腸癌癌癥家族史患者條數大約占 6.4%,從數據庫整體含量來看,這也是數量不少的群體了。未來在以數據庫為基礎的研究中,可能會從這個群體出發,逐步延伸到其家族群體中。
3.2 DACCA 數據庫中的腫瘤定位
結直腸癌的腫瘤部位,幾乎是所有臨床研究的基礎信息之一,所以 DACCA 數據庫中的信息也保存得相對比較齊全。腫瘤的定位概念,實際上包含了:大體腫瘤處于結直腸的部位、腫瘤在管腔內處于的方位以及是否為多腫瘤狀態。這些數據信息在 DACCA 數據庫中都有展示。
在數據庫的總論部分[4]的闡述中,我們已經對于 DACCA 數據的結直腸癌部位進行了展示,本次在分板塊解讀 DACCA 數據庫時,我們分析得更為精細,對于腫瘤部位的具體劃分闡述的信息也更多。通過以中國西南地區區域醫療中心為基礎的腫瘤部位數據,可以看出,直腸癌仍舊為最主要的數據構成來源,占所有原發性結直腸癌數據的 76.9%。這一特征是一個區域特征,主要代表的是本數據庫來源的醫療中心,主要的服務病種為直腸癌,而不代表西南地區的結直腸癌的流行病學特征。這與國外對于結直腸癌的國家數據[23](結腸癌∶直腸癌發病比大約為 5.6∶3.4)不完全一致,不能同理比較。
但是這一數據反映了該地區主要的結直腸癌診療負擔可能還是在直腸癌上,也是我們需要對該區域直腸癌診治予以高度重視的重要原因。而通過進一步細化分析,我們可以發現,在這個巨大的直腸癌數據集中,需要診治的患者絕大多數都是傳統定義中的腹膜反折以下區域的直腸癌。本次數據分析中,直腸腹膜反折部癌+直腸超低位癌+直腸肛管癌,已經達到總體直腸癌患者數據源的 56.9%。這充分地展示了該區域患者對于標準直腸癌全直腸系膜切除術(total mesorectal excision,TME)以及極限保肛手術可能存在有需求。而且在腹膜腔外的直腸解剖區域內,直腸癌更容易出現區域受累的高風險因素,此外在絕大多數臨床腫瘤風險的判斷中,都把超低位及其以下部位的直腸癌作為有高復發風險的群體來進行關注[24]。這些數據信息向我們傳遞了很重要的信息,在中國西南地區具有代表性的數據隊列下,直腸癌尤其是低位以下區域的直腸癌,是最應當重視的病種之一。這就自然會與患者的術前評估、手術方案評估、隨訪方案評估等建立密切聯系,再次回歸到“結果關聯”這一重要需求上。此次 DACCA 數據庫的板塊分析結果提示我們,對于低位以下直腸癌臨床數據的相關研究,可能是重要的研究方向之一。
除去“原發性”的結直腸癌,DACCA 數據庫中還對于結直腸癌的來源形式進行了劃分,其劃分的起始點是以患者第 1 次納入 DACCA 數據庫時為標準。因此,除去“原發性”和“多原發”的情況外,數據庫中還有“再發性”、“復發性”等多種形式。本次分析只是重點關注了以“原發”為基礎的結直腸癌的數據特點。對于多原發癌來說[25],一直以來都是該領域研究中相對冷門的部分,從 DACCA 數據庫的結果也能說明,這一部分數據只占 3.6%。但本次研究的分析結果提示,我們仍舊不能掉以輕心,數據庫展示的結果顯示,結直腸癌的多原發形式甚至可能出現同時存在“5 個結直腸原發癌”(在多原發癌總數構成中,也只占 0.6%)。這表示我們在面對這樣的結直腸癌時,極有可能出現漏診,所以完善的術前評估以及非常必要的手術探查程序,其價值也需得以體現。
3.3 結直腸癌的常見腫瘤類型和罕見類型
如開篇我們所述,DACCA 數據庫中的“結直腸癌”實際上是對于結直腸惡性腫瘤的數據管理。本次對于結直腸惡性腫瘤的數據展示中,我們可能理所當然地認為,“腺癌”(77.8%)和“黏液腺癌”(17.8%)確實可能是最常見的兩種病理類型。然而,除去“印戒細胞癌”和“鱗狀細胞癌”外,其他的罕見結直腸惡性腫瘤也存在有一定量的數據隊列。如果數據庫充分關聯了對應罕見結直腸惡性腫瘤的結果,那么罕見結直腸惡性腫瘤的臨床研究也具有相當的價值。
從 DACCA 數據庫的結直腸癌分類結果上判斷,筆者認為,我們需要關注的不僅是原發且單發的結直腸惡性腫瘤。本次分析中我們也可以發現,多原發結直腸惡性腫瘤的不同部位可能會呈現不同的病理學類型,這也會為術后的治療和隨訪帶來一定的挑戰,需要引起我們足夠的重視。
除了腫瘤病理學類型外,還有結直腸癌的大體類型需要引起關注。多數讀者會意外于本次 DACCA 數據庫中展示了大量的腫瘤大體類型的分類結果以及對應的臨床數據。除了“潰瘍型”(77.8%)這種常見的病理大體類型外[26],我們在 DACCA 數據庫中引入了更為復雜的病理大體類型的分類方式,更為細致,這會在數據庫建設第五部分內進行詳細展示。比如從數據含量上看,“黏膜下浸潤型”(占 2.7%)這類結直腸癌不少見,這也是近年來逐漸引起重視的結直腸癌類型。多數患者無法通過腸鏡下活檢獲取準確的病理學診斷結果,更多是在術后予以重視。這樣的結直腸癌我們應該如何早期作出合理的治療方案設計,就有相當大的挑戰。以新的病理大體類型推演出對應的臨床研究,是一個非常值得發展的研究方向。
3.4 結直腸癌的腫瘤合并癥
結直腸癌的腫瘤合并癥是 DACCA 數據庫的特色之一,這一信息的獲取本身就需要通過術前、術中乃至術后綜合判斷。而腫瘤合并癥通常可能直接導致手術方案決策的變化,如原計劃方案可能為超低位前切除術的直腸低位癌,在伴有完全梗阻時,則手術方式極可能調整為 Hartmann 手術[27]。本研究在 DACCA 數據中,選擇了包括:梗阻、套疊、出血、水腫等多項并發癥的數據項。從本次研究分析可以初步判斷,結直腸癌中可能有 62.2% 的患者存在不同程度的梗阻,有 3.9% 的患者有不同程度的套疊,有 8.4% 的患者有不同程度的穿孔,有 19.0% 的患者可能存在癌性相關疼痛,68.1% 的患者存在不同程度的病變部位水腫,有 20.1% 的患者存在癌性相關的出血合并癥。
這些對于結直腸癌合并癥的分級化展示,可以有效地幫助我們對結直腸癌的高風險進行評估,同時建立有效的腫瘤風險評估機制,以及對于部分結直腸癌患者的術前分期的風險權重調整提供依據。
在腫瘤合并癥的基礎上建立更加敏感的風險模型[28],會提高我們利用數據進行手術相關并發癥和手術相關預后預警的能力。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東負責本文的主要撰寫工作及修改;陳夢然和曾渝共同負責數據整理及部分撰寫工作;劉健博負責本文的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
倫理批準聲明:本研究已通過四川大學華西醫院倫理學委員會審核并同意(批準文號:2019-140 號)。
華西腸癌數據庫(Database from Colorectal Cancer,DACCA)是華西醫院結直腸外科以真實世界研究(RWS)為思路和理念而建設的數據庫[1-10]。如前述,筆者團隊將推出系列數據庫報道,包括:數據庫研究、數據庫建設、數據庫解讀、數據庫決策等。本文為數據庫研究第一章的第五部分。
盡管 DACCA 數據庫的命名選擇“癌”作為表達形式,但是實際上是涵蓋了所有可能成為數據源的結直腸惡性腫瘤(malignant tumor)[11],這就不再是傳統意義上所表達的癌(cancer),從而便于我們可以更好地保存并建立常見惡性腫瘤、甚至是罕見惡性腫瘤的數據隊列。
腫瘤特征或者叫腫瘤學特征,是對于結直腸癌數據庫作出多種關聯判斷的重要基準數據之一。這些特征不僅關聯到術前的治療方案和決策[12-13],也會對于手術方案的決策造成影響,更重要的是在最終的預后(“結果-關聯”)上有重要的意義。對于不同的癌癥數據庫來說,如何設計并采集對應的腫瘤特征,存在有一定的共性,也會有差異。本次數據庫研究的報道,則是展示在 DACCA 數據庫的設計框架下,結直腸癌數據集具有怎樣的腫瘤特征。
1 資料和方法
1.1 數據庫版本
本次數據分析選取的 DACCA 版本為 2019 年9 月 26 日更新版。
1.2 收集的 DACCA 數據庫應用參數
本次研究選取的數據項目的基礎定義,將在“數據庫建設”系列報道五中詳細說明。本次選擇的部分數據項目包括:手術日期(date of surgery)、癌前病變(precancerous lesion)、癌家族(cancer family)、腫瘤部位(location of tumor)、緣距(distance to the dentate line)、腫瘤形態(morphology of tumor)、大小(size)、方位(position)、發生(happening and origination)、分化(differentiation)、腫瘤病理(pathology of tumor)、Ki-67(Ki-67 protein)、梗阻(obstruction)、套疊(intussusception)、穿孔(perforation)、疼痛(pain)、水腫(edema)和出血(hemorrhage)。
1.3 DACCA 數據庫的篩選方案
根據本研究的需要,筆者團隊以腫瘤部位作為第一篩選條件,將手術日期作為第二篩選條件,并依次進行篩選:總數據庫信息篩選后(22 933 條),根據“手術日期”和“腫瘤部位”兩項主要篩選條件,在 DACCA 數據庫中至少必須其中 1 項條件不為“空”,篩選后的信息為 17 876 條,進行查重以及剔除數據信息為“待定、可疑”者,篩選后為 11 898 條。具體篩選過程詳見圖1。本次數據庫篩選完成時間為 2019 年 10 月 6 日。

1.4 數據定義解釋
在本次 DACCA 數據庫中,對于腫瘤合并癥的定義方式,盡管會在數據庫建設第五部分中詳細解讀,但是為便于讀者閱讀本文中部分圖表內容,在此說明腫瘤合并癥中的標簽以簡要示意,具體見表1。

1.5 統計學方法
本次 DACCA 數據庫分析的工具應用為 Excel(Office 365,Microsoft,Redmond,WA,USA)。經典統計學描述和線性趨勢分析均由 Excel 統計圖表工具完成。檢驗水準 α=0.05。
2 結果
截至 2019 年 10 月 6 日,數據庫疊加后,符合篩選條件的數據病案(數據行,lines)總量為 11 898 條。
2.1 DACCA 數據庫中的“癌前病變”和“癌家族”特征
DACCA 數據庫中,“癌前病變”數據列具有有效信息的數據共計 1 275 條(10.7%),無有效信息的數據共計 10 623 條(89.3%)。其中,“癌前病變”有效信息提示結直腸癌患者“有”癌前病變的數據為 541 條(占有效信息的 42.4%),“沒有”癌前病變的數據為 734 條(占有效信息的 57.6%),兩者比為 1∶1.36。
根據 DACCA 數據庫中提供的“癌前病變”標記類型,其中“多發息肉”是最主要的癌前病變類型,共計 234 條,占有癌前病變的數據總量的 43.3%。所有癌前病變類型的具體分布詳見表2。

在 DACCA 數據庫中,有“癌家族史”標記的數據共計 1 116 條,占本次分析數據總量的 9.4%;余下未作標記的數據共計 10 782 條,占數據總量的 90.6%。1 116 條中,對于有“癌家族史”標記的數據為 761 條,占本次分析數據總量的 6.4%;無“癌家族史”標記的數據為 355 條,占本次分析數據總量的 3.0%。
2.2 DACCA 數據庫中的腫瘤發生特征
在 DACCA 數據庫中,對“腫瘤發生”類型進行標記的數據量為 4 798 條,占本次數據分析總量的 40.3%。余下未作“腫瘤發生”類型標記的數據量為 7 100 條,占本次數據分析總量的 59.7%。DACCA 數據庫中對于“腫瘤發生”的定義,將在數據庫建設第五部分中詳細描述,總體概述其概念為:本次入組數據庫時,結直腸癌病灶是處于首發的狀態還是其他非首發的狀態。
根據“腫瘤發生”的類型劃分后,本研究數據的腫瘤發生類型和占比詳見表3。可見在 DACCA 數據庫中“原發性”的結直腸癌占絕大多數,“轉移性”的結直腸癌最少。

2.3 DACCA 數據庫中的腫瘤部位特征
為更準確地對數據進行分析描述,在 DACCA 數據庫中,我們將以最為主要的“原發性”和“多原發”結直腸癌進行腫瘤部位的詳細分析。
2.3.1 原發性結直腸癌的腫瘤部位特征
在 DACCA 數據庫中的“原發性”結直腸癌中,“腫瘤部位”位于直腸的數據為 3 424 條,占“原發性”結直腸癌總數據的 76.9%;位于結腸的數據為 1 030 條,占 23.1%。
再根據更為精準的腫瘤部位進行分析,結果顯示,在原發性直腸癌中,最主要的“腫瘤部位”在“直腸超低位”者最多,有 710 條,占所有原發性直腸癌數據的 20.7%。具體分類特點詳見表4。在原發性結腸癌中,最主要的“腫瘤部位”在“結腸肝曲”者最多,有 242 條,占所有原發性結腸癌數據的 23.5%。具體分類特點詳見表5。


由于原發性直腸癌不僅腫瘤的具體部位非常重要,腫瘤下緣距離齒狀線的高度( “緣距” )也是臨床中重要的指標之一。因此本次針對 DACCA 數據庫中的“腫瘤部位”進行分析時,將原發性直腸癌的“緣距”進行了分析。總體數據分析結果顯示,DACCA 數據庫中原發性直腸癌的“緣距”的中位數為 5 cm(范圍:–1~25 cm)。按照“手術日期”作為年份變化的參考,呈現 2007–2019 年連續 13 年期間,“緣距”平均值的變化趨勢。線性分析結果顯示,=0.170 3x+4.97,P=0.001 9,提示 DACCA 數據庫中原發性直腸癌的“緣距”呈現了逐年升高的趨勢,詳見圖2。

2.3.2 多原發性結直腸癌的腫瘤部位特征
在 DACCA 數據庫中,共計有 172 條標記的“多原發性”結直腸癌的數據,占本次研究分析總量的 1.4%。其中,“雙原發”的結直腸癌最多。按照多原發的腫瘤部位數量,分別還有“三原發”、“四原發和“五原發”,具體詳見表6。

根據“多原發”結直腸癌不同來源部位的分布,作進一步分析。其中,“多原發”腫瘤原發部位均在結腸的數據為 35 條,占“多原發”結直腸癌總數據量的 20.3%。按照腫瘤可能分布的部位,具體分析數據占比,結果詳見表7。“多原發”腫瘤原發部位均在直腸的數據為 72 條,占“多原發”結直腸癌總數據量的 41.9%。按照腫瘤可能分布的部位,具體分析數據占比,結果詳見表8。“多原發”腫瘤原發部位既有結腸也有直腸的數據為 65 條,占“多原發”結直腸癌總數據量的 37.8%。按照腫瘤可能分布的部位,具體分析數據占比,結果詳見表9。



2.4 DACCA 數據庫中的腫瘤形態特征
DACCA 數據庫中對于腫瘤形態特征有較為詳細的描述,不等同于通常定義中的腫瘤病理大體形態。腫瘤形態特征具體的定義方式將在數據庫建設第五部分中進行詳細解讀。在本次分析中,按照“原發性”和“多原發”進行初步劃分后,作進一步的分析。
其中為“原發性”結直腸癌的數據中,有“腫瘤形態”的數據為 4 255 條,占分析總數據量的 35.8%。按照 DACCA 數據庫的“腫瘤形態”分類方式,其中最常見的“腫瘤形態”為“潰瘍型”,共計 1 802 條,占有“腫瘤形態”數據信息的 42.4%。更為詳細的“腫瘤形態”劃分結果具體見表10。其中為“多原發”結直腸癌的數據中,可能存在“腫瘤形態”不一致的情況,本次分析選取既為“多原發”且多原發不同部位腫瘤的形態一致的數據,共計 33 條,其中最多見的“腫瘤形態”為“潰瘍型”,為 17 條,占所有符合本條件分析總數據的 51.5%,詳見表11。


2.5 DACCA 數據庫中的腫瘤大小特征
在本次 DACCA 數據庫中分析“腫瘤大小”時,將數據框中原有的兩最長徑線作整理,只提取其中最長徑作為本次分析的數據來源,經整理后,可以提供最長徑的數據為 4 456 條,占原發性數據總量(含原發和多原發)的 96.3%。針對“原發性”結直腸癌進行分析,所有數據的最長徑的中位數為 5 cm(范圍:0~15 cm)。再按照“原發性”分類下劃分為“直腸癌”的數據,其最長徑的中位數為 5 cm(范圍:0~12 cm),“結腸癌”最長徑的中位數為 6 cm(范圍:0~15 cm)。
2.6 DACCA 數據庫中的腫瘤方位特征
DACCA 數據庫中,對于“腫瘤方位”有詳細的設計與定義,具體詳見數據庫建設第五部分。本次研究分析,選擇“原發性”結直腸癌的數據作為分析對象,這是由于“原發性”結直腸癌數據只針對單一惡性腫瘤部位進行分析,可以直接判斷具體的構成比。本組“原發性”結直腸癌中,且有“腫瘤方位”標記的數據為 4 118 條,占“原發性”數據總量的 89.0%。其中,“腫瘤方位”為“一圈”(即腫瘤累及到腸腔 1 周)的數據為 1 837 條(占該部分數據總數的 44.6%),是構成比最高的一類,詳見表12。

在“原發性”結直腸癌的數據中,分別對“腫瘤部位”在直腸和結腸的數據進行進一步分析,可見這兩種主要的大體分類下,也都是“一圈”的數據量最大,其中來自“直腸”的數據為 1 139 條(35.0%),來自結腸的數據為 698 條(81.1%)。詳見表13 和表14。


2.7 DACCA 數據庫中的腫瘤分化特征
在 DACCA 數據庫的“腫瘤分化”方面,分別就“原發性”和“多原發”進行分析。
“原發性”結直腸癌總計可以分析的數據為4 177 條,占本次研究總分析量的 35.1%。其中,“中分化”的數據量最大,為 2 730 條(占所有“原發性”結直腸癌的 65.4%),“低分化”的數據為1 352 條(占 32.4%),“高分化”的數據為 94 條(占 2.2%),“未分化”的數據為 1 條(未超過 0.01%)。再按照“腫瘤部位”在直腸和結腸進行劃分后,其具體占比詳見表15 和表16。


“多原發”結直腸癌總計有可以分析的數據為 160 條,占本次研究總分析量的 1.3%。為進行數據標簽統一的分析,在本次研究中,將“多原發”中多個腫瘤部位的“腫瘤分化”統一選擇保留分化程度最低的數據。其中,“中分化”的數據構成比例最高,為 98 條,占 61.3%;此外“低分化”的數據為 58 條,占 36.2%;“高分化”的數據為4 條,占 2.5%。
2.8 DACCA 數據庫中的病理性質特征
本次針對 DACCA 數據庫的研究,分析了所有在本數據庫中的惡性腫瘤。按照“原發性”和“多原發”進行劃分后作構成比的分析。
在“原發性”結直腸癌的數據分析中,其中標記了病理性質的有效數據有 4 355 條,占總分析數據量的 36.6%。可見其中最多的是腫瘤性質為“腺癌”的數據,為 3 387 條,占所有“原發性”結直腸癌數據的 77.8%。詳見表17。再根據“腫瘤部位”劃分為直腸和結腸進行分析。“原發性”直腸癌的有效數據,為 3 350 條,占總分析數據量的 28.2%。其中最多的為“腺癌”,2 664 條,占 79.5%。詳見表18。“原發性”結腸癌的有效數據為 1 005 條,占總分析數據量的 8.5%。其中最多的為“腺癌”,723 條,占 71.9%。詳見表19。



在“多原發”結直腸癌數據分析中,標記了有效數據的為 161 條,占總數據分析量的 1.3%。由于“多原發”結直腸癌不同腫瘤部位的“腫瘤性質”可能不同,在本次研究中進行總體的構成比分析。其中,“多原發”結直腸癌多個部位腫瘤的性質均為“腺癌”的數據為 103 條,占所有“多原發”結直腸癌總數據的 64.0%。其他的構成具體情況詳見表20。

2.9 DACCA 數據庫中標記的 Ki-67 指數
DACCA 數據庫中存在單列的 Ki-67 指數數據,作為細胞增殖的相關抗原,在結直腸癌數據庫中以腫瘤相關特征作為記錄。在本次研究中,標記了有效的 Ki-67 指數的數據共計 1 893 條,占全部分析數據的 15.9%。總體上看,Ki-67 指數為 0~95%、(59.0±20.1)%。
按照“原發性”結直腸癌進行劃分,所有“原發性”結直腸癌標記了有效 Ki-67 指數的數據共計 1 736 條,占全部原發性數據的 39.0%。總體上看,Ki-67 指數為 0~95%、(59.0±20.0)%。其中,“原發性”直腸癌的 Ki-67 指數為 0~95%、(59.0±20.4)%;“原發性”結腸癌的 Ki-67 指數為 1%~90%、(59.0±18.9)%。
按照“多原發”結直腸癌進行分析,所有“多原發”結直腸癌標記了有效 Ki-67 指數的數據共計 52 條,占全部多原發數據的 30.3%。其 Ki-67 指數為 1%~90%、(59.0±23.0)%。
2.10 DACCA 數據庫中的腫瘤合并癥特征
2.10.1 梗阻
在 DACCA 數據庫中,對于腫瘤合并癥進行分級設置,其對應級別在數據庫研究第五部分有詳細說明,為便于讀者閱讀,本研究中對于分級定義的簡要說明,在前述方法段中有所闡述。
所有本次研究分析的數據中,有效標記“梗阻”合并癥的數據為 3 853 條(除了“多原發”和“原發”,還包括“轉移性”、“復發性”和“再發性”,下文其他腫瘤合并癥同此情況),占總數據量的 32.4%。其中分級為 0(無梗阻)的數據為1 456 條,占所有“梗阻”標記數據總數的 37.8%。詳見圖3a。按照“腫瘤部位”劃分,結腸癌伴梗阻的數據為 912 條,占所有“梗阻”標記數據總數的 23.7%;直腸癌伴梗阻的數據為 2 941 條,占所有“梗阻”標記數據總數的 76.3%,詳見圖3b 和圖3c。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴梗阻的數據為 3 740 條,占所有“梗阻”標記數據總數的 97.1%;“多原發”結直腸癌伴梗阻的數據為 137 條,占所有“梗阻”標記數據總數的 3.6%。具體見圖3d 和圖3e。

a:結直腸癌伴梗阻的分級;b:結腸癌伴梗阻的分級;c:直腸癌伴梗阻的分級;d:原發性結直腸癌伴梗阻的分級;e:多原發性結直腸癌伴梗阻的分級;f:結直腸癌伴套疊的分級;g:直腸癌伴套疊的分級;h:結腸癌伴套疊的分級;i:原發性結直腸癌伴套疊的分級;j:多原發性結直腸癌伴套疊的分級;k:結直腸癌伴穿孔的分級;l:直腸癌伴穿孔的分級;m:結腸癌伴穿孔的分級;n:原發性結直腸癌伴穿孔的分級;o:多原發性結直腸癌伴穿孔的分級;p:結直腸癌伴疼痛的分級;q:結腸癌伴疼痛的分級;r:直腸癌伴疼痛的分級;s:原發性結直腸癌伴疼痛的分級;t:多原發性結直腸癌伴疼痛的分級
2.10.2 套疊
所有本次研究分析的數據中,有效標記“套疊”合并癥的數據為 3 355 條,占總數據量的 28.2%。其中分級為 0(無套疊)的數據為 3 224 條,占所有“套疊”標記數據總數的 96.1%。其他具體分級詳見圖3f。按照“腫瘤部位”劃分,結腸癌伴套疊的數據為 748 條,占所有“套疊”標記數據總數的 22.3%;直腸癌伴套疊的數據為 2 607 條,占所有“套疊”標記數據總數的 77.7%。詳見圖3g 和圖3h。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴套疊的數據為3 270 條,占所有“套疊”標記數據總數的 97.5%;“多原發”結直腸癌伴套疊的數據為 118 條,占所有“套疊”標記數據總數的 3.5%。見圖3i 和圖3j。
2.10.3 穿孔
所有本次研究分析的數據中,有效標記“穿孔”合并癥的數據為 3 361 條,占總數據量的 28.3%。其中分級為 0(無穿孔)的數據為 3 079 條,占所有“穿孔”標記數據總數的 91.6%。其他具體分級詳見圖3k。按照“腫瘤部位”劃分,結腸癌伴穿孔的數據為 745 條,占所有“穿孔”標記數據總數的 22.2%;直腸癌伴穿孔的數據為 2 616 條,占所有“穿孔”標記數據總數的 77.8%。詳見圖3l 和圖3m。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴穿孔的數據為 3 276條,占所有“穿孔”標記數據總數的 97.2%;“多原發”結直腸癌伴套疊的數據為 118 條,占所有“穿孔”標記數據總數的 3.5%。見圖3n 和圖3o。
2.10.4 疼痛
所有本次研究分析的數據中,有效標記“疼痛”合并癥的數據為 3 365 條,占總數據量的 28.3%。其中分級為 0(無疼痛)的數據為 2 726 條,占所有“疼痛”標記數據總數的 81.0%。其他具體分級詳見圖3p。按照“腫瘤部位”劃分,結腸癌伴疼痛的數據為 741 條,占所有“疼痛”標記數據總數的 22.0%;直腸癌伴疼痛的數據為 2 624 條,占所有“疼痛”標記數據總數的 78.0%。詳見圖3q 和圖3r。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴疼痛的數據為3 277 條,占所有“疼痛”標記數據總數的 97.4%;“多原發”結直腸癌伴疼痛的數據為 118 條,占所有“疼痛”標記數據總數的 3.5%。見圖3s 和圖3t。
2.10.5 水腫
所有本次研究分析的數據中,有效標記“水腫”合并癥的數據為 3 445 條,占總數據量的 29.0%。其中分級為 0(無水腫)的數據為 1 099 條,占所有“水腫”標記數據總數的 31.9%。其他具體分級詳見圖4a。按照“腫瘤部位”劃分,結腸癌伴水腫的數據為 769 條,占所有“水腫”標記數據總數的 22.3%;直腸癌伴水腫的數據為 2 676 條,占所有“水腫”標記數據總數的 77.7%。詳見圖4b 和圖4c。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴水腫的數據為 3 357條,占所有“水腫”標記數據總數的 97.4%;“多原發”結直腸癌伴水腫的數據為 126 條,占所有“水腫”標記數據總數的 3.7%。詳見圖4d 和圖4e。

a:結直腸癌伴水腫的分級;b:直腸癌伴水腫的分級;c:結腸癌伴水腫的分級;d:原發性結直腸癌伴水腫的分級;e:多原發性結直腸癌伴水腫的分級;f:結直腸癌伴出血的分級;g:直腸癌伴出血的分級;h:結腸癌伴出血的分級;i:原發性結直腸癌伴出血的分級;j:多原發性結直腸癌伴出血的分級
2.10.6 出血
所有本次研究分析的數據中,有效標記“出血”合并癥的數據為 3 357 條,占總數據量的 28.2%。其中分級為 0(無出血)的數據為 2 681 條,占所有“出血”標記數據總數的 79.9%。其他具體分級詳見圖4f。按照“腫瘤部位”劃分,結腸癌伴出血的數據為 743 條,占所有“出血”標記數據總數的 22.1%;直腸癌伴出血的數據為 2 614 條,占所有“出血”標記數據總數的 77.9%。詳見圖4g 和圖4h。按照“原發性”和“多原發”劃分,其中“原發性”結直腸癌伴出血的數據為3 272 條,占所有“出血”標記數據總數的 97.5%;“多原發”結直腸癌伴出血的數據為 121 條,占所有“出血”標記數據總數的 3.6%。具體見圖4i 和圖4j。
3 討論
3.1 從數據庫解析癌前病變與家族史
本研究中,我們將“癌前病變”和“家族史”劃歸為腫瘤特征的一部分進行分析。這樣的分類方式并不一定完全的合理,更多是為了對 DACCA 數據庫進行逐一解讀。“癌前病變”和“家族史”更應該放在數據庫的深度解析中,歸屬于結直腸癌患者的病情演變特征。
前述研究(數據庫研究第四部分)[5]中的“首診臨床癥狀”以及“誤診、誤治”行為,都是對結直腸癌患者就診前的一系列重要臨床行為的解讀。圍繞 DACCA 數據庫最核心的“行為-結果”模式,在就診前發生的所有行為,最終對于患者演變為結直腸癌,以及患者結直腸癌初診時的腫瘤嚴重程度的基線狀態[14],都是重要的影響因素。盡管大量的臨床研究報道和宣傳都普遍認同“我國結直腸癌患者就診時,分期相對更晚”[15],但是為什么演變為如此情況?這就和患者就診前的臨床行為形成關聯。由于目前的人工智能模型技術,在追溯這些因果關聯的分析上具有了明顯的優勢[16],因此,我們對于 DACCA 數據庫的構建,正好可以與人工智能模型技術相結合,達到體現臨床數據庫和利用數據挖掘線索的重要目的。
就本次研究中所分析出的“癌前病變”分布,我們可以明顯地發現,多發的結直腸息肉是最為多見的形式之一(43.2%)。這也和國內外針對結直腸癌早期預防與治療的推薦一致,對于結腸息肉應高度予以重視[17-18]。對這一數據的關注,已經在臨床上逐步得到體現。對于目前門診就診的結腸鏡檢查后的患者,一旦遇到結腸息肉,越來越多的醫生會給予患者積極選擇內鏡下切除息肉[17-18]的醫囑,這也是對預防結直腸癌愈發重視的表現。從結直腸癌早期預防的角度上看,美國結直腸外科醫師協會(ASCRS)的推薦中也提到,針對“腺瘤性息肉”和“家族性腺瘤息肉病”應盡早進行干預,以避免惡變[19]。反推 DACCA 數據庫體現出的我們對于“癌前病變”的認知,筆者認為,首先在結直腸癌患者的病史采集中,應該重視對于可疑癌前病變進行全面采集,如本次 DACCA 數據庫結果所示,我們獲取的可能導致癌變的危險信息都成為了入組數據庫的來源。并針對患者存在的可疑癌前病變,及時給予手術處理以及必要的隨訪關注。這樣的過程,可能可以進一步降低結直腸癌的發生率。
基于同樣的考慮,我們在結直腸癌患者家族史的數據采集上,也尤為注意。家族史是一個非常寬泛的內容,在 DACCA 數據庫中我們的記錄形式也遠非本研究中的“是”與“否”這么簡單,而是對家族史的親屬關系以及發生惡性腫瘤的類型都有相應的記錄。家族史的研究不僅是臨床的研究范疇之一,也是遺傳學的研究范圍[20]。完整研究家族史與結直腸癌發生發展的臨床關系,以及結果判斷,需要一個長周期、全家族性的研究分析。這一點也就導致臨床研究相對困難。而且家族遺傳傾向和遺傳性家族疾病在本質上也有區別[21]。比如我們在討論 FAP[22]時,可能已經直接在遺傳性疾病范疇內進行分析。而近年來,越來越多的研究開始關心家族遺傳傾向這個概念,這是為了在探究既往已經確定定論的家族遺傳疾病外,尋找其他可能的遺傳風險,這為家族中可能存在的結直腸癌高風險患者提供了重要的早期篩查依據。本研究從 DACCA 數據庫的數據只能初步判斷,可能需要關注的結直腸癌癌癥家族史患者條數大約占 6.4%,從數據庫整體含量來看,這也是數量不少的群體了。未來在以數據庫為基礎的研究中,可能會從這個群體出發,逐步延伸到其家族群體中。
3.2 DACCA 數據庫中的腫瘤定位
結直腸癌的腫瘤部位,幾乎是所有臨床研究的基礎信息之一,所以 DACCA 數據庫中的信息也保存得相對比較齊全。腫瘤的定位概念,實際上包含了:大體腫瘤處于結直腸的部位、腫瘤在管腔內處于的方位以及是否為多腫瘤狀態。這些數據信息在 DACCA 數據庫中都有展示。
在數據庫的總論部分[4]的闡述中,我們已經對于 DACCA 數據的結直腸癌部位進行了展示,本次在分板塊解讀 DACCA 數據庫時,我們分析得更為精細,對于腫瘤部位的具體劃分闡述的信息也更多。通過以中國西南地區區域醫療中心為基礎的腫瘤部位數據,可以看出,直腸癌仍舊為最主要的數據構成來源,占所有原發性結直腸癌數據的 76.9%。這一特征是一個區域特征,主要代表的是本數據庫來源的醫療中心,主要的服務病種為直腸癌,而不代表西南地區的結直腸癌的流行病學特征。這與國外對于結直腸癌的國家數據[23](結腸癌∶直腸癌發病比大約為 5.6∶3.4)不完全一致,不能同理比較。
但是這一數據反映了該地區主要的結直腸癌診療負擔可能還是在直腸癌上,也是我們需要對該區域直腸癌診治予以高度重視的重要原因。而通過進一步細化分析,我們可以發現,在這個巨大的直腸癌數據集中,需要診治的患者絕大多數都是傳統定義中的腹膜反折以下區域的直腸癌。本次數據分析中,直腸腹膜反折部癌+直腸超低位癌+直腸肛管癌,已經達到總體直腸癌患者數據源的 56.9%。這充分地展示了該區域患者對于標準直腸癌全直腸系膜切除術(total mesorectal excision,TME)以及極限保肛手術可能存在有需求。而且在腹膜腔外的直腸解剖區域內,直腸癌更容易出現區域受累的高風險因素,此外在絕大多數臨床腫瘤風險的判斷中,都把超低位及其以下部位的直腸癌作為有高復發風險的群體來進行關注[24]。這些數據信息向我們傳遞了很重要的信息,在中國西南地區具有代表性的數據隊列下,直腸癌尤其是低位以下區域的直腸癌,是最應當重視的病種之一。這就自然會與患者的術前評估、手術方案評估、隨訪方案評估等建立密切聯系,再次回歸到“結果關聯”這一重要需求上。此次 DACCA 數據庫的板塊分析結果提示我們,對于低位以下直腸癌臨床數據的相關研究,可能是重要的研究方向之一。
除去“原發性”的結直腸癌,DACCA 數據庫中還對于結直腸癌的來源形式進行了劃分,其劃分的起始點是以患者第 1 次納入 DACCA 數據庫時為標準。因此,除去“原發性”和“多原發”的情況外,數據庫中還有“再發性”、“復發性”等多種形式。本次分析只是重點關注了以“原發”為基礎的結直腸癌的數據特點。對于多原發癌來說[25],一直以來都是該領域研究中相對冷門的部分,從 DACCA 數據庫的結果也能說明,這一部分數據只占 3.6%。但本次研究的分析結果提示,我們仍舊不能掉以輕心,數據庫展示的結果顯示,結直腸癌的多原發形式甚至可能出現同時存在“5 個結直腸原發癌”(在多原發癌總數構成中,也只占 0.6%)。這表示我們在面對這樣的結直腸癌時,極有可能出現漏診,所以完善的術前評估以及非常必要的手術探查程序,其價值也需得以體現。
3.3 結直腸癌的常見腫瘤類型和罕見類型
如開篇我們所述,DACCA 數據庫中的“結直腸癌”實際上是對于結直腸惡性腫瘤的數據管理。本次對于結直腸惡性腫瘤的數據展示中,我們可能理所當然地認為,“腺癌”(77.8%)和“黏液腺癌”(17.8%)確實可能是最常見的兩種病理類型。然而,除去“印戒細胞癌”和“鱗狀細胞癌”外,其他的罕見結直腸惡性腫瘤也存在有一定量的數據隊列。如果數據庫充分關聯了對應罕見結直腸惡性腫瘤的結果,那么罕見結直腸惡性腫瘤的臨床研究也具有相當的價值。
從 DACCA 數據庫的結直腸癌分類結果上判斷,筆者認為,我們需要關注的不僅是原發且單發的結直腸惡性腫瘤。本次分析中我們也可以發現,多原發結直腸惡性腫瘤的不同部位可能會呈現不同的病理學類型,這也會為術后的治療和隨訪帶來一定的挑戰,需要引起我們足夠的重視。
除了腫瘤病理學類型外,還有結直腸癌的大體類型需要引起關注。多數讀者會意外于本次 DACCA 數據庫中展示了大量的腫瘤大體類型的分類結果以及對應的臨床數據。除了“潰瘍型”(77.8%)這種常見的病理大體類型外[26],我們在 DACCA 數據庫中引入了更為復雜的病理大體類型的分類方式,更為細致,這會在數據庫建設第五部分內進行詳細展示。比如從數據含量上看,“黏膜下浸潤型”(占 2.7%)這類結直腸癌不少見,這也是近年來逐漸引起重視的結直腸癌類型。多數患者無法通過腸鏡下活檢獲取準確的病理學診斷結果,更多是在術后予以重視。這樣的結直腸癌我們應該如何早期作出合理的治療方案設計,就有相當大的挑戰。以新的病理大體類型推演出對應的臨床研究,是一個非常值得發展的研究方向。
3.4 結直腸癌的腫瘤合并癥
結直腸癌的腫瘤合并癥是 DACCA 數據庫的特色之一,這一信息的獲取本身就需要通過術前、術中乃至術后綜合判斷。而腫瘤合并癥通常可能直接導致手術方案決策的變化,如原計劃方案可能為超低位前切除術的直腸低位癌,在伴有完全梗阻時,則手術方式極可能調整為 Hartmann 手術[27]。本研究在 DACCA 數據中,選擇了包括:梗阻、套疊、出血、水腫等多項并發癥的數據項。從本次研究分析可以初步判斷,結直腸癌中可能有 62.2% 的患者存在不同程度的梗阻,有 3.9% 的患者有不同程度的套疊,有 8.4% 的患者有不同程度的穿孔,有 19.0% 的患者可能存在癌性相關疼痛,68.1% 的患者存在不同程度的病變部位水腫,有 20.1% 的患者存在癌性相關的出血合并癥。
這些對于結直腸癌合并癥的分級化展示,可以有效地幫助我們對結直腸癌的高風險進行評估,同時建立有效的腫瘤風險評估機制,以及對于部分結直腸癌患者的術前分期的風險權重調整提供依據。
在腫瘤合并癥的基礎上建立更加敏感的風險模型[28],會提高我們利用數據進行手術相關并發癥和手術相關預后預警的能力。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東負責本文的主要撰寫工作及修改;陳夢然和曾渝共同負責數據整理及部分撰寫工作;劉健博負責本文的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
倫理批準聲明:本研究已通過四川大學華西醫院倫理學委員會審核并同意(批準文號:2019-140 號)。