引用本文: 汪曉東, 劉健博, 何欣林, 鄒雨恒, 李立. 數據庫研究第六部分:結直腸癌的分期策略. 中國普外基礎與臨床雜志, 2020, 27(6): 739-746. doi: 10.7507/1007-9424.202005023 復制
華西腸癌數據庫(Database from Colorectal Cancer,DACCA)是華西醫院結直腸外科專業組以真實世界研究(real world study,RWS)為思路和理念而建設的數據庫[1-15]。如前述,筆者團隊將推出系列數據庫報道,包括:數據庫研究、數據庫建設、數據庫解讀、數據庫決策等。本文為數據庫研究第一章的第六部分。
1 資料和方法
1.1 數據庫版本
本次數據分析選取的 DACCA 版本為 2020 年4 月 16 日更新版。
1.2 DACCA 數據庫應用參數
本研究選取的數據項目的基礎定義,將在“數據庫建設”系列報道六中詳細說明。本次選擇的部分數據項目包括:術中分期(stage during surgery)、cpi 綜合分期(comprehensive stage of clinical,pathologic,and imaging)、TNM 分期(TNM stage)、T 病理分期(pathologic T stage)、T 影像分期(imaging T stage)、神經受累(nerves involvement)、肛門病理分期(pathologic anus stage)、肛門臨床分期(clinical anus stage)、肛門影像分期(imaging anus stage)、系膜病理分期(pathologic mesentery stage)、系膜臨床分期(clinical mesentery stage)、系膜影像分期(imaging mesentery stage)、N 病理分期(pathologic N stage)、N 影像分期(imaging N stage)、陽性淋巴比(positive lymph nodes ratio)、癌結節(cancerous nodules)、M 分期(M stage)、癌栓(cancerous emboli)、血管病理分期(pathologic vessel stage)、血管臨床分期(clinical vessel stage)、血管影像分期(imaging vessel stage)、沾染(cancerous contamination)和高危因素(high-risk factors)。
1.3 DACCA 數據庫調整參數
在 DACCA 中原有的數據項目中,為本次研究需要,部分做了數據處理和參數調整。
1.3.1 術中分期和TNM 分期符合情況
結合術中分期以及 TNM 分期兩欄的結果,將 TNM 分期和術中分期一致表示為“符合”,TNM 分期高于術中分期表示為“高估”,TNM 分期低于術中分期表示為“低估”。
1.3.2 cpi 綜合分期和 TNM 分期符合情況
結合 cpi 綜合分期以及 TNM 分期兩欄的結果,將 TNM 分期和 cpi 綜合分期一致表示為“符合”,TNM 分期高于 cpi 綜合分期表示為“高估”,TNM 分期低于 cpi 綜合分期表示為“低估”。
1.3.3 肛門病理分期(肌肉)
在肛門病理分期一欄結果中,統計在病理學檢查下腫瘤侵犯的肌肉組織名稱。
1.3.4 肛門臨床分期(肌肉)
在肛門臨床分期一欄結果中,統計在視診、指檢等臨床評估中,判斷腫瘤侵犯的肌肉組織名稱。
1.3.5 肛門影像分期(肌肉)
在肛門影像分期一欄結果中,統計在影像學檢查下腫瘤侵犯的肌肉組織名稱。
1.3.6 送檢淋巴結總數
在陽性淋巴比一欄結果中,單獨統計送檢的淋巴結總數。
1.4 DACCA 數據庫的篩選方案
根據本研究的需要,筆者團隊按照總數據庫信息篩選(66 542 條),根據 TNM 分期、cpi 綜合分期和術中分期 3 項主要篩選條件,選擇在 DACCA 數據庫中必須至少其中 1 項條件不為“空”者,篩選后的信息為 6 474 條。具體篩選過程詳見圖 1。本次數據庫篩選完成時間為 2020 年 4 月 20 日。

1.5 數據定義解釋
在本次 DACCA 數據庫中,對于分期的定義方式,盡管會在數據庫建設第六部分中詳細解讀,但是為便于讀者閱讀本研究中部分圖表內容,在此說明結直腸癌分期中的標簽簡要示意:術中分期分為早、早中、中、中后、中晚、近晚和晚期;cpi 綜合分期基于臨床、病理和影像的綜合分期,分為 0、Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA和ⅣB期;TNM 分期基于美國癌癥聯合會(AJCC)-TNM 經典分期[16],分為0、Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA、ⅣB和ⅣC期。
其中在本次 DACCA 數據庫所提取的數據中,癌栓有定義分級:0 級為無癌栓,1 級為血管或淋巴管內有癌栓,2 級為血管和淋巴管均有癌栓,3 級為有廣泛的癌栓形成。沾染(癌性沾染)有定義分級:0 為無,1 級為腫瘤觸摸沾染,2 級為腫瘤游離穿孔,3 級為腫瘤完全潰破。高危因素按照嚴重程度分級,包括 0~5 個級別,級別越高,風險越大。具體的級別解釋,將在數據庫建設第六部分中詳細闡述。
1.6 統計學方法
本次 DACCA 數據庫分析的工具為 Excel(Office 365,Microsoft,Redmond,WA,USA)。經典統計學描述由 Excel 統計圖表工具完成。正態性檢驗由 SPSS 23.0 完成。定性資料以例進行描述;定量資料服從正態分布表示為均數±標準差(±s),不服從正態分布者表示為中位數。檢驗水準α=0.05。
2 結果
截至 2020 年 4 月 16 日,數據庫疊加后,符合篩選條件的數據病案(數據行,lines)總量為 6 474 條。
2.1 總體分期的評估
2.1.1 TNM 經典分期
在 DACCA 數據庫中,TNM 分期的有效數據共 4 511 條(69.7%),其中ⅢB 期、ⅡB 期以及ⅣA 期數據條數在前 3 位,分別有 813(18.0%)、756(16.8%)和 655 條(14.5%)。全部 TNM 分期的具體分布詳見表 1。不同 TNM 分期及其二級分期的具體分布詳見圖 2a–2d。


2.1.2 術中分期
在 DACCA 數據庫中,術中分期的有效數據共 5 684 條(87.8%),其中中晚期和晚期數據條數最多,分別為 1 630 條(28.7%)和 1 295 條(22.8%)。全部術中分期的具體分布詳見表 2。

2.1.3 cpi 綜合分期
在 DACCA 數據庫中,cpi 綜合分期的有效數據共 4 045 條(62.5%),其中ⅡB 期、ⅢB 期和ⅢC 期數據條數在前 3 位,分別為 788(19.5%)、699(17.3%)和 598 條(14.8%)。全部 cpi 綜合分期的具體分布詳見表 3。不同 cpi 綜合分期及其二級分期的具體分布,詳見圖 2e–2h。

2.1.4 術中分期和 TNM 分期的符合情況
在 DACCA 數據庫中,術中分期及 TNM 分期均為有效數據的數據行,共 3 698 條(57.1%),其中符合、低估和高估分別為 1 540(41.6%)、1 602(43.3%)和 556 條(15.1%)。
2.1.5 cpi 綜合分期和 TNM 分期的符合情況
在 DACCA 數據庫中,cpi 綜合分期及 TNM 分期均為有效數據的數據行,共 3 763 條(58.2%),其中符合、低估和高估分別為 2 884(76.7%)、427(11.3%)和 452 條(12.0%)。
2.2 T 分期的評估
2.2.1 T 病理分期
在 DACCA 數據庫中,T 病理分期一欄的有效數據共 4 670 條(72.2%),其中 T4a 期和 T3 期數據條數最多,分別為 1 891 條(40.5%)和 1 157 條(24.8%)。全部 T 病理分期的具體分布詳見表 4。

2.2.2 T 影像分期
在 DACCA 數據庫中,T 影像分期一欄的有效數據共 583 條(9.0%),其中 T4a 期和 T4b 期數據條數最多,分別為 186 條(31.9%)和 167 條(28.6%)。全部 T 影像分期的具體分布詳見表 5。

2.2.3 神經受累情況(臨床)
在 DACCA 數據庫中,神經受累情況一欄的有效數據共 4 313 條(66.7%),其中無異常、可疑受累、確認受累和不確定分別為 1 761(40.8%)、691(16.0%)、253(5.9%)和 1 608 條(37.3%)。
2.2.4 肛門受累情況(病理)
在 DACCA 數據庫中,肛門病理分期一欄的有效數據共 4 115 條(63.6%),其中無異常有 1 088 條(26.4%),明確受累 147 條(3.6%),不確定有 2 880 條(70.0%)。病理結果顯示,肌肉受累有效數據僅 30 條,占肛門病理分期有效數據的 0.7%,其中骨骼肌 3 條(10.0%),聯合縱肌 16 條(53.3%),括約肌 11 條(36.7%,其中內括約肌 7 條,外括約肌 3 條,未細分 1 條)。
2.2.5 肛門受累情況(臨床)
在 DACCA 數據庫中,肛門臨床分期一欄的有效數據共 599 條(9.3%),其中無異常和受累分別有 464 條(77.5%)和 127 條(21.2%),余不確定 8 條(1.3%)。其中顯示肌肉受累的有效數據僅 8 條,占肛門臨床分期有效數據的 1.3%,其中肛提肌 1 條(12.5%),括約肌7 條(87.5%,其中內括約肌 2 條,外括約肌 3 條,未細分 2 條)。
2.2.6 肛門受累情況(影像)
在 DACCA 數據庫中,肛門影像分期一欄的有效數據共 598 條(9.2%),其中無異常和受累分別有 484 條(80.9%)和 91 條(15.2%),余不確定 23 條(3.9%)。其中顯示肌肉受累有效數據僅 13 條,占肛門影像分期有效數據的 2.2%,其中肛提肌 5 條(38.5%),括約肌8 條(61.5%,內括約肌 3 條,外括約肌 1 條,未細分4 條)。
2.2.7 系膜受累情況(病理)
在 DACCA 數據庫中,系膜病理分期一欄的有效數據共 732 條(11.3%),其中無異常和受累分別有 159 條(21.7%)和 301 條(41.1%),余不確定 272 條(37.2%)。
2.2.8 系膜受累情況(臨床)
在 DACCA 數據庫中,系膜臨床分期一欄的有效數據共 589 條(9.1%),其中無異常、可疑受累、累及和大片累及分別有 120(20.4%)、96(16.3%)、147(25.0%)和 211 條(35.8%),余不確定 15 條(2.5%)。
2.2.9 系膜受累情況(影像)
在 DACCA 數據庫中,系膜影像分期一欄的有效數據共 592 條(9.1%),其中無異常、稍微毛糙、模糊影和明確累及分別有 154(26.0%)、33(5.6%)、66(11.1%)和 204 條(34.5%),余不確定 135 條(22.8%)。
2.3 N 分期的評估
2.3.1 N 病理分期
在 DACCA 數據庫中,N 病理一欄的有效數據共 4 572 條(70.7%),其中 N0 期數據條數最多,有 1 745 條(38.2%)。全部 N 病理分期的具體分布詳見表 6。

2.3.2 N 影像分期
在 DACCA 數據庫中,N 影像分期一欄的有效數據共 584 條(9.0%),其中無異常、區域淋巴結腫大和遠處淋巴結腫大分別有 142(24.3%)、147(25.2%)和 153 條(26.2%),余不確定 142 條(24.3%)。
2.3.3 送檢淋巴結總數和陽性淋巴比
在 DACCA 數據庫中,陽性淋巴比一欄的有效數據共 4 458 條(68.9%),經檢驗不服從正態分布(P<0.001)。其中送檢淋巴結總數的中位數 10 枚/例(0~68 枚/例),陽性淋巴比的中位數為 0(0~1)。
2.3.4 癌結節
在 DACCA 數據庫中,癌結節一欄的有效數據共 2 908 條(44.9%),經檢驗不服從正態分布(P<0.001)。癌結節中位數為 0(0~17 個)。
2.4 M 分期的評估
2.4.1 M 分期
在 DACCA 數據庫中,M 分期一欄的有效數據共 4 745 條(73.3%),其中 Mx 期數據條數最多,有 2 642 條(55.7%)。在明確分期中,M0 期數據條數最多,有 1 446 條(30.5%)。全部 M 分期的具體分布詳見表 7。

2.4.2 癌栓
在 DACCA 數據庫中,癌栓一欄的有效數據共 4 286 條(66.2%),其中無異常、1 級、2 級和 3 級分別有 2 178(50.8%)、448(10.5%)、132(3.1%)和 39 條(0.9%),余不確定 1 489 條(34.7%)。
2.4.3 血管受累情況(病理)
在 DACCA 數據庫中,血管病理分期一欄的有效數據共 3 842 條(59.3%),其中無異常和血管受累分別有 2 436 條(63.4%)和 1 063 條(27.7%),余不確定 343 條(8.9%)。
2.4.4 血管受累情況(臨床)
在 DACCA 數據庫中,血管臨床分期一欄的有效數據共 591 條(9.1%),其中無異常和肉眼觀血管增生分別有 306 條(51.8%)和 274 條(46.4%),余不確定 11 條(1.8%)。
2.4.5 血管受累情況(影像)
在 DACCA 數據庫中,血管影像分期一欄的有效數據共 594 條(9.2%),其中無異常和影像下血管增多分別有 329 條(55.4%)和 244 條(41.1%),余不確定 21 條(3.5%)。
2.5 癌性污染
在 DACCA 數據庫中,沾染一欄的有效數據共 3 865 條(59.7%),其中無異常、1 級、2 級和 3 級分別有 3 323(86.0%)、287(7.4%)、24(0.6%)和 5 條(0.1%),余不確定 226 條(5.8%)。
2.6 高危因素
在 DACCA 數據庫中,高危因素一欄的有效數據共 2 753 條(42.5%),其中無異常、1 級、2 級、3 級、4 級和 5 級分別有 491(17.8%)、435(15.8%)、343(12.5%)、746(27.1%)、400(14.5%)和 332 條(12.1%),余不確定 6 條(0.2%)。
3 討論
3.1 cpi 綜合分期和 TNM 分期的提出及其臨床價值展望
TNM 分期是目前針對惡性腫瘤劃分其嚴重程度的重要標準。AJCC 推出的 TNM 分期,通過不斷的版本修正,目前已經達到第八版,對結直腸癌(分為結腸癌、直腸癌和肛管癌)進行了分期界定[16]。這一分期方式逐步替代了曾經常用的 DUKES 分期[17],成為目前主要的分期標準,并為指南所引用。
AJCC-TNM 分期的重要價值,在于通過對于分期進行界定,可以判斷腫瘤的早晚程度,對于患者的治療方案有決定性的影響[18]。因此,分期越準確,則臨床治療決策的誤差相對就更小。然而我們應該理解,TNM 分期的準確與否是一項極為浩大的工程,不僅關聯腫瘤原發病灶的特點、與周圍組織和脈管的關系,還涉及到其他臟器轉移等諸多參考指標[19-20]。由于參考指標的多樣性,因此在進行指標綜合換算的過程中,會出現技術性的偏差。同時,由于病理學仍舊以人工視覺診斷為基礎[21-22],所以最終得出的 TNM 分期是不是能夠準確地顯示患者的腫瘤嚴重程度,始終是眾多醫生討論的話題。而且從外科醫生的角度來看,經常會發現術中肉眼直視所見的腫瘤特點,仿佛和最終的腫瘤病理評估結果大相徑庭,為此不得不通過更為詳細的手術術中記錄,對于 TNM 分期中可能所不能反映的問題進行補充,以避免對于患者病情嚴重程度判斷的誤差。
因此,越來越多的醫生嘗試從事一個方向的研究,即為 TNM 分期的修正研究(revised TNM staging)[23]。根據以數據為基礎的理念構建的專業數據庫,本研究團隊也對這個問題進行了闡述,并體現在 DACCA 數據庫中。對于這個構建的新分期則為 cpi 綜合分期,其主要框架仍舊基于 AJCC-TNM 分期進行搭建。同時,充分加入臨床因素(clinic)和影像學因素(image),故稱為 cpi 綜合分期。由于目前病理學評級為金標準,所以我們通過對于 T、N 和 M 分期 3 個重要參數,在結合臨床和影像學的特征后,在原有 AJCC-TNM 分期基礎上進行修正而得到 cpi 綜合分期。這一新的分期方案,實施時間已經接近 5 年。
從本研究對于 TNM 分期的符合度比較來看,cpi 綜合分期和 AJCC-TNM 分期之間的符合率為 76.6%,仍表現出部分案例 cpi 綜合分期更高(427 條,11.3%),部分更低(452 條,12.0%)。這足以說明兩種分期方案有一定的差異。而從真實世界的特征上解釋,由于分期都是轉換而來,目前也沒有通過數據特征直接代表分期的模型,所以,任何一種分期方式都可能和患者真實狀態存在差異,也就是誤差高低的問題。而越好的分期方式,一定是最貼近真實者,如何驗證此真實,目前最為有效的參數是:生存與復發。在我們認定出現微轉移和臟器轉移患者一定預后更差的理論上,我們只能后期通過預后相關研究,最終印證到底哪一種分期更能反映與患者術后出現轉移和復發、以及與患者癌性死亡的關系,這也是對于分期方向研究未來發展的預期。
3.2 臨床、影像與病理學在分期細節中的差異
正是同上文所闡述的理念,筆者所在團隊對于結直腸癌患者在病理、臨床和影像 3 套分期中的腫瘤(T)、淋巴結(N)和轉移(M)情況,分別進行了更為詳細的界定。因此,每一例結直腸癌患者的分期參數中,T 分期包括病理的 T 分期、影像的 T 分期和臨床判斷的腫瘤對于周圍組織或肌肉累及情況的描述;N 分期包括病理的 N 分期、淋巴結活檢數量與陽性百分比、周圍神經受累、脈管受累、影像下血管密度及臨床肉眼觀的腫瘤周圍血管狀態;M 分期包括影像下轉移狀態、病理 M 分期、癌結節的評價、癌栓等。這些參數眾多,以求通過可以結構化的數據,還原患者腫瘤的真實情況,提高嚴重程度的判斷準確性。
從本研究梳理的 T、N 和 M 分期的眾多參數來看,pT4a 期的患者比例最高(40.5%),而此外更為多見的是 pT3 期(24.8%);而影像上 iT4a 期也是最多的(31.9%),其次為 iT4b 期(28.7%)。從 T 分期的判斷上看,影像上更容易判斷患者局部嚴重程度更高。而臨床上我們可能直接判斷為 cT4b 期的案例,很可能病理上只是 pT3 期。術者可以對術中所見 T 分期有較為明顯的判斷,然而最終病理 T 分期可能不是預想的狀態。
同樣從影像學上去判斷腫瘤周圍淋巴結轉移,多以腫大淋巴結及其數量作為考量。但是這一考量的準確性不一定高。通過本次研究中,病理學對于 N 分期判斷的淋巴結(腫瘤近區引流范圍內),可以發現有淋巴結轉移者大約占 41.9%(含上文結果中所有 N1 和 N2 狀態)。而影像學提供在該區域的淋巴結轉移者大約占 51.4%。通常,影像醫生可能會把腸系膜下血管根部淋巴結判斷作為遠處淋巴結轉移,而部分位于腹主動脈旁的淋巴結轉移,都劃歸為遠處淋巴結轉移。這足以顯示兩者可能存在判斷的不一致。我們需要特別重視的是,當我們對于患者進行術前分期時,更多引用了 iN 分期,而病理分期則是評估術后分期。我們在為患者決策是否進行新輔助治療方案的時候,更多依賴了影像分期和臨床評估(如:當術前判斷直腸超低位癌固定,可以直接認定為 cT4b 期)。這時,術前判斷 N 分期的準確性就尤為重要,一旦判斷區域進展狀態,則可能更多選擇了新輔助治療優先的方案。所以,曾經有學者提出,在沒有新輔助治療的案例中,選擇影像學淋巴結與術中切除標本對應部位淋巴結進行對比,以判斷 N 分期的符合率。這確實為思路之一。
研究[24]認為,血管密度增加與腫瘤的發展存在密切關系。而現在從病理分期上,很難描述血管增生情況,而影像學和臨床術中發現則都對血管增生改變(或者說血管密度增加)進行了描述。影像上出現腫瘤周圍血管增加的患者占 41.1%,術中可見血管增生樣改變(如描述充血性表現)的患者占 46.4%。這一指標,若單獨從病理學報告上,很難提煉出一項可以準確記錄的指標。以上的對比性分析,都從更為細節的角度,闡述了臨床、影像和病理在分期上可能存在的一些差異。正如上文所述,筆者所在團隊對于結直腸癌的分期進行多參數管理,其核心目的是希望建立更為完善和準確的腫瘤嚴重程度的評估體系。而對于臨床、影像和病理在分期中參數的不一致問題,則還需要進一步通過數據模型進行判斷,甚至需要借助源于 MRI、CT 等的影像組學技術,以及病理學圖像分析等等前沿技術,最終構建一套動態的,可不斷優化的分期體系。
3.3 指南中的高風險因素在數據庫中的應用
結直腸癌的高風險因素在其他的研究中有一定的界定(如:cT4b、cN2、腸壁外靜脈浸潤、環周切緣陽性或側方淋巴結陽性)[25],但是從臨床應用上看卻遠遠不夠。所以對于高風險因素,在以分期為基礎的病情嚴重程度判斷之外,還需要進行詳細的闡述。所謂高風險因素,應該是可能關聯到患者后期出現的轉移、復發,甚至疑瘤狀態(如:CEA 持續走高和不穩定狀態)的因素。所以筆者所在團隊對于高風險因素的界定,不僅需要涵蓋可能的危險因素,而且對于危險因素進行了分級。筆者所在團隊對于危險因素設計了 5 個不同的級別,級別越高,風險越大;而每一類級別中,都有一定的參數作為判斷。從目前的分析結果來看,結直腸癌患者具備危險因素者可以達到 82.0%,絕大多數都存在某種危險因素。
從數據庫的角度上看待高風險因素,是我們根據前期臨床經驗與科研結果,把可能成為影響患者預后的獨立因素或者聯合因素,視為高風險因素。這些具有預后結果強關聯的數據,是關聯于患者治療效果、長期生存等重要終點指標的源數據,也是構建預后模型的重要組成部分。因此,筆者所在團隊在進行結直腸癌數據庫構建的過程中,充分考慮到數據庫未來的應用性,如:模型構建、數據內部邏輯關系等,提示了對于高風險因素的關注度。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:汪曉東負責本文的主要撰寫工作及修改;劉健博和何欣林共同負責數據整理及部分撰寫工作;劉健博和鄒雨恒負責文章的圖表制作;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
倫理聲明:本研究已通過四川大學華西醫院倫理學委員會的審核并同意(批準文號:2019-140 號)。
華西腸癌數據庫(Database from Colorectal Cancer,DACCA)是華西醫院結直腸外科專業組以真實世界研究(real world study,RWS)為思路和理念而建設的數據庫[1-15]。如前述,筆者團隊將推出系列數據庫報道,包括:數據庫研究、數據庫建設、數據庫解讀、數據庫決策等。本文為數據庫研究第一章的第六部分。
1 資料和方法
1.1 數據庫版本
本次數據分析選取的 DACCA 版本為 2020 年4 月 16 日更新版。
1.2 DACCA 數據庫應用參數
本研究選取的數據項目的基礎定義,將在“數據庫建設”系列報道六中詳細說明。本次選擇的部分數據項目包括:術中分期(stage during surgery)、cpi 綜合分期(comprehensive stage of clinical,pathologic,and imaging)、TNM 分期(TNM stage)、T 病理分期(pathologic T stage)、T 影像分期(imaging T stage)、神經受累(nerves involvement)、肛門病理分期(pathologic anus stage)、肛門臨床分期(clinical anus stage)、肛門影像分期(imaging anus stage)、系膜病理分期(pathologic mesentery stage)、系膜臨床分期(clinical mesentery stage)、系膜影像分期(imaging mesentery stage)、N 病理分期(pathologic N stage)、N 影像分期(imaging N stage)、陽性淋巴比(positive lymph nodes ratio)、癌結節(cancerous nodules)、M 分期(M stage)、癌栓(cancerous emboli)、血管病理分期(pathologic vessel stage)、血管臨床分期(clinical vessel stage)、血管影像分期(imaging vessel stage)、沾染(cancerous contamination)和高危因素(high-risk factors)。
1.3 DACCA 數據庫調整參數
在 DACCA 中原有的數據項目中,為本次研究需要,部分做了數據處理和參數調整。
1.3.1 術中分期和TNM 分期符合情況
結合術中分期以及 TNM 分期兩欄的結果,將 TNM 分期和術中分期一致表示為“符合”,TNM 分期高于術中分期表示為“高估”,TNM 分期低于術中分期表示為“低估”。
1.3.2 cpi 綜合分期和 TNM 分期符合情況
結合 cpi 綜合分期以及 TNM 分期兩欄的結果,將 TNM 分期和 cpi 綜合分期一致表示為“符合”,TNM 分期高于 cpi 綜合分期表示為“高估”,TNM 分期低于 cpi 綜合分期表示為“低估”。
1.3.3 肛門病理分期(肌肉)
在肛門病理分期一欄結果中,統計在病理學檢查下腫瘤侵犯的肌肉組織名稱。
1.3.4 肛門臨床分期(肌肉)
在肛門臨床分期一欄結果中,統計在視診、指檢等臨床評估中,判斷腫瘤侵犯的肌肉組織名稱。
1.3.5 肛門影像分期(肌肉)
在肛門影像分期一欄結果中,統計在影像學檢查下腫瘤侵犯的肌肉組織名稱。
1.3.6 送檢淋巴結總數
在陽性淋巴比一欄結果中,單獨統計送檢的淋巴結總數。
1.4 DACCA 數據庫的篩選方案
根據本研究的需要,筆者團隊按照總數據庫信息篩選(66 542 條),根據 TNM 分期、cpi 綜合分期和術中分期 3 項主要篩選條件,選擇在 DACCA 數據庫中必須至少其中 1 項條件不為“空”者,篩選后的信息為 6 474 條。具體篩選過程詳見圖 1。本次數據庫篩選完成時間為 2020 年 4 月 20 日。

1.5 數據定義解釋
在本次 DACCA 數據庫中,對于分期的定義方式,盡管會在數據庫建設第六部分中詳細解讀,但是為便于讀者閱讀本研究中部分圖表內容,在此說明結直腸癌分期中的標簽簡要示意:術中分期分為早、早中、中、中后、中晚、近晚和晚期;cpi 綜合分期基于臨床、病理和影像的綜合分期,分為 0、Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA和ⅣB期;TNM 分期基于美國癌癥聯合會(AJCC)-TNM 經典分期[16],分為0、Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA、ⅣB和ⅣC期。
其中在本次 DACCA 數據庫所提取的數據中,癌栓有定義分級:0 級為無癌栓,1 級為血管或淋巴管內有癌栓,2 級為血管和淋巴管均有癌栓,3 級為有廣泛的癌栓形成。沾染(癌性沾染)有定義分級:0 為無,1 級為腫瘤觸摸沾染,2 級為腫瘤游離穿孔,3 級為腫瘤完全潰破。高危因素按照嚴重程度分級,包括 0~5 個級別,級別越高,風險越大。具體的級別解釋,將在數據庫建設第六部分中詳細闡述。
1.6 統計學方法
本次 DACCA 數據庫分析的工具為 Excel(Office 365,Microsoft,Redmond,WA,USA)。經典統計學描述由 Excel 統計圖表工具完成。正態性檢驗由 SPSS 23.0 完成。定性資料以例進行描述;定量資料服從正態分布表示為均數±標準差(±s),不服從正態分布者表示為中位數。檢驗水準α=0.05。
2 結果
截至 2020 年 4 月 16 日,數據庫疊加后,符合篩選條件的數據病案(數據行,lines)總量為 6 474 條。
2.1 總體分期的評估
2.1.1 TNM 經典分期
在 DACCA 數據庫中,TNM 分期的有效數據共 4 511 條(69.7%),其中ⅢB 期、ⅡB 期以及ⅣA 期數據條數在前 3 位,分別有 813(18.0%)、756(16.8%)和 655 條(14.5%)。全部 TNM 分期的具體分布詳見表 1。不同 TNM 分期及其二級分期的具體分布詳見圖 2a–2d。


2.1.2 術中分期
在 DACCA 數據庫中,術中分期的有效數據共 5 684 條(87.8%),其中中晚期和晚期數據條數最多,分別為 1 630 條(28.7%)和 1 295 條(22.8%)。全部術中分期的具體分布詳見表 2。

2.1.3 cpi 綜合分期
在 DACCA 數據庫中,cpi 綜合分期的有效數據共 4 045 條(62.5%),其中ⅡB 期、ⅢB 期和ⅢC 期數據條數在前 3 位,分別為 788(19.5%)、699(17.3%)和 598 條(14.8%)。全部 cpi 綜合分期的具體分布詳見表 3。不同 cpi 綜合分期及其二級分期的具體分布,詳見圖 2e–2h。

2.1.4 術中分期和 TNM 分期的符合情況
在 DACCA 數據庫中,術中分期及 TNM 分期均為有效數據的數據行,共 3 698 條(57.1%),其中符合、低估和高估分別為 1 540(41.6%)、1 602(43.3%)和 556 條(15.1%)。
2.1.5 cpi 綜合分期和 TNM 分期的符合情況
在 DACCA 數據庫中,cpi 綜合分期及 TNM 分期均為有效數據的數據行,共 3 763 條(58.2%),其中符合、低估和高估分別為 2 884(76.7%)、427(11.3%)和 452 條(12.0%)。
2.2 T 分期的評估
2.2.1 T 病理分期
在 DACCA 數據庫中,T 病理分期一欄的有效數據共 4 670 條(72.2%),其中 T4a 期和 T3 期數據條數最多,分別為 1 891 條(40.5%)和 1 157 條(24.8%)。全部 T 病理分期的具體分布詳見表 4。

2.2.2 T 影像分期
在 DACCA 數據庫中,T 影像分期一欄的有效數據共 583 條(9.0%),其中 T4a 期和 T4b 期數據條數最多,分別為 186 條(31.9%)和 167 條(28.6%)。全部 T 影像分期的具體分布詳見表 5。

2.2.3 神經受累情況(臨床)
在 DACCA 數據庫中,神經受累情況一欄的有效數據共 4 313 條(66.7%),其中無異常、可疑受累、確認受累和不確定分別為 1 761(40.8%)、691(16.0%)、253(5.9%)和 1 608 條(37.3%)。
2.2.4 肛門受累情況(病理)
在 DACCA 數據庫中,肛門病理分期一欄的有效數據共 4 115 條(63.6%),其中無異常有 1 088 條(26.4%),明確受累 147 條(3.6%),不確定有 2 880 條(70.0%)。病理結果顯示,肌肉受累有效數據僅 30 條,占肛門病理分期有效數據的 0.7%,其中骨骼肌 3 條(10.0%),聯合縱肌 16 條(53.3%),括約肌 11 條(36.7%,其中內括約肌 7 條,外括約肌 3 條,未細分 1 條)。
2.2.5 肛門受累情況(臨床)
在 DACCA 數據庫中,肛門臨床分期一欄的有效數據共 599 條(9.3%),其中無異常和受累分別有 464 條(77.5%)和 127 條(21.2%),余不確定 8 條(1.3%)。其中顯示肌肉受累的有效數據僅 8 條,占肛門臨床分期有效數據的 1.3%,其中肛提肌 1 條(12.5%),括約肌7 條(87.5%,其中內括約肌 2 條,外括約肌 3 條,未細分 2 條)。
2.2.6 肛門受累情況(影像)
在 DACCA 數據庫中,肛門影像分期一欄的有效數據共 598 條(9.2%),其中無異常和受累分別有 484 條(80.9%)和 91 條(15.2%),余不確定 23 條(3.9%)。其中顯示肌肉受累有效數據僅 13 條,占肛門影像分期有效數據的 2.2%,其中肛提肌 5 條(38.5%),括約肌8 條(61.5%,內括約肌 3 條,外括約肌 1 條,未細分4 條)。
2.2.7 系膜受累情況(病理)
在 DACCA 數據庫中,系膜病理分期一欄的有效數據共 732 條(11.3%),其中無異常和受累分別有 159 條(21.7%)和 301 條(41.1%),余不確定 272 條(37.2%)。
2.2.8 系膜受累情況(臨床)
在 DACCA 數據庫中,系膜臨床分期一欄的有效數據共 589 條(9.1%),其中無異常、可疑受累、累及和大片累及分別有 120(20.4%)、96(16.3%)、147(25.0%)和 211 條(35.8%),余不確定 15 條(2.5%)。
2.2.9 系膜受累情況(影像)
在 DACCA 數據庫中,系膜影像分期一欄的有效數據共 592 條(9.1%),其中無異常、稍微毛糙、模糊影和明確累及分別有 154(26.0%)、33(5.6%)、66(11.1%)和 204 條(34.5%),余不確定 135 條(22.8%)。
2.3 N 分期的評估
2.3.1 N 病理分期
在 DACCA 數據庫中,N 病理一欄的有效數據共 4 572 條(70.7%),其中 N0 期數據條數最多,有 1 745 條(38.2%)。全部 N 病理分期的具體分布詳見表 6。

2.3.2 N 影像分期
在 DACCA 數據庫中,N 影像分期一欄的有效數據共 584 條(9.0%),其中無異常、區域淋巴結腫大和遠處淋巴結腫大分別有 142(24.3%)、147(25.2%)和 153 條(26.2%),余不確定 142 條(24.3%)。
2.3.3 送檢淋巴結總數和陽性淋巴比
在 DACCA 數據庫中,陽性淋巴比一欄的有效數據共 4 458 條(68.9%),經檢驗不服從正態分布(P<0.001)。其中送檢淋巴結總數的中位數 10 枚/例(0~68 枚/例),陽性淋巴比的中位數為 0(0~1)。
2.3.4 癌結節
在 DACCA 數據庫中,癌結節一欄的有效數據共 2 908 條(44.9%),經檢驗不服從正態分布(P<0.001)。癌結節中位數為 0(0~17 個)。
2.4 M 分期的評估
2.4.1 M 分期
在 DACCA 數據庫中,M 分期一欄的有效數據共 4 745 條(73.3%),其中 Mx 期數據條數最多,有 2 642 條(55.7%)。在明確分期中,M0 期數據條數最多,有 1 446 條(30.5%)。全部 M 分期的具體分布詳見表 7。

2.4.2 癌栓
在 DACCA 數據庫中,癌栓一欄的有效數據共 4 286 條(66.2%),其中無異常、1 級、2 級和 3 級分別有 2 178(50.8%)、448(10.5%)、132(3.1%)和 39 條(0.9%),余不確定 1 489 條(34.7%)。
2.4.3 血管受累情況(病理)
在 DACCA 數據庫中,血管病理分期一欄的有效數據共 3 842 條(59.3%),其中無異常和血管受累分別有 2 436 條(63.4%)和 1 063 條(27.7%),余不確定 343 條(8.9%)。
2.4.4 血管受累情況(臨床)
在 DACCA 數據庫中,血管臨床分期一欄的有效數據共 591 條(9.1%),其中無異常和肉眼觀血管增生分別有 306 條(51.8%)和 274 條(46.4%),余不確定 11 條(1.8%)。
2.4.5 血管受累情況(影像)
在 DACCA 數據庫中,血管影像分期一欄的有效數據共 594 條(9.2%),其中無異常和影像下血管增多分別有 329 條(55.4%)和 244 條(41.1%),余不確定 21 條(3.5%)。
2.5 癌性污染
在 DACCA 數據庫中,沾染一欄的有效數據共 3 865 條(59.7%),其中無異常、1 級、2 級和 3 級分別有 3 323(86.0%)、287(7.4%)、24(0.6%)和 5 條(0.1%),余不確定 226 條(5.8%)。
2.6 高危因素
在 DACCA 數據庫中,高危因素一欄的有效數據共 2 753 條(42.5%),其中無異常、1 級、2 級、3 級、4 級和 5 級分別有 491(17.8%)、435(15.8%)、343(12.5%)、746(27.1%)、400(14.5%)和 332 條(12.1%),余不確定 6 條(0.2%)。
3 討論
3.1 cpi 綜合分期和 TNM 分期的提出及其臨床價值展望
TNM 分期是目前針對惡性腫瘤劃分其嚴重程度的重要標準。AJCC 推出的 TNM 分期,通過不斷的版本修正,目前已經達到第八版,對結直腸癌(分為結腸癌、直腸癌和肛管癌)進行了分期界定[16]。這一分期方式逐步替代了曾經常用的 DUKES 分期[17],成為目前主要的分期標準,并為指南所引用。
AJCC-TNM 分期的重要價值,在于通過對于分期進行界定,可以判斷腫瘤的早晚程度,對于患者的治療方案有決定性的影響[18]。因此,分期越準確,則臨床治療決策的誤差相對就更小。然而我們應該理解,TNM 分期的準確與否是一項極為浩大的工程,不僅關聯腫瘤原發病灶的特點、與周圍組織和脈管的關系,還涉及到其他臟器轉移等諸多參考指標[19-20]。由于參考指標的多樣性,因此在進行指標綜合換算的過程中,會出現技術性的偏差。同時,由于病理學仍舊以人工視覺診斷為基礎[21-22],所以最終得出的 TNM 分期是不是能夠準確地顯示患者的腫瘤嚴重程度,始終是眾多醫生討論的話題。而且從外科醫生的角度來看,經常會發現術中肉眼直視所見的腫瘤特點,仿佛和最終的腫瘤病理評估結果大相徑庭,為此不得不通過更為詳細的手術術中記錄,對于 TNM 分期中可能所不能反映的問題進行補充,以避免對于患者病情嚴重程度判斷的誤差。
因此,越來越多的醫生嘗試從事一個方向的研究,即為 TNM 分期的修正研究(revised TNM staging)[23]。根據以數據為基礎的理念構建的專業數據庫,本研究團隊也對這個問題進行了闡述,并體現在 DACCA 數據庫中。對于這個構建的新分期則為 cpi 綜合分期,其主要框架仍舊基于 AJCC-TNM 分期進行搭建。同時,充分加入臨床因素(clinic)和影像學因素(image),故稱為 cpi 綜合分期。由于目前病理學評級為金標準,所以我們通過對于 T、N 和 M 分期 3 個重要參數,在結合臨床和影像學的特征后,在原有 AJCC-TNM 分期基礎上進行修正而得到 cpi 綜合分期。這一新的分期方案,實施時間已經接近 5 年。
從本研究對于 TNM 分期的符合度比較來看,cpi 綜合分期和 AJCC-TNM 分期之間的符合率為 76.6%,仍表現出部分案例 cpi 綜合分期更高(427 條,11.3%),部分更低(452 條,12.0%)。這足以說明兩種分期方案有一定的差異。而從真實世界的特征上解釋,由于分期都是轉換而來,目前也沒有通過數據特征直接代表分期的模型,所以,任何一種分期方式都可能和患者真實狀態存在差異,也就是誤差高低的問題。而越好的分期方式,一定是最貼近真實者,如何驗證此真實,目前最為有效的參數是:生存與復發。在我們認定出現微轉移和臟器轉移患者一定預后更差的理論上,我們只能后期通過預后相關研究,最終印證到底哪一種分期更能反映與患者術后出現轉移和復發、以及與患者癌性死亡的關系,這也是對于分期方向研究未來發展的預期。
3.2 臨床、影像與病理學在分期細節中的差異
正是同上文所闡述的理念,筆者所在團隊對于結直腸癌患者在病理、臨床和影像 3 套分期中的腫瘤(T)、淋巴結(N)和轉移(M)情況,分別進行了更為詳細的界定。因此,每一例結直腸癌患者的分期參數中,T 分期包括病理的 T 分期、影像的 T 分期和臨床判斷的腫瘤對于周圍組織或肌肉累及情況的描述;N 分期包括病理的 N 分期、淋巴結活檢數量與陽性百分比、周圍神經受累、脈管受累、影像下血管密度及臨床肉眼觀的腫瘤周圍血管狀態;M 分期包括影像下轉移狀態、病理 M 分期、癌結節的評價、癌栓等。這些參數眾多,以求通過可以結構化的數據,還原患者腫瘤的真實情況,提高嚴重程度的判斷準確性。
從本研究梳理的 T、N 和 M 分期的眾多參數來看,pT4a 期的患者比例最高(40.5%),而此外更為多見的是 pT3 期(24.8%);而影像上 iT4a 期也是最多的(31.9%),其次為 iT4b 期(28.7%)。從 T 分期的判斷上看,影像上更容易判斷患者局部嚴重程度更高。而臨床上我們可能直接判斷為 cT4b 期的案例,很可能病理上只是 pT3 期。術者可以對術中所見 T 分期有較為明顯的判斷,然而最終病理 T 分期可能不是預想的狀態。
同樣從影像學上去判斷腫瘤周圍淋巴結轉移,多以腫大淋巴結及其數量作為考量。但是這一考量的準確性不一定高。通過本次研究中,病理學對于 N 分期判斷的淋巴結(腫瘤近區引流范圍內),可以發現有淋巴結轉移者大約占 41.9%(含上文結果中所有 N1 和 N2 狀態)。而影像學提供在該區域的淋巴結轉移者大約占 51.4%。通常,影像醫生可能會把腸系膜下血管根部淋巴結判斷作為遠處淋巴結轉移,而部分位于腹主動脈旁的淋巴結轉移,都劃歸為遠處淋巴結轉移。這足以顯示兩者可能存在判斷的不一致。我們需要特別重視的是,當我們對于患者進行術前分期時,更多引用了 iN 分期,而病理分期則是評估術后分期。我們在為患者決策是否進行新輔助治療方案的時候,更多依賴了影像分期和臨床評估(如:當術前判斷直腸超低位癌固定,可以直接認定為 cT4b 期)。這時,術前判斷 N 分期的準確性就尤為重要,一旦判斷區域進展狀態,則可能更多選擇了新輔助治療優先的方案。所以,曾經有學者提出,在沒有新輔助治療的案例中,選擇影像學淋巴結與術中切除標本對應部位淋巴結進行對比,以判斷 N 分期的符合率。這確實為思路之一。
研究[24]認為,血管密度增加與腫瘤的發展存在密切關系。而現在從病理分期上,很難描述血管增生情況,而影像學和臨床術中發現則都對血管增生改變(或者說血管密度增加)進行了描述。影像上出現腫瘤周圍血管增加的患者占 41.1%,術中可見血管增生樣改變(如描述充血性表現)的患者占 46.4%。這一指標,若單獨從病理學報告上,很難提煉出一項可以準確記錄的指標。以上的對比性分析,都從更為細節的角度,闡述了臨床、影像和病理在分期上可能存在的一些差異。正如上文所述,筆者所在團隊對于結直腸癌的分期進行多參數管理,其核心目的是希望建立更為完善和準確的腫瘤嚴重程度的評估體系。而對于臨床、影像和病理在分期中參數的不一致問題,則還需要進一步通過數據模型進行判斷,甚至需要借助源于 MRI、CT 等的影像組學技術,以及病理學圖像分析等等前沿技術,最終構建一套動態的,可不斷優化的分期體系。
3.3 指南中的高風險因素在數據庫中的應用
結直腸癌的高風險因素在其他的研究中有一定的界定(如:cT4b、cN2、腸壁外靜脈浸潤、環周切緣陽性或側方淋巴結陽性)[25],但是從臨床應用上看卻遠遠不夠。所以對于高風險因素,在以分期為基礎的病情嚴重程度判斷之外,還需要進行詳細的闡述。所謂高風險因素,應該是可能關聯到患者后期出現的轉移、復發,甚至疑瘤狀態(如:CEA 持續走高和不穩定狀態)的因素。所以筆者所在團隊對于高風險因素的界定,不僅需要涵蓋可能的危險因素,而且對于危險因素進行了分級。筆者所在團隊對于危險因素設計了 5 個不同的級別,級別越高,風險越大;而每一類級別中,都有一定的參數作為判斷。從目前的分析結果來看,結直腸癌患者具備危險因素者可以達到 82.0%,絕大多數都存在某種危險因素。
從數據庫的角度上看待高風險因素,是我們根據前期臨床經驗與科研結果,把可能成為影響患者預后的獨立因素或者聯合因素,視為高風險因素。這些具有預后結果強關聯的數據,是關聯于患者治療效果、長期生存等重要終點指標的源數據,也是構建預后模型的重要組成部分。因此,筆者所在團隊在進行結直腸癌數據庫構建的過程中,充分考慮到數據庫未來的應用性,如:模型構建、數據內部邏輯關系等,提示了對于高風險因素的關注度。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:汪曉東負責本文的主要撰寫工作及修改;劉健博和何欣林共同負責數據整理及部分撰寫工作;劉健博和鄒雨恒負責文章的圖表制作;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
倫理聲明:本研究已通過四川大學華西醫院倫理學委員會的審核并同意(批準文號:2019-140 號)。