引用本文: 汪曉東, 劉健博, 李立. 數據庫建設第六部分:結直腸癌分期的標簽與結構化. 中國普外基礎與臨床雜志, 2020, 27(7): 873-879. doi: 10.7507/1007-9424.202005067 復制
續前系列研究[1-7],本研究團隊對華西腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建基本思路進行了總體闡述,同時對個人數據、住院管理流程、術前內外科合并癥、腫瘤特征等進行了相應的闡述和報道。本研究承接《中國普外基礎與臨床雜志》2020 年第 6 期發表的“數據庫研究第六部分:結直腸癌的分期策略”[8]所做的臨床研究報道,現將對華西 DACCA 中結直腸癌分期特征的具體概念、標簽與結構化進行詳細闡述。
1 DACCA 中結直腸癌的分期特征模塊構成
1.1 總體構成
按照 DACCA 數據庫設計的基本理念,充分考慮到腫瘤分期的特殊性并分析了傳統 TNM 分期即常用的 AJCC-TNM 分期[9]可能的不足之處,從而將 DACCA 中分期的參數做出以下的細化設計,以便于更為貼近腫瘤嚴重程度的真實狀態,在分期特征中擬合到一個真實世界的數據狀態。在 DACCA 中,對于結直腸癌的總體分期特征分別來自術中分期、cpi 綜合分期和 TNM 分期三大部分;然后針對 T、N、M 分期分別又根據臨床、病理和影像不同對其進行了更為詳細的參數劃分。
1.2 分期與風險
對于結直腸癌,除單純 TNM 分期外,可能有部分患者即已存在其他臨床或病理特征可以補充 TNM 分期劃分的不足,類似于分類系數外的權重調整,如 pTNM Ⅱb 期,若存在高危因素時,處理方案可能會參照Ⅲ期進行調整。
除分期以外,通常還會配合風險因素作為一個輔助的評估嚴重程度的參數。目前,最為常見的高風險因素為環周切緣陽性狀態[10];除此之外,還有大量的臨床和病理特征可能形成對預后造成影響的高風險因素。然而高風險因素一直還缺乏系統的整理和歸類,在 DACCA 參數設計中考慮了這個重要因素并納入新的分類方式,進一步加強對腫瘤嚴重程度評估和預后判斷的精準性。
2 DACCA 中結直腸癌的分期特征模塊的定義及解讀
2.1 總體分期
2.1.1 術中分期
2.1.1.1 定義
在 DACCA 中,術中分期是根據主刀醫生對術中所見腫瘤情況進行直觀的評估,帶有經驗性因素,同時會充分結合術前對患者的術前評估進行調整,主要反映肉眼所見腫瘤的嚴重程度。
2.1.1.2 結構化與標簽
針對術中分期數據列中的數據,其分類方式結構化按嚴重程度劃分為早、早中、中、中后、中晚、近晚、晚、極晚,均指期別。在數據列中以以上期別文字作為標簽,采用文本形式進行記錄。對該結構化方式的理解可以粗略地對應第 8 版 AJCC-TNM 分期的情況,見表1。

2.1.1.3 糾錯與更新
考慮到可能存在的記憶缺失和錯誤,通常術中分期需在手術結束后即刻填入,因在后續過程中將難以再次核實和更正。因此,要求對此部分數據進行及時錄入并保證準確性(在后續多數術中數據錄入中均存在如此問題)。
2.1.2 cpi 綜合分期
2.1.2.1 定義
在 DACCA 中,cpi 綜合分期的 cpi 是縮寫,其中 c 是指 clinic(臨床),p 是指 pathologic(病理),i 是指 image(影像)。因此,將 cpi 綜合分期定義為對結直腸癌嚴重程度綜合性判斷的分期方式,其主要結構考量仍結合第 8 版 AJCC-TNM 分期原理,但是充分考慮了醫生經驗判斷和影像學的補充。
2.1.2.2 結構化與標簽
對于 cpi 綜合分期的結構化可以拆解為分期+風險兩部分,在標簽設計時,按照文本形式進行記錄,其中風險采用“+”作為符號標簽,每增加一個“+”符號標簽表示多一個高風險因素,如對于 cpi 綜合分期標記為“Ⅱb+++”,表示分期劃分在Ⅱb 期同時有 3 個高風險因素。在進行結構化分析時,可以將 cpi 綜合分期作為分期和風險兩個參數進行分析,其中分期部分的結構化按照嚴重程度可以分為Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA、ⅣB,而風險部分則可以按照高風險因素的數量進行結構化。
2.1.2.3 糾錯與更新
由于加入臨床因素,則帶有專業醫生的經驗因素,這也是對 TNM 分期進行矯正最重要的內容。在進行數據錄入時,通常第 1 次錄入可以發生在手術完成后填寫,隨后會在病理分期返回后進行一次更新和矯正。需特別注意,此數據難以糾錯,一定要在需要支持 cpi 綜合分期的信息齊全時盡早完成其分期的填寫。
2.1.3 TNM 分期
2.1.3.1 定義
在 DACCA 中,對于結直腸癌的 TNM 分期則遵照當前指南的引用選擇 AJCC-TNM 分期方式。若 AJCC 對 TNM 分期有新的分期修正并發布后,則新入組患者的數據采用新分期方式進行數據錄入。目前 AJCC-TNM 分期為第 8 版[9]。目前主要的分期方式見表2。

2.1.3.2 結構化與標簽
在 DACCA 中,對于 TNM 分期的結構化完全按照分期總期別進行劃分,即按照嚴重程度分為 0、Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA、ⅣB、ⅣC。結構化分析也按照此分類方式進行。對于數據填寫中的標簽與結構化顯示的內容一致,以文本形式進行保存。
2.1.3.3 糾錯與更新
在進行 TNM 分期填寫時,多數情況下可對 M 分期進行術前填寫,當然在手術完成后還需再次更新。除此之外,需在病理學診斷報告出來后完整填寫對應的 T、N、M 分期(如后文描述)并準確按照標準進行轉換,后期也可以通過數據核實時再次糾正可能填寫的錯誤。從計算機應用角度看,對于 TNM 分期的填寫,可以在完成 T、N、M 分別的分期期別填寫后自動生成。
2.2 分類分期
在 DACCA 中,分類分期是對基于 T、N、M 分別的分期基礎上更為詳細地描述腫瘤特征、轉移情況等細節參數指標的集合。下面詳細闡述這些細節參數的內涵。
2.2.1 T 分期
2.2.1.1 定義
針對 T 分期概念下的細節參數,在 DACCA 數據分類項目中包括 T 病理、T 臨床、T 影像、神經、肛病理、肛臨床、肛影像、系病理、系臨床、系影像 10 個參數。
2.2.1.1.1 T 病理
在 DACCA 中,T 病理是指按照病理學診斷報告對腫瘤浸潤深度進行的判斷,等同于 pT 分期的概念,包括 Tis[12]、1、2、3、4a、4b,同時由于存在可能追加根治性手術和新輔助治療后的情況,還包括了“0(無)”的情況。
2.2.1.1.2 T 臨床
在 DACCA 中,T 臨床是指專科醫生在結合術中發現、術前專科查體、術前影像學檢查對腫瘤浸潤情況的臨床綜合判斷,等同于 cT 分期的概念,包括 0、1、2、3、4a、4b、4B。需注意,對周圍臟器直接受累狀態在 cT 分期時需界定是否可能存在完全無法切除的情況,即最多達到 R2 切除[13]的情況,若有此情況則應屬于 4B 期;若盡管處于周圍臟器直接受累但可通過轉化達到切除目的且并非 R2(肉眼殘留)切除時則應屬于 4b 期。
2.2.1.1.3 T 影像
在 DACCA 中,T 影像是指通過 CT、MRI 等多種影像手段對腫瘤浸潤深度進行的判斷。當患者同時有 CT、MRI 或超聲對腫瘤進行了 T 分期劃分時,則選取分期相對更高的期別作為應用數據填寫到數據列中,包括 0、1、2、3、4a、4b。
2.2.1.1.4 神經
在 DACCA 中,神經特指結直腸鄰近支配神經的受累情況,結合病理和臨床進行綜合判斷,根據神經受累的具體情況劃分級別為未受累、可疑受累及確切受累 3 種情況。
2.2.1.1.5 肛病理、肛臨床及肛影像
在 DACCA 中,針對低位(距肛門齒狀線距離≤3 cm)[6]直腸癌患者,需要專門針對肛門周圍肌肉受累情況進行描述,分別在病理學即肛病理、臨床判斷即肛臨床及影像學即肛影像中進行描述。① 肛病理是指病理診斷報告中對肛門周圍肌肉受累情況的描述,包括有或無 2 種情況;② 肛臨床是指在手術過程中可通過肉眼觀察以及在解剖下分析時判斷腫瘤對肛門周圍肌肉受累情況的描述,包括有、可疑或無 3 種情況;③ 肛影像是指通過在影像技術下判斷腫瘤對肛門周圍肌肉受累情況的描述,包括有、可疑或無 3 種情況。
2.2.1.1.6 系病理、系臨床、系影像
在 DACCA 中,針對腫瘤旁的系膜組織受累情況進行專門描述并分別在病理學即系病理、臨床判斷即系臨床及影像學即系影像中進行填寫。① 病理學判斷的系膜受累包括兩個方面的信息,一是是否受累(表達為是或否),二是受累深度;② 臨床判斷的系膜受累包括有、可疑或無 3 種情況;③ 影像學判斷的系膜受累包括有、可疑或無 3 種情況。
2.2.1.2 結構化與標簽
在 DACCA 中,① 對 T 病理、T 臨床及 T 影像可以采用標準的結構化方式進行應用,在數據填寫過程中以文本形式保存,如表3 中的表達方式。T 分期細節除了表3 中的 3 種結構化表達方式外,在進行標簽時,為進一步準確描述 T 分期細節,通常還會在結構化部分以外附加文字標簽來準確表達受累部位,在數據庫中以文本形式在括號內填寫,括號內的文字可以按照病種進行分析,如在 T 病理描述中標簽為“T4b(聯合縱肌)”。② 對于神經受累情況,除按照前面定義中所述的受累級別設計結構化以便于進行分析外,同樣需要附加文字準確表達受累神經的部位,在數據庫中以文本形式在括號內填寫,括號內的文字可按照解剖部位進行分析,如在神經描述中標簽為“受累(植物神經)”。③ 對于肛病理、肛臨床及肛影像在進行結構化分析時則可以選擇前面定義部分的分類方式,將其級別劃分為無、可疑(肛病理不含此內容)及確定,在進行標簽時,以文字形式保存,若出現可疑和確定時則需要通過附加文字標簽進行表達,如肛臨床描述中標簽為“確定(外括約肌)”。④ 對于系病理、系臨床及系影像在進行結構化分析時也是按前面定義部分的分類方式,將其級別劃分為無、可疑(系病理不含此內容)及確定。由于可疑的情況只會在系臨床和系影像中出現,因此在進行標簽時也是通過附加文字標簽進行表達。但需特別注意,系病理在病理學診斷報告提取中不僅可獲取是否發生了系膜受累,還會獲取具體的受累深度,如病理報告中可能會描述“腫瘤周圍系膜受累,達 5 mm”,此不單提示了受累“是”的情況,還有一個數字化的受累深度,在數據庫管理時將這個深度按照文本進行保存,如在系病理描述中標簽為“確定(5 mm)”。

2.2.1.3 糾錯與更新
針對 T 分期細節化的參數,每個數據框內的內容填寫都要求精準,需通過臨床判斷、病理學報告解讀、影像學圖像解讀等多種形式完成錄入且反復核實,一旦形成數據后將對后續的臨床決策造成巨大影響。通常需要求多位專科醫生對信息進行術后階段的回顧性多次核查、校對。影像學部分的細節解讀也可以聯合影像科專科醫生協助,以求更為準確。需特別注意的是,所謂真實世界狀態,應該是與患者真實情況一致的數據轉化,但無論是臨床、影像甚至病理學,都是通過專業技術對于一個真相的解讀過程,所以在數據庫設計時,為降低與真實世界之間的誤差度,設計的細節參數在錄入過程中顯得尤為重要。
2.2.2 N 分期
2.2.2.1 定義
針對 N 分期概念下的細節參數,DACCA 數據分類項目中包括了 N 病理、N 臨床、N 影像、淋巴比、癌結節 5 個參數。
2.2.2.1.1 N 病理
在 DACCA 中,N 病理是指按照病理分期進行的淋巴結分期,其分類方式根據陽性淋巴結數量進行換算,分別為 0、1a、1b、1c、2a、2b,不確定者為 Nx。
2.2.2.1.2 N 臨床
在 DACCA 中,N 臨床是指經過術中探查情況對淋巴結轉移情況的評估分期,其分類方式按照淋巴結轉移數量劃分為 0、1(1~3 枚轉移淋巴結)、2(≥4 枚轉移淋巴結)、Nx(不確定者)。
2.2.2.1.3 N 影像
在 DACCA 中,N 影像是指通過 CT、MRI 等技術對腫瘤近區淋巴結轉移情況的評估。由于直接通過影像判斷淋巴結是否為陽性較為困難,多數還是依賴顯影情況及淋巴結大小評估為影像學下陽性淋巴結,也按照 N 臨床的劃分方式劃分為 0、1、2、Nx(不確定者)。
2.2.2.1.4 淋巴比
在 DACCA 中,淋巴比是指病理結果確定為陽性的淋巴結總數與從手術切除標本中實際解剖出送病理檢查的淋巴結總數間的比例,前者為分子,后者為分母。
2.2.2.1.5 癌結節
在 DACCA 中,癌結節是指在病理檢查后確定的腫瘤周圍非淋巴結而獨立存在的癌細胞簇形成的癌結節[14],對其數量進行記錄。
2.2.2.2 結構化與標簽
① 對于 N 分期細分參數中的 N 病理、N 臨床及 N 影像的結構化管理按照其對應的具體分類方式進行,其在數據列中的結構化表達方式見表4;其數據標簽與結構化表達形式一致,以文本方式保留。② 對于淋巴比的標簽也是采用文本進行保留,必須是按照前面定義中描述的“分子/分母”的完整格式進行保留,而從結構化角度上看,作為分子的陽性淋巴結數量和分母的送檢淋巴結總數都是可以以數字的形式分別保留。在進行結構化分析時,通常是需要分析淋巴結檢查總數的狀態以及陽性淋巴結數量的情況,同時后者還可通過陽性淋巴結數量協助換算 N 病理的分期。③ 對于癌結節的數據,其結構化按照數值資料進行分析,以數值方式保存,即保存在癌結節數據框中的信息直接代表癌結節的數量,如“0”代表沒有,其他數字代表其具體的癌結節個數。

2.2.2.3 糾錯與更新
對于 N 分期的填寫,與 T 分期的細化參數一樣,對其填寫的準確性要求也較高。N 病理通常是在病理檢查結果出來后可獲取;淋巴比和癌結節也是來自于病理檢查結果的解讀;N 臨床則是需要在術后即刻完成填寫,以避免臨床所見隨時間的延遲而遺忘;N 影像則仍建議更多地結合影像科專科醫生的評估后再獲取信息。對于以上信息,通過后期再次核實盡管很有必要,但仍依賴于早期完成準確填報。
2.2.3 M 分期
2.2.3.1 定義
針對 M 分期概念下的細節參數,DACCA 數據分類項目中包括了 M 分期、M 臨床、癌旁、癌栓、血病理、血臨床、血影像 7 個參數。
2.2.3.1.1 M 分期
在 DACCA 中,沒有再納入特指的病理學或影像學 M 分期,而是將二者合并,因多數情況下這二者是共同形成 M 分期的依據。M 分期是指結直腸癌的遠處轉移臟器情況的嚴重程度,其分類方式描述為:“0”表示無遠處轉移;“x”表示遠處轉移無法評估,如未做胸部或腹部增強 CT 等;“1a”表示轉移到某一器官或部位(如肝、肺、卵巢、非區域淋巴結);“1b”表示轉移到超過 1 個器官或部位;“1c”表示腹膜轉移。
2.2.3.1.2 M 臨床
在 DACCA 中,M 臨床是指通過臨床指標進行評估的轉移狀態,在 M 分期確切的情況下,M 臨床更多是作為對于特殊情況的補充,其包括兩個部分:一部分是主要分類,另一部分作為臨床決策性補充分類,見表5。

2.2.3.1.3 癌旁
在 DACCA 中,癌旁是特指病理學報告中對癌旁組織的描述,通常會報告在癌旁組織中是否發現異常情況,其分類方式描述為:“0”表示無異常;“1”表示有異常,若存在異常,則用文字說明異常可能的情況,如描述為“1(息肉)”。
2.2.3.1.4 癌栓
在 DACCA 中,癌栓是指病理學結果中對于發現腫瘤旁癌栓發生情況的描述[15]。由于癌栓的描述方式多種,在 DACCA 設計中根據其嚴重程度進行分級并將其作為危險因素進行考慮,具體分級情況為:“0”表示無癌栓;“1” 表示一級高危因素(HG1),查見脈管或淋巴管癌栓或內外侵犯;“2”表示二級高危因素(HG2),同時合并淋巴管和血管侵犯或癌栓;“3”表示三級高危因素(HG3),多處、廣泛、大量癌栓,門靜脈癌栓、腸系膜下靜脈癌栓等大動脈大靜脈系膜癌栓。
2.2.3.1.5 血病理、血臨床及血影像
在 DACCA 中,對結直腸癌鄰近區域血管狀態描述是對病理學信息補充的重要內容之一,用于細節描述血管受累及血管異常狀態。① 血病理是指病理學報告中對血管受累情況進行的描述,其分類方式描述為:“0”表示未受累,“1”表示受累。② 血臨床是指在手術中對腫瘤周圍血管狀態進行的描述,其分類方式描述為:“0”表示未見異常,“1”表示盆腔骶前或腸管周圍系膜血管明顯廣泛充血、血管增多、靜脈曲張,“2”表示盆腔及周圍組織或腸管血管瘤樣擴張。③ 血影像則是指在影像上對于腫瘤周圍血管密度改變的描述,其分類方式描述為:“0”表示未見血管密度改變,“1”表示血管密度增加(此處的血管密度增加可以表示直接描述的血管密度增加或 MRI 下描述的壁外血管侵犯[16])。
2.2.3.2 結構化與標簽
① 根據前面對于 M 分期和 M 臨床的描述,對這二者的數據結構化仍首先沿用其分類方式作為結構化分析的基礎,M 分期的結構化表達為 M0、Mx、M1a、M1b、M1c,M 臨床主要分類的結構化表達與 M 分期是一致的,但其還多了一個亞分級的結構化,即在 M1a、M1b、M1c 的后面可以追加分類結構“x、*、–、+”符號,見表5。這些分類的結構化形式可以聯合應用,也可以分別應用。在 M 分期和 M 臨床的標簽應用中均以文本形式記錄,其表達出的內容和結構化應用是一致的。② 對于癌旁的數據結構化,主要是對于其“0”和“1”代表的分類區別,但是在標簽應用中,除去“0”和“1”作為二分類的文本填寫外,在填寫“1”時,還需在后用括號追加其出現異常癌旁情況的文字描述。③ 對于癌栓的數據結構化,可以完全按照定義中劃分的類型“0~3”這 4 個級別進行分析,在進行標簽填寫時采用數字的形式形成級別高低,其表達的形式在數據框中與結構化要求是一致的。④ 對于血病理、血臨床和血影像則與癌旁類似。首先,在結構化需求中,只需要對血病理選取“0”或“1”的二分類、血臨床采用 0~2 的等級分類以及血影像采用“0”和“1”的二分類形式,但是在標簽應用時,除了這 3 項填寫時可直接采用數字表示不同的級別外,針對血病理在出現需要填寫標簽為“1”時則需要追加括號,在括號內填寫具體累及血管的部位。
2.2.3.3 糾錯與更新
在針對 DACCA 中 M 分期的一些細化參數應用中,多數信息可來自于病理學報告或由病理學報告解讀出來,所以關鍵的填寫時間點是在獲取病理學報告后,同樣也是通過病理學報告進行反復核實的。但是對于需基于臨床的 M 臨床和血臨床的信息時則需在術前評估和手術完成后盡快填寫,以避免記憶帶來的誤差。相較于來自于以臨床為主的信息,對來自于影像的信息相對較好,因現在多數醫院的 PACS 系統可保留影像圖像和檢查報告結果,可通過后續復查進行必要的更正,但這仍需影像科專業醫生的協助,才會有更為準確的結果。
2.3 風險因素
在 DACCA 中,對結直腸癌的風險因素通過兩方面的數據進行記錄:一是描述術中腫瘤沾染情況;二是描述可能存在對預后造成影響的高危因素。
2.3.1 沾染
2.3.1.1 定義
在 DACCA 中,對沾染的定義為癌性沾染[17-18]。對于結直腸癌手術,癌性沾染是無瘤化原則的重要內容之一,因此在構建風險因素欄目時需將癌性沾染作為一項重要的風險信息進行保留。在一般研究中,對于癌性沾染的表達主要是判斷其是否有癌性沾染,而在 DACCA 中則在此基礎上還對其嚴重程度進行了分級,以描述風險暴露的強度,具體分級情況:“0”表示無;“1”表示輕度即腫瘤觸摸沾染;“2”表示中度即腫瘤游離穿孔;“3”表示重度即腫瘤完全潰破。
2.3.1.2 結構化與標簽
由于對于癌性沾染有明確的定義劃分,在 DACCA 中的標簽與結構化的表現形式是一樣的。其中,結構化是對于其 0~3 的分級方式以進行進一步的分析,而標簽的填寫則是采用數字的形式進行記錄。
2.3.1.3 糾錯與更新
癌性沾染是完全來自于術中信息,需及時在手術完成后填寫,此信息難以在后續臨床中重新回溯,因此尤其需要注意信息填寫的及時性和準確性。
2.3.2 高危因素
2.3.2.1 定義
盡管目前有研究[19]對于結直腸癌的高危因素進行了探討,但是仍缺乏較為系統的劃分方式。本研究團隊根據臨床、病理、影像、檢驗等多方面的信息,經過多年臨床實踐總結得出具有一定參考意義的高危因素的分類方式,其結合臨床因素的相互關系而形成了一套現在應用于臨床的高危因素劃分體系。首先,對結直腸癌直接相關因素進行高危因素劃分,分為 HG1、HG2 及 HG3 3 級,見表6。然后,設置了間接影響預后的 6 項附加因素(additional factors,AF),包括:① 重度盆腔解剖異常;② 盆腹腔血管豐富型;③ 術中癌性沾染;④ 手術質量評估較差者;⑤ CEA 異常增高或合并多個癌相關抗原增高或合并 AFP 異常增高;⑥ 新輔助化療指標不敏感。雖然這些 AF 不直接反映對于預后的影響,但是其在與直接相關因素聯合時會導致對預后造成影響。最后,根據結直腸癌直接相關因素的高危因素級別劃分及 AF 設計了最終的高危因素分級方案,見表7。


2.3.2.2 結構化與標簽
根據高危因素的分級劃分方案,在 DACCA 中對高危因素的結構化分析時只需按最終的分級方案進行,即按 0~5 級形成危險程度越來越高的分級。由于不需追加文字補充描述,因此,在標簽設計中采用“0~5”的數字形式作為標簽。
2.3.2.3 糾錯與更新
由于在設計 DACCA 中高危因素分級方案時涉及到大量臨床、病理及影像因素,而且還存在轉換,因此,除了需在術前評估和手術評估階段準確地完成必要的信息錄入外,還需特別注意對于分級轉換時的準確性。設計詳盡的高危因素分級方案,一方面是對目前高風險因素這一概念的解讀,更重要的是建立更為準確的評估體系,極早期地預警可能出現不良預后的情況。
從本研究中上述的定義中可以看出,很多分級方案中引用的因素也可能來自 DACCA 中其他數據項,如分化程度、病理類型等可以在數據庫內部交互的功能建設中去加以完善,這樣可以更好地保證數據的準確性。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東負責文章的主要撰寫工作;劉健博負責文章的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
續前系列研究[1-7],本研究團隊對華西腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建基本思路進行了總體闡述,同時對個人數據、住院管理流程、術前內外科合并癥、腫瘤特征等進行了相應的闡述和報道。本研究承接《中國普外基礎與臨床雜志》2020 年第 6 期發表的“數據庫研究第六部分:結直腸癌的分期策略”[8]所做的臨床研究報道,現將對華西 DACCA 中結直腸癌分期特征的具體概念、標簽與結構化進行詳細闡述。
1 DACCA 中結直腸癌的分期特征模塊構成
1.1 總體構成
按照 DACCA 數據庫設計的基本理念,充分考慮到腫瘤分期的特殊性并分析了傳統 TNM 分期即常用的 AJCC-TNM 分期[9]可能的不足之處,從而將 DACCA 中分期的參數做出以下的細化設計,以便于更為貼近腫瘤嚴重程度的真實狀態,在分期特征中擬合到一個真實世界的數據狀態。在 DACCA 中,對于結直腸癌的總體分期特征分別來自術中分期、cpi 綜合分期和 TNM 分期三大部分;然后針對 T、N、M 分期分別又根據臨床、病理和影像不同對其進行了更為詳細的參數劃分。
1.2 分期與風險
對于結直腸癌,除單純 TNM 分期外,可能有部分患者即已存在其他臨床或病理特征可以補充 TNM 分期劃分的不足,類似于分類系數外的權重調整,如 pTNM Ⅱb 期,若存在高危因素時,處理方案可能會參照Ⅲ期進行調整。
除分期以外,通常還會配合風險因素作為一個輔助的評估嚴重程度的參數。目前,最為常見的高風險因素為環周切緣陽性狀態[10];除此之外,還有大量的臨床和病理特征可能形成對預后造成影響的高風險因素。然而高風險因素一直還缺乏系統的整理和歸類,在 DACCA 參數設計中考慮了這個重要因素并納入新的分類方式,進一步加強對腫瘤嚴重程度評估和預后判斷的精準性。
2 DACCA 中結直腸癌的分期特征模塊的定義及解讀
2.1 總體分期
2.1.1 術中分期
2.1.1.1 定義
在 DACCA 中,術中分期是根據主刀醫生對術中所見腫瘤情況進行直觀的評估,帶有經驗性因素,同時會充分結合術前對患者的術前評估進行調整,主要反映肉眼所見腫瘤的嚴重程度。
2.1.1.2 結構化與標簽
針對術中分期數據列中的數據,其分類方式結構化按嚴重程度劃分為早、早中、中、中后、中晚、近晚、晚、極晚,均指期別。在數據列中以以上期別文字作為標簽,采用文本形式進行記錄。對該結構化方式的理解可以粗略地對應第 8 版 AJCC-TNM 分期的情況,見表1。

2.1.1.3 糾錯與更新
考慮到可能存在的記憶缺失和錯誤,通常術中分期需在手術結束后即刻填入,因在后續過程中將難以再次核實和更正。因此,要求對此部分數據進行及時錄入并保證準確性(在后續多數術中數據錄入中均存在如此問題)。
2.1.2 cpi 綜合分期
2.1.2.1 定義
在 DACCA 中,cpi 綜合分期的 cpi 是縮寫,其中 c 是指 clinic(臨床),p 是指 pathologic(病理),i 是指 image(影像)。因此,將 cpi 綜合分期定義為對結直腸癌嚴重程度綜合性判斷的分期方式,其主要結構考量仍結合第 8 版 AJCC-TNM 分期原理,但是充分考慮了醫生經驗判斷和影像學的補充。
2.1.2.2 結構化與標簽
對于 cpi 綜合分期的結構化可以拆解為分期+風險兩部分,在標簽設計時,按照文本形式進行記錄,其中風險采用“+”作為符號標簽,每增加一個“+”符號標簽表示多一個高風險因素,如對于 cpi 綜合分期標記為“Ⅱb+++”,表示分期劃分在Ⅱb 期同時有 3 個高風險因素。在進行結構化分析時,可以將 cpi 綜合分期作為分期和風險兩個參數進行分析,其中分期部分的結構化按照嚴重程度可以分為Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA、ⅣB,而風險部分則可以按照高風險因素的數量進行結構化。
2.1.2.3 糾錯與更新
由于加入臨床因素,則帶有專業醫生的經驗因素,這也是對 TNM 分期進行矯正最重要的內容。在進行數據錄入時,通常第 1 次錄入可以發生在手術完成后填寫,隨后會在病理分期返回后進行一次更新和矯正。需特別注意,此數據難以糾錯,一定要在需要支持 cpi 綜合分期的信息齊全時盡早完成其分期的填寫。
2.1.3 TNM 分期
2.1.3.1 定義
在 DACCA 中,對于結直腸癌的 TNM 分期則遵照當前指南的引用選擇 AJCC-TNM 分期方式。若 AJCC 對 TNM 分期有新的分期修正并發布后,則新入組患者的數據采用新分期方式進行數據錄入。目前 AJCC-TNM 分期為第 8 版[9]。目前主要的分期方式見表2。

2.1.3.2 結構化與標簽
在 DACCA 中,對于 TNM 分期的結構化完全按照分期總期別進行劃分,即按照嚴重程度分為 0、Ⅰ、ⅡA、ⅡB、ⅡC、ⅢA、ⅢB、ⅢC、ⅣA、ⅣB、ⅣC。結構化分析也按照此分類方式進行。對于數據填寫中的標簽與結構化顯示的內容一致,以文本形式進行保存。
2.1.3.3 糾錯與更新
在進行 TNM 分期填寫時,多數情況下可對 M 分期進行術前填寫,當然在手術完成后還需再次更新。除此之外,需在病理學診斷報告出來后完整填寫對應的 T、N、M 分期(如后文描述)并準確按照標準進行轉換,后期也可以通過數據核實時再次糾正可能填寫的錯誤。從計算機應用角度看,對于 TNM 分期的填寫,可以在完成 T、N、M 分別的分期期別填寫后自動生成。
2.2 分類分期
在 DACCA 中,分類分期是對基于 T、N、M 分別的分期基礎上更為詳細地描述腫瘤特征、轉移情況等細節參數指標的集合。下面詳細闡述這些細節參數的內涵。
2.2.1 T 分期
2.2.1.1 定義
針對 T 分期概念下的細節參數,在 DACCA 數據分類項目中包括 T 病理、T 臨床、T 影像、神經、肛病理、肛臨床、肛影像、系病理、系臨床、系影像 10 個參數。
2.2.1.1.1 T 病理
在 DACCA 中,T 病理是指按照病理學診斷報告對腫瘤浸潤深度進行的判斷,等同于 pT 分期的概念,包括 Tis[12]、1、2、3、4a、4b,同時由于存在可能追加根治性手術和新輔助治療后的情況,還包括了“0(無)”的情況。
2.2.1.1.2 T 臨床
在 DACCA 中,T 臨床是指專科醫生在結合術中發現、術前專科查體、術前影像學檢查對腫瘤浸潤情況的臨床綜合判斷,等同于 cT 分期的概念,包括 0、1、2、3、4a、4b、4B。需注意,對周圍臟器直接受累狀態在 cT 分期時需界定是否可能存在完全無法切除的情況,即最多達到 R2 切除[13]的情況,若有此情況則應屬于 4B 期;若盡管處于周圍臟器直接受累但可通過轉化達到切除目的且并非 R2(肉眼殘留)切除時則應屬于 4b 期。
2.2.1.1.3 T 影像
在 DACCA 中,T 影像是指通過 CT、MRI 等多種影像手段對腫瘤浸潤深度進行的判斷。當患者同時有 CT、MRI 或超聲對腫瘤進行了 T 分期劃分時,則選取分期相對更高的期別作為應用數據填寫到數據列中,包括 0、1、2、3、4a、4b。
2.2.1.1.4 神經
在 DACCA 中,神經特指結直腸鄰近支配神經的受累情況,結合病理和臨床進行綜合判斷,根據神經受累的具體情況劃分級別為未受累、可疑受累及確切受累 3 種情況。
2.2.1.1.5 肛病理、肛臨床及肛影像
在 DACCA 中,針對低位(距肛門齒狀線距離≤3 cm)[6]直腸癌患者,需要專門針對肛門周圍肌肉受累情況進行描述,分別在病理學即肛病理、臨床判斷即肛臨床及影像學即肛影像中進行描述。① 肛病理是指病理診斷報告中對肛門周圍肌肉受累情況的描述,包括有或無 2 種情況;② 肛臨床是指在手術過程中可通過肉眼觀察以及在解剖下分析時判斷腫瘤對肛門周圍肌肉受累情況的描述,包括有、可疑或無 3 種情況;③ 肛影像是指通過在影像技術下判斷腫瘤對肛門周圍肌肉受累情況的描述,包括有、可疑或無 3 種情況。
2.2.1.1.6 系病理、系臨床、系影像
在 DACCA 中,針對腫瘤旁的系膜組織受累情況進行專門描述并分別在病理學即系病理、臨床判斷即系臨床及影像學即系影像中進行填寫。① 病理學判斷的系膜受累包括兩個方面的信息,一是是否受累(表達為是或否),二是受累深度;② 臨床判斷的系膜受累包括有、可疑或無 3 種情況;③ 影像學判斷的系膜受累包括有、可疑或無 3 種情況。
2.2.1.2 結構化與標簽
在 DACCA 中,① 對 T 病理、T 臨床及 T 影像可以采用標準的結構化方式進行應用,在數據填寫過程中以文本形式保存,如表3 中的表達方式。T 分期細節除了表3 中的 3 種結構化表達方式外,在進行標簽時,為進一步準確描述 T 分期細節,通常還會在結構化部分以外附加文字標簽來準確表達受累部位,在數據庫中以文本形式在括號內填寫,括號內的文字可以按照病種進行分析,如在 T 病理描述中標簽為“T4b(聯合縱肌)”。② 對于神經受累情況,除按照前面定義中所述的受累級別設計結構化以便于進行分析外,同樣需要附加文字準確表達受累神經的部位,在數據庫中以文本形式在括號內填寫,括號內的文字可按照解剖部位進行分析,如在神經描述中標簽為“受累(植物神經)”。③ 對于肛病理、肛臨床及肛影像在進行結構化分析時則可以選擇前面定義部分的分類方式,將其級別劃分為無、可疑(肛病理不含此內容)及確定,在進行標簽時,以文字形式保存,若出現可疑和確定時則需要通過附加文字標簽進行表達,如肛臨床描述中標簽為“確定(外括約肌)”。④ 對于系病理、系臨床及系影像在進行結構化分析時也是按前面定義部分的分類方式,將其級別劃分為無、可疑(系病理不含此內容)及確定。由于可疑的情況只會在系臨床和系影像中出現,因此在進行標簽時也是通過附加文字標簽進行表達。但需特別注意,系病理在病理學診斷報告提取中不僅可獲取是否發生了系膜受累,還會獲取具體的受累深度,如病理報告中可能會描述“腫瘤周圍系膜受累,達 5 mm”,此不單提示了受累“是”的情況,還有一個數字化的受累深度,在數據庫管理時將這個深度按照文本進行保存,如在系病理描述中標簽為“確定(5 mm)”。

2.2.1.3 糾錯與更新
針對 T 分期細節化的參數,每個數據框內的內容填寫都要求精準,需通過臨床判斷、病理學報告解讀、影像學圖像解讀等多種形式完成錄入且反復核實,一旦形成數據后將對后續的臨床決策造成巨大影響。通常需要求多位專科醫生對信息進行術后階段的回顧性多次核查、校對。影像學部分的細節解讀也可以聯合影像科專科醫生協助,以求更為準確。需特別注意的是,所謂真實世界狀態,應該是與患者真實情況一致的數據轉化,但無論是臨床、影像甚至病理學,都是通過專業技術對于一個真相的解讀過程,所以在數據庫設計時,為降低與真實世界之間的誤差度,設計的細節參數在錄入過程中顯得尤為重要。
2.2.2 N 分期
2.2.2.1 定義
針對 N 分期概念下的細節參數,DACCA 數據分類項目中包括了 N 病理、N 臨床、N 影像、淋巴比、癌結節 5 個參數。
2.2.2.1.1 N 病理
在 DACCA 中,N 病理是指按照病理分期進行的淋巴結分期,其分類方式根據陽性淋巴結數量進行換算,分別為 0、1a、1b、1c、2a、2b,不確定者為 Nx。
2.2.2.1.2 N 臨床
在 DACCA 中,N 臨床是指經過術中探查情況對淋巴結轉移情況的評估分期,其分類方式按照淋巴結轉移數量劃分為 0、1(1~3 枚轉移淋巴結)、2(≥4 枚轉移淋巴結)、Nx(不確定者)。
2.2.2.1.3 N 影像
在 DACCA 中,N 影像是指通過 CT、MRI 等技術對腫瘤近區淋巴結轉移情況的評估。由于直接通過影像判斷淋巴結是否為陽性較為困難,多數還是依賴顯影情況及淋巴結大小評估為影像學下陽性淋巴結,也按照 N 臨床的劃分方式劃分為 0、1、2、Nx(不確定者)。
2.2.2.1.4 淋巴比
在 DACCA 中,淋巴比是指病理結果確定為陽性的淋巴結總數與從手術切除標本中實際解剖出送病理檢查的淋巴結總數間的比例,前者為分子,后者為分母。
2.2.2.1.5 癌結節
在 DACCA 中,癌結節是指在病理檢查后確定的腫瘤周圍非淋巴結而獨立存在的癌細胞簇形成的癌結節[14],對其數量進行記錄。
2.2.2.2 結構化與標簽
① 對于 N 分期細分參數中的 N 病理、N 臨床及 N 影像的結構化管理按照其對應的具體分類方式進行,其在數據列中的結構化表達方式見表4;其數據標簽與結構化表達形式一致,以文本方式保留。② 對于淋巴比的標簽也是采用文本進行保留,必須是按照前面定義中描述的“分子/分母”的完整格式進行保留,而從結構化角度上看,作為分子的陽性淋巴結數量和分母的送檢淋巴結總數都是可以以數字的形式分別保留。在進行結構化分析時,通常是需要分析淋巴結檢查總數的狀態以及陽性淋巴結數量的情況,同時后者還可通過陽性淋巴結數量協助換算 N 病理的分期。③ 對于癌結節的數據,其結構化按照數值資料進行分析,以數值方式保存,即保存在癌結節數據框中的信息直接代表癌結節的數量,如“0”代表沒有,其他數字代表其具體的癌結節個數。

2.2.2.3 糾錯與更新
對于 N 分期的填寫,與 T 分期的細化參數一樣,對其填寫的準確性要求也較高。N 病理通常是在病理檢查結果出來后可獲取;淋巴比和癌結節也是來自于病理檢查結果的解讀;N 臨床則是需要在術后即刻完成填寫,以避免臨床所見隨時間的延遲而遺忘;N 影像則仍建議更多地結合影像科專科醫生的評估后再獲取信息。對于以上信息,通過后期再次核實盡管很有必要,但仍依賴于早期完成準確填報。
2.2.3 M 分期
2.2.3.1 定義
針對 M 分期概念下的細節參數,DACCA 數據分類項目中包括了 M 分期、M 臨床、癌旁、癌栓、血病理、血臨床、血影像 7 個參數。
2.2.3.1.1 M 分期
在 DACCA 中,沒有再納入特指的病理學或影像學 M 分期,而是將二者合并,因多數情況下這二者是共同形成 M 分期的依據。M 分期是指結直腸癌的遠處轉移臟器情況的嚴重程度,其分類方式描述為:“0”表示無遠處轉移;“x”表示遠處轉移無法評估,如未做胸部或腹部增強 CT 等;“1a”表示轉移到某一器官或部位(如肝、肺、卵巢、非區域淋巴結);“1b”表示轉移到超過 1 個器官或部位;“1c”表示腹膜轉移。
2.2.3.1.2 M 臨床
在 DACCA 中,M 臨床是指通過臨床指標進行評估的轉移狀態,在 M 分期確切的情況下,M 臨床更多是作為對于特殊情況的補充,其包括兩個部分:一部分是主要分類,另一部分作為臨床決策性補充分類,見表5。

2.2.3.1.3 癌旁
在 DACCA 中,癌旁是特指病理學報告中對癌旁組織的描述,通常會報告在癌旁組織中是否發現異常情況,其分類方式描述為:“0”表示無異常;“1”表示有異常,若存在異常,則用文字說明異常可能的情況,如描述為“1(息肉)”。
2.2.3.1.4 癌栓
在 DACCA 中,癌栓是指病理學結果中對于發現腫瘤旁癌栓發生情況的描述[15]。由于癌栓的描述方式多種,在 DACCA 設計中根據其嚴重程度進行分級并將其作為危險因素進行考慮,具體分級情況為:“0”表示無癌栓;“1” 表示一級高危因素(HG1),查見脈管或淋巴管癌栓或內外侵犯;“2”表示二級高危因素(HG2),同時合并淋巴管和血管侵犯或癌栓;“3”表示三級高危因素(HG3),多處、廣泛、大量癌栓,門靜脈癌栓、腸系膜下靜脈癌栓等大動脈大靜脈系膜癌栓。
2.2.3.1.5 血病理、血臨床及血影像
在 DACCA 中,對結直腸癌鄰近區域血管狀態描述是對病理學信息補充的重要內容之一,用于細節描述血管受累及血管異常狀態。① 血病理是指病理學報告中對血管受累情況進行的描述,其分類方式描述為:“0”表示未受累,“1”表示受累。② 血臨床是指在手術中對腫瘤周圍血管狀態進行的描述,其分類方式描述為:“0”表示未見異常,“1”表示盆腔骶前或腸管周圍系膜血管明顯廣泛充血、血管增多、靜脈曲張,“2”表示盆腔及周圍組織或腸管血管瘤樣擴張。③ 血影像則是指在影像上對于腫瘤周圍血管密度改變的描述,其分類方式描述為:“0”表示未見血管密度改變,“1”表示血管密度增加(此處的血管密度增加可以表示直接描述的血管密度增加或 MRI 下描述的壁外血管侵犯[16])。
2.2.3.2 結構化與標簽
① 根據前面對于 M 分期和 M 臨床的描述,對這二者的數據結構化仍首先沿用其分類方式作為結構化分析的基礎,M 分期的結構化表達為 M0、Mx、M1a、M1b、M1c,M 臨床主要分類的結構化表達與 M 分期是一致的,但其還多了一個亞分級的結構化,即在 M1a、M1b、M1c 的后面可以追加分類結構“x、*、–、+”符號,見表5。這些分類的結構化形式可以聯合應用,也可以分別應用。在 M 分期和 M 臨床的標簽應用中均以文本形式記錄,其表達出的內容和結構化應用是一致的。② 對于癌旁的數據結構化,主要是對于其“0”和“1”代表的分類區別,但是在標簽應用中,除去“0”和“1”作為二分類的文本填寫外,在填寫“1”時,還需在后用括號追加其出現異常癌旁情況的文字描述。③ 對于癌栓的數據結構化,可以完全按照定義中劃分的類型“0~3”這 4 個級別進行分析,在進行標簽填寫時采用數字的形式形成級別高低,其表達的形式在數據框中與結構化要求是一致的。④ 對于血病理、血臨床和血影像則與癌旁類似。首先,在結構化需求中,只需要對血病理選取“0”或“1”的二分類、血臨床采用 0~2 的等級分類以及血影像采用“0”和“1”的二分類形式,但是在標簽應用時,除了這 3 項填寫時可直接采用數字表示不同的級別外,針對血病理在出現需要填寫標簽為“1”時則需要追加括號,在括號內填寫具體累及血管的部位。
2.2.3.3 糾錯與更新
在針對 DACCA 中 M 分期的一些細化參數應用中,多數信息可來自于病理學報告或由病理學報告解讀出來,所以關鍵的填寫時間點是在獲取病理學報告后,同樣也是通過病理學報告進行反復核實的。但是對于需基于臨床的 M 臨床和血臨床的信息時則需在術前評估和手術完成后盡快填寫,以避免記憶帶來的誤差。相較于來自于以臨床為主的信息,對來自于影像的信息相對較好,因現在多數醫院的 PACS 系統可保留影像圖像和檢查報告結果,可通過后續復查進行必要的更正,但這仍需影像科專業醫生的協助,才會有更為準確的結果。
2.3 風險因素
在 DACCA 中,對結直腸癌的風險因素通過兩方面的數據進行記錄:一是描述術中腫瘤沾染情況;二是描述可能存在對預后造成影響的高危因素。
2.3.1 沾染
2.3.1.1 定義
在 DACCA 中,對沾染的定義為癌性沾染[17-18]。對于結直腸癌手術,癌性沾染是無瘤化原則的重要內容之一,因此在構建風險因素欄目時需將癌性沾染作為一項重要的風險信息進行保留。在一般研究中,對于癌性沾染的表達主要是判斷其是否有癌性沾染,而在 DACCA 中則在此基礎上還對其嚴重程度進行了分級,以描述風險暴露的強度,具體分級情況:“0”表示無;“1”表示輕度即腫瘤觸摸沾染;“2”表示中度即腫瘤游離穿孔;“3”表示重度即腫瘤完全潰破。
2.3.1.2 結構化與標簽
由于對于癌性沾染有明確的定義劃分,在 DACCA 中的標簽與結構化的表現形式是一樣的。其中,結構化是對于其 0~3 的分級方式以進行進一步的分析,而標簽的填寫則是采用數字的形式進行記錄。
2.3.1.3 糾錯與更新
癌性沾染是完全來自于術中信息,需及時在手術完成后填寫,此信息難以在后續臨床中重新回溯,因此尤其需要注意信息填寫的及時性和準確性。
2.3.2 高危因素
2.3.2.1 定義
盡管目前有研究[19]對于結直腸癌的高危因素進行了探討,但是仍缺乏較為系統的劃分方式。本研究團隊根據臨床、病理、影像、檢驗等多方面的信息,經過多年臨床實踐總結得出具有一定參考意義的高危因素的分類方式,其結合臨床因素的相互關系而形成了一套現在應用于臨床的高危因素劃分體系。首先,對結直腸癌直接相關因素進行高危因素劃分,分為 HG1、HG2 及 HG3 3 級,見表6。然后,設置了間接影響預后的 6 項附加因素(additional factors,AF),包括:① 重度盆腔解剖異常;② 盆腹腔血管豐富型;③ 術中癌性沾染;④ 手術質量評估較差者;⑤ CEA 異常增高或合并多個癌相關抗原增高或合并 AFP 異常增高;⑥ 新輔助化療指標不敏感。雖然這些 AF 不直接反映對于預后的影響,但是其在與直接相關因素聯合時會導致對預后造成影響。最后,根據結直腸癌直接相關因素的高危因素級別劃分及 AF 設計了最終的高危因素分級方案,見表7。


2.3.2.2 結構化與標簽
根據高危因素的分級劃分方案,在 DACCA 中對高危因素的結構化分析時只需按最終的分級方案進行,即按 0~5 級形成危險程度越來越高的分級。由于不需追加文字補充描述,因此,在標簽設計中采用“0~5”的數字形式作為標簽。
2.3.2.3 糾錯與更新
由于在設計 DACCA 中高危因素分級方案時涉及到大量臨床、病理及影像因素,而且還存在轉換,因此,除了需在術前評估和手術評估階段準確地完成必要的信息錄入外,還需特別注意對于分級轉換時的準確性。設計詳盡的高危因素分級方案,一方面是對目前高風險因素這一概念的解讀,更重要的是建立更為準確的評估體系,極早期地預警可能出現不良預后的情況。
從本研究中上述的定義中可以看出,很多分級方案中引用的因素也可能來自 DACCA 中其他數據項,如分化程度、病理類型等可以在數據庫內部交互的功能建設中去加以完善,這樣可以更好地保證數據的準確性。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東負責文章的主要撰寫工作;劉健博負責文章的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。