引用本文: 汪曉東, 劉健博, 李立. 數據庫建設第五部分·結直腸癌的腫瘤特征—模塊的設計(二). 中國普外基礎與臨床雜志, 2020, 27(4): 483-488. doi: 10.7507/1007-9424.202002045 復制
在系列研究中,本團隊針對華西醫院的結直腸癌數據庫(Database from Colorectal Cancer,DACCA)構建思路進行了闡述[1-12]。前一部分針對“結直腸癌的腫瘤特征”的部分描述,已經對 DACCA 數據庫中結直腸癌的腫瘤特征模塊構成和模塊內部分項目的構建過程進行了闡述[13]。筆者現就結直腸癌的腫瘤特征模塊余下的項目,進行構建過程的闡述。
1 腫瘤特征模塊的項目設計解讀(續)
1.1 腫瘤形態
1.1.1 定義
DACCA 數據庫中,對于“腫瘤形態”的定義就是指腫瘤的大體類型,在這里就特指結直腸癌的腫瘤大體類型。“腫瘤形態”是通過腸鏡下和術中發現、影像學特征等綜合得出的數據特征。
1.1.2 經典分類方式
按照病理學對于結直腸癌的大體形態,按照早期和進展期進行劃分[14-15]。早期的結直腸癌,大體類型多為息肉型和隆起型。進展期的結直腸癌,則主要分為隆起型、潰瘍型、侵潤型和膠樣型。隆起型系指腫瘤的主體向腸腔內突出的類型;潰瘍型系指腫瘤形成可以深達或貫穿肌層的潰瘍;侵潤型系指腫瘤向腸壁各層彌漫浸潤,使局部腸壁增厚,但是表面無明顯潰瘍或隆起。
1.1.3 DACCA 分類方式
在 DACCA 數據庫中,根據結直腸癌生長的大體形態,分為 3 大主要類型(圖 1)。① 以息肉形態為主的腫瘤大體類型,包括:帶蒂息肉型(腫瘤主體呈現息肉樣,但在腸壁內側有活動度較好的蒂作為鏈接)、息肉型(常見的息肉樣隆起改變,但基底部較寬)、彌漫息肉型(腫瘤如地毯樣彌漫在腸壁內側,呈廣泛隆起改變,或散在的息肉改變,整個累及區域寬大,通常直徑會在 3 cm 以上,占據腸腔超過 1/2)及息肉隆起型(類似于“菜花樣”改變,腫瘤明顯隆起于腸腔內,隆起物高低不平,沒有形成潰瘍,但基底部質地硬,通常占據腸腔超過 1/3)。② 以腫瘤形態在腸腔內大面積隆起改變為主的類型,腫瘤向腸壁內的累及范圍至少達到黏膜肌層,包括:平坦型(腫瘤稍隆起于腸腔內,隆起面毛糙,但是總體處于一個平面)、腫塊型(腫瘤浸潤腸壁至少達到漿膜下層,且腫瘤主體部規則隆起于腸腔內,通常累及范圍直徑至少有 2 cm)和巨塊型(腫瘤累及腸壁達到甚至超過漿膜層,包繞腸腔 1 周,在腸壁內廣泛隆起,腸壁僵硬,累及腸段至少達到 8 cm)。③ 以潰瘍形態為主的腫瘤大體類型,包括:淺潰瘍型(腫瘤形態呈現火山口樣,但中心潰瘍面較小,通常僅在黏膜下形成淺潰瘍表現)、潰瘍型(呈現潰瘍表現外,通常潰瘍可以達到漿膜下層次,若為直腸癌,可以達到外膜層次)、深潰瘍型(呈現潰瘍表現外,潰瘍已經完全達到腸壁全層,部分可以達到漿膜層或者外膜以外,但是與周圍臟器無直接受累)、潰瘍浸潤型(在深潰瘍的基礎上,腫瘤潰瘍深面完全穿透外膜,周圍鄰近臟器或組織直接受累,等同于病理 T 分期中的 T4a–T4b 期)。④ 黏膜下浸潤型,屬于特殊一類腫瘤大體類型,腫瘤在黏膜層僅形成隆起改變,但是黏膜光滑,偶爾略顯粗糙,在病理學活檢時通常只能取到提示“炎性”的組織標本,但是腫瘤在漿膜下層開始向腸壁形成彌漫浸潤,多數情況下可以突破漿膜層在外累及周圍組織或者器官,而且該情況并不屬于種植性表現。

a:帶蒂息肉型;b:息肉型;c:彌漫息肉型;d:息肉隆起型;e:平坦型;f:腫塊型;g:巨塊型;h:淺潰瘍型;i:潰瘍型;j:深潰瘍型;k:潰瘍浸潤型;l:黏膜下侵潤型
1.1.4 標簽與結構化
在 DACCA 數據庫中,對于腫瘤形態的數據,以文本形式進行記錄,按照不同類型的腫瘤形態,分別作為標簽進行標記。在進行結構化分析的過程中,每種不同的腫瘤形態相對對立,彼此之間不形成從屬關系。在此基礎上進行相關的數據庫分析應用。
1.1.5 糾錯與更新
腫瘤形態盡管在術前腸鏡評估時就會有一定的結果,但是最準確的數據,還是依賴術中發現進行準確評估,根據以上 DACCA 數據庫所劃分的腫瘤形態,準確錄入類型,這里則需要注意避免錄入性錯誤的發生。此外也需要注意,若結直腸癌案例在經手術評估后,無法完成切除者[16],則至少需要腸鏡下的評估結果作為信息的來源。在某些特定的時候,如潰瘍侵潤型的判斷,很可能會遇到 cT4b 無法切除的情況,而腸鏡下可能只會發現為深潰瘍型的類型,此時則應該根據影像評估和其他前述數據庫建設所提到的評估手段,給出更為準確的數據。
1.2 大小
1.2.1 定義
“大小”實際上就是 DACCA 數據庫中描述的“腫瘤的大小”。這個大小系指腫瘤各個徑線的直徑相乘的結果。在通常所見的病理學專業的術后報告中,會提供腫瘤大體標本部分的最長橫縱徑線以及厚度的值,單位為“cm”。在 DACCA 數據庫中,則只保留最長橫縱徑線的數據。
一般在進行 DACCA 數據庫分析的過程中,會選擇最長徑線作為數據進行統計處理,如前述對于本部分數據庫數據進行分析的論文,就是選擇的最長徑線。但在必要的病理圖形分析時,也可調用最長橫縱徑線,必要時選取電子化的病理圖像作為該部分的補充信息。
1.2.2 標簽與結構化
在 DACCA 數據庫的“大小”數據框內,以文本形式保留最長橫縱徑線,兩個數字形式的文本,數據保留小數點后 1 位,數字之間用“×”(乘號)鏈接。在進行數據結構化時,則針對兩個徑線的數值做單獨的結構化標記,數據提取時提取結果為徑線數值。
1.2.3 糾錯與更新
通常,DACCA 數據庫的數據錄入是從術前評估階段就開始的,所以可能后期在解讀術前腸鏡報告、術中手術探查、切除標本觀察,以及術后的病理報告上,提供了所需的結直腸癌的腫瘤大小信息。在這些信息提供的數值有差異時,選擇錄入的數值優先順序為:術后病理學報告>術中觀察>術前腸鏡報告。在其他必要的情況,特別是由于腫瘤未予切除的情況下,還可以依靠影像學上的測量結果。主要的糾錯過程,也是尤其注意錄入性錯誤,同時需要反復根據錄入數值的優先級進行判斷。
1.3 方位
1.3.1 定義
在 DACCA 數據庫中,對于“方位”的記錄指代腫瘤在結腸或者直腸腸腔內所處的位置。由于結直腸腸腔為一管狀結構,腫瘤所處不同部位,與腸壁的層次以及漿膜層(外膜層)和其鄰近組織和器官,都可能存在不同的解剖毗鄰關系。因此,對于腫瘤方位作出了信息的記錄。我們按照解剖標準立位為方向指引,以腫瘤主體在腸管內的占據程度進行劃分,人面向方向為“前壁”,背向方向為“后壁”,人左側方向及右側方向均為“側壁”。若存在有橫跨面向與側方向者,為“前側壁”;有橫跨背向與側方向者,為“后側壁”;若跨過多個方向,達到超過 3/4 周時,為“1 圈”(圖 2)。

1.3.2 標簽與結構化
DACCA 數據庫中,“方位”的數據以文本形式作為標簽記錄。因為“方位”的類別有確定幾個選擇,因此屬于固定且有限的標簽。在進行結構化時,只需要按照同樣的文本保存為類別,并可以直接作為菜單選取的對象。
1.3.3 糾錯與更新
結直腸癌的腫瘤方位的采集,主要來源于對于手術中的解剖所見[17-18],部分情況下需要影像學做補充,特別是在經手術探查后無法切除的結直腸癌,方位的確定尤其需要謹慎判斷。對于納入 DACCA 數據庫的病例,腫瘤方位的數據采集應當及時,通常是在手術完成后的 24 h 內。隨著時間延長,再做記憶式補充尤為困難。因此需要強調手術數據的及時準確填寫。
1.4 分化
1.4.1 定義
在 DACCA 數據庫中,對“分化”的定義則系指腫瘤的分化程度。這和傳統的結直腸癌病理學中對于分化程度的解釋一致:指腫瘤細胞接近于正常細胞的程度。通常將腫瘤細胞分為4 個等級。高分化,指細胞分化程度較好;中分化,指細胞分化程度居中;低分化,指細胞分化程度較差;此外還有未分化[19]。
1.4.2 標簽與結構化
在 DACCA 數據庫中,對于分化程度均采用縮寫表示。高分化者,縮寫為“高”;中分化者,縮寫為“中”;低分化者,縮寫為“低”;未分化者,縮寫為“未”。針對分化程度的結構化,只針對這 4 種類型進行歸類和分析。但是在填寫數據庫的“分化”框時,采用文本格式,標簽表達方式也選取分化程度的縮寫,而內容卻有所不同。當結直腸癌患者最后的病理學結果提示其分化程度為一個區間時,如:低-中分化時,文本記錄則保留為“低中”的形式。結構化數據分析時,則提取其中程度更嚴重者。如上述例子,結構化提取時只提取“低”。
1.4.3 糾錯與更新
針對 DACCA 數據庫中的分化程度,尤其需注意錄入性錯誤。通常在術前的腸鏡活檢時,就可能需要進行第 1 次錄入。而在手術、病理學結果報告后,還需要進行必要的調整。多數情況下,腸鏡活檢的分化程度會和術后病理學結果報告有差異,這時則需要有一次更新的操作,以確定最終的分化程度標簽。
1.5 腫瘤病理學性質
1.5.1 定義
腫瘤病理學性質,也就是病理學類型。在 DACCA 數據庫中,病理學類型的基本分類方式同經典的病理學類型劃分,此外將“高級別上皮內瘤變”[20]作為類型之一,也作為記錄。根據現有 DACCA 數據庫的類型采集,包括:腺癌[adenocarcinoma,其中黏液腺癌(mucinous adenocarcinoma)做單獨記錄]、印戒細胞癌、鱗狀細胞癌、胃腸道間質瘤 [gastrointestinal stromal tumor,包括早年病理上分類的胃腸道平滑肌瘤(gastrointestinal leiomyoma)和胃腸道平滑肌肉瘤(gastrointestinal leiomyosarcoma)]、惡性黑色素瘤[malignant melanoma,同時也記錄為黑色素瘤(melanoma)]、淋巴瘤(lymphoma)、神經內分泌腫瘤 [neuroendocrine neoplasm,含:類癌(carcinoid)和神經內分泌癌(neuroendocrine carcinoma)] 等。
相對更為罕見的病理學類型,還可能有肉瘤(sarcoma)、透明細胞瘤(clear cell carcinoma)等,通過 DACCA 數據庫既往的數據采集而獲取到了前述病理學類型信息。因此在本數據框的數據錄入時,需要接納可能還會有的新病理學類型。
1.5.2 標簽與結構化
在 DACCA 數據庫中,腫瘤病理學性質都是以文本形式進行紀錄。每種病理學類型的文字表達都是獨立的類型標簽。由于在數據庫的記錄中,未保存混合性腫瘤的類型,因此,每種病理學類型可以直接區別,也能采用選擇的方式進行錄入。在數據庫的結構化過程中,數據信息的提取可以針對病理學類型直接進行選擇和分析,也不存在多項選擇判斷的數據解讀過程。
1.5.3 糾錯與更新
在 DACCA 數據庫中,對于腫瘤性質的錄入,最初可以在獲取腸鏡病理學檢查結果時進行,但是隨著手術后病理學檢查結果的報告,腫瘤性質的數據信息也可能有更新,所以在手術后需要及時對該數據進行調整。而腫瘤性質的錄入,主要還是需要注意錄入過程中的錯誤。由于可以通過結構化的數據表提供選擇性的菜單,多數情況下還是可以直接選擇統一表達方式的腫瘤性質。這也是通過數據庫自身的功能來避免錯誤錄入的有效方式。
1.6 Ki-67
1.6.1 定義
Ki-67(MKI67)是一種由人 MKI67 基因編碼的蛋白質[21]。該蛋白與細胞的增殖密切相關。從病理學角度上看,Ki-67 是可以作為判斷惡性腫瘤嚴重程度的依據之一;從臨床治療的角度上看,Ki-67 又可以作為惡性腫瘤輔助治療敏感性的判斷依據之一。
在 DACCA 數據庫中,專門針對此項信息做了記錄,并建立了專門的數據欄目,數據表達的形式為一個“百分比”的數值。從術后病理學報告的角度上看,除去 Ki-67 這項指標外,還有多種免疫組織化學結果也會一并報道,例如:MLH1[22-23],PMS2[22, 24]等。這些可能會在后續的 DACCA 數據庫的框架完善中,進一步進行擴充。
1.6.2 標簽與結構化
在 DACCA 數據庫中,Ki-67 以數值形式錄入,由于 Ki-67 為一個“百分比值”,在數據錄入的時候,是連同百分號一并記錄在對應的數據框內,如: “30%”,而不是采用“0.3”的表達方式。整個百分比數值為一個完整的標簽。在數據的結構化分析過程中,整個百分比數值為一個完整的結構化數值,進行數值形式的分析。
1.6.3 糾錯與更新
由于 Ki-67 通常都是在手術切除結直腸癌病灶后獲得,且是完成免疫組織化學分析后才會得到的結果。所以,能夠獲取的來源處,主要是術后病理學報告。因此,需要特別注意在通過報告進行 DACCA 數據庫登記過程中,避免發生錄入性錯誤。因為后續的再次更新也較為困難,通常還是需要通過回顧核查病理學結果報告進行再次確定。
1.7 腫瘤合并癥
1.7.1 定義
在 DACCA 數據庫中,對于腫瘤合并癥(表 1)的記錄,系指由于結直腸癌原發病灶所導致的相關臨床癥狀。主要記錄的腫瘤合并癥包括:梗阻(obstruction)、套疊(intussusception)、穿孔(perforation)、疼痛(pain)、水腫(edema)及出血(hemorrhage),這些類目也分別單列在 DACCA 數據庫中。另外,在數據庫中還單列了一項“其他”以便于對于腫瘤合并特殊情況進行描述。在本次數據庫構建的說明中,未詳細解讀。之所以會單列腫瘤合并癥,是由于數據庫構建的團隊對這些合并癥進行了必要的分級劃分。

1.7.2 腫瘤合并癥的類型及對應的級別劃分
盡管在 DACCA 數據庫中腫瘤合并癥的類型不同,但是都采用了級別劃分的方式進行記錄。后文所提到的結構化也與此相關。根據每種不同的腫瘤合并癥,分別設計 0~6 個級別,部分分級未達到 6 級的,以其能劃分的級別數字表示,最高表示最嚴重,最低表示沒有發生。腫瘤合并癥類型的釋義與級別詳細解釋見表 1。
1.7.3 標簽與結構化
如上表的詳述,在 DACCA 數據庫中對腫瘤合并癥都進行了分級,對應不同腫瘤合并癥的分級,都會以 0~6 的數值形式作為標簽。在數據庫的錄入中,都以數值標簽作為記錄,具體的標簽指代含義屬于數據編碼系統。在進行數據庫分析時,也同樣應用標簽作為結構化分析的數據源,且標簽表示有等級性差異。
1.7.4 糾錯與更新
在腫瘤合并癥的數據采集中,特別需要注意,由于這些信息可能出現在結直腸癌診治的多個環節中,因此需要在多個階段進行必要的數據更新。通常第一次數據采集后、在按照病歷進行錄入患者信息時,通過對患者表現的癥狀進行一定的判斷,并作登記。緊接著在術前評估階段,根據影像和腸鏡下的評估結果,還需要對腫瘤合并癥進行更新。在手術評估環節完成后,還需要在術后對于術中所見腫瘤狀態再次做腫瘤合并癥的數據更新。而分級的準確性尤為重要,在 DACCA 數據庫的編碼系統中,腫瘤合并癥的分級是無既往參考的,都是根據多年臨床的結果追蹤而形成的。所以需要嚴格保證錄入準確度,后續再做修正尤為困難。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東,負責本文的主要撰寫工作;劉健博,負責本文的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 數據庫構建者和主要應用分析人員。
在系列研究中,本團隊針對華西醫院的結直腸癌數據庫(Database from Colorectal Cancer,DACCA)構建思路進行了闡述[1-12]。前一部分針對“結直腸癌的腫瘤特征”的部分描述,已經對 DACCA 數據庫中結直腸癌的腫瘤特征模塊構成和模塊內部分項目的構建過程進行了闡述[13]。筆者現就結直腸癌的腫瘤特征模塊余下的項目,進行構建過程的闡述。
1 腫瘤特征模塊的項目設計解讀(續)
1.1 腫瘤形態
1.1.1 定義
DACCA 數據庫中,對于“腫瘤形態”的定義就是指腫瘤的大體類型,在這里就特指結直腸癌的腫瘤大體類型。“腫瘤形態”是通過腸鏡下和術中發現、影像學特征等綜合得出的數據特征。
1.1.2 經典分類方式
按照病理學對于結直腸癌的大體形態,按照早期和進展期進行劃分[14-15]。早期的結直腸癌,大體類型多為息肉型和隆起型。進展期的結直腸癌,則主要分為隆起型、潰瘍型、侵潤型和膠樣型。隆起型系指腫瘤的主體向腸腔內突出的類型;潰瘍型系指腫瘤形成可以深達或貫穿肌層的潰瘍;侵潤型系指腫瘤向腸壁各層彌漫浸潤,使局部腸壁增厚,但是表面無明顯潰瘍或隆起。
1.1.3 DACCA 分類方式
在 DACCA 數據庫中,根據結直腸癌生長的大體形態,分為 3 大主要類型(圖 1)。① 以息肉形態為主的腫瘤大體類型,包括:帶蒂息肉型(腫瘤主體呈現息肉樣,但在腸壁內側有活動度較好的蒂作為鏈接)、息肉型(常見的息肉樣隆起改變,但基底部較寬)、彌漫息肉型(腫瘤如地毯樣彌漫在腸壁內側,呈廣泛隆起改變,或散在的息肉改變,整個累及區域寬大,通常直徑會在 3 cm 以上,占據腸腔超過 1/2)及息肉隆起型(類似于“菜花樣”改變,腫瘤明顯隆起于腸腔內,隆起物高低不平,沒有形成潰瘍,但基底部質地硬,通常占據腸腔超過 1/3)。② 以腫瘤形態在腸腔內大面積隆起改變為主的類型,腫瘤向腸壁內的累及范圍至少達到黏膜肌層,包括:平坦型(腫瘤稍隆起于腸腔內,隆起面毛糙,但是總體處于一個平面)、腫塊型(腫瘤浸潤腸壁至少達到漿膜下層,且腫瘤主體部規則隆起于腸腔內,通常累及范圍直徑至少有 2 cm)和巨塊型(腫瘤累及腸壁達到甚至超過漿膜層,包繞腸腔 1 周,在腸壁內廣泛隆起,腸壁僵硬,累及腸段至少達到 8 cm)。③ 以潰瘍形態為主的腫瘤大體類型,包括:淺潰瘍型(腫瘤形態呈現火山口樣,但中心潰瘍面較小,通常僅在黏膜下形成淺潰瘍表現)、潰瘍型(呈現潰瘍表現外,通常潰瘍可以達到漿膜下層次,若為直腸癌,可以達到外膜層次)、深潰瘍型(呈現潰瘍表現外,潰瘍已經完全達到腸壁全層,部分可以達到漿膜層或者外膜以外,但是與周圍臟器無直接受累)、潰瘍浸潤型(在深潰瘍的基礎上,腫瘤潰瘍深面完全穿透外膜,周圍鄰近臟器或組織直接受累,等同于病理 T 分期中的 T4a–T4b 期)。④ 黏膜下浸潤型,屬于特殊一類腫瘤大體類型,腫瘤在黏膜層僅形成隆起改變,但是黏膜光滑,偶爾略顯粗糙,在病理學活檢時通常只能取到提示“炎性”的組織標本,但是腫瘤在漿膜下層開始向腸壁形成彌漫浸潤,多數情況下可以突破漿膜層在外累及周圍組織或者器官,而且該情況并不屬于種植性表現。

a:帶蒂息肉型;b:息肉型;c:彌漫息肉型;d:息肉隆起型;e:平坦型;f:腫塊型;g:巨塊型;h:淺潰瘍型;i:潰瘍型;j:深潰瘍型;k:潰瘍浸潤型;l:黏膜下侵潤型
1.1.4 標簽與結構化
在 DACCA 數據庫中,對于腫瘤形態的數據,以文本形式進行記錄,按照不同類型的腫瘤形態,分別作為標簽進行標記。在進行結構化分析的過程中,每種不同的腫瘤形態相對對立,彼此之間不形成從屬關系。在此基礎上進行相關的數據庫分析應用。
1.1.5 糾錯與更新
腫瘤形態盡管在術前腸鏡評估時就會有一定的結果,但是最準確的數據,還是依賴術中發現進行準確評估,根據以上 DACCA 數據庫所劃分的腫瘤形態,準確錄入類型,這里則需要注意避免錄入性錯誤的發生。此外也需要注意,若結直腸癌案例在經手術評估后,無法完成切除者[16],則至少需要腸鏡下的評估結果作為信息的來源。在某些特定的時候,如潰瘍侵潤型的判斷,很可能會遇到 cT4b 無法切除的情況,而腸鏡下可能只會發現為深潰瘍型的類型,此時則應該根據影像評估和其他前述數據庫建設所提到的評估手段,給出更為準確的數據。
1.2 大小
1.2.1 定義
“大小”實際上就是 DACCA 數據庫中描述的“腫瘤的大小”。這個大小系指腫瘤各個徑線的直徑相乘的結果。在通常所見的病理學專業的術后報告中,會提供腫瘤大體標本部分的最長橫縱徑線以及厚度的值,單位為“cm”。在 DACCA 數據庫中,則只保留最長橫縱徑線的數據。
一般在進行 DACCA 數據庫分析的過程中,會選擇最長徑線作為數據進行統計處理,如前述對于本部分數據庫數據進行分析的論文,就是選擇的最長徑線。但在必要的病理圖形分析時,也可調用最長橫縱徑線,必要時選取電子化的病理圖像作為該部分的補充信息。
1.2.2 標簽與結構化
在 DACCA 數據庫的“大小”數據框內,以文本形式保留最長橫縱徑線,兩個數字形式的文本,數據保留小數點后 1 位,數字之間用“×”(乘號)鏈接。在進行數據結構化時,則針對兩個徑線的數值做單獨的結構化標記,數據提取時提取結果為徑線數值。
1.2.3 糾錯與更新
通常,DACCA 數據庫的數據錄入是從術前評估階段就開始的,所以可能后期在解讀術前腸鏡報告、術中手術探查、切除標本觀察,以及術后的病理報告上,提供了所需的結直腸癌的腫瘤大小信息。在這些信息提供的數值有差異時,選擇錄入的數值優先順序為:術后病理學報告>術中觀察>術前腸鏡報告。在其他必要的情況,特別是由于腫瘤未予切除的情況下,還可以依靠影像學上的測量結果。主要的糾錯過程,也是尤其注意錄入性錯誤,同時需要反復根據錄入數值的優先級進行判斷。
1.3 方位
1.3.1 定義
在 DACCA 數據庫中,對于“方位”的記錄指代腫瘤在結腸或者直腸腸腔內所處的位置。由于結直腸腸腔為一管狀結構,腫瘤所處不同部位,與腸壁的層次以及漿膜層(外膜層)和其鄰近組織和器官,都可能存在不同的解剖毗鄰關系。因此,對于腫瘤方位作出了信息的記錄。我們按照解剖標準立位為方向指引,以腫瘤主體在腸管內的占據程度進行劃分,人面向方向為“前壁”,背向方向為“后壁”,人左側方向及右側方向均為“側壁”。若存在有橫跨面向與側方向者,為“前側壁”;有橫跨背向與側方向者,為“后側壁”;若跨過多個方向,達到超過 3/4 周時,為“1 圈”(圖 2)。

1.3.2 標簽與結構化
DACCA 數據庫中,“方位”的數據以文本形式作為標簽記錄。因為“方位”的類別有確定幾個選擇,因此屬于固定且有限的標簽。在進行結構化時,只需要按照同樣的文本保存為類別,并可以直接作為菜單選取的對象。
1.3.3 糾錯與更新
結直腸癌的腫瘤方位的采集,主要來源于對于手術中的解剖所見[17-18],部分情況下需要影像學做補充,特別是在經手術探查后無法切除的結直腸癌,方位的確定尤其需要謹慎判斷。對于納入 DACCA 數據庫的病例,腫瘤方位的數據采集應當及時,通常是在手術完成后的 24 h 內。隨著時間延長,再做記憶式補充尤為困難。因此需要強調手術數據的及時準確填寫。
1.4 分化
1.4.1 定義
在 DACCA 數據庫中,對“分化”的定義則系指腫瘤的分化程度。這和傳統的結直腸癌病理學中對于分化程度的解釋一致:指腫瘤細胞接近于正常細胞的程度。通常將腫瘤細胞分為4 個等級。高分化,指細胞分化程度較好;中分化,指細胞分化程度居中;低分化,指細胞分化程度較差;此外還有未分化[19]。
1.4.2 標簽與結構化
在 DACCA 數據庫中,對于分化程度均采用縮寫表示。高分化者,縮寫為“高”;中分化者,縮寫為“中”;低分化者,縮寫為“低”;未分化者,縮寫為“未”。針對分化程度的結構化,只針對這 4 種類型進行歸類和分析。但是在填寫數據庫的“分化”框時,采用文本格式,標簽表達方式也選取分化程度的縮寫,而內容卻有所不同。當結直腸癌患者最后的病理學結果提示其分化程度為一個區間時,如:低-中分化時,文本記錄則保留為“低中”的形式。結構化數據分析時,則提取其中程度更嚴重者。如上述例子,結構化提取時只提取“低”。
1.4.3 糾錯與更新
針對 DACCA 數據庫中的分化程度,尤其需注意錄入性錯誤。通常在術前的腸鏡活檢時,就可能需要進行第 1 次錄入。而在手術、病理學結果報告后,還需要進行必要的調整。多數情況下,腸鏡活檢的分化程度會和術后病理學結果報告有差異,這時則需要有一次更新的操作,以確定最終的分化程度標簽。
1.5 腫瘤病理學性質
1.5.1 定義
腫瘤病理學性質,也就是病理學類型。在 DACCA 數據庫中,病理學類型的基本分類方式同經典的病理學類型劃分,此外將“高級別上皮內瘤變”[20]作為類型之一,也作為記錄。根據現有 DACCA 數據庫的類型采集,包括:腺癌[adenocarcinoma,其中黏液腺癌(mucinous adenocarcinoma)做單獨記錄]、印戒細胞癌、鱗狀細胞癌、胃腸道間質瘤 [gastrointestinal stromal tumor,包括早年病理上分類的胃腸道平滑肌瘤(gastrointestinal leiomyoma)和胃腸道平滑肌肉瘤(gastrointestinal leiomyosarcoma)]、惡性黑色素瘤[malignant melanoma,同時也記錄為黑色素瘤(melanoma)]、淋巴瘤(lymphoma)、神經內分泌腫瘤 [neuroendocrine neoplasm,含:類癌(carcinoid)和神經內分泌癌(neuroendocrine carcinoma)] 等。
相對更為罕見的病理學類型,還可能有肉瘤(sarcoma)、透明細胞瘤(clear cell carcinoma)等,通過 DACCA 數據庫既往的數據采集而獲取到了前述病理學類型信息。因此在本數據框的數據錄入時,需要接納可能還會有的新病理學類型。
1.5.2 標簽與結構化
在 DACCA 數據庫中,腫瘤病理學性質都是以文本形式進行紀錄。每種病理學類型的文字表達都是獨立的類型標簽。由于在數據庫的記錄中,未保存混合性腫瘤的類型,因此,每種病理學類型可以直接區別,也能采用選擇的方式進行錄入。在數據庫的結構化過程中,數據信息的提取可以針對病理學類型直接進行選擇和分析,也不存在多項選擇判斷的數據解讀過程。
1.5.3 糾錯與更新
在 DACCA 數據庫中,對于腫瘤性質的錄入,最初可以在獲取腸鏡病理學檢查結果時進行,但是隨著手術后病理學檢查結果的報告,腫瘤性質的數據信息也可能有更新,所以在手術后需要及時對該數據進行調整。而腫瘤性質的錄入,主要還是需要注意錄入過程中的錯誤。由于可以通過結構化的數據表提供選擇性的菜單,多數情況下還是可以直接選擇統一表達方式的腫瘤性質。這也是通過數據庫自身的功能來避免錯誤錄入的有效方式。
1.6 Ki-67
1.6.1 定義
Ki-67(MKI67)是一種由人 MKI67 基因編碼的蛋白質[21]。該蛋白與細胞的增殖密切相關。從病理學角度上看,Ki-67 是可以作為判斷惡性腫瘤嚴重程度的依據之一;從臨床治療的角度上看,Ki-67 又可以作為惡性腫瘤輔助治療敏感性的判斷依據之一。
在 DACCA 數據庫中,專門針對此項信息做了記錄,并建立了專門的數據欄目,數據表達的形式為一個“百分比”的數值。從術后病理學報告的角度上看,除去 Ki-67 這項指標外,還有多種免疫組織化學結果也會一并報道,例如:MLH1[22-23],PMS2[22, 24]等。這些可能會在后續的 DACCA 數據庫的框架完善中,進一步進行擴充。
1.6.2 標簽與結構化
在 DACCA 數據庫中,Ki-67 以數值形式錄入,由于 Ki-67 為一個“百分比值”,在數據錄入的時候,是連同百分號一并記錄在對應的數據框內,如: “30%”,而不是采用“0.3”的表達方式。整個百分比數值為一個完整的標簽。在數據的結構化分析過程中,整個百分比數值為一個完整的結構化數值,進行數值形式的分析。
1.6.3 糾錯與更新
由于 Ki-67 通常都是在手術切除結直腸癌病灶后獲得,且是完成免疫組織化學分析后才會得到的結果。所以,能夠獲取的來源處,主要是術后病理學報告。因此,需要特別注意在通過報告進行 DACCA 數據庫登記過程中,避免發生錄入性錯誤。因為后續的再次更新也較為困難,通常還是需要通過回顧核查病理學結果報告進行再次確定。
1.7 腫瘤合并癥
1.7.1 定義
在 DACCA 數據庫中,對于腫瘤合并癥(表 1)的記錄,系指由于結直腸癌原發病灶所導致的相關臨床癥狀。主要記錄的腫瘤合并癥包括:梗阻(obstruction)、套疊(intussusception)、穿孔(perforation)、疼痛(pain)、水腫(edema)及出血(hemorrhage),這些類目也分別單列在 DACCA 數據庫中。另外,在數據庫中還單列了一項“其他”以便于對于腫瘤合并特殊情況進行描述。在本次數據庫構建的說明中,未詳細解讀。之所以會單列腫瘤合并癥,是由于數據庫構建的團隊對這些合并癥進行了必要的分級劃分。

1.7.2 腫瘤合并癥的類型及對應的級別劃分
盡管在 DACCA 數據庫中腫瘤合并癥的類型不同,但是都采用了級別劃分的方式進行記錄。后文所提到的結構化也與此相關。根據每種不同的腫瘤合并癥,分別設計 0~6 個級別,部分分級未達到 6 級的,以其能劃分的級別數字表示,最高表示最嚴重,最低表示沒有發生。腫瘤合并癥類型的釋義與級別詳細解釋見表 1。
1.7.3 標簽與結構化
如上表的詳述,在 DACCA 數據庫中對腫瘤合并癥都進行了分級,對應不同腫瘤合并癥的分級,都會以 0~6 的數值形式作為標簽。在數據庫的錄入中,都以數值標簽作為記錄,具體的標簽指代含義屬于數據編碼系統。在進行數據庫分析時,也同樣應用標簽作為結構化分析的數據源,且標簽表示有等級性差異。
1.7.4 糾錯與更新
在腫瘤合并癥的數據采集中,特別需要注意,由于這些信息可能出現在結直腸癌診治的多個環節中,因此需要在多個階段進行必要的數據更新。通常第一次數據采集后、在按照病歷進行錄入患者信息時,通過對患者表現的癥狀進行一定的判斷,并作登記。緊接著在術前評估階段,根據影像和腸鏡下的評估結果,還需要對腫瘤合并癥進行更新。在手術評估環節完成后,還需要在術后對于術中所見腫瘤狀態再次做腫瘤合并癥的數據更新。而分級的準確性尤為重要,在 DACCA 數據庫的編碼系統中,腫瘤合并癥的分級是無既往參考的,都是根據多年臨床的結果追蹤而形成的。所以需要嚴格保證錄入準確度,后續再做修正尤為困難。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東,負責本文的主要撰寫工作;劉健博,負責本文的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 數據庫構建者和主要應用分析人員。