引用本文: 汪曉東, 劉健博, 李立. 數據庫建設第三部分:結直腸癌內外科合并癥及術前體質狀態的標簽與結構化. 中國普外基礎與臨床雜志, 2019, 26(9): 1110-1115. doi: 10.7507/1007-9424.201907113 復制
續前系列研究,筆者所在團隊對華西腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建基本思路進行了總體闡述并對個人數據、住院管理流程等進行了前序的闡述和報道[1-6]。承接《中國普外基礎與臨床雜志》2019 年第 8 期發表的“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7]一文所作的報道,筆者現就 DACCA 中的內外科合并癥及術前體質狀態的具體概念、標簽與結構化進行詳細的闡述。
1 結直腸癌患者外科合并癥及相關內容模塊的構成
盡管以模塊作為數據庫分析的信息來源,但在 DACCA 中并未以整個模塊作為保存源數據的形式,而是對這部分內容進行了數據分列,以便于針對特定的數據進行歸類,為后續的數據庫內部關聯提供依據。外科合并癥模塊及相關內容的關系見圖 1。下面即為在該模塊下分列出來的數據類目及其定義。

1.1 外科合并癥的定義、標簽與結構化及標準化與糾錯
1.1.1 定義
結直腸癌患者的外科合并癥是指在結直腸癌這一主診斷外,其他可能需要采用外科手段(或有創操作)進行干預的疾病。在 DACCA 中,外科合并癥直接用疾病的名稱作為文本類數據進行保留,即有一項疾病則記錄一項;其來源可從患者的病史采集中獲取,也可從患者的術前檢查中獲取。在《中國普外基礎與臨床雜志》2019 年第 8 期發表了“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7],為了便于讀者對該數據條目有更直觀的認識,在研究過程中對疾病的分類進行了歸納并采用圖文形式展現。
1.1.2 標簽與結構化
所有術前獲取的“外科合并癥”的信息都直接以疾病名稱保留在對應患者的數據框格內。在每一種疾病名稱后用英文字體逗號“,”隔開。無論有多少疾病均按照順序填寫。由于動態數據庫可以具備對于特定數據字段的抓取能力[8],因此,在同一數據框內放置的這些連續疾病名稱可以通過相同數據字段的抓取達到數據分析時的精確搜索或者模糊搜索,故對于此類疾病信息的結構化應用只要疾病名稱達到規范化即可。
1.1.3 標準化與糾錯
外科合并癥與本研究后續需要談到的其他諸多數據列一樣,是圍繞著疾病建立的數據,均為短文本類型的數據,需要人為對疾病名稱錄入,存在極高的錯誤率,而且可能形成類型繁多、難以統一的疾病名稱“文本群”。因此,在 DACCA 中對于疾病診斷名稱有關的信息仍舊選擇遵照 ICD-10 的國際標準編碼進行[9]。而 DACCA 自身并不需要直接對此作專門的數據框架調整,而只需要將與疾病名稱有關的數據框鏈接到 ICD-10 的編碼系統即可。
1.2 手術史(surgical history)
1.2.1 定義
DACCA 中的手術史定義是指患者因為結直腸癌入院的時間為截至點,之前曾經實施的任何類型的手術。所以,這里的手術史不只是包括既往發生在腹腔、盆腔內的手術史,還會囊括其他部位的手術史。
1.2.2 標簽與結構化
如同前所述的“外科合并癥”的信息保留形式,每一種既往手術的名稱后用英文字體逗號“,”隔開,也采用按照順序填寫的方式進行。手術史的結構化應用也同理于外科合并癥的結構化,通過后期數據分析時的精確搜索或者模糊搜索達到數據庫應用的目的。
1.2.3 標準化與糾錯
手術史也采用 ICD-10 的國際標準編碼進行。與外科合并癥相同的是,手術史的糾錯中,主要是數據庫錄入階段的錯誤預防,避免名稱錄入錯誤。由于其與內科合并癥有定義上的不同,需要特別注意對于內外科合并癥的歸類,避免分類錯誤。在后續對結直腸癌患者進行隨訪期間,若發現在術前還有但未有效記錄的合并癥信息時也需要及時補充在內外科合并癥對應的數據框內。
1.3 外科合并癥模塊內相關內容
不同于基于醫院信息系統(hospital information system,HIS)建立的數據庫,DACCA 更重視應用性,所以對于合并癥所關聯的特定內容需要在數據庫的建設中做一定程度的選擇性的單列。選擇單列的項目主要是依據在數據庫決策邏輯中是否可以作為影響因素來確定,即模塊中的相關內容很可能與外科合并癥數據列存在有從屬關系(圖 1),也可能只是與外科合并癥的概念有一定的關聯。
1.3.1 內容的選擇
在外科合并癥模塊內相關內容包括:肝結節(hepatic nodule)、肝功能(liver function)、腎結節(renal nodule)、腎功能(renal function)、生殖(reproduction)、結石(lithiasis)。
1.3.2 內容的定義
1.3.2.1 肝結節
DACCA 中對肝結節的定義為:尚未確診為肝惡性腫瘤的結節樣病變(直徑≤2 cm),包括:性質待定的肝結節(hepatic nodule with undetermined property)、肝囊腫(hepatic cyst)、肝鈣化結節(nodule of hepatic calcification)、肝血管瘤(hepatic hemangioma)。肝功能在 DACCA 中作為肝結節相關的數據,其以 Child-Pugh 分級為標準將肝功能情況分為 A 級(肝功能良好)、B 級(肝功能中度受損)和 C 級(肝功能衰竭)[10]。
1.3.2.2 腎結節
DACCA 中對于腎結節的定義為:尚未確診為腎原發惡性腫瘤的病變(直徑≤2 cm),包括:確診為腎轉移癌(metastatic renal cell cancer,MRCC)、腎囊腫(renal cyst)、腎鈣化灶(renal calcification)、其他未定型的腎結節(other undetermined renal nodule)。腎功能在 DACCA 庫中作為腎結節相關的數據,其以改善全球腎臟病預后組織(Kidney Disease: Improving Global Outcomes,KDIGO)的腎功能損傷分級為標準,以患者的腎小球濾過率為分期標準將腎功能損害分為:1 期(腎功能正常)、2 期(腎功能輕度下降)、3 期(腎功能中度下降)、4 期(腎功能重度下降)和 5 期(腎功能衰竭)[11]。若患者有透析病史或為腎移植術后狀態,則以因結直腸癌初診時的腎功能損傷分期作為判斷。
1.3.2.3 生殖
DACCA 中的生殖數據列涵蓋了結直腸癌患者在術前出現的所有生殖系統(reproductivesystem)相關的疾病。
1.3.2.4 結石
結石數據列涵蓋了結直腸癌患者在術前出現的所有與結石有關的疾病。
1.3.3 標簽與結構化
外科合并癥模塊相關內容以短整數型作標簽并以副標作為特定的分類標記。
1.3.3.1 肝結節及肝功能
① 肝結節的標簽:患者若無肝結節標記為“0”,有肝結節則標記為“1”;若未對肝結節性質做出判斷則不追加副標;若考慮肝結節并非轉移性的病變則標記為“+”,并在“+”后追加括號,括號內包含考慮的病變名稱(除肝囊腫)仍以 ICD-10 的編碼系統進行;若考慮肝結節為肝囊腫則標記為“*”;若考慮不排除轉移灶則標記為“x”,并以是否能確診為轉移灶的強度按照“x”、“xx”及“xxx”作為強度標志,“x”數量越多則表示確診轉移灶的可能性越大,最多為 3 個“x”。② 肝功能的標簽:根據肝功能異常的程度標記,“0”表示肝功能無異常,“1”表示 Child-Pugh 分級 B 級,“2”表示 Child-Pugh 分級 C 級。
1.3.3.2 腎結節及腎功能
① 腎結節的標簽:患者若無腎結節標記為“0”,有腎結節則標記為“1”;若未對腎結節性質做出判斷則不追加副標;若對于腎結節性質有疾病種類的考慮則標記為“+”,并在“+”后追加括號,括號內包含疾病名稱。② 腎功能的標簽:根據腎功能異常的程度標記,“0”表示腎功能無異常,“1”表示腎功能輕度下降,“2”表示腎功能中度下降,“3”表示腎功能重度下降,“4”表示腎功能衰竭。
1.3.3.3 生殖
患者若無生殖系統的疾病標記為“0”;若為男性患者且有生殖系統疾病,標記為“1”,并在其后追加括號,括號內填寫所存在疾病的名稱;若為女性患者且有生殖系統疾病,標記為“2”,并在其后追加括號,括號內填寫疾病名稱。
1.3.3.4 結石
患者若無結石相關的疾病則標記為“0”;若患者有結石相關的疾病則標記為“1”,并在其后追加括號,括號內填寫所存在的疾病名稱。
1.3.4 標準化與糾錯
外科合并癥模塊中相關內容除去需進行結構化的部分外,所有疾病名稱也采用 IDC-10 國際標準編碼進行,糾錯的重點也是注意在數據庫錄入階段的錯誤預防。在后期隨訪中,若發現有遺漏的相關內容則需及時補充在該模塊中。
2 ?結直腸癌患者內科合并癥及相關內容模塊的構成
與外科合并癥的構建思路一致,為了便于數據庫中關聯數據的認定和使用,也沒有以整個模塊作為保存形式,而對于部分內容做了數據分列。以下則為在該模塊下分列出來的數據類目及其定義。
2.1 內科合并癥(medical comorbidities)
2.1.1 定義
內科合并癥也是結直腸癌患者在主診斷以外的疾病類型劃分,主要是指需要依靠非手術方式進行治療的疾病類型。在結直腸癌這種外科手術為主的疾病基礎上分列患者的內科合并癥,其重點是在數據庫中保留患者既往疾病所帶來的體質風險,也是在 DACCA 中應用數據決策的重要組成部分。在 DACCA 中,內科合并癥仍舊以疾病名稱作為文本類型數據進行保留。在已發表的“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7]的報道中選擇了不同于外科合并癥的處理方式,如前所述,DACCA 中有內科合并癥的結直腸癌患者,在最近的 10 年內超過了 65%,為了避免讀者對于按照系統分類后的分析理解上的困難,故對于內科合并癥只做了總體的構成分析,并在內科合并癥模塊內相關內容中進行了詳細闡述。
2.1.2 標簽與結構化
內科合并癥的信息仍舊采用直接以疾病名稱保留在數據框格中的方式。每一種疾病名稱后用英文字體逗號“,”隔開。無論有多少疾病均按照順序填寫。
2.1.3 標準化與糾錯
內科合并癥采用短文本類型的數據,仍舊選擇遵照 ICD-10 的國際標準編碼進行。對于其糾錯,除了需要準確區分內科合并癥與外科合并癥以外,還是重點關注在數據錄入階段的錯誤避免。在后期隨訪階段,追溯到患者在手術前已經存在的內科合并癥也需要及時補充在該模塊中。
2.2 內科合并癥模塊內的相關內容
2.2.1 內科合并癥模塊內相關內容的選擇與定義
2.2.1.1 內容的選擇
基于與外科合并癥相關內容構建相同的思路,在內科合并癥模塊中,還存在與內科合并癥數量有從屬關系或者關聯的內容,其內容包括:糖尿病(diabetes)、高血壓(hypertension)、肺炎(pneumonia)、肺結節(lung nodule)、肺功能障礙(pulmonary dysfunction)、心臟疾病(heart disease)、血管疾病/血栓(vascular disease/thrombus)、心功能障礙(cardiac dysfunction)、除糖尿病外的內分泌疾病(endocrine disease)、特殊感染/傳染疾病(special infection/infectious disease)、過敏史(allergy history),其關系見圖 2。

2.2.1.2 內容的定義
① 糖尿病、高血壓、心臟疾病(因現在學科的發展,心臟疾病可外科治療也可內科治療,在該欄,考慮到前序的外科合并癥未單列心臟手術的情況,所以只要心臟器質性病變都在其中)、血管疾病/血栓、除糖尿病外的內分泌疾病以及特殊感染/傳染疾病,均根據疾病標準定義作為辨別。② 肺炎,包括經典定義的肺部炎性改變、可疑肺部炎癥、肺部感染等,并對炎癥的嚴重程度進行劃分,分為無任何肺部炎癥、輕癥肺炎、明確肺炎不伴感染癥狀、明確肺部感染、肺部感染達到已經影響手術及麻醉。③ 肺結節(影像學表現為直徑≤3 cm 的局限性、類圓形、密度增高的實性或者亞實性肺部陰影),包括肺部結節非轉移相關病灶、肺部結節可疑轉移病灶、肺轉移性結節。④ 肺功能障礙,以美國胸科協會(American Thoracic Society,ATS)及歐洲呼吸學會分級(European Respiratory Society,ERS)聯合發布的 2005 版關于肺功能檢測的指南為標準,不區分肺功能損傷類型,只依照 1 s 用力呼氣容積(forced expiratory volume in one second,FEV1)占預計值的百分比來對肺功能能損害進行判斷,分為 6 個等級:正常(≥80%)、輕度(70%~80%)、中度(60%~69%)、中重度(50%~59%)、重度(35%~49%)和極重度(<35%)[12]。⑤ 心功能障礙,以紐約心臟學會(New York Heart Association,NYHA)的分級為標準,將患者心功能分為 4 個等級:Ⅰ級(體力活動不受限制)、Ⅱ級(體力活動輕度受限)、Ⅲ級(體力活動明顯受限)和Ⅳ級(不能從事任何體力活動)[13]。⑥ 過敏史,以實際有確切的過敏源作為記錄。
2.2.2 內科合并癥模塊內相關內容的標簽與結構化
DACCA中,在內科合并癥模塊相關內容中,均以短整數型作標簽,并以副標作為特定的分類標記。
2.2.2.1 糖尿病
患者無糖尿病標記為“0”,有血糖異常升高但未確診糖尿病則標記為“1”,其后追加副標“+”;有確切糖尿病則直接標記為“1”。
2.2.2.2 高血壓
患者無高血壓標記為“0”;有高血壓則標記為“1”。若有高血壓但不伴并發疾病時不做副標;若有高血壓且伴并發疾病時需追加副標“+”,并在“+”后追加括號,括號內包含伴發的并發疾病名稱,仍以 ICD-10 編碼系統進行。
2.2.2.3 肺炎
患者無任何肺炎標記為“0”,僅有輕癥肺炎時標記為“1”,明確肺炎但不伴明確肺部感染癥狀標記為“2”、明確肺炎且伴有明確肺部感染癥狀標記為“3”、肺部感染達到已經影響手術及麻醉標記為“4”。
2.2.2.4 肺結節
患者若無肺結節標記為“0”,有肺結節標記為“1”。若對肺結節性質未做出判斷時不追加副標;若考慮肺結節為非轉移相關病灶則追加副標“*”;若考慮非結節為可疑轉移病灶或者肺轉移性結節時追加副標小寫英文字母“x”并以結節的數量作為等級,按照“x”、“xx”、“xxx”及“xxxx”作為等級標志,“x”數目越多,在雙肺肺部結節數越多,最多為 4 個“x”;若考慮為肺轉移性結節的患者,其數據欄中術前的影像分期中將明確地標記為“肺轉移”的信息,這也是一組關聯數據。
2.2.2.5 肺功能
患者若未評價肺功能則標記為“x”;若肺功能評價為無障礙則標記為“0”,輕度障礙標記為“1”,中度障礙標記為“2”,中重度障礙標記為“3”,重度障礙標記為“4”,極重度障礙標記為“5”。
2.2.2.6 心臟疾病
患者若無心臟疾病則標記為“0”,若有心臟疾病則標記為“1”,并在后追加括號,括號內包含疾病名稱。
2.2.2.7 血管疾病/血栓
患者若無血管疾病/血栓則標記為“0”;若有但與結直腸癌無系統上的相關時則標記為“1”;若有且與結直腸癌有系統上的相關時標記為“2”,并在其后追加副標“+”及括號,括號內包含疾病名稱。
2.2.2.8 心功能
患者若未評價心功能則標記為“x”;若 NYHA 評分為Ⅰ級(心功能無障礙)時標記為“0”,Ⅱ級時標記為“1”,Ⅲ級時標記為“2”,Ⅳ級時標記為“3”。
2.2.2.9 除糖尿病外的內分泌疾病
除去糖尿病的其他內分泌疾病匯總在一個數據欄內,若無則標記為“0”;若有則標記為“1”,并在其后追加副標“+”及括號,括號內包含疾病名稱。
2.2.2.10 特殊感染/傳染疾病
患者若無則標記為“0”;若有則標記為“1”,并在后追加括號,括號內包含疾病名稱。
2.2.2.11 過敏史
患者若無標記為“0”;若有標記為“1”,并在后追加括號,括號內包含疾病名稱。
需要注意,以上內科合并癥模塊的相關內容中一旦出現多個同一類目下的疾病時,仍采用連續記錄的方式,且每種疾病間用英文逗號“,”隔開。
2.2.3 標準化與糾錯
內科合并癥模塊中的相關內容除了需要進行標簽的部分外,所有疾病名稱也采用 ICD-10 國際標準編碼進行。在數據庫錄入階段的錯誤預防是首要的。但是由于其中還包含有部分涉及到功能評估的數據,因此,部分數據需要在患者內科疾病的狀態進行評價后錄入,應注意評價的準確性。除去在后期隨訪過程中的遺漏填補外,其中過敏史需要專門予以重視。由于患者信息入庫階段的過敏史主要表示的是患者已知的過敏源信息,若患者在治療期間,由于用藥或者抗生素皮試等情況下發現了新的過敏藥物,也是需要及時在數據欄中進行補充,避免遺漏。
3 ?結直腸癌患者術前體質狀態與特征
3.1 術前體質狀態的定義
患者術前體質狀態不同于其身高、體質量等身體基本素質的數據信息,在 DACCA 中體質狀態是指,以結直腸癌就診的患者在進行初診時,處于疾病狀態下的體質狀態信息,其重點是在于疾病給患者所帶來的身體狀態的宏觀影響。
3.2 術前體質狀態的設定原則與糾錯
術前體質狀態來自于患者主觀判斷、客觀信息及專科醫生專業判斷幾個方面,因此,所設計的術前體質狀態無法單純地通過 HIS 來獲取,更多需要根據患者、家屬和醫生所提供的綜合信息進行判斷并記錄入庫。術前體質狀態的糾錯更為困難,需要在入庫時做出更為準確的判斷,否則,一旦有可疑的數據信息,則需要重新對患者的相關信息進行充分分析后做出決定,必要時還應與醫生的諸多臨床行為關聯后做出判斷。
3.3 術前體質狀態的內容、標簽與結構化
3.3.1 評分
DACCA 中選取了國際通用的營養篩查量表(NRS-2002 量表)[14-17]作為客觀量表數據。NRS-2002 量表的數值僅選擇初診后首次的評估結果為入庫信息。在 DACCA 中,NRS-2002 量表對應的數據欄以短整數型作為標簽,可以填寫的數據是從 0 開始的整數。在數據庫的結構化應用中以其作為數值進行數據分析。
3.3.2 體質
DACC 中設計的“體質”欄目是指醫生對患者所處身體狀態的主觀判斷,以文本型作為標簽。數據錄入時直接采用文本錄入。文本均使用兩個中文文字作為格式,要求醫生對患者的體質特點進行歸納,如炎性、多病、弱性、神經、健壯、緊張等。在數據庫的結構化管理中,考慮到數據庫具備數據標簽不斷添加的功能,會給數據庫管理者(主要是專科醫生)足夠的主觀評判空間,在必要時可追加體質特點的類型。因此我們在“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7]的報道中并未對此進行分析。但考慮到患者的體質特征可能在某些臨床決策環節中會影響臨床的最終決策和結果,故在 DACCA 中將此項目保留,以作為未來臨床決策分析的變量之一。
3.3.3 消瘦
DACCA 中的“消瘦”是指結直腸癌患者在初診時已經表現出的體質量下降情況。以短整數型作為標簽,其默認的單位為“kg”。數據來源可以由 HIS 中患者的體質量下降作為來源且選取其整數部分作保留,可以填寫的數據,是能從 0 開始的整數。在數據庫的結構化應用中以其作為數值進行數據分析。
3.3.4 貧血
DACCA 中“貧血”的數據采用國際標準的貧血定義和劃分方式。采用短整數型作為標簽。無貧血的患者標記為“0”,輕度為“1”,中度為“2”,重度為“3”。特別說明的是,患者若在初診前已經進行了糾正貧血的輸血治療時則在其后增加副標“*”。在數據庫的結構化應用中,貧血的分級按照等級資料進行描述和分析。
3.3.5 蛋白(總蛋白或白蛋白)
DACCA 中“蛋白”的數據是源于對于低蛋白血癥(血清總蛋白<60 g/L 或白蛋白<35 g/L)的數值轉換。采用短整數型作為標簽。無低蛋白血癥標記為“0”,輕度低蛋白狀態(血清白蛋白 30~35 g/L)標記為“1”,中度低蛋白狀態(血清白蛋白 25~29 g/L)標記為“2”,重度低蛋白狀態(血清白蛋白<25 g/L)標記為“3”。在數據庫的結構化應用中,蛋白的分級按照等級資料進行描述和分析。
3.3.6 腹水、胸水、心包積液
DACCA 中“腹水”、“胸水”和“心包積液”均采用國際標準定義和劃分方式。采用短整數型作為標簽。三種類型的積液標記方式基本相同:無積液標記為“0”,少量積液標記為“1”,中量積液標記為“2”,大量積液標記為“3”。在數據庫的結構化應用中,腹水、胸水和心包積液的分級按照等級資料進行描述和分析。
3.3.7 免疫狀態
DACCA 中“免疫狀態”的判定需要應用結直腸癌患者初診時實驗室檢驗后的體液免疫狀態和細胞免疫狀態結果[18-20]。由于體液免疫狀態和細胞免疫狀態的指標繁多,因此,為了數據庫應用的必要,采用當免疫球蛋白出現下降或者 CD 細胞出現下降時判定有免疫狀態下降的可能。在 DACCA 中采用短整數型作為標簽。未檢測免疫狀態相關指標者標記為“x”,免疫狀態有下降可能者標記為“1”,無下降可能者標記為“0”。由于結直腸癌患者術前可能進行輔助治療,治療前后免疫狀態的變化用半字線“-”連接。半字線前后分別標記為治療前后的免疫狀態,如:1-0,表示新輔助治療前初診時免疫力狀態可能有下降,經治療后再次評估免疫狀態正常。
3.3.8 生化(電解質狀態)
DACCA 中“生化”數據表示對于結直腸癌患者初診時的電解質是否異常的信息。在 DACCA 中采用短整數型作為標簽。若患者的電解質無異常,則標記為“0”;有異常則標記為“1”,并在其后追加括號,括號內記錄具體電解質變化的狀態,如“低鉀”等。在數據庫的結構化應用中,采用同類文本抓取的技術完成對于數據的歸類和分析。
3.3.9 支持(營養支持)
DACCA 中“支持”數據欄是指結直腸癌患者初診時是否已選擇或開始任何治療和決策前必須選擇的靜脈營養支持(腸外營養),表示患者體質狀態在該階段必須依賴營養的支持才可能為后續治療提供保障。在 DACCA 中采用短整數型作為標簽。若患者無需進行靜脈營養支持標記為“0”,需要則標記為“1”。在數據庫的結構化分析中,兩者可作為分類資料進行分析。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東負責本文的主要撰寫工作;劉健博負責本文的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。
續前系列研究,筆者所在團隊對華西腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建基本思路進行了總體闡述并對個人數據、住院管理流程等進行了前序的闡述和報道[1-6]。承接《中國普外基礎與臨床雜志》2019 年第 8 期發表的“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7]一文所作的報道,筆者現就 DACCA 中的內外科合并癥及術前體質狀態的具體概念、標簽與結構化進行詳細的闡述。
1 結直腸癌患者外科合并癥及相關內容模塊的構成
盡管以模塊作為數據庫分析的信息來源,但在 DACCA 中并未以整個模塊作為保存源數據的形式,而是對這部分內容進行了數據分列,以便于針對特定的數據進行歸類,為后續的數據庫內部關聯提供依據。外科合并癥模塊及相關內容的關系見圖 1。下面即為在該模塊下分列出來的數據類目及其定義。

1.1 外科合并癥的定義、標簽與結構化及標準化與糾錯
1.1.1 定義
結直腸癌患者的外科合并癥是指在結直腸癌這一主診斷外,其他可能需要采用外科手段(或有創操作)進行干預的疾病。在 DACCA 中,外科合并癥直接用疾病的名稱作為文本類數據進行保留,即有一項疾病則記錄一項;其來源可從患者的病史采集中獲取,也可從患者的術前檢查中獲取。在《中國普外基礎與臨床雜志》2019 年第 8 期發表了“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7],為了便于讀者對該數據條目有更直觀的認識,在研究過程中對疾病的分類進行了歸納并采用圖文形式展現。
1.1.2 標簽與結構化
所有術前獲取的“外科合并癥”的信息都直接以疾病名稱保留在對應患者的數據框格內。在每一種疾病名稱后用英文字體逗號“,”隔開。無論有多少疾病均按照順序填寫。由于動態數據庫可以具備對于特定數據字段的抓取能力[8],因此,在同一數據框內放置的這些連續疾病名稱可以通過相同數據字段的抓取達到數據分析時的精確搜索或者模糊搜索,故對于此類疾病信息的結構化應用只要疾病名稱達到規范化即可。
1.1.3 標準化與糾錯
外科合并癥與本研究后續需要談到的其他諸多數據列一樣,是圍繞著疾病建立的數據,均為短文本類型的數據,需要人為對疾病名稱錄入,存在極高的錯誤率,而且可能形成類型繁多、難以統一的疾病名稱“文本群”。因此,在 DACCA 中對于疾病診斷名稱有關的信息仍舊選擇遵照 ICD-10 的國際標準編碼進行[9]。而 DACCA 自身并不需要直接對此作專門的數據框架調整,而只需要將與疾病名稱有關的數據框鏈接到 ICD-10 的編碼系統即可。
1.2 手術史(surgical history)
1.2.1 定義
DACCA 中的手術史定義是指患者因為結直腸癌入院的時間為截至點,之前曾經實施的任何類型的手術。所以,這里的手術史不只是包括既往發生在腹腔、盆腔內的手術史,還會囊括其他部位的手術史。
1.2.2 標簽與結構化
如同前所述的“外科合并癥”的信息保留形式,每一種既往手術的名稱后用英文字體逗號“,”隔開,也采用按照順序填寫的方式進行。手術史的結構化應用也同理于外科合并癥的結構化,通過后期數據分析時的精確搜索或者模糊搜索達到數據庫應用的目的。
1.2.3 標準化與糾錯
手術史也采用 ICD-10 的國際標準編碼進行。與外科合并癥相同的是,手術史的糾錯中,主要是數據庫錄入階段的錯誤預防,避免名稱錄入錯誤。由于其與內科合并癥有定義上的不同,需要特別注意對于內外科合并癥的歸類,避免分類錯誤。在后續對結直腸癌患者進行隨訪期間,若發現在術前還有但未有效記錄的合并癥信息時也需要及時補充在內外科合并癥對應的數據框內。
1.3 外科合并癥模塊內相關內容
不同于基于醫院信息系統(hospital information system,HIS)建立的數據庫,DACCA 更重視應用性,所以對于合并癥所關聯的特定內容需要在數據庫的建設中做一定程度的選擇性的單列。選擇單列的項目主要是依據在數據庫決策邏輯中是否可以作為影響因素來確定,即模塊中的相關內容很可能與外科合并癥數據列存在有從屬關系(圖 1),也可能只是與外科合并癥的概念有一定的關聯。
1.3.1 內容的選擇
在外科合并癥模塊內相關內容包括:肝結節(hepatic nodule)、肝功能(liver function)、腎結節(renal nodule)、腎功能(renal function)、生殖(reproduction)、結石(lithiasis)。
1.3.2 內容的定義
1.3.2.1 肝結節
DACCA 中對肝結節的定義為:尚未確診為肝惡性腫瘤的結節樣病變(直徑≤2 cm),包括:性質待定的肝結節(hepatic nodule with undetermined property)、肝囊腫(hepatic cyst)、肝鈣化結節(nodule of hepatic calcification)、肝血管瘤(hepatic hemangioma)。肝功能在 DACCA 中作為肝結節相關的數據,其以 Child-Pugh 分級為標準將肝功能情況分為 A 級(肝功能良好)、B 級(肝功能中度受損)和 C 級(肝功能衰竭)[10]。
1.3.2.2 腎結節
DACCA 中對于腎結節的定義為:尚未確診為腎原發惡性腫瘤的病變(直徑≤2 cm),包括:確診為腎轉移癌(metastatic renal cell cancer,MRCC)、腎囊腫(renal cyst)、腎鈣化灶(renal calcification)、其他未定型的腎結節(other undetermined renal nodule)。腎功能在 DACCA 庫中作為腎結節相關的數據,其以改善全球腎臟病預后組織(Kidney Disease: Improving Global Outcomes,KDIGO)的腎功能損傷分級為標準,以患者的腎小球濾過率為分期標準將腎功能損害分為:1 期(腎功能正常)、2 期(腎功能輕度下降)、3 期(腎功能中度下降)、4 期(腎功能重度下降)和 5 期(腎功能衰竭)[11]。若患者有透析病史或為腎移植術后狀態,則以因結直腸癌初診時的腎功能損傷分期作為判斷。
1.3.2.3 生殖
DACCA 中的生殖數據列涵蓋了結直腸癌患者在術前出現的所有生殖系統(reproductivesystem)相關的疾病。
1.3.2.4 結石
結石數據列涵蓋了結直腸癌患者在術前出現的所有與結石有關的疾病。
1.3.3 標簽與結構化
外科合并癥模塊相關內容以短整數型作標簽并以副標作為特定的分類標記。
1.3.3.1 肝結節及肝功能
① 肝結節的標簽:患者若無肝結節標記為“0”,有肝結節則標記為“1”;若未對肝結節性質做出判斷則不追加副標;若考慮肝結節并非轉移性的病變則標記為“+”,并在“+”后追加括號,括號內包含考慮的病變名稱(除肝囊腫)仍以 ICD-10 的編碼系統進行;若考慮肝結節為肝囊腫則標記為“*”;若考慮不排除轉移灶則標記為“x”,并以是否能確診為轉移灶的強度按照“x”、“xx”及“xxx”作為強度標志,“x”數量越多則表示確診轉移灶的可能性越大,最多為 3 個“x”。② 肝功能的標簽:根據肝功能異常的程度標記,“0”表示肝功能無異常,“1”表示 Child-Pugh 分級 B 級,“2”表示 Child-Pugh 分級 C 級。
1.3.3.2 腎結節及腎功能
① 腎結節的標簽:患者若無腎結節標記為“0”,有腎結節則標記為“1”;若未對腎結節性質做出判斷則不追加副標;若對于腎結節性質有疾病種類的考慮則標記為“+”,并在“+”后追加括號,括號內包含疾病名稱。② 腎功能的標簽:根據腎功能異常的程度標記,“0”表示腎功能無異常,“1”表示腎功能輕度下降,“2”表示腎功能中度下降,“3”表示腎功能重度下降,“4”表示腎功能衰竭。
1.3.3.3 生殖
患者若無生殖系統的疾病標記為“0”;若為男性患者且有生殖系統疾病,標記為“1”,并在其后追加括號,括號內填寫所存在疾病的名稱;若為女性患者且有生殖系統疾病,標記為“2”,并在其后追加括號,括號內填寫疾病名稱。
1.3.3.4 結石
患者若無結石相關的疾病則標記為“0”;若患者有結石相關的疾病則標記為“1”,并在其后追加括號,括號內填寫所存在的疾病名稱。
1.3.4 標準化與糾錯
外科合并癥模塊中相關內容除去需進行結構化的部分外,所有疾病名稱也采用 IDC-10 國際標準編碼進行,糾錯的重點也是注意在數據庫錄入階段的錯誤預防。在后期隨訪中,若發現有遺漏的相關內容則需及時補充在該模塊中。
2 ?結直腸癌患者內科合并癥及相關內容模塊的構成
與外科合并癥的構建思路一致,為了便于數據庫中關聯數據的認定和使用,也沒有以整個模塊作為保存形式,而對于部分內容做了數據分列。以下則為在該模塊下分列出來的數據類目及其定義。
2.1 內科合并癥(medical comorbidities)
2.1.1 定義
內科合并癥也是結直腸癌患者在主診斷以外的疾病類型劃分,主要是指需要依靠非手術方式進行治療的疾病類型。在結直腸癌這種外科手術為主的疾病基礎上分列患者的內科合并癥,其重點是在數據庫中保留患者既往疾病所帶來的體質風險,也是在 DACCA 中應用數據決策的重要組成部分。在 DACCA 中,內科合并癥仍舊以疾病名稱作為文本類型數據進行保留。在已發表的“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7]的報道中選擇了不同于外科合并癥的處理方式,如前所述,DACCA 中有內科合并癥的結直腸癌患者,在最近的 10 年內超過了 65%,為了避免讀者對于按照系統分類后的分析理解上的困難,故對于內科合并癥只做了總體的構成分析,并在內科合并癥模塊內相關內容中進行了詳細闡述。
2.1.2 標簽與結構化
內科合并癥的信息仍舊采用直接以疾病名稱保留在數據框格中的方式。每一種疾病名稱后用英文字體逗號“,”隔開。無論有多少疾病均按照順序填寫。
2.1.3 標準化與糾錯
內科合并癥采用短文本類型的數據,仍舊選擇遵照 ICD-10 的國際標準編碼進行。對于其糾錯,除了需要準確區分內科合并癥與外科合并癥以外,還是重點關注在數據錄入階段的錯誤避免。在后期隨訪階段,追溯到患者在手術前已經存在的內科合并癥也需要及時補充在該模塊中。
2.2 內科合并癥模塊內的相關內容
2.2.1 內科合并癥模塊內相關內容的選擇與定義
2.2.1.1 內容的選擇
基于與外科合并癥相關內容構建相同的思路,在內科合并癥模塊中,還存在與內科合并癥數量有從屬關系或者關聯的內容,其內容包括:糖尿病(diabetes)、高血壓(hypertension)、肺炎(pneumonia)、肺結節(lung nodule)、肺功能障礙(pulmonary dysfunction)、心臟疾病(heart disease)、血管疾病/血栓(vascular disease/thrombus)、心功能障礙(cardiac dysfunction)、除糖尿病外的內分泌疾病(endocrine disease)、特殊感染/傳染疾病(special infection/infectious disease)、過敏史(allergy history),其關系見圖 2。

2.2.1.2 內容的定義
① 糖尿病、高血壓、心臟疾病(因現在學科的發展,心臟疾病可外科治療也可內科治療,在該欄,考慮到前序的外科合并癥未單列心臟手術的情況,所以只要心臟器質性病變都在其中)、血管疾病/血栓、除糖尿病外的內分泌疾病以及特殊感染/傳染疾病,均根據疾病標準定義作為辨別。② 肺炎,包括經典定義的肺部炎性改變、可疑肺部炎癥、肺部感染等,并對炎癥的嚴重程度進行劃分,分為無任何肺部炎癥、輕癥肺炎、明確肺炎不伴感染癥狀、明確肺部感染、肺部感染達到已經影響手術及麻醉。③ 肺結節(影像學表現為直徑≤3 cm 的局限性、類圓形、密度增高的實性或者亞實性肺部陰影),包括肺部結節非轉移相關病灶、肺部結節可疑轉移病灶、肺轉移性結節。④ 肺功能障礙,以美國胸科協會(American Thoracic Society,ATS)及歐洲呼吸學會分級(European Respiratory Society,ERS)聯合發布的 2005 版關于肺功能檢測的指南為標準,不區分肺功能損傷類型,只依照 1 s 用力呼氣容積(forced expiratory volume in one second,FEV1)占預計值的百分比來對肺功能能損害進行判斷,分為 6 個等級:正常(≥80%)、輕度(70%~80%)、中度(60%~69%)、中重度(50%~59%)、重度(35%~49%)和極重度(<35%)[12]。⑤ 心功能障礙,以紐約心臟學會(New York Heart Association,NYHA)的分級為標準,將患者心功能分為 4 個等級:Ⅰ級(體力活動不受限制)、Ⅱ級(體力活動輕度受限)、Ⅲ級(體力活動明顯受限)和Ⅳ級(不能從事任何體力活動)[13]。⑥ 過敏史,以實際有確切的過敏源作為記錄。
2.2.2 內科合并癥模塊內相關內容的標簽與結構化
DACCA中,在內科合并癥模塊相關內容中,均以短整數型作標簽,并以副標作為特定的分類標記。
2.2.2.1 糖尿病
患者無糖尿病標記為“0”,有血糖異常升高但未確診糖尿病則標記為“1”,其后追加副標“+”;有確切糖尿病則直接標記為“1”。
2.2.2.2 高血壓
患者無高血壓標記為“0”;有高血壓則標記為“1”。若有高血壓但不伴并發疾病時不做副標;若有高血壓且伴并發疾病時需追加副標“+”,并在“+”后追加括號,括號內包含伴發的并發疾病名稱,仍以 ICD-10 編碼系統進行。
2.2.2.3 肺炎
患者無任何肺炎標記為“0”,僅有輕癥肺炎時標記為“1”,明確肺炎但不伴明確肺部感染癥狀標記為“2”、明確肺炎且伴有明確肺部感染癥狀標記為“3”、肺部感染達到已經影響手術及麻醉標記為“4”。
2.2.2.4 肺結節
患者若無肺結節標記為“0”,有肺結節標記為“1”。若對肺結節性質未做出判斷時不追加副標;若考慮肺結節為非轉移相關病灶則追加副標“*”;若考慮非結節為可疑轉移病灶或者肺轉移性結節時追加副標小寫英文字母“x”并以結節的數量作為等級,按照“x”、“xx”、“xxx”及“xxxx”作為等級標志,“x”數目越多,在雙肺肺部結節數越多,最多為 4 個“x”;若考慮為肺轉移性結節的患者,其數據欄中術前的影像分期中將明確地標記為“肺轉移”的信息,這也是一組關聯數據。
2.2.2.5 肺功能
患者若未評價肺功能則標記為“x”;若肺功能評價為無障礙則標記為“0”,輕度障礙標記為“1”,中度障礙標記為“2”,中重度障礙標記為“3”,重度障礙標記為“4”,極重度障礙標記為“5”。
2.2.2.6 心臟疾病
患者若無心臟疾病則標記為“0”,若有心臟疾病則標記為“1”,并在后追加括號,括號內包含疾病名稱。
2.2.2.7 血管疾病/血栓
患者若無血管疾病/血栓則標記為“0”;若有但與結直腸癌無系統上的相關時則標記為“1”;若有且與結直腸癌有系統上的相關時標記為“2”,并在其后追加副標“+”及括號,括號內包含疾病名稱。
2.2.2.8 心功能
患者若未評價心功能則標記為“x”;若 NYHA 評分為Ⅰ級(心功能無障礙)時標記為“0”,Ⅱ級時標記為“1”,Ⅲ級時標記為“2”,Ⅳ級時標記為“3”。
2.2.2.9 除糖尿病外的內分泌疾病
除去糖尿病的其他內分泌疾病匯總在一個數據欄內,若無則標記為“0”;若有則標記為“1”,并在其后追加副標“+”及括號,括號內包含疾病名稱。
2.2.2.10 特殊感染/傳染疾病
患者若無則標記為“0”;若有則標記為“1”,并在后追加括號,括號內包含疾病名稱。
2.2.2.11 過敏史
患者若無標記為“0”;若有標記為“1”,并在后追加括號,括號內包含疾病名稱。
需要注意,以上內科合并癥模塊的相關內容中一旦出現多個同一類目下的疾病時,仍采用連續記錄的方式,且每種疾病間用英文逗號“,”隔開。
2.2.3 標準化與糾錯
內科合并癥模塊中的相關內容除了需要進行標簽的部分外,所有疾病名稱也采用 ICD-10 國際標準編碼進行。在數據庫錄入階段的錯誤預防是首要的。但是由于其中還包含有部分涉及到功能評估的數據,因此,部分數據需要在患者內科疾病的狀態進行評價后錄入,應注意評價的準確性。除去在后期隨訪過程中的遺漏填補外,其中過敏史需要專門予以重視。由于患者信息入庫階段的過敏史主要表示的是患者已知的過敏源信息,若患者在治療期間,由于用藥或者抗生素皮試等情況下發現了新的過敏藥物,也是需要及時在數據欄中進行補充,避免遺漏。
3 ?結直腸癌患者術前體質狀態與特征
3.1 術前體質狀態的定義
患者術前體質狀態不同于其身高、體質量等身體基本素質的數據信息,在 DACCA 中體質狀態是指,以結直腸癌就診的患者在進行初診時,處于疾病狀態下的體質狀態信息,其重點是在于疾病給患者所帶來的身體狀態的宏觀影響。
3.2 術前體質狀態的設定原則與糾錯
術前體質狀態來自于患者主觀判斷、客觀信息及專科醫生專業判斷幾個方面,因此,所設計的術前體質狀態無法單純地通過 HIS 來獲取,更多需要根據患者、家屬和醫生所提供的綜合信息進行判斷并記錄入庫。術前體質狀態的糾錯更為困難,需要在入庫時做出更為準確的判斷,否則,一旦有可疑的數據信息,則需要重新對患者的相關信息進行充分分析后做出決定,必要時還應與醫生的諸多臨床行為關聯后做出判斷。
3.3 術前體質狀態的內容、標簽與結構化
3.3.1 評分
DACCA 中選取了國際通用的營養篩查量表(NRS-2002 量表)[14-17]作為客觀量表數據。NRS-2002 量表的數值僅選擇初診后首次的評估結果為入庫信息。在 DACCA 中,NRS-2002 量表對應的數據欄以短整數型作為標簽,可以填寫的數據是從 0 開始的整數。在數據庫的結構化應用中以其作為數值進行數據分析。
3.3.2 體質
DACC 中設計的“體質”欄目是指醫生對患者所處身體狀態的主觀判斷,以文本型作為標簽。數據錄入時直接采用文本錄入。文本均使用兩個中文文字作為格式,要求醫生對患者的體質特點進行歸納,如炎性、多病、弱性、神經、健壯、緊張等。在數據庫的結構化管理中,考慮到數據庫具備數據標簽不斷添加的功能,會給數據庫管理者(主要是專科醫生)足夠的主觀評判空間,在必要時可追加體質特點的類型。因此我們在“數據庫研究第三部分:結直腸癌的內外科合并癥及術前體質狀態” [7]的報道中并未對此進行分析。但考慮到患者的體質特征可能在某些臨床決策環節中會影響臨床的最終決策和結果,故在 DACCA 中將此項目保留,以作為未來臨床決策分析的變量之一。
3.3.3 消瘦
DACCA 中的“消瘦”是指結直腸癌患者在初診時已經表現出的體質量下降情況。以短整數型作為標簽,其默認的單位為“kg”。數據來源可以由 HIS 中患者的體質量下降作為來源且選取其整數部分作保留,可以填寫的數據,是能從 0 開始的整數。在數據庫的結構化應用中以其作為數值進行數據分析。
3.3.4 貧血
DACCA 中“貧血”的數據采用國際標準的貧血定義和劃分方式。采用短整數型作為標簽。無貧血的患者標記為“0”,輕度為“1”,中度為“2”,重度為“3”。特別說明的是,患者若在初診前已經進行了糾正貧血的輸血治療時則在其后增加副標“*”。在數據庫的結構化應用中,貧血的分級按照等級資料進行描述和分析。
3.3.5 蛋白(總蛋白或白蛋白)
DACCA 中“蛋白”的數據是源于對于低蛋白血癥(血清總蛋白<60 g/L 或白蛋白<35 g/L)的數值轉換。采用短整數型作為標簽。無低蛋白血癥標記為“0”,輕度低蛋白狀態(血清白蛋白 30~35 g/L)標記為“1”,中度低蛋白狀態(血清白蛋白 25~29 g/L)標記為“2”,重度低蛋白狀態(血清白蛋白<25 g/L)標記為“3”。在數據庫的結構化應用中,蛋白的分級按照等級資料進行描述和分析。
3.3.6 腹水、胸水、心包積液
DACCA 中“腹水”、“胸水”和“心包積液”均采用國際標準定義和劃分方式。采用短整數型作為標簽。三種類型的積液標記方式基本相同:無積液標記為“0”,少量積液標記為“1”,中量積液標記為“2”,大量積液標記為“3”。在數據庫的結構化應用中,腹水、胸水和心包積液的分級按照等級資料進行描述和分析。
3.3.7 免疫狀態
DACCA 中“免疫狀態”的判定需要應用結直腸癌患者初診時實驗室檢驗后的體液免疫狀態和細胞免疫狀態結果[18-20]。由于體液免疫狀態和細胞免疫狀態的指標繁多,因此,為了數據庫應用的必要,采用當免疫球蛋白出現下降或者 CD 細胞出現下降時判定有免疫狀態下降的可能。在 DACCA 中采用短整數型作為標簽。未檢測免疫狀態相關指標者標記為“x”,免疫狀態有下降可能者標記為“1”,無下降可能者標記為“0”。由于結直腸癌患者術前可能進行輔助治療,治療前后免疫狀態的變化用半字線“-”連接。半字線前后分別標記為治療前后的免疫狀態,如:1-0,表示新輔助治療前初診時免疫力狀態可能有下降,經治療后再次評估免疫狀態正常。
3.3.8 生化(電解質狀態)
DACCA 中“生化”數據表示對于結直腸癌患者初診時的電解質是否異常的信息。在 DACCA 中采用短整數型作為標簽。若患者的電解質無異常,則標記為“0”;有異常則標記為“1”,并在其后追加括號,括號內記錄具體電解質變化的狀態,如“低鉀”等。在數據庫的結構化應用中,采用同類文本抓取的技術完成對于數據的歸類和分析。
3.3.9 支持(營養支持)
DACCA 中“支持”數據欄是指結直腸癌患者初診時是否已選擇或開始任何治療和決策前必須選擇的靜脈營養支持(腸外營養),表示患者體質狀態在該階段必須依賴營養的支持才可能為后續治療提供保障。在 DACCA 中采用短整數型作為標簽。若患者無需進行靜脈營養支持標記為“0”,需要則標記為“1”。在數據庫的結構化分析中,兩者可作為分類資料進行分析。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:汪曉東負責本文的主要撰寫工作;劉健博負責本文的部分撰寫工作和參考文獻引用;汪曉東和李立共同為華西 DACCA 的構建者和主要應用分析人員。