引用本文: 汪曉東, 呂炘沂, 黃明君, 李卡, 李立. 數據庫建設第二部分:結直腸癌住院流程管理的標簽與結構化. 中國普外基礎與臨床雜志, 2019, 26(7): 852-855. doi: 10.7507/1007-9424.201905058 復制
續前系列所述[1-4],本團隊對于華西腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建基本思路進行了總體闡述,并對其中第一部分的個人數據進行了概念闡述和數據現狀報道。承接《中國普外基礎與臨床雜志》第 4 期發表的“數據庫研究第二部分:結直腸癌的住院流程管理”[3]對于結直腸癌住院流程管理的報道,筆者現將針對住院流程管理的具體概念進行詳細的闡述。華西 DACCA 的住院流程管理模塊中的內容主要包括日期、時長及流程管理三大類。在數據庫建設中,數據結構化的詮釋在《中國普外基礎與臨床雜志》第 3 期發表的“數據庫建設第一部分:個人數據的標簽與結構化”[4]一文中已經做了詳細的描述。由于住院流程管理分類的劃分方式存在多重性,因此,在對其內容定義及各數據列的標簽與結構化再做詳細介紹。
1 住院流程管理模塊中的日期(date)
1.1 日期條目的內容
華西 DACCA 中,與住院流程管理模塊有關的日期條目包括就診日期、入院日期、手術日期及出院日期 4 項。
1.1.1 就診日期(date of first out-patient meeting)
此是指患者第一次在華西醫院門診就診的日期。由于結直腸癌患者在門診就診時的訴求有多種,如也可能是由于“哮喘”就診,所以在確定該日期時是選擇患者因為結直腸癌確診或有相關癥狀作為訴求而于門診就診的日期。
1.1.2 入院日期(admitted date)
此是指患者因為結直腸癌需要行手術治療而收治入院的日期。需要特別強調的是,有部分行新輔助放化療的患者[5-6],可能在手術前已經在華西醫院入院不止 1 次,此時認定的入院日期只是以擬行手術治療的入院日期為準。
1.1.3 手術日期(operative date)
此是指患者針對結直腸癌原發病灶以切除為目標進行探查和對應手術方式實施時的日期。需要注意的是,有部分患者由于在原發病灶進行手術前可能已有相關的手術,如癌性梗阻所致的急診結腸造口手術、優先發現肝轉移灶而行肝占位切除手術后再處理原發結直腸癌者(Liver-first Approach)[7]等。
1.1.4 出院日期(discharged date)
此是指患者原發病灶相關手術后的出院時間。若患者出現 30 d 內再入院[8-9],由于兩次住院屬于分列判斷,仍舊以第一次手術后的出院日期為準。
1.2 日期條目的標簽與結構化
1.2.1 日期條目的標簽
以完整含有“年”“月”“日”的一組數據作為統一格式。目前,日期標簽的表達形式有多種,根據中國表達方式有如“2012 年 3 月 14 日”或“二〇一二年三月十四日”表達;或英文表達方式如“2012-03-14”或“03/14/12”表達,都是可以接受的標簽方式。在華西 DACCA 中作初始數據源時,我們通常將日期預設為“中國”-“*2012/3/14”格式并通過工具欄做日期的結構化統一校正,見圖1。

以 Excel(Office 365, Microsoft, Redmond, WA, USA)為選擇工具,通過選擇“數據”菜單欄后,選取如圖中的“分列”工具項,按照“文本分列向導”工具,選取需要統一的文本或日期格式。
1.2.2 日期條目的結構化
由于現有的數據庫工具(Excel、Access、Db2 等)[10-12]或 BI 可視化工具(Tableau 等)[13]都具有統一化的日期結構,因此,在華西 DACCA 中日期的結構化可以根據不同工具的需要直接做日期格式轉化(date transformation),幾乎不存在不接受的可能。當需要數據庫進入 BI 可視化階段時,“日期”數據源可以通過統一化的日期結構數據清洗完成,見圖2。

以 Tableau Prep.(Tableau Software, Seattle, WA, USA)為清洗工具,通過選擇“鏈接”源數據后,將鏈接數據庫作“清洗”處理,再選擇“日期”數據列,作“日期”類型定義,根據“日期”數據列做快速瀏覽后確定不符合“日期”數據規范的項目,作去除處理;保留的數據項即可以為下一步 BI 做準備。
1.3 日期條目的糾錯
① 預防。日期條目的錯誤通常發生在錄入階段,由于華西 DACCA 與醫院信息系統(hospital information system,HIS)不直接鏈接,因此,在日期的錄入階段預防日期錄入錯誤是必要的。② 正確選擇日期格式。關于日期格式的選擇,在數據錄入時需要排除“小時/分鐘/秒”的內容,一旦出現后者即需要刪除“小時/分鐘/秒”的內容并只保留“日期”的標簽。③ 校對。當不明確“日期”條目是否有錯時,可以通過同一時間段的患者群,如:“同一天手術”“同一天入院”等信息做快速糾正,但是若無法尋找關聯的信息時,只能再次做數據核實,重新錄入。
2 住院流程管理模塊中的時間或時長(daysfor staying)
2.1 時間條目的內容
華西 DACCA 中,與住院流程管理模塊有關的時間條目也等同于“時間差”概念的條目,包括入院前等待時間、術前住院時間、術后住院時間及總住院時間 4 項。
2.1.1 入院前等待時間(waiting-time)
是指從就診日期到入院日期之間的時間天數差。
2.1.2 術前住院時間(preoperative staying days)
是指從入院日期到手術日期之間的時間天數差。
2.1.3 術后住院時間(postoperative staying days)
是指從手術日期到出院日期之間的時間天數差。
2.1.4 總住院時間(hospital staying days)
是指從入院日期到出院日期之間的時間天數差,也等于術前住院時間和術后住院時間的總天數之和。
2.2 時間條目的標簽與結構化
時間條目都是短整數型的標簽,具有可排序、能計算的基本功能。
由于華西 DACCA 中對于“日期”在結構化中做了統一化的處理,因此,“時間”條目都不屬于人工錄入內容,而是采用自動計算完成。程序函數的編碼方式為:DAYS(Start_date,End_date),返回數值為整數的“時間”天數,見圖3。

2.3 時間條目的糾錯
由于“時間”為“日期”所關聯自動生成,因此“時間”條目的糾錯等同于對“日期”條目的糾錯需求。
3 住院流程管理模塊中的流程管理(manageprotocol)
3.1 流程管理的分類與定義
在華西 DACCA 中,住院流程管理分類包括計劃性住院流程管理(planned)和非計劃性住院流程管理(randomized)。
3.1.1 非計劃性住院流程管理
系指患者的液體治療方案根據每日的病情變化臨時進行調整,包括個體化的住院管理和特殊情況下的住院管理,見表1。

3.1.2 計劃性住院流程管理
在計劃性住院流程管理中,每天的計劃液體治療以少量腸外營養者屬于常規管理流程,以完全使用腸外營養者屬于加強管理流程,按照快速流程(fast track,FT)方案進行者則屬于加速康復外科(enhanced recovery after surgery,ERAS)流程管理[14-15]。需要說明的是,住院時間長短并非 ERAS 管理中單純的日期差值,而是患者是否在已經應該限制或者停止液體時不再進行靜脈輸液以及是否已經達到了出院的標準,這些才是則屬于 ERAS 流程管理的真實定義。如當患者在術后 2 d 即停止了液體治療卻因為各種原因術后 7 d 才出院,這也應該屬于 ERAS 流程管理,這也是 DACCA 研究中需要闡述和區分的。為了便于讀者清楚辨別住院流程管理中的多個分類,可參見表1 中的具體描述。其中 ERAS 流程又按照 ERAS 要求內容的具體完成度劃分為 3 個標準:僅完成術后 ERAS 流程、圍手術期 ERAS 流程以及全 ERAS 流程,具體的標準見表2。

3.2 標簽與結構化
流程管理條目中,按照不同的分類方式定義標簽為:常規管理流程(routine)標記為“r”,加強管理流程(enhanced)標記為“e”,加速康復外科管理流程(ERAS)標記為“f”,個體化流程管理(individual)標記為“i”,其他非計劃性住院流程管理標記為“other”,其中加速康復外科流程管理(ERAS)根據 ERAS 的標準不同又分別進行標記,僅完成術后 ERAS 流程標記為“f”,完成圍手術期 ERAS 流程標記為“ff”,完成全程 ERAS 流程標記為“fff”。在結構化中,所有的流程管理條目以短文本形式保存。
3.3 糾錯
流程管理條目的錄入是根據患者住院期間實際的管理方式進行的,需要注意人工錄入帶來的錯誤輸入問題。流程管理條目的糾錯較為困難,由于華西 DACCA 中的數據并不會詳細闡述患者在住院流程管理中的細節問題,如 ERAS 的液體限制[16-17],不會專門保留對應的數據和信息。因此,在判斷 ERAS 的流程管理時需要數據錄入者在出院時第一時間完成。部分流程管理可以通過 HIS 進行推斷,如加強流程管理中要求患者進行完全腸外營養支持[18],若在 HIS 信息解讀時發現有完全腸外營養支持的依據,也可以輔助判斷為加強管理流程。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:汪曉東和李立為華西 DACCA 的數據庫構建者和主要應用分析人員;汪曉東還負責本文的主要撰寫工作;呂炘沂,負責本文的部分撰寫工作和對應參考文獻的核實;黃明君和李卡主要參與在華西 DACCA 的流程概念定義,特別是加速康復外科的定義及分類設計。
續前系列所述[1-4],本團隊對于華西腸癌數據庫(Database from Colorectal Cancer,DACCA)的構建基本思路進行了總體闡述,并對其中第一部分的個人數據進行了概念闡述和數據現狀報道。承接《中國普外基礎與臨床雜志》第 4 期發表的“數據庫研究第二部分:結直腸癌的住院流程管理”[3]對于結直腸癌住院流程管理的報道,筆者現將針對住院流程管理的具體概念進行詳細的闡述。華西 DACCA 的住院流程管理模塊中的內容主要包括日期、時長及流程管理三大類。在數據庫建設中,數據結構化的詮釋在《中國普外基礎與臨床雜志》第 3 期發表的“數據庫建設第一部分:個人數據的標簽與結構化”[4]一文中已經做了詳細的描述。由于住院流程管理分類的劃分方式存在多重性,因此,在對其內容定義及各數據列的標簽與結構化再做詳細介紹。
1 住院流程管理模塊中的日期(date)
1.1 日期條目的內容
華西 DACCA 中,與住院流程管理模塊有關的日期條目包括就診日期、入院日期、手術日期及出院日期 4 項。
1.1.1 就診日期(date of first out-patient meeting)
此是指患者第一次在華西醫院門診就診的日期。由于結直腸癌患者在門診就診時的訴求有多種,如也可能是由于“哮喘”就診,所以在確定該日期時是選擇患者因為結直腸癌確診或有相關癥狀作為訴求而于門診就診的日期。
1.1.2 入院日期(admitted date)
此是指患者因為結直腸癌需要行手術治療而收治入院的日期。需要特別強調的是,有部分行新輔助放化療的患者[5-6],可能在手術前已經在華西醫院入院不止 1 次,此時認定的入院日期只是以擬行手術治療的入院日期為準。
1.1.3 手術日期(operative date)
此是指患者針對結直腸癌原發病灶以切除為目標進行探查和對應手術方式實施時的日期。需要注意的是,有部分患者由于在原發病灶進行手術前可能已有相關的手術,如癌性梗阻所致的急診結腸造口手術、優先發現肝轉移灶而行肝占位切除手術后再處理原發結直腸癌者(Liver-first Approach)[7]等。
1.1.4 出院日期(discharged date)
此是指患者原發病灶相關手術后的出院時間。若患者出現 30 d 內再入院[8-9],由于兩次住院屬于分列判斷,仍舊以第一次手術后的出院日期為準。
1.2 日期條目的標簽與結構化
1.2.1 日期條目的標簽
以完整含有“年”“月”“日”的一組數據作為統一格式。目前,日期標簽的表達形式有多種,根據中國表達方式有如“2012 年 3 月 14 日”或“二〇一二年三月十四日”表達;或英文表達方式如“2012-03-14”或“03/14/12”表達,都是可以接受的標簽方式。在華西 DACCA 中作初始數據源時,我們通常將日期預設為“中國”-“*2012/3/14”格式并通過工具欄做日期的結構化統一校正,見圖1。

以 Excel(Office 365, Microsoft, Redmond, WA, USA)為選擇工具,通過選擇“數據”菜單欄后,選取如圖中的“分列”工具項,按照“文本分列向導”工具,選取需要統一的文本或日期格式。
1.2.2 日期條目的結構化
由于現有的數據庫工具(Excel、Access、Db2 等)[10-12]或 BI 可視化工具(Tableau 等)[13]都具有統一化的日期結構,因此,在華西 DACCA 中日期的結構化可以根據不同工具的需要直接做日期格式轉化(date transformation),幾乎不存在不接受的可能。當需要數據庫進入 BI 可視化階段時,“日期”數據源可以通過統一化的日期結構數據清洗完成,見圖2。

以 Tableau Prep.(Tableau Software, Seattle, WA, USA)為清洗工具,通過選擇“鏈接”源數據后,將鏈接數據庫作“清洗”處理,再選擇“日期”數據列,作“日期”類型定義,根據“日期”數據列做快速瀏覽后確定不符合“日期”數據規范的項目,作去除處理;保留的數據項即可以為下一步 BI 做準備。
1.3 日期條目的糾錯
① 預防。日期條目的錯誤通常發生在錄入階段,由于華西 DACCA 與醫院信息系統(hospital information system,HIS)不直接鏈接,因此,在日期的錄入階段預防日期錄入錯誤是必要的。② 正確選擇日期格式。關于日期格式的選擇,在數據錄入時需要排除“小時/分鐘/秒”的內容,一旦出現后者即需要刪除“小時/分鐘/秒”的內容并只保留“日期”的標簽。③ 校對。當不明確“日期”條目是否有錯時,可以通過同一時間段的患者群,如:“同一天手術”“同一天入院”等信息做快速糾正,但是若無法尋找關聯的信息時,只能再次做數據核實,重新錄入。
2 住院流程管理模塊中的時間或時長(daysfor staying)
2.1 時間條目的內容
華西 DACCA 中,與住院流程管理模塊有關的時間條目也等同于“時間差”概念的條目,包括入院前等待時間、術前住院時間、術后住院時間及總住院時間 4 項。
2.1.1 入院前等待時間(waiting-time)
是指從就診日期到入院日期之間的時間天數差。
2.1.2 術前住院時間(preoperative staying days)
是指從入院日期到手術日期之間的時間天數差。
2.1.3 術后住院時間(postoperative staying days)
是指從手術日期到出院日期之間的時間天數差。
2.1.4 總住院時間(hospital staying days)
是指從入院日期到出院日期之間的時間天數差,也等于術前住院時間和術后住院時間的總天數之和。
2.2 時間條目的標簽與結構化
時間條目都是短整數型的標簽,具有可排序、能計算的基本功能。
由于華西 DACCA 中對于“日期”在結構化中做了統一化的處理,因此,“時間”條目都不屬于人工錄入內容,而是采用自動計算完成。程序函數的編碼方式為:DAYS(Start_date,End_date),返回數值為整數的“時間”天數,見圖3。

2.3 時間條目的糾錯
由于“時間”為“日期”所關聯自動生成,因此“時間”條目的糾錯等同于對“日期”條目的糾錯需求。
3 住院流程管理模塊中的流程管理(manageprotocol)
3.1 流程管理的分類與定義
在華西 DACCA 中,住院流程管理分類包括計劃性住院流程管理(planned)和非計劃性住院流程管理(randomized)。
3.1.1 非計劃性住院流程管理
系指患者的液體治療方案根據每日的病情變化臨時進行調整,包括個體化的住院管理和特殊情況下的住院管理,見表1。

3.1.2 計劃性住院流程管理
在計劃性住院流程管理中,每天的計劃液體治療以少量腸外營養者屬于常規管理流程,以完全使用腸外營養者屬于加強管理流程,按照快速流程(fast track,FT)方案進行者則屬于加速康復外科(enhanced recovery after surgery,ERAS)流程管理[14-15]。需要說明的是,住院時間長短并非 ERAS 管理中單純的日期差值,而是患者是否在已經應該限制或者停止液體時不再進行靜脈輸液以及是否已經達到了出院的標準,這些才是則屬于 ERAS 流程管理的真實定義。如當患者在術后 2 d 即停止了液體治療卻因為各種原因術后 7 d 才出院,這也應該屬于 ERAS 流程管理,這也是 DACCA 研究中需要闡述和區分的。為了便于讀者清楚辨別住院流程管理中的多個分類,可參見表1 中的具體描述。其中 ERAS 流程又按照 ERAS 要求內容的具體完成度劃分為 3 個標準:僅完成術后 ERAS 流程、圍手術期 ERAS 流程以及全 ERAS 流程,具體的標準見表2。

3.2 標簽與結構化
流程管理條目中,按照不同的分類方式定義標簽為:常規管理流程(routine)標記為“r”,加強管理流程(enhanced)標記為“e”,加速康復外科管理流程(ERAS)標記為“f”,個體化流程管理(individual)標記為“i”,其他非計劃性住院流程管理標記為“other”,其中加速康復外科流程管理(ERAS)根據 ERAS 的標準不同又分別進行標記,僅完成術后 ERAS 流程標記為“f”,完成圍手術期 ERAS 流程標記為“ff”,完成全程 ERAS 流程標記為“fff”。在結構化中,所有的流程管理條目以短文本形式保存。
3.3 糾錯
流程管理條目的錄入是根據患者住院期間實際的管理方式進行的,需要注意人工錄入帶來的錯誤輸入問題。流程管理條目的糾錯較為困難,由于華西 DACCA 中的數據并不會詳細闡述患者在住院流程管理中的細節問題,如 ERAS 的液體限制[16-17],不會專門保留對應的數據和信息。因此,在判斷 ERAS 的流程管理時需要數據錄入者在出院時第一時間完成。部分流程管理可以通過 HIS 進行推斷,如加強流程管理中要求患者進行完全腸外營養支持[18],若在 HIS 信息解讀時發現有完全腸外營養支持的依據,也可以輔助判斷為加強管理流程。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:汪曉東和李立為華西 DACCA 的數據庫構建者和主要應用分析人員;汪曉東還負責本文的主要撰寫工作;呂炘沂,負責本文的部分撰寫工作和對應參考文獻的核實;黃明君和李卡主要參與在華西 DACCA 的流程概念定義,特別是加速康復外科的定義及分類設計。