引用本文: 汪曉東, 李立. 數據庫建設第一部分:個人數據的標簽與結構化. 中國普外基礎與臨床雜志, 2019, 26(3): 335-342. doi: 10.7507/1007-9424.201901070 復制
目前,國際上最主流的結直腸癌數據庫主要有 SEER(Surveillance,Epidemiology,and End Results Program from NIH,USA)[1]和 NCDB(National Cancer Database from American College of Surgeons,USA)[2]。近年來,SEER 和 NCDB 這兩個數據庫已經應用在臨床數據的研究中[3-4]。
華西腸癌數據庫(database from colorectal cancer,DACCA)是以數據集合為基礎的動態數據庫,是按照一定的數據庫建設理念逐步構建完成的[5-8]。為了完成持續、有效的數據更新,數據庫主框架即數據庫每一列信息的設置是最早完成并且在隨后的時間里逐步更新和完善的。華西 DACCA 不僅會在傳統數據庫研究或者基礎性臨床科研分析中發揮作用,而且還會重點應用在未來結直腸癌大數據模型的建立和人工智能[9]的發展中。因此,如何準確地構建結直腸癌數據庫是最為重要的基礎且長期性的工作。筆者擬對數據庫建設進行一系列報道,其是基于華西 DACCA 建設的經驗,詳細解讀如何完善一套華西 DACCA 供閱讀者交流和學習,本部分報道的內容是華西 DACCA 建設的首篇—個人數據,下面就個人數據模塊的內容及結構化進行詳解。
1 華西 DACCA 的個人數據模塊的內容及結構化
1.1 個人數據模塊的內容
劃歸在 DACCA 的個人數據模塊的內容包括:患者姓名,性別,年齡,血型,身高,體質量,體質量指數(body mass index,BMI),首次住院號,新增門診號,患者身份證,家屬身份證,地址,是否為成都患者,婚姻狀況,子女狀況,電話,職業,文化程度,醫患關系,就診途徑,就醫信息,醫保類型,經濟條件,共計 23 項。
1.2 數據結構化(structured data)
在數據庫建設中,數據的結構化是完成數據庫分析和大數據模型的基礎。結構化是指將數據庫中的數據轉化為統一可以歸納、檢索及分析的穩定結構。所有數據庫的數據都必須完成結構化,從而達到高速存儲、數據備份、數據共享、數據容滅等需求。常用數據結構化的標記方式包括 HTML 代碼標記[10]和微數據標記[11]。數據庫內的數據標記需要建立對應的統一標記方式,也就是制定標簽(tags)[12]。完成數據列的標簽后,根據特定數據關系完成數據庫數據的結構化。
2 華西 DACCA 的個人數據模塊中內容的定義及各數據列的標簽與結構化
2.1 患者姓名
2.1.1 定義與設定
華西 DACCA 中的患者既可能來自國內,也可能來自國外。中國人的姓名是以漢字表示,漢族人由姓氏和名字一起構成,其他民族則音譯為漢字表示(其他民族也有部分是按照漢族方式取名);漢族的姓名一般不會超過 5 個漢字(其他民族的姓名可能會超過 5 個漢字),數據填寫過程中按照文字順序依次填寫,字與字之間不留空格。國外患者的姓名按照先 “名字” 后 “姓氏” 的方式進行書寫,用英文保存。名字與姓氏之間不留空格或加標點符號,名字和姓氏首字母大寫,如:“Bill Gates”應填寫為“BillGates”而不應填寫為“Gates,Bill”的書寫方式。
2.1.2 標簽與結構化
姓名的文字完整書寫形成一個獨立標簽。因中國人的姓名可能存在重名情況,按照錄入數據庫的先后順序在姓名后追加數字作為區別,如: “李雷” “李雷 1” “李雷 2” ,……。在數據庫搜索過程中,為確定重名標簽下不會導致數據錄入錯誤,需要同時核對重名數據完成條(line)的“手術日期”和“住院號” 。為提高對于特殊關注患者的快速識別,對于正在聯合手術治療期間有轉移的結直腸癌附加標簽附錄為大寫英文字母“M”(指代“轉移” =metastasis)并附加小寫英文字母代表轉移部位,如“g”指代“肝臟” =拼音 ganzang,“f”指代“肺” =拼音 fei,其組合方式包括 Mg(肝轉移)和 Mf(肺轉移),與姓名標簽疊加后可以表達為:如“李雷 Mg” “李雷 Mf”等;對于一期手術后還未完成二期手術(如腸還納手術、肛門成型、取淋巴結活檢等)的情況,附加標簽“-”說明;對于同一患者,由于復發癌、再發癌、并發癥等情況需要再次手術的,附加標簽“+”說明;對于隨訪后明確達到“死亡”終點指標的附加標簽“*”說明。
2.1.3 糾錯
姓名標簽的糾錯通常發生在數據庫更新階段(follow-up/update)。最常發生的錯誤是姓名文字寫錯,一旦寫錯文字,會導致姓名檢索失敗(searching failed)。姓名標簽的糾錯,需要通過“手術日期” “住院號” “腫瘤部位”以及“手術名稱”進行核實(re-check)。
2.2 性別
2.2.1 定義與設定
華西 DACCA 中患者的性別僅設定為“男”或者“女” 。目前部分國外的數據庫菜單中,由于特定人群如變性人(transsexual)被社會所接受,因此可能還有“未確定”選項。本數據庫不作此分類。
2.2.2 標簽與結構化
性別數據形成獨立標簽,分別用數字“0”指代“女性”,數字“1”指代“男性” 。在數據標簽結構化過程中,這里的數字“0”或者“1”作為結構化分類是以文本形式存在,不能作為數字型數據的分析。
2.2.3 糾錯
性別數據是原始的資料,難以通過數據庫內部進行重新結構化,但是可以通過數據庫內部進行核實,如提取手術操作環節中的“子宮部位處理”推論患者的性別。一般來說,需要對原始病歷進行核實。
2.3 年齡
2.3.1 定義與設定
華西 DACCA 中患者的年齡,按照標準定義為一個人從出生起到需要計算時的生存時間的長度。數據庫中記錄的年齡就是患者第一次來就診時的年齡值,單位用“歲”表示,不取月份數。如“48 歲 5 個月”則記錄為“48 歲” 。華西 DACCA 中的年齡設定為 0~150 歲區間范圍。
2.3.2 標簽與結構化
年齡數據形成獨立標簽,單位默認為“歲” ,而在數據庫內保存為阿拉伯數值(0~150)。在數據標簽結構化的過程中,年齡以數值方式存在,能作為數字型數據的分析。
2.3.3 糾錯
年齡數據錯誤相對較小,現在的醫院信息系統都會通過患者的身份證在就診時自動計算年齡,幾乎沒有錯誤。而常出現的錯誤主要出現在同一位患者多次就診時,系統可能會提供多個“就診年齡” ,因此需要按照數據庫指定的“第一次”就診作為標準的數據庫登記年齡。
2.4 血型
2.4.1 定義與設定
華西 DACCA 中患者的血型引用 ABO 血型系統。ABO 血型由紅細胞膜上的不同抗原所決定。ABO 血型可以分類為“A 型” “B 型” “O 型”以及“AB 型”4 類。
2.4.2 標簽與結構化
按照血型的四個類型對血型進行數據標簽,分別保存為“A、B、O、AB”4 個標簽。在數據結構化的過程中,4 個標簽分別以文本形式存在,不形成等級。
2.4.3 糾錯
血型數據是原始的資料,只能根據原始病歷記錄及實驗室信息系統(laboratory information system,LIS)來核實。
2.5 身高與體質量
2.5.1 定義與設定
華西 DACCA 中患者的身高是指人身體直立、眼睛向前平視時從地面到頭頂的垂直距離,應用單位為厘米(cm)。體質量是人身體所有器官重量的總和,應用單位為千克(kg)。身高和體質量的數值,保留為小數點后 0 位。
2.5.2 標簽與結構化
身高和體質量的數值直接作為標簽,但是在結構化中該標簽不含有對應的單位(cm 或者 kg)。在結構化應用中,這兩類標簽以數值形式存在。
2.5.3 糾錯
身高和體質量的數值通常在病歷中可能會出現缺失,可以結合病歷、護理病歷記錄以及麻醉記錄單進行多重核對。由于麻醉人員需要通過對于患者的身高、體質量計算準確的麻醉藥物劑量,因此當在病歷記錄中出現矛盾數據時以麻醉記錄單作為最終核定標準。
2.6 BMI
2.6.1 定義與設定
BMI 是用體質量(kg)除以身高的平方(m2)得出的數字,是國際上常用的衡量人體胖瘦程度以及是否健康的標準之一。數據庫中的 BMI 數值根據關聯數據自動運算獲得,關聯數據來源的項目即為“身高”和“體質量”的數值。自動運算獲得數值保留了小數點后 4 位以上。當“身高”或“體質量”中某一項或兩項均存在缺失時,則自然無 BMI 數值計算結果。
2.6.2 標簽與結構化
BMI 的數值直接作為標簽,由于 BMI 不包括單位,因此可以直接保留數值作為標簽。在結構化應用中,BMI 保留小數點后 2 位的數值。
2.6.3 糾錯
BMI 不進行人工糾錯。由于 BMI 是采用數據庫中關聯數據自動運算,故重點是對“身高”和“體質量”的糾錯工作。
2.7 首次住院號與新增門診號
2.7.1 定義與設定
華西 DACCA 中患者的住院號在數據列(column)中命名為“首次住院號” ,其中“首次”的意義是指患者第一次到華西醫院接受診斷或治療時生成的住院號,該住院號由 10 位數字+必要的英文前綴形成,不足 10 位數字者則在數字前面用“0”替代,如 1996 年某患者住院號為“199998” ,則在系統內自動表示為“0000199998”格式。由于華西醫院分為主院區和分院區,其病歷系統編號是獨立進行的,為避免出現重復的“住院號” ,特增加英文前綴“sj”指患者在華西醫院某分院的住院號。華西 DACCA 中,若患者出現多個住院號,記錄數據列命名為“新增門診號” 。患者可能出現多個住院號(或稱為“門診號” )的情況包括:原就診卡丟失且不能補辦、曾經在主院區和分院區分別就診、再次住院但是卡號不同、急診就診時辦理的臨時就診卡等情況。
2.7.2 標簽與結構化
首次住院號表達形式是一串 10 位數字±英文前綴,含整串數字或英文的數據形成一個標簽。在結構化中,一個完整的標簽以文本形式存在,不按照有序序列保留。新增門診號的表達形式與首次住院號一致,在數據庫中的新增門診號列內,每次增加的住院號依次用英文逗號“, ”作為分隔。在結構化應用中,將對依次增加的住院號逐一進行提取,提取格式為文本。“首次住院號”與“新增門診號”有可能出現留空的狀態(數據錄入階段,有些患者資料不齊全,可能只有姓名、手術日期及方式),在數據列中以小寫英文字母“x”表示未采集到該數據。
2.7.3 糾錯
“首次住院號”屬于患者唯一性信息,與“新增門診號”有相互輔助的關系。“首次住院號”和“新增門診號”與某患者形成多對一的固定關系。首次住院號信息只能人工糾錯,通過對醫院病歷系統自動生成的數字對應核實。
2.8 患者身份證與家屬身份證
2.8.1 定義與設定
華西 DACCA 中的患者身份證與家屬身份證選用居民身份證或國際統一護照號(Passport Number)。中國公民用居民身份證作為身份信息,居民身份證是中華人民共和國發放給中國公民的證明持有人身份的一種法定證件(Personal ID),具有唯一性,由 17 位數字本體碼和 1 位數字校驗碼組成;非我國公民者,用國際統一護照號(Passport Number)作為身份信息。“患者”或“家屬”身份證信息均采用一樣的表達形式,其區別在于,一個患者可以有多個家屬,當家屬的身份證信息大于 1 時,每個身份證信息之間用英文逗號“, ”間隔。當身份證信息缺失時用小寫英文字母“x”表示。
2.8.2 標簽與結構化
身份證信息形成數字或字母串,共同被作為一個標簽。在結構化中,該標簽以文本形式存在,不按照有序序列保留。
2.8.3 糾錯
身份證信息是患者的唯一性特征最強的信息,與某患者形成一對一的固定關系。身份證信息智能人工糾錯,但由于目前的電子病歷系統的使用,患者在辦理就診卡過程中是采用統一的身份證錄入系統進行錄入,幾乎無數字錯誤情況。因此,僅需要核對錄入數據庫過程中的人為誤差。
2.8.4 隱私(privacy)
身份證信息屬于高強度(high-relation)隱私信息。在數據庫的應用階段屬于隱藏信息,這與數據庫倫理學評估相一致。因此,在數據庫中作為數據條的索引項以及數據庫結構化的關系認定連接點(是指可以通過身份證信息連接所有數據到某一特定患者個體)。在數據庫檢索中是可以唯一定位患者個體的項目。在任何數據庫研究中絕對不能暴露該信息。
2.9 地址與“成都”欄
2.9.1 定義與設定
華西 DACCA 中患者的地址信息是復雜數據組合,屬于地理位置(location)相關信息。地址信息的表達方式采用以我國的行政區劃作為參考,按照省-市-縣/區-街道門牌,不保留郵政編碼。標準描述中需要保留“省” “市” “縣”的詞匯,例如:“四川省成都市武侯區漿洗街 1 號” 。地址信息分多種類別,包括:出生地址、常住地址、臨時地址等。在數據庫優先信息中,“常住地址”作為最主要的數據組合,這是因為常住地址通常代表患者接受環境因素影響最大的位置,構成結直腸癌最可能相關的“行為-結果”關系;次要數據組合為“出生地址” ,主要可以間接提示與遺傳因素相關的影響。出生地址和常住地址兩者可能會是同一地址。其中“成都”欄專門提取地址中地理位置在成都的信息,如前研究[8]報道,因成都是華西醫院結直腸癌患者群體最主要的覆蓋區域。
2.9.2 標簽與結構化
“地址”信息中的“成都”欄信息通過特定標記進行標簽。若患者不是來自成都記錄標識為“0” ,若來自成都或與成都相關記錄標識為“1” 。若有多個地址信息但在成都暫住的追加后綴標識為“1*” ;有多個地址信息但有子女或親屬在成都有房者屬于成都有居住地只是平時可能回老家(非成都的常住地)者追加后綴標識為“1x” (“x”小寫英文字母)。地址信息下的數據組合完整者被作為一條文本信息。標簽需按照行政區劃分別標記“××省” “××市” “××縣/區” ,在結構化應用中,不用單獨提取標簽而采用直接選擇地圖工具(developer for map)進行地理位置標注,屬于定位信息。便于理解該數據庫標簽與結構化的關系見圖 1 所示。結構化中,還需要把多個地址信息多點關聯到同一個患者數據條目下。
2.9.3 糾錯
地址信息的糾錯需要長期進行,更多時候代表的是更正或更新地址信息。患者地址信息中指代“常住地址”的數據組合是不變的,但是伴隨患者在生活中的實際需要,可能患者會逐步增加臨時地址信息,需要及時更新在數據庫欄目中,與前一地址信息區分是在其前面增加英文逗號“, ”。
2.9.4 隱私
地址信息屬于關聯性隱私信息。單獨的地址信息屬于暴露隱私的高危數據,但是一旦和“姓名” “身份證” “電話”等相關聯后具有高強度的隱私暴露。在數據庫數據的結構化下,除去標簽外都應該被隱藏。因此結構化數據庫分析過程中,可以單獨進行結構化分析,如“地圖分布” “群體流轉”等,但是不能作“個體關系”分析,如:若希望分析確定家族遺傳族譜與地理關系,需另行知情同意;而且在同一系列研究中,不能將多個關聯性信息同時進行暴露。
2.10 婚姻
2.10.1 定義與設定
在華西 DACCA 中患者的婚姻信息是指患者就診時所處的婚姻狀態。
2.10.2 標簽與結構化
由于結直腸癌患者既可能是未成年人,也可能是成年人,所以婚姻狀態為未婚者(標識信息為“0”)和已婚者(標識信息為“1”),其中已婚者的標識信息可能還會有后綴標記,如“1+”標識指已婚但離婚后再婚,“1–”標識指已婚但是離婚狀態,“1s”標識指已婚但是喪偶狀態。當婚姻信息不明確時,標記為小寫英文字母“x” 。婚姻狀態在數據庫中都轉化為對應的數字±后綴的形式存在,形成對應的標簽。在結構化過程中,婚姻狀態的標簽以文本形式存在,不能進行排序。
2.10.3 糾錯
婚姻狀態的信息一般來自于病歷系統,所以獲取信息后很少需要修改。在少數情況下可能需要糾錯,是因為部分患者在初次就診時不愿暴露自己的婚姻狀態,所以在隨后的信息核查的過程中一旦發現初次提供的婚姻狀態有誤,則需要及時更正。
2.11 子女信息
2.11.1 定義與設定
華西 DACCA 中患者子女信息列中是指患者直系的子女類型和數量。
2.11.2 標簽與結構化
在華西 DACCA 中,將子和女分設置為兩條數據列,在數據列中表達數據為可計算數值信息。當沒有子女時,子和女欄分別都填為數字“0” ,當有 1 個兒子和(或)女兒的情況時,子和女一欄填寫為“1” ,根據兒子和女兒的數量以此增加或者減少數字。當知道患者有子女但是有幾個子女不清楚時填寫標記為“?” ,當完全不清楚患者是否有子女時填寫標記為小寫英文字母“x” 。對于子女可能存在的特殊情況,增加必要的后綴,如:當子女為未成年人時在對應的數字后增加“*”表示,當子女長居國外留學/生活或者子女雖在國內但長年不在患者身邊時在對應的數字后增加“w”表示。子女信息在數據庫中,以數字±后綴的形式存在對應的標簽。盡管子女信息的數據以數值保存而且可以計數,但是由于有后綴的情況,所以在結構化的時候,仍舊以文本方式作為記錄。
2.11.3 糾錯
子女信息最主要的錯誤為計數有誤,很多情況下患者并不會準確表達自己有多少個子女,部分老年人也可能由于記憶誤差導致數字表達有誤。還有部分家庭內部關系較為復雜的情況,家人透露子女信息時會故意提供錯誤的信息。因此,子女的信息需要在后期隨訪過程中反復多次進行核實并糾正。
2.12 電話
2.12.1 定義與設定
我國常用的電話使用方式是手機和座機,而傳呼機和小靈通機幾乎已經不使用,因此華西 DACCA 中的手機數據列內就不保存傳呼機和小靈通機。手機和座機電話的保留均不使用中國區號(086),但是在座機電話中需要使用地方區號(如成都區號 028)。當使用區號時,區號和電話號碼之間不使用連接符號“-”或括號,如:028-866X6666 或(028)866X6666 直接記錄為 028866X6666。電話信息在數據庫中預留 6 個數據列,也就是可以保存 6 個電話號碼,這是根據多年來患者可以提供的電話號碼數量作為依據,在后期的追訪過程中還可以繼續修改和增加。通常保留超過 3 個電話號碼即可以有效、準確地完成對患者的長期隨訪。
2.12.2 標簽與結構化
電話記錄為一串 11~12 位的連續數字。為準確確定電話聯系人的身份要增加后綴標記,如電話為患者本人的則可以記錄為“13X88889999 患”(為避免電話在文章中處于暴露,用一位大寫英文字母 X 代替數字),其他可能的關系后綴包括:妻、夫、子、女、媳、婿、兄、弟、姐、妹、戚、父、母、孫、叔、舅、朋等。在數據庫中的電話信息,將一串 11~12 位數字±后綴作為一個聯合標簽,數字以文本形式保留,可以完成數據庫檢索。在結構化應用中,11~12 位數字串和后綴相互分開,結構化的電話數字串可以直接應用于呼叫與短信聯系,后綴則以關聯數據進行保留。
2.12.3 電話的獲取
① 入院獲取:入院時,主動要求患者保留至少 2 個移動電話或座機電話,該號碼通常是臨時的,信息準確度不太可靠。② 出院獲取:出院時,可以有效獲取患者及家庭中最主要聯系人的電話。③ 短信獲取:當收到患者短信回復信息時,常可以獲取未知的新號碼。④ 微信獲取:可以獲取新號碼,而且微信回復信息準確度較高。⑤ 隨訪獲取:超過 2 年隨訪期的患者,在門診隨訪時必須再次確定電話并及時獲取新電話。
2.12.4 糾錯與更新
由于電話信息是數字串,記錄錯誤的情況更容易發生,因此需要定期進行核實,特別是當隨訪過程中發現無法聯系的時候,可能提示電話信息有誤,則需要及時糾錯。我國的移動手機發展極其迅速,所以電話信息隨時可能會發生改變,或者增加更多的電話,因此電話信息在每次隨訪時都有必要進行及時更新。比如患者在外務工的家屬的電話可能會有原居住地的電話和務工地的電話。
2.12.5 隱私
電話信息屬于個人隱私,在數據庫分析上幾乎不會應用電話信息,主要的價值在隨訪中的應用。因此電話信息需要在數據庫研究中嚴格實施保護,任何情況下電話信息均不屬于公開信息,受到倫理學的保護。
2.13 職業與文化程度
2.13.1 定義與設定
① 對于職業,我國有專門的《中華人民共和國職業分類大典》[13],在華西 DACCA 中職業信息的分類基于該分類原則進行。在病歷系統獲取的職業信息,可能填寫規范,也可能需要人工補充,所以在結構化時都需要進行調整。例如:醫師,從分類原則上看是沒有獨立的分類大項的,但可以劃歸在“專業技術人員”一類中。在數據庫的數據錄入過程中可以作直接錄入,然后在結構化中進行歸類。② 對于文化程度,我國也有自己的劃分標準[14],在華西 DACCA 中文化程度的分類即基于該標準。目前病歷系統獲取的文化程度與該分類標準一致,同時也可以進行人工補充。
2.13.2 標簽與結構化
職業與文化程度的數據列對應的數據均直接填寫,單獨的信息轉變為數據標簽,在標簽化過程中糾正必要的錯誤信息,而結構化應用中可以導入數據庫字典,比如《中華人民共和國職業分類大典》實際上涵蓋了 8 個大類(也就是主要類別的區分),還涵蓋 66 個中類,413 個小類,1 838 個細類(職業)。在結構化時由于關聯了數據庫字典,可以詳細到具體的職業類別,便于更為準確的“行為-結果模型”建立。由于模糊數據的技術,結構化中可以作歸類統一,例如輸入“醫師”或者“醫生” ,都可以結構化到“醫師”這一條信息中。
2.13.3 糾錯
由于標簽和結構化的不同處理方式,主要的錯誤容易發生在輸入文字信息的過程中,因此需要在數據庫核查過程中,重點核查對應的文字是否描述完整或者準確。
2.14 醫患關系
2.14.1 定義與設定
華西 DACCA 中醫患關系數據列主要反映醫生在與患者交流過程中患者表現出來對于就醫整個過程的態度,同時反映在醫療活動中患者及家庭成員由于對于醫療行為的認知所導致的醫療風險的可能。由于醫患關系可能在就醫過程中出現變化,因而具有多重性,數據庫中為區分手術前后不同的醫患關系,保留了兩列數據以作為信息。
2.14.2 標簽與結構化
醫患關系既包括患者的主觀態度如記錄可以為“理解、不理解、抵觸、拒絕”等,又可以為患者的個性特征如記錄為“緊張、恐懼”等。若患者的醫患關系信息在后期出現改變時,則在對應的前期信息基礎上追加信息并用連接符號“-”連接,如“不理解-理解” 。醫患關系信息,由文字組成信息,除了連接符號“-” ,其他所有的描述性文字分別標記為標簽。在結構化過程中,將連接符號“-”納入結構關系并表達為一個醫患關系的變化特點。
2.14.3 糾錯
醫患關系信息是實時記錄的信息,需要在患者態度或者個性表現出來時及時記錄,難以通過后期更改。在治療后期,一旦出現新的態度或者個性表現則只能記錄在追加信息狀態。
2.15 就診途徑
2.15.1 定義與設定
華西 DACCA 中患者的就診途徑是指患者初次與治療醫師聯系交流并獲取住院的方式,也是指患者通過何種渠道進入疾病診斷和治療流程的方式。
2.15.2 標簽與結構化
根據常見的就診途徑對數據進行標記,其中門診就診的方式標記為“m” ,直接到病房聯系的方式標記為“b” ,通過其他病房或者科室轉入(包含外院轉入)的方式標記為“z” ,直接通過電話聯系后住院的方式標記為“d” ,通過急診住院的方式標記為“j” 。就診途徑的標簽和結構化內容幾乎一致,也就是通過已經轉換為標記的獨立字母直接作為標簽,作為文本信息直接作結構化應用。
2.15.3 糾錯
就診途徑的錯誤通常發生在非門診途徑的信息記錄,所以需要在就診確定的情況下及時標記。部分患者的信息雖然在病歷系統中是門診到病房的就診過程,但是實際上進入數據庫時是通過科室轉入方式,那么必須記錄為“z”而不是“m” 。
2.16 就醫信息
2.16.1 定義與設定
華西 DACCA 中患者的就醫信息是指患者在達成就診的過程中是由于怎樣的患者-醫生關系而開始醫療行為的。就醫信息與就診途徑相互關系,構成患者在就診過程中重要的行為模型。
2.16.2 標簽與結構化
根據常見的就醫信息對數據進行標記,其中通過傳統掛號分診模式聯系的標記為“p” ,通過網絡特別是目前的互聯網醫療分診就醫的標記為“w” ,通過病友或者病友社區就醫的標記為“b”,通過本院醫師個人的朋友圈或者熟人就醫的標記為大寫字母“H” ,而小寫字母“h”代表由外院醫護人員(包括進修醫師、護士等)就醫的。由于可以準確劃分患者的就醫信息,因此所有已經標記的數據直接作為標簽。在結構化中,該標簽同時也能作結構關系。此外,由于就診途徑與就醫信息屬于強關聯信息,因此結構化中將直接關聯兩者,如數據表達“門診就診的普通患者”時的結構為“m, p”(中間是英文逗號)。
2.16.3 糾錯
原則同“就診途徑” 。
2.17 醫保類型
2.17.1 定義與設定
我國的醫保有相對比較復雜的體系,例如有工作單位并在社保部門參保登記的稱為“職工醫保” ,沒有工作、戶口在農村但可以參加新型農村合作醫療(簡稱“新農合”)。而城鄉居民大病保險,又與城鎮居民基本醫保基金和大病醫療互助基金等相關。由于地方政策不一樣,同一種醫保類型不同地區享受的報銷比例也會不相同,還包括跨省醫保中定點醫院與非定點醫院報銷比例差異等多種醫保政策。
2.17.2 標簽與結構化
在華西 DACCA 中患者的醫保類型根據患者的地區特點做了基本的劃分,四川省內的醫保分為四川省省級醫保(表示為“省醫”)和成都市區內醫保(表示為“市保” ),其中城鄉居民醫保表示為“城鎮” ,新農合醫保表示為“新農” ;四川省外的醫療形式表示為“外省” 。自費醫療形式表示為“自費” ,用商業保險支付表示為“商保” 。在數據庫中的標簽,主要標記方式與在對應數據列中的標識一致,如“省醫” “自費”等。標簽的設計只與本數據庫要求有關。但是結構化的要求完全不同,未來數據庫建設會通過與醫保數據聯網。那么,患者獨立的身份信息下關聯的所有醫療支付方式可能涵蓋比現在數據庫結構更復雜的支付模式,如“城鎮”+“商保”等。所以結構化的醫保類型是新的關聯數據庫。根據大數據的應用方式,華西 DACCA 與醫保數據庫之間互為關聯數據庫,而后者還會包括醫保類型、個人/家庭的手術費用、長期隨訪費用的數據等。
2.17.3 糾錯
醫保信息的錯誤通常會發生在直接轉換病歷系統的信息,例如:很多患者由于就醫當時選取了“自費”而導致信息披露為“自費”狀態,但是隨后住院期間患者將其醫保關系關聯到個人的市醫保賬戶后,可能已經調整為“市保”而導致形成錯誤。所以醫保類型需要多次核實,特別是對于出院結賬單的核實。
2.18 經濟條件
2.18.1 定義與設定
華西 DACCA 中患者的經濟條件用來描述患者及家庭對于負擔以手術為中心的主要治療的費用是否有足夠承擔力的評估指標。經濟條件由患者所能提供的醫保信息以及個人在就醫過程中對于醫療費用負擔的反應做出的二次評價后的信息,主要分為“差” “較差” “一般” “較好”及“好”5 類。“差”表示患者及家庭只能勉強湊夠手術基本費用;“較差”表示能滿足手術及基本術后隨訪,當需要規范靜脈化療或者放療時,只能選擇口服化療;“一般”表示一般的城市或者城鎮職工,有醫保;“較好”有一定的經濟條件,可以滿足各種規范治療;“好”表示經濟條件非常好的人群,對于任何醫療措施都可以接受。
2.18.2 標簽與結構化
經濟條件的標簽與分類方式一致,適用于 DACCA 中的數據分析應用。標簽具有等級性。而結構化的經濟條件只作為參考信息,由于以醫保為核心的支付形式,精確的支付和收入關系才是結構化準確的信息,因此經濟條件只能作為一項參考條件輔助結構化的模塊建立。
2.18.3 糾錯
由于多數患者需要在手術后甚至在一個較長周期的術后隨訪或治療后才能更為準確地確定經濟條件,因此,經濟條件數據需要在治療過程中進行及時更正。特別應該注意的是,由于患者和家庭對于醫療付出的觀點不同,表現的經濟條件可能并不一定準確,需要仔細鑒別,如有部分老年患者,由于不希望增加家庭的經濟負擔,表現的就醫行為是只愿意個人承擔經濟壓力,可能評價的狀態為“較差”,但是其子女積極對老人的醫療給予支持并且有效地承擔了經濟壓力,可能評價的狀態就會是“較好” 。
(未完待續)
目前,國際上最主流的結直腸癌數據庫主要有 SEER(Surveillance,Epidemiology,and End Results Program from NIH,USA)[1]和 NCDB(National Cancer Database from American College of Surgeons,USA)[2]。近年來,SEER 和 NCDB 這兩個數據庫已經應用在臨床數據的研究中[3-4]。
華西腸癌數據庫(database from colorectal cancer,DACCA)是以數據集合為基礎的動態數據庫,是按照一定的數據庫建設理念逐步構建完成的[5-8]。為了完成持續、有效的數據更新,數據庫主框架即數據庫每一列信息的設置是最早完成并且在隨后的時間里逐步更新和完善的。華西 DACCA 不僅會在傳統數據庫研究或者基礎性臨床科研分析中發揮作用,而且還會重點應用在未來結直腸癌大數據模型的建立和人工智能[9]的發展中。因此,如何準確地構建結直腸癌數據庫是最為重要的基礎且長期性的工作。筆者擬對數據庫建設進行一系列報道,其是基于華西 DACCA 建設的經驗,詳細解讀如何完善一套華西 DACCA 供閱讀者交流和學習,本部分報道的內容是華西 DACCA 建設的首篇—個人數據,下面就個人數據模塊的內容及結構化進行詳解。
1 華西 DACCA 的個人數據模塊的內容及結構化
1.1 個人數據模塊的內容
劃歸在 DACCA 的個人數據模塊的內容包括:患者姓名,性別,年齡,血型,身高,體質量,體質量指數(body mass index,BMI),首次住院號,新增門診號,患者身份證,家屬身份證,地址,是否為成都患者,婚姻狀況,子女狀況,電話,職業,文化程度,醫患關系,就診途徑,就醫信息,醫保類型,經濟條件,共計 23 項。
1.2 數據結構化(structured data)
在數據庫建設中,數據的結構化是完成數據庫分析和大數據模型的基礎。結構化是指將數據庫中的數據轉化為統一可以歸納、檢索及分析的穩定結構。所有數據庫的數據都必須完成結構化,從而達到高速存儲、數據備份、數據共享、數據容滅等需求。常用數據結構化的標記方式包括 HTML 代碼標記[10]和微數據標記[11]。數據庫內的數據標記需要建立對應的統一標記方式,也就是制定標簽(tags)[12]。完成數據列的標簽后,根據特定數據關系完成數據庫數據的結構化。
2 華西 DACCA 的個人數據模塊中內容的定義及各數據列的標簽與結構化
2.1 患者姓名
2.1.1 定義與設定
華西 DACCA 中的患者既可能來自國內,也可能來自國外。中國人的姓名是以漢字表示,漢族人由姓氏和名字一起構成,其他民族則音譯為漢字表示(其他民族也有部分是按照漢族方式取名);漢族的姓名一般不會超過 5 個漢字(其他民族的姓名可能會超過 5 個漢字),數據填寫過程中按照文字順序依次填寫,字與字之間不留空格。國外患者的姓名按照先 “名字” 后 “姓氏” 的方式進行書寫,用英文保存。名字與姓氏之間不留空格或加標點符號,名字和姓氏首字母大寫,如:“Bill Gates”應填寫為“BillGates”而不應填寫為“Gates,Bill”的書寫方式。
2.1.2 標簽與結構化
姓名的文字完整書寫形成一個獨立標簽。因中國人的姓名可能存在重名情況,按照錄入數據庫的先后順序在姓名后追加數字作為區別,如: “李雷” “李雷 1” “李雷 2” ,……。在數據庫搜索過程中,為確定重名標簽下不會導致數據錄入錯誤,需要同時核對重名數據完成條(line)的“手術日期”和“住院號” 。為提高對于特殊關注患者的快速識別,對于正在聯合手術治療期間有轉移的結直腸癌附加標簽附錄為大寫英文字母“M”(指代“轉移” =metastasis)并附加小寫英文字母代表轉移部位,如“g”指代“肝臟” =拼音 ganzang,“f”指代“肺” =拼音 fei,其組合方式包括 Mg(肝轉移)和 Mf(肺轉移),與姓名標簽疊加后可以表達為:如“李雷 Mg” “李雷 Mf”等;對于一期手術后還未完成二期手術(如腸還納手術、肛門成型、取淋巴結活檢等)的情況,附加標簽“-”說明;對于同一患者,由于復發癌、再發癌、并發癥等情況需要再次手術的,附加標簽“+”說明;對于隨訪后明確達到“死亡”終點指標的附加標簽“*”說明。
2.1.3 糾錯
姓名標簽的糾錯通常發生在數據庫更新階段(follow-up/update)。最常發生的錯誤是姓名文字寫錯,一旦寫錯文字,會導致姓名檢索失敗(searching failed)。姓名標簽的糾錯,需要通過“手術日期” “住院號” “腫瘤部位”以及“手術名稱”進行核實(re-check)。
2.2 性別
2.2.1 定義與設定
華西 DACCA 中患者的性別僅設定為“男”或者“女” 。目前部分國外的數據庫菜單中,由于特定人群如變性人(transsexual)被社會所接受,因此可能還有“未確定”選項。本數據庫不作此分類。
2.2.2 標簽與結構化
性別數據形成獨立標簽,分別用數字“0”指代“女性”,數字“1”指代“男性” 。在數據標簽結構化過程中,這里的數字“0”或者“1”作為結構化分類是以文本形式存在,不能作為數字型數據的分析。
2.2.3 糾錯
性別數據是原始的資料,難以通過數據庫內部進行重新結構化,但是可以通過數據庫內部進行核實,如提取手術操作環節中的“子宮部位處理”推論患者的性別。一般來說,需要對原始病歷進行核實。
2.3 年齡
2.3.1 定義與設定
華西 DACCA 中患者的年齡,按照標準定義為一個人從出生起到需要計算時的生存時間的長度。數據庫中記錄的年齡就是患者第一次來就診時的年齡值,單位用“歲”表示,不取月份數。如“48 歲 5 個月”則記錄為“48 歲” 。華西 DACCA 中的年齡設定為 0~150 歲區間范圍。
2.3.2 標簽與結構化
年齡數據形成獨立標簽,單位默認為“歲” ,而在數據庫內保存為阿拉伯數值(0~150)。在數據標簽結構化的過程中,年齡以數值方式存在,能作為數字型數據的分析。
2.3.3 糾錯
年齡數據錯誤相對較小,現在的醫院信息系統都會通過患者的身份證在就診時自動計算年齡,幾乎沒有錯誤。而常出現的錯誤主要出現在同一位患者多次就診時,系統可能會提供多個“就診年齡” ,因此需要按照數據庫指定的“第一次”就診作為標準的數據庫登記年齡。
2.4 血型
2.4.1 定義與設定
華西 DACCA 中患者的血型引用 ABO 血型系統。ABO 血型由紅細胞膜上的不同抗原所決定。ABO 血型可以分類為“A 型” “B 型” “O 型”以及“AB 型”4 類。
2.4.2 標簽與結構化
按照血型的四個類型對血型進行數據標簽,分別保存為“A、B、O、AB”4 個標簽。在數據結構化的過程中,4 個標簽分別以文本形式存在,不形成等級。
2.4.3 糾錯
血型數據是原始的資料,只能根據原始病歷記錄及實驗室信息系統(laboratory information system,LIS)來核實。
2.5 身高與體質量
2.5.1 定義與設定
華西 DACCA 中患者的身高是指人身體直立、眼睛向前平視時從地面到頭頂的垂直距離,應用單位為厘米(cm)。體質量是人身體所有器官重量的總和,應用單位為千克(kg)。身高和體質量的數值,保留為小數點后 0 位。
2.5.2 標簽與結構化
身高和體質量的數值直接作為標簽,但是在結構化中該標簽不含有對應的單位(cm 或者 kg)。在結構化應用中,這兩類標簽以數值形式存在。
2.5.3 糾錯
身高和體質量的數值通常在病歷中可能會出現缺失,可以結合病歷、護理病歷記錄以及麻醉記錄單進行多重核對。由于麻醉人員需要通過對于患者的身高、體質量計算準確的麻醉藥物劑量,因此當在病歷記錄中出現矛盾數據時以麻醉記錄單作為最終核定標準。
2.6 BMI
2.6.1 定義與設定
BMI 是用體質量(kg)除以身高的平方(m2)得出的數字,是國際上常用的衡量人體胖瘦程度以及是否健康的標準之一。數據庫中的 BMI 數值根據關聯數據自動運算獲得,關聯數據來源的項目即為“身高”和“體質量”的數值。自動運算獲得數值保留了小數點后 4 位以上。當“身高”或“體質量”中某一項或兩項均存在缺失時,則自然無 BMI 數值計算結果。
2.6.2 標簽與結構化
BMI 的數值直接作為標簽,由于 BMI 不包括單位,因此可以直接保留數值作為標簽。在結構化應用中,BMI 保留小數點后 2 位的數值。
2.6.3 糾錯
BMI 不進行人工糾錯。由于 BMI 是采用數據庫中關聯數據自動運算,故重點是對“身高”和“體質量”的糾錯工作。
2.7 首次住院號與新增門診號
2.7.1 定義與設定
華西 DACCA 中患者的住院號在數據列(column)中命名為“首次住院號” ,其中“首次”的意義是指患者第一次到華西醫院接受診斷或治療時生成的住院號,該住院號由 10 位數字+必要的英文前綴形成,不足 10 位數字者則在數字前面用“0”替代,如 1996 年某患者住院號為“199998” ,則在系統內自動表示為“0000199998”格式。由于華西醫院分為主院區和分院區,其病歷系統編號是獨立進行的,為避免出現重復的“住院號” ,特增加英文前綴“sj”指患者在華西醫院某分院的住院號。華西 DACCA 中,若患者出現多個住院號,記錄數據列命名為“新增門診號” 。患者可能出現多個住院號(或稱為“門診號” )的情況包括:原就診卡丟失且不能補辦、曾經在主院區和分院區分別就診、再次住院但是卡號不同、急診就診時辦理的臨時就診卡等情況。
2.7.2 標簽與結構化
首次住院號表達形式是一串 10 位數字±英文前綴,含整串數字或英文的數據形成一個標簽。在結構化中,一個完整的標簽以文本形式存在,不按照有序序列保留。新增門診號的表達形式與首次住院號一致,在數據庫中的新增門診號列內,每次增加的住院號依次用英文逗號“, ”作為分隔。在結構化應用中,將對依次增加的住院號逐一進行提取,提取格式為文本。“首次住院號”與“新增門診號”有可能出現留空的狀態(數據錄入階段,有些患者資料不齊全,可能只有姓名、手術日期及方式),在數據列中以小寫英文字母“x”表示未采集到該數據。
2.7.3 糾錯
“首次住院號”屬于患者唯一性信息,與“新增門診號”有相互輔助的關系。“首次住院號”和“新增門診號”與某患者形成多對一的固定關系。首次住院號信息只能人工糾錯,通過對醫院病歷系統自動生成的數字對應核實。
2.8 患者身份證與家屬身份證
2.8.1 定義與設定
華西 DACCA 中的患者身份證與家屬身份證選用居民身份證或國際統一護照號(Passport Number)。中國公民用居民身份證作為身份信息,居民身份證是中華人民共和國發放給中國公民的證明持有人身份的一種法定證件(Personal ID),具有唯一性,由 17 位數字本體碼和 1 位數字校驗碼組成;非我國公民者,用國際統一護照號(Passport Number)作為身份信息。“患者”或“家屬”身份證信息均采用一樣的表達形式,其區別在于,一個患者可以有多個家屬,當家屬的身份證信息大于 1 時,每個身份證信息之間用英文逗號“, ”間隔。當身份證信息缺失時用小寫英文字母“x”表示。
2.8.2 標簽與結構化
身份證信息形成數字或字母串,共同被作為一個標簽。在結構化中,該標簽以文本形式存在,不按照有序序列保留。
2.8.3 糾錯
身份證信息是患者的唯一性特征最強的信息,與某患者形成一對一的固定關系。身份證信息智能人工糾錯,但由于目前的電子病歷系統的使用,患者在辦理就診卡過程中是采用統一的身份證錄入系統進行錄入,幾乎無數字錯誤情況。因此,僅需要核對錄入數據庫過程中的人為誤差。
2.8.4 隱私(privacy)
身份證信息屬于高強度(high-relation)隱私信息。在數據庫的應用階段屬于隱藏信息,這與數據庫倫理學評估相一致。因此,在數據庫中作為數據條的索引項以及數據庫結構化的關系認定連接點(是指可以通過身份證信息連接所有數據到某一特定患者個體)。在數據庫檢索中是可以唯一定位患者個體的項目。在任何數據庫研究中絕對不能暴露該信息。
2.9 地址與“成都”欄
2.9.1 定義與設定
華西 DACCA 中患者的地址信息是復雜數據組合,屬于地理位置(location)相關信息。地址信息的表達方式采用以我國的行政區劃作為參考,按照省-市-縣/區-街道門牌,不保留郵政編碼。標準描述中需要保留“省” “市” “縣”的詞匯,例如:“四川省成都市武侯區漿洗街 1 號” 。地址信息分多種類別,包括:出生地址、常住地址、臨時地址等。在數據庫優先信息中,“常住地址”作為最主要的數據組合,這是因為常住地址通常代表患者接受環境因素影響最大的位置,構成結直腸癌最可能相關的“行為-結果”關系;次要數據組合為“出生地址” ,主要可以間接提示與遺傳因素相關的影響。出生地址和常住地址兩者可能會是同一地址。其中“成都”欄專門提取地址中地理位置在成都的信息,如前研究[8]報道,因成都是華西醫院結直腸癌患者群體最主要的覆蓋區域。
2.9.2 標簽與結構化
“地址”信息中的“成都”欄信息通過特定標記進行標簽。若患者不是來自成都記錄標識為“0” ,若來自成都或與成都相關記錄標識為“1” 。若有多個地址信息但在成都暫住的追加后綴標識為“1*” ;有多個地址信息但有子女或親屬在成都有房者屬于成都有居住地只是平時可能回老家(非成都的常住地)者追加后綴標識為“1x” (“x”小寫英文字母)。地址信息下的數據組合完整者被作為一條文本信息。標簽需按照行政區劃分別標記“××省” “××市” “××縣/區” ,在結構化應用中,不用單獨提取標簽而采用直接選擇地圖工具(developer for map)進行地理位置標注,屬于定位信息。便于理解該數據庫標簽與結構化的關系見圖 1 所示。結構化中,還需要把多個地址信息多點關聯到同一個患者數據條目下。
2.9.3 糾錯
地址信息的糾錯需要長期進行,更多時候代表的是更正或更新地址信息。患者地址信息中指代“常住地址”的數據組合是不變的,但是伴隨患者在生活中的實際需要,可能患者會逐步增加臨時地址信息,需要及時更新在數據庫欄目中,與前一地址信息區分是在其前面增加英文逗號“, ”。
2.9.4 隱私
地址信息屬于關聯性隱私信息。單獨的地址信息屬于暴露隱私的高危數據,但是一旦和“姓名” “身份證” “電話”等相關聯后具有高強度的隱私暴露。在數據庫數據的結構化下,除去標簽外都應該被隱藏。因此結構化數據庫分析過程中,可以單獨進行結構化分析,如“地圖分布” “群體流轉”等,但是不能作“個體關系”分析,如:若希望分析確定家族遺傳族譜與地理關系,需另行知情同意;而且在同一系列研究中,不能將多個關聯性信息同時進行暴露。
2.10 婚姻
2.10.1 定義與設定
在華西 DACCA 中患者的婚姻信息是指患者就診時所處的婚姻狀態。
2.10.2 標簽與結構化
由于結直腸癌患者既可能是未成年人,也可能是成年人,所以婚姻狀態為未婚者(標識信息為“0”)和已婚者(標識信息為“1”),其中已婚者的標識信息可能還會有后綴標記,如“1+”標識指已婚但離婚后再婚,“1–”標識指已婚但是離婚狀態,“1s”標識指已婚但是喪偶狀態。當婚姻信息不明確時,標記為小寫英文字母“x” 。婚姻狀態在數據庫中都轉化為對應的數字±后綴的形式存在,形成對應的標簽。在結構化過程中,婚姻狀態的標簽以文本形式存在,不能進行排序。
2.10.3 糾錯
婚姻狀態的信息一般來自于病歷系統,所以獲取信息后很少需要修改。在少數情況下可能需要糾錯,是因為部分患者在初次就診時不愿暴露自己的婚姻狀態,所以在隨后的信息核查的過程中一旦發現初次提供的婚姻狀態有誤,則需要及時更正。
2.11 子女信息
2.11.1 定義與設定
華西 DACCA 中患者子女信息列中是指患者直系的子女類型和數量。
2.11.2 標簽與結構化
在華西 DACCA 中,將子和女分設置為兩條數據列,在數據列中表達數據為可計算數值信息。當沒有子女時,子和女欄分別都填為數字“0” ,當有 1 個兒子和(或)女兒的情況時,子和女一欄填寫為“1” ,根據兒子和女兒的數量以此增加或者減少數字。當知道患者有子女但是有幾個子女不清楚時填寫標記為“?” ,當完全不清楚患者是否有子女時填寫標記為小寫英文字母“x” 。對于子女可能存在的特殊情況,增加必要的后綴,如:當子女為未成年人時在對應的數字后增加“*”表示,當子女長居國外留學/生活或者子女雖在國內但長年不在患者身邊時在對應的數字后增加“w”表示。子女信息在數據庫中,以數字±后綴的形式存在對應的標簽。盡管子女信息的數據以數值保存而且可以計數,但是由于有后綴的情況,所以在結構化的時候,仍舊以文本方式作為記錄。
2.11.3 糾錯
子女信息最主要的錯誤為計數有誤,很多情況下患者并不會準確表達自己有多少個子女,部分老年人也可能由于記憶誤差導致數字表達有誤。還有部分家庭內部關系較為復雜的情況,家人透露子女信息時會故意提供錯誤的信息。因此,子女的信息需要在后期隨訪過程中反復多次進行核實并糾正。
2.12 電話
2.12.1 定義與設定
我國常用的電話使用方式是手機和座機,而傳呼機和小靈通機幾乎已經不使用,因此華西 DACCA 中的手機數據列內就不保存傳呼機和小靈通機。手機和座機電話的保留均不使用中國區號(086),但是在座機電話中需要使用地方區號(如成都區號 028)。當使用區號時,區號和電話號碼之間不使用連接符號“-”或括號,如:028-866X6666 或(028)866X6666 直接記錄為 028866X6666。電話信息在數據庫中預留 6 個數據列,也就是可以保存 6 個電話號碼,這是根據多年來患者可以提供的電話號碼數量作為依據,在后期的追訪過程中還可以繼續修改和增加。通常保留超過 3 個電話號碼即可以有效、準確地完成對患者的長期隨訪。
2.12.2 標簽與結構化
電話記錄為一串 11~12 位的連續數字。為準確確定電話聯系人的身份要增加后綴標記,如電話為患者本人的則可以記錄為“13X88889999 患”(為避免電話在文章中處于暴露,用一位大寫英文字母 X 代替數字),其他可能的關系后綴包括:妻、夫、子、女、媳、婿、兄、弟、姐、妹、戚、父、母、孫、叔、舅、朋等。在數據庫中的電話信息,將一串 11~12 位數字±后綴作為一個聯合標簽,數字以文本形式保留,可以完成數據庫檢索。在結構化應用中,11~12 位數字串和后綴相互分開,結構化的電話數字串可以直接應用于呼叫與短信聯系,后綴則以關聯數據進行保留。
2.12.3 電話的獲取
① 入院獲取:入院時,主動要求患者保留至少 2 個移動電話或座機電話,該號碼通常是臨時的,信息準確度不太可靠。② 出院獲取:出院時,可以有效獲取患者及家庭中最主要聯系人的電話。③ 短信獲取:當收到患者短信回復信息時,常可以獲取未知的新號碼。④ 微信獲取:可以獲取新號碼,而且微信回復信息準確度較高。⑤ 隨訪獲取:超過 2 年隨訪期的患者,在門診隨訪時必須再次確定電話并及時獲取新電話。
2.12.4 糾錯與更新
由于電話信息是數字串,記錄錯誤的情況更容易發生,因此需要定期進行核實,特別是當隨訪過程中發現無法聯系的時候,可能提示電話信息有誤,則需要及時糾錯。我國的移動手機發展極其迅速,所以電話信息隨時可能會發生改變,或者增加更多的電話,因此電話信息在每次隨訪時都有必要進行及時更新。比如患者在外務工的家屬的電話可能會有原居住地的電話和務工地的電話。
2.12.5 隱私
電話信息屬于個人隱私,在數據庫分析上幾乎不會應用電話信息,主要的價值在隨訪中的應用。因此電話信息需要在數據庫研究中嚴格實施保護,任何情況下電話信息均不屬于公開信息,受到倫理學的保護。
2.13 職業與文化程度
2.13.1 定義與設定
① 對于職業,我國有專門的《中華人民共和國職業分類大典》[13],在華西 DACCA 中職業信息的分類基于該分類原則進行。在病歷系統獲取的職業信息,可能填寫規范,也可能需要人工補充,所以在結構化時都需要進行調整。例如:醫師,從分類原則上看是沒有獨立的分類大項的,但可以劃歸在“專業技術人員”一類中。在數據庫的數據錄入過程中可以作直接錄入,然后在結構化中進行歸類。② 對于文化程度,我國也有自己的劃分標準[14],在華西 DACCA 中文化程度的分類即基于該標準。目前病歷系統獲取的文化程度與該分類標準一致,同時也可以進行人工補充。
2.13.2 標簽與結構化
職業與文化程度的數據列對應的數據均直接填寫,單獨的信息轉變為數據標簽,在標簽化過程中糾正必要的錯誤信息,而結構化應用中可以導入數據庫字典,比如《中華人民共和國職業分類大典》實際上涵蓋了 8 個大類(也就是主要類別的區分),還涵蓋 66 個中類,413 個小類,1 838 個細類(職業)。在結構化時由于關聯了數據庫字典,可以詳細到具體的職業類別,便于更為準確的“行為-結果模型”建立。由于模糊數據的技術,結構化中可以作歸類統一,例如輸入“醫師”或者“醫生” ,都可以結構化到“醫師”這一條信息中。
2.13.3 糾錯
由于標簽和結構化的不同處理方式,主要的錯誤容易發生在輸入文字信息的過程中,因此需要在數據庫核查過程中,重點核查對應的文字是否描述完整或者準確。
2.14 醫患關系
2.14.1 定義與設定
華西 DACCA 中醫患關系數據列主要反映醫生在與患者交流過程中患者表現出來對于就醫整個過程的態度,同時反映在醫療活動中患者及家庭成員由于對于醫療行為的認知所導致的醫療風險的可能。由于醫患關系可能在就醫過程中出現變化,因而具有多重性,數據庫中為區分手術前后不同的醫患關系,保留了兩列數據以作為信息。
2.14.2 標簽與結構化
醫患關系既包括患者的主觀態度如記錄可以為“理解、不理解、抵觸、拒絕”等,又可以為患者的個性特征如記錄為“緊張、恐懼”等。若患者的醫患關系信息在后期出現改變時,則在對應的前期信息基礎上追加信息并用連接符號“-”連接,如“不理解-理解” 。醫患關系信息,由文字組成信息,除了連接符號“-” ,其他所有的描述性文字分別標記為標簽。在結構化過程中,將連接符號“-”納入結構關系并表達為一個醫患關系的變化特點。
2.14.3 糾錯
醫患關系信息是實時記錄的信息,需要在患者態度或者個性表現出來時及時記錄,難以通過后期更改。在治療后期,一旦出現新的態度或者個性表現則只能記錄在追加信息狀態。
2.15 就診途徑
2.15.1 定義與設定
華西 DACCA 中患者的就診途徑是指患者初次與治療醫師聯系交流并獲取住院的方式,也是指患者通過何種渠道進入疾病診斷和治療流程的方式。
2.15.2 標簽與結構化
根據常見的就診途徑對數據進行標記,其中門診就診的方式標記為“m” ,直接到病房聯系的方式標記為“b” ,通過其他病房或者科室轉入(包含外院轉入)的方式標記為“z” ,直接通過電話聯系后住院的方式標記為“d” ,通過急診住院的方式標記為“j” 。就診途徑的標簽和結構化內容幾乎一致,也就是通過已經轉換為標記的獨立字母直接作為標簽,作為文本信息直接作結構化應用。
2.15.3 糾錯
就診途徑的錯誤通常發生在非門診途徑的信息記錄,所以需要在就診確定的情況下及時標記。部分患者的信息雖然在病歷系統中是門診到病房的就診過程,但是實際上進入數據庫時是通過科室轉入方式,那么必須記錄為“z”而不是“m” 。
2.16 就醫信息
2.16.1 定義與設定
華西 DACCA 中患者的就醫信息是指患者在達成就診的過程中是由于怎樣的患者-醫生關系而開始醫療行為的。就醫信息與就診途徑相互關系,構成患者在就診過程中重要的行為模型。
2.16.2 標簽與結構化
根據常見的就醫信息對數據進行標記,其中通過傳統掛號分診模式聯系的標記為“p” ,通過網絡特別是目前的互聯網醫療分診就醫的標記為“w” ,通過病友或者病友社區就醫的標記為“b”,通過本院醫師個人的朋友圈或者熟人就醫的標記為大寫字母“H” ,而小寫字母“h”代表由外院醫護人員(包括進修醫師、護士等)就醫的。由于可以準確劃分患者的就醫信息,因此所有已經標記的數據直接作為標簽。在結構化中,該標簽同時也能作結構關系。此外,由于就診途徑與就醫信息屬于強關聯信息,因此結構化中將直接關聯兩者,如數據表達“門診就診的普通患者”時的結構為“m, p”(中間是英文逗號)。
2.16.3 糾錯
原則同“就診途徑” 。
2.17 醫保類型
2.17.1 定義與設定
我國的醫保有相對比較復雜的體系,例如有工作單位并在社保部門參保登記的稱為“職工醫保” ,沒有工作、戶口在農村但可以參加新型農村合作醫療(簡稱“新農合”)。而城鄉居民大病保險,又與城鎮居民基本醫保基金和大病醫療互助基金等相關。由于地方政策不一樣,同一種醫保類型不同地區享受的報銷比例也會不相同,還包括跨省醫保中定點醫院與非定點醫院報銷比例差異等多種醫保政策。
2.17.2 標簽與結構化
在華西 DACCA 中患者的醫保類型根據患者的地區特點做了基本的劃分,四川省內的醫保分為四川省省級醫保(表示為“省醫”)和成都市區內醫保(表示為“市保” ),其中城鄉居民醫保表示為“城鎮” ,新農合醫保表示為“新農” ;四川省外的醫療形式表示為“外省” 。自費醫療形式表示為“自費” ,用商業保險支付表示為“商保” 。在數據庫中的標簽,主要標記方式與在對應數據列中的標識一致,如“省醫” “自費”等。標簽的設計只與本數據庫要求有關。但是結構化的要求完全不同,未來數據庫建設會通過與醫保數據聯網。那么,患者獨立的身份信息下關聯的所有醫療支付方式可能涵蓋比現在數據庫結構更復雜的支付模式,如“城鎮”+“商保”等。所以結構化的醫保類型是新的關聯數據庫。根據大數據的應用方式,華西 DACCA 與醫保數據庫之間互為關聯數據庫,而后者還會包括醫保類型、個人/家庭的手術費用、長期隨訪費用的數據等。
2.17.3 糾錯
醫保信息的錯誤通常會發生在直接轉換病歷系統的信息,例如:很多患者由于就醫當時選取了“自費”而導致信息披露為“自費”狀態,但是隨后住院期間患者將其醫保關系關聯到個人的市醫保賬戶后,可能已經調整為“市保”而導致形成錯誤。所以醫保類型需要多次核實,特別是對于出院結賬單的核實。
2.18 經濟條件
2.18.1 定義與設定
華西 DACCA 中患者的經濟條件用來描述患者及家庭對于負擔以手術為中心的主要治療的費用是否有足夠承擔力的評估指標。經濟條件由患者所能提供的醫保信息以及個人在就醫過程中對于醫療費用負擔的反應做出的二次評價后的信息,主要分為“差” “較差” “一般” “較好”及“好”5 類。“差”表示患者及家庭只能勉強湊夠手術基本費用;“較差”表示能滿足手術及基本術后隨訪,當需要規范靜脈化療或者放療時,只能選擇口服化療;“一般”表示一般的城市或者城鎮職工,有醫保;“較好”有一定的經濟條件,可以滿足各種規范治療;“好”表示經濟條件非常好的人群,對于任何醫療措施都可以接受。
2.18.2 標簽與結構化
經濟條件的標簽與分類方式一致,適用于 DACCA 中的數據分析應用。標簽具有等級性。而結構化的經濟條件只作為參考信息,由于以醫保為核心的支付形式,精確的支付和收入關系才是結構化準確的信息,因此經濟條件只能作為一項參考條件輔助結構化的模塊建立。
2.18.3 糾錯
由于多數患者需要在手術后甚至在一個較長周期的術后隨訪或治療后才能更為準確地確定經濟條件,因此,經濟條件數據需要在治療過程中進行及時更正。特別應該注意的是,由于患者和家庭對于醫療付出的觀點不同,表現的經濟條件可能并不一定準確,需要仔細鑒別,如有部分老年患者,由于不希望增加家庭的經濟負擔,表現的就醫行為是只愿意個人承擔經濟壓力,可能評價的狀態為“較差”,但是其子女積極對老人的醫療給予支持并且有效地承擔了經濟壓力,可能評價的狀態就會是“較好” 。
(未完待續)