=0.016 1x+26.54,R2=3.42×105,P=0.601 108);身高為 138~192 cm、(161±7)cm,線性預測結果顯示隨身高變化的線性穩定(
=0.110 5 x–60.911,R2=0.002 6,P=0.000 272);體質量為 27.5~80.5 kg、(59.38±10.27)kg,線性預測結果顯示隨體質量變化的線性升高(
=0.296 5x–537.24,R2=0.010 625,P=2.37×1014)。DACCA 數據庫提供的地理源顯示,華西醫院服務地區與我國西部地區的定義存在差異。結直腸癌主要發生在直腸(68.64%),其中結腸癌主要發生在乙狀結腸(27.06%),直腸癌主要發生在直腸肛管(13.34%)。
引用本文: 汪曉東, 李希, 何欣林, 李立. 數據庫研究第一部分:區域性醫療中心的結直腸癌與人群特征. 中國普外基礎與臨床雜志, 2019, 26(2): 212-220. doi: 10.7507/1007-9424.201901052 復制
華西腸癌數據庫(Database from Colorectal Cancer,DACCA)是華西醫院歷時 10 余年的數據建設結晶[1-2]。如前文[3]所述,現有的華西 DACCA 數據庫仍在持續更新。在真實世界研究(real world study,RWS)的思路下,筆者團隊將推出系列數據庫報道,包括:數據庫研究、數據庫建設、數據庫解讀、數據庫決策等。
根據我國公開數據[4]顯示,2014 年統計的結直腸癌發病率為 27.08/10 萬(其中男性為 30.55/10 萬,女性為 23.43/10 萬),位于惡性腫瘤的前 5 位(男性中為第 4 位,女性中為第 3 位);病死率為 7.25/10 萬(其中男性為 8.19/10 萬,女性為 6.26/10 萬;城市為 9.78/10 萬,農村為 5.96/10 萬),位于惡性腫瘤的第 5 位,是目前我國民眾最主要的疾病負擔之一[5]。2018 年,世界衛生組織下屬的癌癥統計機構—全球癌癥觀察(Global Cancer Observatory,GLOBALCAN)對于全球癌癥的公開數據見圖 1a 和圖 1b,從數據上看,我國近年來結直腸癌的發病率處于相對較高的水平[6]。與此同時,自改革開放以來,公開數據[5]顯示,我國結直腸癌的死亡率在逐漸攀升(圖 1c)。
華西醫院是國家級區域性醫療中心,且華西 DACCA 數據庫主要反映該中心服務覆蓋地區的結直腸癌信息,其中病患群體的構成主體是來自四川省內。作為西部地區的代表省份之一,相對于東部和沿海地區,結直腸癌患者的分布特點可能更為分散,從而導致就醫難度更大;經濟基礎相對較差,從而導致就醫的費用負擔更大。
通過對華西 DACCA 數據庫的人群特征信息的分析,筆者團隊旨在更為準確地展示該區域性中心醫院服務于哪些地區的結直腸癌患者,其流行病學特點是否有一定規律。這對于未來在該區域就診的結直腸癌患者的整體管理具有重要的指導作用。
1 資料和方法
1.1 數據庫版本
本次數據分析選取的 DACCA 版本為 2018 年 12 月 12 日更新版。
1.2 收集的 DACCA 數據庫的應用參數
選取數據項目(items)的基礎定義,將在“數據庫建設”系列報道中詳細說明,本次分析選擇了部分數據項目,包括以下幾個方面。① 個體(personal)數據:包括性別、年齡、血型、身高、體質量及體質量指數(BMI)。② 地理(location)數據:包括省份、市級及成都下設區市縣(不提供具體街道,無任何隱私地址數據)。③ 職業(occupation)與教育(education)數據:包括職業類型和文化程度。職業信息按照《中華人民共和國職業分類大典》分類,并將“學生”和“自由職業”單列提出[7];文化程度分類中,將“研究生”細分為“碩士”和“博士”[8]。④ 醫保(medical insurance)數據:即醫保類型,以四川省醫保類型作為參照[9],省外醫療信息且支付形式非“自費”或“商業(指單純商業保險)”,則標記為“跨省”。⑤ 主診斷(main diagnosis)數據:包括腫瘤部位(針對直腸進一步劃分部位和距離齒狀線距離)。DACCA 數據庫按照腫瘤部位劃分為:回盲部(包含闌尾)、升結腸、結腸肝曲、橫結腸、結腸脾曲、降結腸和直腸。其中,直腸癌的位置按照華西醫院“結直腸癌手術基礎規范與創新”的定義[10-12]分為:直乙交接部、直腸上段、直腸中段、直腸腹膜反折部、直腸低位、直腸超低位、直腸肛管及肛管。由于結直腸可能存在多原發癌的分類信息,因此將整個部位的主要分類界定為:結腸、直腸及多原發 3 類。
1.3 DACCA 數據庫的篩選方案
由于 DACCA 數據庫的數據項目眾多,根據每次數據庫研究的需要,遴選需要分析的部分項目作為報道的基礎。根據本研究的需要,數據庫篩選以“時間軸”為核心條件,依次進行:① 總數據庫的信息篩選;② 選取有“手術日期”的數據項;③ 剔除數據條目可疑或查實重復的數據。具體篩選過程見圖 2。本次數據庫篩選的完成時間為 2018 年 12 月 13 日。

1.4 統計學方法
DACCA 數據庫分析方案:本次 DACCA 數據庫分析的核心詞匯為“變遷”,遂選擇以“年”(時間)為變量單位,截取數據庫中每一單位“年”的數據集作為分析的橫段面信息。用“年份“作為分組條件,其他數據項目作為變量單位,利用經典統計學技術完成數據項目變化的分析。本次 DACCA 數據庫分析的應用工具為 Excel(Office 365,Microsoft,Redmond,WA,USA)。經典的統計學描述主要由 Excel 統計圖表工具完成,經典統計學推論由 Excel 統計工具包完成,獨立樣本比較的t檢驗由 SPSS 20.0(SPSS,IBM,Armonk,New York,USA)完成;大數據分析(穩定性和趨勢的線性分析)由 Excel 數據工具包完成。大數據圖層分析(地理特征)由 Excel PowerMap 工具完成,圖層展示由地圖慧(
2 結果
截至 2018 年 12 月 12 日,數據庫疊加后,符合“手術日期”篩選條件的數據病案總量為 9 633 條。
2.1 患者的就診時間分布
根據 1995–2018 年連續 24 年的數據庫信息分拆每“年度”的數據病案,以探索每“年度”對數據庫含量的貢獻數值,結果見圖 3a。由圖 3a 可見,以 2005–2006 年為數據庫建設的前后時間節點,2005 年以前(包括 2005 年)對數據庫含量的貢獻數值為 1 358 條;2005 年以后(不包括 2005 年)為 8 275 條。2005 年后的貢獻率(貢獻數值/年數)高于 2005 年以前 [1 358/11 比 8 275/13,95% CI為(–625.337,–400.831),P<0.001]。

2.2 患者的性別分布
DACCA 數據庫中的性別分為男、女和未核定信息(未核定的指數據核查沒有完成)3 類。本次數據庫研究結果顯示,1995–2018 年期間總的男性數據 4 669 條,女性數據 3 340 條,未核定數據1 624 條。1995–2018 年期間各年 DACCA 數據庫病例的性別構成見圖 3b。
2.3 患者的年齡分布
DACCA 數據庫提供的年齡信息顯示(年齡待核查數據為 1 631 條,有年齡數據 8 002 條):患者的年齡為 13~104 歲、(59±13)歲,其各年齡段分布見圖 3c。采用線性預測(linear prediction),對以“年”為時間軸的年齡分布進行預測,結果顯示隨年齡變化的線性預測(=0.016 1x+26.54,R2=3.42×105,P=0.601 108),見圖 3d。
2.4 患者的血型分布
DACCA 數據庫提供的血型信息,以“ABO 血型”系統進行分類。其中有 4 493 條尚未核查完成的信息,呈現血型信息病例的血型分布見圖 4,由圖 4 可見,A 型最多,其次為 O 型,AB 型最少。

2.5 患者的身高分布
DACCA 數據庫提供的身高信息中,未核實身高信息 4 605 條,有身高信息 5 028 條,結果顯示,病例的身高為 138~192 cm、(161±7)cm,其分布見圖 5a。采用線性預測對以“年”為時間軸的身高分布進行預測,結果顯示隨身高變化的線性穩定(=0.110 5 x–60.911,R2=0.002 6,P=0.000 272),見圖 5b。

a:身高分布;b:身高分布趨勢;c:體質量分布;d:體質量分布趨勢;e:BMI 分布;f:BMI 分布趨勢
2.6 患者的體質量分布
DACCA 數據庫提供的體質量信息中,未核實體質量信息 4 181 條,有體質量信息 5 452 條,結果顯示,病例的體質量為 27.5~80.5 kg、(59.38±10.27)kg,其分布見圖 5c。采用線性預測對以“年”為時間軸的體質量分布進行預測,結果顯示隨體質量變化的線性升高(=0.296 5x–537.24,R2=0.010 625,P=2.37×1014),見圖 5d。
2.7 患者的 BMI 分布
DACCA 數據庫提供的 BMI 信息中,未核實 BMI 信息 4 613 條,有 BMI 信息 5 020 條,結果顯示,病例的 BMI 為 11.02~39.67 kg/m2、(22.77±3.30)kg/m2,其具體分布見圖 5e。采用線性預測對以“年”為時間軸的 BMI 分布進行預測,結果顯示了隨 BMI 變化的線性升高(=0.086 1x–150.59,R2=0.008 44,P=6.99×1011),見圖 5f。
2.8 患者的來源地區分布
2.8.1 省份分布
DACCA 數據庫提供的地理源,涵蓋了我國行政區劃的省(市/直轄市/港澳臺地區)、市及縣的信息。本研究的數據分析按照 3 級進行,利用圖層表現來源地的特點。根據省級圖層,核實可用數據 6 884 條(其中遼寧省、臺灣省及澳門特別行政區的數據為 0),病例主要來自四川、重慶、云南和貴州,具體見表 1。

DACCA 數據庫主要覆蓋的省份差異圖解見圖 6a:我國的西部地區包括了 12 個省份,黃色虛線所示為模擬的東/西部劃分線,而 DACCA 數據庫提供的地理特征信息顯示,華西醫院服務的結直腸癌病患主要集中在西部的 8 個省份,紫色虛線所示為主要/次要服務區域劃分線,綠色虛圈則為核心服務區域。

a:省級覆蓋區域分界線與我國東/西部劃分的分界線有所區別;b:四川省病例的市級行政區域化分布熱度及數據來源熱度的變化圈;c:成都市病例的縣/區級級行政區域化分布熱度及其數據來源熱度的變化圈;d:職業構成;e:文化程度構成;f:醫保構成;g:結直腸癌的部位分布;h:結腸癌的部位分布;i:直腸癌的部位分布
2.8.2 四川省病例的市級分布
四川省內的核實可用數據為 4 693 條,根據市級(因數據主要來源為四川省的病例,故提供四川省內數據作為“市級”分布展示)圖層顯示來源數據的分布強度信息,可見病例主要來自成都、眉山、樂山和南充。省內市一級熱度圖層顯示的特征,可以初步擬合在一定的輻射圈內。省內輻射圈層按照 200 條(藍色虛線)、100 條(綠色虛線)及 50 條(紫色虛線)為界劃分。具體見圖 6b。
2.8.3 成都市病例的縣級分布
成都市的核實可用數據為 2 970 條,根據縣級(因數據主要來源為成都市的病例,故提供成都市內數據作為“縣級”分布展示)圖層顯示來源數據的分布強度信息(由于圖層工具的功能限制,本次行政區劃中“高新區”暫劃歸在“武侯區”內標記,“天府新區”暫劃在“雙流區”內標記),可見病例主要來自武侯區、金牛區、成華區和青羊區。成都市轄區一級的熱度圖層顯示的特征,可以初步擬合在一定的輻射圈內。市轄區輻射圈層,按照 200 條以上(藍色虛線)、100~200 條(綠色虛線)為界劃分輻射圈。具體見圖 6c。
2.9 患者的職業和文化程度分布
DACCA 數據庫提供的職業信息中,未核實職業信息 3 288 條,有職業信息 6 345 條,其職業分布見圖 6d。由圖 6d 可見,職業類型以退休、農/林/牧/漁/水利業為主。DACCA 數據庫提供的文化程度信息中,未核實文化程度信息 3 316 條,有文化程度信息 6 317 條,其文化程度分布見圖 6e。由圖 6e 可見,文化程度以小學、初中及高中為主。
2.10 患者的醫保類型分布
DACCA 數據庫提供的醫保類型信息中,未核實醫保類型信息 4 456 條,有醫保類型信息 5 177 條,其醫保類型分布見圖 6f。由圖 6f 可見,醫保類型中以城鎮職工醫療保險占比最高。
2.11 患者疾病主診斷的變化
DACCA 數據庫提供的疾病主診斷信息中,未核實疾病主診斷信息 424 條,有疾病主診斷信息 9 209 條。結直腸癌的發生部位見圖 6g,結腸癌的發生部位見圖 6h,直腸癌的發生部位見圖 6i。由圖 6g–6i 可知,結直腸癌主要發生在直腸,其中結腸癌主要發生在乙狀結腸,直腸癌主要發生在直腸肛管。
3 討論
3.1 DACCA 數據庫的容量特征
DACCA 數據庫提供了結直腸癌信息的完整數據倉庫,本次數據庫研究選定的核心篩選條件為“手術日期”,是便于在確定有“手術治療”的病患信息群中進行分析,僅代表部分數據信息隨時間變化的特征。
從數據庫的“年”單位分布圖來看,能明顯看出數據呈現出 2 個階段:2005 年前(含 2005 年)與 2005 年后。這正是華西醫院數據庫建設的開始時間點[3]。由于規范化的數據庫建設,使得近 10 年的數據信息量更為全面,有效信息的容量明顯高于前 1 個 10 年。這表明,DACCA 數據庫的規范化建設,有利于數據的籌備與完善,這是所有數據庫未來發展的基礎。
對于 DACCA 數據庫的容量特征,未來還會有更多研究內容,特別是運用大數據技術,分析區域中心醫院專科疾病的容量以及關聯因素,這才是數據庫容量分析的價值。與傳統大容量的臨床研究比較[13-14],未來還需要回答:何為大數據定義下的高容量性專科?高容量性專科與專業技術的迭代演變是否有關系?這些隨時間演進的大數據分析,是未來區域中心醫院專科疾病病房設置和臨床運轉的基礎。
3.2 人群體質特征
本次 DACCA 數據庫研究選取的個體數據包括:性別、年齡、血型、身高、體質量以及 BMI。其中對于身高、體質量和 BMI 則更進一步分析了時間演變的特征。
3.2.1 性別
目前,全球性的數據報道[15]表明,結直腸癌的男/女好發比例為 45.9∶34.8(約 1.32∶1)。本研究中顯示男女比大約為 1.4∶1,與前兩者的數據表現幾乎一致,并沒有提示結直腸癌更容易偏向于某一性別的特征。
3.2.2 年齡
從年齡上看,DACCA 數據庫提供的信息基本符合經典統計學的正態分布特征。患者的平均年齡為 59 歲,其中>60 歲者有 4 170/8 002(約 52.11%),與國際公開的數據報道[16]比較更為年輕。筆者團隊進一步對數據庫隨“年”為時間單位的年齡分布動態進行描述和線性分析,結果發現,1995–2018 年期間 DACCA 數據庫病例的年齡分布的數據穩定性良好,趨勢表現極為緩慢的上升且逐步向 60 歲觀察線靠近。這一方面說明,結直腸癌的年齡特征仍舊以中年(我國定義 45~65 歲為中年)為主;另一方面說明,結直腸癌并沒有出現“年輕化”表現[17-18]。
3.2.3 ABO 血型
從血型上看,DACCA 數據庫提供的“ABO 型”血型信息顯示,A 型和 O 型占比高于 B 型,而 AB 型最少。既往有研究[19]關注了血型和結直腸癌的關系,實際上這是遺傳學的一個命題。若需要進一步探究血型與結直腸癌的關系,單純的數據構成是不夠的,更多還需要結合遺傳學信息與數據信息,進行大數據相關性分析從而進一步論證。
3.2.4 身高、體質量和 BMI
身高、體質量和 BMI 是人群體質的最基本指標。從 DACCA 數據庫的數據分析結果來看,1995–2018 年期間,病患的體質指標基本符合傳統統計學的正態分布的特征;而對以“年”為時間演變指標進行分析,可發現一些能解釋的趨勢。
1995–2018 年期間結直腸癌人群的身高趨勢線性穩定,升高變化的趨勢并不明顯;而體質量的變化趨勢則顯得更為明顯,不僅線性穩定,而且有上升趨勢;與此伴隨的 BMI 指標,也有上升趨勢。這說明,結直腸癌患病群體的體質狀態在逐步提升,未來可能以超重人群為主(我國標準定義 BMI≥24.0 kg/m2為超重)。從結直腸癌的溯因上看,既往研究[20-21]都提示,肥胖是結直腸癌的高危因素(high-risk factor),未來的大數據可能會進一步印證體質量對于結直腸癌的發生率的影響;同時從結直腸癌的治療干擾因素(influent factor)上看,結直腸癌的外科醫生將會面對更多超重甚至肥胖的病患。從大數據預測上分析,這一初步判斷,有利于尋找結直腸癌長期預后(prognosis)的關聯因素。
3.3 地理特征
DACCA 數據庫提供信息來自華西醫院所服務地區,地理特征主要反映的是醫療覆蓋區域具有的特點。通過對于醫療服務覆蓋的主要地區進行熱度顯示,可以看出,華西醫院的結直腸癌服務范圍主要集中在西部地區,但范圍和我國大西部地區的區域劃定上還有一定的差異。這初步顯示的特征,可以為大數據模型研究結直腸癌病患省級區域流轉的特點,提供重要的依據。同樣,數據庫呈現的市級和縣級熱度圖輻射圈變化特點,又為結直腸癌在更小范圍的區域內流轉特點,提供了有價值的證據。
回顧以上的信息,筆者認為,地理特征是一項極具有關聯可能的特征。本次數據庫研究對地理位置特征的描述,只是病患就醫“行為模型”的一小部分。這種“行為模型”就是真實場景研究中,“行為-結果”核心研究的組成部分。
本次研究所呈現的“行為”特點,可能是多種就醫因素共同所致的。為什么出現這樣的特點,正是大數據研究需要回答的問題。
3.4 職業、文化程度和醫保特征
本次 DACCA 數據庫研究提取了職業、文化程度和醫保的信息,并提供了有價值的線索。如前所述,DACCA 數據庫的年齡特征集中在 58 歲上下,再結合四川地區發展的產業特點,比較容易理解,“退休”和“第一產業(農業為主)”的結直腸病患占據了超過半數以上的數據貢獻量(分別達到>30% 的占有率);同時文化程度相對較低的人群也占有較高的比例。從大數據“行為-結果”模型來看,這些信息需要與國內生產總值(gross domestic product,GDP)、教育資源等數據相結合,提供未來對于結直腸癌“知識水平”為基礎的預警模型,將大數據模型應用在結直腸癌的治療前預防中。
目前,我國的大數據發展已經覆蓋了人群的經濟學數據。因此,對 DACCA 數據庫初步的醫保特征分析,只是“大數據+醫療+經濟”模型的探索。未來“大數據+醫療+經濟”模型會是重點突破口,筆者團隊會逐步將結直腸癌病患就醫行為與真實場景下的經濟學相關聯。這將會為未來醫保支付系統提供更有價值的模型,可能會優化甚至改變現今主流的基于診斷相關疾病分類(diagnosis related groups,DRGs)付費模型[22]。
3.5 結直腸癌的主診斷特征
DACCA 數據庫提供了以結直腸部位為基礎的主診斷,與現今 ICD-10 的定義不沖突,而還可能進一步作為優化條件。本次數據庫分析是基于主診斷的系列數據庫研究的起篇。
結直腸癌的就診比例,在公開數據[23]中為 3∶7。本次 DACCA 數據庫研究呈現的比例也基本一致(結腸癌占 29.54%,直腸癌占 68.64%)。而直腸癌的數據貢獻量比例,可能更多反映了華西醫院的服務特點:腹膜反折部以下(距離肛緣 9 cm 以內)的直腸癌病患在華西醫院接受治療的比例很高 [(腹膜返折部 10.00%+低位 10.68%+超低位 13.30%+直腸肛管 13.34%+肛管 1.85%+肛門 0.24%=49.41%)∶(中段 9.35%+上段 5.92%+直交界部 1.31%=16.58%)約為 2.98∶1]。這與本系列開篇論述的“結直腸癌極限保肛技術”有相當的關系[3, 24-27]。
從大數據分析的角度上看,未來完善“行為-結果”模型的關鍵環節之一,就是需要解讀更低位置的直腸癌患者在“行為-結果”模型中到底獲得了怎樣長期效果收益(long term outcomes)?華西醫院在 1995–2018 年期間,數據庫含量穩步提高的過程中,持續容納了更多低位及以下的直腸癌病患,數據量的增加與極低位直腸癌病患的治療比例是否具有關聯關系?能否提出更符合真實場景、更為有效的極低位直腸癌管理方案,以解決未來結直腸外科“大幅提高遠期生存率”和“保住所有可以保住的肛門功能”這兩大核心問題。
(未完待續)
華西腸癌數據庫(Database from Colorectal Cancer,DACCA)是華西醫院歷時 10 余年的數據建設結晶[1-2]。如前文[3]所述,現有的華西 DACCA 數據庫仍在持續更新。在真實世界研究(real world study,RWS)的思路下,筆者團隊將推出系列數據庫報道,包括:數據庫研究、數據庫建設、數據庫解讀、數據庫決策等。
根據我國公開數據[4]顯示,2014 年統計的結直腸癌發病率為 27.08/10 萬(其中男性為 30.55/10 萬,女性為 23.43/10 萬),位于惡性腫瘤的前 5 位(男性中為第 4 位,女性中為第 3 位);病死率為 7.25/10 萬(其中男性為 8.19/10 萬,女性為 6.26/10 萬;城市為 9.78/10 萬,農村為 5.96/10 萬),位于惡性腫瘤的第 5 位,是目前我國民眾最主要的疾病負擔之一[5]。2018 年,世界衛生組織下屬的癌癥統計機構—全球癌癥觀察(Global Cancer Observatory,GLOBALCAN)對于全球癌癥的公開數據見圖 1a 和圖 1b,從數據上看,我國近年來結直腸癌的發病率處于相對較高的水平[6]。與此同時,自改革開放以來,公開數據[5]顯示,我國結直腸癌的死亡率在逐漸攀升(圖 1c)。
華西醫院是國家級區域性醫療中心,且華西 DACCA 數據庫主要反映該中心服務覆蓋地區的結直腸癌信息,其中病患群體的構成主體是來自四川省內。作為西部地區的代表省份之一,相對于東部和沿海地區,結直腸癌患者的分布特點可能更為分散,從而導致就醫難度更大;經濟基礎相對較差,從而導致就醫的費用負擔更大。
通過對華西 DACCA 數據庫的人群特征信息的分析,筆者團隊旨在更為準確地展示該區域性中心醫院服務于哪些地區的結直腸癌患者,其流行病學特點是否有一定規律。這對于未來在該區域就診的結直腸癌患者的整體管理具有重要的指導作用。
1 資料和方法
1.1 數據庫版本
本次數據分析選取的 DACCA 版本為 2018 年 12 月 12 日更新版。
1.2 收集的 DACCA 數據庫的應用參數
選取數據項目(items)的基礎定義,將在“數據庫建設”系列報道中詳細說明,本次分析選擇了部分數據項目,包括以下幾個方面。① 個體(personal)數據:包括性別、年齡、血型、身高、體質量及體質量指數(BMI)。② 地理(location)數據:包括省份、市級及成都下設區市縣(不提供具體街道,無任何隱私地址數據)。③ 職業(occupation)與教育(education)數據:包括職業類型和文化程度。職業信息按照《中華人民共和國職業分類大典》分類,并將“學生”和“自由職業”單列提出[7];文化程度分類中,將“研究生”細分為“碩士”和“博士”[8]。④ 醫保(medical insurance)數據:即醫保類型,以四川省醫保類型作為參照[9],省外醫療信息且支付形式非“自費”或“商業(指單純商業保險)”,則標記為“跨省”。⑤ 主診斷(main diagnosis)數據:包括腫瘤部位(針對直腸進一步劃分部位和距離齒狀線距離)。DACCA 數據庫按照腫瘤部位劃分為:回盲部(包含闌尾)、升結腸、結腸肝曲、橫結腸、結腸脾曲、降結腸和直腸。其中,直腸癌的位置按照華西醫院“結直腸癌手術基礎規范與創新”的定義[10-12]分為:直乙交接部、直腸上段、直腸中段、直腸腹膜反折部、直腸低位、直腸超低位、直腸肛管及肛管。由于結直腸可能存在多原發癌的分類信息,因此將整個部位的主要分類界定為:結腸、直腸及多原發 3 類。
1.3 DACCA 數據庫的篩選方案
由于 DACCA 數據庫的數據項目眾多,根據每次數據庫研究的需要,遴選需要分析的部分項目作為報道的基礎。根據本研究的需要,數據庫篩選以“時間軸”為核心條件,依次進行:① 總數據庫的信息篩選;② 選取有“手術日期”的數據項;③ 剔除數據條目可疑或查實重復的數據。具體篩選過程見圖 2。本次數據庫篩選的完成時間為 2018 年 12 月 13 日。

1.4 統計學方法
DACCA 數據庫分析方案:本次 DACCA 數據庫分析的核心詞匯為“變遷”,遂選擇以“年”(時間)為變量單位,截取數據庫中每一單位“年”的數據集作為分析的橫段面信息。用“年份“作為分組條件,其他數據項目作為變量單位,利用經典統計學技術完成數據項目變化的分析。本次 DACCA 數據庫分析的應用工具為 Excel(Office 365,Microsoft,Redmond,WA,USA)。經典的統計學描述主要由 Excel 統計圖表工具完成,經典統計學推論由 Excel 統計工具包完成,獨立樣本比較的t檢驗由 SPSS 20.0(SPSS,IBM,Armonk,New York,USA)完成;大數據分析(穩定性和趨勢的線性分析)由 Excel 數據工具包完成。大數據圖層分析(地理特征)由 Excel PowerMap 工具完成,圖層展示由地圖慧(
2 結果
截至 2018 年 12 月 12 日,數據庫疊加后,符合“手術日期”篩選條件的數據病案總量為 9 633 條。
2.1 患者的就診時間分布
根據 1995–2018 年連續 24 年的數據庫信息分拆每“年度”的數據病案,以探索每“年度”對數據庫含量的貢獻數值,結果見圖 3a。由圖 3a 可見,以 2005–2006 年為數據庫建設的前后時間節點,2005 年以前(包括 2005 年)對數據庫含量的貢獻數值為 1 358 條;2005 年以后(不包括 2005 年)為 8 275 條。2005 年后的貢獻率(貢獻數值/年數)高于 2005 年以前 [1 358/11 比 8 275/13,95% CI為(–625.337,–400.831),P<0.001]。

2.2 患者的性別分布
DACCA 數據庫中的性別分為男、女和未核定信息(未核定的指數據核查沒有完成)3 類。本次數據庫研究結果顯示,1995–2018 年期間總的男性數據 4 669 條,女性數據 3 340 條,未核定數據1 624 條。1995–2018 年期間各年 DACCA 數據庫病例的性別構成見圖 3b。
2.3 患者的年齡分布
DACCA 數據庫提供的年齡信息顯示(年齡待核查數據為 1 631 條,有年齡數據 8 002 條):患者的年齡為 13~104 歲、(59±13)歲,其各年齡段分布見圖 3c。采用線性預測(linear prediction),對以“年”為時間軸的年齡分布進行預測,結果顯示隨年齡變化的線性預測(=0.016 1x+26.54,R2=3.42×105,P=0.601 108),見圖 3d。
2.4 患者的血型分布
DACCA 數據庫提供的血型信息,以“ABO 血型”系統進行分類。其中有 4 493 條尚未核查完成的信息,呈現血型信息病例的血型分布見圖 4,由圖 4 可見,A 型最多,其次為 O 型,AB 型最少。

2.5 患者的身高分布
DACCA 數據庫提供的身高信息中,未核實身高信息 4 605 條,有身高信息 5 028 條,結果顯示,病例的身高為 138~192 cm、(161±7)cm,其分布見圖 5a。采用線性預測對以“年”為時間軸的身高分布進行預測,結果顯示隨身高變化的線性穩定(=0.110 5 x–60.911,R2=0.002 6,P=0.000 272),見圖 5b。

a:身高分布;b:身高分布趨勢;c:體質量分布;d:體質量分布趨勢;e:BMI 分布;f:BMI 分布趨勢
2.6 患者的體質量分布
DACCA 數據庫提供的體質量信息中,未核實體質量信息 4 181 條,有體質量信息 5 452 條,結果顯示,病例的體質量為 27.5~80.5 kg、(59.38±10.27)kg,其分布見圖 5c。采用線性預測對以“年”為時間軸的體質量分布進行預測,結果顯示隨體質量變化的線性升高(=0.296 5x–537.24,R2=0.010 625,P=2.37×1014),見圖 5d。
2.7 患者的 BMI 分布
DACCA 數據庫提供的 BMI 信息中,未核實 BMI 信息 4 613 條,有 BMI 信息 5 020 條,結果顯示,病例的 BMI 為 11.02~39.67 kg/m2、(22.77±3.30)kg/m2,其具體分布見圖 5e。采用線性預測對以“年”為時間軸的 BMI 分布進行預測,結果顯示了隨 BMI 變化的線性升高(=0.086 1x–150.59,R2=0.008 44,P=6.99×1011),見圖 5f。
2.8 患者的來源地區分布
2.8.1 省份分布
DACCA 數據庫提供的地理源,涵蓋了我國行政區劃的省(市/直轄市/港澳臺地區)、市及縣的信息。本研究的數據分析按照 3 級進行,利用圖層表現來源地的特點。根據省級圖層,核實可用數據 6 884 條(其中遼寧省、臺灣省及澳門特別行政區的數據為 0),病例主要來自四川、重慶、云南和貴州,具體見表 1。

DACCA 數據庫主要覆蓋的省份差異圖解見圖 6a:我國的西部地區包括了 12 個省份,黃色虛線所示為模擬的東/西部劃分線,而 DACCA 數據庫提供的地理特征信息顯示,華西醫院服務的結直腸癌病患主要集中在西部的 8 個省份,紫色虛線所示為主要/次要服務區域劃分線,綠色虛圈則為核心服務區域。

a:省級覆蓋區域分界線與我國東/西部劃分的分界線有所區別;b:四川省病例的市級行政區域化分布熱度及數據來源熱度的變化圈;c:成都市病例的縣/區級級行政區域化分布熱度及其數據來源熱度的變化圈;d:職業構成;e:文化程度構成;f:醫保構成;g:結直腸癌的部位分布;h:結腸癌的部位分布;i:直腸癌的部位分布
2.8.2 四川省病例的市級分布
四川省內的核實可用數據為 4 693 條,根據市級(因數據主要來源為四川省的病例,故提供四川省內數據作為“市級”分布展示)圖層顯示來源數據的分布強度信息,可見病例主要來自成都、眉山、樂山和南充。省內市一級熱度圖層顯示的特征,可以初步擬合在一定的輻射圈內。省內輻射圈層按照 200 條(藍色虛線)、100 條(綠色虛線)及 50 條(紫色虛線)為界劃分。具體見圖 6b。
2.8.3 成都市病例的縣級分布
成都市的核實可用數據為 2 970 條,根據縣級(因數據主要來源為成都市的病例,故提供成都市內數據作為“縣級”分布展示)圖層顯示來源數據的分布強度信息(由于圖層工具的功能限制,本次行政區劃中“高新區”暫劃歸在“武侯區”內標記,“天府新區”暫劃在“雙流區”內標記),可見病例主要來自武侯區、金牛區、成華區和青羊區。成都市轄區一級的熱度圖層顯示的特征,可以初步擬合在一定的輻射圈內。市轄區輻射圈層,按照 200 條以上(藍色虛線)、100~200 條(綠色虛線)為界劃分輻射圈。具體見圖 6c。
2.9 患者的職業和文化程度分布
DACCA 數據庫提供的職業信息中,未核實職業信息 3 288 條,有職業信息 6 345 條,其職業分布見圖 6d。由圖 6d 可見,職業類型以退休、農/林/牧/漁/水利業為主。DACCA 數據庫提供的文化程度信息中,未核實文化程度信息 3 316 條,有文化程度信息 6 317 條,其文化程度分布見圖 6e。由圖 6e 可見,文化程度以小學、初中及高中為主。
2.10 患者的醫保類型分布
DACCA 數據庫提供的醫保類型信息中,未核實醫保類型信息 4 456 條,有醫保類型信息 5 177 條,其醫保類型分布見圖 6f。由圖 6f 可見,醫保類型中以城鎮職工醫療保險占比最高。
2.11 患者疾病主診斷的變化
DACCA 數據庫提供的疾病主診斷信息中,未核實疾病主診斷信息 424 條,有疾病主診斷信息 9 209 條。結直腸癌的發生部位見圖 6g,結腸癌的發生部位見圖 6h,直腸癌的發生部位見圖 6i。由圖 6g–6i 可知,結直腸癌主要發生在直腸,其中結腸癌主要發生在乙狀結腸,直腸癌主要發生在直腸肛管。
3 討論
3.1 DACCA 數據庫的容量特征
DACCA 數據庫提供了結直腸癌信息的完整數據倉庫,本次數據庫研究選定的核心篩選條件為“手術日期”,是便于在確定有“手術治療”的病患信息群中進行分析,僅代表部分數據信息隨時間變化的特征。
從數據庫的“年”單位分布圖來看,能明顯看出數據呈現出 2 個階段:2005 年前(含 2005 年)與 2005 年后。這正是華西醫院數據庫建設的開始時間點[3]。由于規范化的數據庫建設,使得近 10 年的數據信息量更為全面,有效信息的容量明顯高于前 1 個 10 年。這表明,DACCA 數據庫的規范化建設,有利于數據的籌備與完善,這是所有數據庫未來發展的基礎。
對于 DACCA 數據庫的容量特征,未來還會有更多研究內容,特別是運用大數據技術,分析區域中心醫院專科疾病的容量以及關聯因素,這才是數據庫容量分析的價值。與傳統大容量的臨床研究比較[13-14],未來還需要回答:何為大數據定義下的高容量性專科?高容量性專科與專業技術的迭代演變是否有關系?這些隨時間演進的大數據分析,是未來區域中心醫院專科疾病病房設置和臨床運轉的基礎。
3.2 人群體質特征
本次 DACCA 數據庫研究選取的個體數據包括:性別、年齡、血型、身高、體質量以及 BMI。其中對于身高、體質量和 BMI 則更進一步分析了時間演變的特征。
3.2.1 性別
目前,全球性的數據報道[15]表明,結直腸癌的男/女好發比例為 45.9∶34.8(約 1.32∶1)。本研究中顯示男女比大約為 1.4∶1,與前兩者的數據表現幾乎一致,并沒有提示結直腸癌更容易偏向于某一性別的特征。
3.2.2 年齡
從年齡上看,DACCA 數據庫提供的信息基本符合經典統計學的正態分布特征。患者的平均年齡為 59 歲,其中>60 歲者有 4 170/8 002(約 52.11%),與國際公開的數據報道[16]比較更為年輕。筆者團隊進一步對數據庫隨“年”為時間單位的年齡分布動態進行描述和線性分析,結果發現,1995–2018 年期間 DACCA 數據庫病例的年齡分布的數據穩定性良好,趨勢表現極為緩慢的上升且逐步向 60 歲觀察線靠近。這一方面說明,結直腸癌的年齡特征仍舊以中年(我國定義 45~65 歲為中年)為主;另一方面說明,結直腸癌并沒有出現“年輕化”表現[17-18]。
3.2.3 ABO 血型
從血型上看,DACCA 數據庫提供的“ABO 型”血型信息顯示,A 型和 O 型占比高于 B 型,而 AB 型最少。既往有研究[19]關注了血型和結直腸癌的關系,實際上這是遺傳學的一個命題。若需要進一步探究血型與結直腸癌的關系,單純的數據構成是不夠的,更多還需要結合遺傳學信息與數據信息,進行大數據相關性分析從而進一步論證。
3.2.4 身高、體質量和 BMI
身高、體質量和 BMI 是人群體質的最基本指標。從 DACCA 數據庫的數據分析結果來看,1995–2018 年期間,病患的體質指標基本符合傳統統計學的正態分布的特征;而對以“年”為時間演變指標進行分析,可發現一些能解釋的趨勢。
1995–2018 年期間結直腸癌人群的身高趨勢線性穩定,升高變化的趨勢并不明顯;而體質量的變化趨勢則顯得更為明顯,不僅線性穩定,而且有上升趨勢;與此伴隨的 BMI 指標,也有上升趨勢。這說明,結直腸癌患病群體的體質狀態在逐步提升,未來可能以超重人群為主(我國標準定義 BMI≥24.0 kg/m2為超重)。從結直腸癌的溯因上看,既往研究[20-21]都提示,肥胖是結直腸癌的高危因素(high-risk factor),未來的大數據可能會進一步印證體質量對于結直腸癌的發生率的影響;同時從結直腸癌的治療干擾因素(influent factor)上看,結直腸癌的外科醫生將會面對更多超重甚至肥胖的病患。從大數據預測上分析,這一初步判斷,有利于尋找結直腸癌長期預后(prognosis)的關聯因素。
3.3 地理特征
DACCA 數據庫提供信息來自華西醫院所服務地區,地理特征主要反映的是醫療覆蓋區域具有的特點。通過對于醫療服務覆蓋的主要地區進行熱度顯示,可以看出,華西醫院的結直腸癌服務范圍主要集中在西部地區,但范圍和我國大西部地區的區域劃定上還有一定的差異。這初步顯示的特征,可以為大數據模型研究結直腸癌病患省級區域流轉的特點,提供重要的依據。同樣,數據庫呈現的市級和縣級熱度圖輻射圈變化特點,又為結直腸癌在更小范圍的區域內流轉特點,提供了有價值的證據。
回顧以上的信息,筆者認為,地理特征是一項極具有關聯可能的特征。本次數據庫研究對地理位置特征的描述,只是病患就醫“行為模型”的一小部分。這種“行為模型”就是真實場景研究中,“行為-結果”核心研究的組成部分。
本次研究所呈現的“行為”特點,可能是多種就醫因素共同所致的。為什么出現這樣的特點,正是大數據研究需要回答的問題。
3.4 職業、文化程度和醫保特征
本次 DACCA 數據庫研究提取了職業、文化程度和醫保的信息,并提供了有價值的線索。如前所述,DACCA 數據庫的年齡特征集中在 58 歲上下,再結合四川地區發展的產業特點,比較容易理解,“退休”和“第一產業(農業為主)”的結直腸病患占據了超過半數以上的數據貢獻量(分別達到>30% 的占有率);同時文化程度相對較低的人群也占有較高的比例。從大數據“行為-結果”模型來看,這些信息需要與國內生產總值(gross domestic product,GDP)、教育資源等數據相結合,提供未來對于結直腸癌“知識水平”為基礎的預警模型,將大數據模型應用在結直腸癌的治療前預防中。
目前,我國的大數據發展已經覆蓋了人群的經濟學數據。因此,對 DACCA 數據庫初步的醫保特征分析,只是“大數據+醫療+經濟”模型的探索。未來“大數據+醫療+經濟”模型會是重點突破口,筆者團隊會逐步將結直腸癌病患就醫行為與真實場景下的經濟學相關聯。這將會為未來醫保支付系統提供更有價值的模型,可能會優化甚至改變現今主流的基于診斷相關疾病分類(diagnosis related groups,DRGs)付費模型[22]。
3.5 結直腸癌的主診斷特征
DACCA 數據庫提供了以結直腸部位為基礎的主診斷,與現今 ICD-10 的定義不沖突,而還可能進一步作為優化條件。本次數據庫分析是基于主診斷的系列數據庫研究的起篇。
結直腸癌的就診比例,在公開數據[23]中為 3∶7。本次 DACCA 數據庫研究呈現的比例也基本一致(結腸癌占 29.54%,直腸癌占 68.64%)。而直腸癌的數據貢獻量比例,可能更多反映了華西醫院的服務特點:腹膜反折部以下(距離肛緣 9 cm 以內)的直腸癌病患在華西醫院接受治療的比例很高 [(腹膜返折部 10.00%+低位 10.68%+超低位 13.30%+直腸肛管 13.34%+肛管 1.85%+肛門 0.24%=49.41%)∶(中段 9.35%+上段 5.92%+直交界部 1.31%=16.58%)約為 2.98∶1]。這與本系列開篇論述的“結直腸癌極限保肛技術”有相當的關系[3, 24-27]。
從大數據分析的角度上看,未來完善“行為-結果”模型的關鍵環節之一,就是需要解讀更低位置的直腸癌患者在“行為-結果”模型中到底獲得了怎樣長期效果收益(long term outcomes)?華西醫院在 1995–2018 年期間,數據庫含量穩步提高的過程中,持續容納了更多低位及以下的直腸癌病患,數據量的增加與極低位直腸癌病患的治療比例是否具有關聯關系?能否提出更符合真實場景、更為有效的極低位直腸癌管理方案,以解決未來結直腸外科“大幅提高遠期生存率”和“保住所有可以保住的肛門功能”這兩大核心問題。
(未完待續)