引用本文: 屈媛圓, 高琳娜, 宋歡. 結直腸癌專病數據庫的發展與展望. 中國普外基礎與臨床雜志, 2021, 28(12): 1543-1545. doi: 10.7507/1007-9424.202110080 復制
自2006年美國哈佛大學商學院的邁克爾·波特教授提出“價值醫療(value-based health care,VBHC)” [1]這一概念之后,世界各地的各個醫療組織、機構、相關從業者們,便開始了積極的探索與實踐,希望可以在這種概念的指導下建立起新的思維與發展模式,找出能持續助益于改善患者治療效果、提升醫療質量、降低醫療成本的“更優解”,促進醫療體系的良性發展。從各國醫改的實踐方向以及我國各項與醫療相關的政策文件中不難把握“價值醫療”的核心,即著眼于患者的利益,以價值最大化為導向,平衡質量、效果、成本的比重,力求單位健康投入能達成更大的健康收益,追求更高性價比的醫療[2]。
現今,隨著政策機制改革、技術和服務等方面的逐步完善,賦能于“價值醫療”發展的支撐力量逐漸壯大。立足于當前數據統計和分析技術在臨床醫學研究領域受到廣泛應用的背景,深挖數據的價值[3],利用臨床收集的各類數據,建立科學規范的標準化專病數據庫是在以“價值醫療”為導向的發展方向上極為重要的一環。國內外眾多醫療機構都在收集患者的人口統計學信息、入出院記錄、入出院診斷信息、檢查檢驗信息、病程和醫囑信息等,建立專病數據庫,以求基于基因組學、影像組學、機器學習等技術,通過數據研究,充分發揮數據價值,提高科研效率與質量,助力“價值醫療”。
1 結直腸癌專病數據庫的建設與發展
1.1 基本情況概述
癌癥一直是人類致力于攻克的一個難題,為了降低癌癥的發病率和病死率,深化對癌癥的認知,國內外都建立起了癌癥數據庫。從國外的公開數據庫的情況中可以看出,相較于發展中國家與地區,發達國家及地區建立癌癥數據庫的時間更早,其涵蓋的數據范圍更廣,數據量更大。另外,在病種類型方面,這些癌癥數據庫基本是多病種集合,包括結直腸癌數據庫在內的專病數據庫數量較少。例如美國的美國外科醫生學會國家癌癥數據庫(National Cancer Database from American College of Surgeons,NCDB) [4]和SEER(Surveillance,Epidemiology,and End Results Program from NIH) [5], SEER收錄的腫瘤數據種類基本是乳腺、結直腸、其他消化系統、女性生殖、淋巴和白血病、男性生殖、呼吸系統、泌尿系統及其他類型這9大類系統的腫瘤數據。不過雖然結直腸癌專病數據庫數量相對較少,但其在專病研究診療上發揮的作用卻不可忽視,例如歐洲的結直腸癌數據中心(the Adjuvant Colon Cancer Endpoints,ACCENT)。ACCENT數據庫包含從1977–2009年期間進行的27項主要輔助結腸癌試驗中心招募的40 000多例患者的詳細信息,目前已經支撐了許多復雜的分析來解決各種臨床問題,如奧沙利鉑獲益的時間過程,支持使用無病生存率(disease-free survival)作為總生存率(overall survival)的替代終點[6]。在國內,2017年8月,中國臨床腫瘤學會結直腸癌大數據中心在廣州成立。該中心集合了大量結直腸癌患者的人口學特征、費用、體征、檢查檢驗和最終治療效果數據在內的大型數據集,利用這些數據集可以在輔助醫療工作者對比不同的治療方案及其有效性、促進臨床新藥的臨床研究與上市、幫助對患者進行智能化隨訪等許多方面發揮重要作用。在成都市,四川大學華西醫院建立起了華西腸癌數據庫(database from colorectal cancer,DACCA),該數據庫是華西醫院結直腸外科以真實世界研究(real world study,RWS)為思路建設的數據庫[7],是按照一定的數據庫建設理念逐步構建完成的以數據集合為基礎的動態數據庫[8]。成都作為西南地區的重要城市,其各方面影響力輻射整個西南地區,四川大學華西醫院作為國家級區域性醫療中心,其建立的華西腸癌數據庫豐富了結直腸癌數據資源,該數據庫收集的各項數據具有地區性特征,利用該數據庫開展的研究,其結果能更好的指導本地區對結直腸癌防治與診療相關問題的探究。
1.2 建立專病數據庫的關鍵點
為保證數據的可利用性、研究結果的科學性與數據庫本身的可持續性,在建設結直腸癌專病數據庫過程中都需要注重以下建設的關鍵點。
1.2.1 數據質量
現在進行臨床數據收集管理通常使用的是電子數據采集系統(electronic data capture system,EDC),并由項目數據調查員通過訪談方式填寫病例報告表(case report form,CRF),采集患者信息,以確保數據的準確性和真實性[9]。不過,雖然標準化的表格可以很大程度上控制數據收集質量與標準化程度,但人工部分仍可能出現偏差,因此需要重視數據調查員上崗前的培訓與考核,盡量確保在進行量表錄入工作時,量表內容可以有效傳達,患者信息能夠準確接收,問卷答案做到真實填寫。同時,在CRF錄入的步驟也需要注意核查功能的嵌入,例如,可在EDC內嵌入進行量表問答時全程錄音的功能,并注意量表中邏輯檢查的設置,同時通過在系統備份所有操作記錄及一些其他方式來實現對這一環節的監管。
1.2.2 隨訪
國內外都有關于結直腸癌隨訪的指南[10-11],但在實際操作中很難完全遵照指南執行,應根據具體的情況和特點結合指南在初期就設計好標準化的隨訪流程與策略,包括但不限于隨訪時間、人群、方式、內容等,并在工作開始后嚴格實施,力求持續關注落實隨訪工作直到計劃的觀察隨訪期結束為止。在隨訪過程中需要注意對患者隨訪依從度的培養,如果出現失訪,需要及時補訪,并分析失訪原因,全面保證隨訪按計劃進行。
1.2.3 數據的協同整合
現在各個結直腸癌專病數據庫基本都是依據自己的需求開發出滿足自己臨床數據收集與管理需求的系統,相對較為孤立[12],若能與包括醫院信息系統(hospital information system,HIS)、實驗室信息管理系統(laboratory information management system,LIS)等醫院的業務信息系統相集成,則可以進一步豐富和完善數據庫,推進各部門各系統的信息共享,打通全生命周期數據鏈條,使所建立的專病數據庫能為臨床的輔助決策和疾病研究提供更全面的更豐富的數據支撐。
1.2.4 數據平臺的構建
平臺的構建主要分橫、縱兩個方面,橫向平臺的構建主要是指數據庫之間的共享,現在國內包括結直腸癌專病數據庫在內的專病數據庫數量持續增多,但多為單中心獨自建設,互相之間數據很少共享[13],因此很難形成規模并建設成平臺,成為具有權威體量的數據庫[14]。 縱向平臺的構建是指在建設結直腸癌專病數據庫時,若搭建起從數據采集、數據標準化及融合、數據管理及使用的全流程平臺,建立數據庫生態,數據的處理和使用效率將大幅度提升。
1.3 困難與挑戰
在結直腸癌專病數據庫逐漸增多,并穩步建立且持續發展的同時,可以預見的困難也隨之出現。
1.3.1 多源異構數據的處理
前文提到過數據的協同整合是一個發展的關鍵點,但其實同樣它也是一個難點,因為在面臨打破數據孤島與醫院其他信息系統進行集成的時候,鑒于目前數據呈現多源異構的特點,醫學方向的自然語言處理技術還不夠完善和成熟,電子病歷的語義分析仍存在改進空間等問題,如何對此類數據進行處理和整合就成了一個挑戰。這個難點的攻破,依賴于數據統籌的安排,數據脫敏等安全技術的發展,數據收集全流程的標準化,以及數據清洗技術的進步[15]。
1.3.2 數據的長期運營與維護
數據庫的長期維護與持續運營發展,是一個隨著時間的推移會逐漸凸顯的問題。 數據庫的建設從一開始就會需要不少人力與經費的投入,需要臨床醫生、護士以及非臨床的研究人員長期的通力配合。另外,鑒于結直腸癌的隨訪特點,對結直腸癌患者的隨訪追蹤時間也較長。數據庫長期可持續的運營發展,是一個難點,需要在數據庫前期建設中進行科學合理的設計,并在發展過程中不斷調整完善,協調統籌人力安排,并對數據庫進行規范的維護與管理,充分發揮數據庫的價值,讓運營成果與投入形成健康良性的循環。
2 對結直腸癌專病數據庫發展的建議
對數據進行標準化治理是關鍵性的工作,如果能把“建立標準化”的意識前置并傾注在全過程管控中,那后期的清洗以及對多源異構數據的標化集成工作都能最大化的減輕,從而提升數據可利用率以及研究效率。
在建設前期應注重以元數據為核心進行數據治理,將醫療機構數據集與國家和醫療行業數據集標準進行整理合并,建立專病數據集標準庫[16]。結合國家、行業標準與所在機構的具體情況建立包括數據元指標、規范化引用文件、術語縮略語、數據元目錄等在內的本地數據元標準庫。在采集過程中,對采集內容、方式、采集設備、數據存儲格式等進行規范,并在采集過程中嚴格進行質控。在開展研究時,科學制定數據申請使用流程。對數據全生命周期進行標準化的管控,包括但不限于數據的規范化分析使用,數據安全管理,數據匯入與銷毀管理等。建立全程的標準化管控規范(圖1)。

3 前景展望
大數據的發展催生出了全球范圍內的技術變革,數據的價值被進一步認可和重視。在結直腸癌專病的研究防治方面,集成數據資源建設數據庫能為對該病種的研究工作提供強大的內生動力。隨著技術的發展革新,結直腸癌專病數據庫建設經驗的不斷累積,目前所面臨的一些困難也必將會成為完成的一個又一個挑戰。專病數據庫建設響應著“價值醫療”號召,是取之于民用之于民的工程,它的價值不在于經濟而在于人民生命健康,研究過程的縮短與研究效率的提升,對應的是患者生命的延長與患病率的下降。在今后的結直腸癌專病數據庫建設中,基于豐富的數據資源,我國的專病數據庫建設將會作出更多引領性的貢獻。
重要聲明
利益沖突聲明: 本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:屈媛圓負責參考文獻查閱與文稿撰寫;高琳娜負責部分文獻檢索;宋歡負責指導與質量控制。
自2006年美國哈佛大學商學院的邁克爾·波特教授提出“價值醫療(value-based health care,VBHC)” [1]這一概念之后,世界各地的各個醫療組織、機構、相關從業者們,便開始了積極的探索與實踐,希望可以在這種概念的指導下建立起新的思維與發展模式,找出能持續助益于改善患者治療效果、提升醫療質量、降低醫療成本的“更優解”,促進醫療體系的良性發展。從各國醫改的實踐方向以及我國各項與醫療相關的政策文件中不難把握“價值醫療”的核心,即著眼于患者的利益,以價值最大化為導向,平衡質量、效果、成本的比重,力求單位健康投入能達成更大的健康收益,追求更高性價比的醫療[2]。
現今,隨著政策機制改革、技術和服務等方面的逐步完善,賦能于“價值醫療”發展的支撐力量逐漸壯大。立足于當前數據統計和分析技術在臨床醫學研究領域受到廣泛應用的背景,深挖數據的價值[3],利用臨床收集的各類數據,建立科學規范的標準化專病數據庫是在以“價值醫療”為導向的發展方向上極為重要的一環。國內外眾多醫療機構都在收集患者的人口統計學信息、入出院記錄、入出院診斷信息、檢查檢驗信息、病程和醫囑信息等,建立專病數據庫,以求基于基因組學、影像組學、機器學習等技術,通過數據研究,充分發揮數據價值,提高科研效率與質量,助力“價值醫療”。
1 結直腸癌專病數據庫的建設與發展
1.1 基本情況概述
癌癥一直是人類致力于攻克的一個難題,為了降低癌癥的發病率和病死率,深化對癌癥的認知,國內外都建立起了癌癥數據庫。從國外的公開數據庫的情況中可以看出,相較于發展中國家與地區,發達國家及地區建立癌癥數據庫的時間更早,其涵蓋的數據范圍更廣,數據量更大。另外,在病種類型方面,這些癌癥數據庫基本是多病種集合,包括結直腸癌數據庫在內的專病數據庫數量較少。例如美國的美國外科醫生學會國家癌癥數據庫(National Cancer Database from American College of Surgeons,NCDB) [4]和SEER(Surveillance,Epidemiology,and End Results Program from NIH) [5], SEER收錄的腫瘤數據種類基本是乳腺、結直腸、其他消化系統、女性生殖、淋巴和白血病、男性生殖、呼吸系統、泌尿系統及其他類型這9大類系統的腫瘤數據。不過雖然結直腸癌專病數據庫數量相對較少,但其在專病研究診療上發揮的作用卻不可忽視,例如歐洲的結直腸癌數據中心(the Adjuvant Colon Cancer Endpoints,ACCENT)。ACCENT數據庫包含從1977–2009年期間進行的27項主要輔助結腸癌試驗中心招募的40 000多例患者的詳細信息,目前已經支撐了許多復雜的分析來解決各種臨床問題,如奧沙利鉑獲益的時間過程,支持使用無病生存率(disease-free survival)作為總生存率(overall survival)的替代終點[6]。在國內,2017年8月,中國臨床腫瘤學會結直腸癌大數據中心在廣州成立。該中心集合了大量結直腸癌患者的人口學特征、費用、體征、檢查檢驗和最終治療效果數據在內的大型數據集,利用這些數據集可以在輔助醫療工作者對比不同的治療方案及其有效性、促進臨床新藥的臨床研究與上市、幫助對患者進行智能化隨訪等許多方面發揮重要作用。在成都市,四川大學華西醫院建立起了華西腸癌數據庫(database from colorectal cancer,DACCA),該數據庫是華西醫院結直腸外科以真實世界研究(real world study,RWS)為思路建設的數據庫[7],是按照一定的數據庫建設理念逐步構建完成的以數據集合為基礎的動態數據庫[8]。成都作為西南地區的重要城市,其各方面影響力輻射整個西南地區,四川大學華西醫院作為國家級區域性醫療中心,其建立的華西腸癌數據庫豐富了結直腸癌數據資源,該數據庫收集的各項數據具有地區性特征,利用該數據庫開展的研究,其結果能更好的指導本地區對結直腸癌防治與診療相關問題的探究。
1.2 建立專病數據庫的關鍵點
為保證數據的可利用性、研究結果的科學性與數據庫本身的可持續性,在建設結直腸癌專病數據庫過程中都需要注重以下建設的關鍵點。
1.2.1 數據質量
現在進行臨床數據收集管理通常使用的是電子數據采集系統(electronic data capture system,EDC),并由項目數據調查員通過訪談方式填寫病例報告表(case report form,CRF),采集患者信息,以確保數據的準確性和真實性[9]。不過,雖然標準化的表格可以很大程度上控制數據收集質量與標準化程度,但人工部分仍可能出現偏差,因此需要重視數據調查員上崗前的培訓與考核,盡量確保在進行量表錄入工作時,量表內容可以有效傳達,患者信息能夠準確接收,問卷答案做到真實填寫。同時,在CRF錄入的步驟也需要注意核查功能的嵌入,例如,可在EDC內嵌入進行量表問答時全程錄音的功能,并注意量表中邏輯檢查的設置,同時通過在系統備份所有操作記錄及一些其他方式來實現對這一環節的監管。
1.2.2 隨訪
國內外都有關于結直腸癌隨訪的指南[10-11],但在實際操作中很難完全遵照指南執行,應根據具體的情況和特點結合指南在初期就設計好標準化的隨訪流程與策略,包括但不限于隨訪時間、人群、方式、內容等,并在工作開始后嚴格實施,力求持續關注落實隨訪工作直到計劃的觀察隨訪期結束為止。在隨訪過程中需要注意對患者隨訪依從度的培養,如果出現失訪,需要及時補訪,并分析失訪原因,全面保證隨訪按計劃進行。
1.2.3 數據的協同整合
現在各個結直腸癌專病數據庫基本都是依據自己的需求開發出滿足自己臨床數據收集與管理需求的系統,相對較為孤立[12],若能與包括醫院信息系統(hospital information system,HIS)、實驗室信息管理系統(laboratory information management system,LIS)等醫院的業務信息系統相集成,則可以進一步豐富和完善數據庫,推進各部門各系統的信息共享,打通全生命周期數據鏈條,使所建立的專病數據庫能為臨床的輔助決策和疾病研究提供更全面的更豐富的數據支撐。
1.2.4 數據平臺的構建
平臺的構建主要分橫、縱兩個方面,橫向平臺的構建主要是指數據庫之間的共享,現在國內包括結直腸癌專病數據庫在內的專病數據庫數量持續增多,但多為單中心獨自建設,互相之間數據很少共享[13],因此很難形成規模并建設成平臺,成為具有權威體量的數據庫[14]。 縱向平臺的構建是指在建設結直腸癌專病數據庫時,若搭建起從數據采集、數據標準化及融合、數據管理及使用的全流程平臺,建立數據庫生態,數據的處理和使用效率將大幅度提升。
1.3 困難與挑戰
在結直腸癌專病數據庫逐漸增多,并穩步建立且持續發展的同時,可以預見的困難也隨之出現。
1.3.1 多源異構數據的處理
前文提到過數據的協同整合是一個發展的關鍵點,但其實同樣它也是一個難點,因為在面臨打破數據孤島與醫院其他信息系統進行集成的時候,鑒于目前數據呈現多源異構的特點,醫學方向的自然語言處理技術還不夠完善和成熟,電子病歷的語義分析仍存在改進空間等問題,如何對此類數據進行處理和整合就成了一個挑戰。這個難點的攻破,依賴于數據統籌的安排,數據脫敏等安全技術的發展,數據收集全流程的標準化,以及數據清洗技術的進步[15]。
1.3.2 數據的長期運營與維護
數據庫的長期維護與持續運營發展,是一個隨著時間的推移會逐漸凸顯的問題。 數據庫的建設從一開始就會需要不少人力與經費的投入,需要臨床醫生、護士以及非臨床的研究人員長期的通力配合。另外,鑒于結直腸癌的隨訪特點,對結直腸癌患者的隨訪追蹤時間也較長。數據庫長期可持續的運營發展,是一個難點,需要在數據庫前期建設中進行科學合理的設計,并在發展過程中不斷調整完善,協調統籌人力安排,并對數據庫進行規范的維護與管理,充分發揮數據庫的價值,讓運營成果與投入形成健康良性的循環。
2 對結直腸癌專病數據庫發展的建議
對數據進行標準化治理是關鍵性的工作,如果能把“建立標準化”的意識前置并傾注在全過程管控中,那后期的清洗以及對多源異構數據的標化集成工作都能最大化的減輕,從而提升數據可利用率以及研究效率。
在建設前期應注重以元數據為核心進行數據治理,將醫療機構數據集與國家和醫療行業數據集標準進行整理合并,建立專病數據集標準庫[16]。結合國家、行業標準與所在機構的具體情況建立包括數據元指標、規范化引用文件、術語縮略語、數據元目錄等在內的本地數據元標準庫。在采集過程中,對采集內容、方式、采集設備、數據存儲格式等進行規范,并在采集過程中嚴格進行質控。在開展研究時,科學制定數據申請使用流程。對數據全生命周期進行標準化的管控,包括但不限于數據的規范化分析使用,數據安全管理,數據匯入與銷毀管理等。建立全程的標準化管控規范(圖1)。

3 前景展望
大數據的發展催生出了全球范圍內的技術變革,數據的價值被進一步認可和重視。在結直腸癌專病的研究防治方面,集成數據資源建設數據庫能為對該病種的研究工作提供強大的內生動力。隨著技術的發展革新,結直腸癌專病數據庫建設經驗的不斷累積,目前所面臨的一些困難也必將會成為完成的一個又一個挑戰。專病數據庫建設響應著“價值醫療”號召,是取之于民用之于民的工程,它的價值不在于經濟而在于人民生命健康,研究過程的縮短與研究效率的提升,對應的是患者生命的延長與患病率的下降。在今后的結直腸癌專病數據庫建設中,基于豐富的數據資源,我國的專病數據庫建設將會作出更多引領性的貢獻。
重要聲明
利益沖突聲明: 本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們無相互競爭的利益。
作者貢獻聲明:屈媛圓負責參考文獻查閱與文稿撰寫;高琳娜負責部分文獻檢索;宋歡負責指導與質量控制。