隨著難治性肺結核日益增多,手術輔助治療越來越多被應用[1-3]。其中,就患者隊列而言,從單耐藥至泛耐藥、從空洞、膿胸至毀損肺,手術輔助治療能有效提高痰陽轉陰比例、降低致殘及死亡率[2-4]。就手術方式而言,胸腔鏡與傳統開胸術比,明顯減少了術中出血與術后并發癥,且二者遠期療效相當[5-8]。但世界衛生組織(WHO)指出手術輔助肺結核治療的研究證據級別較低、有待大量病例數據驗證[1]。基于此,亟需涵蓋多中心、海量數據的肺結核外科數據庫系統,進而更好地驗證手術療效。
目前,在傳染病臨床數據庫的構建方面,Shaffer等[9]建立了瘧疾數據庫以及病例報告表(case report form,CRF)采集系統,將數據庫與科研統計較好地進行融合應用;常煒等[10]進一步建立了肺結核外科臨床數據庫系統,數據庫統計條目較為規范且簡潔實用。可通過數據庫導出功能,提高科研數據統計效率,取得了較好的科研成果。但以上數據庫均基于單中心數據,設計條目僅限于結構化的臨床數據,肺結核數據內部真實性及外部驗證仍待完善。美國范德堡大學的Paul Harris等[11]開發了電子數據采集管理(research electronic data capture,REDCap),實現了全球臨床數據共享,且使用者可以根據自身需要搭建個性化數據庫,很好解決了以上臨床數據庫存在的諸多不足[12-14]。其中,Pellison等[14]將其應用于結核病數據管理,并較好地滿足科研數據需要。但該數據庫采集系統為全英文界面,賬號申請較繁瑣,搭建數據庫需要較高的專業水平,且存在信息全球化帶來的安全隱患等不足,在我國仍未得到廣泛推廣。因此,需要開發具有專科屬性的“肺結核外科數據庫系統”。
綜上,本研究搜集了成都市公共衛生臨床醫療中心肺結核外科患者門診及住院相關的臨床數據,形成肺結核外科數據庫采集系統。通過數據導出,實現不同隊列科研數據的自動化采集、提高科研產出效率;并通過數據庫在專科聯盟醫院的部署,規范結核患者病歷數據、進行數據共享,實現區域專科醫院間的科研合作與發展。
1 資料與方法
1.1 臨床資料
患者臨床信息錄入標準的制定:回顧性分析了2017—2023年成都市公共衛生臨床醫療中心胸外科門診或住院患者中確診與臨床診斷肺結核及結核性膿胸患者在內的放射科信息系統(radiology information system,RIS)、醫院信息管理系統(hospital information system,HIS)、影像歸檔和通信系統(picture archiving and communication systems,PACS)、實驗室信息管理系統(laboratory information management system,LIS)病歷數據。本研究組引用了第9版人民衛生出版社《診斷學》、《2022年度WHO全球結核報告》[15]、醫院HIS系統界面,結合臨床實踐與科研需要,討論并通過了數據庫條目的命名設計。此外,診斷為肺結核陽性的“金標準”參考了2017-11-09中華人民共和國衛生行業標準(WS 288—2017)發布的《肺結核診斷》。
1.1.1 患者選擇
為進一步展示數據庫存儲及導出患者臨床數據的功能,將2023年接受手術的肺結核患者進行數據提取,并生成表格(表1)。納入標準:2023年在成都市公共衛生臨床醫療中心胸外科住院的患者,并通過2017-11-09中華人民共和國衛生行業標準(WS 288—2017)發布的《肺結核診斷》確診肺結核伴或不伴有HIV/AIDS患者;(2)排除標準:臨床資料不完善者。最終納入124例。其中,年齡不符合正態分布,中位數(四分位間數)為43(26,56)歲;男86例(69.35%)、女38例(30.65%);結核病合并HIV/AIDS患者占3.23%(4/124)。
1.2 數據庫設計
(1)數據庫設計流程及成果轉化(圖1a)。

a:數據庫設計與應用流程;b:與專科聯盟醫院信息共享流程;RIS:放射科信息系統;HIS:醫院信息管理系統;PACS:影像歸檔和通信系統;LIS:實驗室信息管理系統;CRF:病例報告表
(2)數據庫錄入條目 “肺結核外科數據庫系統”主要使用CouchBase為數據存儲庫,基于數據庫管理系統(Database Management System,DBMS)進行患者信息錄入和管理,搜集了包括住院、門診相關內容,將患者病歷數據分為兩個區域,即“住院”和“門診”。形式方面,兩區域數據均在一張表單進行展示,二者通過黑色虛線進行分隔,方便數據統計以及瀏覽。內容方面,根據HIS系統界面設計,方便數據導入,故兩區域會存在重復數據。重復項目將通過信息同步,從而保證重復項“只填寫一次”,且對應的檢查結果會分開展示。
(3)數據庫屬性設計 根據成都市公共衛生臨床醫療中心信息科提供的數據信息屬性作為對照表,設計出“肺結核外科數據庫系統”相關的字段屬性。為了更好地管理患者信息,給患者信息字段加上單獨的登記號,將真實的數據賦值后存儲。
(4)頁面設計 所有信息以患者的身份證號和登記號作為條件錄入數據,將患者入院時間、入院科室和出院科室等基礎就診記錄存儲到數據庫就診記錄表中;將患者的基礎信息、姓名、年齡、民族、性別、身高體重、血型、聯系電話等信息存儲到數據庫人口學信息表;將患者個人是否吸煙、飲酒、近期用藥信息存儲到數據庫個人史表;將患者其余信息分別存儲到數據庫主訴及現病史表、既往史表、流行病學調查表、體格檢查表、術前方案調整情況表、手術及操作記錄表、術后情況表、出院時療效評價表、出院診斷表、院內出院后嚴重并發癥表等。同理以患者身份證號和登記號作為條件錄入數據,將數據導入對應條目并生成患者人口學信息、主訴和現病史、個人史、既往史、用藥情況、門診醫囑、去向等。
(5)數據庫導入文本信息的結構化處理 通過導入住院和門診患者PACS、HIS、RIS、LIS數據,形成初步的數據庫。臨床醫師在文本數據,即主訴、現病史、既往史、家族史、手術記錄單、出院記錄在內的住院病歷及門診病歷上進行有效字段的標記,并由四川大學計算機學院團隊工作人員通過人工智能輔助的神經網絡機器學習,實現數據結構化。
(6)隨訪功能的數據提取與設計 隨訪數據獨立于住院與門診病歷。為滿足科研隨訪需求,較HIS系統門診界面復雜。數據源于門診、電話、微信用戶隨訪數據。為減少失訪率,數據庫還特別設計了信息提示功能,可提前查看待隨訪患者;還可臨時單獨設計CRF條目,滿足不同科研數據需求;門診、電話或微信患者用戶端隨訪形式根據目的,搜集的數據信息來源包括兩種類型,一是常規隨訪數據信息:所有患者出院后信息均需錄入統一設計的隨訪信息條目。其中,問卷的設計參考國內外已有量表條目、并根據患者自我報告結局測量信息系統(patient-reported outcomes measurement information system,PROMIS)中特征集(Profile)提出的原則進行問卷設計[16-17](圖2);二是CRF表格隨訪數據信息:針對不同科研隊列的需求,量身制作。此外,所有微信患者用戶完成的隨訪數據經前置機外網傳輸入數據庫系統。

(7)操作權限及系統后臺管理 所有科研參與人員根據分工不同,賦予了不同的操作權限。負責標注的科研人員可以對患者信息進行標注并提交,負責審核的科研人員可以對提交的標注表單進行審核,而負責隨訪的科研人員可以對患者術后進行隨訪記錄并在表單記錄信息。管理員可以通過超級管理員賬戶進行賬號權限的新增、修改和刪除,以避免未授權人員更改數據或數據庫結構。
1.3 數據共享流程
成都市公共衛生臨床醫療中心與專科聯盟醫院數據共享流程(圖1b)。數據共享協議簽訂:數據庫尚處于初級階段,除了單中心應用外,需要進行外部驗證。由于我院為西南片區結核病聯盟醫院盟主單位,數據共享方面申請較為快捷。通過院際間數據共享聲明及同意書,達到數據共享目標。
數據共享方式:本數據庫是基于B/S架構,基于醫院信息科前置機,開放端口進行轉發,可以供其他醫院進行訪問,實現專科聯盟醫院間的互聯互通。通過數據庫設定好的數據采集條目,在專科聯盟醫院形成較為規范的臨床路徑。
共享數據基線一致方案:數據庫為保證在專科聯盟醫院中達到數據存儲基線一致原則,在專科聯盟醫院部署同一數據庫系統,并對每家醫院專職人員進行操作培訓。特別是針對非結構化文本數據,除了加強培訓錄入人員之外,待填寫數據對應條目設計規范、易懂、且多采用閉合性問題,即下拉框選擇符合內容。提高了數據錄入效率,并避免了因錄入人員對數據理解不同及術語表述不一,造成數據基線不一致。考慮數據安全等問題,所有共享數據僅終端即成都市公共衛生臨床醫療中心管理員可見,不同專科聯盟醫院之間數據獨立。
1.4 統計學分析
數據庫導出數據將采用SPSS 26.0 軟件。連續變量若呈正態分布,則采用均數±標準差(x±s)表示;若呈偏態分布,則采用中位數(四分位間數)表示;分類變量采用頻數(構成比(%))表示。
1.5 倫理學審查
本研究經成都市公共衛生臨床醫療中心倫理委員會批準(PJ-K2020-54-01)并征得所有患者知情同意。
2 結果
2.1 數據庫首頁
通過納入患者的數據特征,以統計圖的形式進行部分特征展示,如:性別構成比、年齡分布、不同時間跨度下患者數量的統計分布情況。
2.2 用戶權限管理與審核
數據庫的使用權限可根據科研參與人員不同分工,進行用戶權限管理;管理員界面顯示可進行患者分配操作的功能,并可在“任務管理”界面進行查看并進行工作量統計及對已提交數據進行審核工作。
2.3 結構化數據存儲界面
“標注任務”界面展示了已結構化的數據。同時,也可滿足以后新文本數據人工標注工作,進而將其結構化。該界面包含了門診、住院所有數據(圖3)。其中,檢查結果包含了實驗室檢驗數據、影像數據及病理數據。

2.4 隨訪功能區
包含出院患者門診、電話、微信患者用戶問卷調查等形式的數據,登陸數據庫系統后可查看待隨訪患者。隨訪內容包括患者出院后1、3、6、12、24個月隨訪數據、是否帶管或門診拔管時間、出院后各項檢查結果及癥狀好轉情況等信息。對于不同科研需求的CRF表格,隨訪時間和隨訪內容可以自行調整。通過數據庫,將以上隨訪信息進行儲存,形成隨訪數據集并以結構化數據進行存儲。
2.5 已存儲數據查找與導出
“患者列表”可查看已結構化并完成審核的患者。可在列表中手動勾選需要導出數據的病例。根據不同科研需求,也可選擇性勾選需要導出的某些檢查中的某些指標,實現數據的精準化輸出功能(附件圖3)。
2.6 科研CRF表數據
針對不同科研項目可臨時設計不同隊列CRF表格。通過數據庫中結構化數據導出,填寫CRF表對應條目并導出。可在短時間內實現大量、快速、精確的數據信息。將數據信息進行數據導出與分析,如SPSS、R語言等軟件數據分析。通過海量數據統計分析,更好地驗證各種隊列。初期通過此數據庫,完成并發表在《中華結核和呼吸雜志》一篇回顧性原始研究[5]。在此基礎上,經過不斷修正數據庫,單獨將2023年接受手術的肺結核患者進行數據提取,并生成表格(表1)。今后還將抗結核藥物類型與療程與不同手術方式進行大樣本歸納和統計,更好地驗證其手術安全性與有效性。同時,加快數據庫系統專利申報,實現成果轉化。
3 討論
目前,基于一項納入25個國家50個研究的12 030例耐藥肺結核患者的Meta分析,發現藥物治療成功率為61%[18]。手術輔助治療耐藥性肺結核有望提高成功機會,但其缺乏大量證據支持,迫切需要“肺結核外科數據庫系統”將專科醫院共享數據進行海量管理、為相關手術療效提供科學、有效的數據支撐[1]。而有關結核方面的數據庫設計尚處于發展階段,肺結核外科方向的數據庫系統研究較少[10,12,19]。
本研究旨在單中心搜集肺結核外科患者PACS、HIS、RIS、LIS數據,采用字段標記完成數據的結構化。該數據庫系統包含了住院和門診的海量數據信息,實現臨床數據導出、實現科研轉化,并促進數據共享及科研合作。
在傳染病專科數據庫設計方面,常煒等[10]根據自身需要,設計了肺結核外科數據庫。該數據庫系統納入人群為肺結核住院患者圍手術期間相關結構化數據。數據庫界面較為規范、簡潔,涵蓋了患者基本人口學信息、診斷、手術相關數據及患者結核相關檢查結果等。數據庫成功應用于臨床研究,加快了科研產出。而本中心設計的肺結核外科數據庫系統,除了住院數據外,增加了門診及隨訪數據。同時,還將非結構化數據進行結構化處理,并采用人工智能輔助的神經網絡機器學習,擬實現文本數據的結構化。此外,數據庫增加了隨訪功能,且隨訪界面增加了待隨訪提示功能,可減少失訪率。基于以上住院、門診、隨訪數據,更為客觀、全面的實現數據庫智能存儲功能。此外,REDCap同樣成功地將結核病等傳染病病種進行數據管理[12-14]。REDCap為電子數據采集平臺,不同于傳統意義的數據庫系統。使用者可以根據自身需要,在此平臺自行搭建數據庫系統,以滿足自身數據存儲需求。憑借此優勢,該電子數據采集平臺已在全球范圍應用,加快了全球數據共享一體化進程。但考慮到該數據庫采集系統為全英文界面、賬號申請及設計流程較為繁瑣,使得在專科醫院廣泛應用受到限制。此外,數據共享全球化也帶來了數據安全等問題。本中心與四川大學計算機學院聯合開發設計的“肺結核外科數據庫”,促進了區域肺結核外科數據共享。該數據庫為全中文界面,且僅限于國內交流,數據安全性較高。數據庫還可根據不同科研需求,定制CRF表。通過數據庫已存儲的結構化數據,可自動導入CRF表對應的條目。同時,CRF表特有的數據條目,可通過登陸數據庫進入隨訪界面。患者門診就診時,可進行補充填寫。不僅加快了隨訪效率,同時減少了傳統紙質CRF表帶來的資源浪費,便于數據管理。通過以上優勢,該數據庫有望加強本中心與專科聯盟醫院肺結核病例的共享與討論,未來有助于解決我國西部地區肺結核控制不理想的現狀。
目前,該數據庫尚處于設計試驗階段,仍存在一些不足:(1)對于結構化文本數據等工作,尚需進一步增加人工錄入病例數據,提高人工智能數據提取的準確率;(2)數據庫尚在單中心進行使用,待成熟后需進一步在聯盟醫院進行數據驗證;(3)微信隨訪功能尚處于概念設計階段,后續將增加線上隨訪功能,并做好信息安全措施。
利益沖突:無。
作者貢獻:宋毅杰撰寫初稿;徐修遠、王寧、賈霜、袁曄檢索資料并核對;蔣良雙與姚曉軍提出設想,修改論文的關鍵內容并同意論文發表。
隨著難治性肺結核日益增多,手術輔助治療越來越多被應用[1-3]。其中,就患者隊列而言,從單耐藥至泛耐藥、從空洞、膿胸至毀損肺,手術輔助治療能有效提高痰陽轉陰比例、降低致殘及死亡率[2-4]。就手術方式而言,胸腔鏡與傳統開胸術比,明顯減少了術中出血與術后并發癥,且二者遠期療效相當[5-8]。但世界衛生組織(WHO)指出手術輔助肺結核治療的研究證據級別較低、有待大量病例數據驗證[1]。基于此,亟需涵蓋多中心、海量數據的肺結核外科數據庫系統,進而更好地驗證手術療效。
目前,在傳染病臨床數據庫的構建方面,Shaffer等[9]建立了瘧疾數據庫以及病例報告表(case report form,CRF)采集系統,將數據庫與科研統計較好地進行融合應用;常煒等[10]進一步建立了肺結核外科臨床數據庫系統,數據庫統計條目較為規范且簡潔實用。可通過數據庫導出功能,提高科研數據統計效率,取得了較好的科研成果。但以上數據庫均基于單中心數據,設計條目僅限于結構化的臨床數據,肺結核數據內部真實性及外部驗證仍待完善。美國范德堡大學的Paul Harris等[11]開發了電子數據采集管理(research electronic data capture,REDCap),實現了全球臨床數據共享,且使用者可以根據自身需要搭建個性化數據庫,很好解決了以上臨床數據庫存在的諸多不足[12-14]。其中,Pellison等[14]將其應用于結核病數據管理,并較好地滿足科研數據需要。但該數據庫采集系統為全英文界面,賬號申請較繁瑣,搭建數據庫需要較高的專業水平,且存在信息全球化帶來的安全隱患等不足,在我國仍未得到廣泛推廣。因此,需要開發具有專科屬性的“肺結核外科數據庫系統”。
綜上,本研究搜集了成都市公共衛生臨床醫療中心肺結核外科患者門診及住院相關的臨床數據,形成肺結核外科數據庫采集系統。通過數據導出,實現不同隊列科研數據的自動化采集、提高科研產出效率;并通過數據庫在專科聯盟醫院的部署,規范結核患者病歷數據、進行數據共享,實現區域專科醫院間的科研合作與發展。
1 資料與方法
1.1 臨床資料
患者臨床信息錄入標準的制定:回顧性分析了2017—2023年成都市公共衛生臨床醫療中心胸外科門診或住院患者中確診與臨床診斷肺結核及結核性膿胸患者在內的放射科信息系統(radiology information system,RIS)、醫院信息管理系統(hospital information system,HIS)、影像歸檔和通信系統(picture archiving and communication systems,PACS)、實驗室信息管理系統(laboratory information management system,LIS)病歷數據。本研究組引用了第9版人民衛生出版社《診斷學》、《2022年度WHO全球結核報告》[15]、醫院HIS系統界面,結合臨床實踐與科研需要,討論并通過了數據庫條目的命名設計。此外,診斷為肺結核陽性的“金標準”參考了2017-11-09中華人民共和國衛生行業標準(WS 288—2017)發布的《肺結核診斷》。
1.1.1 患者選擇
為進一步展示數據庫存儲及導出患者臨床數據的功能,將2023年接受手術的肺結核患者進行數據提取,并生成表格(表1)。納入標準:2023年在成都市公共衛生臨床醫療中心胸外科住院的患者,并通過2017-11-09中華人民共和國衛生行業標準(WS 288—2017)發布的《肺結核診斷》確診肺結核伴或不伴有HIV/AIDS患者;(2)排除標準:臨床資料不完善者。最終納入124例。其中,年齡不符合正態分布,中位數(四分位間數)為43(26,56)歲;男86例(69.35%)、女38例(30.65%);結核病合并HIV/AIDS患者占3.23%(4/124)。
1.2 數據庫設計
(1)數據庫設計流程及成果轉化(圖1a)。

a:數據庫設計與應用流程;b:與專科聯盟醫院信息共享流程;RIS:放射科信息系統;HIS:醫院信息管理系統;PACS:影像歸檔和通信系統;LIS:實驗室信息管理系統;CRF:病例報告表
(2)數據庫錄入條目 “肺結核外科數據庫系統”主要使用CouchBase為數據存儲庫,基于數據庫管理系統(Database Management System,DBMS)進行患者信息錄入和管理,搜集了包括住院、門診相關內容,將患者病歷數據分為兩個區域,即“住院”和“門診”。形式方面,兩區域數據均在一張表單進行展示,二者通過黑色虛線進行分隔,方便數據統計以及瀏覽。內容方面,根據HIS系統界面設計,方便數據導入,故兩區域會存在重復數據。重復項目將通過信息同步,從而保證重復項“只填寫一次”,且對應的檢查結果會分開展示。
(3)數據庫屬性設計 根據成都市公共衛生臨床醫療中心信息科提供的數據信息屬性作為對照表,設計出“肺結核外科數據庫系統”相關的字段屬性。為了更好地管理患者信息,給患者信息字段加上單獨的登記號,將真實的數據賦值后存儲。
(4)頁面設計 所有信息以患者的身份證號和登記號作為條件錄入數據,將患者入院時間、入院科室和出院科室等基礎就診記錄存儲到數據庫就診記錄表中;將患者的基礎信息、姓名、年齡、民族、性別、身高體重、血型、聯系電話等信息存儲到數據庫人口學信息表;將患者個人是否吸煙、飲酒、近期用藥信息存儲到數據庫個人史表;將患者其余信息分別存儲到數據庫主訴及現病史表、既往史表、流行病學調查表、體格檢查表、術前方案調整情況表、手術及操作記錄表、術后情況表、出院時療效評價表、出院診斷表、院內出院后嚴重并發癥表等。同理以患者身份證號和登記號作為條件錄入數據,將數據導入對應條目并生成患者人口學信息、主訴和現病史、個人史、既往史、用藥情況、門診醫囑、去向等。
(5)數據庫導入文本信息的結構化處理 通過導入住院和門診患者PACS、HIS、RIS、LIS數據,形成初步的數據庫。臨床醫師在文本數據,即主訴、現病史、既往史、家族史、手術記錄單、出院記錄在內的住院病歷及門診病歷上進行有效字段的標記,并由四川大學計算機學院團隊工作人員通過人工智能輔助的神經網絡機器學習,實現數據結構化。
(6)隨訪功能的數據提取與設計 隨訪數據獨立于住院與門診病歷。為滿足科研隨訪需求,較HIS系統門診界面復雜。數據源于門診、電話、微信用戶隨訪數據。為減少失訪率,數據庫還特別設計了信息提示功能,可提前查看待隨訪患者;還可臨時單獨設計CRF條目,滿足不同科研數據需求;門診、電話或微信患者用戶端隨訪形式根據目的,搜集的數據信息來源包括兩種類型,一是常規隨訪數據信息:所有患者出院后信息均需錄入統一設計的隨訪信息條目。其中,問卷的設計參考國內外已有量表條目、并根據患者自我報告結局測量信息系統(patient-reported outcomes measurement information system,PROMIS)中特征集(Profile)提出的原則進行問卷設計[16-17](圖2);二是CRF表格隨訪數據信息:針對不同科研隊列的需求,量身制作。此外,所有微信患者用戶完成的隨訪數據經前置機外網傳輸入數據庫系統。

(7)操作權限及系統后臺管理 所有科研參與人員根據分工不同,賦予了不同的操作權限。負責標注的科研人員可以對患者信息進行標注并提交,負責審核的科研人員可以對提交的標注表單進行審核,而負責隨訪的科研人員可以對患者術后進行隨訪記錄并在表單記錄信息。管理員可以通過超級管理員賬戶進行賬號權限的新增、修改和刪除,以避免未授權人員更改數據或數據庫結構。
1.3 數據共享流程
成都市公共衛生臨床醫療中心與專科聯盟醫院數據共享流程(圖1b)。數據共享協議簽訂:數據庫尚處于初級階段,除了單中心應用外,需要進行外部驗證。由于我院為西南片區結核病聯盟醫院盟主單位,數據共享方面申請較為快捷。通過院際間數據共享聲明及同意書,達到數據共享目標。
數據共享方式:本數據庫是基于B/S架構,基于醫院信息科前置機,開放端口進行轉發,可以供其他醫院進行訪問,實現專科聯盟醫院間的互聯互通。通過數據庫設定好的數據采集條目,在專科聯盟醫院形成較為規范的臨床路徑。
共享數據基線一致方案:數據庫為保證在專科聯盟醫院中達到數據存儲基線一致原則,在專科聯盟醫院部署同一數據庫系統,并對每家醫院專職人員進行操作培訓。特別是針對非結構化文本數據,除了加強培訓錄入人員之外,待填寫數據對應條目設計規范、易懂、且多采用閉合性問題,即下拉框選擇符合內容。提高了數據錄入效率,并避免了因錄入人員對數據理解不同及術語表述不一,造成數據基線不一致。考慮數據安全等問題,所有共享數據僅終端即成都市公共衛生臨床醫療中心管理員可見,不同專科聯盟醫院之間數據獨立。
1.4 統計學分析
數據庫導出數據將采用SPSS 26.0 軟件。連續變量若呈正態分布,則采用均數±標準差(x±s)表示;若呈偏態分布,則采用中位數(四分位間數)表示;分類變量采用頻數(構成比(%))表示。
1.5 倫理學審查
本研究經成都市公共衛生臨床醫療中心倫理委員會批準(PJ-K2020-54-01)并征得所有患者知情同意。
2 結果
2.1 數據庫首頁
通過納入患者的數據特征,以統計圖的形式進行部分特征展示,如:性別構成比、年齡分布、不同時間跨度下患者數量的統計分布情況。
2.2 用戶權限管理與審核
數據庫的使用權限可根據科研參與人員不同分工,進行用戶權限管理;管理員界面顯示可進行患者分配操作的功能,并可在“任務管理”界面進行查看并進行工作量統計及對已提交數據進行審核工作。
2.3 結構化數據存儲界面
“標注任務”界面展示了已結構化的數據。同時,也可滿足以后新文本數據人工標注工作,進而將其結構化。該界面包含了門診、住院所有數據(圖3)。其中,檢查結果包含了實驗室檢驗數據、影像數據及病理數據。

2.4 隨訪功能區
包含出院患者門診、電話、微信患者用戶問卷調查等形式的數據,登陸數據庫系統后可查看待隨訪患者。隨訪內容包括患者出院后1、3、6、12、24個月隨訪數據、是否帶管或門診拔管時間、出院后各項檢查結果及癥狀好轉情況等信息。對于不同科研需求的CRF表格,隨訪時間和隨訪內容可以自行調整。通過數據庫,將以上隨訪信息進行儲存,形成隨訪數據集并以結構化數據進行存儲。
2.5 已存儲數據查找與導出
“患者列表”可查看已結構化并完成審核的患者。可在列表中手動勾選需要導出數據的病例。根據不同科研需求,也可選擇性勾選需要導出的某些檢查中的某些指標,實現數據的精準化輸出功能(附件圖3)。
2.6 科研CRF表數據
針對不同科研項目可臨時設計不同隊列CRF表格。通過數據庫中結構化數據導出,填寫CRF表對應條目并導出。可在短時間內實現大量、快速、精確的數據信息。將數據信息進行數據導出與分析,如SPSS、R語言等軟件數據分析。通過海量數據統計分析,更好地驗證各種隊列。初期通過此數據庫,完成并發表在《中華結核和呼吸雜志》一篇回顧性原始研究[5]。在此基礎上,經過不斷修正數據庫,單獨將2023年接受手術的肺結核患者進行數據提取,并生成表格(表1)。今后還將抗結核藥物類型與療程與不同手術方式進行大樣本歸納和統計,更好地驗證其手術安全性與有效性。同時,加快數據庫系統專利申報,實現成果轉化。
3 討論
目前,基于一項納入25個國家50個研究的12 030例耐藥肺結核患者的Meta分析,發現藥物治療成功率為61%[18]。手術輔助治療耐藥性肺結核有望提高成功機會,但其缺乏大量證據支持,迫切需要“肺結核外科數據庫系統”將專科醫院共享數據進行海量管理、為相關手術療效提供科學、有效的數據支撐[1]。而有關結核方面的數據庫設計尚處于發展階段,肺結核外科方向的數據庫系統研究較少[10,12,19]。
本研究旨在單中心搜集肺結核外科患者PACS、HIS、RIS、LIS數據,采用字段標記完成數據的結構化。該數據庫系統包含了住院和門診的海量數據信息,實現臨床數據導出、實現科研轉化,并促進數據共享及科研合作。
在傳染病專科數據庫設計方面,常煒等[10]根據自身需要,設計了肺結核外科數據庫。該數據庫系統納入人群為肺結核住院患者圍手術期間相關結構化數據。數據庫界面較為規范、簡潔,涵蓋了患者基本人口學信息、診斷、手術相關數據及患者結核相關檢查結果等。數據庫成功應用于臨床研究,加快了科研產出。而本中心設計的肺結核外科數據庫系統,除了住院數據外,增加了門診及隨訪數據。同時,還將非結構化數據進行結構化處理,并采用人工智能輔助的神經網絡機器學習,擬實現文本數據的結構化。此外,數據庫增加了隨訪功能,且隨訪界面增加了待隨訪提示功能,可減少失訪率。基于以上住院、門診、隨訪數據,更為客觀、全面的實現數據庫智能存儲功能。此外,REDCap同樣成功地將結核病等傳染病病種進行數據管理[12-14]。REDCap為電子數據采集平臺,不同于傳統意義的數據庫系統。使用者可以根據自身需要,在此平臺自行搭建數據庫系統,以滿足自身數據存儲需求。憑借此優勢,該電子數據采集平臺已在全球范圍應用,加快了全球數據共享一體化進程。但考慮到該數據庫采集系統為全英文界面、賬號申請及設計流程較為繁瑣,使得在專科醫院廣泛應用受到限制。此外,數據共享全球化也帶來了數據安全等問題。本中心與四川大學計算機學院聯合開發設計的“肺結核外科數據庫”,促進了區域肺結核外科數據共享。該數據庫為全中文界面,且僅限于國內交流,數據安全性較高。數據庫還可根據不同科研需求,定制CRF表。通過數據庫已存儲的結構化數據,可自動導入CRF表對應的條目。同時,CRF表特有的數據條目,可通過登陸數據庫進入隨訪界面。患者門診就診時,可進行補充填寫。不僅加快了隨訪效率,同時減少了傳統紙質CRF表帶來的資源浪費,便于數據管理。通過以上優勢,該數據庫有望加強本中心與專科聯盟醫院肺結核病例的共享與討論,未來有助于解決我國西部地區肺結核控制不理想的現狀。
目前,該數據庫尚處于設計試驗階段,仍存在一些不足:(1)對于結構化文本數據等工作,尚需進一步增加人工錄入病例數據,提高人工智能數據提取的準確率;(2)數據庫尚在單中心進行使用,待成熟后需進一步在聯盟醫院進行數據驗證;(3)微信隨訪功能尚處于概念設計階段,后續將增加線上隨訪功能,并做好信息安全措施。
利益沖突:無。
作者貢獻:宋毅杰撰寫初稿;徐修遠、王寧、賈霜、袁曄檢索資料并核對;蔣良雙與姚曉軍提出設想,修改論文的關鍵內容并同意論文發表。