• 中國醫學科學院/北京協和醫學院醫學信息研究所(北京 100020);
導出 下載 收藏 掃碼 引用

目的 構建面向疾病風險智能預測研究全生命周期的電子病歷數據質量需求模型,為電子病歷數據集質量建設和評價體系構建提供參考。方法 以機器學習全生命周期為過程,進行電子病歷數據質量需求分析。首先通過文獻內容分析,歸納疾病風險智能預測模型構建研究過程各階段所涉及的主要數據活動;然后根據各階段所采取的數據活動識別對電子病歷數據質量的具體需求;最后對各階段的具體質量需求進行聚類,形成質量需求維度。結果 構建了一個環形的面向疾病風險智能預測研究過程的電子病歷數據質量需求模型。模型內核為數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用7個核心任務階段;中間為各階段的主要數據活動;外圍為可操作性、完整性、準確性、時效性4個核心質量需求維度。結論 構建的模型能夠為真實世界電子病歷數據治理和質量建設提供參考,助力其向真實世界證據的轉變。