“健康中國2030”戰略與行動強調衛生保健預防為主、關口前移。要求在防治疾病的過程中必須掌握疾病的發生、發展規律及其轉變途徑,而疾病風險智能預測則為早期診斷、治療的相關研究提供了研究思路[1]。疾病風險智能預測是指利用數學模型智能評估特定個體當前患某病或將來發生某結局的概率[2],并在當前健康預測與預警[3]、精準醫學[4]等方面都取得了一定的研究進展。疾病風險智能預測相關研究多基于真實世界數據。電子病歷數據作為真實世界數據的重要組成部分[5],已成為臨床疾病風險智能預測研究的重要數據來源。電子病歷數據涵蓋了豐富的臨床數據和經驗,在真實世界研究的多個領域具有一定的應用潛力[6],為獲得準確可靠的真實世界研究結果,作為應用基礎,電子病歷數據不僅需要完成“量”的積累,還要在一定程度上達到“質”的標準[7]。而目前的電子病歷數據存在數據不完整[8]、數據不完全[9]等問題。數據質量問題成為電子病歷數據支撐真實世界研究的一個短板[10]。
如何評估電子病歷的數據質量,完善并保障電子病歷數據質量符合真實世界研究要求成為了目前研究者們關注的熱點問題。Johnson等[7]通過文獻調研法開發了醫療數據質量本體,從而實現了對電子病歷數據質量的自動化評估。呂旭東團隊[11]在文獻調研的基礎上,不僅對電子病歷數據質量指標定性,還進行了量化計算,構建了量化的臨床數據質量評價體系。Weiskopf等[12]構建的電子病歷數據質量評價體系則是在文獻調研定性和量化計算的基礎上,進一步參考了臨床專家的審查意見。然而目前電子病歷數據質量評價研究大多以結果為導向,忽視了應用任務過程中各階段數據活動對電子病歷數據質量需求的差異性[13]。
對此,本文基于機器學習的疾病風險智能預測模型構建研究過程視角,歸納疾病風險智能預測研究全生命周期各階段任務所需要執行的數據活動及其質量目標,并據此反推其對電子病歷數據的質量需求,構建了該類智能技術研究任務的電子病歷數據質量需求模型。
1 資料與方法
1.1 研究基礎
1.1.1 機器學習全生命周期管理模型
機器學習全生命周期管理模型可以幫助研發人員更好地管理數據和模型的全部工作流[14]。從產品化角度來看,機器學習全生命周期模型大致可以分為4個核心步驟:數據、模型、評估和生產[15]。在現實情況下,數據、模型與評估這3個步驟在生產之前會一直循環,使用模型結果與評估結論不斷優化數據集,而高質量的數據集也是訓練高質量模型的保障。從研發角度看,機器學習全生命周期模型是一個建立高效機器學習項目的循環過程[16],包含7個核心步驟:收集數據、數據準備、數據整理、分析數據、訓練模型、測試模型和部署。
在我國,對人工智能相關的政策和標準中已經提出機器學習全生命周期管理的理念要求。如國家藥監局在2022年3月初發布的《人工智能醫療器械注冊審查指導原則》[17]中提到人工智能醫療器械生存周期過程,并以當前人工智能醫療器械主流算法的監督學習為例,提出對有監督學習的人工智能器械生存周期過程質控要求,包括需求分析、數據收集、算法設計、驗證與確認、更新控制5個階段。國家藥品監督管理局制定的《深度學習輔助決策醫療器械軟件審評要點》[18]中指出基于風險的全生命周期管理類軟件設計開發過程通常應分為需求分析、數據收集、算法設計、驗證與確認等階段。
盡管機器學習全生命周期管理模型還不成熟,但現有研究與實踐開始涉足兼顧數據和模型兩個方面,能夠為從疾病智能預測研究過程視角進行電子病歷數據質量需求分析提供理論基礎和思路。
1.1.2 電子病歷數據質量評價
當前電子病歷數據質量評價研究主要集中于兩個研究場景。一是側重于電子病歷數據生產與后處理階段的質量控制,主要解決的是電子病歷錄入或處理階段可能出現的質量問題,如完整性、準確性(如異常值或者錯誤值等)、標準化與互操作等問題[19-21]。二是側重于電子病歷數據使用階段的質量評估,主要解決的是電子病歷數據可用性或重用性問題[19]。本研究屬于第二類研究場景。
在電子病歷數據使用階段的質量評估體系的研究中,雖然不同學者所提出的評價維度名稱和定義稍有不同,但整體集中在完整性、準確性、一致性、合理性、時效性等維度 [11,21-22]。就研究方法而言,質量評估體系主要采取文獻調研[11,21]和專家咨詢[22-23]等方法建立,研究成果具有一定的權威性和可用性。然而不足的是,現有評估體系主要是結果導向,并未與特定應用過程關聯。具體到疾病智能預測研究,現有電子病歷數據質量評估指標體系難以對模型構建研究全周期、全階段覆蓋。
1.2 納入與排除標準
納入標準:① 研究主題為疾病風險預測;② 研究數據為電子病歷;③ 預測方法為機器學習范疇。
排除標準:① 綜述類研究;② 重復發表的文獻;③ 無法獲取全文的文獻。
1.3 文獻檢索策略
計算機檢索PubMed和CNKI數據庫,檢索時限為建庫至2021年9月27日。檢索采用主題詞與自由詞相結合的方式,英文檢索詞包括:machine learning、electronic medical record、disease prediction等;中文檢索詞包括:疾病預測、電子病歷等。
1.4 需求模型構建過程
首先,根據以研發為導向的機器學習全生命周期管理模型,確定基于電子病歷的機器學習疾病風險預測研究過程的任務階段。其次,通過文獻調研,分析各任務階段包含的子任務和涉及的主要數據活動。選取有代表性的文獻,主要圍繞各子任務的處理目標、處理操作和處理對象開展數據活動分析,其中處理目標是關于子任務處理數據活動的實施目的;處理操作是為達成處理目標所需要的處理流程;處理對象關注處理操作過程面向的數據對象。再次,將通過文獻分析得到的數據活動映射到電子病歷數據質量的具體需求,并對具體需求進行聚類,形成最終的質量需求維度。最后,基于分析得出的質量需求維度與各任務階段對應的具體質量需求,確立面向疾病智能預測過程的電子病歷數據質量需求模型。詳見圖1。

2 結果
2.1 文獻篩選流程及結果
初檢共獲得549篇文獻,其中PubMed(n=509),CNKI(n=40)篇。經逐層篩選后,最終納入260篇文獻。
2.2 各任務階段及其主要涉及的數據活動
本文根據以研發為導向的機器學習全生命周期管理模型,結合利用電子病歷的疾病智能風險預測文獻,確定基于電子病歷的機器學習疾病風險預測研究過程可分為7個階段:數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用。通過分析納入文獻,特別是歸納有代表性的研究中所涉及的數據活動,7個階段可以拆解為數個子任務,每個子任務圍繞處理目標、處理操作、處理對象進行數據活動的歸納,并且體現每項數據活動的關鍵文獻出處。
2.2.1 數據采集
可以分解為選取數據采集內容和采集數據2個子任務階段。由于電子病歷涵蓋的內容龐大,數據存在形式多樣,根據疾病風險預測的目標不同,研究者設計的數據采集方案不盡相同。表1對選取數據采集內容和采集數據2個子任務階段的通用處理目標、操作和對象進行了概括[24-31]。

選取數據采集內容任務有4個處理目標,分別是確定結構化數據采集內容、確定非結構化數據采集內容、確定樣本抽取方案以及確定數據初篩方案。結構化數據主要包括患者基本信息、既往病史、診斷記錄、實驗室檢查報告等。非結構化數據包括自由文本格式的診斷記錄、圖表形式的檢驗報告、醫學影像等內容。確定樣本抽取方案是為了確定數據代表人群與源人群一致,使得樣本具有代表性,增強模型泛化能力。由于電子病歷數據內容龐大,特征變量數量巨大,同時一些電子病歷質量較低,因此需要對電子病歷數據進行初篩,將符合要求的電子病歷數據記錄納入到模型構建數據集中。
采集數據分為3個子任務,分別是鏈接讀取合并電子病歷數據、整合其他來源的數據、數據脫敏。整合其他來源的數據是研究設計中的特定處理步驟,尤其是對于一些慢性疾病,需要補充長期的數據記錄,因此需要與社區健康記錄等其他來源的數據進行合并,才能獲得較為全面的數據集。
2.2.2 數據預處理
直接采集的電子病歷數據可能存在不完整、冗余和模糊等問題,難以直接滿足疾病風險智能預測訓練模型的要求。此外,大量已存在的數據中無意義的成分很多,這也嚴重影響了預測模型的執行效率,特別是數據中的噪音干擾還可能會造成數據挖掘結果的偏倚。因此,對粗糙的原始數據進行有效的預處理,已經成為疾病風險預測實現過程中的關鍵問題。
數據預處理可以分解為數據清洗、數據集成、數據轉換、數據縮減、處理工具和環境配置以及數據標注6個子任務,詳見表2,其中前4個任務為主要任務[25,27,29,31-39]。經調研內容分析,數據清洗有4個處理目標,分別是缺失值填補、異常值處理、去除重復數據、檢驗數據一致性。數據集成有3個處理目標,分別是基線特征選取、數據納入排除、數據集成。數據轉換有3個處理目標,分別是歸一化、數據聚合、數據泛化。數據縮減是指經過數據清洗、數據轉換和數據集成等操作之后,為了降維減少建模成本而進行的刪除冗余記錄和變量。學習模型的構建需要建立在一定的系統環境中進行,某些類型的機器學習模型,尤其是深度學習模型,需要較強的環境算力。數據處理和清洗應當明確選用軟件工具的名稱、型號規格、完整版本、運行環境、確認等要求,同時考慮數據處理選用方法對軟件的影響及其風險,同時基于有監督的機器學習方法的疾病風險智能預測研究需要保證電子病歷是已經具有特征標簽的數據,因此往往需要人工進行數據標注。

2.2.3 特征表示
是指選擇合適的特征表示方法為預測建模奠定基礎。可以用于疾病風險預測的電子病歷數據類型多樣,包含了文字、表格、圖形、影像等類型的數據,但是不同類型的數據原始特征的空間不同,例如1張圖像(像素的數量為n)的特征空間為[0,255]n,1個自然語言句子(長度為L)的特征空間為|V|L,其中V為詞表集合,然而很多算法要求輸入的特征是數學上可計算的,因此在機器學習之前通常需要將這些不同類型的數據轉換為向量表示[29]。也就是說,根據輸入數據和訓練模型的類型不同,需要把數據轉化為機器可以在原始特征空間或不同維度特征空間做矩陣運算的特征表示[28,34]。詳見表3。

2.2.4 特征選擇與提取
特征選擇是選取原始特征集合的一個有效子集,使得基于這個特征子集訓練出來的模型準確率最高,而特征提取是構造一個新的特征空間,并將原始特征投影在新的空間中。特征選擇和提取都可以用較少的特征來表示電子病歷原始特征中的大部分相關信息,去掉噪聲信息,進而提高計算效率。
最常用的特征選擇操作為子集搜索,如前向搜索:由空集合開始,每一輪添加該輪最優的特征;反向搜索:從原始特征集合開始,每次刪除最無用的特征,選擇一個最優的候選子集。特征抽取則可分為有監督和無監督的兩種方法,前者目標是抽取對預測目標最有用的特征,常用的方法有線性判別式等;后者目標是減少冗余信息和噪聲,常用的方法為主成分分析等[29,32]。見表4。

2.2.5 模型訓練
針對疾病風險預測的目標,需要選擇某種或某些合適算法構建機器學習模型,疾病智能預測研究作為常見的分類問題,其模型選擇性很廣。訓練模型的整個周期大多需要進行多次迭代,同時要跟蹤不同版本的模型以及適時調整訓練的超參數,例如神經網絡中的權重w和偏置b,支持向量機中的支持向量,線性回歸或邏輯回歸中的系數等。
2.2.6 模型評估與優化
模型構建之后往往并不能一步到位得到最好的性能,還需要對模型進行評估和優化從而提高模型的性能。疾病風險預測模型的評估指標一般以性能指標和分類指標為主,包括曲線下面積(area under curve,AUC)值、F1分數(F1 score)、精確度(precision)、召回率(recall)等。根據疾病風險預測目標不同,需要選擇最適合支持決策的評估指標對模型進行評估。模型優化的方法包括異常值分析、模型集成等。在不同的研究中,研究者根據研究設計采取不同的模型優化方案。
2.2.7 模型應用
將訓練好的模型應用于新的電子病歷數據集,此時新的數據集也需要經過數據采集、數據預處理等過程。要獲得一個準確的疾病風險預測結果,不僅需要一個性能良好的模型,還需要保證新的數據集質量能達到同樣的質量要求。
2.3 面向疾病風險智能預測研究的電子病歷數據質量需求模型
根據上述數據活動可映射出7個任務階段對電子病歷數據的具體質量需求,如“數據無前后矛盾的表述”、“時間信息完整”、“數據表達符合專業預期”等,完整結果如表5所示。

基于數據的具體質量需求,可進一步提煉4類高層次質量需求維度:可操作性、完整性、準確性和時效性。可操作性定義為數據是否可以進行順利構建和應用預測模型。完整性定義為數據的完整程度,包括數據元、數據元取值、數據狀態信息等的完整。準確性是指數據是否準確反映所記錄的臨床事實。時效性是指數據時間信息是否完整及數據的實時、及時的程度。同一具體需求可能以不同的形式表現在各個階段的數據處理活動當中,但都體現了同一類的質量需求維度。
圖2是對表5的簡化,展示一個環形的面向疾病風險智能預測研究過程的電子病歷數據質量需求模型;模型內核為數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用7個核心任務階段;中間為各階段的主要數據活動的具體需求;外圍為可操作性、完整性、準確性、時效性4個核心質量需求維度。

3 討論
本研究目標是歸納滿足基于機器學習的疾病風險預測研究活動需要的電子病歷數據應具備的質量特征或達到的質量要求。整個分析在疾病風險預測研究框架下進行,且面向機器學習全生命周期。
相較于現有機器學習全生命周期管理模型沒有詳細闡述每一階段具體對應的數據操作和數據質量需求,本研究對基于機器學習的疾病風險預測研究整個過程所涉及的主要任務階段逐一進行數據活動和數據具體質量需求分析。基于電子病歷的機器學習疾病風險預測整個過程所涉及的主要任務階段最終歸納為數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用7個任務階段,其中大部分臨床決策支持研究主要涉及前面4個任務階段,也是本研究關注的焦點。本研究在數據采集階段下歸納出7個數據活動和27個數據需求;在數據預處理階段歸納了13個數據活動和29個數據需求;特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用的關鍵需求是保障電子病歷數據可隨時調用,從而保障學習算法的流程可以正常進行。
需要說明的是,圖2是一個簡化版環形的面向疾病風險智能預測研究過程的電子病歷數據質量需求模型,重點是想凸顯過程的重要性。此外,該模型是可擴展的,可以根據疾病智能預測研究階段細化需要在內環增加子階段,在中間增加對應的具體質量需求,在外圍增加高層級質量需求維度。
本文提出的需求模型根據電子病歷數據在機器學習全生命周期的活動過程,概括了4類質量需求維度,分別為可操作性、完整性、準確性和時效性。在該需求模型中,可操作性是指數據是否可以進行順利操作構建和應用預測模型,專門針對人工智能相關模型的電子病歷數據質量需求。可操作性不僅體現在模型階段,在數據采集階段也有體現,如在鏈接讀取電子病歷數據活動時,環境配置是否滿足要求;以及在整合其他來源數據活動中,保證電子病歷數據和外源數據可獲取,兩者都屬于數據可操作性需求。
除了可操作性,完整性、準確性和時效性這3個質量需求維度與Johnson提出的電子病歷數據質量本體4個高級數據質量維度正確性、一致性、完整性和時效性基本一致[7],與Weiskopf在2012年所發表的文獻中提出的5個數據質量維度完整性、正確性、一致性、合理性和時效性相對應[22],也基本引證了Kahn提出的電子病歷數據質量評價維度,一致性、完整性以及合理性[23],與國內學者袁莎在2020年的研究成果中提出的數據的準確性、完整性、一致性和時效性相符合[40],從而側面論證了需求模型是數據質量評價指標體系確立的基礎。
需求模型也是數據質量評價指標體系的指導方向。如在本文提出的需求模型中,定義結局變量的特征完整、數據量和特征充足是保證機器學習疾病風險預測模型構建的重要需求,應納入完整性的指標分類中去評價,與呂旭東等[11]對電子病歷數據質量評價體系中關于完整性的定義整體一致,是對Weiskopf等[22]完整性定義的進一步具化。
本文提出的質量需求模型是對現今電子病歷數據質量評價較少考慮人工智能技術的個性化應用特性需求的補充。同時,該需求模型也有一些局限性:首先本文僅檢索PubMed和CNKI數據庫,可能并未覆蓋所有符合納入標準的文獻;其次本文提出的模型聚焦算法需求,在模型的架構上并未過多考慮臨床視角以及電子病歷系統的現狀;該模型聚焦數據的邏輯結構,并沒有考慮物理存儲的結構需求等。未來擬在現有基礎上,結合現有電子病歷數據治理、人工智能軟件產品等相關政策與標準規范,構建電子病歷數據實用性評估指標體系以及后續相關實證研究。
本文詳細介紹了面向疾病風險智能預測研究過程的電子病歷數據質量需求模型分析過程,以機器學習全生命周期模型為基礎并運用了文獻分析法,從機器學習疾病預測流程出發,疾病風險預測為結果,歸納出7個任務階段和4個質量需求維度,最終形成面向疾病風險智能預測研究過程的電子病歷數據質量需求模型。這不僅豐富了現有電子病歷數據質量框架研究成果,也為后續據此構建的適用性指標體系的業務相關性提供了基礎。
“健康中國2030”戰略與行動強調衛生保健預防為主、關口前移。要求在防治疾病的過程中必須掌握疾病的發生、發展規律及其轉變途徑,而疾病風險智能預測則為早期診斷、治療的相關研究提供了研究思路[1]。疾病風險智能預測是指利用數學模型智能評估特定個體當前患某病或將來發生某結局的概率[2],并在當前健康預測與預警[3]、精準醫學[4]等方面都取得了一定的研究進展。疾病風險智能預測相關研究多基于真實世界數據。電子病歷數據作為真實世界數據的重要組成部分[5],已成為臨床疾病風險智能預測研究的重要數據來源。電子病歷數據涵蓋了豐富的臨床數據和經驗,在真實世界研究的多個領域具有一定的應用潛力[6],為獲得準確可靠的真實世界研究結果,作為應用基礎,電子病歷數據不僅需要完成“量”的積累,還要在一定程度上達到“質”的標準[7]。而目前的電子病歷數據存在數據不完整[8]、數據不完全[9]等問題。數據質量問題成為電子病歷數據支撐真實世界研究的一個短板[10]。
如何評估電子病歷的數據質量,完善并保障電子病歷數據質量符合真實世界研究要求成為了目前研究者們關注的熱點問題。Johnson等[7]通過文獻調研法開發了醫療數據質量本體,從而實現了對電子病歷數據質量的自動化評估。呂旭東團隊[11]在文獻調研的基礎上,不僅對電子病歷數據質量指標定性,還進行了量化計算,構建了量化的臨床數據質量評價體系。Weiskopf等[12]構建的電子病歷數據質量評價體系則是在文獻調研定性和量化計算的基礎上,進一步參考了臨床專家的審查意見。然而目前電子病歷數據質量評價研究大多以結果為導向,忽視了應用任務過程中各階段數據活動對電子病歷數據質量需求的差異性[13]。
對此,本文基于機器學習的疾病風險智能預測模型構建研究過程視角,歸納疾病風險智能預測研究全生命周期各階段任務所需要執行的數據活動及其質量目標,并據此反推其對電子病歷數據的質量需求,構建了該類智能技術研究任務的電子病歷數據質量需求模型。
1 資料與方法
1.1 研究基礎
1.1.1 機器學習全生命周期管理模型
機器學習全生命周期管理模型可以幫助研發人員更好地管理數據和模型的全部工作流[14]。從產品化角度來看,機器學習全生命周期模型大致可以分為4個核心步驟:數據、模型、評估和生產[15]。在現實情況下,數據、模型與評估這3個步驟在生產之前會一直循環,使用模型結果與評估結論不斷優化數據集,而高質量的數據集也是訓練高質量模型的保障。從研發角度看,機器學習全生命周期模型是一個建立高效機器學習項目的循環過程[16],包含7個核心步驟:收集數據、數據準備、數據整理、分析數據、訓練模型、測試模型和部署。
在我國,對人工智能相關的政策和標準中已經提出機器學習全生命周期管理的理念要求。如國家藥監局在2022年3月初發布的《人工智能醫療器械注冊審查指導原則》[17]中提到人工智能醫療器械生存周期過程,并以當前人工智能醫療器械主流算法的監督學習為例,提出對有監督學習的人工智能器械生存周期過程質控要求,包括需求分析、數據收集、算法設計、驗證與確認、更新控制5個階段。國家藥品監督管理局制定的《深度學習輔助決策醫療器械軟件審評要點》[18]中指出基于風險的全生命周期管理類軟件設計開發過程通常應分為需求分析、數據收集、算法設計、驗證與確認等階段。
盡管機器學習全生命周期管理模型還不成熟,但現有研究與實踐開始涉足兼顧數據和模型兩個方面,能夠為從疾病智能預測研究過程視角進行電子病歷數據質量需求分析提供理論基礎和思路。
1.1.2 電子病歷數據質量評價
當前電子病歷數據質量評價研究主要集中于兩個研究場景。一是側重于電子病歷數據生產與后處理階段的質量控制,主要解決的是電子病歷錄入或處理階段可能出現的質量問題,如完整性、準確性(如異常值或者錯誤值等)、標準化與互操作等問題[19-21]。二是側重于電子病歷數據使用階段的質量評估,主要解決的是電子病歷數據可用性或重用性問題[19]。本研究屬于第二類研究場景。
在電子病歷數據使用階段的質量評估體系的研究中,雖然不同學者所提出的評價維度名稱和定義稍有不同,但整體集中在完整性、準確性、一致性、合理性、時效性等維度 [11,21-22]。就研究方法而言,質量評估體系主要采取文獻調研[11,21]和專家咨詢[22-23]等方法建立,研究成果具有一定的權威性和可用性。然而不足的是,現有評估體系主要是結果導向,并未與特定應用過程關聯。具體到疾病智能預測研究,現有電子病歷數據質量評估指標體系難以對模型構建研究全周期、全階段覆蓋。
1.2 納入與排除標準
納入標準:① 研究主題為疾病風險預測;② 研究數據為電子病歷;③ 預測方法為機器學習范疇。
排除標準:① 綜述類研究;② 重復發表的文獻;③ 無法獲取全文的文獻。
1.3 文獻檢索策略
計算機檢索PubMed和CNKI數據庫,檢索時限為建庫至2021年9月27日。檢索采用主題詞與自由詞相結合的方式,英文檢索詞包括:machine learning、electronic medical record、disease prediction等;中文檢索詞包括:疾病預測、電子病歷等。
1.4 需求模型構建過程
首先,根據以研發為導向的機器學習全生命周期管理模型,確定基于電子病歷的機器學習疾病風險預測研究過程的任務階段。其次,通過文獻調研,分析各任務階段包含的子任務和涉及的主要數據活動。選取有代表性的文獻,主要圍繞各子任務的處理目標、處理操作和處理對象開展數據活動分析,其中處理目標是關于子任務處理數據活動的實施目的;處理操作是為達成處理目標所需要的處理流程;處理對象關注處理操作過程面向的數據對象。再次,將通過文獻分析得到的數據活動映射到電子病歷數據質量的具體需求,并對具體需求進行聚類,形成最終的質量需求維度。最后,基于分析得出的質量需求維度與各任務階段對應的具體質量需求,確立面向疾病智能預測過程的電子病歷數據質量需求模型。詳見圖1。

2 結果
2.1 文獻篩選流程及結果
初檢共獲得549篇文獻,其中PubMed(n=509),CNKI(n=40)篇。經逐層篩選后,最終納入260篇文獻。
2.2 各任務階段及其主要涉及的數據活動
本文根據以研發為導向的機器學習全生命周期管理模型,結合利用電子病歷的疾病智能風險預測文獻,確定基于電子病歷的機器學習疾病風險預測研究過程可分為7個階段:數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用。通過分析納入文獻,特別是歸納有代表性的研究中所涉及的數據活動,7個階段可以拆解為數個子任務,每個子任務圍繞處理目標、處理操作、處理對象進行數據活動的歸納,并且體現每項數據活動的關鍵文獻出處。
2.2.1 數據采集
可以分解為選取數據采集內容和采集數據2個子任務階段。由于電子病歷涵蓋的內容龐大,數據存在形式多樣,根據疾病風險預測的目標不同,研究者設計的數據采集方案不盡相同。表1對選取數據采集內容和采集數據2個子任務階段的通用處理目標、操作和對象進行了概括[24-31]。

選取數據采集內容任務有4個處理目標,分別是確定結構化數據采集內容、確定非結構化數據采集內容、確定樣本抽取方案以及確定數據初篩方案。結構化數據主要包括患者基本信息、既往病史、診斷記錄、實驗室檢查報告等。非結構化數據包括自由文本格式的診斷記錄、圖表形式的檢驗報告、醫學影像等內容。確定樣本抽取方案是為了確定數據代表人群與源人群一致,使得樣本具有代表性,增強模型泛化能力。由于電子病歷數據內容龐大,特征變量數量巨大,同時一些電子病歷質量較低,因此需要對電子病歷數據進行初篩,將符合要求的電子病歷數據記錄納入到模型構建數據集中。
采集數據分為3個子任務,分別是鏈接讀取合并電子病歷數據、整合其他來源的數據、數據脫敏。整合其他來源的數據是研究設計中的特定處理步驟,尤其是對于一些慢性疾病,需要補充長期的數據記錄,因此需要與社區健康記錄等其他來源的數據進行合并,才能獲得較為全面的數據集。
2.2.2 數據預處理
直接采集的電子病歷數據可能存在不完整、冗余和模糊等問題,難以直接滿足疾病風險智能預測訓練模型的要求。此外,大量已存在的數據中無意義的成分很多,這也嚴重影響了預測模型的執行效率,特別是數據中的噪音干擾還可能會造成數據挖掘結果的偏倚。因此,對粗糙的原始數據進行有效的預處理,已經成為疾病風險預測實現過程中的關鍵問題。
數據預處理可以分解為數據清洗、數據集成、數據轉換、數據縮減、處理工具和環境配置以及數據標注6個子任務,詳見表2,其中前4個任務為主要任務[25,27,29,31-39]。經調研內容分析,數據清洗有4個處理目標,分別是缺失值填補、異常值處理、去除重復數據、檢驗數據一致性。數據集成有3個處理目標,分別是基線特征選取、數據納入排除、數據集成。數據轉換有3個處理目標,分別是歸一化、數據聚合、數據泛化。數據縮減是指經過數據清洗、數據轉換和數據集成等操作之后,為了降維減少建模成本而進行的刪除冗余記錄和變量。學習模型的構建需要建立在一定的系統環境中進行,某些類型的機器學習模型,尤其是深度學習模型,需要較強的環境算力。數據處理和清洗應當明確選用軟件工具的名稱、型號規格、完整版本、運行環境、確認等要求,同時考慮數據處理選用方法對軟件的影響及其風險,同時基于有監督的機器學習方法的疾病風險智能預測研究需要保證電子病歷是已經具有特征標簽的數據,因此往往需要人工進行數據標注。

2.2.3 特征表示
是指選擇合適的特征表示方法為預測建模奠定基礎。可以用于疾病風險預測的電子病歷數據類型多樣,包含了文字、表格、圖形、影像等類型的數據,但是不同類型的數據原始特征的空間不同,例如1張圖像(像素的數量為n)的特征空間為[0,255]n,1個自然語言句子(長度為L)的特征空間為|V|L,其中V為詞表集合,然而很多算法要求輸入的特征是數學上可計算的,因此在機器學習之前通常需要將這些不同類型的數據轉換為向量表示[29]。也就是說,根據輸入數據和訓練模型的類型不同,需要把數據轉化為機器可以在原始特征空間或不同維度特征空間做矩陣運算的特征表示[28,34]。詳見表3。

2.2.4 特征選擇與提取
特征選擇是選取原始特征集合的一個有效子集,使得基于這個特征子集訓練出來的模型準確率最高,而特征提取是構造一個新的特征空間,并將原始特征投影在新的空間中。特征選擇和提取都可以用較少的特征來表示電子病歷原始特征中的大部分相關信息,去掉噪聲信息,進而提高計算效率。
最常用的特征選擇操作為子集搜索,如前向搜索:由空集合開始,每一輪添加該輪最優的特征;反向搜索:從原始特征集合開始,每次刪除最無用的特征,選擇一個最優的候選子集。特征抽取則可分為有監督和無監督的兩種方法,前者目標是抽取對預測目標最有用的特征,常用的方法有線性判別式等;后者目標是減少冗余信息和噪聲,常用的方法為主成分分析等[29,32]。見表4。

2.2.5 模型訓練
針對疾病風險預測的目標,需要選擇某種或某些合適算法構建機器學習模型,疾病智能預測研究作為常見的分類問題,其模型選擇性很廣。訓練模型的整個周期大多需要進行多次迭代,同時要跟蹤不同版本的模型以及適時調整訓練的超參數,例如神經網絡中的權重w和偏置b,支持向量機中的支持向量,線性回歸或邏輯回歸中的系數等。
2.2.6 模型評估與優化
模型構建之后往往并不能一步到位得到最好的性能,還需要對模型進行評估和優化從而提高模型的性能。疾病風險預測模型的評估指標一般以性能指標和分類指標為主,包括曲線下面積(area under curve,AUC)值、F1分數(F1 score)、精確度(precision)、召回率(recall)等。根據疾病風險預測目標不同,需要選擇最適合支持決策的評估指標對模型進行評估。模型優化的方法包括異常值分析、模型集成等。在不同的研究中,研究者根據研究設計采取不同的模型優化方案。
2.2.7 模型應用
將訓練好的模型應用于新的電子病歷數據集,此時新的數據集也需要經過數據采集、數據預處理等過程。要獲得一個準確的疾病風險預測結果,不僅需要一個性能良好的模型,還需要保證新的數據集質量能達到同樣的質量要求。
2.3 面向疾病風險智能預測研究的電子病歷數據質量需求模型
根據上述數據活動可映射出7個任務階段對電子病歷數據的具體質量需求,如“數據無前后矛盾的表述”、“時間信息完整”、“數據表達符合專業預期”等,完整結果如表5所示。

基于數據的具體質量需求,可進一步提煉4類高層次質量需求維度:可操作性、完整性、準確性和時效性。可操作性定義為數據是否可以進行順利構建和應用預測模型。完整性定義為數據的完整程度,包括數據元、數據元取值、數據狀態信息等的完整。準確性是指數據是否準確反映所記錄的臨床事實。時效性是指數據時間信息是否完整及數據的實時、及時的程度。同一具體需求可能以不同的形式表現在各個階段的數據處理活動當中,但都體現了同一類的質量需求維度。
圖2是對表5的簡化,展示一個環形的面向疾病風險智能預測研究過程的電子病歷數據質量需求模型;模型內核為數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用7個核心任務階段;中間為各階段的主要數據活動的具體需求;外圍為可操作性、完整性、準確性、時效性4個核心質量需求維度。

3 討論
本研究目標是歸納滿足基于機器學習的疾病風險預測研究活動需要的電子病歷數據應具備的質量特征或達到的質量要求。整個分析在疾病風險預測研究框架下進行,且面向機器學習全生命周期。
相較于現有機器學習全生命周期管理模型沒有詳細闡述每一階段具體對應的數據操作和數據質量需求,本研究對基于機器學習的疾病風險預測研究整個過程所涉及的主要任務階段逐一進行數據活動和數據具體質量需求分析。基于電子病歷的機器學習疾病風險預測整個過程所涉及的主要任務階段最終歸納為數據采集、數據預處理、特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用7個任務階段,其中大部分臨床決策支持研究主要涉及前面4個任務階段,也是本研究關注的焦點。本研究在數據采集階段下歸納出7個數據活動和27個數據需求;在數據預處理階段歸納了13個數據活動和29個數據需求;特征表示、特征選擇與提取、模型訓練、模型評估與優化、模型應用的關鍵需求是保障電子病歷數據可隨時調用,從而保障學習算法的流程可以正常進行。
需要說明的是,圖2是一個簡化版環形的面向疾病風險智能預測研究過程的電子病歷數據質量需求模型,重點是想凸顯過程的重要性。此外,該模型是可擴展的,可以根據疾病智能預測研究階段細化需要在內環增加子階段,在中間增加對應的具體質量需求,在外圍增加高層級質量需求維度。
本文提出的需求模型根據電子病歷數據在機器學習全生命周期的活動過程,概括了4類質量需求維度,分別為可操作性、完整性、準確性和時效性。在該需求模型中,可操作性是指數據是否可以進行順利操作構建和應用預測模型,專門針對人工智能相關模型的電子病歷數據質量需求。可操作性不僅體現在模型階段,在數據采集階段也有體現,如在鏈接讀取電子病歷數據活動時,環境配置是否滿足要求;以及在整合其他來源數據活動中,保證電子病歷數據和外源數據可獲取,兩者都屬于數據可操作性需求。
除了可操作性,完整性、準確性和時效性這3個質量需求維度與Johnson提出的電子病歷數據質量本體4個高級數據質量維度正確性、一致性、完整性和時效性基本一致[7],與Weiskopf在2012年所發表的文獻中提出的5個數據質量維度完整性、正確性、一致性、合理性和時效性相對應[22],也基本引證了Kahn提出的電子病歷數據質量評價維度,一致性、完整性以及合理性[23],與國內學者袁莎在2020年的研究成果中提出的數據的準確性、完整性、一致性和時效性相符合[40],從而側面論證了需求模型是數據質量評價指標體系確立的基礎。
需求模型也是數據質量評價指標體系的指導方向。如在本文提出的需求模型中,定義結局變量的特征完整、數據量和特征充足是保證機器學習疾病風險預測模型構建的重要需求,應納入完整性的指標分類中去評價,與呂旭東等[11]對電子病歷數據質量評價體系中關于完整性的定義整體一致,是對Weiskopf等[22]完整性定義的進一步具化。
本文提出的質量需求模型是對現今電子病歷數據質量評價較少考慮人工智能技術的個性化應用特性需求的補充。同時,該需求模型也有一些局限性:首先本文僅檢索PubMed和CNKI數據庫,可能并未覆蓋所有符合納入標準的文獻;其次本文提出的模型聚焦算法需求,在模型的架構上并未過多考慮臨床視角以及電子病歷系統的現狀;該模型聚焦數據的邏輯結構,并沒有考慮物理存儲的結構需求等。未來擬在現有基礎上,結合現有電子病歷數據治理、人工智能軟件產品等相關政策與標準規范,構建電子病歷數據實用性評估指標體系以及后續相關實證研究。
本文詳細介紹了面向疾病風險智能預測研究過程的電子病歷數據質量需求模型分析過程,以機器學習全生命周期模型為基礎并運用了文獻分析法,從機器學習疾病預測流程出發,疾病風險預測為結果,歸納出7個任務階段和4個質量需求維度,最終形成面向疾病風險智能預測研究過程的電子病歷數據質量需求模型。這不僅豐富了現有電子病歷數據質量框架研究成果,也為后續據此構建的適用性指標體系的業務相關性提供了基礎。