隨著精準醫療的興起,預測模型研究不斷增多,研究和報告質量參差不齊,制約了其在臨床的推廣與應用。預測模型系統評價通過匯總和評價預測模型在不同環境和人群中的預測性能,從而促進預測模型研究證據在臨床實踐中應用。近年雖已有不少關于預測模型的系統評價,但這些系統評價制作方法仍不規范,質量差異較大。本文結合國內外方法學的最新進展,對預測模型系統評價的制作方法與步驟進行歸納和總結,以期為國內學者制作預測模型系統評價提供參考。
引用本文: 魯小丹, 衛建華, 沈建通, 韓慧, 諸宇佳, 陳亞萍, 華雨婷, 劉雨今, 鄭磊, 莫航灃, 蔡婷婷, 夏云輝. 預測模型系統評價的制作方法與步驟. 中國循證醫學雜志, 2023, 23(5): 602-609. doi: 10.7507/1672-2531.202212112 復制
近年來,基因組學、生物標志物或算法逐漸被用于疾病風險的評估、篩查、預測及診斷,幫助選擇個性化的方式精準解決健康問題[1]。預測模型可基于多個預測因子或風險因素估計個體在一定時間范圍內出現特定臨床結局或事件的風險,為患者及醫護人員提供信息以做出明智的決策從而改善患者預后,其在臨床應用越來越廣。目前,已開發了大量的預測模型,甚至同一健康問題存在多個模型,如:COVID-19預測模型有232個[2],心血管疾病風險預測模型有363個[3],慢性阻塞性肺疾病患者預后模型有408個[4],慢性淋巴細胞白血病的預后模型有52個[5],剖宮產后陰道分娩成功率的預測模型有38個[6]。但這些預測模型研究存在報告質量不佳、結論矛盾、模型偏倚風險高、準確性和適用性局限等問題[7-9],需要對其進行評價。系統評價可以總結、探索和檢驗模型在不同研究人群和環境的預測性能,匯總估計預測模型性能,評估模型是否需要進一步優化,判斷特定預測因子添加到模型是否會提高預測性能[8,10],最終為患者、臨床醫生、衛生經濟學家和政策制定者提供指導,促進預測模型研究的相關證據在臨床實踐中的合理應用[11]。由于預測模型原始研究質量參差不齊、信息不完整導致定量匯總模型性能指標及數據更復雜,進而增加預測模型系統評價的難度。近年雖已生產了不少關于預測模型的系統評價,但這些系統評價制作方法仍不規范,質量差異較大。本文結合國內外方法學的最新進展,對預測模型系統評價的制作方法與步驟進行歸納和總結(圖1),以期為國內學者制作預測模型系統評價提供參考。

1 確定系統評價題目
提出問題是系統評價的第一步,也是系統評價制作過程中的一個重要步驟。為準確地檢索預測模型研究,應明確問題的細節。Cochrane預后方法學組[12]在PICO(population,intervention, comparator,outcome)基礎上推出PICOTS(population,index prognostic model,comparative model,outcomes to be predicted,timing of the prediction horizon and of the moment of prognosis,setting)作為構建預測模型系統評價題目的框架(表1)。PICOTS各要素對指導預測模型研究的檢索、篩選、評價、研究數據提取和結果的分析解釋均有十分重要的作用。

2 制定系統評價研究方案
確定系統評價的題目后,需要制定研究方案,內容包括系統評價的題目、背景、目的和方法。預測模型系統評價的嚴格評估和數據清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)[13]為指導系統評價目標框架、檢索策略以及研究納入和排除標準提供了參考(表2)。在確定預測模型研究文獻的納入類型時,建議納入隊列研究、巢式病例-對照研究或病例隊列研究,尤其推薦前瞻性隊列研究,因其對預測因子及結局測量更準確可信[7]。

制作Cochrane系統評價要與Cochrane相應系統評價小組聯系,申請在Cochrane協作網(www.cochranelibrary.com)注冊,題目注冊成功后完成系統評價方案,然后交給系統評價小組評審通過后再發表在Cochrane圖書館。除Cochrane系統評價外,也可在國際前瞻性系統評價登記平臺PROSPERO注冊(www.crd.york.ac.uk/PROSPERO/),題目批準后獲得注冊號。
3 檢索文獻
預測模型研究因在文獻數據庫中缺少有效索引,且不局限于一種研究設計,查全、查準的難度較大[14-16]。例如,研究者可能會采用預測模型、風險評估、風險預測、模型或算法等詞來描述他們的研究,研究設計可以基于回顧性或前瞻性隊列研究等。此外,預測模型的呈現形式有評分系統、圖形評分表、列線圖、網頁計算器和APP等多種形式[17],僅從文獻的標題和摘要有時很難判斷是否是預測模型研究。應采取多種渠道和系統的檢索方法,組合PICOTS各要素制定科學的文獻檢索策略。
Cochrane預后方法學組建議檢索MEDLINE、EMbase等數據庫,同時開展手工檢索、引文檢索。檢索式可根據PICOTS要素選擇檢索詞,將預測模型研究相關的術語與疾病特定術語結合,建議采用預測模型特定的檢索過濾器。Ingui過濾器和Haynes過濾器經驗證在檢索臨床預測模型研究具有較高的靈敏度,Geersing等學者在這兩個過濾器基礎上做了進一步的更新和補充(表3)[14-16]。研究者可根據自身需求調整和優化過濾器檢索式,提高預測模型研究的查全率和查準率。

4 篩選文獻
預測模型系統評價篩選需根據研究方案制定的納入與排除標準,看這些文獻是否與PICOTS要素相關,篩選能夠回答研究問題的文獻,評價其對研究問題的適用性。由于預測模型研究的異質性,導致研究選擇階段與PICOTS定義出現的偏差較大,為減少人為因素的影響,由兩名及以上研究人員獨立完成,任何差異都應通過討論或第三位研究者參與解決。文獻篩選的過程應按PRISMA聲明用流程圖展示。
5 提取數據
預測模型原始研究提取的信息較多,包括數據來源、研究對象、預測變量、結局信息、模型構建、模型性能等,具體可參考CHARMS清單(表4)[13]。在提取模型性能指標時,除區分度和校準度(表5)外,還應提取臨床效用相關指標,如決策曲線分析結果和凈收益。凈收益有助于確定基于模型臨床決策是否利大于弊,可以提供臨床價值信息,幫助醫生做出更好的臨床決策[18-19]。


6 評價文獻質量
預測模型研究的偏倚風險評價工具采用PROBAST(prediction model risk of bias assessment tool)[24-25],該工具適用于診斷和預后預測等各類模型研究,且不受預測變量、預測結局的類型及統計方法的限制,但該工具不適用于預測因子和多個預測模型準確性比較研究。PROBAST的評估步驟如下:① 明確系統評價的問題;② 區分預測模型研究的類型;③ 評價各領域偏倚風險和適用性;④ 偏倚風險和適用性的總體判斷。
PROBAST工具包括研究對象、預測變量、結局和統計分析4個領域,20個條目(表6)。前3個領域可以對預測模型研究進行適用性評價,判斷過程與偏倚風險相似,但沒有問題條目。對于整體匯總結果,PROBAST工具開發組建議描述性總結偏倚風險和適用性問題,并說明如何影響結果的解釋和推論的強度。此外,對偏倚風險和適用性的所有評價結果應以表格的形式展示。

7 分析和報告結果
7.1 異質性檢驗
探索異質性的潛在來源有助于了解模型在什么情況下保持良好的性能,以及模型何時需要進一步改進。預測模型異質性來自于三個方面:① 納入的患者之間的差異,如人口特征、病例組合差異[21-22];② 研究差異,如對預測因素及結局指標的定義、隨訪時間及測量方法、研究設計[26]等方面的不同;③ 統計分析或選擇性報告和發表相關的差異,如偏倚風險、研究規模等。由于預測模型研究間異質性較大,因此建議采用隨機效應模型評估、量化和總結研究間異質性[8,27-28]。
推薦研究者使用Hartung-Knapp-Sidik-Jonkman(HKSJ)方法[29]合并區分度和校準度的預測區間,通過計算預測區間,可以估計模型在新的研究中的潛在性能表現[30-31]。當預測區間比置信區間寬時,表明原始研究間存在異質性,應采用亞組分析和Meta回歸進一步解釋、探索異質性的大小及來源。當個體參與者數據可獲取時,也可通過個體受試者數據Meta分析檢驗亞組的效應,有效性和可信度更高,還可避免由于生態偏倚導致的錯誤結果[27,32-34]。
7.2 Meta分析
當同一種預測模型研究數量有5項以上時,建議對預測模型的性能指標使用HKSJ方法進行隨機效應Meta分析,將模型區分度和校準度估計值分別匯總為加權平均值,其中權重由研究的標準誤差和樣本數量決定[10,29]。此外,也可用多變量Meta分析合成[35-36],來提高匯總估計值精確度,并防止排除缺少相關模型性能指標的研究,從而量化模型在不同人群中性能的異質性,幫助確定臨床應用模型的最佳策略。為提高基本假設有效性,進行Meta分析前應重新調整提取的C統計量和校準度指標。在計算平均性能的95%可信區間時,建議采用最大似然估計和HKSJ方法的隨機效應模型,研究者可使用R包“metamisc”對預測模型進Meta分析,獲取途徑:https://CRAN.R-project.org/package=metamisc[8,27]。
當我們在Meta分析時不應只關注模型性能的統計量,還應對預測模型的臨床效用(如凈獲益等指標)進行Meta分析[19,37]。
7.3 敏感性分析
與其他系統評價類似,對于偏倚風險較低或較高的研究,研究者應進行敏感性分析,避免因個別低質量的研究影響Meta分析結果的穩定性和可靠性。
8 解釋結果和撰寫報告
預測模型系統評價結果解釋時應考慮:① 是否提供了關于預測模型PICOTS要素和性能的所有必要信息;② 預測模型的匯總校準度和區分度如何;③ 這些模型中每個模型的匯總證據在特定人群和特定結果方面的確定性如何[10]。研究者可使用GRADE工具評估預測模型系統評價證據的質量,但用于預測模型的GRADE專用工具正在開發中,可借鑒和修改采用預后研究和預測因子研究的GRADE工具(如將關聯強度測量更改為模型的性能指標,預后因素的探索和驗證更改為模型的開發和驗證)[38-40]。
系統評價報告的撰寫需遵循PRISMA 2020聲明,以提高報告的透明度和完整性。雖然PRISMA主要用于對干預措施效果的系統評價[41-42],但其中包含的多個條目也適用于預測模型研究系統評價[8]。此外,如果是個體參與者數據(individual participant data,IPD)的Meta分析則需采用PRISMA-IPD聲明[43]。TRIPOD聲明[44]為預測模型開發、驗證和更新提供了報告規范,也可結合用來報告預測模型系統評價。
9 討論
對預測模型進行系統評價不僅是幫助選擇最佳模型的重要方法,還有助于解釋預測模型的潛在適用性和普遍性,為進一步評估及驗證模型提供依據[8,10]。當系統評價結果顯示對臨床有益時,研究者可進一步從電子病歷記錄等大型數據庫中獲取個體參與者數據,對模型進行驗證和評估,這樣可以更好地了解預測模型在不同環境和人群中的普遍適用性,改善預測模型在常規醫療服務的適用性和穩健性[43,45]。
預測模型的系統評價與其他類型研究的系統評價有著相似之處,然而由于不同模型研究的病例選擇、預測因素及結局指標的定義、隨訪時間及測量方法、研究設計等不同導致納入研究異質性較大,此外一些預測模型原始研究的方法學和報告質量不佳[9],造成數據提取、統計分析等難度增大,增加了系統評價的難度。當異質性很大時,模型性能的匯總估計值是有限的,因此,通過系統評價確定相關研究、評估亞組,評估模型在新研究中可能產生的性能至關重要。隨著預測模型數量的增多,預測模型的系統評價未來應側重于評估模型在不同環境及人群中的差異性,研究者也可以通過網狀Meta分析直接或間接比較不同模型的性能,在驗證和比較既往模型的基礎上,進一步改進它們。
詳細描述預測模型研究人群對于評估預測模型性能及告知使用者適用人群非常重要[46],還可以幫助我們理解研究間的結果差異。因此,建議預測模型研究都應遵守TRIPOD報告指南,完整清晰報告預測模型各方面的信息,這樣才能充分評估預測模型的潛在偏倚及適用性。隨著數智醫療時代的到來,基于人工智能和機器學習技術的預測模型研究不斷增多,采用PROBAST和TRIPOD評估這類研究的偏倚風險和報告質量存在諸多不適,可采用PROBAST-AI和TRIPOD-AI[47-48],但這兩個工具正在研發中。預測模型研究不斷發展,相應的系統評價制作和報告方法也需不斷的發展,促進預測模型證據的臨床應用,推動醫學發展。
近年來,基因組學、生物標志物或算法逐漸被用于疾病風險的評估、篩查、預測及診斷,幫助選擇個性化的方式精準解決健康問題[1]。預測模型可基于多個預測因子或風險因素估計個體在一定時間范圍內出現特定臨床結局或事件的風險,為患者及醫護人員提供信息以做出明智的決策從而改善患者預后,其在臨床應用越來越廣。目前,已開發了大量的預測模型,甚至同一健康問題存在多個模型,如:COVID-19預測模型有232個[2],心血管疾病風險預測模型有363個[3],慢性阻塞性肺疾病患者預后模型有408個[4],慢性淋巴細胞白血病的預后模型有52個[5],剖宮產后陰道分娩成功率的預測模型有38個[6]。但這些預測模型研究存在報告質量不佳、結論矛盾、模型偏倚風險高、準確性和適用性局限等問題[7-9],需要對其進行評價。系統評價可以總結、探索和檢驗模型在不同研究人群和環境的預測性能,匯總估計預測模型性能,評估模型是否需要進一步優化,判斷特定預測因子添加到模型是否會提高預測性能[8,10],最終為患者、臨床醫生、衛生經濟學家和政策制定者提供指導,促進預測模型研究的相關證據在臨床實踐中的合理應用[11]。由于預測模型原始研究質量參差不齊、信息不完整導致定量匯總模型性能指標及數據更復雜,進而增加預測模型系統評價的難度。近年雖已生產了不少關于預測模型的系統評價,但這些系統評價制作方法仍不規范,質量差異較大。本文結合國內外方法學的最新進展,對預測模型系統評價的制作方法與步驟進行歸納和總結(圖1),以期為國內學者制作預測模型系統評價提供參考。

1 確定系統評價題目
提出問題是系統評價的第一步,也是系統評價制作過程中的一個重要步驟。為準確地檢索預測模型研究,應明確問題的細節。Cochrane預后方法學組[12]在PICO(population,intervention, comparator,outcome)基礎上推出PICOTS(population,index prognostic model,comparative model,outcomes to be predicted,timing of the prediction horizon and of the moment of prognosis,setting)作為構建預測模型系統評價題目的框架(表1)。PICOTS各要素對指導預測模型研究的檢索、篩選、評價、研究數據提取和結果的分析解釋均有十分重要的作用。

2 制定系統評價研究方案
確定系統評價的題目后,需要制定研究方案,內容包括系統評價的題目、背景、目的和方法。預測模型系統評價的嚴格評估和數據清單(critical appraisal and data extraction for systematic reviews of prediction modeling studies,CHARMS)[13]為指導系統評價目標框架、檢索策略以及研究納入和排除標準提供了參考(表2)。在確定預測模型研究文獻的納入類型時,建議納入隊列研究、巢式病例-對照研究或病例隊列研究,尤其推薦前瞻性隊列研究,因其對預測因子及結局測量更準確可信[7]。

制作Cochrane系統評價要與Cochrane相應系統評價小組聯系,申請在Cochrane協作網(www.cochranelibrary.com)注冊,題目注冊成功后完成系統評價方案,然后交給系統評價小組評審通過后再發表在Cochrane圖書館。除Cochrane系統評價外,也可在國際前瞻性系統評價登記平臺PROSPERO注冊(www.crd.york.ac.uk/PROSPERO/),題目批準后獲得注冊號。
3 檢索文獻
預測模型研究因在文獻數據庫中缺少有效索引,且不局限于一種研究設計,查全、查準的難度較大[14-16]。例如,研究者可能會采用預測模型、風險評估、風險預測、模型或算法等詞來描述他們的研究,研究設計可以基于回顧性或前瞻性隊列研究等。此外,預測模型的呈現形式有評分系統、圖形評分表、列線圖、網頁計算器和APP等多種形式[17],僅從文獻的標題和摘要有時很難判斷是否是預測模型研究。應采取多種渠道和系統的檢索方法,組合PICOTS各要素制定科學的文獻檢索策略。
Cochrane預后方法學組建議檢索MEDLINE、EMbase等數據庫,同時開展手工檢索、引文檢索。檢索式可根據PICOTS要素選擇檢索詞,將預測模型研究相關的術語與疾病特定術語結合,建議采用預測模型特定的檢索過濾器。Ingui過濾器和Haynes過濾器經驗證在檢索臨床預測模型研究具有較高的靈敏度,Geersing等學者在這兩個過濾器基礎上做了進一步的更新和補充(表3)[14-16]。研究者可根據自身需求調整和優化過濾器檢索式,提高預測模型研究的查全率和查準率。

4 篩選文獻
預測模型系統評價篩選需根據研究方案制定的納入與排除標準,看這些文獻是否與PICOTS要素相關,篩選能夠回答研究問題的文獻,評價其對研究問題的適用性。由于預測模型研究的異質性,導致研究選擇階段與PICOTS定義出現的偏差較大,為減少人為因素的影響,由兩名及以上研究人員獨立完成,任何差異都應通過討論或第三位研究者參與解決。文獻篩選的過程應按PRISMA聲明用流程圖展示。
5 提取數據
預測模型原始研究提取的信息較多,包括數據來源、研究對象、預測變量、結局信息、模型構建、模型性能等,具體可參考CHARMS清單(表4)[13]。在提取模型性能指標時,除區分度和校準度(表5)外,還應提取臨床效用相關指標,如決策曲線分析結果和凈收益。凈收益有助于確定基于模型臨床決策是否利大于弊,可以提供臨床價值信息,幫助醫生做出更好的臨床決策[18-19]。


6 評價文獻質量
預測模型研究的偏倚風險評價工具采用PROBAST(prediction model risk of bias assessment tool)[24-25],該工具適用于診斷和預后預測等各類模型研究,且不受預測變量、預測結局的類型及統計方法的限制,但該工具不適用于預測因子和多個預測模型準確性比較研究。PROBAST的評估步驟如下:① 明確系統評價的問題;② 區分預測模型研究的類型;③ 評價各領域偏倚風險和適用性;④ 偏倚風險和適用性的總體判斷。
PROBAST工具包括研究對象、預測變量、結局和統計分析4個領域,20個條目(表6)。前3個領域可以對預測模型研究進行適用性評價,判斷過程與偏倚風險相似,但沒有問題條目。對于整體匯總結果,PROBAST工具開發組建議描述性總結偏倚風險和適用性問題,并說明如何影響結果的解釋和推論的強度。此外,對偏倚風險和適用性的所有評價結果應以表格的形式展示。

7 分析和報告結果
7.1 異質性檢驗
探索異質性的潛在來源有助于了解模型在什么情況下保持良好的性能,以及模型何時需要進一步改進。預測模型異質性來自于三個方面:① 納入的患者之間的差異,如人口特征、病例組合差異[21-22];② 研究差異,如對預測因素及結局指標的定義、隨訪時間及測量方法、研究設計[26]等方面的不同;③ 統計分析或選擇性報告和發表相關的差異,如偏倚風險、研究規模等。由于預測模型研究間異質性較大,因此建議采用隨機效應模型評估、量化和總結研究間異質性[8,27-28]。
推薦研究者使用Hartung-Knapp-Sidik-Jonkman(HKSJ)方法[29]合并區分度和校準度的預測區間,通過計算預測區間,可以估計模型在新的研究中的潛在性能表現[30-31]。當預測區間比置信區間寬時,表明原始研究間存在異質性,應采用亞組分析和Meta回歸進一步解釋、探索異質性的大小及來源。當個體參與者數據可獲取時,也可通過個體受試者數據Meta分析檢驗亞組的效應,有效性和可信度更高,還可避免由于生態偏倚導致的錯誤結果[27,32-34]。
7.2 Meta分析
當同一種預測模型研究數量有5項以上時,建議對預測模型的性能指標使用HKSJ方法進行隨機效應Meta分析,將模型區分度和校準度估計值分別匯總為加權平均值,其中權重由研究的標準誤差和樣本數量決定[10,29]。此外,也可用多變量Meta分析合成[35-36],來提高匯總估計值精確度,并防止排除缺少相關模型性能指標的研究,從而量化模型在不同人群中性能的異質性,幫助確定臨床應用模型的最佳策略。為提高基本假設有效性,進行Meta分析前應重新調整提取的C統計量和校準度指標。在計算平均性能的95%可信區間時,建議采用最大似然估計和HKSJ方法的隨機效應模型,研究者可使用R包“metamisc”對預測模型進Meta分析,獲取途徑:https://CRAN.R-project.org/package=metamisc[8,27]。
當我們在Meta分析時不應只關注模型性能的統計量,還應對預測模型的臨床效用(如凈獲益等指標)進行Meta分析[19,37]。
7.3 敏感性分析
與其他系統評價類似,對于偏倚風險較低或較高的研究,研究者應進行敏感性分析,避免因個別低質量的研究影響Meta分析結果的穩定性和可靠性。
8 解釋結果和撰寫報告
預測模型系統評價結果解釋時應考慮:① 是否提供了關于預測模型PICOTS要素和性能的所有必要信息;② 預測模型的匯總校準度和區分度如何;③ 這些模型中每個模型的匯總證據在特定人群和特定結果方面的確定性如何[10]。研究者可使用GRADE工具評估預測模型系統評價證據的質量,但用于預測模型的GRADE專用工具正在開發中,可借鑒和修改采用預后研究和預測因子研究的GRADE工具(如將關聯強度測量更改為模型的性能指標,預后因素的探索和驗證更改為模型的開發和驗證)[38-40]。
系統評價報告的撰寫需遵循PRISMA 2020聲明,以提高報告的透明度和完整性。雖然PRISMA主要用于對干預措施效果的系統評價[41-42],但其中包含的多個條目也適用于預測模型研究系統評價[8]。此外,如果是個體參與者數據(individual participant data,IPD)的Meta分析則需采用PRISMA-IPD聲明[43]。TRIPOD聲明[44]為預測模型開發、驗證和更新提供了報告規范,也可結合用來報告預測模型系統評價。
9 討論
對預測模型進行系統評價不僅是幫助選擇最佳模型的重要方法,還有助于解釋預測模型的潛在適用性和普遍性,為進一步評估及驗證模型提供依據[8,10]。當系統評價結果顯示對臨床有益時,研究者可進一步從電子病歷記錄等大型數據庫中獲取個體參與者數據,對模型進行驗證和評估,這樣可以更好地了解預測模型在不同環境和人群中的普遍適用性,改善預測模型在常規醫療服務的適用性和穩健性[43,45]。
預測模型的系統評價與其他類型研究的系統評價有著相似之處,然而由于不同模型研究的病例選擇、預測因素及結局指標的定義、隨訪時間及測量方法、研究設計等不同導致納入研究異質性較大,此外一些預測模型原始研究的方法學和報告質量不佳[9],造成數據提取、統計分析等難度增大,增加了系統評價的難度。當異質性很大時,模型性能的匯總估計值是有限的,因此,通過系統評價確定相關研究、評估亞組,評估模型在新研究中可能產生的性能至關重要。隨著預測模型數量的增多,預測模型的系統評價未來應側重于評估模型在不同環境及人群中的差異性,研究者也可以通過網狀Meta分析直接或間接比較不同模型的性能,在驗證和比較既往模型的基礎上,進一步改進它們。
詳細描述預測模型研究人群對于評估預測模型性能及告知使用者適用人群非常重要[46],還可以幫助我們理解研究間的結果差異。因此,建議預測模型研究都應遵守TRIPOD報告指南,完整清晰報告預測模型各方面的信息,這樣才能充分評估預測模型的潛在偏倚及適用性。隨著數智醫療時代的到來,基于人工智能和機器學習技術的預測模型研究不斷增多,采用PROBAST和TRIPOD評估這類研究的偏倚風險和報告質量存在諸多不適,可采用PROBAST-AI和TRIPOD-AI[47-48],但這兩個工具正在研發中。預測模型研究不斷發展,相應的系統評價制作和報告方法也需不斷的發展,促進預測模型證據的臨床應用,推動醫學發展。