• 海軍軍醫大學衛生統計學教研室(上海 200433);
導出 下載 收藏 掃碼 引用

目的 利用多中心數據構建臨床預測模型時,數據的獨立性假設會發生違背,研究對象之間存在明顯中心聚集效應,為了充分考慮聚集性問題,本研究擬比較考慮中心聚集效應的隨機截距Logistic回歸模型(RI)和固定效應模型(FEM)與不考慮中心聚集效應的標準Logistic回歸模型(SLR)和隨機森林算法(RF)在不同場景下的模型性能。方法 模擬預測模型建立過程中,存在不同程度中心聚集效應時,在中心水平上不同模型的預測性能,包括在不同場景中的區分度和校準度差異,同時比較這種差異在不同事件率時的變化趨勢。結果 在中心水平,不同模型(除RF外)在中心聚集效應下不同場景的區分度差異不大,其C-index均值變化很小。利用多中心高度聚集的數據進行預測時,邊緣預測(M.RI、SLR和RF)與條件預測相比校準截距略小于0,高估了預測的平均概率。其中RF則在多中心大樣本條件下截距校準表現很好,這也體現了機器學習算法對處理大樣本數據的優勢。在中心多患者少時,FEM進行條件預測,校準截距大于0,預測的平均概率被低估。此外,在利用多中心大樣本數據開發預測模型時,三個條件預測(FEM、A.RI、C.RI)斜率校準較好,邊緣預測(M.RI和SLR)的校準斜率大于1出現了欠擬合的問題,且隨著中心聚集效應增加欠擬合問題越發凸顯。特別是在中心少患者少時,數據的過擬合會掩蓋邊緣預測與條件預測校準性能上的差異。最后,越低的事件發生率時,中心聚集效應在中心水平對不同模型預測性能的影響越明顯。結論 利用高度聚集的多中心數據構建模型并應用于特定環境中預測,當中心數較少或因不同發病率導致中心間差異較大時可以選擇RI和FEM進行條件預測;當中心數較多、樣本量較大時可選擇RI進行條件預測或RF進行邊緣預測。

引用本文: 于建, 彭馳, 金志超. 中心聚集效應下多種預測模型構建策略的模擬比較. 中國循證醫學雜志, 2023, 23(7): 834-842. doi: 10.7507/1672-2531.202301032 復制

  • 上一篇

    腫瘤臨床研究中非比例風險生存資料的統計分析
  • 下一篇

    不報告偏倚風險評價工具ROB-ME中文解讀