引用本文: 于建, 彭馳, 金志超. 中心聚集效應下多種預測模型構建策略的模擬比較. 中國循證醫學雜志, 2023, 23(7): 834-842. doi: 10.7507/1672-2531.202301032 復制
臨床預測模型主要用于預測疾病發生(診斷)和發展(預后)過程中重要事件發生的概率,從而為臨床醫生和患者進一步制定預防和治療策略提供依據[1]。隨著網絡的飛速發展,建立現代大型電子健康檔案(electronic health records,EHR)變得越來越方便[2],社區與醫院之間的患者個體數據(individual participant data,IPD)也越來越容易獲得[3],數據共享在臨床研究中已經默契達成共識[4]。基于多中心數據共享背景下,利用多中心數據開發預測模型變得越來越普遍。
由于區域人口差異或不同的診療模式等實際情況的存在,不同中心間數據會有一定的異質性,用多中心數據建模有一個好處是可以增加結果的可推廣性和減少數據收集的時間[5],為開發模型的可泛化性提供了可能[6]。但這些多中心數據或多或少地存在著聚集,呈現出一個明顯的多水平結構,因此聚集的多中心數據為統計分析帶來了額外的方法學挑戰[7-8]。用于模型開發研究的數據經常集中在中心(醫院)內[9],即便將患者特征考慮在內,同一中心的兩個觀察結果往往比來自不同中心的兩個觀察結果更相似[10],這一事實導致了同一中心內數據之間的相關性,這就是所謂的中心聚集效應(clustering)。這種中心聚集效應違反了大多數回歸模型的假設—觀察結果的獨立性,所以不能再假設患者是獨立的[11]。從統計的角度,由于中心內的觀測結果不能提供完全獨立的信息,實際的有效樣本量就會減少,因而在做多中心預測模型的開發和驗證時,在推導預測性能之間差異時,總會發現有一部分異質性無法解釋[10],例如結局變量在考慮到所有測量的解釋變量的影響后仍有偏倚,可以把這種影響歸結為中心聚集效應所致。若把多中心數據看成一個整體,直接合并數據集開發預測模型,會掩蓋了中心聚集效應的作用,可能會對回歸分析的統計推斷的精準度產生偏差[12]。
模型應該反映數據結構,多中心數據帶來的中心聚集效應對不同模型預測性能精準度的影響如何,需要在建模前有一個可以借鑒的參考框架。雖然也有很多學者呼吁要重視這方面的研究,但目前沒有達成共識[13-15]。迄今為止的文獻還沒足夠多證據證明預測模型處理多中心數據時,因中心聚集效應的存在會對模型性能的估計產生多大的偏差及影響偏差的決定因素。同時除了傳統的統計模型以外,機器學習算法中如經典的隨機森林算法(random forest algorithm,RF)在處理中心間異質性的表現也未見相關理論和模擬研究。對于在中心內部與中心之間異質性的變化程度,如何從模型的開發、模型的驗證以及模型性能的評估這幾方面系統構建框架分析。已有部分學者進行了這方面研究[11,16],本文將在以往模擬研究的基礎上,在更多的模擬條件和更廣泛的預測模型上開展模擬比較研究,以便為后續研究和實際的臨床應用提供更多參考。
1 研究方法
1.1 常用的建模算法
1.1.1 標準Logistic回歸(standard logistic regression,SLR)
首先考慮構建一個忽略中心聚集效應的SLR模型。Logistic回歸模型的構建方法簡便靈活,它可以合并二分類、多分類、連續性變量、非線性轉換以及交互項的實現。其中在二分類結局中SLR是使用最廣泛的統計模型[11]。
1.1.2 隨機截距Logistic回歸(random intercept,RI)
當把不同中心的數據聚集后進行研究時,不同的結果頻率(即基線風險所致)帶來的異質性可能是一個比較突出的問題,可能需要在模型中進行不同的截距設置,而RI可以允許通過截距的變化來模擬跨中心數據集的事件發生率的異質性。基于這種情況,除對預測因子的系數β和總體的截距α進行估計外還需要估計一個額外的參數:隨機截距的方差τ2。這里可以考慮這個隨機中心的截距服從均值為0的正態分布。具體公式如下:
![]() |
1.1.3 固定效應模型(fixed effects model,FEM)
FEM與RI一樣,對多中心數據的多層結構也能很好地用模型進行解釋[17]。它與RI的不同之處在于不是通過構建隨機截距或者隨機系數來對更高層級的效應進行建模,而是直接把中心作為啞變量來構建模型。具體公式表達如下:
![]() |
是
個中心的對應的各自的結局變量組成的
的向量,
是由許多預測因子組成的
的矩陣,
是由對應的預測因子的回歸系數組成的
的向量,
是將中心作為啞變量編碼而組成的
的矩陣,
是對應的特定中心的截距值組成的
的向量,
是由殘差組成的
的向量,通常滿足正態分布。由于在FEM中,中心協變量考慮了所有中心級方差,所以
等價于RI中的第一層級的殘差方差
。因為FEM中不存在隨機效應,所以其參數值都可以直接通過最小二乘法進行估計。
1.2 模型驗證和性能評估指標
本文主要是從模擬研究的角度出發,因而對于模型性能的考量是從區分度和校準度兩個不同的方向進行評估。其中,區分度是一種衡量預測模型在多大程度上能夠區分結局事件(感興趣事件)發生和不發生的能力,其統計量采用C-index值。C-index值越接近1,表示模型越能區分出發生或者不發生結局事件的個體的能力;其值越接近0.5,表示該模型的預測效果很不理想,對于結局事件發生概率的預測可能就跟拋硬幣做選擇差不多。校準度的評價選擇了校準截距(calibration intercept)和校準斜率(calibration slope)。理想情況下校準截距a=0且校準斜率b=1。如果校準截距a<0,表示預測概率平均被高估;如果a>0,意味著預測概率被平均低估。校準斜率b<1表示出現過擬合,模型的預測結果與實際觀察結果相比太過于極端(對高危患者出現了太過于高的估計概率接近1;對低危患者出現了太過于低的估計概率接近0);而b>1表示欠擬合,預測的概率太適中(對高危患者預測不夠高,對低危患者預測不夠低,即與拋硬幣概率差不多)。為了體現預測模型在各中心層面的預測準確性,性能評估也是在各中心層面開展。
2 模擬研究
2.1 模擬設計
在模擬研究中,本文比較了RI與SLR、FEM和RF模型在多中心驗證數據中的各自的平均性能,具體流程見圖1。

場景
2.2 模擬數據
本文通過模擬分別生成了兩個基本源人群,兩個源人群的內部數據分別為高度聚類(組內相關系數ICC=20%)和輕度聚類(組內相關系數ICC=5%)[18-19],每個源人群都是由100個中心的數據組合而成。利用泊松分布為每個中心單獨隨機生成一個值從而得到每個中心的患者數
,產生的中心患者數量的區間范圍在300~1 000例之間。
對于每名患者的預測因子,通過一個預先定義的存在一個真實的隨機截距的混合效應模型模擬生成源人群數據。具體來說,為每個中心分配了一個隨機中心的截距,它是通過均值為0,方差值由不同的組內相關系數(intraclass correlation coefficient,ICC)值決定的正態分布生成(ICC
,
表示中心之間方差,
表示中心內方差常取常數
),其值量化了結果變化的比例多少可歸因于中心之間對于結果的系統性差異。模型最終包括6個正態分布的連續性預測因子和2個二分類預測因子,每個預測因子的
系數都設為0.7。先將結果事件
的發生率控制在一個平均范圍30%左右。對于每個患者二分類結局的預測,根據生成的預測器和隨機截距計算事件的發生概率
。將得到的
值與利用均勻分布隨機產生的值進行比較,生成結果事件
:
![]() |
2.3 模擬場景
基于兩個源人群數據,本文主要通過改變中心總數()和每個中心患者數(
)這兩基本參來模擬不同的場景,然后對訓練集進行重新抽樣。這里,中心總數的數量模擬為固定值5或50,每個中心患者數也模擬為固定值50或300例。這會產生8個基本場景(表1),因為訓練集的大小是由這兩個基本參數決定的,每種場景下的樣本在250~15 000例之間變化。本文的抽樣沒有對中心進行分層,對所有的中心患者的抽取采用無置換的方式。除此之外,由于臨床上罕見病和多發病也很常見,本文也額外模擬了這兩類人群的場景,分別控制事件發生率為5%和50%。

2.4 建立模型
每個場景重復500次抽樣,這樣每個場景的模擬分析都是基于500個訓練集樣本的結果。在每一個訓練集樣本中,本文分別擬合了RI、SLR、FEM和RF。正如前面學者總結[20],SLR和RF只做邊緣預測,即預測結果是在人群整體水平上作解釋。RI和FEM可以得到每個中心的不同截距,可以對特定中心的患者得到條件預測。RI可獲得三種類型的預測:使用特定中心隨機效應的隨機截距模型條件預測(C.RI)、使用平均中心隨機效應的隨機截距模型條件預測(A.RI)和使用積分法推導隨機效應的隨機截距模型邊緣預測(M.RI)。考慮中心為啞變量的固定效應模型(FEM)同樣也可獲得這三種預測結果。SLR和RF不考慮中心聚集效應,得到的是邊緣預測的結果。最后,將源總體其余部分作為結論驗證。
2.5 模型驗證以及性能評估
本研究對于預測模型平均性能的驗證主要應用自舉法(bootstrap),如圖1所示根據所設計的不同場景從底層樣本中重復抽取多個數據集,形成多個bootstrap數據集,利用每個bootstrap樣本構建一個預測模型,在bootstrap樣本和剩余源總體都對模型性能進行評估,前者作為內部驗證結果,后者作為在新患者中的驗證結果。由于每個數據集的大小和規模相同,所假設場景下的數據是本文感興趣的人群整體,通過多次重復的過程,bootstrap樣本可以代表該潛在人群整體的樣本。
本文所有的模擬和計算都是基于R軟件實現,軟件版本號為4.2.0。
3 結果
3.1 正常事件發生率下模擬結果
構建預測模型的目的是在實際環境中進行應用,研究者希望對特定中心中特定個體的健康狀況進行預測,因此主要使用中心內C-index、校準斜率和校準截距在不同中心聚集效應水平下[11]進行驗證(圖2和圖3)。對于中心之間校準性能異質性的研究,本文計算了中心水平的校準截距和斜率的均值和標準差(表2)。

注:抽樣的源人群的ICC值為5%;箱線圖是對模型進行500次擬合驗證得到的值繪制。

注:抽樣的源人群的ICC值為20%;箱線圖是對模型進行500次擬合驗證得到的值繪制。

無論在高度聚類數據(ICC=20%)還是低聚類數據(ICC=5%)情況下,在中心水平下,不同模型(除RF外)在中心聚集效應下的區分度在不同場景下差異不大,其C-index均值變化很小(圖2和圖3)。不過明顯看出當中心數較多時即需要估計多個中心效應時,模型的區分度整體上升。
對于不同模型的校準度驗證,首先從校準截距來看,發現利用條件預測的模型(FEM、A.RI和C.RI)除了在場景(50中心,50患者/中心)中FEM的校準截距略大于零,這可能與中心數較多低估了平均預測概率;在其他場景下校準截距基本都為0,說明得到了很好的校準。針對不同的中心聚集效應即對圖2與圖3中的校準截距的對比變化趨勢下發現,利用邊緣預測的模型(M.RI、SLR和RF)的校準截距是略微小于0的,說明邊緣預測模型對預測的平均概率有一定的高估。其中RF則在多中心大樣本條件下表現很優越,這也體現了機器學習算法處理大樣本數據的優勢。
對于校準斜率方面,理想情況下校準斜率應該為1。在本文的模擬中特別需要注意的是在利用大樣本數據(50中心,300患者/中心)開發預測模型時,3個條件預測模型(FEM、A.RI、C.RI)校準較好,而邊緣預測模型(M.RI和SLR)校準斜率大于1出現了欠擬合的問題,且隨著中心聚集效應增加,欠擬合的問題越發凸顯(圖2與圖3趨勢對比),這恰好說明邊緣預測的概率太過于適中。另外在樣本量較小時,會出現過擬合的問題即校準斜率會小于1。同樣在場景(5中心,50患者/中心)中所有模型也普遍出現了過擬合情況(圖2和圖3),然而本文發現邊緣預測與條件預測相比校準斜率反而更接近1,這種情況的出現大概因為過擬合掩蓋了邊緣預測對校準斜率的不利影響。最后在場景(50中心,50患者/中心)發現FEM的校準斜率略小于1,也出現了過擬合,這可能與FEM在這種情況下有很多中心水平的啞變量需要估計,但每個中心相關的樣本量不足所致。
3.2 極端事件發生率下模擬結果
利用場景4和場景8~12總體對比了存在中心聚集效應時對模型性能的影響在不同發病率下的變化趨勢。因為臨床上大樣本數據很常見,所以這里把樣本量規模進行了統一(50中心,300患者/中心)。本文發現事件率的變化對中心聚集效應對模型C-index的影響變化不大,只有在較低發病率情況下,低聚類數據與高聚類數據相比C-index略微提高。對于本文前述的當存在中心聚集效應影響時邊緣模型的校準截距會略小于0的情況,在圖4中也看到了同樣的情況。而且我們發現當隨著發病率增加時,中心聚集效應對校準截距的影響會逐漸變小,這也提醒我們在將一個環境中擬合的預測模型應用到新的環境時需要考慮疾病流行率的影響,即需要對模型進行校準更新。此外本文發現,邊緣模型在不同中心聚集效應下會略微提高校準斜率,其影響因素并不包括發病率的變化,這可能與本文模擬的條件有關,即本研究沒有考慮模型斜率的變化,然而實際情況中復雜的病例組合等因素會影響中心之間的異質性。

注:
4 討論
本模擬研究比較了SLR、FEM、RI和RF在存在中心聚集效應時真實的預測性能變化,其中在平均事件率下本文模擬的開發樣本的大小是不同的,而且增加了中心聚集效應在其中的高低變化影響。在極端事件率情況下本文使用了臨床上常見的多中心大樣本數據規模,觀測不同中心聚集效應對模型性能的影響。FEM、C.RI和A.RI根據中心的不同得到了條件預測;SLR和M.RI進行邊緣預測。
模擬結果表明,在中心水平當存在較低中心聚集效應時條件預測與邊緣預測的性能差異不是很大,當中心間存在較大差異時,條件預測模型是更合適的,尤其適用于罕見病的預測。雖然在區分度方面條件預測與邊緣預測結果近似,但在校準方面條件預測可以避免對結果的過高和過低的估計。而且邊緣預測的概率太適中即對高危患者預測不夠高,低危患者預測不夠低。本文在Laure Wynants和Nora Falconieri等模擬的結果基礎上[1,11],不僅把RF與傳統的統計模型在預測性能上進行了橫向對比,而且把不同發病率對中心聚集效應對不同模型的性能的影響進一步作了模擬比較。
當存在較高中心聚集效應時,條件預測模型(FEM,C.RI和A.RI)性能之間非常接近。但當中心數較少時,RI的條件預測是略差于FEM的;不過在中心多患者少時,RI的條件預測是明顯優于FEM,這種差異在低發病率情況下更突出。特別的在中心較多樣本量較大時,邊緣預測模型RF的預測性能能夠與條件預測模型相接近,對于本研究模擬中RF模型的區分度與其他模型相比差異很大,本研究認為有如下幾個原因:① 本文的源數據是基于回歸模型的方式生成的,由于機器學習算法的“黑箱”理論無法精準地提取所構建模型的系數,所以在用此類數據建模時,更傾向于構建回歸模型。② 模型的收斂準則,RF的收斂問題并不簡單,沒有對RF進行收斂準則的要求,致使部分抽樣數據的結果對模型的平均效應造成了混雜。③ 由于機器學習算法在處理多中心聚集性數據方面,沒有太多的理論知識支持。本文選擇最常用的經典的RF在處理多中心數據時也沒有進行相關參數的調整,都是利用算法參數的默認值,沒有對模型進行優化。基于以上原因,也提示研究者在利用機器學習建立預測模型時,多中心的數據聚集性或者異質性評價是非常有必要開展的。
模型的開發是最主要的目的是輔助臨床醫生做出更好的決策。通過本文的模擬也不難發現,在特定環境下應用條件預測模型是明顯優于邊緣預測的。雖然條件預測也有自己的缺點,如針對不包含在訓練集中的中心即應用于一個新的中心時,沒有可用的截距進行模型更新。由于本文把所有剩余部分數據(包括了部分未應用于訓練集的其他中心數據)都作為驗證集進行模型性能驗證,所以從本文的結果中也能看出即便是來自于新中心的患者,應用將截距為0的RI和將所有截距取平均值的FEM預測的性能在中心水平也比邊緣預測模型性能更優。這意味著,針對新中心患者使用平均中心效應模型比使用邊緣模型能產生更好的預測結果。
目前,在構建多中心預測模型時,違反數據獨立性假設忽視中心聚集效應的情況很常見。本研究結果表明,RI或FEM在校準度上優于SLR,而且這種情況在疾病的流行率較低時更明顯。因此我們建議,在中心數較少時,在中心水平進行預測時可采用FEM預測;當中心數較多、樣本量較大時,在特定環境下進行預測時可選擇RI或FEM進行條件預測;在對新中心數據進行預測時,通過假設平均隨機截距的RI也能得到很好的預測結果;而在中心較多、樣本量較大時,邊緣預測模型RF在中心層面亦可得到較好的預測結果。
聲明 本文不存在任何利益沖突。
臨床預測模型主要用于預測疾病發生(診斷)和發展(預后)過程中重要事件發生的概率,從而為臨床醫生和患者進一步制定預防和治療策略提供依據[1]。隨著網絡的飛速發展,建立現代大型電子健康檔案(electronic health records,EHR)變得越來越方便[2],社區與醫院之間的患者個體數據(individual participant data,IPD)也越來越容易獲得[3],數據共享在臨床研究中已經默契達成共識[4]。基于多中心數據共享背景下,利用多中心數據開發預測模型變得越來越普遍。
由于區域人口差異或不同的診療模式等實際情況的存在,不同中心間數據會有一定的異質性,用多中心數據建模有一個好處是可以增加結果的可推廣性和減少數據收集的時間[5],為開發模型的可泛化性提供了可能[6]。但這些多中心數據或多或少地存在著聚集,呈現出一個明顯的多水平結構,因此聚集的多中心數據為統計分析帶來了額外的方法學挑戰[7-8]。用于模型開發研究的數據經常集中在中心(醫院)內[9],即便將患者特征考慮在內,同一中心的兩個觀察結果往往比來自不同中心的兩個觀察結果更相似[10],這一事實導致了同一中心內數據之間的相關性,這就是所謂的中心聚集效應(clustering)。這種中心聚集效應違反了大多數回歸模型的假設—觀察結果的獨立性,所以不能再假設患者是獨立的[11]。從統計的角度,由于中心內的觀測結果不能提供完全獨立的信息,實際的有效樣本量就會減少,因而在做多中心預測模型的開發和驗證時,在推導預測性能之間差異時,總會發現有一部分異質性無法解釋[10],例如結局變量在考慮到所有測量的解釋變量的影響后仍有偏倚,可以把這種影響歸結為中心聚集效應所致。若把多中心數據看成一個整體,直接合并數據集開發預測模型,會掩蓋了中心聚集效應的作用,可能會對回歸分析的統計推斷的精準度產生偏差[12]。
模型應該反映數據結構,多中心數據帶來的中心聚集效應對不同模型預測性能精準度的影響如何,需要在建模前有一個可以借鑒的參考框架。雖然也有很多學者呼吁要重視這方面的研究,但目前沒有達成共識[13-15]。迄今為止的文獻還沒足夠多證據證明預測模型處理多中心數據時,因中心聚集效應的存在會對模型性能的估計產生多大的偏差及影響偏差的決定因素。同時除了傳統的統計模型以外,機器學習算法中如經典的隨機森林算法(random forest algorithm,RF)在處理中心間異質性的表現也未見相關理論和模擬研究。對于在中心內部與中心之間異質性的變化程度,如何從模型的開發、模型的驗證以及模型性能的評估這幾方面系統構建框架分析。已有部分學者進行了這方面研究[11,16],本文將在以往模擬研究的基礎上,在更多的模擬條件和更廣泛的預測模型上開展模擬比較研究,以便為后續研究和實際的臨床應用提供更多參考。
1 研究方法
1.1 常用的建模算法
1.1.1 標準Logistic回歸(standard logistic regression,SLR)
首先考慮構建一個忽略中心聚集效應的SLR模型。Logistic回歸模型的構建方法簡便靈活,它可以合并二分類、多分類、連續性變量、非線性轉換以及交互項的實現。其中在二分類結局中SLR是使用最廣泛的統計模型[11]。
1.1.2 隨機截距Logistic回歸(random intercept,RI)
當把不同中心的數據聚集后進行研究時,不同的結果頻率(即基線風險所致)帶來的異質性可能是一個比較突出的問題,可能需要在模型中進行不同的截距設置,而RI可以允許通過截距的變化來模擬跨中心數據集的事件發生率的異質性。基于這種情況,除對預測因子的系數β和總體的截距α進行估計外還需要估計一個額外的參數:隨機截距的方差τ2。這里可以考慮這個隨機中心的截距服從均值為0的正態分布。具體公式如下:
![]() |
1.1.3 固定效應模型(fixed effects model,FEM)
FEM與RI一樣,對多中心數據的多層結構也能很好地用模型進行解釋[17]。它與RI的不同之處在于不是通過構建隨機截距或者隨機系數來對更高層級的效應進行建模,而是直接把中心作為啞變量來構建模型。具體公式表達如下:
![]() |
是
個中心的對應的各自的結局變量組成的
的向量,
是由許多預測因子組成的
的矩陣,
是由對應的預測因子的回歸系數組成的
的向量,
是將中心作為啞變量編碼而組成的
的矩陣,
是對應的特定中心的截距值組成的
的向量,
是由殘差組成的
的向量,通常滿足正態分布。由于在FEM中,中心協變量考慮了所有中心級方差,所以
等價于RI中的第一層級的殘差方差
。因為FEM中不存在隨機效應,所以其參數值都可以直接通過最小二乘法進行估計。
1.2 模型驗證和性能評估指標
本文主要是從模擬研究的角度出發,因而對于模型性能的考量是從區分度和校準度兩個不同的方向進行評估。其中,區分度是一種衡量預測模型在多大程度上能夠區分結局事件(感興趣事件)發生和不發生的能力,其統計量采用C-index值。C-index值越接近1,表示模型越能區分出發生或者不發生結局事件的個體的能力;其值越接近0.5,表示該模型的預測效果很不理想,對于結局事件發生概率的預測可能就跟拋硬幣做選擇差不多。校準度的評價選擇了校準截距(calibration intercept)和校準斜率(calibration slope)。理想情況下校準截距a=0且校準斜率b=1。如果校準截距a<0,表示預測概率平均被高估;如果a>0,意味著預測概率被平均低估。校準斜率b<1表示出現過擬合,模型的預測結果與實際觀察結果相比太過于極端(對高危患者出現了太過于高的估計概率接近1;對低危患者出現了太過于低的估計概率接近0);而b>1表示欠擬合,預測的概率太適中(對高危患者預測不夠高,對低危患者預測不夠低,即與拋硬幣概率差不多)。為了體現預測模型在各中心層面的預測準確性,性能評估也是在各中心層面開展。
2 模擬研究
2.1 模擬設計
在模擬研究中,本文比較了RI與SLR、FEM和RF模型在多中心驗證數據中的各自的平均性能,具體流程見圖1。

場景
2.2 模擬數據
本文通過模擬分別生成了兩個基本源人群,兩個源人群的內部數據分別為高度聚類(組內相關系數ICC=20%)和輕度聚類(組內相關系數ICC=5%)[18-19],每個源人群都是由100個中心的數據組合而成。利用泊松分布為每個中心單獨隨機生成一個值從而得到每個中心的患者數
,產生的中心患者數量的區間范圍在300~1 000例之間。
對于每名患者的預測因子,通過一個預先定義的存在一個真實的隨機截距的混合效應模型模擬生成源人群數據。具體來說,為每個中心分配了一個隨機中心的截距,它是通過均值為0,方差值由不同的組內相關系數(intraclass correlation coefficient,ICC)值決定的正態分布生成(ICC
,
表示中心之間方差,
表示中心內方差常取常數
),其值量化了結果變化的比例多少可歸因于中心之間對于結果的系統性差異。模型最終包括6個正態分布的連續性預測因子和2個二分類預測因子,每個預測因子的
系數都設為0.7。先將結果事件
的發生率控制在一個平均范圍30%左右。對于每個患者二分類結局的預測,根據生成的預測器和隨機截距計算事件的發生概率
。將得到的
值與利用均勻分布隨機產生的值進行比較,生成結果事件
:
![]() |
2.3 模擬場景
基于兩個源人群數據,本文主要通過改變中心總數()和每個中心患者數(
)這兩基本參來模擬不同的場景,然后對訓練集進行重新抽樣。這里,中心總數的數量模擬為固定值5或50,每個中心患者數也模擬為固定值50或300例。這會產生8個基本場景(表1),因為訓練集的大小是由這兩個基本參數決定的,每種場景下的樣本在250~15 000例之間變化。本文的抽樣沒有對中心進行分層,對所有的中心患者的抽取采用無置換的方式。除此之外,由于臨床上罕見病和多發病也很常見,本文也額外模擬了這兩類人群的場景,分別控制事件發生率為5%和50%。

2.4 建立模型
每個場景重復500次抽樣,這樣每個場景的模擬分析都是基于500個訓練集樣本的結果。在每一個訓練集樣本中,本文分別擬合了RI、SLR、FEM和RF。正如前面學者總結[20],SLR和RF只做邊緣預測,即預測結果是在人群整體水平上作解釋。RI和FEM可以得到每個中心的不同截距,可以對特定中心的患者得到條件預測。RI可獲得三種類型的預測:使用特定中心隨機效應的隨機截距模型條件預測(C.RI)、使用平均中心隨機效應的隨機截距模型條件預測(A.RI)和使用積分法推導隨機效應的隨機截距模型邊緣預測(M.RI)。考慮中心為啞變量的固定效應模型(FEM)同樣也可獲得這三種預測結果。SLR和RF不考慮中心聚集效應,得到的是邊緣預測的結果。最后,將源總體其余部分作為結論驗證。
2.5 模型驗證以及性能評估
本研究對于預測模型平均性能的驗證主要應用自舉法(bootstrap),如圖1所示根據所設計的不同場景從底層樣本中重復抽取多個數據集,形成多個bootstrap數據集,利用每個bootstrap樣本構建一個預測模型,在bootstrap樣本和剩余源總體都對模型性能進行評估,前者作為內部驗證結果,后者作為在新患者中的驗證結果。由于每個數據集的大小和規模相同,所假設場景下的數據是本文感興趣的人群整體,通過多次重復的過程,bootstrap樣本可以代表該潛在人群整體的樣本。
本文所有的模擬和計算都是基于R軟件實現,軟件版本號為4.2.0。
3 結果
3.1 正常事件發生率下模擬結果
構建預測模型的目的是在實際環境中進行應用,研究者希望對特定中心中特定個體的健康狀況進行預測,因此主要使用中心內C-index、校準斜率和校準截距在不同中心聚集效應水平下[11]進行驗證(圖2和圖3)。對于中心之間校準性能異質性的研究,本文計算了中心水平的校準截距和斜率的均值和標準差(表2)。

注:抽樣的源人群的ICC值為5%;箱線圖是對模型進行500次擬合驗證得到的值繪制。

注:抽樣的源人群的ICC值為20%;箱線圖是對模型進行500次擬合驗證得到的值繪制。

無論在高度聚類數據(ICC=20%)還是低聚類數據(ICC=5%)情況下,在中心水平下,不同模型(除RF外)在中心聚集效應下的區分度在不同場景下差異不大,其C-index均值變化很小(圖2和圖3)。不過明顯看出當中心數較多時即需要估計多個中心效應時,模型的區分度整體上升。
對于不同模型的校準度驗證,首先從校準截距來看,發現利用條件預測的模型(FEM、A.RI和C.RI)除了在場景(50中心,50患者/中心)中FEM的校準截距略大于零,這可能與中心數較多低估了平均預測概率;在其他場景下校準截距基本都為0,說明得到了很好的校準。針對不同的中心聚集效應即對圖2與圖3中的校準截距的對比變化趨勢下發現,利用邊緣預測的模型(M.RI、SLR和RF)的校準截距是略微小于0的,說明邊緣預測模型對預測的平均概率有一定的高估。其中RF則在多中心大樣本條件下表現很優越,這也體現了機器學習算法處理大樣本數據的優勢。
對于校準斜率方面,理想情況下校準斜率應該為1。在本文的模擬中特別需要注意的是在利用大樣本數據(50中心,300患者/中心)開發預測模型時,3個條件預測模型(FEM、A.RI、C.RI)校準較好,而邊緣預測模型(M.RI和SLR)校準斜率大于1出現了欠擬合的問題,且隨著中心聚集效應增加,欠擬合的問題越發凸顯(圖2與圖3趨勢對比),這恰好說明邊緣預測的概率太過于適中。另外在樣本量較小時,會出現過擬合的問題即校準斜率會小于1。同樣在場景(5中心,50患者/中心)中所有模型也普遍出現了過擬合情況(圖2和圖3),然而本文發現邊緣預測與條件預測相比校準斜率反而更接近1,這種情況的出現大概因為過擬合掩蓋了邊緣預測對校準斜率的不利影響。最后在場景(50中心,50患者/中心)發現FEM的校準斜率略小于1,也出現了過擬合,這可能與FEM在這種情況下有很多中心水平的啞變量需要估計,但每個中心相關的樣本量不足所致。
3.2 極端事件發生率下模擬結果
利用場景4和場景8~12總體對比了存在中心聚集效應時對模型性能的影響在不同發病率下的變化趨勢。因為臨床上大樣本數據很常見,所以這里把樣本量規模進行了統一(50中心,300患者/中心)。本文發現事件率的變化對中心聚集效應對模型C-index的影響變化不大,只有在較低發病率情況下,低聚類數據與高聚類數據相比C-index略微提高。對于本文前述的當存在中心聚集效應影響時邊緣模型的校準截距會略小于0的情況,在圖4中也看到了同樣的情況。而且我們發現當隨著發病率增加時,中心聚集效應對校準截距的影響會逐漸變小,這也提醒我們在將一個環境中擬合的預測模型應用到新的環境時需要考慮疾病流行率的影響,即需要對模型進行校準更新。此外本文發現,邊緣模型在不同中心聚集效應下會略微提高校準斜率,其影響因素并不包括發病率的變化,這可能與本文模擬的條件有關,即本研究沒有考慮模型斜率的變化,然而實際情況中復雜的病例組合等因素會影響中心之間的異質性。

注:
4 討論
本模擬研究比較了SLR、FEM、RI和RF在存在中心聚集效應時真實的預測性能變化,其中在平均事件率下本文模擬的開發樣本的大小是不同的,而且增加了中心聚集效應在其中的高低變化影響。在極端事件率情況下本文使用了臨床上常見的多中心大樣本數據規模,觀測不同中心聚集效應對模型性能的影響。FEM、C.RI和A.RI根據中心的不同得到了條件預測;SLR和M.RI進行邊緣預測。
模擬結果表明,在中心水平當存在較低中心聚集效應時條件預測與邊緣預測的性能差異不是很大,當中心間存在較大差異時,條件預測模型是更合適的,尤其適用于罕見病的預測。雖然在區分度方面條件預測與邊緣預測結果近似,但在校準方面條件預測可以避免對結果的過高和過低的估計。而且邊緣預測的概率太適中即對高危患者預測不夠高,低危患者預測不夠低。本文在Laure Wynants和Nora Falconieri等模擬的結果基礎上[1,11],不僅把RF與傳統的統計模型在預測性能上進行了橫向對比,而且把不同發病率對中心聚集效應對不同模型的性能的影響進一步作了模擬比較。
當存在較高中心聚集效應時,條件預測模型(FEM,C.RI和A.RI)性能之間非常接近。但當中心數較少時,RI的條件預測是略差于FEM的;不過在中心多患者少時,RI的條件預測是明顯優于FEM,這種差異在低發病率情況下更突出。特別的在中心較多樣本量較大時,邊緣預測模型RF的預測性能能夠與條件預測模型相接近,對于本研究模擬中RF模型的區分度與其他模型相比差異很大,本研究認為有如下幾個原因:① 本文的源數據是基于回歸模型的方式生成的,由于機器學習算法的“黑箱”理論無法精準地提取所構建模型的系數,所以在用此類數據建模時,更傾向于構建回歸模型。② 模型的收斂準則,RF的收斂問題并不簡單,沒有對RF進行收斂準則的要求,致使部分抽樣數據的結果對模型的平均效應造成了混雜。③ 由于機器學習算法在處理多中心聚集性數據方面,沒有太多的理論知識支持。本文選擇最常用的經典的RF在處理多中心數據時也沒有進行相關參數的調整,都是利用算法參數的默認值,沒有對模型進行優化。基于以上原因,也提示研究者在利用機器學習建立預測模型時,多中心的數據聚集性或者異質性評價是非常有必要開展的。
模型的開發是最主要的目的是輔助臨床醫生做出更好的決策。通過本文的模擬也不難發現,在特定環境下應用條件預測模型是明顯優于邊緣預測的。雖然條件預測也有自己的缺點,如針對不包含在訓練集中的中心即應用于一個新的中心時,沒有可用的截距進行模型更新。由于本文把所有剩余部分數據(包括了部分未應用于訓練集的其他中心數據)都作為驗證集進行模型性能驗證,所以從本文的結果中也能看出即便是來自于新中心的患者,應用將截距為0的RI和將所有截距取平均值的FEM預測的性能在中心水平也比邊緣預測模型性能更優。這意味著,針對新中心患者使用平均中心效應模型比使用邊緣模型能產生更好的預測結果。
目前,在構建多中心預測模型時,違反數據獨立性假設忽視中心聚集效應的情況很常見。本研究結果表明,RI或FEM在校準度上優于SLR,而且這種情況在疾病的流行率較低時更明顯。因此我們建議,在中心數較少時,在中心水平進行預測時可采用FEM預測;當中心數較多、樣本量較大時,在特定環境下進行預測時可選擇RI或FEM進行條件預測;在對新中心數據進行預測時,通過假設平均隨機截距的RI也能得到很好的預測結果;而在中心較多、樣本量較大時,邊緣預測模型RF在中心層面亦可得到較好的預測結果。
聲明 本文不存在任何利益沖突。