生存資料是腫瘤臨床研究中最為常用的終點指標,常用的生存資料分析方法log-rank檢驗、Cox回歸模型均需滿足等比例風險假定。然而,非比例風險(NPH)的生存資料十分常見,會導致常用方法的檢驗效能下降,進而掩蓋研究結果的真實性。因此,在研究方案設計階段,需進行生存資料非比例風險檢驗,并根據是否滿足比例風險這一條件,分別采用相應的統計分析方法。本研究介紹了非比例風險的常用檢驗方法及其來源,并總結歸納了非比例風險生存分析方法的應用條件及其優缺點。當生存資料呈現非比例風險時,需根據實際情況進行選擇,并謹慎解讀結果。
引用本文: 黃麗紅, 言方榮, 買亞兵, 劉梅若, 胡含曌, 陳峰. 腫瘤臨床研究中非比例風險生存資料的統計分析. 中國循證醫學雜志, 2023, 23(7): 826-833. doi: 10.7507/1672-2531.202209119 復制
新型抗腫瘤藥物的批準上市或新的治療方案在臨床上廣泛應用之前,必須經過設計合理的臨床試驗確證其是否能夠帶來臨床獲益,包括生存期的延長和/或生活質量的提高。目前總生存時間(overall survival,OS)被廣泛接受作為評價腫瘤治療效應的金標準,另外無進展生存期(progression-free survival,PFS)、無病生存時間(disease-free survival,DFS)、腫瘤進展時間(time to progression,TTP)等也是常用的終點指標。這類指標均為生存資料(survival data),包含受試者的結局(例如:生存或死亡)以及從治療開始到發生結局的“生存時間”信息,具有定量和定性的雙重性質。由于生存資料的特殊性,需要采用生存分析的方法進行分析。
生存分析已經形成了一套較為完善的理論體系,內容包括:生存過程的描述,生存過程的比較,影響生存時間因素的分析。腫瘤臨床試驗中最為常用的分析策略是采用Kaplan-Meier曲線進行描述,采用log-rank檢驗進行生存過程的比較,采用Cox比例風險模型進行效應量(相對危險度)的估計,但是log-rank檢驗和Cox比例風險模型均要求滿足等比例風險的假設,而這一要求在既往臨床應用過程中常被忽視。隨著腫瘤臨床試驗的不斷發展,尤其在免疫靶向藥物的研發中,非比例風險的情況越來越常見。本文詳細解讀比例風險假定及非比例風險的概念,介紹常用非比例風險的檢驗方法,并深入探討非比例風險的生存分析方法,旨在推動生存分析在腫瘤臨床試驗領域中的正確應用。
1 生存資料的特點與比例風險假定
腫瘤臨床研究在隨訪結束時,受試者可能有四種隨訪結果:一是觀察到研究所定義的結局,這類患者可以獲得確切的生存時間;二是患者死于其他疾病;三是患者隨訪過程中失去聯系;四是患者至隨訪結束時仍未出現研究所定義的結局。后三種結果雖然原因不同,但都未觀察到完整的生存時間,只觀察到了生存時間的一部分,這部分受試者歸類為失訪或刪失(censor),所提供信息為不完全信息。臨床研究受經費和時間的限制,最終觀察時點是固定的,而不是無限制延長的,臨床研究隨訪模式見圖1。

生存分析(survival analysis)是既考慮完全數據又考慮截尾數據的一類統計分析方法,充分利用了資料提供的信息。在生存分析中,風險函數表示個體在生存過程中,每單位時間死亡的危險度,常用h(t)表示,實際計算時,按下式估計:
![]() |
風險比(hazard ratio)是指同一時點試驗組和對照組的風險函數之比:
![]() |
如果風險比與時間無關,即任何時刻,試驗組和對照組的風險比值是相等的,即風險比不隨時間而改變,稱為等比例風險(proportional hazard)。
生存分析早已形成了一套較為完整的理論方法體系,內容包括:生存過程的描述、生存過程的比較,影響生存時間之因素的分析等。生存過程的描述常用Kaplan-Meier曲線,生存過程的比較常用log-rank檢驗,影響因素的分析常用Cox比例風險模型等。log-rank檢驗和Cox回歸模型均需滿足等比例風險假定,簡稱等比例風險假定。然而在實際腫瘤臨床研究中,是否滿足該假定常被忽略,不滿足等比例風險假定時log-rank檢驗、Cox回歸模型的檢驗統計量效能下降,最終得到的統計學結果可能會掩蓋治療效果的真實性,進而影響研發決策。
2 非比例風險的概念
風險比隨時間變化,則為非比例風險。在臨床試驗中常見的非比例風險模式有:延遲效應(delayed effect)、交叉生存(crossing survival)和遞減效應(diminishing effect),相應生存曲線特征示意圖見圖2。

a:等比例風險;b:延遲效應;c:交叉生存;d:遞減效應。
在腫瘤的免疫治療研究中,由于免疫治療主要作用于自身免疫系統,需激活免疫細胞后啟動抗腫瘤的細胞免疫,該過程需要數天到數周的時間,因而對腫瘤產生的影響常出現延遲效應(圖2b)。
3 比例風險的檢驗
比例風險檢驗是生存資料統計分析過程中的重要步驟,需根據檢驗結果來選擇相應的統計分析方法。最常用的檢驗方法為圖示法和分析法,其中圖示法的應用較為廣泛。
3.1 圖示法
常用的圖示法主要包括:生存曲線圖法、Schoenfeld殘差圖法和Martingale殘差圖法。① 生存曲線圖法:以生存時間為橫坐標,以生存概率為縱坐標即可繪制Kaplan-Meier生存曲線圖[1],或者利用log(-log(生存概率))與log(生存時間)作圖。圖3所示Kaplan-Meier生存曲線交叉,log(-log(生存概率))與log(生存時間)圖形同樣交叉,等比例風險假設不成立。生存曲線圖法簡單易行,但較為主觀,是否成立取決于研究者的主觀判定。② Schoenfeld殘差圖法[2]:如果等比例風險假設成立,Cox模型估算后的殘差,即schoenfeld殘差理論上應隨時間在一條水平線上下波動。如這一線性函數的斜率不等于0(P<0.05),則不符合等比例風險模型。圖4所示schoenfeld殘差圖顯示等比例風險假設成立。③ Martingale殘差(鞅殘差)圖法[3]:如果等比例風險假設成立,累積風險率殘差(即Martingale殘差)與生存時間作圖,同樣應該觀察到該殘差隨時間在一條水平線上下波動。圖5所示的Martingale殘差圖中實際路徑在模擬路徑之外,右下角Kolmogorov-type supremum檢驗P<0.05,不滿足等比例風險假設。



3.2 分析法
分析法最常用的基本思路是采用時間依賴變量(time dependent covariates)的Cox模型。最簡單的時間依賴變量是在經典的Cox模型的基礎引入一個協變量與時間的交互項,即將該協變量與時間相乘,在等比例風險假設滿足的條件下,該相乘項應該沒有統計學意義。
4 非比例風險的分類及來源
非比例風險可分為兩大類,定量交互作用(非交叉交互作用)和定性交互作用(交叉交互作用)。定量交互作用是指風險比在大小上隨時間變化,但在方向上沒有變化;定性交互作用是指風險比隨時間發生方向上的變化。
非比例風險的可能來源:首先,可能來源于治療與時間的交互作用,即隨著時間的改變,治療效應大小發生改變;其次,可能來源于亞組效應,即根據不同的特征將研究人群劃分為不同的亞組進行分析,不同特征人群的治療效果可能不同,出現治療效果的異質性(heterogeneity);另外,非比例風險還可能來源于不可觀察或不可測量的隨機效應。在腫瘤臨床研究中,試驗藥物的延遲效應,患者的疾病進展,轉組(treatment switch)及不同亞組人群的療效差異是非比例風險的主要來源。
5 非比例風險生存過程的比較
在不滿足比例風險的條件下,方法學家提出了很多生存過程假設檢驗的方法,主要有兩大類,一類是基于log-rank檢驗的衍生方法,另一類為基于Kaplan-Meier的衍生方法(圖6)。

采用加權log-rank檢驗[4-6]進行生存過程的比較,此時的理論死亡頻數與實際死亡頻數的比較,采用
![]() |
統計量的計算相較log-rank檢驗增加了權重w(w=1時即為普通的log-rank檢驗),權重的設定方式有Wilcoxon法,Tarone-Ware法,Peto-Peto法和Harrington-Fleming等(各方法權重計算見表1)。其中Harrington-Fleming法的形式較為靈活,得到了一定的推廣,該方法可將權重分成早期生存時間和晚期生存時間2個階段FH(ρ,ν)進行設置,例如將后期生存時間賦予較高權重的方式FH(0,1)應用于延遲效應模式。此外,還有分段加權log-rank檢驗(piecewise weighted log-rank test)、廣義分段加權log-rank檢驗(generalized piecewise weighted log-rank test)以及最大效率穩健檢驗(maximin efficiency robust test,MERT)(權重設定見表1)。分段加權log-rank檢驗[7]及廣義分段加權log-rank檢驗[8]均通過優化權重分配應對延遲效應,對治療效果評價貢獻大的事件子集賦予更高的權重。分段加權log-rank檢驗僅考慮固定的時間滯后效應,廣義分段加權log-rank則考慮每一個個體在某一時間段內發生隨機的時間滯后效應,故更為穩健。MERT的權重函數是對整個數據集的log-rank檢驗和對滯后時間點以外數據的log-rank檢驗的總和,并將更小的權重賦予早期事件,幾乎將所有的權重放在了延遲期之后,但該權重函數包含的未知函數須從歷史數據中估計,且該方法對延遲時間較為敏感,需要事先對延遲時間有較為準確的估計[9]。總體而言,加權log-rank檢驗的優勢在于簡單易行,權重設定方式靈活,當權重選擇恰當時,在非比例風險條件下的檢驗效能明顯優于普通的log-rank檢驗;其劣勢在于如何正確設定權重存在挑戰,在非比例風險條件下如權重設置不當將導致檢驗效能低下。

針對生存資料非比例風險的問題,2018年美國食品藥品監督管理局成立了工作小組,該工作小組提出了Max-Combo檢驗[10]。Max-Combo檢驗方法是多個FH(ρ,ν)設置組合的加權log-rank檢驗。設置FH(0,0)、FH(0,1)、FH(1,0)和FH(1,1)四種權重組合,分別估計檢驗統計量Z1,Z2,Z3和Z4,以Z的最大值作為最終的檢驗結論,即:。Max-Combo檢驗的優勢在于能很好地控制Ⅰ類錯誤,針對不同的非比例風險情形能夠保持檢驗效能的穩健性,但劣勢在于該方法從臨床角度設置權重,缺乏相應的權重估計過程。
加權的Kaplan-Meier檢驗[11]將兩條Kaplan-Meier曲線下面積的差值通過設定一定的分界線進行加權。該方法的優勢在于易于理解,但權重的設定較為主觀,且Kaplan-Meier檢驗效能易受截尾情況的影響。
限制性平均生存時間(restricted mean survival time,RMST)法[12-15]是將生存曲線下直至預定時間點t的面積作為隨訪t時間段內的平均生存時間的估計。將兩組的限制性生存時間的差值或比值作為效應估計值。該方法的優勢在于易于理解,且通過Kaplan-Meier曲線易于估計限制性生存時間,但需要設定預定時間點t,該時間點t的選擇將直接影響檢驗結論。為了解決RMST法中時間點t的選擇的困難,通用RMST(versatile RMST)法[16-17]則能夠允許從一定范圍的時間點中選擇一個能夠最大化兩組差距的最優時間點t,然后基于這個最優時間點t應用RMST法。
上述非比例風險生存過程比較方法的應用條件及優缺點總結見表2部分加權Log-rank檢驗方法在SAS軟件中的proc lifetest已有選項可以實現,例如Wilcoxon法、Tarone-Ware法、Peto-Peto法、modifies Peto-Peto法和Harrington-Fleming法。Max-Combo檢驗可通過R語言中的MAXCOMBO包來實現。RMST則可通過SAS軟件中的proc rmstreg來實現。而其余的非比例風險生存過程的比較方法暫時無法直接使用現成的軟件實現,需要自行編程。

6 非比例風險模型
Cox比例風險模型是生存資料分析最為常用的模型,該模型無需對基線風險作任何限制,為半參數模型(semi-parametric)。在等比例風險的前提下,Cox模型能夠估計時間t時個體暴露于不同危險因素狀態下發病的風險比,又稱相對危險度。
在實際的生存資料中,某些協變量會隨著時間而變化,即不滿足“等比例風險假設”。此時可在傳統的Cox比例風險模型中加入該變量與時間的交互項,以描述其對基線風險函數的影響,即為時間依賴變量的Cox模型。帶有時依協變量(time dependent covariable)的Cox模型可表示為:
![]() |
其次,還可以考慮采用分段比例風險函數模型。雖然等風險比例假定在整個隨訪時間內不成立,但在一個較短的時間段內可能成立,分段模型的思路是將整個生存時間拆分成兩個時間段,每一段擬合一個等比例風險模型。分段比例風險函數模型可表示為:
![]() |
其中,為預設的“變點”,以
作為分割點將時間區間分為兩段[0,
]和(
,∞),每一區間內滿足等比例風險假設。在分段比例風險函數模型中的核心問題是如何合理選擇
,即尋找最佳切割點。常用偏似然法進行選擇,首先設置一系列包含所有可能取值的
值,基于每一個
值擬合Cox模型,同時計算每個Cox模型的對數偏似然,以對數偏似然最大的
作為最終的切割點。
還可采用分層的Cox模型,即按照時依協變量進行分層,每層內分別建立Cox模型。分層變量需為分類型變量,如為連續型變量,需先將其進行分類。分層Cox模型中只是假定分層變量違背比例風險假設,而其他變量仍不違背比例風險假設。
此外,Yang-Prentice模型[18-19]也可用于非比例風險的半參數模型。該模型包含Cox比例風險模型和比例優勢模型(proportional odds model),風險比函數(治療組與對照組的風險函數之比)取決于對照組的生存函數和參數θ1和θ2(分別為短期和長期風險比)。Yang-Prentice風險比函數為單調函數,若θ2>θ1,則Yang-Prentice風險比函數單調遞增,反之則單調遞減,該模型可涵蓋比例風險、延遲效應、交叉風險和遞減效應的不同情境,并適用于時間依賴的治療效果評價。但是,該方法有導致Ⅰ類錯誤膨脹的風險[20-21]。
當延遲時間因患者而異時,可采用延遲時間和事件時間的半參數聯合生存模型(semiparametric joint survival model for delay time and event time)[22]來估計平均延遲時間和延遲后風險比。此時,治療效果不能用單一的HR來評價,而是采用平均延遲時間和延遲后HR。但是,該模型需滿足延遲效應前的風險比為1的假設方可使用。
常用的非比例風險模型的應用條件及優缺點總結見表2。其中時依協變量Cox模型以及分層Cox模型皆可通過SAS軟件中的proc phreg實現。Yang-Prentice模型可通過R語言中的YPPE包來實現。而其余以上提到的非比例風險模型暫時無法直接使用現成的軟件實現,需要自行編程。
7 案例分析(KEYNOTE-042)
KEYNOTE-042[23]是一項隨機、開放標簽的Ⅲ期臨床試驗,受試者為局部晚期或轉移性、PD-L1陽性(TPS≥1)的非小細胞肺癌患者,受試者被1∶1隨機分配到兩個治療組:pembrolizumab單藥治療與標準治療(鉑類化療)。該試驗的主要終點是TPS≥50%、TPS≥20%和TPS≥1%的受試者的OS。次要終點包括TPS≥50%、TPS≥20%和TPS≥1%的受試者的PFS和ORR。該試驗中的針對PD-L1 TPS在1%及以上的人群的PFS曲線為交叉生存曲線,Guyot等[24]在2012年發表的文章中,幫助重建了KEYNOTE-042研究生存曲線的數據,KEYNOTE-042研究的生存曲線交叉,顯然不滿足等比例風險的假定。傳統log-rank檢驗不顯著,HR估計值為1.07。Freidlin等[25]2019年發表的文章幫助理解在該研究的非比例風險的生存數據,使用傳統的等比例風險的檢驗方法與非比例風險的檢驗方法之間的區別及其注意事項,檢驗結果匯總詳見表3。

考慮到免疫腫瘤靶向藥物具有療效滯后的特征,如果在這種免疫治療設置中將后期生存時間賦予較高權重,允許集中比較PFS曲線尾部的分離,如使用late-emphasis Wilcoxon test,則該檢驗拒絕零假設,得到pembrolizumab優效的結果。使用Max-Combo檢驗該案例的交叉生存曲線,得到P<0.01的結果。需要注意的是,當檢驗pembrolizumab相比化療的優效性時,Max-Combo檢驗拒絕原假設,支持pembrolizumab療效優于化療。反之,當檢驗化療相比pembrolizumab的優效性時,Max-Combo檢驗同樣會拒絕原假設,支持化療療效優于pembrolizumab。
該案例中交叉曲線的出現很可能是因為沒有找對正確的人群,Freidlin等[25]2019年發表的文章中也提及盡管曲線表明潛在的亞群可能受益于pembrolizumab,然而該亞群需要前瞻性的研究確定。
8 討論
隨著腫瘤臨床研究的不斷發展,不滿足等比例風險假設的情形越來越普遍,如仍采用傳統的log-rank檢驗和Cox比例風險模型,將會導致檢驗效能下降。本文詳盡介紹了比例風險的檢驗方法以及在不滿足比例風險條件下進行生存過程比較和處理效應估計的常用方法,并對各種方法的優缺點進行了總結,希望能夠促進腫瘤臨床研究中非比例風險生存資料統計分析的規范化應用。
本研究建議在腫瘤臨床研究的試驗設計階段與統計分析計劃撰寫過程中,需根據以往信息,考慮非比例風險的可能性,對生存資料設計進行相應的統計分析,亦可考慮比例風險的檢驗,并根據是否滿足比例風險這一條件,分別描述相應的統計分析方法。在非比例風險的條件下,尤其是出現交叉或者延遲效應時,樣本量仍基于等比例風險假設計算,可根據可能存在的延遲或交叉效應適當調整樣本量,或增加隨訪時間,同時考慮交叉的時間,并且控制刪失率在一個較低的水平。基于Cox模型所得的風險比也仍將作為療效的主要評估方式,與此同時建議考慮不同統計分析方法的敏感性分析[26],同時參考不同非比例風險生存分析方法的應用條件及其優缺點,以選擇合適的分析方法。當使用加權函數時,對于權重選擇尤未重要,權重選擇錯誤可能會導致把握度降低。當我們在對不同分析方法的結果進行解讀的時候,亦需謹慎解讀。
新型抗腫瘤藥物的批準上市或新的治療方案在臨床上廣泛應用之前,必須經過設計合理的臨床試驗確證其是否能夠帶來臨床獲益,包括生存期的延長和/或生活質量的提高。目前總生存時間(overall survival,OS)被廣泛接受作為評價腫瘤治療效應的金標準,另外無進展生存期(progression-free survival,PFS)、無病生存時間(disease-free survival,DFS)、腫瘤進展時間(time to progression,TTP)等也是常用的終點指標。這類指標均為生存資料(survival data),包含受試者的結局(例如:生存或死亡)以及從治療開始到發生結局的“生存時間”信息,具有定量和定性的雙重性質。由于生存資料的特殊性,需要采用生存分析的方法進行分析。
生存分析已經形成了一套較為完善的理論體系,內容包括:生存過程的描述,生存過程的比較,影響生存時間因素的分析。腫瘤臨床試驗中最為常用的分析策略是采用Kaplan-Meier曲線進行描述,采用log-rank檢驗進行生存過程的比較,采用Cox比例風險模型進行效應量(相對危險度)的估計,但是log-rank檢驗和Cox比例風險模型均要求滿足等比例風險的假設,而這一要求在既往臨床應用過程中常被忽視。隨著腫瘤臨床試驗的不斷發展,尤其在免疫靶向藥物的研發中,非比例風險的情況越來越常見。本文詳細解讀比例風險假定及非比例風險的概念,介紹常用非比例風險的檢驗方法,并深入探討非比例風險的生存分析方法,旨在推動生存分析在腫瘤臨床試驗領域中的正確應用。
1 生存資料的特點與比例風險假定
腫瘤臨床研究在隨訪結束時,受試者可能有四種隨訪結果:一是觀察到研究所定義的結局,這類患者可以獲得確切的生存時間;二是患者死于其他疾病;三是患者隨訪過程中失去聯系;四是患者至隨訪結束時仍未出現研究所定義的結局。后三種結果雖然原因不同,但都未觀察到完整的生存時間,只觀察到了生存時間的一部分,這部分受試者歸類為失訪或刪失(censor),所提供信息為不完全信息。臨床研究受經費和時間的限制,最終觀察時點是固定的,而不是無限制延長的,臨床研究隨訪模式見圖1。

生存分析(survival analysis)是既考慮完全數據又考慮截尾數據的一類統計分析方法,充分利用了資料提供的信息。在生存分析中,風險函數表示個體在生存過程中,每單位時間死亡的危險度,常用h(t)表示,實際計算時,按下式估計:
![]() |
風險比(hazard ratio)是指同一時點試驗組和對照組的風險函數之比:
![]() |
如果風險比與時間無關,即任何時刻,試驗組和對照組的風險比值是相等的,即風險比不隨時間而改變,稱為等比例風險(proportional hazard)。
生存分析早已形成了一套較為完整的理論方法體系,內容包括:生存過程的描述、生存過程的比較,影響生存時間之因素的分析等。生存過程的描述常用Kaplan-Meier曲線,生存過程的比較常用log-rank檢驗,影響因素的分析常用Cox比例風險模型等。log-rank檢驗和Cox回歸模型均需滿足等比例風險假定,簡稱等比例風險假定。然而在實際腫瘤臨床研究中,是否滿足該假定常被忽略,不滿足等比例風險假定時log-rank檢驗、Cox回歸模型的檢驗統計量效能下降,最終得到的統計學結果可能會掩蓋治療效果的真實性,進而影響研發決策。
2 非比例風險的概念
風險比隨時間變化,則為非比例風險。在臨床試驗中常見的非比例風險模式有:延遲效應(delayed effect)、交叉生存(crossing survival)和遞減效應(diminishing effect),相應生存曲線特征示意圖見圖2。

a:等比例風險;b:延遲效應;c:交叉生存;d:遞減效應。
在腫瘤的免疫治療研究中,由于免疫治療主要作用于自身免疫系統,需激活免疫細胞后啟動抗腫瘤的細胞免疫,該過程需要數天到數周的時間,因而對腫瘤產生的影響常出現延遲效應(圖2b)。
3 比例風險的檢驗
比例風險檢驗是生存資料統計分析過程中的重要步驟,需根據檢驗結果來選擇相應的統計分析方法。最常用的檢驗方法為圖示法和分析法,其中圖示法的應用較為廣泛。
3.1 圖示法
常用的圖示法主要包括:生存曲線圖法、Schoenfeld殘差圖法和Martingale殘差圖法。① 生存曲線圖法:以生存時間為橫坐標,以生存概率為縱坐標即可繪制Kaplan-Meier生存曲線圖[1],或者利用log(-log(生存概率))與log(生存時間)作圖。圖3所示Kaplan-Meier生存曲線交叉,log(-log(生存概率))與log(生存時間)圖形同樣交叉,等比例風險假設不成立。生存曲線圖法簡單易行,但較為主觀,是否成立取決于研究者的主觀判定。② Schoenfeld殘差圖法[2]:如果等比例風險假設成立,Cox模型估算后的殘差,即schoenfeld殘差理論上應隨時間在一條水平線上下波動。如這一線性函數的斜率不等于0(P<0.05),則不符合等比例風險模型。圖4所示schoenfeld殘差圖顯示等比例風險假設成立。③ Martingale殘差(鞅殘差)圖法[3]:如果等比例風險假設成立,累積風險率殘差(即Martingale殘差)與生存時間作圖,同樣應該觀察到該殘差隨時間在一條水平線上下波動。圖5所示的Martingale殘差圖中實際路徑在模擬路徑之外,右下角Kolmogorov-type supremum檢驗P<0.05,不滿足等比例風險假設。



3.2 分析法
分析法最常用的基本思路是采用時間依賴變量(time dependent covariates)的Cox模型。最簡單的時間依賴變量是在經典的Cox模型的基礎引入一個協變量與時間的交互項,即將該協變量與時間相乘,在等比例風險假設滿足的條件下,該相乘項應該沒有統計學意義。
4 非比例風險的分類及來源
非比例風險可分為兩大類,定量交互作用(非交叉交互作用)和定性交互作用(交叉交互作用)。定量交互作用是指風險比在大小上隨時間變化,但在方向上沒有變化;定性交互作用是指風險比隨時間發生方向上的變化。
非比例風險的可能來源:首先,可能來源于治療與時間的交互作用,即隨著時間的改變,治療效應大小發生改變;其次,可能來源于亞組效應,即根據不同的特征將研究人群劃分為不同的亞組進行分析,不同特征人群的治療效果可能不同,出現治療效果的異質性(heterogeneity);另外,非比例風險還可能來源于不可觀察或不可測量的隨機效應。在腫瘤臨床研究中,試驗藥物的延遲效應,患者的疾病進展,轉組(treatment switch)及不同亞組人群的療效差異是非比例風險的主要來源。
5 非比例風險生存過程的比較
在不滿足比例風險的條件下,方法學家提出了很多生存過程假設檢驗的方法,主要有兩大類,一類是基于log-rank檢驗的衍生方法,另一類為基于Kaplan-Meier的衍生方法(圖6)。

采用加權log-rank檢驗[4-6]進行生存過程的比較,此時的理論死亡頻數與實際死亡頻數的比較,采用
![]() |
統計量的計算相較log-rank檢驗增加了權重w(w=1時即為普通的log-rank檢驗),權重的設定方式有Wilcoxon法,Tarone-Ware法,Peto-Peto法和Harrington-Fleming等(各方法權重計算見表1)。其中Harrington-Fleming法的形式較為靈活,得到了一定的推廣,該方法可將權重分成早期生存時間和晚期生存時間2個階段FH(ρ,ν)進行設置,例如將后期生存時間賦予較高權重的方式FH(0,1)應用于延遲效應模式。此外,還有分段加權log-rank檢驗(piecewise weighted log-rank test)、廣義分段加權log-rank檢驗(generalized piecewise weighted log-rank test)以及最大效率穩健檢驗(maximin efficiency robust test,MERT)(權重設定見表1)。分段加權log-rank檢驗[7]及廣義分段加權log-rank檢驗[8]均通過優化權重分配應對延遲效應,對治療效果評價貢獻大的事件子集賦予更高的權重。分段加權log-rank檢驗僅考慮固定的時間滯后效應,廣義分段加權log-rank則考慮每一個個體在某一時間段內發生隨機的時間滯后效應,故更為穩健。MERT的權重函數是對整個數據集的log-rank檢驗和對滯后時間點以外數據的log-rank檢驗的總和,并將更小的權重賦予早期事件,幾乎將所有的權重放在了延遲期之后,但該權重函數包含的未知函數須從歷史數據中估計,且該方法對延遲時間較為敏感,需要事先對延遲時間有較為準確的估計[9]。總體而言,加權log-rank檢驗的優勢在于簡單易行,權重設定方式靈活,當權重選擇恰當時,在非比例風險條件下的檢驗效能明顯優于普通的log-rank檢驗;其劣勢在于如何正確設定權重存在挑戰,在非比例風險條件下如權重設置不當將導致檢驗效能低下。

針對生存資料非比例風險的問題,2018年美國食品藥品監督管理局成立了工作小組,該工作小組提出了Max-Combo檢驗[10]。Max-Combo檢驗方法是多個FH(ρ,ν)設置組合的加權log-rank檢驗。設置FH(0,0)、FH(0,1)、FH(1,0)和FH(1,1)四種權重組合,分別估計檢驗統計量Z1,Z2,Z3和Z4,以Z的最大值作為最終的檢驗結論,即:。Max-Combo檢驗的優勢在于能很好地控制Ⅰ類錯誤,針對不同的非比例風險情形能夠保持檢驗效能的穩健性,但劣勢在于該方法從臨床角度設置權重,缺乏相應的權重估計過程。
加權的Kaplan-Meier檢驗[11]將兩條Kaplan-Meier曲線下面積的差值通過設定一定的分界線進行加權。該方法的優勢在于易于理解,但權重的設定較為主觀,且Kaplan-Meier檢驗效能易受截尾情況的影響。
限制性平均生存時間(restricted mean survival time,RMST)法[12-15]是將生存曲線下直至預定時間點t的面積作為隨訪t時間段內的平均生存時間的估計。將兩組的限制性生存時間的差值或比值作為效應估計值。該方法的優勢在于易于理解,且通過Kaplan-Meier曲線易于估計限制性生存時間,但需要設定預定時間點t,該時間點t的選擇將直接影響檢驗結論。為了解決RMST法中時間點t的選擇的困難,通用RMST(versatile RMST)法[16-17]則能夠允許從一定范圍的時間點中選擇一個能夠最大化兩組差距的最優時間點t,然后基于這個最優時間點t應用RMST法。
上述非比例風險生存過程比較方法的應用條件及優缺點總結見表2部分加權Log-rank檢驗方法在SAS軟件中的proc lifetest已有選項可以實現,例如Wilcoxon法、Tarone-Ware法、Peto-Peto法、modifies Peto-Peto法和Harrington-Fleming法。Max-Combo檢驗可通過R語言中的MAXCOMBO包來實現。RMST則可通過SAS軟件中的proc rmstreg來實現。而其余的非比例風險生存過程的比較方法暫時無法直接使用現成的軟件實現,需要自行編程。

6 非比例風險模型
Cox比例風險模型是生存資料分析最為常用的模型,該模型無需對基線風險作任何限制,為半參數模型(semi-parametric)。在等比例風險的前提下,Cox模型能夠估計時間t時個體暴露于不同危險因素狀態下發病的風險比,又稱相對危險度。
在實際的生存資料中,某些協變量會隨著時間而變化,即不滿足“等比例風險假設”。此時可在傳統的Cox比例風險模型中加入該變量與時間的交互項,以描述其對基線風險函數的影響,即為時間依賴變量的Cox模型。帶有時依協變量(time dependent covariable)的Cox模型可表示為:
![]() |
其次,還可以考慮采用分段比例風險函數模型。雖然等風險比例假定在整個隨訪時間內不成立,但在一個較短的時間段內可能成立,分段模型的思路是將整個生存時間拆分成兩個時間段,每一段擬合一個等比例風險模型。分段比例風險函數模型可表示為:
![]() |
其中,為預設的“變點”,以
作為分割點將時間區間分為兩段[0,
]和(
,∞),每一區間內滿足等比例風險假設。在分段比例風險函數模型中的核心問題是如何合理選擇
,即尋找最佳切割點。常用偏似然法進行選擇,首先設置一系列包含所有可能取值的
值,基于每一個
值擬合Cox模型,同時計算每個Cox模型的對數偏似然,以對數偏似然最大的
作為最終的切割點。
還可采用分層的Cox模型,即按照時依協變量進行分層,每層內分別建立Cox模型。分層變量需為分類型變量,如為連續型變量,需先將其進行分類。分層Cox模型中只是假定分層變量違背比例風險假設,而其他變量仍不違背比例風險假設。
此外,Yang-Prentice模型[18-19]也可用于非比例風險的半參數模型。該模型包含Cox比例風險模型和比例優勢模型(proportional odds model),風險比函數(治療組與對照組的風險函數之比)取決于對照組的生存函數和參數θ1和θ2(分別為短期和長期風險比)。Yang-Prentice風險比函數為單調函數,若θ2>θ1,則Yang-Prentice風險比函數單調遞增,反之則單調遞減,該模型可涵蓋比例風險、延遲效應、交叉風險和遞減效應的不同情境,并適用于時間依賴的治療效果評價。但是,該方法有導致Ⅰ類錯誤膨脹的風險[20-21]。
當延遲時間因患者而異時,可采用延遲時間和事件時間的半參數聯合生存模型(semiparametric joint survival model for delay time and event time)[22]來估計平均延遲時間和延遲后風險比。此時,治療效果不能用單一的HR來評價,而是采用平均延遲時間和延遲后HR。但是,該模型需滿足延遲效應前的風險比為1的假設方可使用。
常用的非比例風險模型的應用條件及優缺點總結見表2。其中時依協變量Cox模型以及分層Cox模型皆可通過SAS軟件中的proc phreg實現。Yang-Prentice模型可通過R語言中的YPPE包來實現。而其余以上提到的非比例風險模型暫時無法直接使用現成的軟件實現,需要自行編程。
7 案例分析(KEYNOTE-042)
KEYNOTE-042[23]是一項隨機、開放標簽的Ⅲ期臨床試驗,受試者為局部晚期或轉移性、PD-L1陽性(TPS≥1)的非小細胞肺癌患者,受試者被1∶1隨機分配到兩個治療組:pembrolizumab單藥治療與標準治療(鉑類化療)。該試驗的主要終點是TPS≥50%、TPS≥20%和TPS≥1%的受試者的OS。次要終點包括TPS≥50%、TPS≥20%和TPS≥1%的受試者的PFS和ORR。該試驗中的針對PD-L1 TPS在1%及以上的人群的PFS曲線為交叉生存曲線,Guyot等[24]在2012年發表的文章中,幫助重建了KEYNOTE-042研究生存曲線的數據,KEYNOTE-042研究的生存曲線交叉,顯然不滿足等比例風險的假定。傳統log-rank檢驗不顯著,HR估計值為1.07。Freidlin等[25]2019年發表的文章幫助理解在該研究的非比例風險的生存數據,使用傳統的等比例風險的檢驗方法與非比例風險的檢驗方法之間的區別及其注意事項,檢驗結果匯總詳見表3。

考慮到免疫腫瘤靶向藥物具有療效滯后的特征,如果在這種免疫治療設置中將后期生存時間賦予較高權重,允許集中比較PFS曲線尾部的分離,如使用late-emphasis Wilcoxon test,則該檢驗拒絕零假設,得到pembrolizumab優效的結果。使用Max-Combo檢驗該案例的交叉生存曲線,得到P<0.01的結果。需要注意的是,當檢驗pembrolizumab相比化療的優效性時,Max-Combo檢驗拒絕原假設,支持pembrolizumab療效優于化療。反之,當檢驗化療相比pembrolizumab的優效性時,Max-Combo檢驗同樣會拒絕原假設,支持化療療效優于pembrolizumab。
該案例中交叉曲線的出現很可能是因為沒有找對正確的人群,Freidlin等[25]2019年發表的文章中也提及盡管曲線表明潛在的亞群可能受益于pembrolizumab,然而該亞群需要前瞻性的研究確定。
8 討論
隨著腫瘤臨床研究的不斷發展,不滿足等比例風險假設的情形越來越普遍,如仍采用傳統的log-rank檢驗和Cox比例風險模型,將會導致檢驗效能下降。本文詳盡介紹了比例風險的檢驗方法以及在不滿足比例風險條件下進行生存過程比較和處理效應估計的常用方法,并對各種方法的優缺點進行了總結,希望能夠促進腫瘤臨床研究中非比例風險生存資料統計分析的規范化應用。
本研究建議在腫瘤臨床研究的試驗設計階段與統計分析計劃撰寫過程中,需根據以往信息,考慮非比例風險的可能性,對生存資料設計進行相應的統計分析,亦可考慮比例風險的檢驗,并根據是否滿足比例風險這一條件,分別描述相應的統計分析方法。在非比例風險的條件下,尤其是出現交叉或者延遲效應時,樣本量仍基于等比例風險假設計算,可根據可能存在的延遲或交叉效應適當調整樣本量,或增加隨訪時間,同時考慮交叉的時間,并且控制刪失率在一個較低的水平。基于Cox模型所得的風險比也仍將作為療效的主要評估方式,與此同時建議考慮不同統計分析方法的敏感性分析[26],同時參考不同非比例風險生存分析方法的應用條件及其優缺點,以選擇合適的分析方法。當使用加權函數時,對于權重選擇尤未重要,權重選擇錯誤可能會導致把握度降低。當我們在對不同分析方法的結果進行解讀的時候,亦需謹慎解讀。