替代指標能夠作為有意義的臨床結局指標的代替,并可根據流行病學、診斷學、病理學等理論依據來預測干預對終點結局的影響。關于替代指標的評價和驗證方法的探討在國外已有30余年的歷史,使用經過驗證的替代指標可大大縮減臨床試驗所需的樣本量和研究周期。本研究對替代指標的定義演進、評價和驗證方法的原理和應用進行全面介紹,為未來研究中替代指標的使用、評價及驗證提供參考。
引用本文: 程祎凡, 龍囿霖, 楊柳, 王心怡, 郭瓊, 林逸飛, 杜亮, 黃進. 替代指標的定義演進及評價驗證方法介紹. 中國循證醫學雜志, 2022, 22(8): 964-970. doi: 10.7507/1672-2531.202204116 復制
1 替代指標的定義及其演進
1983年,“替代終點(surrogate endpoint)”一詞首次在文獻中出現[1-3]。1987年,默克公司的藥品洛伐他汀基于“膽固醇水平降低”這一替代指標的研究結果獲得美國食品藥品監督管理局(the US Food and Drug Administration,FDA)批準上市,使其成為最早使用替代指標獲得FDA上市批準的藥品。但FDA在心血管和腫瘤領域的新藥審評時,則對使用動脈血栓溶解率來衡量總心血管死亡率、使用腫瘤反應率來衡量晚期乳腺癌總生存時間的做法進行了批評[4]。
針對以上爭議,1989年,多位研究者在論文中對替代終點指標的定義進行了討論。Ellenberg等[5]將替代指標定義為“當感興趣的結局指標測量太困難、太昂貴,或者難以實施常規測量時,研究人員可定義其他更容易測量且與原本想要測量的結局指標有充分相關性的指標,作為替代指標”。Wittes等[6]則簡化了替代指標的定義,即“用以代替其他一些所謂的‘真正’結局指標的指標”。Hillis等[7]更傾向于使用“替代觀測值”而非“替代終點指標”的說法,因其關注的是替代指標在眼科領域的應用,而與眼睛相關的臨床試驗往往涉及復雜的非致命事件,因此在重大結局事件發生后患者的隨訪往往會繼續進行。將“替代觀測值”定義為“是一個觀測變量值,它在某種程度上與我們感興趣卻不能方便地直接觀察的變量有關”。而統計學家Prentice[8]第一次從統計學的角度對替代指標進行了定義,即“對某反應變量無處理效應的假設檢驗與對真實終點無相應處理效應的假設檢驗相同”。該定義涵蓋了替代指標能否替代的兩個關鍵點:統計學相關性和預測性。其在文章中指出替代指標的選擇偏好:與研究中治療或干預接近的終點事件可能比更遠期的終點事件(如研究對象死亡)更容易解釋,后者更容易受二次治療或競爭風險等混雜因素影響。
1991年,Spilker[9]提到,理想的替代指標應該是反映潛在疾病發生狀況的疾病標志物。需要建立該疾病標志物與真正終點之間的關系,即基于標志物如何受藥物或其他治療影響的數據有效性可轉化為關于疾病和真實終點的有效陳述。
1992年,Boissel等[10]對替代指標的定義、優勢和選擇各方面進行了介紹,其認為中間或替代指標是用來代替“真實的”臨床結局指標。他們認為中間結局指標是與臨床結局指標在統計學上有相關性的反應變量,如果某指標在臨床試驗中可很好地作為臨床結局指標的代替,那么就可被稱為替代指標。但該定義相比其他學者的定義更具有限制性[5-7]。
1997年,FDA指出替代指標必須可通過流行病與統計學、診斷治療學、病理生理學等理論依據來推斷臨床效益[11]。次年,美國國立衛生研究院(National Institutes of Health,NIH)和FDA聯合會議[12]對生物標記物、替代指標、臨床結局指標進行了全面定義。其中,生物標記物應具有推定的診斷、預后效用,是與病理過程相關的體征或實驗室測量值;替代指標是一種生物標志物,旨在作為臨床有意義終點的替代品,并有望預測治療干預的效果;臨床結局指標則是對患者感受、功用性能、生存狀況的有意義臨床的衡量。本次定義中將臨床結局指標分為兩大類,即中間結局指標和最終結局指標。中間結局指標是指雖然不是最終結果,但具有實際臨床效益的臨床結局指標;最終結局指標是一個臨床最終結果,如生存期、嚴重發病或是可得知干預的益處和風險的癥狀反應。
1999年,在FDA加速批準項目的序言[13]中,其對替代指標的定義是“實驗室測量指標或體征,用于在治療試驗中代替臨床有意義的終點指標。這里有臨床意義的終點指標是指直接測量患者的感受、功能、存活與否,并能夠預測治療效應的指標”。同年,Temple[13]提出,替代指標的測量就是為代替臨床終點指標。一個合適的替代指標不僅必須與臨床終點相關,而且必須能在研究中的干預措施存在的情況下預測臨床終點事件的發生。
后續文章基本延續了之前的定義。2005年,Grimes等[14]對替代指標的定義進行了簡要概括,即一個有效的替代指標必須與感興趣的結局相關并能準確預測該結局的發生。2006年,Baker等[15]將替代指標定義為“一類對生物過程的測量值或指標,相比于真實的終點事件,它的測量過程更快、成本更低或者無需侵入性檢查,并能夠得到干預對真實終點的效果如何的結論”。2007年,Gluud等[16-17]提出替代指標可以是實驗室測量值、體征或者任何其他能夠預測臨床上有意義結果對治療反應的中間結局指標;用于代替真實終點以評估治療益處的終點。也就是說,治療對替代指標的影響應該可靠地預測治療對真實終點的影響。
2010年,Micheel等[18]總結替代指標定義的共同點有兩點,一是能作為有意義的臨床結局指標的代替;二是能夠預測經過干預后臨床結局指標的變化。對于臨床結局指標和“真正的”結局指標,二者的說法時常互換。臨床結局指標的定義已被廣為認可,即反映患者(或受試者)的感覺、功能或生存狀況的特征或者變量。而“真正的”結局指標,對于一些研究者而言,只有全死因死亡率可稱為“真正的”結局指標,但在實際應用中,“真正的”結局指標往往由研究者根據實際情況來決定,比如常用的因疾病造成的死亡率、治療失敗率、疾病進展時間等。某些指標可能根據研究目的不同,既可作為替代指標,又可作為臨床結局指標。比如心肌梗死(myocardial infarction,MI),當研究者擬關注的臨床結局指標為未來結局事件(死亡、心衰)的發生風險時,它是替代指標;但同時它也可作為臨床結局指標。
2016年,FDA-NIH聯合的生物標志物工作小組制定的BEST(Biomarkers, EndpointS, and other Tools)準則[19],也對替代指標的定義進一步進行了肯定和重復。“替代指標是臨床試驗中用來代替直接測量患者感覺、功能或生存狀況的終點指標。替代指標不能直接測量臨床獲益,但可通過流行病與統計學、診斷治療學、病理生理學等理論依據來推斷臨床收益或者危害”。按照臨床驗證的水平,可把替代指標分為三類:已驗證的替代指標、可能合理的替代指標及候選替代指標。
這里對于替代指標的分類借鑒了2005年文章[20]中對于替代指標的等級分類方法,該分類方法更為細化:
等級1:真正的臨床效應指標;包括那些直接反映患者切實獲益的結局,比如在心血管疾病中,卒中或MI的減少可作為死亡風險降低的替代指標。
等級2:經過驗證的替代指標(特定疾病和干預種類下);例如,在使用短程抗逆轉錄病毒療法時的HIV母嬰傳播預防,雖然并不能直接反映患者的切實獲益,但可用來可靠地預測臨床獲益。又例如,血壓降低作為卒中風險降低的替代指標,在一些抗高血壓藥物如β受體阻滯劑、低劑量抗利尿劑中具有較好的安全性。但在實際中,經過驗證的替代指標是非常罕見的。
等級3:未經驗證的替代指標,但被確定為“可能能夠合理地預測臨床效益”(特定疾病和干預種類下);該結論應基于統計推斷和臨床角度解釋來給出。
等級4:具有相關性,測量評估生物學活性,但現有證據尚不能確定其是否屬于更高的替代等級。
目前,FDA針對某些疾病批準其臨床試驗可使用替代指標作為藥品的上市許可的證據來源。例如,針對哮喘患者的藥物批準中,第一秒用力呼氣量(forced expiratory volume in 1 second,FEV1)可被用作替代指標;針對血液系統腫瘤患者的藥物批準中,血清門冬酰胺酶水平、完全緩解率、無事件生存率(event-free survival,EFS)、無進展生存率(progression-free survival,PFS)等可被用作替代指標。
本研究對替代指標定義的演進過程進行了歸納,按時間總結替代指標定義的歷史演進過程見圖1。

2 替代指標的評價和驗證
Boissel等[10]指出,作為臨床結局指標最佳代替的替代指標,應該滿足以下3個條件:① 便利性,替代指標相比臨床結局指標應更方便、更容易被觀測到,即替代指標事件發生的頻率要遠高于相應的臨床結局事件發生的頻率;② 相關性,即替代指標與臨床結局指標在定量和定性兩個層面上都具有良好相關性;③ 對臨床效應的評估,即可通過臨床試驗中替代指標事件發生增減來預估相應的臨床獲益。基于以上論據,其后研究者相繼提出了多種統計學上的評價驗證方法[21],主要可分為兩類:基于單個臨床試驗的評價方法和基于多個臨床試驗的評價方法,每類評價方法中都包含不同的方法。以下將對每種統計學驗證方法的原理及應用做簡要闡述。
2.1 單個試驗層面的驗證
2.1.1 Prentice準則
1989年,Prentice[8]首次提出需要從統計學角度對替代指標進行解釋,對替代指標進行了統計學層面的定義,并提出了4條可操作的準則:準則1,干預措施對臨床結局指標代表的終點事件有效應;準則2,干預措施對替代指標代表的臨床事件有效應;準則3,替代指標事件的發生與臨床結局指標事件的發生具有相關性;準則4,干預措施對真實終點的效應可完全由替代終點解釋。
其中,最核心的標準是:
![]() |
上式中S代表替代指標;T代表臨床結局指標(真正的結局指標);Z代表干預措施。上式即準則4的數學表達,表示干預措施對真實終點的效應可完全由替代終點解釋。
但是,在后續的實際應用中,Prentice準則被認為過于籠統難以在實踐中檢驗[22]:若替代指標是連續型變量,則必須選擇一個統計模型以檢測是否滿足該準則;若替代指標是離散型變量,具有有限數量的k個類別,則暴露(或干預)效應在k個替代指標類別內均為0才能滿足該準則要求。因此,單獨使用該方法用于臨床領域中替代指標驗證的實例極少。
2.1.2 可解釋比例(proportion of treatment effect,PTE)
在上述Prentice準則的基礎上,Freedman等[22]針對二分類結局變量提出了PTE,即干預措施對臨床結局指標的效應可由替代指標的效應所解釋的比例。PTE對替代程度進行了量化,即替代指標的處理效應可多大程度解釋臨床結局指標的處理效應,該值以比例表示,PTE=1則代表完美的替代。
Deprimo等[23]通過計算PTE的方法來探究循環可溶性KIT(sKIT)水平能否作為伊馬替尼治療失敗后改為采用索坦(多靶點受體酪氨酸激酶抑制劑)進行治療的胃腸道間質腫瘤患者的腫瘤進展時間(time to progression,TTP)的替代指標,得到結果PTE為0.8,因此得到了sKIT可作為TTP良好替代指標的結論。2013年,Halabi等[24]通過計算PTE值,探究接受二線化療患者的治療后前列腺特異抗原(prostate specific antigen,PSA)動態變化能否作為總體生存率(overall survival,OS)的替代指標,該研究的數據來源于一個Ⅲ期臨床試驗的結果,最終計算得到PSA水平下降≥30%的PTE值為0.3,即PSA的動態變化難以替代OS。Medeiros等[25]對進行性視神經盤沿面積缺損能否作為青光眼視野缺損替代指標進行研究,其數據來源于一個前瞻性隊列研究,最終得到的PTE為0.65,即視神經盤沿面積的測量能夠解釋治療對視野缺損影響的65%,研究者給出了視神經盤沿面積可作為視野缺損替代指標的結論,其認為雖然65%是一個中等程度的解釋比例,但在臨床實際應用中,想要得到100%的PTE是不切實際的。
通過以上研究可見,想要獲得具有合理寬度的95%可信區間,可能需要與使用臨床結局指標樣本量相似的患者。并且由于PTE值可能不在[0, 1]之間,即PTE不是一個真正的比例值,導致PTE的實際應用價值下降。另外,其在實際使用中對臨床結局指標的處理效應估計的準確性一般較差。
2.1.3 相對效應(relative effect,RE)和調整關聯(adjusted association,AA)
Buyse等[26]根據Prentice準則提出了另一種替代指標的評價標準,稱為RE,該指標為干預措施對臨床結局指標的效應與干預措施對替代指標的效應之比:
![]() |
其中,α代表替代指標的處理效應;β代表臨床結局指標的處理效應。即臨床結局指標與替代指標的處理效應之比。同時,研究者還提出了調整關聯(AA),AA測量的是在調整處理因素后替代指標與臨床結局指標之間的關聯,記作γZ。
Buyse等[26]認為在替代指標的驗證過程中,可使用RE與γZ這兩個值來代替PTE。當調整處理因素后替代指標與臨床結局指標存在完美的聯系時,該替代指標可認為在個體水平上是完美的;當RE=1時,該替代指標可認為在群體水平上是完美的。只有同時滿足以上兩個條件時,才能夠認為該替代指標是完美的。但在實際應用中,當只有一個臨床試驗可用時,RE的使用必須基于臨床結局指標與替代指標的處理效應間存在乘法關系這一假設,但該假設太強且無法驗證[27]。此外,樣本量較小的試驗可能會導致RE的可信區間較寬[24]。因此,Buyse等建議基于多個試驗結果計算替代指標的決定系數(R2)更為可靠。
2.2 多個試驗層面的驗證
2.2.1 Meta分析方法
Buyse等[28]于2000年提出了基于多個試驗數據計算多個RE的方法,這種方法是從兩個水平(試驗和個體)層面來評價替代指標的。當一個替代指標的R2在兩個水平上都為1時,則可認為是臨床結局指標的完美替代。在實際應用中需要注意在使用聯合隨機效應方法時,如果試驗數量少或試驗之間的變異性很小,則會對模型的收斂性產生顯著的負面影響;隨后,Tiabaldi等[29]于2003年提出了簡化模型,即采用固定效應模型代替隨機效應模型,則可避免上述缺點。
該方法已得到了廣泛應用,從藥物到醫療器械等多領域的替代指標均有使用該方法進行驗證的研究。應用較多的領域集中在腫瘤治療[30],能否使用例如PFS、腫瘤反應、無復發生存率等指標對諸如OS等臨床結局指標進行代替[31,32]。如Hackshaw等[33]采用Meta分析方法探究腫瘤反應、進展時間能否作為晚期乳腺癌患者生存率的替代指標,通過系統檢索和篩選得到42個符合納入標準的RCT,采用線性回歸模型評估使用替代指標衡量的治療效應與使用生存率衡量的治療效應之間的關系,每個回歸模型都得到一個R2;最終,進展時間與生存率的關聯更強(R2=0.56),腫瘤反應與生存率的關聯稍弱(R2=0.34)。但本研究僅使用基于試驗得到的數據,即替代指標僅得到了試驗層面的驗證,還缺少個體患者層面的驗證。基于個體患者數據計算得到的R2不僅可顯示替代指標預測個體患者生存率的效力,而且較大的R2表明替代指標與臨床結局指標具有因果關系,因而該替代指標具有較高的有效性[28]。
2.2.2 替代閾值效應(Surrogate threshold effect,STE)
STE是Buyse等[34]基于Meta分析方法提出的,其將STE定義為:“對替代結局的治療效應的最小值,該值對真正結局的預測效果將顯著不同于0”。即方差越大,STE的絕對值也越大,因此可將STE認為是對真正結局治療效應預測準確性的衡量指標。在實際使用中,較高的STE值表示只有當替代結局的治療效應較大時才能預測真正結局的治療效應,證明該替代指標不能很好地替代真正的結局指標。該方法估計了臨床試驗中預測目標結果獲益所需的替代指標(“閾值”)的最低水平。
Johnson等[35]的研究顯示,通過計算STE值,探究低密度脂蛋白膽固醇(LDL-C)降低水平能否作為減少心血管事件的替代指標,最終得到的結果是在他汀類藥物的臨床試驗中,LDL-C作為全因死亡率的代替時,其STE值為1.5 mmol/L,即預測全因死亡率時所需的LDL-C最低水平。當LDL-C差值低于1.5 mmol/L時,全因死亡率沒有增加。由于已知他汀類藥物對心血管死亡率的作用大于全因死亡率,因此當LDL-C作為心血管死亡率的代替時,其STE值至少應為1.4 mmol/L。
2.2.3 信息論方法(Information-theoretic Approach,ITA)
信息論起源于1948年[36],研究各種設計系統的問題,主要研究的是對一個信號包含的信息不確定水平的量化。其度量值稱為熵(entropy,EP),其與人們猜測一個隨機變量的觀測值的容易程度或確定性有關。如果一個事件的發生在預期之中,那么它的發生就不能提供更多的信息(即熵值更低),反之一個事件的發生無法預期,那么它的發生可提供更多的信息(即熵值更高)。
2007年,Alonso等[37]將信息論方法應用于替代指標驗證領域,并得出公式:
![]() |
其中EP(T)代表T的熵值,EP(T|S)代表T給予S的熵值。可認為是通過調整S以去除個人水平上S的不確定的比例。這與驗證替代指標的目的一致,由于替代指標的驗證同樣也是通過使用替代指標評估的治療效應來增加對臨床指標評估的治療效應的了解。當R2h≈1時,代表該指標為良好的替代指標[38-39]。
Meyvisch等[40]采用ITA,對采用貝達喹啉治療多重抗藥性結核病的患者進行調查,以探究24周痰培養轉化能否作為120周痰培養轉化的替代指標。其研究結果顯示24周痰培養轉化作為臨床結局指標的代替時其R2h值的中位數為0.74,而8周痰培養轉化作為臨床結局指標的代替時其R2h值在0.1~0.5之間。因此本研究得到了24周痰培養轉化相較于8周痰培養轉化,是更優的替代指標的結論。
信息論易于實施和使用,且基于堅實的數學理論基礎,但其適用于樣本量足夠大的臨床試驗,應用于較小樣本量試驗時,容易產生偏倚[17]。
3 討論
本文對替代指標的定義及其演進歷史,還有評估與驗證方法進行了全面介紹。可看出,從1983年至今,對于替代指標定義的探討仍在進行,并且在統計學上的驗證方法推陳出新,從單個試驗層面的Prentice準則、PTE、RE和AA,到多個試驗層面的Meta分析方法、STE和ITA,對替代指標評價驗證統計學方法的探索從未停止。目前ITA已漸漸成為替代指標評價的首選方法,但也面臨著難以在個體患者層面對替代因果原理進行解釋等問題。使用合適的替代指標對患者、醫師、研究者及醫藥企業都具有實際的好處,因此,未來仍需進行研究更新和探索以更好地評價和驗證替代指標。
1 替代指標的定義及其演進
1983年,“替代終點(surrogate endpoint)”一詞首次在文獻中出現[1-3]。1987年,默克公司的藥品洛伐他汀基于“膽固醇水平降低”這一替代指標的研究結果獲得美國食品藥品監督管理局(the US Food and Drug Administration,FDA)批準上市,使其成為最早使用替代指標獲得FDA上市批準的藥品。但FDA在心血管和腫瘤領域的新藥審評時,則對使用動脈血栓溶解率來衡量總心血管死亡率、使用腫瘤反應率來衡量晚期乳腺癌總生存時間的做法進行了批評[4]。
針對以上爭議,1989年,多位研究者在論文中對替代終點指標的定義進行了討論。Ellenberg等[5]將替代指標定義為“當感興趣的結局指標測量太困難、太昂貴,或者難以實施常規測量時,研究人員可定義其他更容易測量且與原本想要測量的結局指標有充分相關性的指標,作為替代指標”。Wittes等[6]則簡化了替代指標的定義,即“用以代替其他一些所謂的‘真正’結局指標的指標”。Hillis等[7]更傾向于使用“替代觀測值”而非“替代終點指標”的說法,因其關注的是替代指標在眼科領域的應用,而與眼睛相關的臨床試驗往往涉及復雜的非致命事件,因此在重大結局事件發生后患者的隨訪往往會繼續進行。將“替代觀測值”定義為“是一個觀測變量值,它在某種程度上與我們感興趣卻不能方便地直接觀察的變量有關”。而統計學家Prentice[8]第一次從統計學的角度對替代指標進行了定義,即“對某反應變量無處理效應的假設檢驗與對真實終點無相應處理效應的假設檢驗相同”。該定義涵蓋了替代指標能否替代的兩個關鍵點:統計學相關性和預測性。其在文章中指出替代指標的選擇偏好:與研究中治療或干預接近的終點事件可能比更遠期的終點事件(如研究對象死亡)更容易解釋,后者更容易受二次治療或競爭風險等混雜因素影響。
1991年,Spilker[9]提到,理想的替代指標應該是反映潛在疾病發生狀況的疾病標志物。需要建立該疾病標志物與真正終點之間的關系,即基于標志物如何受藥物或其他治療影響的數據有效性可轉化為關于疾病和真實終點的有效陳述。
1992年,Boissel等[10]對替代指標的定義、優勢和選擇各方面進行了介紹,其認為中間或替代指標是用來代替“真實的”臨床結局指標。他們認為中間結局指標是與臨床結局指標在統計學上有相關性的反應變量,如果某指標在臨床試驗中可很好地作為臨床結局指標的代替,那么就可被稱為替代指標。但該定義相比其他學者的定義更具有限制性[5-7]。
1997年,FDA指出替代指標必須可通過流行病與統計學、診斷治療學、病理生理學等理論依據來推斷臨床效益[11]。次年,美國國立衛生研究院(National Institutes of Health,NIH)和FDA聯合會議[12]對生物標記物、替代指標、臨床結局指標進行了全面定義。其中,生物標記物應具有推定的診斷、預后效用,是與病理過程相關的體征或實驗室測量值;替代指標是一種生物標志物,旨在作為臨床有意義終點的替代品,并有望預測治療干預的效果;臨床結局指標則是對患者感受、功用性能、生存狀況的有意義臨床的衡量。本次定義中將臨床結局指標分為兩大類,即中間結局指標和最終結局指標。中間結局指標是指雖然不是最終結果,但具有實際臨床效益的臨床結局指標;最終結局指標是一個臨床最終結果,如生存期、嚴重發病或是可得知干預的益處和風險的癥狀反應。
1999年,在FDA加速批準項目的序言[13]中,其對替代指標的定義是“實驗室測量指標或體征,用于在治療試驗中代替臨床有意義的終點指標。這里有臨床意義的終點指標是指直接測量患者的感受、功能、存活與否,并能夠預測治療效應的指標”。同年,Temple[13]提出,替代指標的測量就是為代替臨床終點指標。一個合適的替代指標不僅必須與臨床終點相關,而且必須能在研究中的干預措施存在的情況下預測臨床終點事件的發生。
后續文章基本延續了之前的定義。2005年,Grimes等[14]對替代指標的定義進行了簡要概括,即一個有效的替代指標必須與感興趣的結局相關并能準確預測該結局的發生。2006年,Baker等[15]將替代指標定義為“一類對生物過程的測量值或指標,相比于真實的終點事件,它的測量過程更快、成本更低或者無需侵入性檢查,并能夠得到干預對真實終點的效果如何的結論”。2007年,Gluud等[16-17]提出替代指標可以是實驗室測量值、體征或者任何其他能夠預測臨床上有意義結果對治療反應的中間結局指標;用于代替真實終點以評估治療益處的終點。也就是說,治療對替代指標的影響應該可靠地預測治療對真實終點的影響。
2010年,Micheel等[18]總結替代指標定義的共同點有兩點,一是能作為有意義的臨床結局指標的代替;二是能夠預測經過干預后臨床結局指標的變化。對于臨床結局指標和“真正的”結局指標,二者的說法時常互換。臨床結局指標的定義已被廣為認可,即反映患者(或受試者)的感覺、功能或生存狀況的特征或者變量。而“真正的”結局指標,對于一些研究者而言,只有全死因死亡率可稱為“真正的”結局指標,但在實際應用中,“真正的”結局指標往往由研究者根據實際情況來決定,比如常用的因疾病造成的死亡率、治療失敗率、疾病進展時間等。某些指標可能根據研究目的不同,既可作為替代指標,又可作為臨床結局指標。比如心肌梗死(myocardial infarction,MI),當研究者擬關注的臨床結局指標為未來結局事件(死亡、心衰)的發生風險時,它是替代指標;但同時它也可作為臨床結局指標。
2016年,FDA-NIH聯合的生物標志物工作小組制定的BEST(Biomarkers, EndpointS, and other Tools)準則[19],也對替代指標的定義進一步進行了肯定和重復。“替代指標是臨床試驗中用來代替直接測量患者感覺、功能或生存狀況的終點指標。替代指標不能直接測量臨床獲益,但可通過流行病與統計學、診斷治療學、病理生理學等理論依據來推斷臨床收益或者危害”。按照臨床驗證的水平,可把替代指標分為三類:已驗證的替代指標、可能合理的替代指標及候選替代指標。
這里對于替代指標的分類借鑒了2005年文章[20]中對于替代指標的等級分類方法,該分類方法更為細化:
等級1:真正的臨床效應指標;包括那些直接反映患者切實獲益的結局,比如在心血管疾病中,卒中或MI的減少可作為死亡風險降低的替代指標。
等級2:經過驗證的替代指標(特定疾病和干預種類下);例如,在使用短程抗逆轉錄病毒療法時的HIV母嬰傳播預防,雖然并不能直接反映患者的切實獲益,但可用來可靠地預測臨床獲益。又例如,血壓降低作為卒中風險降低的替代指標,在一些抗高血壓藥物如β受體阻滯劑、低劑量抗利尿劑中具有較好的安全性。但在實際中,經過驗證的替代指標是非常罕見的。
等級3:未經驗證的替代指標,但被確定為“可能能夠合理地預測臨床效益”(特定疾病和干預種類下);該結論應基于統計推斷和臨床角度解釋來給出。
等級4:具有相關性,測量評估生物學活性,但現有證據尚不能確定其是否屬于更高的替代等級。
目前,FDA針對某些疾病批準其臨床試驗可使用替代指標作為藥品的上市許可的證據來源。例如,針對哮喘患者的藥物批準中,第一秒用力呼氣量(forced expiratory volume in 1 second,FEV1)可被用作替代指標;針對血液系統腫瘤患者的藥物批準中,血清門冬酰胺酶水平、完全緩解率、無事件生存率(event-free survival,EFS)、無進展生存率(progression-free survival,PFS)等可被用作替代指標。
本研究對替代指標定義的演進過程進行了歸納,按時間總結替代指標定義的歷史演進過程見圖1。

2 替代指標的評價和驗證
Boissel等[10]指出,作為臨床結局指標最佳代替的替代指標,應該滿足以下3個條件:① 便利性,替代指標相比臨床結局指標應更方便、更容易被觀測到,即替代指標事件發生的頻率要遠高于相應的臨床結局事件發生的頻率;② 相關性,即替代指標與臨床結局指標在定量和定性兩個層面上都具有良好相關性;③ 對臨床效應的評估,即可通過臨床試驗中替代指標事件發生增減來預估相應的臨床獲益。基于以上論據,其后研究者相繼提出了多種統計學上的評價驗證方法[21],主要可分為兩類:基于單個臨床試驗的評價方法和基于多個臨床試驗的評價方法,每類評價方法中都包含不同的方法。以下將對每種統計學驗證方法的原理及應用做簡要闡述。
2.1 單個試驗層面的驗證
2.1.1 Prentice準則
1989年,Prentice[8]首次提出需要從統計學角度對替代指標進行解釋,對替代指標進行了統計學層面的定義,并提出了4條可操作的準則:準則1,干預措施對臨床結局指標代表的終點事件有效應;準則2,干預措施對替代指標代表的臨床事件有效應;準則3,替代指標事件的發生與臨床結局指標事件的發生具有相關性;準則4,干預措施對真實終點的效應可完全由替代終點解釋。
其中,最核心的標準是:
![]() |
上式中S代表替代指標;T代表臨床結局指標(真正的結局指標);Z代表干預措施。上式即準則4的數學表達,表示干預措施對真實終點的效應可完全由替代終點解釋。
但是,在后續的實際應用中,Prentice準則被認為過于籠統難以在實踐中檢驗[22]:若替代指標是連續型變量,則必須選擇一個統計模型以檢測是否滿足該準則;若替代指標是離散型變量,具有有限數量的k個類別,則暴露(或干預)效應在k個替代指標類別內均為0才能滿足該準則要求。因此,單獨使用該方法用于臨床領域中替代指標驗證的實例極少。
2.1.2 可解釋比例(proportion of treatment effect,PTE)
在上述Prentice準則的基礎上,Freedman等[22]針對二分類結局變量提出了PTE,即干預措施對臨床結局指標的效應可由替代指標的效應所解釋的比例。PTE對替代程度進行了量化,即替代指標的處理效應可多大程度解釋臨床結局指標的處理效應,該值以比例表示,PTE=1則代表完美的替代。
Deprimo等[23]通過計算PTE的方法來探究循環可溶性KIT(sKIT)水平能否作為伊馬替尼治療失敗后改為采用索坦(多靶點受體酪氨酸激酶抑制劑)進行治療的胃腸道間質腫瘤患者的腫瘤進展時間(time to progression,TTP)的替代指標,得到結果PTE為0.8,因此得到了sKIT可作為TTP良好替代指標的結論。2013年,Halabi等[24]通過計算PTE值,探究接受二線化療患者的治療后前列腺特異抗原(prostate specific antigen,PSA)動態變化能否作為總體生存率(overall survival,OS)的替代指標,該研究的數據來源于一個Ⅲ期臨床試驗的結果,最終計算得到PSA水平下降≥30%的PTE值為0.3,即PSA的動態變化難以替代OS。Medeiros等[25]對進行性視神經盤沿面積缺損能否作為青光眼視野缺損替代指標進行研究,其數據來源于一個前瞻性隊列研究,最終得到的PTE為0.65,即視神經盤沿面積的測量能夠解釋治療對視野缺損影響的65%,研究者給出了視神經盤沿面積可作為視野缺損替代指標的結論,其認為雖然65%是一個中等程度的解釋比例,但在臨床實際應用中,想要得到100%的PTE是不切實際的。
通過以上研究可見,想要獲得具有合理寬度的95%可信區間,可能需要與使用臨床結局指標樣本量相似的患者。并且由于PTE值可能不在[0, 1]之間,即PTE不是一個真正的比例值,導致PTE的實際應用價值下降。另外,其在實際使用中對臨床結局指標的處理效應估計的準確性一般較差。
2.1.3 相對效應(relative effect,RE)和調整關聯(adjusted association,AA)
Buyse等[26]根據Prentice準則提出了另一種替代指標的評價標準,稱為RE,該指標為干預措施對臨床結局指標的效應與干預措施對替代指標的效應之比:
![]() |
其中,α代表替代指標的處理效應;β代表臨床結局指標的處理效應。即臨床結局指標與替代指標的處理效應之比。同時,研究者還提出了調整關聯(AA),AA測量的是在調整處理因素后替代指標與臨床結局指標之間的關聯,記作γZ。
Buyse等[26]認為在替代指標的驗證過程中,可使用RE與γZ這兩個值來代替PTE。當調整處理因素后替代指標與臨床結局指標存在完美的聯系時,該替代指標可認為在個體水平上是完美的;當RE=1時,該替代指標可認為在群體水平上是完美的。只有同時滿足以上兩個條件時,才能夠認為該替代指標是完美的。但在實際應用中,當只有一個臨床試驗可用時,RE的使用必須基于臨床結局指標與替代指標的處理效應間存在乘法關系這一假設,但該假設太強且無法驗證[27]。此外,樣本量較小的試驗可能會導致RE的可信區間較寬[24]。因此,Buyse等建議基于多個試驗結果計算替代指標的決定系數(R2)更為可靠。
2.2 多個試驗層面的驗證
2.2.1 Meta分析方法
Buyse等[28]于2000年提出了基于多個試驗數據計算多個RE的方法,這種方法是從兩個水平(試驗和個體)層面來評價替代指標的。當一個替代指標的R2在兩個水平上都為1時,則可認為是臨床結局指標的完美替代。在實際應用中需要注意在使用聯合隨機效應方法時,如果試驗數量少或試驗之間的變異性很小,則會對模型的收斂性產生顯著的負面影響;隨后,Tiabaldi等[29]于2003年提出了簡化模型,即采用固定效應模型代替隨機效應模型,則可避免上述缺點。
該方法已得到了廣泛應用,從藥物到醫療器械等多領域的替代指標均有使用該方法進行驗證的研究。應用較多的領域集中在腫瘤治療[30],能否使用例如PFS、腫瘤反應、無復發生存率等指標對諸如OS等臨床結局指標進行代替[31,32]。如Hackshaw等[33]采用Meta分析方法探究腫瘤反應、進展時間能否作為晚期乳腺癌患者生存率的替代指標,通過系統檢索和篩選得到42個符合納入標準的RCT,采用線性回歸模型評估使用替代指標衡量的治療效應與使用生存率衡量的治療效應之間的關系,每個回歸模型都得到一個R2;最終,進展時間與生存率的關聯更強(R2=0.56),腫瘤反應與生存率的關聯稍弱(R2=0.34)。但本研究僅使用基于試驗得到的數據,即替代指標僅得到了試驗層面的驗證,還缺少個體患者層面的驗證。基于個體患者數據計算得到的R2不僅可顯示替代指標預測個體患者生存率的效力,而且較大的R2表明替代指標與臨床結局指標具有因果關系,因而該替代指標具有較高的有效性[28]。
2.2.2 替代閾值效應(Surrogate threshold effect,STE)
STE是Buyse等[34]基于Meta分析方法提出的,其將STE定義為:“對替代結局的治療效應的最小值,該值對真正結局的預測效果將顯著不同于0”。即方差越大,STE的絕對值也越大,因此可將STE認為是對真正結局治療效應預測準確性的衡量指標。在實際使用中,較高的STE值表示只有當替代結局的治療效應較大時才能預測真正結局的治療效應,證明該替代指標不能很好地替代真正的結局指標。該方法估計了臨床試驗中預測目標結果獲益所需的替代指標(“閾值”)的最低水平。
Johnson等[35]的研究顯示,通過計算STE值,探究低密度脂蛋白膽固醇(LDL-C)降低水平能否作為減少心血管事件的替代指標,最終得到的結果是在他汀類藥物的臨床試驗中,LDL-C作為全因死亡率的代替時,其STE值為1.5 mmol/L,即預測全因死亡率時所需的LDL-C最低水平。當LDL-C差值低于1.5 mmol/L時,全因死亡率沒有增加。由于已知他汀類藥物對心血管死亡率的作用大于全因死亡率,因此當LDL-C作為心血管死亡率的代替時,其STE值至少應為1.4 mmol/L。
2.2.3 信息論方法(Information-theoretic Approach,ITA)
信息論起源于1948年[36],研究各種設計系統的問題,主要研究的是對一個信號包含的信息不確定水平的量化。其度量值稱為熵(entropy,EP),其與人們猜測一個隨機變量的觀測值的容易程度或確定性有關。如果一個事件的發生在預期之中,那么它的發生就不能提供更多的信息(即熵值更低),反之一個事件的發生無法預期,那么它的發生可提供更多的信息(即熵值更高)。
2007年,Alonso等[37]將信息論方法應用于替代指標驗證領域,并得出公式:
![]() |
其中EP(T)代表T的熵值,EP(T|S)代表T給予S的熵值。可認為是通過調整S以去除個人水平上S的不確定的比例。這與驗證替代指標的目的一致,由于替代指標的驗證同樣也是通過使用替代指標評估的治療效應來增加對臨床指標評估的治療效應的了解。當R2h≈1時,代表該指標為良好的替代指標[38-39]。
Meyvisch等[40]采用ITA,對采用貝達喹啉治療多重抗藥性結核病的患者進行調查,以探究24周痰培養轉化能否作為120周痰培養轉化的替代指標。其研究結果顯示24周痰培養轉化作為臨床結局指標的代替時其R2h值的中位數為0.74,而8周痰培養轉化作為臨床結局指標的代替時其R2h值在0.1~0.5之間。因此本研究得到了24周痰培養轉化相較于8周痰培養轉化,是更優的替代指標的結論。
信息論易于實施和使用,且基于堅實的數學理論基礎,但其適用于樣本量足夠大的臨床試驗,應用于較小樣本量試驗時,容易產生偏倚[17]。
3 討論
本文對替代指標的定義及其演進歷史,還有評估與驗證方法進行了全面介紹。可看出,從1983年至今,對于替代指標定義的探討仍在進行,并且在統計學上的驗證方法推陳出新,從單個試驗層面的Prentice準則、PTE、RE和AA,到多個試驗層面的Meta分析方法、STE和ITA,對替代指標評價驗證統計學方法的探索從未停止。目前ITA已漸漸成為替代指標評價的首選方法,但也面臨著難以在個體患者層面對替代因果原理進行解釋等問題。使用合適的替代指標對患者、醫師、研究者及醫藥企業都具有實際的好處,因此,未來仍需進行研究更新和探索以更好地評價和驗證替代指標。