刪失數據的處理在很多研究領域都是常見的問題,尤其是在醫學生存數據分析領域。插補方法是處理刪失數據重要的方法之一。然而多數插補方法是將刪失數據直接插補成精確數據,這樣就扭曲了數據的真實分布,降低了估計方法的精度。本文提出一種含有右刪失和區間刪失數據的非參數估計方法并與經典SC (self-consistent)算法進行比較。該方法基于均值插補法和最近鄰插補法將右刪失數據插補為區間刪失數據,從而大大提高了真實數據落入插補區間的概率,繼而根據經驗分布理論對區間刪失數據進行生存函數估計。模擬數據和真實乳腺癌數據的分析得出:新算法對刪失比例不同的刪失數據的估計有更高的精確度和更好的穩健性。本文為臨床研究治療方法效果的比較和估計患者的生存數據提供了一種較好的方法,也為醫學生存數據分析提供了一定的幫助。
引用本文: 徐永紅, 高曉歡, 王正熙. 含有右刪失和區間刪失數據的生存函數的非參數估計. 生物醫學工程學雜志, 2014, 31(2): 267-272. doi: 10.7507/1001-5515.20140050 復制
引言
生存數據分析的理論和方法在人口學、流行病學、醫療和社會學的研究中都有廣泛的應用價值,日益受到人們的重視,尤其是在比較兩種治療方法的好壞方面有很重要的作用。生存分析中的數據有時是由相關試驗獲得的,有時則是通過相關調查得到的。根據觀測對象進入和退出時間分為刪失與截尾兩種數據類型[1]。在臨床研究中,以刪失數據更為常見。在生存數據的觀測中常常由于研究對象的意外死亡,研究對象拒絕回答有關調查項目,在觀測截止時間已到時,某些個體還沒有出現所關注的事件等原因,導致觀測的生存數據出現刪失。由于刪失數據蘊涵了與完全數據不同的信息,如果刪除進而不考慮這部分數據所蘊涵的信息,則可能會造成信息的損失和分析結果的偏頗。因此對刪失數據進行分析和估計是生存數據分析中重要的課題。
非參數估計方法在刪失數據的生存函數估計中應用廣泛。1973年Peto[2]第一次提出了區間刪失數據的非參數估計方法,該方法就是Newton-Raphson的約束算法。1976年Turnbull[3] 提出了求刪失數據的廣義極大似然估計的SC(self-consistent) 算法(也稱為Turnbull’s estimator),隨后Gu等[4]建立了self-consistent估計的一致性和正態性。近10年中SC算法仍然應用廣泛,例如:文獻[5]中提出了基于經驗分布函數的非參數方法對區間刪失數據進行了生存函數估計,并將所提方法與SC算法進行比較,其估計結果相對SC算法更加精確。文獻[6]中將SC算法進行擴展并將其應用于混合威布爾分布和指數分布的區間刪失數據。文獻[7]中提出了Turnbull’s estimator的一般化方法,該非參數估計方法應用于混合刪失數據,是廣義乘積限估計和Turnbull估計的一般化。
刪失數據中右刪失和區間刪失尤其常見,因此本文將經驗分布函數和單一插補法兩種方法相結合,提出了適用于同時包含精確數據、右刪失和嚴格區間刪失數據的數據集(本文稱其為半混合刪失數據)的生存函數估計方法。并同時應用新算法和經典SC算法分別對模擬數據集和實際的乳腺癌數據集進行生存函數估計,而后對兩種方法的精確度進行對比,發現新算法的精確度和穩健性都高于SC算法。
1 半混合刪失數據
若一個數據集包含精確數據、嚴格區間刪失數據、右刪失數據和左刪失數據,則稱該數據集稱為混合區間刪失數據[8]。本文所涉及的刪失數據集是包含精確數據、嚴格區間刪失數據和右刪失數據,因此本文稱該類型的數據集為半混合區間刪失數據。
設(Y,Z)代表一組隨機刪失數據(Y和Z的取值包括∞),其中p(Y<Z)=1,X
$\left[ L,R \right]=\left\{ \begin{matrix} \left( Y,+\infty \right),Y<X,Z=+\infty \cdots \cdots \cdots \cdots \cdots \cdots \left( 右刪失數據 \right) \\ \left[ Y,Z \right],-\infty <Y<X<Z<+\infty \cdots \left( 嚴格區間刪失數據 \right) \\ \left[ X,X \right],X\notin \left( Y,\left. Z \right]\cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \left( 精確數據 \right) \right. \\ \end{matrix} \right.$ |
2 基本原理和方法
本文的估計方法是基于經驗分布的思想和均值插補的方法對半混合刪失數據進行生存函數估計。本節將簡述所應用的均值插補基本原理。
上個世紀80年代前后,人們開始重視數據缺失問題,著力研究插補方法,為此發展了多種單一插補方法[9]。單一插補是處理刪失數據常用的一種技術,即給每一個刪失數據一些替代者,從而獲得“完整數據集”后,再使用標準的完整數據統計方法進行數據分析與統計推斷。常用的單一插補方法有均值插補、比插補、回歸插補、最近鄰插補和隨機插補[10]。均值插補是指用回答數據的均值作為缺失數據的替代值。最典型的均值差補法有總均值插補法和組均值插補法。本文所應用的便是組均值插補法插補和最近鄰插補[11]相結合的插補方法。
大多數研究中所應用的填補方法是將右刪失數據直接填補為真值數據,而本文所不同的是將右刪失數據填補為區間刪失數據。這樣做使得真實數據落入填補后的數據的概率更高。具體步驟如下:
(1) 將原始半混合刪失數據剔除右刪失數據,形成新的區間刪失數據,隨后應用文獻[5]中的方法進行估計并畫出生存曲線,得到當生存概率為0時,生存時間T*。
(2) 設半混合區間刪失數據集為含有n個觀察值的樣本S,記為(z1,δ1),(z2,δ2),…,(z1,δi),…,(zn,δn) ,其中zi=[li,ri] ,δi為半混合區間刪失示性函數,意義如下:
${{\delta }_{i}}=\left\{ \begin{matrix} -1,\cdots \cdots \cdots \cdots {{z}_{i}}為右刪失數據 \\ 0,\cdots \cdots \cdots \cdots \cdots \cdots \cdots {{z}_{i}}為精確數據 \\ 1,\cdots \cdots {{z}_{i}}為嚴格區間刪失數據 \\ \end{matrix} \right.$ |
將觀察值zi按照li的大小進行排列。將li相等的所有zi分為一組,設可以分為m組,將每組按照li從大到小進行排列,用U1,U2,…,Um表示。如果Ui中含有右刪失數據,則稱Ui為填補組。設Ui中有ni個觀察值,其中右刪失數據的個數為ri,非右刪失數據的個數為si=ni-ri。按照的取值大小填補方法如下:
① 若si≠0,這si個非右刪失觀測數據的右端點值的集合為(yi1,yi2,…,yisi)作為回答集,回答的個數為si個。則該填補集中的右刪失數據右端點的值全部設置為y。將(yi1,yi2,…,yisi)中的值的均值賦予y,即:
$y=\frac{1}{{{s}_{i}}}(\sum\limits_{j=1}^{{{s}_{i}}}{{{y}_{ij}}})$ |
② 若si=0,即Ui中只含有右刪失數據,則y為Ui-1和Ui+1中所有非右刪失數據的右端點值的平均值,即:
$y=\frac{1}{{{s}_{\left( i-1 \right)}}+{{s}_{\left( i+1 \right)}}}(\sum\limits_{j=1}^{{{s}_{_{(i-1)}}}}{{{y}_{\left( i-1 \right)j}}}+\sum\limits_{j=1}^{{{s}_{_{(i+1)}}}}{{{y}_{\left( i+1 \right)j}}})$ |
若上式得到的y值小于該右刪失數據的左端點,則y為Ui+1中所有非右刪失數據的右端點值的平均值,即:
$y=\frac{1}{{{s}_{\left( i+1 \right)}}}(\sum\limits_{j=1}^{{{s}_{_{(i+1)}}}}{{{y}_{\left( i+1 \right)j}}})$ |
若Ui之后都為填補組,則y為T*,即:
$y={{T}^{*}}$ |
對于數據集中的每一個右刪失數據依據以上所敘述的組均值插補的方法進行填補,將其填補為一個區間刪失數據,從而得到新的只含有真值數據和嚴格區間刪失數據的數據集,再使用劉淑霞所提出的區間刪失數據的非參數估計進行估計,從而得到半混合刪失數據集的生存函數曲線,具體步驟參見文獻[5]。
3 模擬分析
設隨機變量X服從參數為(0.5,1)的威布爾分布,隨機變量U服從參數為(μ,σ)的正態分布,隨機變量V服從參數為(μ,σ)的正態分布,這里0<σ<3。將[0,+∞)分成g+1段,h1,h2,…,hg為分段點,且滿足0<h1<h2<…<hg<+∞。
(1) 隨機產生一個X的觀測值,記為Xi;
(2) 如果hi≤Xi≤hi+1,那么分別隨機產生一個U的觀測值和一個V的觀測值,其中μ1=hi,μ2=hi+1令:
$\begin{align} & {{z}_{i}}=\left( {{l}_{i}},{{r}_{i}} \right)=\left( {{X}_{i}},{{X}_{i}} \right){{1}_{\left( {{X}_{i}}\le {{U}_{i}}\cup {{X}_{i}}>{{V}_{i}} \right.}}+ \\ & \left( {{U}_{i}},{{V}_{i}} \right){{1}_{\left( {{U}_{i}}<{{X}_{i}}<{{V}_{i}} \right)}} \\ \end{align}$ |
(3) 重復上述兩個步驟N次,于是便產生了N個區間刪失數據。然后,生成的模擬數據的一部分數據的右端點改成+∞。則產生了所需要的半混合刪失數據。
隨后分別用新算法和SC算法求模擬數據相應的生存函數,記為S1和S2。模擬數據的理論曲線記為zhS。圖 1(a)~(d)分別為樣本量N為100,右刪失數據比例M為10%、25%、45%、50%時,一次隨機抽樣試驗的結果。圖 2(a)、(c)分別為樣本量N為200,右刪失數據比例M為10%、25%、50%時,一次隨機抽樣試驗的結果。圖 3為樣本量N為1 000,右刪失數據比例M為10%時,一次隨機抽樣試驗的結果。各圖中實線為理論生存曲線zhS,虛線是SC算法所得曲線S2,星號線是本文新算法所得曲線S1。

(a)

(a)

本文用生存曲線S1與zhS曲線和生存曲線S2與zhS曲線之間包圍的面積來進行兩種方法的比較。表 1中給出了樣本量N為100右刪失數據比例M分別為10%、25%和50%時,重復100次隨機抽樣試驗的結果。從表中同樣可以得出新算法得到的生存曲線比SC算法的更接近理論曲線,而且當右刪失數據比例增大時這個優勢更加明顯。

4 實例分析
將本文新算法與SC算法同時應用于Beadle等在1984年旨在比較兩種治療方法(數據1:單獨使用放射性療法;數據2:放射性療法輔以化學療法)對早期女性乳腺癌患者的形體美容效果的研究數據。研究數據詳見文獻[12]。圖 4(a)、(b)分別為數據1、2由兩種算法得到的生存函數曲線,實線S2是SC算法得到的生存函數曲線,虛線S1是新算法得到的生存函數曲線。

(a)數據1;(b)數據2
Figure4. Comparison of the results for the breast cancer data between the two methods(a) data 1;(b) data 2
從圖 4中可以看出乳腺癌放射性療法輔以化學療法的效果好于單獨使用放射性療法。
下面運用文獻[13-14]中應用的獨立同分布數據的Bootstrap來比較兩種方法的穩健性。從上述實例數據中有放回抽樣20次得到兩個獨立同分布的樣本數據。隨后分別應用這兩種方法進行生存函數估計,并在同一個圖中畫出同一方法估計的20個曲線。圖 5是算方法所得曲線,圖 6為SC 算法所得曲線。


從圖 5、6可以看出新方法比SC算法的20條曲線更加緊湊。分別計算圖 5、6中20條曲線下的面積,從而計算20個面積的標準差和變異系數。結果為:新方法的標準差為2.952 9和變異系數為0.130 7,而SC算法的標準差為5.135 3和變異系數為0.227 5。因此得出新方法較SC算法有更好的精確度和穩健性。
5 結束語
本文提出了基于均值插補和最近鄰插補的混合插補法及經驗分布理論對不同刪失比例的半混合刪失數據的非參數估計方法。接著應用Matlab軟件進行實現并將新算法和SC算法同時應用于模擬數據和實例數據來進行比較。模擬分析通過比較兩種方法所得曲線與理論曲線所圍面積得出:在樣本量為100,右刪失數據比例為10%時,新算法的精度達到了89.44866%,而SC算法的精度達到80.43554%;在樣本量為100,右刪失數據比例為25%時,新算法的精度達到了86.67092%,而SC算法的精度只達到69.24370%;在樣本量為100,右刪失數據比例為50%時,新算法的精度達到了89.15201%,而SC算法的精度只達到68.94446%。實例乳腺癌數據分析得出:新算法和SC算法所得20條曲線所圍面積的變異系數分別為0.130 7和0.227 5。因此在估計含有半混合刪失數據的生存函數時,新算法相對于SC算法有更高精確度和更好的穩健性。本文為臨床研究治療方法效果的比較和估計患者的生存數據提供了一種較好的方法,并通過Matlab進行實現,為醫學數據的生存數據分析工作提供一定的幫助。
引言
生存數據分析的理論和方法在人口學、流行病學、醫療和社會學的研究中都有廣泛的應用價值,日益受到人們的重視,尤其是在比較兩種治療方法的好壞方面有很重要的作用。生存分析中的數據有時是由相關試驗獲得的,有時則是通過相關調查得到的。根據觀測對象進入和退出時間分為刪失與截尾兩種數據類型[1]。在臨床研究中,以刪失數據更為常見。在生存數據的觀測中常常由于研究對象的意外死亡,研究對象拒絕回答有關調查項目,在觀測截止時間已到時,某些個體還沒有出現所關注的事件等原因,導致觀測的生存數據出現刪失。由于刪失數據蘊涵了與完全數據不同的信息,如果刪除進而不考慮這部分數據所蘊涵的信息,則可能會造成信息的損失和分析結果的偏頗。因此對刪失數據進行分析和估計是生存數據分析中重要的課題。
非參數估計方法在刪失數據的生存函數估計中應用廣泛。1973年Peto[2]第一次提出了區間刪失數據的非參數估計方法,該方法就是Newton-Raphson的約束算法。1976年Turnbull[3] 提出了求刪失數據的廣義極大似然估計的SC(self-consistent) 算法(也稱為Turnbull’s estimator),隨后Gu等[4]建立了self-consistent估計的一致性和正態性。近10年中SC算法仍然應用廣泛,例如:文獻[5]中提出了基于經驗分布函數的非參數方法對區間刪失數據進行了生存函數估計,并將所提方法與SC算法進行比較,其估計結果相對SC算法更加精確。文獻[6]中將SC算法進行擴展并將其應用于混合威布爾分布和指數分布的區間刪失數據。文獻[7]中提出了Turnbull’s estimator的一般化方法,該非參數估計方法應用于混合刪失數據,是廣義乘積限估計和Turnbull估計的一般化。
刪失數據中右刪失和區間刪失尤其常見,因此本文將經驗分布函數和單一插補法兩種方法相結合,提出了適用于同時包含精確數據、右刪失和嚴格區間刪失數據的數據集(本文稱其為半混合刪失數據)的生存函數估計方法。并同時應用新算法和經典SC算法分別對模擬數據集和實際的乳腺癌數據集進行生存函數估計,而后對兩種方法的精確度進行對比,發現新算法的精確度和穩健性都高于SC算法。
1 半混合刪失數據
若一個數據集包含精確數據、嚴格區間刪失數據、右刪失數據和左刪失數據,則稱該數據集稱為混合區間刪失數據[8]。本文所涉及的刪失數據集是包含精確數據、嚴格區間刪失數據和右刪失數據,因此本文稱該類型的數據集為半混合區間刪失數據。
設(Y,Z)代表一組隨機刪失數據(Y和Z的取值包括∞),其中p(Y<Z)=1,X
$\left[ L,R \right]=\left\{ \begin{matrix} \left( Y,+\infty \right),Y<X,Z=+\infty \cdots \cdots \cdots \cdots \cdots \cdots \left( 右刪失數據 \right) \\ \left[ Y,Z \right],-\infty <Y<X<Z<+\infty \cdots \left( 嚴格區間刪失數據 \right) \\ \left[ X,X \right],X\notin \left( Y,\left. Z \right]\cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \left( 精確數據 \right) \right. \\ \end{matrix} \right.$ |
2 基本原理和方法
本文的估計方法是基于經驗分布的思想和均值插補的方法對半混合刪失數據進行生存函數估計。本節將簡述所應用的均值插補基本原理。
上個世紀80年代前后,人們開始重視數據缺失問題,著力研究插補方法,為此發展了多種單一插補方法[9]。單一插補是處理刪失數據常用的一種技術,即給每一個刪失數據一些替代者,從而獲得“完整數據集”后,再使用標準的完整數據統計方法進行數據分析與統計推斷。常用的單一插補方法有均值插補、比插補、回歸插補、最近鄰插補和隨機插補[10]。均值插補是指用回答數據的均值作為缺失數據的替代值。最典型的均值差補法有總均值插補法和組均值插補法。本文所應用的便是組均值插補法插補和最近鄰插補[11]相結合的插補方法。
大多數研究中所應用的填補方法是將右刪失數據直接填補為真值數據,而本文所不同的是將右刪失數據填補為區間刪失數據。這樣做使得真實數據落入填補后的數據的概率更高。具體步驟如下:
(1) 將原始半混合刪失數據剔除右刪失數據,形成新的區間刪失數據,隨后應用文獻[5]中的方法進行估計并畫出生存曲線,得到當生存概率為0時,生存時間T*。
(2) 設半混合區間刪失數據集為含有n個觀察值的樣本S,記為(z1,δ1),(z2,δ2),…,(z1,δi),…,(zn,δn) ,其中zi=[li,ri] ,δi為半混合區間刪失示性函數,意義如下:
${{\delta }_{i}}=\left\{ \begin{matrix} -1,\cdots \cdots \cdots \cdots {{z}_{i}}為右刪失數據 \\ 0,\cdots \cdots \cdots \cdots \cdots \cdots \cdots {{z}_{i}}為精確數據 \\ 1,\cdots \cdots {{z}_{i}}為嚴格區間刪失數據 \\ \end{matrix} \right.$ |
將觀察值zi按照li的大小進行排列。將li相等的所有zi分為一組,設可以分為m組,將每組按照li從大到小進行排列,用U1,U2,…,Um表示。如果Ui中含有右刪失數據,則稱Ui為填補組。設Ui中有ni個觀察值,其中右刪失數據的個數為ri,非右刪失數據的個數為si=ni-ri。按照的取值大小填補方法如下:
① 若si≠0,這si個非右刪失觀測數據的右端點值的集合為(yi1,yi2,…,yisi)作為回答集,回答的個數為si個。則該填補集中的右刪失數據右端點的值全部設置為y。將(yi1,yi2,…,yisi)中的值的均值賦予y,即:
$y=\frac{1}{{{s}_{i}}}(\sum\limits_{j=1}^{{{s}_{i}}}{{{y}_{ij}}})$ |
② 若si=0,即Ui中只含有右刪失數據,則y為Ui-1和Ui+1中所有非右刪失數據的右端點值的平均值,即:
$y=\frac{1}{{{s}_{\left( i-1 \right)}}+{{s}_{\left( i+1 \right)}}}(\sum\limits_{j=1}^{{{s}_{_{(i-1)}}}}{{{y}_{\left( i-1 \right)j}}}+\sum\limits_{j=1}^{{{s}_{_{(i+1)}}}}{{{y}_{\left( i+1 \right)j}}})$ |
若上式得到的y值小于該右刪失數據的左端點,則y為Ui+1中所有非右刪失數據的右端點值的平均值,即:
$y=\frac{1}{{{s}_{\left( i+1 \right)}}}(\sum\limits_{j=1}^{{{s}_{_{(i+1)}}}}{{{y}_{\left( i+1 \right)j}}})$ |
若Ui之后都為填補組,則y為T*,即:
$y={{T}^{*}}$ |
對于數據集中的每一個右刪失數據依據以上所敘述的組均值插補的方法進行填補,將其填補為一個區間刪失數據,從而得到新的只含有真值數據和嚴格區間刪失數據的數據集,再使用劉淑霞所提出的區間刪失數據的非參數估計進行估計,從而得到半混合刪失數據集的生存函數曲線,具體步驟參見文獻[5]。
3 模擬分析
設隨機變量X服從參數為(0.5,1)的威布爾分布,隨機變量U服從參數為(μ,σ)的正態分布,隨機變量V服從參數為(μ,σ)的正態分布,這里0<σ<3。將[0,+∞)分成g+1段,h1,h2,…,hg為分段點,且滿足0<h1<h2<…<hg<+∞。
(1) 隨機產生一個X的觀測值,記為Xi;
(2) 如果hi≤Xi≤hi+1,那么分別隨機產生一個U的觀測值和一個V的觀測值,其中μ1=hi,μ2=hi+1令:
$\begin{align} & {{z}_{i}}=\left( {{l}_{i}},{{r}_{i}} \right)=\left( {{X}_{i}},{{X}_{i}} \right){{1}_{\left( {{X}_{i}}\le {{U}_{i}}\cup {{X}_{i}}>{{V}_{i}} \right.}}+ \\ & \left( {{U}_{i}},{{V}_{i}} \right){{1}_{\left( {{U}_{i}}<{{X}_{i}}<{{V}_{i}} \right)}} \\ \end{align}$ |
(3) 重復上述兩個步驟N次,于是便產生了N個區間刪失數據。然后,生成的模擬數據的一部分數據的右端點改成+∞。則產生了所需要的半混合刪失數據。
隨后分別用新算法和SC算法求模擬數據相應的生存函數,記為S1和S2。模擬數據的理論曲線記為zhS。圖 1(a)~(d)分別為樣本量N為100,右刪失數據比例M為10%、25%、45%、50%時,一次隨機抽樣試驗的結果。圖 2(a)、(c)分別為樣本量N為200,右刪失數據比例M為10%、25%、50%時,一次隨機抽樣試驗的結果。圖 3為樣本量N為1 000,右刪失數據比例M為10%時,一次隨機抽樣試驗的結果。各圖中實線為理論生存曲線zhS,虛線是SC算法所得曲線S2,星號線是本文新算法所得曲線S1。

(a)

(a)

本文用生存曲線S1與zhS曲線和生存曲線S2與zhS曲線之間包圍的面積來進行兩種方法的比較。表 1中給出了樣本量N為100右刪失數據比例M分別為10%、25%和50%時,重復100次隨機抽樣試驗的結果。從表中同樣可以得出新算法得到的生存曲線比SC算法的更接近理論曲線,而且當右刪失數據比例增大時這個優勢更加明顯。

4 實例分析
將本文新算法與SC算法同時應用于Beadle等在1984年旨在比較兩種治療方法(數據1:單獨使用放射性療法;數據2:放射性療法輔以化學療法)對早期女性乳腺癌患者的形體美容效果的研究數據。研究數據詳見文獻[12]。圖 4(a)、(b)分別為數據1、2由兩種算法得到的生存函數曲線,實線S2是SC算法得到的生存函數曲線,虛線S1是新算法得到的生存函數曲線。

(a)數據1;(b)數據2
Figure4. Comparison of the results for the breast cancer data between the two methods(a) data 1;(b) data 2
從圖 4中可以看出乳腺癌放射性療法輔以化學療法的效果好于單獨使用放射性療法。
下面運用文獻[13-14]中應用的獨立同分布數據的Bootstrap來比較兩種方法的穩健性。從上述實例數據中有放回抽樣20次得到兩個獨立同分布的樣本數據。隨后分別應用這兩種方法進行生存函數估計,并在同一個圖中畫出同一方法估計的20個曲線。圖 5是算方法所得曲線,圖 6為SC 算法所得曲線。


從圖 5、6可以看出新方法比SC算法的20條曲線更加緊湊。分別計算圖 5、6中20條曲線下的面積,從而計算20個面積的標準差和變異系數。結果為:新方法的標準差為2.952 9和變異系數為0.130 7,而SC算法的標準差為5.135 3和變異系數為0.227 5。因此得出新方法較SC算法有更好的精確度和穩健性。
5 結束語
本文提出了基于均值插補和最近鄰插補的混合插補法及經驗分布理論對不同刪失比例的半混合刪失數據的非參數估計方法。接著應用Matlab軟件進行實現并將新算法和SC算法同時應用于模擬數據和實例數據來進行比較。模擬分析通過比較兩種方法所得曲線與理論曲線所圍面積得出:在樣本量為100,右刪失數據比例為10%時,新算法的精度達到了89.44866%,而SC算法的精度達到80.43554%;在樣本量為100,右刪失數據比例為25%時,新算法的精度達到了86.67092%,而SC算法的精度只達到69.24370%;在樣本量為100,右刪失數據比例為50%時,新算法的精度達到了89.15201%,而SC算法的精度只達到68.94446%。實例乳腺癌數據分析得出:新算法和SC算法所得20條曲線所圍面積的變異系數分別為0.130 7和0.227 5。因此在估計含有半混合刪失數據的生存函數時,新算法相對于SC算法有更高精確度和更好的穩健性。本文為臨床研究治療方法效果的比較和估計患者的生存數據提供了一種較好的方法,并通過Matlab進行實現,為醫學數據的生存數據分析工作提供一定的幫助。