引用本文: 馮玉婷, 陶立元, 柴倩云, 羅慜婧, 高一城, 賈金柱, 費宇彤. 率的單組目標值試驗樣本量估計參數設置模擬研究. 中國循證醫學雜志, 2022, 22(9): 1062-1070. doi: 10.7507/1672-2531.202204086 復制
樣本量估算是臨床試驗設計階段要關注的要點問題之一[1]。研究者估算樣本量的目的是保證預期的檢驗假設在所需最小樣本量下能夠得到恰當地證明。所得到的樣本量不僅要保證有足夠的受試者,還應避免有過多的受試者在不必要的情況下暴露于研究風險中。眾所周知,樣本量估算的合理性、準確性對臨床研究的開展及統計分析至關重要。
單組試驗設計是未設置對照組的開放性設計。目標值是指從大量歷史數據庫(如文獻資料或歷史記錄)的數據中得到的一系列被廣泛認可的性能標準,這些標準可作為說明某類臨床干預措施的安全性或有效性的替代指標或臨床終點[2]。單組目標值試驗則是在單組試驗的基礎上加入了目標值法的應用,通過將臨床干預措施結果與這些性能標準進行比較,以此來驗證干預措施的有效性[3-4]。在試驗設計階段,單組目標值試驗要綜合考慮研究目的、療效指標等要求,判斷和選擇合理的樣本量估算方法。目前在率的單組目標值試驗中,關于不同樣本量估算方法之間的差異性研究相對較少。本文分析了在率的單組目標值法臨床試驗中目標值的確定方法、不同樣本量估算方法及估算結果間的差異等內容,以便臨床研究者理解并應用。
1 材料與方法
1.1 單組目標值的選擇方法
在單組目標值試驗中,確定目標值是單組目標值試驗設計階段的關鍵環節。目標值是指專業領域內公認的某醫療器械的有效性、安全性、性能評價指標所應達到的標準。其英文表達有多種,常見的有“performance goal”(PG)、“objective performance goal”(OPG)、“objective performance criteria”(OPC)三種。國外研究者Stuart[5]在2016年列表分析了對目標值法(客觀性能標準)三種表達方式的應用比較。此外,在確定目標值時要從研究人群(population)、干預措施(intervention)、結局指標(outcome)等多方面綜合考慮,保證當前試驗與選定的目標值具有可比性。確定目標值的常見途徑有臨床試驗監管部門指南、行業標準、專家共識或同類產品的歷史研究結果[6]等。作者使用“單組目標值”、“單臂目標值”、“single arm”、“performance goal”、“objective performance goal”、“objective performance criteria”等中英文關鍵詞對CNKI、PubMed、EMbase等數據庫進行檢索,對檢索到的相關文獻中目標值確定方式進行查閱總結,發現目前在單組目標值臨床試驗中使用的目標值選擇方法也確是基于以上途徑。
1.2 單組目標值不同樣本量估算方法
精確檢驗(確切概率法)和漸近檢驗(正態近似法)是常用的估算樣本量與把握度的方法。精確檢驗基于二項分布,檢驗過程未使用近似值,所以是準確的,常用于小樣本數據;漸近檢驗則常用于總體數據和大樣本數據。其中Z檢驗常用于大樣本數據,Z分布近似正態分布,但實際顯著性水平和把握度可使用二項分布精確計算。在PASS中,Z檢驗包括四種樣本量估算檢驗方法[涉及2種計算標準差(標準誤)的方法及是否采用連續性校正],即:Z-Test using S(P0)、Z-Test using S(P0) with C.C、Z-Test using S()、Z-Test using S(
) with C.C。所有Z檢驗都采用以下形式:
和
,P0L為P0的最小值,P0U為P0的最大值。
單組目標值的樣本量估算公式分別可表示為:
精確檢驗法(Exact Test):;
使用P0計算標準差[Z-Test using S(P0)]:(公式2);
使用P0計算標準差合并連續性校正[Z-Test using S(P0)with C.C]:當(p>p0時,c=
;當p<p0時,c=
;當|p?p0|<
時,c=0)(公式3);
使用計算標準差[Z-Test using S(
)]:
(公式4);
使用計算標準差合并連續性校正[Z-Test using S(
) with C.C]:
(c取值同公式3)(公式5)。
1.3 樣本量估算與統計分析
本研究采用PASS 15.0軟件中的“Test for One Proportion”功能進行單組目標值法的樣本量估算,在估算過程中選擇4種不同的方法[Exact Test/Z-Test using S(P0)/Z-Test using S(P0) with C.C/Z-Test using S()/Z-Test using S(
) with C.C]進行估算。主要估算P0和P1以0.05為間隔,5%~95%區間范圍內的樣本量,β分別設置0.1和0.2兩種情況,α設置為0.025。
運用上述樣本量估算結果,分別分析不同樣本量估算方法極限值兩側的變化情況;連續性校正和標準誤選擇對樣本量的影響;不同樣本量估算方法的差異比較。采用變異系數(coefficient of variation,CV)(CV=標準差/平均數)和極差占均數的比值(range/mean)探索不同估算方法間的一致性。多組間均數的比較采用方差分析進行,所有檢驗以雙側P<0.05為有統計學意義。
2 結果
2.1 不同樣本量估算方法極限值處變化情況分析
當目標值P0與臨床預期值P1取值相同時,樣本量無法估算,在圖1中,X=0.5處顯示為極限值。在極限值兩側,將單組樣本量估算中的目標值增加0.05和增加0.10時,兩者間樣本量估算結果的比值較大(4倍左右);將目標值增加0.10和增加0.15時,兩者間樣本量估算結果的比值則相對較小(2倍左右)。見圖2、3。



在目標值P0增加0.05和增加0.10時,不同樣本量估算方法間比值的比較顯示:Exact Test/Z-Test using S(P0)的比值均數最大(4.11±0.65),Z-Test using S() with C.C.的比值均數最小(3.85±0.07),但四組間差異無統計學意義(P=0.358)。在目標值增加0.10和增加0.15時,不同樣本量估算方法間比值比較顯示:Exact Test/Z-Test using S(P0)的比值均數最大(2.34±0.33),Z-Test using S(
) with C.C.的比值均數最小(2.17±0.04),但四組間差異無統計學意義(p=0.177)。相對而言,Exact Test/Z-Test using S(P0)和Z-Test using S(P0) with C.C方法的CV較大,提示這兩種方法在極限值兩側的樣本量變化較大。見表1。

2.2 連續性校正和標準誤選擇對樣本量的影響分析
2.2.1 連續性校正對樣本量的影響
在SP0和S兩種情況下,連續性校正前和連續性校正后的結果存在差異。當P0與P1相差較小(<0.15)時,連續性校正對樣本量的估算結果影響較小,比值可控制在0.9以內;當P0與P1相差較大(>0.6)時,連續性校正對樣本量的估算結果影響較大,比值可逼近0.5,但此種情況下估算的樣本量本身就很小,即使兩者比值偏小,實際樣本量也不會相差太大。結果見表2。

2.2.2 標準誤選擇對樣本量的影響
無論是否采用連續性校正,不同標準誤的選擇對樣本量估算結果也存在影響。當P0與P1之和接近1時,不同標準誤的選擇對樣本量影響較小,其比值接近1;當P0與P1之和小于0.65或者大于1.35時,選擇不同標準誤估算的樣本量差異較大,其比值最大可達3.5倍。但此種情況下估算的樣本量本身就很小,即使兩者比值偏小,實際樣本量也不會相差太大。結果見表3。

2.3 不同樣本量估算方法的差異比較
2.3.1 把握度為80%時的CV與極差/均數變化分析
采用CV和極差/均數探索不同樣本量估算結果的一致性,分別分析在不同把握度(80%、90%)情況下的結果。
當把握度為80%時,在CV分析(圖4)中,P0和P1的取值在0.25至0.75之間時,五種方法間CV較小(<0.10),說明在此區域內不同方法間樣本量估算結果差異不大;當P0取值<0.1或>0.9,不論P1如何取值,五種方法間CV均較大(>0.25),說明此時不同方法間樣本量估算結果差異較大;同樣當P1取值<0.1或>0.9,不論P0如何取值,五種方法間CV也較大(>0.25)。在極差/均數分析(圖5)中,其變化特征與CV相似。

*:縱列為目標值

*:縱列為目標值
2.3.2 把握度為90%時的CV與極差/均數變化分析
當把握度為90%時,在CV分析(圖6)中,P0和P1的取值在0.20~0.80時,五種方法間CV較小(<0.10),說明在此區域內不同方法間樣本量估算結果差異不大,但相較于把握度80%,把握度90%時的取值范圍增大;當P0取值<0.1或>0.9,不論P1如何取值,五種方法間CV均較大(>0.25),說明此時不同方法間樣本量估算結果差異較大;同樣當P1取值<0.1或>0.9,不論P0如何取值,五種方法的CV均較大(>0.25)。在極差/均數分析(圖7)中,其變化特征與CV相似。

*:縱列為目標值

*:縱列為目標值
3 討論
臨床試驗如何確定樣本量是至關重要的,其中對樣本量參數的選擇尤其重要。估算樣本量有不同方法,最常使用的傳統樣本量估算是事先確定把握度使其可達到組間差異具有統計學意義[7]。估算樣本量大小的常見影響因素有Ⅰ類錯誤(α)、Ⅱ類錯誤(β)、組間差異(δ)、標準差(σ)和抽樣方法等。除此之外,在單個率的樣本量估算中,不同率的標準差的計算方法及是否采用連續性校正也對估算結果存在影響,且在特定方法的特定參數設置范圍內差異較大。
截至目前,單組目標值法在心血管醫療器械臨床試驗領域,已經取得部分有價值的臨床研究結果,但目標值的確定方法也有所不同[8]。2017年,Mark等[9]評估了可植入Eversense CGM系統在T1D和T2D成年受試者中的安全性,預設目標值為20%,該目標值來自于專科學會標準[10]。William等[11]評估了吉非替尼對不能接受手術或放療的CSCC患者的治療有效率,預設目標值為20%,該目標值來自于國家標準[12];Donald等[13]評估冠狀動脈支架系統治療新生冠狀動脈病變的安全性和有效性,預設目標值為19.62%,該目標值的確定基于Meta分析結果[14]。2018年,Nicolas等[15]評估了栓塞保護系統在下肢動脈粥樣硬化切除術中的不良事件發生率,預設目標值為19.26%,該目標值的設定基于歷史數據[16-17]。
在PASS軟件中,當“Population Size”設置為無限大時,精確檢驗法與Z-Test using S(P0)方法估算的樣本量相同。從公式1、2可看出,兩個估算方法間的差異在于是否加入公式FPC,FPC可表示為(N-n)/(N-1),N為樣本量容量,n為估算所得樣本量。這時,若樣本容量為無限大,則FPC=1,即精確檢驗與Z-Test using S(P0)方法的估算結果不會存在差別,這也是在PASS軟件中“Population Size”設置為無限大時,兩種估算方法所得結果相同的原因。
在不同的標準誤確定方法中,Z-Test using S(P0)與Z-Test using S()兩種估算方法唯一的不同在于標準差的估算是采用P0還是
,這兩種取值方法的選擇思路在于是否認為試驗組與對照組來源于同一個總體。若研究者可確定試驗組和對照組來源于同一人群,則應該使用Z-Test using S(P0)樣本量估算方法。比如:某種疾病的治療長期使用某常規藥物,研究者認為新的試驗藥物的治療效果和常規藥物相差不多,此時研究者會更傾向于認為使用試驗藥的群體是來自于常規藥物的群體,即認為試驗組和對照組之間的療效差異來源于隨機抽樣誤差,并非藥物自身療效,則選擇Z-Test using S(P0)估算方法。若在研究設計之初,研究者認為試驗組人群應該是一個全新的總體或試驗組對于療效的改進是全新的事件,則使用Z-Test using S(
)估算方法,比如:某種疾病此前僅采用常規藥物治療,而現在可借助手術治療,如果研究者認為這對療效的改進是一個“全新事件”,則可選擇Z-Test using S(
)估算方法。至于對“全新事件”發生的定義,還需要研究者后續給出合理恰當的解釋,但現在主要還是依靠臨床試驗設計相關專家的主觀判斷。
樣本量連續性校正后較之于樣本量校正前樣本量增大。卡方分布界值表的分布是連續性分布,而計數資料實際頻數分布不連續,因此卡方界值表所的概率p值較小,尤其是在自由度小的情況下[18]。連續性校正是為了將離散型分布(二項分布)近似為連續型分布(正態分布)[19],可降低卡方統計量的值,增加了p值,并降低研究的把握度。因此在維持現有把握度的情況下,如果使用連續性校正時,研究者需增加樣本量[20-21],連續性校正的方法是在Z統計量的分子上加減,這也是連續性校正后樣本量增大的原因。我們的研究結果顯示當樣本量較大時,連續性校正帶來的影響較小;反之,則連續性校正的影響則較大,因此建議在小樣本量估算時應該采用連續性校正。
本研究的局限性:① 僅針對PASS軟件中的單個率的不同樣本量估算方法的差異性展開探討,不同估算軟件間的樣本量差異并未做詳細闡述;② 討論的情況有限,通過有規律地取值進行變異性分析,并未對所有可能的取值做全面探討;③ 未研討等效、非劣效、優效情況下的單組目標值法試驗;④ 未將不同的把握度計算方法展開討論。
總之,本研究發現不同樣本量估算方法間存在一定差異,但當P0和P1的取值均在0.5附近時不同方法間差異較小,這提示在樣本量估算時需要選擇恰當的方法。目前目標值的選取還未有成型統一的規范或準則,建議出臺更為細化的,執行度更高的目標值選擇工具、指南或指導文件。研究者在臨床試驗中估算樣本量時,對于不確定的估算結果,也可同時對多種估算方法,多個估算軟件的結果進行比較來確定最終的結果,得到更科學的樣本量,以此來體現試驗結果的準確性。
樣本量估算是臨床試驗設計階段要關注的要點問題之一[1]。研究者估算樣本量的目的是保證預期的檢驗假設在所需最小樣本量下能夠得到恰當地證明。所得到的樣本量不僅要保證有足夠的受試者,還應避免有過多的受試者在不必要的情況下暴露于研究風險中。眾所周知,樣本量估算的合理性、準確性對臨床研究的開展及統計分析至關重要。
單組試驗設計是未設置對照組的開放性設計。目標值是指從大量歷史數據庫(如文獻資料或歷史記錄)的數據中得到的一系列被廣泛認可的性能標準,這些標準可作為說明某類臨床干預措施的安全性或有效性的替代指標或臨床終點[2]。單組目標值試驗則是在單組試驗的基礎上加入了目標值法的應用,通過將臨床干預措施結果與這些性能標準進行比較,以此來驗證干預措施的有效性[3-4]。在試驗設計階段,單組目標值試驗要綜合考慮研究目的、療效指標等要求,判斷和選擇合理的樣本量估算方法。目前在率的單組目標值試驗中,關于不同樣本量估算方法之間的差異性研究相對較少。本文分析了在率的單組目標值法臨床試驗中目標值的確定方法、不同樣本量估算方法及估算結果間的差異等內容,以便臨床研究者理解并應用。
1 材料與方法
1.1 單組目標值的選擇方法
在單組目標值試驗中,確定目標值是單組目標值試驗設計階段的關鍵環節。目標值是指專業領域內公認的某醫療器械的有效性、安全性、性能評價指標所應達到的標準。其英文表達有多種,常見的有“performance goal”(PG)、“objective performance goal”(OPG)、“objective performance criteria”(OPC)三種。國外研究者Stuart[5]在2016年列表分析了對目標值法(客觀性能標準)三種表達方式的應用比較。此外,在確定目標值時要從研究人群(population)、干預措施(intervention)、結局指標(outcome)等多方面綜合考慮,保證當前試驗與選定的目標值具有可比性。確定目標值的常見途徑有臨床試驗監管部門指南、行業標準、專家共識或同類產品的歷史研究結果[6]等。作者使用“單組目標值”、“單臂目標值”、“single arm”、“performance goal”、“objective performance goal”、“objective performance criteria”等中英文關鍵詞對CNKI、PubMed、EMbase等數據庫進行檢索,對檢索到的相關文獻中目標值確定方式進行查閱總結,發現目前在單組目標值臨床試驗中使用的目標值選擇方法也確是基于以上途徑。
1.2 單組目標值不同樣本量估算方法
精確檢驗(確切概率法)和漸近檢驗(正態近似法)是常用的估算樣本量與把握度的方法。精確檢驗基于二項分布,檢驗過程未使用近似值,所以是準確的,常用于小樣本數據;漸近檢驗則常用于總體數據和大樣本數據。其中Z檢驗常用于大樣本數據,Z分布近似正態分布,但實際顯著性水平和把握度可使用二項分布精確計算。在PASS中,Z檢驗包括四種樣本量估算檢驗方法[涉及2種計算標準差(標準誤)的方法及是否采用連續性校正],即:Z-Test using S(P0)、Z-Test using S(P0) with C.C、Z-Test using S()、Z-Test using S(
) with C.C。所有Z檢驗都采用以下形式:
和
,P0L為P0的最小值,P0U為P0的最大值。
單組目標值的樣本量估算公式分別可表示為:
精確檢驗法(Exact Test):;
使用P0計算標準差[Z-Test using S(P0)]:(公式2);
使用P0計算標準差合并連續性校正[Z-Test using S(P0)with C.C]:當(p>p0時,c=
;當p<p0時,c=
;當|p?p0|<
時,c=0)(公式3);
使用計算標準差[Z-Test using S(
)]:
(公式4);
使用計算標準差合并連續性校正[Z-Test using S(
) with C.C]:
(c取值同公式3)(公式5)。
1.3 樣本量估算與統計分析
本研究采用PASS 15.0軟件中的“Test for One Proportion”功能進行單組目標值法的樣本量估算,在估算過程中選擇4種不同的方法[Exact Test/Z-Test using S(P0)/Z-Test using S(P0) with C.C/Z-Test using S()/Z-Test using S(
) with C.C]進行估算。主要估算P0和P1以0.05為間隔,5%~95%區間范圍內的樣本量,β分別設置0.1和0.2兩種情況,α設置為0.025。
運用上述樣本量估算結果,分別分析不同樣本量估算方法極限值兩側的變化情況;連續性校正和標準誤選擇對樣本量的影響;不同樣本量估算方法的差異比較。采用變異系數(coefficient of variation,CV)(CV=標準差/平均數)和極差占均數的比值(range/mean)探索不同估算方法間的一致性。多組間均數的比較采用方差分析進行,所有檢驗以雙側P<0.05為有統計學意義。
2 結果
2.1 不同樣本量估算方法極限值處變化情況分析
當目標值P0與臨床預期值P1取值相同時,樣本量無法估算,在圖1中,X=0.5處顯示為極限值。在極限值兩側,將單組樣本量估算中的目標值增加0.05和增加0.10時,兩者間樣本量估算結果的比值較大(4倍左右);將目標值增加0.10和增加0.15時,兩者間樣本量估算結果的比值則相對較小(2倍左右)。見圖2、3。



在目標值P0增加0.05和增加0.10時,不同樣本量估算方法間比值的比較顯示:Exact Test/Z-Test using S(P0)的比值均數最大(4.11±0.65),Z-Test using S() with C.C.的比值均數最小(3.85±0.07),但四組間差異無統計學意義(P=0.358)。在目標值增加0.10和增加0.15時,不同樣本量估算方法間比值比較顯示:Exact Test/Z-Test using S(P0)的比值均數最大(2.34±0.33),Z-Test using S(
) with C.C.的比值均數最小(2.17±0.04),但四組間差異無統計學意義(p=0.177)。相對而言,Exact Test/Z-Test using S(P0)和Z-Test using S(P0) with C.C方法的CV較大,提示這兩種方法在極限值兩側的樣本量變化較大。見表1。

2.2 連續性校正和標準誤選擇對樣本量的影響分析
2.2.1 連續性校正對樣本量的影響
在SP0和S兩種情況下,連續性校正前和連續性校正后的結果存在差異。當P0與P1相差較小(<0.15)時,連續性校正對樣本量的估算結果影響較小,比值可控制在0.9以內;當P0與P1相差較大(>0.6)時,連續性校正對樣本量的估算結果影響較大,比值可逼近0.5,但此種情況下估算的樣本量本身就很小,即使兩者比值偏小,實際樣本量也不會相差太大。結果見表2。

2.2.2 標準誤選擇對樣本量的影響
無論是否采用連續性校正,不同標準誤的選擇對樣本量估算結果也存在影響。當P0與P1之和接近1時,不同標準誤的選擇對樣本量影響較小,其比值接近1;當P0與P1之和小于0.65或者大于1.35時,選擇不同標準誤估算的樣本量差異較大,其比值最大可達3.5倍。但此種情況下估算的樣本量本身就很小,即使兩者比值偏小,實際樣本量也不會相差太大。結果見表3。

2.3 不同樣本量估算方法的差異比較
2.3.1 把握度為80%時的CV與極差/均數變化分析
采用CV和極差/均數探索不同樣本量估算結果的一致性,分別分析在不同把握度(80%、90%)情況下的結果。
當把握度為80%時,在CV分析(圖4)中,P0和P1的取值在0.25至0.75之間時,五種方法間CV較小(<0.10),說明在此區域內不同方法間樣本量估算結果差異不大;當P0取值<0.1或>0.9,不論P1如何取值,五種方法間CV均較大(>0.25),說明此時不同方法間樣本量估算結果差異較大;同樣當P1取值<0.1或>0.9,不論P0如何取值,五種方法間CV也較大(>0.25)。在極差/均數分析(圖5)中,其變化特征與CV相似。

*:縱列為目標值

*:縱列為目標值
2.3.2 把握度為90%時的CV與極差/均數變化分析
當把握度為90%時,在CV分析(圖6)中,P0和P1的取值在0.20~0.80時,五種方法間CV較小(<0.10),說明在此區域內不同方法間樣本量估算結果差異不大,但相較于把握度80%,把握度90%時的取值范圍增大;當P0取值<0.1或>0.9,不論P1如何取值,五種方法間CV均較大(>0.25),說明此時不同方法間樣本量估算結果差異較大;同樣當P1取值<0.1或>0.9,不論P0如何取值,五種方法的CV均較大(>0.25)。在極差/均數分析(圖7)中,其變化特征與CV相似。

*:縱列為目標值

*:縱列為目標值
3 討論
臨床試驗如何確定樣本量是至關重要的,其中對樣本量參數的選擇尤其重要。估算樣本量有不同方法,最常使用的傳統樣本量估算是事先確定把握度使其可達到組間差異具有統計學意義[7]。估算樣本量大小的常見影響因素有Ⅰ類錯誤(α)、Ⅱ類錯誤(β)、組間差異(δ)、標準差(σ)和抽樣方法等。除此之外,在單個率的樣本量估算中,不同率的標準差的計算方法及是否采用連續性校正也對估算結果存在影響,且在特定方法的特定參數設置范圍內差異較大。
截至目前,單組目標值法在心血管醫療器械臨床試驗領域,已經取得部分有價值的臨床研究結果,但目標值的確定方法也有所不同[8]。2017年,Mark等[9]評估了可植入Eversense CGM系統在T1D和T2D成年受試者中的安全性,預設目標值為20%,該目標值來自于專科學會標準[10]。William等[11]評估了吉非替尼對不能接受手術或放療的CSCC患者的治療有效率,預設目標值為20%,該目標值來自于國家標準[12];Donald等[13]評估冠狀動脈支架系統治療新生冠狀動脈病變的安全性和有效性,預設目標值為19.62%,該目標值的確定基于Meta分析結果[14]。2018年,Nicolas等[15]評估了栓塞保護系統在下肢動脈粥樣硬化切除術中的不良事件發生率,預設目標值為19.26%,該目標值的設定基于歷史數據[16-17]。
在PASS軟件中,當“Population Size”設置為無限大時,精確檢驗法與Z-Test using S(P0)方法估算的樣本量相同。從公式1、2可看出,兩個估算方法間的差異在于是否加入公式FPC,FPC可表示為(N-n)/(N-1),N為樣本量容量,n為估算所得樣本量。這時,若樣本容量為無限大,則FPC=1,即精確檢驗與Z-Test using S(P0)方法的估算結果不會存在差別,這也是在PASS軟件中“Population Size”設置為無限大時,兩種估算方法所得結果相同的原因。
在不同的標準誤確定方法中,Z-Test using S(P0)與Z-Test using S()兩種估算方法唯一的不同在于標準差的估算是采用P0還是
,這兩種取值方法的選擇思路在于是否認為試驗組與對照組來源于同一個總體。若研究者可確定試驗組和對照組來源于同一人群,則應該使用Z-Test using S(P0)樣本量估算方法。比如:某種疾病的治療長期使用某常規藥物,研究者認為新的試驗藥物的治療效果和常規藥物相差不多,此時研究者會更傾向于認為使用試驗藥的群體是來自于常規藥物的群體,即認為試驗組和對照組之間的療效差異來源于隨機抽樣誤差,并非藥物自身療效,則選擇Z-Test using S(P0)估算方法。若在研究設計之初,研究者認為試驗組人群應該是一個全新的總體或試驗組對于療效的改進是全新的事件,則使用Z-Test using S(
)估算方法,比如:某種疾病此前僅采用常規藥物治療,而現在可借助手術治療,如果研究者認為這對療效的改進是一個“全新事件”,則可選擇Z-Test using S(
)估算方法。至于對“全新事件”發生的定義,還需要研究者后續給出合理恰當的解釋,但現在主要還是依靠臨床試驗設計相關專家的主觀判斷。
樣本量連續性校正后較之于樣本量校正前樣本量增大。卡方分布界值表的分布是連續性分布,而計數資料實際頻數分布不連續,因此卡方界值表所的概率p值較小,尤其是在自由度小的情況下[18]。連續性校正是為了將離散型分布(二項分布)近似為連續型分布(正態分布)[19],可降低卡方統計量的值,增加了p值,并降低研究的把握度。因此在維持現有把握度的情況下,如果使用連續性校正時,研究者需增加樣本量[20-21],連續性校正的方法是在Z統計量的分子上加減,這也是連續性校正后樣本量增大的原因。我們的研究結果顯示當樣本量較大時,連續性校正帶來的影響較小;反之,則連續性校正的影響則較大,因此建議在小樣本量估算時應該采用連續性校正。
本研究的局限性:① 僅針對PASS軟件中的單個率的不同樣本量估算方法的差異性展開探討,不同估算軟件間的樣本量差異并未做詳細闡述;② 討論的情況有限,通過有規律地取值進行變異性分析,并未對所有可能的取值做全面探討;③ 未研討等效、非劣效、優效情況下的單組目標值法試驗;④ 未將不同的把握度計算方法展開討論。
總之,本研究發現不同樣本量估算方法間存在一定差異,但當P0和P1的取值均在0.5附近時不同方法間差異較小,這提示在樣本量估算時需要選擇恰當的方法。目前目標值的選取還未有成型統一的規范或準則,建議出臺更為細化的,執行度更高的目標值選擇工具、指南或指導文件。研究者在臨床試驗中估算樣本量時,對于不確定的估算結果,也可同時對多種估算方法,多個估算軟件的結果進行比較來確定最終的結果,得到更科學的樣本量,以此來體現試驗結果的準確性。