樣本量的準確評估是評價診斷試驗結果是否可靠的重要因素之一。本文以人工智能識別肝臟超聲造影影像學數據的臨床診斷試驗為例,進行二分類和多分類研究,以敏感性和特異性為主要指標,結合疾病的發生率、檢驗水準、單雙側檢驗等統計特征進行樣本量估算。綜合人工智能醫學圖像識別中訓練集/測試集數據比例劃分、病例脫落率等因素對計算樣本量進行校正。Sample Size Calculator、MedCalc、PASS等軟件的應用可實現樣本量的快速計算,減少人為工作量。
引用本文: 劉燈, 劉麗, 曾楊媚, 郭燕麗. 根據敏感性和特異性估算人工智能超聲造影診斷試驗的樣本量. 中國循證醫學雜志, 2021, 21(3): 361-366. doi: 10.7507/1672-2531.202009050 復制
超聲影像學具有方便快捷、圖像實時動態、對軟組織分辨率高等優點,已在各種疾病的診斷和治療中發揮了重要的作用。超聲造影通過靜脈注射血池造影劑,能夠清晰地顯示病灶的血流灌注情況,已廣泛應用在肝臟、心臟、淺表等全身重要臟器疾病和腫瘤的診斷和鑒別。有研究表明,與 CT 和 MRI 相比,超聲造影在肝臟腫瘤的鑒別診斷中擁有更多的優越性,如安全性高、實時性好、檢查費用相對較低等[1]。近年來,深度學習等人工智能方法已廣泛應用于超聲、CT 和 MRI 等[2,3]影像學圖像的自動識別,利用深度學習、神經網絡等相關算法,建立輸入圖片特征與輸出目標結果之間的對應關系。通過提取病灶的圖像特征、結合相關病史和多模態影像學數據進行綜合分析,輔助診斷腫瘤的性質和類型,提高疾病的診斷準確性,達到精確診斷的目的。
運用人工智能識別肝臟超聲造影影像學數據的臨床診斷試驗,需要選擇合適的有代表性的樣本作為研究對象進行研究。診斷準確性研究報告規范 2015 增加了對樣本量估算的內容,要求研究者提供有關樣本量的全部參數,如預期精度、統計效力等[4,5]。根據假設檢驗原理,樣本量過小,無法檢驗出真實存在的差別,得到的結論缺乏充分依據;樣本量過大,會造成人力、物力和時間的不必要浪費,甚至會因為投入不足而導致研究質量下降。所以正確估計樣本量是臨床研究中非常重要的前提工作。部分臨床研究論文存在直接使用參考文獻的公式和數據隨意估算樣本量,或存在直接描述對照組和試驗組的病例數、缺失樣本量估算依據等情況,無法保證研究結果的真實性和可靠性[6]。本研究為滿足人工智能輔助超聲診斷試驗的敏感性(sensitivity,SEN)和特異性(specificity,SPE)(Ⅰ類錯誤的控制和檢驗效能的保證),選擇合適的參數、設計方法、假設檢驗類型、主要評價指標和合理的統計學公式進行樣本量估算。因為在評估臨床診斷試驗的優劣時,常用 SEN、SPE、準確性、陽性預測值和陰性預測值等參數評價,故在診斷試驗可接受的精確度范圍內,可根據假設的 SEN、SPE 和患病率(prevalence of disease,P)對樣本量進行估算。
1 診斷試驗統計分析方法
診斷試驗是指對疾病進行診斷分類的試驗方法,包括各種實驗室檢查,還包括各種影像學診斷,如超聲、CT 和 MRI 等。為探討超聲造影對疾病的診斷價值,常以病理組織結果作為診斷標準,即“金標準”。根據超聲造影診斷試驗和金標準對疑似患者的診斷結果進行歸納和統計,可將研究對象分為真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)和真陰性(true negative,TN)(表 1)。

診斷試驗中常用的穩定性評價指標包括 SEN 和 SPE。其中,SEN 是指金標準確診為陽性的病例中,診斷試驗檢測出陽性的比例;SPE 是指金標準確診為陰性的病例中,診斷試驗檢測出陰性的比例。SEN 和 SPE 及相應的標準誤差(standard error,SE)、容許誤差(tolerance error,d)的計算見公式 1~6。設樣本量服從正態分布,檢驗水準為α,雙尾檢驗時的置信區間為[μ±SE],α為 0.05 時,則 95% 置信區間為[μ±1.96SE]。其他診斷相關指標還包括準確性、約登指數、假陽性率、假陰性率、陽性預測值、陰性預測值、陽性似然比和陰性似然比等。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
2 二分類變量診斷試驗樣本量估算
對疾病進行良惡性分類是常見的二分類診斷試驗。其樣本量計算主要依據 SEN 和 SPE 指標[7-9],SEN、dSEN、SPE、dSPE 的取值參考既往文獻或預試驗的結果,計算得到二分類診斷試驗所需陽性病例數(TP+FR)和陰性病例數(TN+FP),見公式 7~8:
根據 SEN 計算陽性病例數:
![]() |
根據 SPE 計算陰性病例數:
![]() |
表示樣本服從標準正態分布,當檢驗水準為α時,則置信度為 1-α,一般情況下α取值為 0.05,則 95% 置信區間雙尾分布時
。
此外,樣本量估算還與疾病的P值有關,需要分別估算 SEN 所需要的樣本量(NSEN)和 SPE 所需要的樣本量(NSPE),見公式 9~10:
根據 SEN 計算樣本量:
![]() |
根據 SPE 計算樣本量:
![]() |
估算總樣本量N取NSEN 和NSPE 的較大值,即N=max(NSEN,NSPE)。
從二分類資料的樣本量計算公式可以看出,樣本量的大小取決于d、SEN、SPE 和P的取值。d越小,NSEN 和NSPE 值越大;SEN 和 SPE 的取值區間均為[0,1],其值越接近 0.5 時所需樣本量越大;P值越小,NSEN 越大,NSPE 越小。
超聲造影對肝臟疾病良惡性的診斷研究是典型的二分類診斷試驗,以病理結果為金標準,通過計算診斷試驗 SEN 和 SPE 從而評估超聲造影人工智能在診斷肝臟疾病中的應用價值。Wu 等[10]運用深度學習方法,對 22 個病例包含 26 個肝臟局灶性病灶的超聲造影視頻進行良惡性分類,診斷 SEN 和 SPE 分別為 83.33% 和 87.50%。Guo 等[11]增大樣本量,對 93 個病例肝臟超聲造影動脈期、門脈期和延遲期圖像進行人工智能鑒別診斷,利用深度典型相關性分析和多核學習的兩階段多視角學習框架,采用五倍交叉驗證方法診斷 SEN 提高至 93.56%,SPE 為 86.89%,說明超聲造影診斷肝臟良惡性病變具有較高的 SEN 和 SPE。本研究參照 Guo 等獲得的 SEN 和 SPE 數值,同時設定α=0.05(雙側)。d 是反應假設檢驗中數據差異大小的參數,樣本量(NSEN、NSPE)與d 的平方成反比,即d 越小,樣本量取值越大,Malhotra 等[12]指出d 的取值范圍可以定在 0.03~0.1,并且在保證 SEN、SPE、P等因素不變的情況下,根據樣本量比值等于d 平方比值的倒數進行樣本量的快速計算。本研究結合樣本收集等實際人力和物力情況,設置dSEN 和dSPE 均為 0.1 進行樣本量的計算。預設的d 不等于正式試驗 SEN 和 SPE 的d,可根據兩者大小再次判斷樣本量是否足夠以及是否需要追加樣本量的收集[13]。本研究根據 181 例回顧性病例計算可得肝臟惡性病變的P為 0.52(95/181),肝臟良性病變的P為 0.48(86/181),根據上述公式計算樣本量:
![]() |
![]() |
因NSPE>NSEN,N=92,說明人工智能識別肝臟超聲造影診斷疾病良惡性需要的估計樣本量最少為 92 例。
Sample Size Calculator 軟件納入置信水平(1-α)、d和總體比例(SEN、SPE)等因素,運用該軟件計算樣本量,結果見圖 1。因軟件未納入P值,最終NSEN=24/0.52=46.15≈47,NSPE=44/0.48=91.66≈92,因NSPE>NSEN,則N=92。結果顯示,運用 Sample Size Calculator 計算樣本量結果和利用公式(9)、(10)計算結果基本一致。雖然 Sample Size Calculator 軟件結果因取整數存在一定誤差,但 Sample Size Calculator 軟件仍然能方便快速地完成樣本量數據的計算工作。

3 多分類變量診斷試驗樣本量估算
實際臨床診斷試驗中,在鑒別疾病良惡性的基礎上,還需要識別疾病的具體病理類型以實現精準診斷。以人工智能鑒別肝臟疾病為例,臨床中常見的肝臟良惡性疾病病理種類有肝癌、肝膽管細胞癌、肝血管瘤、肝局灶性結節狀增生等,其二維超聲圖像、彩色多普勒血流顯像(color Doppler flow imaging,CDFI)和超聲造影圖像(動脈相、門脈相和延遲相)見圖 2。利用人工智能對超聲圖像進行自動識別,能定位腫瘤的位置、提取腫瘤的超聲影像特征和分析肝臟超聲造影動脈相、門脈相、延遲相的血池灌注特征,并結合相關病史和其他影像學數據綜合分析,達到輔助診斷肝臟腫瘤的性質和類型,減少不必要的漏診和誤診,進一步實現精準診斷的目的,更好地服務于臨床和患者。

多分類診斷試驗中,假設共存在n種病理類型,設i為診斷試驗結果,j為金標準結果,且 1≤i≤n,1≤j≤n。對同一病例進行診斷,當i=j時,表明診斷試驗與金標準結果相同;當i≠j時,表明診斷試驗與金標準結果不同。表 2 為診斷試驗和金標準結果樣本分布,其中Nij表示為金標準結果為j,診斷試驗結果為i。

總樣本量N總:
![]() |
針對第j種金標準類型,i=j時,第j種疾病的 TPj=Nij,FPj=Ni1+Ni2+…+Ni(j-1)+Ni(j+1)…+Nin,FNj=N1j+N2j+…+N(i-1)j+…+N(i+1)j+…+Nnj,TNj=N-TPj-FPj-FNj,參照二分類樣本量估算公式,可估算:
第j種疾病患者組樣本量公式:
![]() |
非j種疾病患者組樣本量公式:
![]() |
多分類診斷試驗估算樣本量N 取 和
中的較大值,即N=max(
,
,1≤j≤n)。
在精準診斷肝臟疾病類型方面,Hassan 等[14]通過分析肝囊腫、肝血管瘤和肝癌等疾病的二維超聲感興趣區域,利用深度學習進行多分類鑒別診斷,其診斷準確性、SEN 和 SPE 分別為 97.2%、98.0% 和 95.7%。計算機輔助診斷方法(computer-aided diagnostic,CAD)對脂肪肝、肝硬化、肝囊腫、肝纖維化等均具有較高的診斷準確性[15]。Sugimoto 等[16]運用 CAD,對肝臟局灶性結節增生的二維超聲圖像和超聲造影圖像進行學習并鑒別診斷,對肝癌、轉移性肝癌和肝血管瘤的三分類診斷準確性高達 94.2%,但對低分化肝癌、中分化肝癌、高分化肝癌、轉移性肝癌和肝血管瘤的五分類診斷準確性僅為 71.5%。本研究對多分類診斷試驗仍參照 Guo 等[11]獲得的 SEN 和 SPE 值,α=0.05(雙側),參考二分類變量診斷試驗中d 取值方法,多分類d 也均預設為 0.1[12];在本研究中,Pj為第j種金標準類型所占所有肝臟疾病的比例,該數據根據 181 例回顧性病例計算獲得(見表 3),根據多分類樣本量公式計算樣本量N=max(,
,1≤j≤n)=466 例;根據 Sample Size Calculator 軟件計算樣本量N=483 例,兩種計算方式的結果見表 4。


4 人工智能樣本量數據集的分配
在傳統的機器學習中,小規模數據集數據的劃分將整個數據集的 70% 用于模型的訓練即訓練集,30% 用于模型的測試即測試集,較少劃分驗證集;大規模數據集可根據實際的情況劃分成訓練集、驗證集和測試集[17,18],并直接通過測試集數據計算 SEN、SPE 等參數以評估訓練模型的優劣。因此,我們可以理解為通過 SEN、SPE、P計算獲得的樣本量僅為測試集所需樣本量,故訓練集、測試集、數據集總數計算公式如下:
測試集樣本數:
![]() |
數據集總數:
![]() |
訓練集樣本數:
![]() |
因此,本研究中N測試集=466,N總=466÷30%=1 553.3≈1 554,N訓練集=1 554×70%=1 087.8≈1 088。
5 樣本量調整
根據統計學方法估計出的樣本量是在給定條件下滿足臨床研究所需的最小樣本量。在實際研究過程中,由于部分病例資料不齊全等原因會導致病例的脫落和剔除,會導致可評價患者數的減少,脫落率通常不高于 20%[19]。因此,需要在估算樣本量的基礎上適度擴大,以保證最終的有效樣本量可以滿足最小樣本量的要求。在本研究中,將脫落率考慮為 10%,計算獲得訓練集、測試集、數據集總數分別為 1 209、518 和 1 727 例。
6 根據受試者工作特征曲線下面積計算樣本量
受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)也是診斷試驗的準確性評價指標之一,ROC 曲線橫坐標為 1-SPE=β,縱坐標為 SEN=1-α。Guo 等[11]運用不同的人工智能方法識別肝臟超聲造影的 AUC 在 76.8%~97.4% 之間。因此本研究設置 AUC=85%,第一類錯誤水平α=0.05,第二類錯誤水平β=0.1,良性/惡性病例比例為=48/52,并應用 MedCalc(版本:19.5)軟件 Sample size 菜單下 Area under ROC curve[9],計算樣本量結果見圖 3,惡性組和良性組所需樣本量均為 12。PASS 等軟件亦含有 ROC 曲線分析功能,可根據 AUC 計算診斷試驗所需樣本量。

7 小結
本研究通過 SEN、SPE 對二分類和多分類臨床診斷試驗樣本量進行估計,為人工智能診斷肝臟疾病超聲造影結論的可信度提供理論支撐,促進人工智能在醫學圖像領域中的應用。合理應用樣本量估算相關軟件,減少手工公式計算的工作量,可使樣本量的估算更加簡便快捷。
超聲影像學具有方便快捷、圖像實時動態、對軟組織分辨率高等優點,已在各種疾病的診斷和治療中發揮了重要的作用。超聲造影通過靜脈注射血池造影劑,能夠清晰地顯示病灶的血流灌注情況,已廣泛應用在肝臟、心臟、淺表等全身重要臟器疾病和腫瘤的診斷和鑒別。有研究表明,與 CT 和 MRI 相比,超聲造影在肝臟腫瘤的鑒別診斷中擁有更多的優越性,如安全性高、實時性好、檢查費用相對較低等[1]。近年來,深度學習等人工智能方法已廣泛應用于超聲、CT 和 MRI 等[2,3]影像學圖像的自動識別,利用深度學習、神經網絡等相關算法,建立輸入圖片特征與輸出目標結果之間的對應關系。通過提取病灶的圖像特征、結合相關病史和多模態影像學數據進行綜合分析,輔助診斷腫瘤的性質和類型,提高疾病的診斷準確性,達到精確診斷的目的。
運用人工智能識別肝臟超聲造影影像學數據的臨床診斷試驗,需要選擇合適的有代表性的樣本作為研究對象進行研究。診斷準確性研究報告規范 2015 增加了對樣本量估算的內容,要求研究者提供有關樣本量的全部參數,如預期精度、統計效力等[4,5]。根據假設檢驗原理,樣本量過小,無法檢驗出真實存在的差別,得到的結論缺乏充分依據;樣本量過大,會造成人力、物力和時間的不必要浪費,甚至會因為投入不足而導致研究質量下降。所以正確估計樣本量是臨床研究中非常重要的前提工作。部分臨床研究論文存在直接使用參考文獻的公式和數據隨意估算樣本量,或存在直接描述對照組和試驗組的病例數、缺失樣本量估算依據等情況,無法保證研究結果的真實性和可靠性[6]。本研究為滿足人工智能輔助超聲診斷試驗的敏感性(sensitivity,SEN)和特異性(specificity,SPE)(Ⅰ類錯誤的控制和檢驗效能的保證),選擇合適的參數、設計方法、假設檢驗類型、主要評價指標和合理的統計學公式進行樣本量估算。因為在評估臨床診斷試驗的優劣時,常用 SEN、SPE、準確性、陽性預測值和陰性預測值等參數評價,故在診斷試驗可接受的精確度范圍內,可根據假設的 SEN、SPE 和患病率(prevalence of disease,P)對樣本量進行估算。
1 診斷試驗統計分析方法
診斷試驗是指對疾病進行診斷分類的試驗方法,包括各種實驗室檢查,還包括各種影像學診斷,如超聲、CT 和 MRI 等。為探討超聲造影對疾病的診斷價值,常以病理組織結果作為診斷標準,即“金標準”。根據超聲造影診斷試驗和金標準對疑似患者的診斷結果進行歸納和統計,可將研究對象分為真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)和真陰性(true negative,TN)(表 1)。

診斷試驗中常用的穩定性評價指標包括 SEN 和 SPE。其中,SEN 是指金標準確診為陽性的病例中,診斷試驗檢測出陽性的比例;SPE 是指金標準確診為陰性的病例中,診斷試驗檢測出陰性的比例。SEN 和 SPE 及相應的標準誤差(standard error,SE)、容許誤差(tolerance error,d)的計算見公式 1~6。設樣本量服從正態分布,檢驗水準為α,雙尾檢驗時的置信區間為[μ±SE],α為 0.05 時,則 95% 置信區間為[μ±1.96SE]。其他診斷相關指標還包括準確性、約登指數、假陽性率、假陰性率、陽性預測值、陰性預測值、陽性似然比和陰性似然比等。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
2 二分類變量診斷試驗樣本量估算
對疾病進行良惡性分類是常見的二分類診斷試驗。其樣本量計算主要依據 SEN 和 SPE 指標[7-9],SEN、dSEN、SPE、dSPE 的取值參考既往文獻或預試驗的結果,計算得到二分類診斷試驗所需陽性病例數(TP+FR)和陰性病例數(TN+FP),見公式 7~8:
根據 SEN 計算陽性病例數:
![]() |
根據 SPE 計算陰性病例數:
![]() |
表示樣本服從標準正態分布,當檢驗水準為α時,則置信度為 1-α,一般情況下α取值為 0.05,則 95% 置信區間雙尾分布時
。
此外,樣本量估算還與疾病的P值有關,需要分別估算 SEN 所需要的樣本量(NSEN)和 SPE 所需要的樣本量(NSPE),見公式 9~10:
根據 SEN 計算樣本量:
![]() |
根據 SPE 計算樣本量:
![]() |
估算總樣本量N取NSEN 和NSPE 的較大值,即N=max(NSEN,NSPE)。
從二分類資料的樣本量計算公式可以看出,樣本量的大小取決于d、SEN、SPE 和P的取值。d越小,NSEN 和NSPE 值越大;SEN 和 SPE 的取值區間均為[0,1],其值越接近 0.5 時所需樣本量越大;P值越小,NSEN 越大,NSPE 越小。
超聲造影對肝臟疾病良惡性的診斷研究是典型的二分類診斷試驗,以病理結果為金標準,通過計算診斷試驗 SEN 和 SPE 從而評估超聲造影人工智能在診斷肝臟疾病中的應用價值。Wu 等[10]運用深度學習方法,對 22 個病例包含 26 個肝臟局灶性病灶的超聲造影視頻進行良惡性分類,診斷 SEN 和 SPE 分別為 83.33% 和 87.50%。Guo 等[11]增大樣本量,對 93 個病例肝臟超聲造影動脈期、門脈期和延遲期圖像進行人工智能鑒別診斷,利用深度典型相關性分析和多核學習的兩階段多視角學習框架,采用五倍交叉驗證方法診斷 SEN 提高至 93.56%,SPE 為 86.89%,說明超聲造影診斷肝臟良惡性病變具有較高的 SEN 和 SPE。本研究參照 Guo 等獲得的 SEN 和 SPE 數值,同時設定α=0.05(雙側)。d 是反應假設檢驗中數據差異大小的參數,樣本量(NSEN、NSPE)與d 的平方成反比,即d 越小,樣本量取值越大,Malhotra 等[12]指出d 的取值范圍可以定在 0.03~0.1,并且在保證 SEN、SPE、P等因素不變的情況下,根據樣本量比值等于d 平方比值的倒數進行樣本量的快速計算。本研究結合樣本收集等實際人力和物力情況,設置dSEN 和dSPE 均為 0.1 進行樣本量的計算。預設的d 不等于正式試驗 SEN 和 SPE 的d,可根據兩者大小再次判斷樣本量是否足夠以及是否需要追加樣本量的收集[13]。本研究根據 181 例回顧性病例計算可得肝臟惡性病變的P為 0.52(95/181),肝臟良性病變的P為 0.48(86/181),根據上述公式計算樣本量:
![]() |
![]() |
因NSPE>NSEN,N=92,說明人工智能識別肝臟超聲造影診斷疾病良惡性需要的估計樣本量最少為 92 例。
Sample Size Calculator 軟件納入置信水平(1-α)、d和總體比例(SEN、SPE)等因素,運用該軟件計算樣本量,結果見圖 1。因軟件未納入P值,最終NSEN=24/0.52=46.15≈47,NSPE=44/0.48=91.66≈92,因NSPE>NSEN,則N=92。結果顯示,運用 Sample Size Calculator 計算樣本量結果和利用公式(9)、(10)計算結果基本一致。雖然 Sample Size Calculator 軟件結果因取整數存在一定誤差,但 Sample Size Calculator 軟件仍然能方便快速地完成樣本量數據的計算工作。

3 多分類變量診斷試驗樣本量估算
實際臨床診斷試驗中,在鑒別疾病良惡性的基礎上,還需要識別疾病的具體病理類型以實現精準診斷。以人工智能鑒別肝臟疾病為例,臨床中常見的肝臟良惡性疾病病理種類有肝癌、肝膽管細胞癌、肝血管瘤、肝局灶性結節狀增生等,其二維超聲圖像、彩色多普勒血流顯像(color Doppler flow imaging,CDFI)和超聲造影圖像(動脈相、門脈相和延遲相)見圖 2。利用人工智能對超聲圖像進行自動識別,能定位腫瘤的位置、提取腫瘤的超聲影像特征和分析肝臟超聲造影動脈相、門脈相、延遲相的血池灌注特征,并結合相關病史和其他影像學數據綜合分析,達到輔助診斷肝臟腫瘤的性質和類型,減少不必要的漏診和誤診,進一步實現精準診斷的目的,更好地服務于臨床和患者。

多分類診斷試驗中,假設共存在n種病理類型,設i為診斷試驗結果,j為金標準結果,且 1≤i≤n,1≤j≤n。對同一病例進行診斷,當i=j時,表明診斷試驗與金標準結果相同;當i≠j時,表明診斷試驗與金標準結果不同。表 2 為診斷試驗和金標準結果樣本分布,其中Nij表示為金標準結果為j,診斷試驗結果為i。

總樣本量N總:
![]() |
針對第j種金標準類型,i=j時,第j種疾病的 TPj=Nij,FPj=Ni1+Ni2+…+Ni(j-1)+Ni(j+1)…+Nin,FNj=N1j+N2j+…+N(i-1)j+…+N(i+1)j+…+Nnj,TNj=N-TPj-FPj-FNj,參照二分類樣本量估算公式,可估算:
第j種疾病患者組樣本量公式:
![]() |
非j種疾病患者組樣本量公式:
![]() |
多分類診斷試驗估算樣本量N 取 和
中的較大值,即N=max(
,
,1≤j≤n)。
在精準診斷肝臟疾病類型方面,Hassan 等[14]通過分析肝囊腫、肝血管瘤和肝癌等疾病的二維超聲感興趣區域,利用深度學習進行多分類鑒別診斷,其診斷準確性、SEN 和 SPE 分別為 97.2%、98.0% 和 95.7%。計算機輔助診斷方法(computer-aided diagnostic,CAD)對脂肪肝、肝硬化、肝囊腫、肝纖維化等均具有較高的診斷準確性[15]。Sugimoto 等[16]運用 CAD,對肝臟局灶性結節增生的二維超聲圖像和超聲造影圖像進行學習并鑒別診斷,對肝癌、轉移性肝癌和肝血管瘤的三分類診斷準確性高達 94.2%,但對低分化肝癌、中分化肝癌、高分化肝癌、轉移性肝癌和肝血管瘤的五分類診斷準確性僅為 71.5%。本研究對多分類診斷試驗仍參照 Guo 等[11]獲得的 SEN 和 SPE 值,α=0.05(雙側),參考二分類變量診斷試驗中d 取值方法,多分類d 也均預設為 0.1[12];在本研究中,Pj為第j種金標準類型所占所有肝臟疾病的比例,該數據根據 181 例回顧性病例計算獲得(見表 3),根據多分類樣本量公式計算樣本量N=max(,
,1≤j≤n)=466 例;根據 Sample Size Calculator 軟件計算樣本量N=483 例,兩種計算方式的結果見表 4。


4 人工智能樣本量數據集的分配
在傳統的機器學習中,小規模數據集數據的劃分將整個數據集的 70% 用于模型的訓練即訓練集,30% 用于模型的測試即測試集,較少劃分驗證集;大規模數據集可根據實際的情況劃分成訓練集、驗證集和測試集[17,18],并直接通過測試集數據計算 SEN、SPE 等參數以評估訓練模型的優劣。因此,我們可以理解為通過 SEN、SPE、P計算獲得的樣本量僅為測試集所需樣本量,故訓練集、測試集、數據集總數計算公式如下:
測試集樣本數:
![]() |
數據集總數:
![]() |
訓練集樣本數:
![]() |
因此,本研究中N測試集=466,N總=466÷30%=1 553.3≈1 554,N訓練集=1 554×70%=1 087.8≈1 088。
5 樣本量調整
根據統計學方法估計出的樣本量是在給定條件下滿足臨床研究所需的最小樣本量。在實際研究過程中,由于部分病例資料不齊全等原因會導致病例的脫落和剔除,會導致可評價患者數的減少,脫落率通常不高于 20%[19]。因此,需要在估算樣本量的基礎上適度擴大,以保證最終的有效樣本量可以滿足最小樣本量的要求。在本研究中,將脫落率考慮為 10%,計算獲得訓練集、測試集、數據集總數分別為 1 209、518 和 1 727 例。
6 根據受試者工作特征曲線下面積計算樣本量
受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)也是診斷試驗的準確性評價指標之一,ROC 曲線橫坐標為 1-SPE=β,縱坐標為 SEN=1-α。Guo 等[11]運用不同的人工智能方法識別肝臟超聲造影的 AUC 在 76.8%~97.4% 之間。因此本研究設置 AUC=85%,第一類錯誤水平α=0.05,第二類錯誤水平β=0.1,良性/惡性病例比例為=48/52,并應用 MedCalc(版本:19.5)軟件 Sample size 菜單下 Area under ROC curve[9],計算樣本量結果見圖 3,惡性組和良性組所需樣本量均為 12。PASS 等軟件亦含有 ROC 曲線分析功能,可根據 AUC 計算診斷試驗所需樣本量。

7 小結
本研究通過 SEN、SPE 對二分類和多分類臨床診斷試驗樣本量進行估計,為人工智能診斷肝臟疾病超聲造影結論的可信度提供理論支撐,促進人工智能在醫學圖像領域中的應用。合理應用樣本量估算相關軟件,減少手工公式計算的工作量,可使樣本量的估算更加簡便快捷。