與傳統的診斷方法相比,基于機器學習的診斷試驗測量指標也有一定的差異。本文對目前機器學習診斷模型常用測量指標的定義、計算方法以及相關的統計推斷進行詳細闡述。希望對臨床研究者有所裨益,使之能更好地評價機器學習診斷模型。
引用本文: 熊宇韜, 鐘程瀾, 曾維, 郭際香, 張韜, 黃艷, 湯煒, 劉暢. 基于機器學習的診斷試驗準確性研究(二):測量指標. 中國循證醫學雜志, 2023, 23(8): 963-969. doi: 10.7507/1672-2531.202302048 復制
診斷試驗準確性研究(diagnostic test accuracy study)用于對診斷準確性作出評價,從而為臨床決策提供參考[1],機器學習在醫學診斷領域已經成為了熱點[2]。對于機器學習診斷模型的性能評估有別于傳統的診斷試驗準確性評價方法,因此本文將對機器學習診斷模型的測量指標包括連續型指標和分類指標進行詳細的介紹與討論。
1 連續型指標
在計算機視覺的機器學習研究里,醫學影像的病變診斷任務通常需要先對感興趣區域(region of interest,ROI)檢測和分割[3]。檢測或分割的效果主要通過空間距離以及面積或體積的重疊來評價,其基本單位是點云網格化后的有限像素。這些指標是在個體水平上進行計算,意味著每個樣本(即單次影像資料)可獲得相對應的連續型指標。對于機器學習診斷模型所獲得的預測圖像區域,其像素構成的有限點集為預測集(Y),對采用參考標準(或金標準)標注的參考圖像區域,其像素構成的有限點集為真實集(X)。
1.1 Dice相似系數
Dice相似系數(Dice similarity coefficient,DSC)[4],又稱為索倫森-迪斯指數(S?rensen-Dice index),是評價圖像重合度常用指標。DSC的取值范圍從0(X與Y無重疊)到1(X與Y完全重疊),其公式為:
![]() |
對于二維圖像,DSC基于面積重疊進行計算即可;對于三維圖像,DSC的計算可以基于體積重疊計算出三維Dice值(volumetric Dice),亦可在允許一定誤差(如誤差設置為1mm×1mm×1mm)的情況下基于表面積重疊計算出表面Dice值(surface Dice)。DSC對于面積、體積誤差的評價均較為敏感,其缺點是無法評估非交集區域的具體差異。
1.2 交并比
交并比(intersection over union,IoU)[5],又稱杰卡德相似系數(Jaccard similarity coefficient),其取值范圍從0(X與Y無重疊)到1(X與Y完全重疊),其公式為:
![]() |
IoU與DSC正相關,且滿足以下關系式:
![]() |
![]() |
1.3 杰卡德距離
杰卡德距離(Jaccard distance,dJ)[6]取值范圍0~1,與IoU相反,越小(接近0)則兩區域重合越多。其公式為:
![]() |
1.4 歐幾里得距離
歐幾里得距離(Euclidean distance,ED)簡稱歐氏距離,是在二維和三維空間中兩點之間的最常用的距離,若二維圖像上的點X和Y的坐標分別為和
則其二維歐氏距離的公式是:
![]() |
1.5 豪斯多夫距離
豪斯多夫距離(Hausdorff distance)[7],又稱為龐加萊-豪斯多夫距離(Pompeiu-Hausdorff distance),是度量空間距離的指標,常用于評估醫學圖像的分割及配準性能。其取值范圍為0~+∞,值越小說明模型效果越好。
1.5.1 單向豪斯多夫距離
單向豪斯多夫距離(h)具有方向性,其原理為計算(X,Y)中相鄰兩點x∈X,y∈Y的距離的最大值,又稱最大表面距離(maximum surface distance)。其取值范圍為0~+∞,值越小說明模型效果越好。其公式為:
![]() |
1.5.2 雙向豪斯多夫距離
雙向豪斯多夫距離(Hausdorff distance,HD)取兩個單向HD的最大值,因此具有對稱性,又稱對稱最大表面距離(maximum symmetric surface distance),其公式為:
![]() |
1.5.3 95%豪斯多夫距離
95%豪斯多夫距離(95% HD,HD95)與雙向HD相比,并未取距離的最大值,而是取距離從小到大的第95百分位數值,用于消除或減小異常極端值造成的測量偏倚。
1.6 平均表面距離
1.6.1 單向平均表面距離
單向平均表面距離(average surface distance,ASD)具有方向性,其原理為計算(X,Y)中每一點x∈X,y∈Y之間的距離的平均值。其取值范圍為0~+∞,值越小說明模型效果越好。其公式為:
![]() |
1.6.2 對稱平均表面距離
對稱平均表面距離(average symmetric surface distance,ASSD)是兩個ASD的算術平均數,因此具有對稱性,其公式為:
![]() |
1.6.3 加權平均表面距離
加權平均表面距離(mean surface distance,MSD)是兩個ASD的加權平均數,具有對稱性,其公式為:
![]() |
1.7 表面重疊度
表面重疊度(surface overlap,SO)具有方向性,其原理為在允許一定誤差(如三維圖像可以誤差設置為1mm×1mm×1mm)的情況下,計算圖像重疊部分的面積或體積的構成比。其取值范圍從0(X與Y無重疊)到1(X與Y完全重疊),其公式為:
![]() |
1.8 連續型指標的應用
機器學習診斷模型中連續性指標依據研究目的不同有不同選擇:在定點預測時(如基于側位片的頭影測量系統[8])主要使用ED;在對病變區域進行目標檢測時主要使用DSC或IoU;在對病變區域進行分割任務時除了DSC或IoU,還經常使用HD95、ASSD、MSD、SO等指標。值得注意的是,雖然機器學習診斷模型的輸出一般為連續性指標,但在模型評估時還需要設置閾值將連續性指標轉換為分類指標,才可以進一步對診斷模型進行臨床流行病學評價,如評估其效度、信度、收益等。
2 分類指標及評價
2.1 混淆矩陣
機器學習診斷模型是基于上述連續型指標設定閾值進行分類的。以二分類模型為例,可以把待評價的診斷試驗的預測結果分為陽性和陰性,根據待評價的診斷試驗的預測結果與參考標準的真實診斷結果,可以將診斷結果整理為2×2列聯表即二階混淆矩陣(confusion matrix),四格表結果分別為真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN),具體見表1。通過四格表數據,可以計算相對數來評估模型性能的優劣。

2.2 效度評價
2.2.1 效度指標
效度(validity)指診斷模型的真實性、有效性或準確性,即預測結果與真實情況的符合程度。效度指標(validity index)是診斷模型的固有特征,當診斷模型訓練完成后,其效度指標則會保持穩定,不會因為測試集的疾病分布變化而發生超過隨機誤差的波動。常用的效度評價指標包括靈敏度(sensitivity,Sen;在機器學習中又叫召回率,recall,r)、特異度(specificity,Spe)、誤診率(mistake diagnostic rate,α)、漏診率(omission diagnostic rate,β)、診斷指數(diagnostic index,DI)、約登指數(Youden’s index,J)、陽性似然比(positive likelihood ratio,LR+)、陰性似然比(negative likelihood ratio,LR?)、診斷比值比(diagnostic odds ratio,DOR)等,見表2。除了區間估計,在診斷試驗準確性比較研究中對構成比及其線性組合還可以使用Z檢驗進行統計推斷。

2.2.2 受試者工作特征曲線
受試者工作特征(receiver operating characteristic,ROC)曲線是橫坐標為假陽性率,縱坐標為真陽性率,隨著閾值的改變而形成的一條曲線,如圖1所示。通常在ROC曲線上選取約登指數值最大的點作為最佳臨界點(best cut-off point),該點是與左上角曼哈頓距離最小的點,該點對應的閾值即為最佳臨界值[9]。

為了量化ROC曲線的性能,引入曲線下面積(areas under curve,AUC)的定義,其計算方法如為,將無病組的觀測值記為(j=1,2,3…
),將患病組的觀測值記為
(i=1,2,3…
),若觀測值較大為異常,則AUC公式為:
![]() |
在單個診斷試驗準確性研究中,對單個診斷試驗AUC與0.5比較可進行單樣本的Z檢驗;在診斷試驗準確性比較研究中,對兩種診斷試驗的AUC值比較可進行成組Z檢驗。
2.2.3 FROC曲線
FROC曲線(free-response receiver operating characteristic curve)橫坐標為平均FP數,縱坐標為TP率。相較傳統的ROC曲線而言,FROC曲線有兩個特點:① 傳統ROC曲線不能解決單一圖像上多個異常的評價問題(如一張全景片上有多個齲齒[10]),而FROC允許對每幅圖像上的任意異常進行評價;② 機器學習診斷模型往往是用于初步篩檢而非最終確診,所以往往要求是靈敏度高、但對特異度沒有嚴格要求,而傳統ROC曲線賦予靈敏度和特異度相同的權重,而FROC曲線則重視靈敏度、更加適合篩檢試驗評價。關于FROC曲線的AUC的統計推斷,國外也有相應的嘗試,但其統計效能尚需進一步研究證實[11]。
2.3 收益評價
2.3.1 預測值
最常用的預測評價指標是預測值(predictive value),可以評估機器學習診斷模型為受檢人群帶來的收益,包括:① 陽性預測值[positive predictive value,PPV;在機器學習中又叫精確率(precision,p)],是指在診斷判定為陽性的人群中真實患病的構成比;② 陰性預測值(negative predictive value,NPV),是指在診斷判定為陰性的人群中真實未患病的構成比。見表3。除了區間估計,在診斷試驗準確性比較研究中對預測值還可以使用Z檢驗進行統計推斷。

2.3.2 PR曲線
精確率-召回率曲線(precision-recall curve,PR曲線)橫坐標為召回率(r)即Sen,縱坐標為精確率(p)即PPV,如圖2所示。

PR曲線的AUC又稱為平均精確率(average precision,AP),其值越大越好。2007年PASCAL提出可采用11點插值法估算AP[12],公式為:
![]() |
2010年PASCAL更新了插值算法[13],公式為:
![]() |
![]() |
對于多分類任務,還可以定義全類平均精確率(mean average precision,mAP)為多個類別的AP的算術平均數,公式為:
![]() |
2.4 綜合評價
綜合評價指標可以對效度和收益進行綜合評價,雖然在一定程度上可以反映診斷模型的效度,但是其數值會受到不同測試集的不同疾病分布而發生明顯波動。常用的綜合評價指標包括準確率、調整一致率、G分值、F-1分值等。其中對準確率、調整一致率可以參照構成比的區間估計與Z檢驗進行統計推斷。
2.4.1 準確率
準確率(accuracy,Acc)又叫粗一致率或粗符合率,是指預測正確的結果在所有樣本中的構成比,其公式為:
![]() |
2.4.2 調整一致率
調整一致率或調整符合率(adjusted agreement,AA)定義公式為:
![]() |
2.4.3 G分值
G分值(G score)為召回率和精準率的幾何平均數,其公式為:
![]() |
2.4.4 F-1分值
F-1分值(F-1 score)為召回率和精確率的調和平均數,其公式為:
![]() |
2.4.5 F-β分值
F-β分值(F-β score)是F-1分值的一般形式,為召回率和精確率的加權調和平均數,召回率和精確率的權重不一定相同,權重參數β取1時即為F-1分值,此外權重參數β還常取0.5或2,公式為:
![]() |
2.5 信度評價
信度(reliability)又稱可靠性或穩定性(stability)。機器學習研究的信度有兩種常見形式,即重復性和魯棒性:前者是指針對相同樣本,重復試驗的結果具有一致性與穩定性;后者是指對于不同樣本,尤其是噪聲、離群點甚至對抗樣本,試驗的結果具有一致性與穩定性。
2.5.1 重復性評價
重復性(repeatability)又稱為重測信度(test-retest reliability),是指在相同條件下,重復相同的試驗所得結果的穩定程度。在機器學習診斷模型中,經常使用Kappa值(Cohen’s kappa coefficient, κ )或組內相關系數(intraclass correlation coefficient,ICC)進行一致性評價,評價參考標準即人工標注的重測信度,例如同一標注者的評價者內部信度(intrarater reliability)和不同標注者的評價者間信度(interrater reliability)。
κ用于定性數據的一致性評價,Po代表觀察一致率,Pc為機遇一致率,Po–Pc為實際一致率,1–Pc為非機遇一致率,其公式為:
![]() |
κ取值范圍為–1~1,κ≤0說明一致性弱(poor agreement);0<κ≤0.2說明一致性輕(slight agreement);0.2<κ≤0.4說明一致性尚可(fair agreement);0.4<κ≤0.6說明中度一致性(moderate agreement);0.6<κ≤0.8說明高度一致性(substantial agreement);κ>0.8說明一致性極強(almost perfect agreement)[14]。
ICC用于定量數據的一致性評價,取值范圍從0(不可信)到1(完全可信)。其原理為測量個體方差占總方差的比例,MSA為組間均方,MSe為組內均方,n為重復測量次數,其公式為:
![]() |
2.5.2 魯棒性評價
魯棒性(robustness)又稱穩健性,機器學習診斷模型的魯棒性可分為針對對抗樣本的對抗魯棒性(adversarial robustness)和針對噪聲的噪聲魯棒性(anti-noise robustness)[15]。魯棒性可以通過準確率或損失函數等進行評價。使用準確率評價多分類診斷模型的魯棒性時,最常用的指標有預測排序前一類的Top1準確率、預測排序前五類的Top5準確率,準確率越高則魯棒性越好。使用損失函數評價診斷模型的魯棒性時,可以定義“振蕩系數”即收斂之后的損失函數值,振蕩系數越小則魯棒性越好。亦可定義“魯棒性邊界”即設定損失函數的邊界范圍后所對應的自變量邊界范圍,魯棒性邊界越窄則魯棒性越好[15]。
3 討論
3.1 數據類別不平衡問題
評估機器學習診斷試驗模型效能時需要考慮數據類別不平衡問題,許多的研究結果表明,數據集中的類別不平衡問題會嚴重影響模型的識別精確率和準確率,降低許多性能指標。假如在機器學習的測試樣本中,真實陽性樣本(患病)和真實陰性樣本(未患病)的比例為9∶1,若模型粗暴地將所有樣本都預測為陽性(即Sen=100%,Spe=0%),精確率和準確率仍然會高達90%,這顯然是不合理的,精確率和準確率都受到了不均衡數據的干擾。
因此,在面對數據分布不均時,推薦使用效度指標和ROC曲線。PR曲線對正負樣本的比例異常敏感,即當正負樣本的分布發生變化時,PR曲線的形狀會發生巨大的變化。而ROC曲線同時考慮了混淆矩陣中的4個基準指標,因此它對于正負樣本不均衡的情況下具有很強的魯棒性,不容易受樣本分布波動的影響。總的來說,ROC曲線對正負樣本的分布不敏感,對于二分類問題來說,它是非常適合作為類別不平衡的數據集的評估指標。
3.2 多分類任務
機器學習診斷模型本質是分類任務,以齲病的機器學習診斷模型為例[10],二分類可輸出患齲或未患齲,多分類任務則可輸出更多的類別,如深齲、中齲、淺齲。本文上述指標及計算公式通常只適用于二分類模型,而對于多分類任務而言,需要將結果轉化為多個二分類指標,然后在此基礎上進行計算。如多分類的機器學習齲病診斷模型準確性評估共有三個二分類結果,最終結果需要對這三個結果進行匯總。匯總方法包括宏平均(macro-average)方法,即對各個二分類器的評估指標求平均;加權平均(weighted-average)方法,即對各個二分類器的評估指標求加權平均,權重設置為該類別在總樣本中的占比;微平均(micro-average)方法,把每個類別的TP、FP、FN三項先相加之后,在根據二分類的公式進行計算。
3.3 假設檢驗
傳統診斷試驗使用經典的二項分布統計模型,正態近似后使用Z檢驗對構成比進行比較。然而,機器學習的研究中不夠重視假設檢驗,尤其是神經網絡深度學習的研究很少報告P值。這是因為現階段深度學習尚被認為是一個“黑箱”,其結論缺乏直觀的解釋路線和可信賴的證據,對深度學習的診斷模型并不了解參數的分布,因此無法滿足假設檢驗的前提條件。目前診斷模型開發的重點在于評估模型本身的預測能力,而非模型的可解釋性,因此提升機器學習的可解釋性越來越成為研究的趨勢[16]。
另外,醫學領域機器學習診斷模型訓練的數據量相對于自然圖片機器學習的數據量而言顯得過少,隨機誤差也必然較大。然而,隨著機器學習數據量的增加,依據中心極限定理,相關變量參數的樣本均數也會逐漸近似于正態分布,也會滿足假設檢驗的條件[17]。所以,假設檢驗對于樣本量足夠的機器學習研究也有舉足輕重的重要性。
傳統臨床流行病學的診斷試驗準確性研究的評價指標與機器學習診斷模型的評價指標既有共性,也有差異。基于機器學習的診斷試驗應用越來越廣泛,本文通過對機器學習診斷模型評價指標的計算方式以及意義進行了詳細的闡述,希望能為臨床研究者提供一定的參考,使得機器學習研究測量指標的報告得以規范。
診斷試驗準確性研究(diagnostic test accuracy study)用于對診斷準確性作出評價,從而為臨床決策提供參考[1],機器學習在醫學診斷領域已經成為了熱點[2]。對于機器學習診斷模型的性能評估有別于傳統的診斷試驗準確性評價方法,因此本文將對機器學習診斷模型的測量指標包括連續型指標和分類指標進行詳細的介紹與討論。
1 連續型指標
在計算機視覺的機器學習研究里,醫學影像的病變診斷任務通常需要先對感興趣區域(region of interest,ROI)檢測和分割[3]。檢測或分割的效果主要通過空間距離以及面積或體積的重疊來評價,其基本單位是點云網格化后的有限像素。這些指標是在個體水平上進行計算,意味著每個樣本(即單次影像資料)可獲得相對應的連續型指標。對于機器學習診斷模型所獲得的預測圖像區域,其像素構成的有限點集為預測集(Y),對采用參考標準(或金標準)標注的參考圖像區域,其像素構成的有限點集為真實集(X)。
1.1 Dice相似系數
Dice相似系數(Dice similarity coefficient,DSC)[4],又稱為索倫森-迪斯指數(S?rensen-Dice index),是評價圖像重合度常用指標。DSC的取值范圍從0(X與Y無重疊)到1(X與Y完全重疊),其公式為:
![]() |
對于二維圖像,DSC基于面積重疊進行計算即可;對于三維圖像,DSC的計算可以基于體積重疊計算出三維Dice值(volumetric Dice),亦可在允許一定誤差(如誤差設置為1mm×1mm×1mm)的情況下基于表面積重疊計算出表面Dice值(surface Dice)。DSC對于面積、體積誤差的評價均較為敏感,其缺點是無法評估非交集區域的具體差異。
1.2 交并比
交并比(intersection over union,IoU)[5],又稱杰卡德相似系數(Jaccard similarity coefficient),其取值范圍從0(X與Y無重疊)到1(X與Y完全重疊),其公式為:
![]() |
IoU與DSC正相關,且滿足以下關系式:
![]() |
![]() |
1.3 杰卡德距離
杰卡德距離(Jaccard distance,dJ)[6]取值范圍0~1,與IoU相反,越小(接近0)則兩區域重合越多。其公式為:
![]() |
1.4 歐幾里得距離
歐幾里得距離(Euclidean distance,ED)簡稱歐氏距離,是在二維和三維空間中兩點之間的最常用的距離,若二維圖像上的點X和Y的坐標分別為和
則其二維歐氏距離的公式是:
![]() |
1.5 豪斯多夫距離
豪斯多夫距離(Hausdorff distance)[7],又稱為龐加萊-豪斯多夫距離(Pompeiu-Hausdorff distance),是度量空間距離的指標,常用于評估醫學圖像的分割及配準性能。其取值范圍為0~+∞,值越小說明模型效果越好。
1.5.1 單向豪斯多夫距離
單向豪斯多夫距離(h)具有方向性,其原理為計算(X,Y)中相鄰兩點x∈X,y∈Y的距離的最大值,又稱最大表面距離(maximum surface distance)。其取值范圍為0~+∞,值越小說明模型效果越好。其公式為:
![]() |
1.5.2 雙向豪斯多夫距離
雙向豪斯多夫距離(Hausdorff distance,HD)取兩個單向HD的最大值,因此具有對稱性,又稱對稱最大表面距離(maximum symmetric surface distance),其公式為:
![]() |
1.5.3 95%豪斯多夫距離
95%豪斯多夫距離(95% HD,HD95)與雙向HD相比,并未取距離的最大值,而是取距離從小到大的第95百分位數值,用于消除或減小異常極端值造成的測量偏倚。
1.6 平均表面距離
1.6.1 單向平均表面距離
單向平均表面距離(average surface distance,ASD)具有方向性,其原理為計算(X,Y)中每一點x∈X,y∈Y之間的距離的平均值。其取值范圍為0~+∞,值越小說明模型效果越好。其公式為:
![]() |
1.6.2 對稱平均表面距離
對稱平均表面距離(average symmetric surface distance,ASSD)是兩個ASD的算術平均數,因此具有對稱性,其公式為:
![]() |
1.6.3 加權平均表面距離
加權平均表面距離(mean surface distance,MSD)是兩個ASD的加權平均數,具有對稱性,其公式為:
![]() |
1.7 表面重疊度
表面重疊度(surface overlap,SO)具有方向性,其原理為在允許一定誤差(如三維圖像可以誤差設置為1mm×1mm×1mm)的情況下,計算圖像重疊部分的面積或體積的構成比。其取值范圍從0(X與Y無重疊)到1(X與Y完全重疊),其公式為:
![]() |
1.8 連續型指標的應用
機器學習診斷模型中連續性指標依據研究目的不同有不同選擇:在定點預測時(如基于側位片的頭影測量系統[8])主要使用ED;在對病變區域進行目標檢測時主要使用DSC或IoU;在對病變區域進行分割任務時除了DSC或IoU,還經常使用HD95、ASSD、MSD、SO等指標。值得注意的是,雖然機器學習診斷模型的輸出一般為連續性指標,但在模型評估時還需要設置閾值將連續性指標轉換為分類指標,才可以進一步對診斷模型進行臨床流行病學評價,如評估其效度、信度、收益等。
2 分類指標及評價
2.1 混淆矩陣
機器學習診斷模型是基于上述連續型指標設定閾值進行分類的。以二分類模型為例,可以把待評價的診斷試驗的預測結果分為陽性和陰性,根據待評價的診斷試驗的預測結果與參考標準的真實診斷結果,可以將診斷結果整理為2×2列聯表即二階混淆矩陣(confusion matrix),四格表結果分別為真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN),具體見表1。通過四格表數據,可以計算相對數來評估模型性能的優劣。

2.2 效度評價
2.2.1 效度指標
效度(validity)指診斷模型的真實性、有效性或準確性,即預測結果與真實情況的符合程度。效度指標(validity index)是診斷模型的固有特征,當診斷模型訓練完成后,其效度指標則會保持穩定,不會因為測試集的疾病分布變化而發生超過隨機誤差的波動。常用的效度評價指標包括靈敏度(sensitivity,Sen;在機器學習中又叫召回率,recall,r)、特異度(specificity,Spe)、誤診率(mistake diagnostic rate,α)、漏診率(omission diagnostic rate,β)、診斷指數(diagnostic index,DI)、約登指數(Youden’s index,J)、陽性似然比(positive likelihood ratio,LR+)、陰性似然比(negative likelihood ratio,LR?)、診斷比值比(diagnostic odds ratio,DOR)等,見表2。除了區間估計,在診斷試驗準確性比較研究中對構成比及其線性組合還可以使用Z檢驗進行統計推斷。

2.2.2 受試者工作特征曲線
受試者工作特征(receiver operating characteristic,ROC)曲線是橫坐標為假陽性率,縱坐標為真陽性率,隨著閾值的改變而形成的一條曲線,如圖1所示。通常在ROC曲線上選取約登指數值最大的點作為最佳臨界點(best cut-off point),該點是與左上角曼哈頓距離最小的點,該點對應的閾值即為最佳臨界值[9]。

為了量化ROC曲線的性能,引入曲線下面積(areas under curve,AUC)的定義,其計算方法如為,將無病組的觀測值記為(j=1,2,3…
),將患病組的觀測值記為
(i=1,2,3…
),若觀測值較大為異常,則AUC公式為:
![]() |
在單個診斷試驗準確性研究中,對單個診斷試驗AUC與0.5比較可進行單樣本的Z檢驗;在診斷試驗準確性比較研究中,對兩種診斷試驗的AUC值比較可進行成組Z檢驗。
2.2.3 FROC曲線
FROC曲線(free-response receiver operating characteristic curve)橫坐標為平均FP數,縱坐標為TP率。相較傳統的ROC曲線而言,FROC曲線有兩個特點:① 傳統ROC曲線不能解決單一圖像上多個異常的評價問題(如一張全景片上有多個齲齒[10]),而FROC允許對每幅圖像上的任意異常進行評價;② 機器學習診斷模型往往是用于初步篩檢而非最終確診,所以往往要求是靈敏度高、但對特異度沒有嚴格要求,而傳統ROC曲線賦予靈敏度和特異度相同的權重,而FROC曲線則重視靈敏度、更加適合篩檢試驗評價。關于FROC曲線的AUC的統計推斷,國外也有相應的嘗試,但其統計效能尚需進一步研究證實[11]。
2.3 收益評價
2.3.1 預測值
最常用的預測評價指標是預測值(predictive value),可以評估機器學習診斷模型為受檢人群帶來的收益,包括:① 陽性預測值[positive predictive value,PPV;在機器學習中又叫精確率(precision,p)],是指在診斷判定為陽性的人群中真實患病的構成比;② 陰性預測值(negative predictive value,NPV),是指在診斷判定為陰性的人群中真實未患病的構成比。見表3。除了區間估計,在診斷試驗準確性比較研究中對預測值還可以使用Z檢驗進行統計推斷。

2.3.2 PR曲線
精確率-召回率曲線(precision-recall curve,PR曲線)橫坐標為召回率(r)即Sen,縱坐標為精確率(p)即PPV,如圖2所示。

PR曲線的AUC又稱為平均精確率(average precision,AP),其值越大越好。2007年PASCAL提出可采用11點插值法估算AP[12],公式為:
![]() |
2010年PASCAL更新了插值算法[13],公式為:
![]() |
![]() |
對于多分類任務,還可以定義全類平均精確率(mean average precision,mAP)為多個類別的AP的算術平均數,公式為:
![]() |
2.4 綜合評價
綜合評價指標可以對效度和收益進行綜合評價,雖然在一定程度上可以反映診斷模型的效度,但是其數值會受到不同測試集的不同疾病分布而發生明顯波動。常用的綜合評價指標包括準確率、調整一致率、G分值、F-1分值等。其中對準確率、調整一致率可以參照構成比的區間估計與Z檢驗進行統計推斷。
2.4.1 準確率
準確率(accuracy,Acc)又叫粗一致率或粗符合率,是指預測正確的結果在所有樣本中的構成比,其公式為:
![]() |
2.4.2 調整一致率
調整一致率或調整符合率(adjusted agreement,AA)定義公式為:
![]() |
2.4.3 G分值
G分值(G score)為召回率和精準率的幾何平均數,其公式為:
![]() |
2.4.4 F-1分值
F-1分值(F-1 score)為召回率和精確率的調和平均數,其公式為:
![]() |
2.4.5 F-β分值
F-β分值(F-β score)是F-1分值的一般形式,為召回率和精確率的加權調和平均數,召回率和精確率的權重不一定相同,權重參數β取1時即為F-1分值,此外權重參數β還常取0.5或2,公式為:
![]() |
2.5 信度評價
信度(reliability)又稱可靠性或穩定性(stability)。機器學習研究的信度有兩種常見形式,即重復性和魯棒性:前者是指針對相同樣本,重復試驗的結果具有一致性與穩定性;后者是指對于不同樣本,尤其是噪聲、離群點甚至對抗樣本,試驗的結果具有一致性與穩定性。
2.5.1 重復性評價
重復性(repeatability)又稱為重測信度(test-retest reliability),是指在相同條件下,重復相同的試驗所得結果的穩定程度。在機器學習診斷模型中,經常使用Kappa值(Cohen’s kappa coefficient, κ )或組內相關系數(intraclass correlation coefficient,ICC)進行一致性評價,評價參考標準即人工標注的重測信度,例如同一標注者的評價者內部信度(intrarater reliability)和不同標注者的評價者間信度(interrater reliability)。
κ用于定性數據的一致性評價,Po代表觀察一致率,Pc為機遇一致率,Po–Pc為實際一致率,1–Pc為非機遇一致率,其公式為:
![]() |
κ取值范圍為–1~1,κ≤0說明一致性弱(poor agreement);0<κ≤0.2說明一致性輕(slight agreement);0.2<κ≤0.4說明一致性尚可(fair agreement);0.4<κ≤0.6說明中度一致性(moderate agreement);0.6<κ≤0.8說明高度一致性(substantial agreement);κ>0.8說明一致性極強(almost perfect agreement)[14]。
ICC用于定量數據的一致性評價,取值范圍從0(不可信)到1(完全可信)。其原理為測量個體方差占總方差的比例,MSA為組間均方,MSe為組內均方,n為重復測量次數,其公式為:
![]() |
2.5.2 魯棒性評價
魯棒性(robustness)又稱穩健性,機器學習診斷模型的魯棒性可分為針對對抗樣本的對抗魯棒性(adversarial robustness)和針對噪聲的噪聲魯棒性(anti-noise robustness)[15]。魯棒性可以通過準確率或損失函數等進行評價。使用準確率評價多分類診斷模型的魯棒性時,最常用的指標有預測排序前一類的Top1準確率、預測排序前五類的Top5準確率,準確率越高則魯棒性越好。使用損失函數評價診斷模型的魯棒性時,可以定義“振蕩系數”即收斂之后的損失函數值,振蕩系數越小則魯棒性越好。亦可定義“魯棒性邊界”即設定損失函數的邊界范圍后所對應的自變量邊界范圍,魯棒性邊界越窄則魯棒性越好[15]。
3 討論
3.1 數據類別不平衡問題
評估機器學習診斷試驗模型效能時需要考慮數據類別不平衡問題,許多的研究結果表明,數據集中的類別不平衡問題會嚴重影響模型的識別精確率和準確率,降低許多性能指標。假如在機器學習的測試樣本中,真實陽性樣本(患病)和真實陰性樣本(未患病)的比例為9∶1,若模型粗暴地將所有樣本都預測為陽性(即Sen=100%,Spe=0%),精確率和準確率仍然會高達90%,這顯然是不合理的,精確率和準確率都受到了不均衡數據的干擾。
因此,在面對數據分布不均時,推薦使用效度指標和ROC曲線。PR曲線對正負樣本的比例異常敏感,即當正負樣本的分布發生變化時,PR曲線的形狀會發生巨大的變化。而ROC曲線同時考慮了混淆矩陣中的4個基準指標,因此它對于正負樣本不均衡的情況下具有很強的魯棒性,不容易受樣本分布波動的影響。總的來說,ROC曲線對正負樣本的分布不敏感,對于二分類問題來說,它是非常適合作為類別不平衡的數據集的評估指標。
3.2 多分類任務
機器學習診斷模型本質是分類任務,以齲病的機器學習診斷模型為例[10],二分類可輸出患齲或未患齲,多分類任務則可輸出更多的類別,如深齲、中齲、淺齲。本文上述指標及計算公式通常只適用于二分類模型,而對于多分類任務而言,需要將結果轉化為多個二分類指標,然后在此基礎上進行計算。如多分類的機器學習齲病診斷模型準確性評估共有三個二分類結果,最終結果需要對這三個結果進行匯總。匯總方法包括宏平均(macro-average)方法,即對各個二分類器的評估指標求平均;加權平均(weighted-average)方法,即對各個二分類器的評估指標求加權平均,權重設置為該類別在總樣本中的占比;微平均(micro-average)方法,把每個類別的TP、FP、FN三項先相加之后,在根據二分類的公式進行計算。
3.3 假設檢驗
傳統診斷試驗使用經典的二項分布統計模型,正態近似后使用Z檢驗對構成比進行比較。然而,機器學習的研究中不夠重視假設檢驗,尤其是神經網絡深度學習的研究很少報告P值。這是因為現階段深度學習尚被認為是一個“黑箱”,其結論缺乏直觀的解釋路線和可信賴的證據,對深度學習的診斷模型并不了解參數的分布,因此無法滿足假設檢驗的前提條件。目前診斷模型開發的重點在于評估模型本身的預測能力,而非模型的可解釋性,因此提升機器學習的可解釋性越來越成為研究的趨勢[16]。
另外,醫學領域機器學習診斷模型訓練的數據量相對于自然圖片機器學習的數據量而言顯得過少,隨機誤差也必然較大。然而,隨著機器學習數據量的增加,依據中心極限定理,相關變量參數的樣本均數也會逐漸近似于正態分布,也會滿足假設檢驗的條件[17]。所以,假設檢驗對于樣本量足夠的機器學習研究也有舉足輕重的重要性。
傳統臨床流行病學的診斷試驗準確性研究的評價指標與機器學習診斷模型的評價指標既有共性,也有差異。基于機器學習的診斷試驗應用越來越廣泛,本文通過對機器學習診斷模型評價指標的計算方式以及意義進行了詳細的闡述,希望能為臨床研究者提供一定的參考,使得機器學習研究測量指標的報告得以規范。