隨著人工智能的發展,機器學習在疾病診斷方面的運用逐漸廣泛,對于基于機器學習的診斷性試驗準確性研究,如何合理評估模型的性能對提升診斷準確性至關重要。本研究為系列方法學研究之一,首先從靶疾病、受試者選擇、診斷性試驗、參考標準、倫理等方面介紹了基于機器學習的診斷性試驗準確性研究的設計原則。
引用本文: 張雨楠, 朱濤, 曾維, 郭際香, 張韜, 茍攀, 湯煒, 劉暢. 基于機器學習的診斷性試驗準確性研究(一):研究設計. 中國循證醫學雜志, 2023, 23(6): 725-730. doi: 10.7507/1672-2531.202302047 復制
診斷性試驗(diagnostic test)是使用各種醫學影像、實驗技術等手段對受試者進行檢查、對疾病進行診斷的試驗。隨著醫學檢查技術的快速發展,可供臨床醫師選擇的診斷性試驗更加廣泛,某一檢查手段的準確性如何是醫生在疾病診斷中最關心的問題。診斷性試驗準確性(diagnostic test accuracy,DTA)研究是評估一種或多種診斷性試驗區分受試者“有病”或“無病”的研究[1],其結果可以在臨床決策時提供有力參考。
機器學習是人工智能的重要應用領域之一,隨著計算機視覺與文本分析的發展,機器學習尤其是深度學習在醫學中的運用逐漸廣泛。傳統機器學習基于符號主義范式,通過數理邏輯模擬人類的思維過程,在人工提取數據特征的基礎上進行分類,從而診斷疾病、推測預后;而深度學習則基于聯結主義范式,通過深度神經網絡模擬人類的神經活動,自動提取數據特征來預測疾病的診斷與預后。人工智能、機器學習、深度學習的關系如圖1。

然而,基于機器學習的診斷模型并非十全十美,同樣需要DTA研究來驗證其效度和信度。開展基于機器學習的DTA研究不但要遵守傳統臨床流行病學的基本原則,還在涉及人工智能的領域有一些特殊要求。依照臨床流行病學的設計、測量與評價的方法(design, measurement and evaluation,DME),本課題組將通過三篇文章系列介紹基于機器學習的DTA研究的研究設計、測量指標和方法學評價方法。本文主要介紹機器學習DTA研究的研究設計。
依據DTA研究的等價PICO原則[2],即P對應受試者(participants/patients)、I對應待評價的診斷性試驗(index test)、C對應參考標準(reference standard)、O對應靶疾病(target condition)。本文分別介紹靶疾病、受試者選擇、診斷性試驗和參考標準等研究設計要素要求,并探討研究設計階段的倫理學問題。基于機器學習的DTA研究的基本流程與PICO原則設計要素對應關系見圖2。

1 靶疾病
靶疾病是診斷性試驗進行診斷的目標疾病。診斷性試驗的受試者除了健康人群、靶疾病患者,還應包含有相似臨床表現、可能被診斷為靶疾病的患者。在受試者納入過程中,如果只納入健康人群與靶疾病人群,會高估待評價診斷性試驗的準確性。例如Landini等[3]在X線診斷新冠病毒感染的肺炎患者和非新冠病毒感染的肺炎患者的準確性研究中,一并納入了所有出現咳嗽、咳痰、胸痛、呼吸困難等臨床癥狀的患者。這項研究中,新冠肺炎即為靶疾病,而其他類型的肺炎具有鑒別診斷意義。
2 受試者選擇(納入階段)
2.1 受試者來源
DTA研究可選擇從單中心或多中心納入受試者。受試者數據的來源是多種多樣的,研究者除了可以從醫療衛生機構、社區現場收集以外,還可以從已有數據庫或公開數據集中獲取數據[4-5]。多中心DTA研究納入不同地區[6]或不同醫院[7]的受試者,有助于提升機器學習模型的泛化性能,更有可能應用到真實臨床環境中。
2.2 受試者選擇的時間方向
根據受試者數據獲取時間與研究開始時間的先后關系,可以將診斷性試驗分為前瞻性(prospective)、回顧性(retrospective)和雙向性(ambispective):前瞻性研究是指在研究開始后收集受試者數據資料,前瞻性研究設計嚴謹、過程可控,數據較可靠,但耗時久、花銷大;回顧性研究是收集研究開始前就已經存在的數據,如病歷、影像資料、醫療數據庫等,回顧性研究耗時短、成本低,但數據可能不完整、不準確,偏倚風險較大;雙向性研究綜合了前瞻性和回顧性兩種收集方式的特點。
目前,基于機器學習DTA研究多數是回顧性的,研究者回顧性地收集影像學檢查、實驗室檢查等各方面的資料形成數據集,以供模型的訓練和評估;或直接使用已有數據庫或公開數據集的數據。
2.3 受試者的合格標準
受試者數據包括生理、心理、社會環境等各方面信息,如人口學基本特征、影像學檢查[8]、實驗室檢查[9]、病史文本信息[10]、心理調查問卷[5]等。研究者應該制定清晰的合格標準(eligibility criteria),即定義明確的納入標準和排除標準,例如:數據是如何篩選的,數據的類型和特征,如何評估和處理不合格的數據[11]。以醫學影像檢查為例,應注明選取哪些醫療衛生機構、哪段時間、哪些受試者的何種影像學檢查,影像檢查機器的型號,圖像的大小、分辨率、格式的相關要求或限制,排除部分影像的理由等。
2.4 樣本量與數據增強技術
在DTA研究中,研究者還應該預先估計樣本量。通常小樣本研究被認為代表性差、隨機誤差大,在罕見病的研究中應尤其注意樣本量的影響。樣本量的估計通常基于預估的靈敏度或特異度,其計算方法與調查設計中估計總體率時的樣本量類似[12],故不再贅述。
在圖像深度學習的研究中,有時會通過數據增強(data augmentation)技術對圖像進行預處理,包括翻轉(flip)、平移(shift)、移位(translation)、旋轉(rotation)、縮放(zoom)、裁剪(crop)、插值(interpolation)、尺度變換(scale)、對比度變換(contrast)、顏色變換(color)、高斯噪聲(Gaussian noise)等。例如Yu等[13]使用872個頜骨囊性病變全景片圖像和1萬個健康全景片,使用裁剪技術將頜骨囊性病變區域剪切后粘貼在健康全景片上形成新的靶疾病患者數據進行訓練,在擴大樣本量的同時,也提升了模型的泛化能力和穩健性。
2.5 受試者選擇的抽樣方法
DTA研究選擇受試者時可以進行隨機抽樣或連續抽樣。隨機抽樣是指從所有符合合格標準的群體中隨機抽取一定數量的個體入組。連續抽樣則納入某段時間內所有符合合格標準的受試者,Hou等[14]在研究炎癥因子診斷經皮腎鏡取石術后膿毒血癥的準確性時,納入了所在醫院2017年1月至2020年10月所有符合標準的取石手術患者。使用隨機或連續抽樣方式通常可以保證獲取的樣本具有一定的代表性。但如果采用便利抽樣等非概率抽樣方式,則納入人群會存在較大的選擇性偏倚風險。
3 診斷性試驗
3.1 基于機器學習的診斷模型
基于機器學習的診斷模型通常使用帶有標注的數據集進行訓練,即監督學習(supervised learning),以獲得良好的穩健性和泛化能力[15]。有監督的傳統機器學習通常使用決策樹、支持向量機、廣義線性回歸、樸素貝葉斯等算法;有監督的深度學習通常使用卷積神經網絡、遞歸神經網絡、深度置信網絡等模型。
在醫學領域中,研究者常運用監督學習實現分類、目標檢測、分割等任務,針對不同的常見任務,標注的方式也有所不同:① 分類(classification)任務是指模型判斷給定圖像屬于哪種目標分類,通常用標明疾病類別的標簽(label)作為標注;② 目標檢測(object detection)任務是檢測圖像中目標的位置,一般使用邊框(box)標注,標注信息除了包含疾病類別外,還包含邊框對角線上的坐標點;③ 分割(segmentation)任務是指在圖像上分割出目標形態像素信息,通常使用掩模(mask)標注,主要用于提取感興趣區域(region of interest,ROI)及結構特征。分割任務可進一步分為語義分割(sementic segmentation)和實例分割(instance segmentation),前者只判定每個像素所屬的類別,后者則是在像素級分割的基礎上區分每個實例。例如分割混合牙列時,語義分割將每顆牙分割為恒牙或乳牙,實例分割則將每一顆牙均標注為不同個體(表1)。

機器學習的模型多種多樣,目標任務也不盡相同,例如決策樹、支持向量機、樸素貝葉斯適用于分類問題,卷積神經網絡因層次結構、激活函數、池化方式等參數不同有眾多模型,可以對目標進行分割、檢測和分類,部分模型根據網絡深度的不同還有許多細化類型,研究者應根據目標任務選擇合適的算法。
在選擇模型、數據清洗、數據預處理之后需要進一步訓練模型并評估:① 模型訓練(training),即擬合數據、計算權重和梯度等參數;② 模型驗證(validation),即多次驗證來調整超參數(hyperparameter)、監控是否發生過擬合;③ 模型測試,即評估模型的泛化能力和診斷準確性。
3.2 診斷性試驗的類型
臨床流行病學依據待評價的診斷性試驗數量將DTA研究分為單個診斷性試驗準確性研究(single diagnostic test accuracy study,SDTA)和診斷性試驗準確性比較研究(comparative diagnostic test accuracy study,CDTA)。SDTA研究將某種診斷性試驗與參考標準進行自身對照來衡量其診斷準確性,可以通過靈敏度、特異度等指標繪制受試者工作特征(receiver operating characteristic,ROC)曲線,尋找使約登指數最大化的閾值來確定最佳診斷臨界值(best cutoff value);CDTA研究比較兩個或兩個以上診斷性試驗的準確性,通過比較不同診斷性試驗的ROC曲線下面積(area under curve,AUC)來尋找最佳診斷措施。機器學習研究經常涉及算法或模型的改良,因此CDTA研究對于多個診斷模型的比較尤為重要。
4 參考標準
參考標準(reference standard)應選取當前醫學界公認的、對某疾病最可靠的診斷標準,包括病理學檢查、實驗室檢查、影像學檢查、術中發現以及專家或權威機構認定的綜合診斷標準等[16]。其中,病理學檢查被認為是腫瘤的金標準(gold standard),高分辨率CT被認為是骨折的金標準。此外,隨著醫療水平的發展,新的診斷性試驗可能替代舊的試驗成為新的參考標準[17],如我國衛計委于2017年頒布肺結核診斷新標準,用結核桿菌培養陽性替代病理學檢查作為金標準。因此,選擇公認的最新的參考標準對DTA研究至關重要。
機器學習相關的DTA研究在選取參考標準時也應遵循上述原則,可采用臨床表現、病理學檢查、影像學檢查等方式或聯合診斷等方法,如Zhou等[18]在建立肝臟良性腫瘤和囊腫分類模型時,根據病理診斷結合臨床表現作為參考標準。
基于參考標準的診斷結果,研究者需要對醫學圖像進行人工標注,誤差在所難免。因此基于機器學習的DTA研究往往需要對標注結果進行信度評價:對定性分類進行Kappa值檢驗;對定量測量進行組內相關系數(intraclass correlation coefficient,ICC)檢驗。
5 受試者選擇(分組階段)
5.1 數據集的分組
因為機器學習模型的訓練和評估有訓練、驗證和測試等步驟,所以數據集通常可劃分為訓練集(train set)、驗證集(validation set)和測試集(testing set):訓練集用于模型訓練;驗證集用于模型驗證,依據模型需要由研究者決定是否設立;測試集用于模型評估,僅在最后測試時使用一次。若測試集與訓練集或驗證集數據有重疊,會高估模型的性能,造成較大的偏倚。
對數據集的分組應遵循隨機原則,可使用簡單隨機分組、分層隨機分組、區組隨機分組等方法。在算法上有留出法、拔靴法、交叉驗證法等方法。
① 留出法(hold-out)是一種較為簡單的分組方式:如果數據集分為訓練集和測試集兩組,比例通常為7∶3至9∶1;若分為訓練集、驗證集和測試集三組,比例通常為6∶2∶2至8∶1∶1。分組的比例不是固定的,但是留出給測試集的樣本量不宜過大,否則會有大量數據未被訓練到、從而造成樣本數據的浪費;同樣也不能過小,否則難以保證測試結果的準確性和穩定性,不能控制評價結果的隨機誤差。
② 拔靴法(bootstrapping)對有限的數據集進行多次有放回的隨機抽樣,被抽到的受試者進入訓練集,未被抽到的進入測試集。當樣本量足夠大時,每位受試者被抽到的概率約為0.368,此時訓練集和測試集與原數據集的分布大致相同。
③ 交叉驗證法(cross-validation)又名為K折交叉驗證法(K-fold cross validation)。首先,數據集均分為K個子集;然后,研究者使用1個子集作為測試集,其余(K-1)個子集的并集作為訓練集,進行一次模型的訓練和評估得出結果;如此,用同樣方法分別重復進行K次訓練和評估;最后,將K個結果加權平均作為最終結果。多數情況下K=5或10,即五折交叉驗證法和十折交叉驗證法。特別地,當K=n時,即每個樣本單獨為一個子集,此時稱為留一交叉驗證法(leave-one-out cross-validation,LOOCV)。交叉驗證法適用于小樣本的監督學習,其能充分利用已有的數據資源,但容易產生過擬合,造成偏倚,從而夸大診斷效能。
5.2 CDAT研究的分組
CDTA研究根據對受試者的分組方式可分為5種設計類型:完全配對設計(fully paired design)、隨機子集部分配對設計(partially paired design with random subset)、非隨機子集部分配對設計(partially paired design with nonrandom subset)、非配對隨機設計(unpaired randomized design)、非配對非隨機設計(unpaired nonrandomized design)[16,19]。在機器學習的DTA研究中比較多個算法模型時,相同的數據可以供多個模型重復使用,因此通常采用完全配對設計。這樣不僅能充分利用數據,還可以避免分組過程中產生的選擇偏倚。
6 研究設計階段的倫理問題
與傳統的臨床流行病學研究一樣,機器學習研究也應當遵守《赫爾辛基宣言》[20],經倫理審查[21],在公眾可及的臨床試驗注冊數據庫(如中國臨床試驗注冊中心、ClinicalTrials.gov等)上登記,堅持尊重、受益/不傷害、公正等原則,對受試者做到知情同意、自愿、保密,保證受試者獲益最大化、風險最小化,對受試者選擇時(納入排除時或分配時)均一視同仁。值得注意是,在共享數據集時,不僅需要受試者的知情同意,還應充分尊重受試者的隱私權,對數據進行嚴格的脫敏處理,去除可識別特定受試者的標志信息例如姓名、身份證號、電話號碼、郵編、住院號等[22]。此外,機器學習研究還應該遵循節約資源、保護環境的生命倫理要求,堅持可持續發展與清潔能源使用:如在進行計算機視覺領域的機器學習時,在不合理的研究設計下肆意過分延長訓練時間有可能導致不必要的電能浪費與環境污染[23-24]。
綜上所述,基于機器學習的診斷性試驗準確性研究需遵照傳統臨床流行病學的基本原則、研究設計要素和倫理原則,針對靶疾病,根據機器學習領域的要求從受試者和數據集兩個方面制定合格標準,選擇可靠的參考標準并正確標注,保證基于機器學習的DTA研究設計的嚴謹性和科學性,使最后產出的結果及結論真正運用到臨床診斷中。
診斷性試驗(diagnostic test)是使用各種醫學影像、實驗技術等手段對受試者進行檢查、對疾病進行診斷的試驗。隨著醫學檢查技術的快速發展,可供臨床醫師選擇的診斷性試驗更加廣泛,某一檢查手段的準確性如何是醫生在疾病診斷中最關心的問題。診斷性試驗準確性(diagnostic test accuracy,DTA)研究是評估一種或多種診斷性試驗區分受試者“有病”或“無病”的研究[1],其結果可以在臨床決策時提供有力參考。
機器學習是人工智能的重要應用領域之一,隨著計算機視覺與文本分析的發展,機器學習尤其是深度學習在醫學中的運用逐漸廣泛。傳統機器學習基于符號主義范式,通過數理邏輯模擬人類的思維過程,在人工提取數據特征的基礎上進行分類,從而診斷疾病、推測預后;而深度學習則基于聯結主義范式,通過深度神經網絡模擬人類的神經活動,自動提取數據特征來預測疾病的診斷與預后。人工智能、機器學習、深度學習的關系如圖1。

然而,基于機器學習的診斷模型并非十全十美,同樣需要DTA研究來驗證其效度和信度。開展基于機器學習的DTA研究不但要遵守傳統臨床流行病學的基本原則,還在涉及人工智能的領域有一些特殊要求。依照臨床流行病學的設計、測量與評價的方法(design, measurement and evaluation,DME),本課題組將通過三篇文章系列介紹基于機器學習的DTA研究的研究設計、測量指標和方法學評價方法。本文主要介紹機器學習DTA研究的研究設計。
依據DTA研究的等價PICO原則[2],即P對應受試者(participants/patients)、I對應待評價的診斷性試驗(index test)、C對應參考標準(reference standard)、O對應靶疾病(target condition)。本文分別介紹靶疾病、受試者選擇、診斷性試驗和參考標準等研究設計要素要求,并探討研究設計階段的倫理學問題。基于機器學習的DTA研究的基本流程與PICO原則設計要素對應關系見圖2。

1 靶疾病
靶疾病是診斷性試驗進行診斷的目標疾病。診斷性試驗的受試者除了健康人群、靶疾病患者,還應包含有相似臨床表現、可能被診斷為靶疾病的患者。在受試者納入過程中,如果只納入健康人群與靶疾病人群,會高估待評價診斷性試驗的準確性。例如Landini等[3]在X線診斷新冠病毒感染的肺炎患者和非新冠病毒感染的肺炎患者的準確性研究中,一并納入了所有出現咳嗽、咳痰、胸痛、呼吸困難等臨床癥狀的患者。這項研究中,新冠肺炎即為靶疾病,而其他類型的肺炎具有鑒別診斷意義。
2 受試者選擇(納入階段)
2.1 受試者來源
DTA研究可選擇從單中心或多中心納入受試者。受試者數據的來源是多種多樣的,研究者除了可以從醫療衛生機構、社區現場收集以外,還可以從已有數據庫或公開數據集中獲取數據[4-5]。多中心DTA研究納入不同地區[6]或不同醫院[7]的受試者,有助于提升機器學習模型的泛化性能,更有可能應用到真實臨床環境中。
2.2 受試者選擇的時間方向
根據受試者數據獲取時間與研究開始時間的先后關系,可以將診斷性試驗分為前瞻性(prospective)、回顧性(retrospective)和雙向性(ambispective):前瞻性研究是指在研究開始后收集受試者數據資料,前瞻性研究設計嚴謹、過程可控,數據較可靠,但耗時久、花銷大;回顧性研究是收集研究開始前就已經存在的數據,如病歷、影像資料、醫療數據庫等,回顧性研究耗時短、成本低,但數據可能不完整、不準確,偏倚風險較大;雙向性研究綜合了前瞻性和回顧性兩種收集方式的特點。
目前,基于機器學習DTA研究多數是回顧性的,研究者回顧性地收集影像學檢查、實驗室檢查等各方面的資料形成數據集,以供模型的訓練和評估;或直接使用已有數據庫或公開數據集的數據。
2.3 受試者的合格標準
受試者數據包括生理、心理、社會環境等各方面信息,如人口學基本特征、影像學檢查[8]、實驗室檢查[9]、病史文本信息[10]、心理調查問卷[5]等。研究者應該制定清晰的合格標準(eligibility criteria),即定義明確的納入標準和排除標準,例如:數據是如何篩選的,數據的類型和特征,如何評估和處理不合格的數據[11]。以醫學影像檢查為例,應注明選取哪些醫療衛生機構、哪段時間、哪些受試者的何種影像學檢查,影像檢查機器的型號,圖像的大小、分辨率、格式的相關要求或限制,排除部分影像的理由等。
2.4 樣本量與數據增強技術
在DTA研究中,研究者還應該預先估計樣本量。通常小樣本研究被認為代表性差、隨機誤差大,在罕見病的研究中應尤其注意樣本量的影響。樣本量的估計通常基于預估的靈敏度或特異度,其計算方法與調查設計中估計總體率時的樣本量類似[12],故不再贅述。
在圖像深度學習的研究中,有時會通過數據增強(data augmentation)技術對圖像進行預處理,包括翻轉(flip)、平移(shift)、移位(translation)、旋轉(rotation)、縮放(zoom)、裁剪(crop)、插值(interpolation)、尺度變換(scale)、對比度變換(contrast)、顏色變換(color)、高斯噪聲(Gaussian noise)等。例如Yu等[13]使用872個頜骨囊性病變全景片圖像和1萬個健康全景片,使用裁剪技術將頜骨囊性病變區域剪切后粘貼在健康全景片上形成新的靶疾病患者數據進行訓練,在擴大樣本量的同時,也提升了模型的泛化能力和穩健性。
2.5 受試者選擇的抽樣方法
DTA研究選擇受試者時可以進行隨機抽樣或連續抽樣。隨機抽樣是指從所有符合合格標準的群體中隨機抽取一定數量的個體入組。連續抽樣則納入某段時間內所有符合合格標準的受試者,Hou等[14]在研究炎癥因子診斷經皮腎鏡取石術后膿毒血癥的準確性時,納入了所在醫院2017年1月至2020年10月所有符合標準的取石手術患者。使用隨機或連續抽樣方式通常可以保證獲取的樣本具有一定的代表性。但如果采用便利抽樣等非概率抽樣方式,則納入人群會存在較大的選擇性偏倚風險。
3 診斷性試驗
3.1 基于機器學習的診斷模型
基于機器學習的診斷模型通常使用帶有標注的數據集進行訓練,即監督學習(supervised learning),以獲得良好的穩健性和泛化能力[15]。有監督的傳統機器學習通常使用決策樹、支持向量機、廣義線性回歸、樸素貝葉斯等算法;有監督的深度學習通常使用卷積神經網絡、遞歸神經網絡、深度置信網絡等模型。
在醫學領域中,研究者常運用監督學習實現分類、目標檢測、分割等任務,針對不同的常見任務,標注的方式也有所不同:① 分類(classification)任務是指模型判斷給定圖像屬于哪種目標分類,通常用標明疾病類別的標簽(label)作為標注;② 目標檢測(object detection)任務是檢測圖像中目標的位置,一般使用邊框(box)標注,標注信息除了包含疾病類別外,還包含邊框對角線上的坐標點;③ 分割(segmentation)任務是指在圖像上分割出目標形態像素信息,通常使用掩模(mask)標注,主要用于提取感興趣區域(region of interest,ROI)及結構特征。分割任務可進一步分為語義分割(sementic segmentation)和實例分割(instance segmentation),前者只判定每個像素所屬的類別,后者則是在像素級分割的基礎上區分每個實例。例如分割混合牙列時,語義分割將每顆牙分割為恒牙或乳牙,實例分割則將每一顆牙均標注為不同個體(表1)。

機器學習的模型多種多樣,目標任務也不盡相同,例如決策樹、支持向量機、樸素貝葉斯適用于分類問題,卷積神經網絡因層次結構、激活函數、池化方式等參數不同有眾多模型,可以對目標進行分割、檢測和分類,部分模型根據網絡深度的不同還有許多細化類型,研究者應根據目標任務選擇合適的算法。
在選擇模型、數據清洗、數據預處理之后需要進一步訓練模型并評估:① 模型訓練(training),即擬合數據、計算權重和梯度等參數;② 模型驗證(validation),即多次驗證來調整超參數(hyperparameter)、監控是否發生過擬合;③ 模型測試,即評估模型的泛化能力和診斷準確性。
3.2 診斷性試驗的類型
臨床流行病學依據待評價的診斷性試驗數量將DTA研究分為單個診斷性試驗準確性研究(single diagnostic test accuracy study,SDTA)和診斷性試驗準確性比較研究(comparative diagnostic test accuracy study,CDTA)。SDTA研究將某種診斷性試驗與參考標準進行自身對照來衡量其診斷準確性,可以通過靈敏度、特異度等指標繪制受試者工作特征(receiver operating characteristic,ROC)曲線,尋找使約登指數最大化的閾值來確定最佳診斷臨界值(best cutoff value);CDTA研究比較兩個或兩個以上診斷性試驗的準確性,通過比較不同診斷性試驗的ROC曲線下面積(area under curve,AUC)來尋找最佳診斷措施。機器學習研究經常涉及算法或模型的改良,因此CDTA研究對于多個診斷模型的比較尤為重要。
4 參考標準
參考標準(reference standard)應選取當前醫學界公認的、對某疾病最可靠的診斷標準,包括病理學檢查、實驗室檢查、影像學檢查、術中發現以及專家或權威機構認定的綜合診斷標準等[16]。其中,病理學檢查被認為是腫瘤的金標準(gold standard),高分辨率CT被認為是骨折的金標準。此外,隨著醫療水平的發展,新的診斷性試驗可能替代舊的試驗成為新的參考標準[17],如我國衛計委于2017年頒布肺結核診斷新標準,用結核桿菌培養陽性替代病理學檢查作為金標準。因此,選擇公認的最新的參考標準對DTA研究至關重要。
機器學習相關的DTA研究在選取參考標準時也應遵循上述原則,可采用臨床表現、病理學檢查、影像學檢查等方式或聯合診斷等方法,如Zhou等[18]在建立肝臟良性腫瘤和囊腫分類模型時,根據病理診斷結合臨床表現作為參考標準。
基于參考標準的診斷結果,研究者需要對醫學圖像進行人工標注,誤差在所難免。因此基于機器學習的DTA研究往往需要對標注結果進行信度評價:對定性分類進行Kappa值檢驗;對定量測量進行組內相關系數(intraclass correlation coefficient,ICC)檢驗。
5 受試者選擇(分組階段)
5.1 數據集的分組
因為機器學習模型的訓練和評估有訓練、驗證和測試等步驟,所以數據集通常可劃分為訓練集(train set)、驗證集(validation set)和測試集(testing set):訓練集用于模型訓練;驗證集用于模型驗證,依據模型需要由研究者決定是否設立;測試集用于模型評估,僅在最后測試時使用一次。若測試集與訓練集或驗證集數據有重疊,會高估模型的性能,造成較大的偏倚。
對數據集的分組應遵循隨機原則,可使用簡單隨機分組、分層隨機分組、區組隨機分組等方法。在算法上有留出法、拔靴法、交叉驗證法等方法。
① 留出法(hold-out)是一種較為簡單的分組方式:如果數據集分為訓練集和測試集兩組,比例通常為7∶3至9∶1;若分為訓練集、驗證集和測試集三組,比例通常為6∶2∶2至8∶1∶1。分組的比例不是固定的,但是留出給測試集的樣本量不宜過大,否則會有大量數據未被訓練到、從而造成樣本數據的浪費;同樣也不能過小,否則難以保證測試結果的準確性和穩定性,不能控制評價結果的隨機誤差。
② 拔靴法(bootstrapping)對有限的數據集進行多次有放回的隨機抽樣,被抽到的受試者進入訓練集,未被抽到的進入測試集。當樣本量足夠大時,每位受試者被抽到的概率約為0.368,此時訓練集和測試集與原數據集的分布大致相同。
③ 交叉驗證法(cross-validation)又名為K折交叉驗證法(K-fold cross validation)。首先,數據集均分為K個子集;然后,研究者使用1個子集作為測試集,其余(K-1)個子集的并集作為訓練集,進行一次模型的訓練和評估得出結果;如此,用同樣方法分別重復進行K次訓練和評估;最后,將K個結果加權平均作為最終結果。多數情況下K=5或10,即五折交叉驗證法和十折交叉驗證法。特別地,當K=n時,即每個樣本單獨為一個子集,此時稱為留一交叉驗證法(leave-one-out cross-validation,LOOCV)。交叉驗證法適用于小樣本的監督學習,其能充分利用已有的數據資源,但容易產生過擬合,造成偏倚,從而夸大診斷效能。
5.2 CDAT研究的分組
CDTA研究根據對受試者的分組方式可分為5種設計類型:完全配對設計(fully paired design)、隨機子集部分配對設計(partially paired design with random subset)、非隨機子集部分配對設計(partially paired design with nonrandom subset)、非配對隨機設計(unpaired randomized design)、非配對非隨機設計(unpaired nonrandomized design)[16,19]。在機器學習的DTA研究中比較多個算法模型時,相同的數據可以供多個模型重復使用,因此通常采用完全配對設計。這樣不僅能充分利用數據,還可以避免分組過程中產生的選擇偏倚。
6 研究設計階段的倫理問題
與傳統的臨床流行病學研究一樣,機器學習研究也應當遵守《赫爾辛基宣言》[20],經倫理審查[21],在公眾可及的臨床試驗注冊數據庫(如中國臨床試驗注冊中心、ClinicalTrials.gov等)上登記,堅持尊重、受益/不傷害、公正等原則,對受試者做到知情同意、自愿、保密,保證受試者獲益最大化、風險最小化,對受試者選擇時(納入排除時或分配時)均一視同仁。值得注意是,在共享數據集時,不僅需要受試者的知情同意,還應充分尊重受試者的隱私權,對數據進行嚴格的脫敏處理,去除可識別特定受試者的標志信息例如姓名、身份證號、電話號碼、郵編、住院號等[22]。此外,機器學習研究還應該遵循節約資源、保護環境的生命倫理要求,堅持可持續發展與清潔能源使用:如在進行計算機視覺領域的機器學習時,在不合理的研究設計下肆意過分延長訓練時間有可能導致不必要的電能浪費與環境污染[23-24]。
綜上所述,基于機器學習的診斷性試驗準確性研究需遵照傳統臨床流行病學的基本原則、研究設計要素和倫理原則,針對靶疾病,根據機器學習領域的要求從受試者和數據集兩個方面制定合格標準,選擇可靠的參考標準并正確標注,保證基于機器學習的DTA研究設計的嚴謹性和科學性,使最后產出的結果及結論真正運用到臨床診斷中。