本文介紹采用 PROBAST(prediction model risk of bias assessment tool)工具評估診斷或預后多因素預測模型研究的偏倚風險和適用性,包括該工具的制定背景、適用范圍和使用方法,同時采用 PROBAST 工具進行了實例分析。該工具主要涉及研究對象、預測因子、結果和統計分析 4 個領域,通過這 4 個領域對研究的偏倚風險進行評估,適用性則由前 3 個領域進行判斷。PROBAST 工具為診斷或預后多因素預測模型研究的評價提供了規范的評價方法,從而篩選出合格的文獻進行數據分析,幫助臨床決策建立科學基礎。
引用本文: 陳香萍, 張奕, 莊一渝, 章仲恒. PROBAST:診斷或預后多因素預測模型研究偏倚風險的評估工具. 中國循證醫學雜志, 2020, 20(6): 737-744. doi: 10.7507/1672-2531.201910087 復制
預測模型是以疾病的預測因子為基礎,按照數學模型計算發生事件概率的方式[1, 2]。臨床預測模型包括診斷預測模型和預后預測模型。診斷預測模型是計算個體患有疾病的概率,而預后預測模型是預測具有此類事件風險的個體未來發生特定結果或事件的概率或風險[3]。預測模型有助于臨床決策[4]。目前已開發了越來越多的預測模型,尤其在心血管、癌癥、糖尿病等領域[5-8],有的預測模型被推薦用于臨床風險評估[9, 10]。然而,已有的預測模型研究存在報告質量差、預測結果不準確、證據相互矛盾和臨床應用局限等缺點[11-14],導致預測模型存在開發多但應用少的特點[15, 16]。因此,對預測模型的研究進行評估和規范有助于提高研究質量,從而為臨床決策提供科學依據。最近,荷蘭wolff等學者開發了針對個體的預后或診斷多因素預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[17],其可被用來評估多因素預測模型研究的偏倚風險。本文介紹該工具的制定背景、評估方法和評估要點并進行解讀,以期提高國內學者對該工具的理解,從而幫助研究者規范使用該工具。
1 PROBAST 工具制定背景和適用范圍
PROBAST 是由荷蘭烏得勒支大學 Moons Karel 等[17]按照德爾菲(Delphi)法于 2019 年制定的專用于評價開發、驗證或更新預后或診斷多因素預測模型基礎研究的工具。該工具包含 4 個領域,涉及 20 個標志性問題,可評價預測模型研究的偏倚風險和適用性。評價者可在 www.probast.org網站上查詢和下載該工具。
PROBAST 工具可用于評估任何類型的診斷或預后預測模型的研究。無論該研究使用何種預測因子、預測何種結果、使用何種建模方法,均可使用該工具進行評價。但該工具不適用于預后因素研究、預測模型的比較研究和預測模型定性研究。
2 PROBAST 工具使用方法
2.1 PROBAST 工具評價步驟
2.1.1 步驟 1:明確系統評價的問題
評價者首先應明確系統評價的問題,比較與原始研究問題的匹配性。采用 CHARMS(checklist for critical appraisal and data extraction for systematic reviews of prediction modeling studies)可幫助評價者對系統評價的問題進行定義。
2.1.2 步驟 2:對預測模型研究進行分類
由于不同的評價問題適用于不同類型的預測模型,因此評價者應先對研究進行分類。預測模型研究可分為開發、驗證、開發和驗證 3 種類型。建立新模型或者通過向已開發模型添加新預測因子來創建新模型的研究是模型開發研究;使用樣本以外的數據評估現有預測模型的預測性能的研究是模型驗證研究;通過其他數據進行外部驗證的基礎上對該模型進行調整或擴展的研究是模型開發和驗證研究。
2.1.3 步驟 3:評估偏倚風險和適用性
該步驟旨在對研究對象、預測因子、結果和統計分析 4 個領域進行評估,每個領域的評估結果采用低、高或不清楚進行判斷。偏倚風險的 4 個評估領域每個領域涵蓋了 2~9 個標志性問題,每個問題采用“是/可能是”、“可能不是/不是”或“沒有信息”進行回答。如果評價者所獲得的信息無法非常足夠的判斷為“是”或“否”,則可使用“可能是”或者“可能不是”進行判斷。適用性的評價則由前 3 個領域進行評估,其評估方法與偏倚風險相似,但每個領域沒有標志性問題。具體的等級判斷標準和標志性問題評估要點分別見表 1 和表 2。


2.1.4 步驟 4:整體情況判斷
評價者應綜合步驟 3 中每個領域評估的結果,對預測模型整體的偏倚風險和適用性判斷為低、高或不清楚。具體的判斷標準見表 1。
2.2 PROBAST 工具各領域條目解讀
2.2.1 偏倚風險判斷
領域 1:研究對象。① 標志性問題 1:對于研究數據來源于隨機對照試驗或注冊數據或前瞻性隊列研究、病例隊列研究可判斷為“是/可能是”。當研究數據來源于現有數據或回顧性隊列研究或傳統的病例-對照研究時將增加其偏倚風險;但采用巢式病例-對照研究或調整兩組基線風險后認為其偏倚風險降低,也可評為“是/可能是”;若無相關信息則判斷為“沒有信息”。② 標志性問題 2:評價者應關注納入與排除標準或研究對象的招募策略是否可能使納入對象無法代表預期的目標人群。若診斷模型研究的對象結局已知、或不是疑似患者、或預后模型研究的對象已具有患病的風險、或研究對象的選取中直接排除了可能改變預測模型性能的特定亞組,則均可判斷為“不是/可能不是”;若納入與排除標準合理且相對應可判斷為“是/可能是”;若研究未報告相關信息,則評為“沒有信息”。
領域 2:預測因子。① 標志性問題 1:如果對不同的研究對象采用了不同的預測因子定義和評估方法,可能將由于以上差異影響結果引起較高的偏倚風險。若對不同研究對象采用的預測因子的定義和評估方法均相同,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則評為“沒有信息”。② 標志性問題 2:未采用盲法會產生結果信息影響預測因子評估過程的風險,尤其在診斷模型研究中,這種偏倚情況較多,而在前瞻性隊列研究中較少。若評估者在評估預測因子時不清楚結果信息,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則評為“沒有信息”。③ 標志性問題 3:要使預測模型在現實環境中可用,所有納入的預測因子必須是有效的,因此要明確該模型納入的所有預測因子是否有統計學意義及預測模型中是否包含了缺少數據的預測因子。若預測模型所包含的預測因子均有效,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告分類方法的信息,則為“沒有信息”。
領域 3:結果。① 標志性問題 1-2:該問題旨在評估是否存在結果分類錯誤和非標準的結果定義而導致的偏倚風險。結果分類錯誤和非標準的結果定義將可能導致回歸系數、截距(邏輯回歸和參數生存模型)或基線風險(Cox 回歸模型)的偏差。尤其當數據是來源于登記數據或現有的研究數據時,結果分類方法和定義的不統一很可能產生偏倚風險。若研究中結果的分類方法和定義已經寫入臨床指南或被已發表的研究證實,可判斷為“是/可能是”;若產生了錯誤地分類或者使用了非標準閾值來定義結果,則為“不是/可能不是”;若研究未報告相關信息,則評為“沒有信息”。② 標志性問題 3:如果模型所包含的預測因子是結果定義中相關因素的一部分,則預測因子和結果之間的關聯性可能被高估。若預測的結果定義不包含預測因子,則可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。③ 標志性問題 4-5:該問題旨在評估不同對象對結果的定義是否相同及是否使用盲法在不清楚預測因子信息的情況下確定結果。其判斷方法和領域 2 中標志性問題 1 和 2 的評估方法相似。④ 標志性問題 6:這個問題的判斷需要臨床專業知識來明確適當的時間間隔,預測因子和預測結果的評估最好在同一時間點進行。但在研究實施中,預測因子和結果的評估之間會有一段時間間隔,這可能導致診斷結果改善或惡化;尤其在急性傳染病中,即使短暫的時間延遲也將產生偏倚。若預測因子評估和結果確定的時間間隔合理,可判斷為“是/可能是”;若由于時間間隔而無法獲取具有代表性的樣本量或正確記錄結果類型,則評為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。
領域 4:統計分析。由于其中一些評估內容需要統計方面的專業知識,因此建議至少由 1 名在預測模型研究中具有統計專業知識的研究人員共同完成這個領域的評估。① 標志性問題 1:對于不同的預測模型研究類型,樣本量評價方法不同。對于模型開發研究,通過每個自變量的事件數(events per variable,EPV),即研究對象中較少組的數量除以自變量的個數進行評價。若模型開發研究中 EPV≥20 例或模型驗證研究中樣本量≥100 例,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。② 標志性問題 2:對于不同的預測模型研究類型,自變量處理方法不同。若在模型開發研究中連續性變量未轉化成≥2 個類別的變量、或采用分數多項式等方法檢驗了連續變量的非線性擬合情況、或分類變量采用標準的定義,在模型驗證研究中連續變量采用相同的定義和轉換方式或分類變量采用相同的切割點進行分類,則可判斷為“是/可能是”;若模型開發研究中連續性變量轉化成≥2 類別的變量、或在模型驗證研究中連續變量采用不同的定義和轉化方式、或分類變量采用不同的切割點進行分類,則評為“不是/可能不是”。③ 標志性問題 3:該問題旨在評價是否將合格的研究對象從研究中不合理地排除。但這與不恰當的納入排除標準或結果中缺失數據的處理無關。除了由于無法解釋的原因產生異常值或結果中的數據缺失而剔除部分研究對象外,還存在部分對象被剔除,則可判斷為“不是/可能不是”。④ 標志性問題 4:當研究過程中簡單地處理納入對象的缺失數據,將導致一定的偏倚風險。無論是在模型開發或驗證研究中,多重插補在偏差和精度方面均優于其他方法。若研究中沒有遺漏的預測因子或結果,且納入對象未因數據缺失而被排除或者采用了多重插補法處理缺失數據,則可判斷為“是/可能是”;若研究中直接剔除缺失數據、或缺失數據的處理方法存在明顯缺陷、或未明確提及處理缺失數據的方法,則判斷為“不是/可能不是”。⑤ 標志性問題 5:僅對模型的開發研究需要進行該問題的判斷。由于單因素分析法篩選的預測因子是僅根據其統計學意義(P<0.05)選擇的,并未與其他自變量結合進行分析,而其中一些變量需調整其他變量才具有意義,因此將會因自變量的遺漏而產生偏倚。若研究中未基于單因素分析法篩選預測因子,則可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。⑥ 標志性問題 6:該問題旨在評估是否對研究中關鍵數據的復雜性問題進行了考慮,例如終檢、競爭風險、控制參與者抽樣等問題。若數據的復雜性都得到了合理解釋或者一些數據的復雜性被確認為不重要,則可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。⑦ 標志性問題 7:要全面評估預測模型的預測性能,評價者必須評估研究中模型的校準度和區分度。若研究中帶有校準圖或表格,需要判斷圖或表格是否正確,同時要關注用于評估模型校準度和區分度的方法是否適用于該模型研究;若研究中沒有校準圖或表格,僅報告校準的統計數據或僅使用 Hosmer-Lemeshow 擬合優度檢驗校準度,可判斷為“不是/可能不是”。⑧ 標志性問題 8-9:僅對模型的開發研究需要進行該問題的判斷。評價者需要對模型開發研究的擬合情況進行評估,若研究中正確使用內部驗證法且對模型性能的后續調整進行評估,可判斷為“是/可能是”;若未使用內部驗證或內部驗證僅包含數據的隨機拆分驗證法或未包括中介效應檢驗或交叉驗證,可判斷為“是/可能是”。此外,我們需要評估開發研究中最終模型預測因子的系數或截距是否與多變量分析報告的結果對應。若兩者相對應,則可判斷為“是/可能是”,相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。
2.2.2 適用性評價
領域 1:研究對象。該領域的適用性是指原始研究中納入的研究對象與系統評價需評價的研究對象的匹配程度。基于隨機試驗的預測模型研究,由于嚴格的納入與排除標準和較少的預測因子可能導致其低適用性,相比之下來源于登記數據的研究其適用性更高。若原始研究納入對象和臨床設計與系統評價問題相符,則可判斷為“低適用性風險”;相反則為“高適用性風險”;若研究未報告相關信息,則判斷為“不清楚”。
領域 2:預測因子。如果納入研究使用不同的定義或評估方法或評估時間,將導致某些模型研究的預測性能可能會與其它研究結果不同,而引起適用性風險問題。若三者均相符,可判斷為“低適用性風險”;相反則為“高適用性風險”;若研究未報告相關信息,則判斷為“不清楚”。
領域 3:結果。該領域的適用性評價方法和領域 2 的判斷方法相似。若原始研究結果的定義、評估方法和評估時間與系統評價問題均相符,則可判斷為“低適用性風險”;相反則為“高適用性風險”;若研究未報告相關信息,則判斷為“不清楚”。
3 實例分析
本研究以《慢性阻塞性肺疾病急性加重期患者短期預后預測模型的建立》(以下簡稱“AECOPD 研究”)[19]為例,采用 PROBAST 工具對其進行偏倚風險和適用性評價。
首先假定構建“慢性阻塞性肺疾病急性加重期患者危重情況預測模型的系統評價”,原始研究問題與系統評價問題見表 3,由表 3 可知,問題匹配。其次,AECOPD 研究中創建了新的預后模型,但未通過其他數據進行外部驗證,因此屬于“模型開發”研究。第三,對其進行偏倚風險評價和適用性評價。在研究對象領域中,因為 AECOPD 研究的數據來源于前瞻性隊列研究,納入與排除標準合理且對應,所以該領域的 2 個標志性問題均判斷為“Y”,該領域偏倚風險判斷為低偏倚風險。在預測因子領域中,AECOPD 研究中評估人員經過一對一的 3 輪統一培訓,評估方法相同,并采用 3 種相同的評估工具(一般資料調查表、英國國家早期預警評分、Charlson 合并癥評估表)對研究對象進行評估,且在評估過程中并不清楚結果數據;模型所納入的 3 個預測因子均具有統計學意義(P<0.05)。因此在該領域中的 3 個標志性問題均判斷為“Y”,該領域偏倚風險為低偏倚風險。在結果領域中,AECOPD 研究中未報告病情危重和病情平穩的結果分類方法和結果定義方法的相關信息;未報告結果中是否包含預測因子;對所有研究對象均采用了相同的結果定義;研究者在確定結果時不清楚預測因子的信息;未報告預測因子評估和結果確定的時間間隔的信息。因此該領域的標志性問題 1、2、3、6 判斷為“NI”,標志性問題 4、5 判斷為“Y”,該領域判斷為高偏倚風險。在統計分析領域中,AECOPD 研究中 EPV 值為 15(病情危重組樣本量n=45/預測因子數n=3)小于 20;5 個連續性變量均轉化為了二分類變量;統計分析中包含了所有納入對象和研究數據;采用了單因素分析法進行預測因子的篩選;未報告數據是否存在復雜性;僅使用了 Hosmer-Lemeshow 擬合優度檢驗評估校準度;未報告內部驗證方法是否已經采用的信息;3 個預測因子的回歸系數(2.014、2.738、3.353)與結果報告中(2 分、3 分、3 分)相對應。因此該領域的標志性問題 1、2、5、7 判斷為“N”,標志性問題 3、4、9 判斷為“Y”,標志性問題 6、8 判斷為“NI”,該領域判斷為高偏倚風險。由于系統評價內容不明確,對于 AECOPD 研究無法進行適用性風險評估。第四,對該研究進行整體情況判斷。對 AECOPD 研究的 4 個偏倚風險領域分別判斷為低、低、高和高,因此該研究整體偏倚風險為高偏倚風險。但由于系統評價內容不明確,對于 AECOPD 研究無法進行整體的適用性風險評估。

4 討論
評估納入研究的偏倚風險是系統評價的重要組成部分。隨著目前越來越多的預測模型開發和應用,則需要相關工具進行更為規范化的評價來提高研究質量和循證決策的科學性。PROBAST 是第一個專門用于評價診斷或預后模型的開發、驗證或更新研究的偏倚風險的工具[20],其經過嚴格的過程開發,但在評價過程中還存在一些需要注意的問題。
由于預測模型研究可分為不同的類型,故使用 PROBAST 工具評價時存在一定的差異性。雖然均可使用 PROBAST 工具對 3 種類型的研究進行評價,但模型的開發應包括采用自舉法或交叉驗證等進行內部驗證,而模型的驗證是不同或相同研究者收集不同參與者的數據進行外部驗證。同時存在以下差別:① 表 2 中的 3 個標志性問題(4.5、4.8 和 4.9)對“模型驗證”研究是不需要評價的。② 在“統計分析”領域的標志性問題 1 和 2 中,不同的研究類型采用不同的評價方法。
對于診斷或預后兩種不同作用的預測模型,在 PROBAST 評價上也具有一定區別:① 采用了不同術語來表示預測因子、結果和缺失值評估。診斷和預后模型對于預測因子分別采用診斷試驗和預后因素進行描述,對于結果分別采用參考標準(金標準)和事件(例如死亡,疾病復發,疾病并發癥或治療反應等)來描述,對于缺失值評估分別采用部分證實和失訪來描述。② 對于一些標志性問題的判斷方法不同。尤其在研究對象領域和統計分析領域,由于不同類型的預測模型其納入對象的研究設計方案和結局指標具有較大差異,需要針對該類型進行具體評價。
評價者還應注意每個問題和領域對于整體評價的影響是不同的。尤其在工具的評價涉及多個領域,而每個領域下又有多個問題時,每個問題又包含多個選項的情況下,這方面的問題就顯得更加重要了。如偏倚風險中對結果領域的評估,評價者應仔細評價那些決定結果的人是否可獲得預測信息,如果信息出現在結果確定過程中或者如果不清楚,則在對該領域的偏倚風險進行總體判斷時,該信息的影響更大,而不能盲目地根據表 2 中常規的判斷方法進行評價。
通過本文的實例分析可看出,該工具還存在不足之處:① 使用工具評價時,每個領域需回答 2~9 個標志性問題,根據問題的評價結果判斷出每個領域結果后還需對偏倚風險和適用性進行總體判斷,使得評價過程過于復雜和耗時。② 由于每個問題和領域對于整體評價的影響大小不同,而評價者需要綜合多項結果進行整體判斷,而這個過程缺乏清晰的指導供評價者參考。③ 由于該工具是第一個開發的工具,其信度效度、適用性及推廣情況還需進一步檢驗。
總之,本文對 PROBAST 工具進行了介紹,希望能夠提高研究者對該工具的理解,從而幫助研究者規范使用該工具。
預測模型是以疾病的預測因子為基礎,按照數學模型計算發生事件概率的方式[1, 2]。臨床預測模型包括診斷預測模型和預后預測模型。診斷預測模型是計算個體患有疾病的概率,而預后預測模型是預測具有此類事件風險的個體未來發生特定結果或事件的概率或風險[3]。預測模型有助于臨床決策[4]。目前已開發了越來越多的預測模型,尤其在心血管、癌癥、糖尿病等領域[5-8],有的預測模型被推薦用于臨床風險評估[9, 10]。然而,已有的預測模型研究存在報告質量差、預測結果不準確、證據相互矛盾和臨床應用局限等缺點[11-14],導致預測模型存在開發多但應用少的特點[15, 16]。因此,對預測模型的研究進行評估和規范有助于提高研究質量,從而為臨床決策提供科學依據。最近,荷蘭wolff等學者開發了針對個體的預后或診斷多因素預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[17],其可被用來評估多因素預測模型研究的偏倚風險。本文介紹該工具的制定背景、評估方法和評估要點并進行解讀,以期提高國內學者對該工具的理解,從而幫助研究者規范使用該工具。
1 PROBAST 工具制定背景和適用范圍
PROBAST 是由荷蘭烏得勒支大學 Moons Karel 等[17]按照德爾菲(Delphi)法于 2019 年制定的專用于評價開發、驗證或更新預后或診斷多因素預測模型基礎研究的工具。該工具包含 4 個領域,涉及 20 個標志性問題,可評價預測模型研究的偏倚風險和適用性。評價者可在 www.probast.org網站上查詢和下載該工具。
PROBAST 工具可用于評估任何類型的診斷或預后預測模型的研究。無論該研究使用何種預測因子、預測何種結果、使用何種建模方法,均可使用該工具進行評價。但該工具不適用于預后因素研究、預測模型的比較研究和預測模型定性研究。
2 PROBAST 工具使用方法
2.1 PROBAST 工具評價步驟
2.1.1 步驟 1:明確系統評價的問題
評價者首先應明確系統評價的問題,比較與原始研究問題的匹配性。采用 CHARMS(checklist for critical appraisal and data extraction for systematic reviews of prediction modeling studies)可幫助評價者對系統評價的問題進行定義。
2.1.2 步驟 2:對預測模型研究進行分類
由于不同的評價問題適用于不同類型的預測模型,因此評價者應先對研究進行分類。預測模型研究可分為開發、驗證、開發和驗證 3 種類型。建立新模型或者通過向已開發模型添加新預測因子來創建新模型的研究是模型開發研究;使用樣本以外的數據評估現有預測模型的預測性能的研究是模型驗證研究;通過其他數據進行外部驗證的基礎上對該模型進行調整或擴展的研究是模型開發和驗證研究。
2.1.3 步驟 3:評估偏倚風險和適用性
該步驟旨在對研究對象、預測因子、結果和統計分析 4 個領域進行評估,每個領域的評估結果采用低、高或不清楚進行判斷。偏倚風險的 4 個評估領域每個領域涵蓋了 2~9 個標志性問題,每個問題采用“是/可能是”、“可能不是/不是”或“沒有信息”進行回答。如果評價者所獲得的信息無法非常足夠的判斷為“是”或“否”,則可使用“可能是”或者“可能不是”進行判斷。適用性的評價則由前 3 個領域進行評估,其評估方法與偏倚風險相似,但每個領域沒有標志性問題。具體的等級判斷標準和標志性問題評估要點分別見表 1 和表 2。


2.1.4 步驟 4:整體情況判斷
評價者應綜合步驟 3 中每個領域評估的結果,對預測模型整體的偏倚風險和適用性判斷為低、高或不清楚。具體的判斷標準見表 1。
2.2 PROBAST 工具各領域條目解讀
2.2.1 偏倚風險判斷
領域 1:研究對象。① 標志性問題 1:對于研究數據來源于隨機對照試驗或注冊數據或前瞻性隊列研究、病例隊列研究可判斷為“是/可能是”。當研究數據來源于現有數據或回顧性隊列研究或傳統的病例-對照研究時將增加其偏倚風險;但采用巢式病例-對照研究或調整兩組基線風險后認為其偏倚風險降低,也可評為“是/可能是”;若無相關信息則判斷為“沒有信息”。② 標志性問題 2:評價者應關注納入與排除標準或研究對象的招募策略是否可能使納入對象無法代表預期的目標人群。若診斷模型研究的對象結局已知、或不是疑似患者、或預后模型研究的對象已具有患病的風險、或研究對象的選取中直接排除了可能改變預測模型性能的特定亞組,則均可判斷為“不是/可能不是”;若納入與排除標準合理且相對應可判斷為“是/可能是”;若研究未報告相關信息,則評為“沒有信息”。
領域 2:預測因子。① 標志性問題 1:如果對不同的研究對象采用了不同的預測因子定義和評估方法,可能將由于以上差異影響結果引起較高的偏倚風險。若對不同研究對象采用的預測因子的定義和評估方法均相同,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則評為“沒有信息”。② 標志性問題 2:未采用盲法會產生結果信息影響預測因子評估過程的風險,尤其在診斷模型研究中,這種偏倚情況較多,而在前瞻性隊列研究中較少。若評估者在評估預測因子時不清楚結果信息,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則評為“沒有信息”。③ 標志性問題 3:要使預測模型在現實環境中可用,所有納入的預測因子必須是有效的,因此要明確該模型納入的所有預測因子是否有統計學意義及預測模型中是否包含了缺少數據的預測因子。若預測模型所包含的預測因子均有效,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告分類方法的信息,則為“沒有信息”。
領域 3:結果。① 標志性問題 1-2:該問題旨在評估是否存在結果分類錯誤和非標準的結果定義而導致的偏倚風險。結果分類錯誤和非標準的結果定義將可能導致回歸系數、截距(邏輯回歸和參數生存模型)或基線風險(Cox 回歸模型)的偏差。尤其當數據是來源于登記數據或現有的研究數據時,結果分類方法和定義的不統一很可能產生偏倚風險。若研究中結果的分類方法和定義已經寫入臨床指南或被已發表的研究證實,可判斷為“是/可能是”;若產生了錯誤地分類或者使用了非標準閾值來定義結果,則為“不是/可能不是”;若研究未報告相關信息,則評為“沒有信息”。② 標志性問題 3:如果模型所包含的預測因子是結果定義中相關因素的一部分,則預測因子和結果之間的關聯性可能被高估。若預測的結果定義不包含預測因子,則可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。③ 標志性問題 4-5:該問題旨在評估不同對象對結果的定義是否相同及是否使用盲法在不清楚預測因子信息的情況下確定結果。其判斷方法和領域 2 中標志性問題 1 和 2 的評估方法相似。④ 標志性問題 6:這個問題的判斷需要臨床專業知識來明確適當的時間間隔,預測因子和預測結果的評估最好在同一時間點進行。但在研究實施中,預測因子和結果的評估之間會有一段時間間隔,這可能導致診斷結果改善或惡化;尤其在急性傳染病中,即使短暫的時間延遲也將產生偏倚。若預測因子評估和結果確定的時間間隔合理,可判斷為“是/可能是”;若由于時間間隔而無法獲取具有代表性的樣本量或正確記錄結果類型,則評為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。
領域 4:統計分析。由于其中一些評估內容需要統計方面的專業知識,因此建議至少由 1 名在預測模型研究中具有統計專業知識的研究人員共同完成這個領域的評估。① 標志性問題 1:對于不同的預測模型研究類型,樣本量評價方法不同。對于模型開發研究,通過每個自變量的事件數(events per variable,EPV),即研究對象中較少組的數量除以自變量的個數進行評價。若模型開發研究中 EPV≥20 例或模型驗證研究中樣本量≥100 例,可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。② 標志性問題 2:對于不同的預測模型研究類型,自變量處理方法不同。若在模型開發研究中連續性變量未轉化成≥2 個類別的變量、或采用分數多項式等方法檢驗了連續變量的非線性擬合情況、或分類變量采用標準的定義,在模型驗證研究中連續變量采用相同的定義和轉換方式或分類變量采用相同的切割點進行分類,則可判斷為“是/可能是”;若模型開發研究中連續性變量轉化成≥2 類別的變量、或在模型驗證研究中連續變量采用不同的定義和轉化方式、或分類變量采用不同的切割點進行分類,則評為“不是/可能不是”。③ 標志性問題 3:該問題旨在評價是否將合格的研究對象從研究中不合理地排除。但這與不恰當的納入排除標準或結果中缺失數據的處理無關。除了由于無法解釋的原因產生異常值或結果中的數據缺失而剔除部分研究對象外,還存在部分對象被剔除,則可判斷為“不是/可能不是”。④ 標志性問題 4:當研究過程中簡單地處理納入對象的缺失數據,將導致一定的偏倚風險。無論是在模型開發或驗證研究中,多重插補在偏差和精度方面均優于其他方法。若研究中沒有遺漏的預測因子或結果,且納入對象未因數據缺失而被排除或者采用了多重插補法處理缺失數據,則可判斷為“是/可能是”;若研究中直接剔除缺失數據、或缺失數據的處理方法存在明顯缺陷、或未明確提及處理缺失數據的方法,則判斷為“不是/可能不是”。⑤ 標志性問題 5:僅對模型的開發研究需要進行該問題的判斷。由于單因素分析法篩選的預測因子是僅根據其統計學意義(P<0.05)選擇的,并未與其他自變量結合進行分析,而其中一些變量需調整其他變量才具有意義,因此將會因自變量的遺漏而產生偏倚。若研究中未基于單因素分析法篩選預測因子,則可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。⑥ 標志性問題 6:該問題旨在評估是否對研究中關鍵數據的復雜性問題進行了考慮,例如終檢、競爭風險、控制參與者抽樣等問題。若數據的復雜性都得到了合理解釋或者一些數據的復雜性被確認為不重要,則可判斷為“是/可能是”;相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。⑦ 標志性問題 7:要全面評估預測模型的預測性能,評價者必須評估研究中模型的校準度和區分度。若研究中帶有校準圖或表格,需要判斷圖或表格是否正確,同時要關注用于評估模型校準度和區分度的方法是否適用于該模型研究;若研究中沒有校準圖或表格,僅報告校準的統計數據或僅使用 Hosmer-Lemeshow 擬合優度檢驗校準度,可判斷為“不是/可能不是”。⑧ 標志性問題 8-9:僅對模型的開發研究需要進行該問題的判斷。評價者需要對模型開發研究的擬合情況進行評估,若研究中正確使用內部驗證法且對模型性能的后續調整進行評估,可判斷為“是/可能是”;若未使用內部驗證或內部驗證僅包含數據的隨機拆分驗證法或未包括中介效應檢驗或交叉驗證,可判斷為“是/可能是”。此外,我們需要評估開發研究中最終模型預測因子的系數或截距是否與多變量分析報告的結果對應。若兩者相對應,則可判斷為“是/可能是”,相反則為“不是/可能不是”;若研究未報告相關信息,則判斷為“沒有信息”。
2.2.2 適用性評價
領域 1:研究對象。該領域的適用性是指原始研究中納入的研究對象與系統評價需評價的研究對象的匹配程度。基于隨機試驗的預測模型研究,由于嚴格的納入與排除標準和較少的預測因子可能導致其低適用性,相比之下來源于登記數據的研究其適用性更高。若原始研究納入對象和臨床設計與系統評價問題相符,則可判斷為“低適用性風險”;相反則為“高適用性風險”;若研究未報告相關信息,則判斷為“不清楚”。
領域 2:預測因子。如果納入研究使用不同的定義或評估方法或評估時間,將導致某些模型研究的預測性能可能會與其它研究結果不同,而引起適用性風險問題。若三者均相符,可判斷為“低適用性風險”;相反則為“高適用性風險”;若研究未報告相關信息,則判斷為“不清楚”。
領域 3:結果。該領域的適用性評價方法和領域 2 的判斷方法相似。若原始研究結果的定義、評估方法和評估時間與系統評價問題均相符,則可判斷為“低適用性風險”;相反則為“高適用性風險”;若研究未報告相關信息,則判斷為“不清楚”。
3 實例分析
本研究以《慢性阻塞性肺疾病急性加重期患者短期預后預測模型的建立》(以下簡稱“AECOPD 研究”)[19]為例,采用 PROBAST 工具對其進行偏倚風險和適用性評價。
首先假定構建“慢性阻塞性肺疾病急性加重期患者危重情況預測模型的系統評價”,原始研究問題與系統評價問題見表 3,由表 3 可知,問題匹配。其次,AECOPD 研究中創建了新的預后模型,但未通過其他數據進行外部驗證,因此屬于“模型開發”研究。第三,對其進行偏倚風險評價和適用性評價。在研究對象領域中,因為 AECOPD 研究的數據來源于前瞻性隊列研究,納入與排除標準合理且對應,所以該領域的 2 個標志性問題均判斷為“Y”,該領域偏倚風險判斷為低偏倚風險。在預測因子領域中,AECOPD 研究中評估人員經過一對一的 3 輪統一培訓,評估方法相同,并采用 3 種相同的評估工具(一般資料調查表、英國國家早期預警評分、Charlson 合并癥評估表)對研究對象進行評估,且在評估過程中并不清楚結果數據;模型所納入的 3 個預測因子均具有統計學意義(P<0.05)。因此在該領域中的 3 個標志性問題均判斷為“Y”,該領域偏倚風險為低偏倚風險。在結果領域中,AECOPD 研究中未報告病情危重和病情平穩的結果分類方法和結果定義方法的相關信息;未報告結果中是否包含預測因子;對所有研究對象均采用了相同的結果定義;研究者在確定結果時不清楚預測因子的信息;未報告預測因子評估和結果確定的時間間隔的信息。因此該領域的標志性問題 1、2、3、6 判斷為“NI”,標志性問題 4、5 判斷為“Y”,該領域判斷為高偏倚風險。在統計分析領域中,AECOPD 研究中 EPV 值為 15(病情危重組樣本量n=45/預測因子數n=3)小于 20;5 個連續性變量均轉化為了二分類變量;統計分析中包含了所有納入對象和研究數據;采用了單因素分析法進行預測因子的篩選;未報告數據是否存在復雜性;僅使用了 Hosmer-Lemeshow 擬合優度檢驗評估校準度;未報告內部驗證方法是否已經采用的信息;3 個預測因子的回歸系數(2.014、2.738、3.353)與結果報告中(2 分、3 分、3 分)相對應。因此該領域的標志性問題 1、2、5、7 判斷為“N”,標志性問題 3、4、9 判斷為“Y”,標志性問題 6、8 判斷為“NI”,該領域判斷為高偏倚風險。由于系統評價內容不明確,對于 AECOPD 研究無法進行適用性風險評估。第四,對該研究進行整體情況判斷。對 AECOPD 研究的 4 個偏倚風險領域分別判斷為低、低、高和高,因此該研究整體偏倚風險為高偏倚風險。但由于系統評價內容不明確,對于 AECOPD 研究無法進行整體的適用性風險評估。

4 討論
評估納入研究的偏倚風險是系統評價的重要組成部分。隨著目前越來越多的預測模型開發和應用,則需要相關工具進行更為規范化的評價來提高研究質量和循證決策的科學性。PROBAST 是第一個專門用于評價診斷或預后模型的開發、驗證或更新研究的偏倚風險的工具[20],其經過嚴格的過程開發,但在評價過程中還存在一些需要注意的問題。
由于預測模型研究可分為不同的類型,故使用 PROBAST 工具評價時存在一定的差異性。雖然均可使用 PROBAST 工具對 3 種類型的研究進行評價,但模型的開發應包括采用自舉法或交叉驗證等進行內部驗證,而模型的驗證是不同或相同研究者收集不同參與者的數據進行外部驗證。同時存在以下差別:① 表 2 中的 3 個標志性問題(4.5、4.8 和 4.9)對“模型驗證”研究是不需要評價的。② 在“統計分析”領域的標志性問題 1 和 2 中,不同的研究類型采用不同的評價方法。
對于診斷或預后兩種不同作用的預測模型,在 PROBAST 評價上也具有一定區別:① 采用了不同術語來表示預測因子、結果和缺失值評估。診斷和預后模型對于預測因子分別采用診斷試驗和預后因素進行描述,對于結果分別采用參考標準(金標準)和事件(例如死亡,疾病復發,疾病并發癥或治療反應等)來描述,對于缺失值評估分別采用部分證實和失訪來描述。② 對于一些標志性問題的判斷方法不同。尤其在研究對象領域和統計分析領域,由于不同類型的預測模型其納入對象的研究設計方案和結局指標具有較大差異,需要針對該類型進行具體評價。
評價者還應注意每個問題和領域對于整體評價的影響是不同的。尤其在工具的評價涉及多個領域,而每個領域下又有多個問題時,每個問題又包含多個選項的情況下,這方面的問題就顯得更加重要了。如偏倚風險中對結果領域的評估,評價者應仔細評價那些決定結果的人是否可獲得預測信息,如果信息出現在結果確定過程中或者如果不清楚,則在對該領域的偏倚風險進行總體判斷時,該信息的影響更大,而不能盲目地根據表 2 中常規的判斷方法進行評價。
通過本文的實例分析可看出,該工具還存在不足之處:① 使用工具評價時,每個領域需回答 2~9 個標志性問題,根據問題的評價結果判斷出每個領域結果后還需對偏倚風險和適用性進行總體判斷,使得評價過程過于復雜和耗時。② 由于每個問題和領域對于整體評價的影響大小不同,而評價者需要綜合多項結果進行整體判斷,而這個過程缺乏清晰的指導供評價者參考。③ 由于該工具是第一個開發的工具,其信度效度、適用性及推廣情況還需進一步檢驗。
總之,本文對 PROBAST 工具進行了介紹,希望能夠提高研究者對該工具的理解,從而幫助研究者規范使用該工具。