QUADAS-2、QUIPS和PROBAST工具并不針對預后準確性研究而開發,使用這些工具對預后準確性研究開展偏倚風險評價易導致偏差。近期國外研制了預后準確性研究的偏倚風險評價工具QUAPAS。該工具結合QUADAS-2、QUIPS和PROBAST,由5個領域、18個標志性問題、5個偏倚風險問題和4個適用性問題組成。本文對QUAPAS的內容和使用方法進行介紹,以期為國內研究者提供參考與借鑒。
引用本文: 張妹, 衛建華, 沈建通, 華雨婷, 黃玉香, 劉雨今. 預后準確性研究偏倚風險評價工具QUAPAS解讀. 中國循證醫學雜志, 2023, 23(4): 457-464. doi: 10.7507/1672-2531.202211107 復制
1 QUAPAS工具研發背景
預后試驗(prognostic test)指利用生物標志物、評分系統和模型、影像技術等方法預測患者未來的結局和功能狀態,為臨床提供有關疾病預后影響因素或結局的決策依據[1]。通過比較預后試驗的預測結果與患者最終結局發生情況可評價其預測的準確性。預后準確性研究的目的是評價預后試驗的準確性(預測性能),反映預后試驗準確性的指標包括敏感度、特異度、ROC曲線下面積、C統計量等。由于預后準確性研究評價具有時間上的縱向性,其偏倚來源與診斷試驗準確性研究不同,因此不適合采用QUADAS-2工具對預后試驗進行評價。此外,預后因素研究偏倚風險評價工具QUIPS(quality in prognosis studies tool)和預測模型研究偏倚評價工具PROBAST(prediction model risk of bias assessment tool)也不適用于評價預后試驗[2-3]。因為QUIPS是為預后因素研究而開發,其強調的混雜因素與預后準確性研究相關性不大;PROBAST是專為預測模型開發的偏倚風險評價工具,而預后試驗并非都采用模型,該工具所包含的關于模型開發相關的評價問題不適用于預后準確性研究[4-5]。為規范和統一預后準確性研究的偏倚風險評價標準,國外近期研制和發表了預后準確性研究質量評價工具QUAPAS(quality assessment of prognostic accuracy studies),本文對QUAPAS的內容和使用方法進行介紹[6]。
2 QUAPAS工具結構和內容
2.1 評價內容
QUAPAS在QUADAS-2的基礎上結合QUIPS和PROBAST開發而成,由研究對象、待評價試驗、結局、病例流程和進展、統計分析5個域、18個標志性問題、5個偏倚風險問題和4個適用性問題組成,其中統計分析領域無需進行適用性評價,工具內容見表1。每個標志性問題通過“是”、“否”、“不清楚”進行回答,“是”表示“低”偏倚風險,“否”表示“高”偏倚風險,當無足夠的信息回答標志性問題時,回答“不清楚”。各領域的偏倚風險根據該領域所有標志性問題的回答來確定“低”、“高”、“不清楚”,適用性評價則通過“低”、“高”、“不清楚”回答研究與適用性問題的匹配程度。

3 QUAPAS工具條目解釋與評價
3.1 域1:研究對象
標志性問題1:研究對象是否為連續或隨機樣本?(S1.1)
為避免偏倚發生,應連續或隨機選擇符合要求的研究對象樣本。如果研究對象的選擇方法避免了方便抽樣、非隨機分層抽樣、自我選擇或與感興趣的變量相關的整群抽樣,則應判定為“是”;若存在上述信息,則為“否”;若未報道相關信息或資料不足以判斷,則為“不清楚”。
標志性問題2:是否避免了病例-對照類研究設計?(S1.2)
研究應避免病例-對照設計,如納入病情嚴重患者和健康對照,可能會高估研究的準確性。如果研究包含了所有或隨機招募了可能在實施中接受待評價試驗的研究對象,則判定為“是”;反之則為“否”;若資料不足以判斷,則為“不清楚”。
標志性問題3:研究是否避免了不恰當的選擇標準?(S1.3)
研究對象的選擇應考慮納入和排除標準,如果研究的納入和排除標準的制定方式能夠使研究對象反映參與待評價試驗的人群,即研究對象具有代表性時,則應判定為“是”;相反則可判定為“否”;若未報告相關信息,則評為“不清楚”。
偏倚風險判斷:研究對象的選擇是否會產生偏倚?
根據上述3個標志性問題的評價結果進行偏倚風險判斷,若3個標志性問題評價結果均為“是”,則判定為“低”偏倚風險;若至少存在1個標志性問題的評價結果為“否”,則判斷為“高”偏倚風險;其余情況判定為“不清楚”。
適用性評價:納入研究對象與評價問題是否匹配?
評價者可記錄并判斷納入研究對象與評價問題所針對的目標疾病狀態、人口學特征、研究背景等信息,以幫助考慮適用性問題。
3.2 域2:待評價試驗
大多數常見的流行病學研究方法均可用于預后研究,如描述性研究、分析性研究與干預性研究。由于預后研究涉及倫理學問題,故極少采用隨機對照等干預性的研究方案。隊列研究是預后研究最經典的研究設計類型,同時也是預后研究最主要的證據來源。按照預后研究證據強度水平依次為隊列研究(前瞻性隊列研究、回顧性隊列研究)、病例-對照研究、縱向描述性研究、病例系列分析、專家意見和病例報告。
標志性問題1:待評價試驗的測量方法是否有效和可靠?(S2.1)
測量方法可能會導致誤差,因此預后試驗應選擇經充分驗證、符合預期用途、可重復性操作的方法以減少異質性。測量方法應根據研究方案的設計選擇,包括測量方法是否使用盲法、獨立測量、統一標準等。如果采用了經過充分驗證或其他可靠、可重復且適合預期用途的測量方法,則判定為“是”,例如使用經過驗證的ELISA試劑盒測量基于血液的標記物;反之則為“否”;若未報告相關信息,則評為“不清楚”。
標志性問題2:所有研究對象參與的待評價試驗是否相同?(S2.2)
如果根據不同的研究對象采用了不同的試驗方法,可能會導致數據差異和結果判讀,引起較高的偏倚風險。如果所有研究對象參與的預后試驗相同,例如所有研究參與者都使用相同的檢測試劑盒,則回答“是”;相反則為“否”;若未報告相關信息,則評為“不清楚”。
標志性問題3:待評價試驗的結果判讀是否是在不知曉結局的情況下進行的?(S2.3)
預后試驗結果判定應遵守盲法,知曉結局信息可能會影響評價者對預后試驗結果的解讀。因此應在不知道研究結局前提下判定試驗結果。如果研究在解釋預后試驗測試結果時明確報告了對于結局信息的盲法,則回答“是”(僅適用于回顧性或以前收集的數據,因為在前瞻性研究設計中會自然致盲);若結果判斷在知曉結局信息下進行,則判定為“否”;若研究未報道相關信息,則為“不清楚”。
標志性問題4:如果使用了閾值,它是否為事先確定?(S2.4)
測試閾值的選擇可能對靈敏度和/或特異度產生影響而導致研究效能的改變;若閾值使用確定在評判之前,即避免了數據驅動的閾值選擇,則為“是”;相反若在事后選擇了閾值,例如通過約登指數,或匹配所需的敏感性或特異性,即為“否”;信息不足以判斷即為“不清楚”。
偏倚風險判斷:待評價試驗的實施或解釋是否會引入偏倚?
根據上述4個標志性問題的評價結果進行偏倚風險判斷,若4個標志性問題評價結果均為“是”,則待評價試驗的實施或解釋引入偏倚風險為“低”;若至少存在1個標志性問題的評價結果為“否”,則判斷為“高”偏倚風險;其余情況判定為“不清楚”。
適用性評價:待評價試驗的實施、解釋或閾值和評價問題是否相同?
評價者可記錄并判斷預后試驗方法(如:研究方案的執行、閾值的設定、結果的測量等)與評價問題是否相同,若不相同則可能要考慮是否不適用的問題。
3.3 域3:結局
標志性問題1:測量結局的方法是否有效和可靠?(S3.1)
此項與上述待評價試驗領域標志性問題1類似。若使用經過充分驗證的方法來測量結局以避免研究對象的錯誤分類,則回答“是”;反之則為“否”。判定數據不足則為“不清楚”。
標志性問題2:衡量所有研究對象結局的方法是否相同?(S3.2)
若所有研究對象都接受了相同的測量結局的方法,而不考慮其他因素,例如待評價試驗測試結果,則回答“是”;相反則為“否”;若未報告相關信息,則評為“不清楚”。
標志性問題3:結局判讀是否使用了盲法?(S3.3)
此項與上述待評價試驗領域標志性問題3類似,若結局評價在未知待評價試驗測量結果下進行,則回答“是”;反之,則為“否”;若未報告相關信息,則評為“不清楚”。但在某些情況下,了解待評價試驗結果不會影響對結局的衡量/解釋,例如全因死亡率,此時結局的判讀并不涉及主觀解釋,將不適用。
偏倚風險判斷:結局的測量是否會引入偏倚?
根據上述3個標志性問題的評價結果進行偏倚風險判斷,若3個標志性問題評價結果均為“是”,則結局測量引入偏倚風險為“低”;若至少存在1個標志性問題的評價結果為“否”,則結局測量引入偏倚的風險等級為“高”;其余情況判定為“不清楚”。
適用性評價:結局和評價問題是否匹配?
評價者可記錄并判斷研究結局與評價問題是否一致或匹配。疾病所呈現的結局可能會與評價問題中的特定目標條件有所不同,若二者存在差異則應考慮其適用與否問題。
3.4 域4:病例流程和進展
標志性問題1:所有研究對象是否都接受了待評價試驗?(S4.1)
理想狀態下所有研究對象均應接受待評價試驗,而研究過程中研究對象的失訪會導致其未能接受待評價試驗。接受與不接受待評價試驗的研究對象間會存在潛在偏倚,因此數據分析時需考慮到任何沒有接受指標檢測的研究對象[7]。若所有研究對象均接受待評價試驗且登記信息完整無缺失,則判定為“是”;相反,則為“否”;判斷依據不足則為“不清楚”。
標志性問題2:進行評價試驗后是否避免了治療?(S4.2)
基線臨床特征的差異致使部分研究對象接受治療從而可能導致治療選擇偏倚,這可能會影響此后結局的發生。若在待評價試驗測量和研究期間的結果或事件之間沒有研究對象接受任何治療,則判定為“是”;如果在測量待評價試驗后存在任何研究對象在研究過程中接受治療,則判定為“否”;依據不足以判斷則為“不清楚”。
標志性問題3:時間范圍是否足以捕捉結局?(S4.3)
不同疾病狀態常會導致產生目標結局所需時間的差異,例如慢性感染與急性感染患者,結局所需時間長短是不同的。因此,該問題判定取決于目標疾病,應結合疾病種類判定時間范圍是否合理。一般情況下,若時間范圍足以發生結局,則判定為“是”;反之則為“否”;信息不足則為“不清楚”。
標志性問題4:所有研究對象是否都能獲得有關結局的信息?(S4.4)
在研究過程中,部分研究對象會因各種原因在隨訪期間出現結局數據的丟失,這會導致發生偏倚。如果沒有研究對象失訪或失訪的研究對象與完成研究的研究對象之間沒有顯著差異,則回答“是”;反之,則為“否”;未報道相關信息則為“不清楚”。
偏倚風險判斷:病例流程是否會產生偏倚?
根據上述4個標志性問題的評價結果進行偏倚風險判斷,若4個標志性問題評價結果均為“是”,則病例流程產生偏倚風險“低”;若至少存在1個標志性問題的評價結果為“否”,則判斷為“高”偏倚風險;其余情況可判定為“不清楚”。
適用性評價:時間范圍和評價問題是否匹配?
評價者可記錄并判斷研究方案設計的時間范圍與評價問題(如出現結局或感興趣事件發生所需的時間等)是否一致或匹配,若存在差異則應考慮其適用性。
3.5 域5:統計分析
標志性問題1:是否所有研究對象均納入統計分析?(S5.1)
所有研究對象都應該包含在統計分析內,不應有遺漏,否則會產生系統誤差。如果所有研究對象均納入統計分析,判定為“是”;當存在遺漏、失訪或部分研究對象被不合理排除時,可判定為“否”;未報告所有研究對象是否包含在統計分析中的信息時可回答“不清楚”。
標志性問題2:如果數據缺失,是否采用了恰當的方法處理?(S5.2)
研究中有時會因各種原因導致數據缺失情況發生,如失訪、研究對象的不合理排除等。偏倚風險可能隨著數據缺失程度的增加而上升。這時需要根據具體情境采用插補法、加權法或刪除法等多種方法進行處理[8]。若使用多重插補等方法來處理缺失的待評價試驗結果或結局數據,或者確定了缺失數據的原因或后果,則判定為“是”;反之則為“否”;未報道缺失數據的處理可判定為“不清楚”。
標志性問題3:是否采用了恰當的方法來說明刪失?(S5.3)
由于各種原因,縱向數據可能會出現刪失,如隨訪期截止時研究對象尚未出現結局事件或研究對象失訪,對于這類數據的分析需要合理的方法[9]。若根據研究數據的特征選擇了合適的方法,如使用時間相關的ROC曲線分析(或等效方法)來解釋刪失,則回答“是”;相反則為“否”,未報道相關信息則為“不清楚”。
標志性問題4:如果發生競爭事件,是否采用了恰當的方法說明?(S5.4)
競爭事件可能會阻礙或改變感興趣的目標結局的發生[10]。例如,評價心血管疾病預測研究時應考慮在研究對象接受疾病診斷之前可能發生的其他事件,如車禍意外等其他原因導致的死亡。在分析中若忽略競爭事件可能會高估預后表現,因此可以應用Cox比例風險模型和其他相關的競爭風險模型等方法[11-12]。若采用了合理的方法解釋競爭事件,則判定為“是”;反之則為“否”,信息不足則為“不清楚”。
偏倚風險判斷:統計分析是否會產生偏倚?
根據上述4個標志性問題的評價結果進行偏倚風險判斷,若4個標志性問題評價結果均為“是”,其偏倚風險為“低”;若至少存在1個標志性問題的評價結果為“否”,則統計分析產生偏倚的風險為“高”;其余情況可判定為“不清楚”。
4 總體結果的評價與呈現
4.1 偏倚風險判斷
當所有領域都判定為“低”偏倚風險時,則可認為總體偏倚風險為“低”。但當某個領域的偏倚風險等級足以決定總體偏倚風險判斷時,該領域內標志性問題判定為“否”時,可認為總體為“高”偏倚風險。
4.2 適用性評價
適用性評價主要是指研究與評價問題的匹配關系。一般情況下,原始文獻的研究者將提供所研究的詳細數據資料作為評價問題的對比參考。通過比較評價問題和原始文獻間的近似程度可得到原始研究結果應用于臨床問題的匹配關系。原始研究與評價問題越接近,結果應用的把握就越大,其適用性風險就越低。研究QUAPAS的適用性評價僅針對前4個領域(研究對象、待評價試驗、結局及病例流程和進展),適用性評價不涉及標志性問題,判定結果不依賴于標志性問題的回答。評價者判斷研究與適用性評價問題的匹配程度并通過“低”、“高”、“不清楚”回答。當領域內包含的適用性問題與評價問題所包含的信息均相符則判定為“低”,反之則為“高”,若研究未報告相關信息則為“不清楚”。
4.3 評價結果呈現
QUAPAS評價結果可使用圖呈現以幫助評價者更直觀的分析和解讀結果(圖1)。

5 QUAPAS評價流程
5.1 評價步驟
步驟1:明確系統評價的問題。研究者首先明確系統評價的問題,說明研究對象、待評價預后試驗、結局、待評價試驗到結局出現之間的時間等要素。該步驟可使評價者預先確定評價問題,便于適用性評價。
步驟2:調整QUAPAS工具內容。研究者可根據評價主題的實際情況對工具進行調整,例如當標志性問題不適用于系統評價時可進行刪減,當標志性問題無法涵蓋所評價問題時可適當增加。一旦確定調整內容后應建立該系統評價偏倚風險評價指南,由2位及以上研究者采用調整后的QUAPAS開展預評價,若一致性好,調整后的QUAPAS可用于所納入的全部研究,反之則需進一步修改,具體流程可參考QUADAS-2。
步驟3:繪制流程圖。研究者應評閱或繪制預后準確性研究的流程圖,這有助于判斷研究在受試者招募、排除、接受預后試驗、隨訪結局測量等方面的偏倚。
步驟4:偏倚風險和適用性判斷。評價QUAPAS每個領域的偏倚風險,包含標志性問題回答、偏倚風險判斷和適用性評價。適用性評價僅適用于前4個領域。
5.2 實例分析
本研究以FIB-4評分預測非酒精性脂肪肝患者結局的預后研究[13]為例,演示如何使用QUAPAS工具進行評價。
首先,假定系統評價問題為“FIB-4評分對非酒精性脂肪肝患者死亡風險預測的系統評價”。由于為實例分析,將不對QUAPAS工具內容進行調整。研究人員在完成評價步驟1和步驟2后應繪制流程圖(本研究省略該流程圖,流程圖可參考系統評價流程圖設置)。最后對納入的原始研究“FIB-4評分預測非酒精性脂肪肝患者結局的預后研究”進行偏倚風險評價和適用性評價(表2)。

6 小結
QUAPAS工具旨在幫助研究者評價單個預后試驗的準確性。該工具基于QUADAS-2、QUIPS和PROBAST工具,重整和定義了5個領域的標志性問題,以幫助判斷各個領域偏倚風險和研究的整體偏倚風險,并對4個領域的適用性進行了評價,從而盡可能減少評價者因使用多種工具對預后試驗進行評價所面臨的困難和混淆。但該工具也存在局限性,首先QUAPAS用于預后試驗準確性的比較研究時可能存在較大偏倚風險。其次,QUAPAS依靠統計方法學專家的經驗研發,過程中未使用德爾菲方法,可能未能識別所有偏倚來源。此外,建議預后準確性研究遵循現有的報告指南(如TRIPOD、REMARK[14-15]等)進行規范報道,促進偏倚風險評價的可重復性和便利性。
1 QUAPAS工具研發背景
預后試驗(prognostic test)指利用生物標志物、評分系統和模型、影像技術等方法預測患者未來的結局和功能狀態,為臨床提供有關疾病預后影響因素或結局的決策依據[1]。通過比較預后試驗的預測結果與患者最終結局發生情況可評價其預測的準確性。預后準確性研究的目的是評價預后試驗的準確性(預測性能),反映預后試驗準確性的指標包括敏感度、特異度、ROC曲線下面積、C統計量等。由于預后準確性研究評價具有時間上的縱向性,其偏倚來源與診斷試驗準確性研究不同,因此不適合采用QUADAS-2工具對預后試驗進行評價。此外,預后因素研究偏倚風險評價工具QUIPS(quality in prognosis studies tool)和預測模型研究偏倚評價工具PROBAST(prediction model risk of bias assessment tool)也不適用于評價預后試驗[2-3]。因為QUIPS是為預后因素研究而開發,其強調的混雜因素與預后準確性研究相關性不大;PROBAST是專為預測模型開發的偏倚風險評價工具,而預后試驗并非都采用模型,該工具所包含的關于模型開發相關的評價問題不適用于預后準確性研究[4-5]。為規范和統一預后準確性研究的偏倚風險評價標準,國外近期研制和發表了預后準確性研究質量評價工具QUAPAS(quality assessment of prognostic accuracy studies),本文對QUAPAS的內容和使用方法進行介紹[6]。
2 QUAPAS工具結構和內容
2.1 評價內容
QUAPAS在QUADAS-2的基礎上結合QUIPS和PROBAST開發而成,由研究對象、待評價試驗、結局、病例流程和進展、統計分析5個域、18個標志性問題、5個偏倚風險問題和4個適用性問題組成,其中統計分析領域無需進行適用性評價,工具內容見表1。每個標志性問題通過“是”、“否”、“不清楚”進行回答,“是”表示“低”偏倚風險,“否”表示“高”偏倚風險,當無足夠的信息回答標志性問題時,回答“不清楚”。各領域的偏倚風險根據該領域所有標志性問題的回答來確定“低”、“高”、“不清楚”,適用性評價則通過“低”、“高”、“不清楚”回答研究與適用性問題的匹配程度。

3 QUAPAS工具條目解釋與評價
3.1 域1:研究對象
標志性問題1:研究對象是否為連續或隨機樣本?(S1.1)
為避免偏倚發生,應連續或隨機選擇符合要求的研究對象樣本。如果研究對象的選擇方法避免了方便抽樣、非隨機分層抽樣、自我選擇或與感興趣的變量相關的整群抽樣,則應判定為“是”;若存在上述信息,則為“否”;若未報道相關信息或資料不足以判斷,則為“不清楚”。
標志性問題2:是否避免了病例-對照類研究設計?(S1.2)
研究應避免病例-對照設計,如納入病情嚴重患者和健康對照,可能會高估研究的準確性。如果研究包含了所有或隨機招募了可能在實施中接受待評價試驗的研究對象,則判定為“是”;反之則為“否”;若資料不足以判斷,則為“不清楚”。
標志性問題3:研究是否避免了不恰當的選擇標準?(S1.3)
研究對象的選擇應考慮納入和排除標準,如果研究的納入和排除標準的制定方式能夠使研究對象反映參與待評價試驗的人群,即研究對象具有代表性時,則應判定為“是”;相反則可判定為“否”;若未報告相關信息,則評為“不清楚”。
偏倚風險判斷:研究對象的選擇是否會產生偏倚?
根據上述3個標志性問題的評價結果進行偏倚風險判斷,若3個標志性問題評價結果均為“是”,則判定為“低”偏倚風險;若至少存在1個標志性問題的評價結果為“否”,則判斷為“高”偏倚風險;其余情況判定為“不清楚”。
適用性評價:納入研究對象與評價問題是否匹配?
評價者可記錄并判斷納入研究對象與評價問題所針對的目標疾病狀態、人口學特征、研究背景等信息,以幫助考慮適用性問題。
3.2 域2:待評價試驗
大多數常見的流行病學研究方法均可用于預后研究,如描述性研究、分析性研究與干預性研究。由于預后研究涉及倫理學問題,故極少采用隨機對照等干預性的研究方案。隊列研究是預后研究最經典的研究設計類型,同時也是預后研究最主要的證據來源。按照預后研究證據強度水平依次為隊列研究(前瞻性隊列研究、回顧性隊列研究)、病例-對照研究、縱向描述性研究、病例系列分析、專家意見和病例報告。
標志性問題1:待評價試驗的測量方法是否有效和可靠?(S2.1)
測量方法可能會導致誤差,因此預后試驗應選擇經充分驗證、符合預期用途、可重復性操作的方法以減少異質性。測量方法應根據研究方案的設計選擇,包括測量方法是否使用盲法、獨立測量、統一標準等。如果采用了經過充分驗證或其他可靠、可重復且適合預期用途的測量方法,則判定為“是”,例如使用經過驗證的ELISA試劑盒測量基于血液的標記物;反之則為“否”;若未報告相關信息,則評為“不清楚”。
標志性問題2:所有研究對象參與的待評價試驗是否相同?(S2.2)
如果根據不同的研究對象采用了不同的試驗方法,可能會導致數據差異和結果判讀,引起較高的偏倚風險。如果所有研究對象參與的預后試驗相同,例如所有研究參與者都使用相同的檢測試劑盒,則回答“是”;相反則為“否”;若未報告相關信息,則評為“不清楚”。
標志性問題3:待評價試驗的結果判讀是否是在不知曉結局的情況下進行的?(S2.3)
預后試驗結果判定應遵守盲法,知曉結局信息可能會影響評價者對預后試驗結果的解讀。因此應在不知道研究結局前提下判定試驗結果。如果研究在解釋預后試驗測試結果時明確報告了對于結局信息的盲法,則回答“是”(僅適用于回顧性或以前收集的數據,因為在前瞻性研究設計中會自然致盲);若結果判斷在知曉結局信息下進行,則判定為“否”;若研究未報道相關信息,則為“不清楚”。
標志性問題4:如果使用了閾值,它是否為事先確定?(S2.4)
測試閾值的選擇可能對靈敏度和/或特異度產生影響而導致研究效能的改變;若閾值使用確定在評判之前,即避免了數據驅動的閾值選擇,則為“是”;相反若在事后選擇了閾值,例如通過約登指數,或匹配所需的敏感性或特異性,即為“否”;信息不足以判斷即為“不清楚”。
偏倚風險判斷:待評價試驗的實施或解釋是否會引入偏倚?
根據上述4個標志性問題的評價結果進行偏倚風險判斷,若4個標志性問題評價結果均為“是”,則待評價試驗的實施或解釋引入偏倚風險為“低”;若至少存在1個標志性問題的評價結果為“否”,則判斷為“高”偏倚風險;其余情況判定為“不清楚”。
適用性評價:待評價試驗的實施、解釋或閾值和評價問題是否相同?
評價者可記錄并判斷預后試驗方法(如:研究方案的執行、閾值的設定、結果的測量等)與評價問題是否相同,若不相同則可能要考慮是否不適用的問題。
3.3 域3:結局
標志性問題1:測量結局的方法是否有效和可靠?(S3.1)
此項與上述待評價試驗領域標志性問題1類似。若使用經過充分驗證的方法來測量結局以避免研究對象的錯誤分類,則回答“是”;反之則為“否”。判定數據不足則為“不清楚”。
標志性問題2:衡量所有研究對象結局的方法是否相同?(S3.2)
若所有研究對象都接受了相同的測量結局的方法,而不考慮其他因素,例如待評價試驗測試結果,則回答“是”;相反則為“否”;若未報告相關信息,則評為“不清楚”。
標志性問題3:結局判讀是否使用了盲法?(S3.3)
此項與上述待評價試驗領域標志性問題3類似,若結局評價在未知待評價試驗測量結果下進行,則回答“是”;反之,則為“否”;若未報告相關信息,則評為“不清楚”。但在某些情況下,了解待評價試驗結果不會影響對結局的衡量/解釋,例如全因死亡率,此時結局的判讀并不涉及主觀解釋,將不適用。
偏倚風險判斷:結局的測量是否會引入偏倚?
根據上述3個標志性問題的評價結果進行偏倚風險判斷,若3個標志性問題評價結果均為“是”,則結局測量引入偏倚風險為“低”;若至少存在1個標志性問題的評價結果為“否”,則結局測量引入偏倚的風險等級為“高”;其余情況判定為“不清楚”。
適用性評價:結局和評價問題是否匹配?
評價者可記錄并判斷研究結局與評價問題是否一致或匹配。疾病所呈現的結局可能會與評價問題中的特定目標條件有所不同,若二者存在差異則應考慮其適用與否問題。
3.4 域4:病例流程和進展
標志性問題1:所有研究對象是否都接受了待評價試驗?(S4.1)
理想狀態下所有研究對象均應接受待評價試驗,而研究過程中研究對象的失訪會導致其未能接受待評價試驗。接受與不接受待評價試驗的研究對象間會存在潛在偏倚,因此數據分析時需考慮到任何沒有接受指標檢測的研究對象[7]。若所有研究對象均接受待評價試驗且登記信息完整無缺失,則判定為“是”;相反,則為“否”;判斷依據不足則為“不清楚”。
標志性問題2:進行評價試驗后是否避免了治療?(S4.2)
基線臨床特征的差異致使部分研究對象接受治療從而可能導致治療選擇偏倚,這可能會影響此后結局的發生。若在待評價試驗測量和研究期間的結果或事件之間沒有研究對象接受任何治療,則判定為“是”;如果在測量待評價試驗后存在任何研究對象在研究過程中接受治療,則判定為“否”;依據不足以判斷則為“不清楚”。
標志性問題3:時間范圍是否足以捕捉結局?(S4.3)
不同疾病狀態常會導致產生目標結局所需時間的差異,例如慢性感染與急性感染患者,結局所需時間長短是不同的。因此,該問題判定取決于目標疾病,應結合疾病種類判定時間范圍是否合理。一般情況下,若時間范圍足以發生結局,則判定為“是”;反之則為“否”;信息不足則為“不清楚”。
標志性問題4:所有研究對象是否都能獲得有關結局的信息?(S4.4)
在研究過程中,部分研究對象會因各種原因在隨訪期間出現結局數據的丟失,這會導致發生偏倚。如果沒有研究對象失訪或失訪的研究對象與完成研究的研究對象之間沒有顯著差異,則回答“是”;反之,則為“否”;未報道相關信息則為“不清楚”。
偏倚風險判斷:病例流程是否會產生偏倚?
根據上述4個標志性問題的評價結果進行偏倚風險判斷,若4個標志性問題評價結果均為“是”,則病例流程產生偏倚風險“低”;若至少存在1個標志性問題的評價結果為“否”,則判斷為“高”偏倚風險;其余情況可判定為“不清楚”。
適用性評價:時間范圍和評價問題是否匹配?
評價者可記錄并判斷研究方案設計的時間范圍與評價問題(如出現結局或感興趣事件發生所需的時間等)是否一致或匹配,若存在差異則應考慮其適用性。
3.5 域5:統計分析
標志性問題1:是否所有研究對象均納入統計分析?(S5.1)
所有研究對象都應該包含在統計分析內,不應有遺漏,否則會產生系統誤差。如果所有研究對象均納入統計分析,判定為“是”;當存在遺漏、失訪或部分研究對象被不合理排除時,可判定為“否”;未報告所有研究對象是否包含在統計分析中的信息時可回答“不清楚”。
標志性問題2:如果數據缺失,是否采用了恰當的方法處理?(S5.2)
研究中有時會因各種原因導致數據缺失情況發生,如失訪、研究對象的不合理排除等。偏倚風險可能隨著數據缺失程度的增加而上升。這時需要根據具體情境采用插補法、加權法或刪除法等多種方法進行處理[8]。若使用多重插補等方法來處理缺失的待評價試驗結果或結局數據,或者確定了缺失數據的原因或后果,則判定為“是”;反之則為“否”;未報道缺失數據的處理可判定為“不清楚”。
標志性問題3:是否采用了恰當的方法來說明刪失?(S5.3)
由于各種原因,縱向數據可能會出現刪失,如隨訪期截止時研究對象尚未出現結局事件或研究對象失訪,對于這類數據的分析需要合理的方法[9]。若根據研究數據的特征選擇了合適的方法,如使用時間相關的ROC曲線分析(或等效方法)來解釋刪失,則回答“是”;相反則為“否”,未報道相關信息則為“不清楚”。
標志性問題4:如果發生競爭事件,是否采用了恰當的方法說明?(S5.4)
競爭事件可能會阻礙或改變感興趣的目標結局的發生[10]。例如,評價心血管疾病預測研究時應考慮在研究對象接受疾病診斷之前可能發生的其他事件,如車禍意外等其他原因導致的死亡。在分析中若忽略競爭事件可能會高估預后表現,因此可以應用Cox比例風險模型和其他相關的競爭風險模型等方法[11-12]。若采用了合理的方法解釋競爭事件,則判定為“是”;反之則為“否”,信息不足則為“不清楚”。
偏倚風險判斷:統計分析是否會產生偏倚?
根據上述4個標志性問題的評價結果進行偏倚風險判斷,若4個標志性問題評價結果均為“是”,其偏倚風險為“低”;若至少存在1個標志性問題的評價結果為“否”,則統計分析產生偏倚的風險為“高”;其余情況可判定為“不清楚”。
4 總體結果的評價與呈現
4.1 偏倚風險判斷
當所有領域都判定為“低”偏倚風險時,則可認為總體偏倚風險為“低”。但當某個領域的偏倚風險等級足以決定總體偏倚風險判斷時,該領域內標志性問題判定為“否”時,可認為總體為“高”偏倚風險。
4.2 適用性評價
適用性評價主要是指研究與評價問題的匹配關系。一般情況下,原始文獻的研究者將提供所研究的詳細數據資料作為評價問題的對比參考。通過比較評價問題和原始文獻間的近似程度可得到原始研究結果應用于臨床問題的匹配關系。原始研究與評價問題越接近,結果應用的把握就越大,其適用性風險就越低。研究QUAPAS的適用性評價僅針對前4個領域(研究對象、待評價試驗、結局及病例流程和進展),適用性評價不涉及標志性問題,判定結果不依賴于標志性問題的回答。評價者判斷研究與適用性評價問題的匹配程度并通過“低”、“高”、“不清楚”回答。當領域內包含的適用性問題與評價問題所包含的信息均相符則判定為“低”,反之則為“高”,若研究未報告相關信息則為“不清楚”。
4.3 評價結果呈現
QUAPAS評價結果可使用圖呈現以幫助評價者更直觀的分析和解讀結果(圖1)。

5 QUAPAS評價流程
5.1 評價步驟
步驟1:明確系統評價的問題。研究者首先明確系統評價的問題,說明研究對象、待評價預后試驗、結局、待評價試驗到結局出現之間的時間等要素。該步驟可使評價者預先確定評價問題,便于適用性評價。
步驟2:調整QUAPAS工具內容。研究者可根據評價主題的實際情況對工具進行調整,例如當標志性問題不適用于系統評價時可進行刪減,當標志性問題無法涵蓋所評價問題時可適當增加。一旦確定調整內容后應建立該系統評價偏倚風險評價指南,由2位及以上研究者采用調整后的QUAPAS開展預評價,若一致性好,調整后的QUAPAS可用于所納入的全部研究,反之則需進一步修改,具體流程可參考QUADAS-2。
步驟3:繪制流程圖。研究者應評閱或繪制預后準確性研究的流程圖,這有助于判斷研究在受試者招募、排除、接受預后試驗、隨訪結局測量等方面的偏倚。
步驟4:偏倚風險和適用性判斷。評價QUAPAS每個領域的偏倚風險,包含標志性問題回答、偏倚風險判斷和適用性評價。適用性評價僅適用于前4個領域。
5.2 實例分析
本研究以FIB-4評分預測非酒精性脂肪肝患者結局的預后研究[13]為例,演示如何使用QUAPAS工具進行評價。
首先,假定系統評價問題為“FIB-4評分對非酒精性脂肪肝患者死亡風險預測的系統評價”。由于為實例分析,將不對QUAPAS工具內容進行調整。研究人員在完成評價步驟1和步驟2后應繪制流程圖(本研究省略該流程圖,流程圖可參考系統評價流程圖設置)。最后對納入的原始研究“FIB-4評分預測非酒精性脂肪肝患者結局的預后研究”進行偏倚風險評價和適用性評價(表2)。

6 小結
QUAPAS工具旨在幫助研究者評價單個預后試驗的準確性。該工具基于QUADAS-2、QUIPS和PROBAST工具,重整和定義了5個領域的標志性問題,以幫助判斷各個領域偏倚風險和研究的整體偏倚風險,并對4個領域的適用性進行了評價,從而盡可能減少評價者因使用多種工具對預后試驗進行評價所面臨的困難和混淆。但該工具也存在局限性,首先QUAPAS用于預后試驗準確性的比較研究時可能存在較大偏倚風險。其次,QUAPAS依靠統計方法學專家的經驗研發,過程中未使用德爾菲方法,可能未能識別所有偏倚來源。此外,建議預后準確性研究遵循現有的報告指南(如TRIPOD、REMARK[14-15]等)進行規范報道,促進偏倚風險評價的可重復性和便利性。