近年來預后研究系統評價方法逐漸受到重視。GRADE對預后研究系統評價的證據分級主要是考慮5個方面:偏倚風險、不直接性、不一致性、不精確性和發表偏倚。GRADE在預后研究系統評價中的分級方法與在干預性系統評價中的應用既存在一定相似性又有較大差異,分級過程中既要考慮預后研究設計的獨特性還要避免重復降級。隨著預后研究系統評價方法的不斷成熟,以及研究質量的逐步提高,GRADE在預后研究系統評價中的運用將會逐漸普及和成熟。
引用本文: 楊楠, 鄧圍, 陳耀龍, 姚亮, 王琪, 韋當, 王小琴, 付思齊, 李瑞, 楊克虎. GRADE在預后研究系統評價中應用的原理、方法及挑戰. 中國循證醫學雜志, 2015, 15(9): 1112-1116. doi: 10.7507/1672-2531.20150184 復制
預后研究是對疾病各種結局發生概率及其影響因素的探索,通過對各種不同結局的預測以及對所患疾病可能的情況做出客觀估計與判斷,從而使預測結果盡可能接近患者的實際情況 [1]。近年來預后研究發表數量逐漸增多 [2-4],預后研究系統評價越來越受到重視,Cochrane協作網正在制定預后研究系統評價的制作手冊。一般來說,根據所研究的問題,預后研究系統評價可從4個方面開展 [5-8]:① 研究疾病對人群健康的危害性;② 探索影響疾病預后的重要因素;③ 探索影響預后的生物標志物;④ 研究改善疾病預后的因素。預后研究系統評價的研究方法與GRADE分級存在差異。在介紹了GRADE在系統評價中運用的注意事項、GRADE在診斷試驗系統評價中應用的原理、方法以及實例分析 [9-11]的基礎上,本文結合GRADE工作組最新發表的文章 [12],重點介紹GRADE在預后研究系統評價中應用的原理、方法以及挑戰,為國內的系統評價制作者、指南制定者和其他關注GRADE方法的讀者提供參考。
1 基本原理
在干預性研究系統評價中,隨機對照試驗(RCT)的起始證據質量為高,主要考慮降級因素,觀察性研究的起始證據質量為低,主要考慮升級因素。而在預后研究系統評價中,最恰當的研究設計是前瞻性隊列研究而非RCT。主要原因有兩個方面:一是在預后研究中開展RCT常會遇到倫理學問題;二是RCT在納入人群的過程中有較多限制,包括年齡、是否存在伴隨疾病,以及是否耐藥等,如果排除了部分可能和預后相關的人群,則會影響預后效果的真實性。此外在RCT中有些患者可能會因為不良結局提前終止試驗。但并非所有的預后研究的RCT都不能提供高質量的證據來源,基于大樣本和廣泛人群納入的RCT也能提供可靠的證據來源。一項系統評價關注了房顫患者服用維生素K拮抗劑后的出血風險 [13],結果發現來自大樣本的觀察性研究和大樣本RCT的效應量接近,而小樣本和中等樣本RCT的效應量相比于大樣本的觀察性研究和大樣本RCT差異很大。因此在預后研究系統評價中,無論其納入的原始研究是基于RCT還是觀察性研究,其起始證據質量都可以視為高,通過評估其可能存在的升降級因素,確定最終的證據質量。
2 分級方法
GRADE在預后研究系統評價中的應用是來分析系統評價的證據質量,即多大程度上能夠確信預后結局的真實性。主要通過考察5個降級因素,包括研究的偏倚風險(risk of bias)、不直接性(indirectness)、不一致性(inconsistency)、不精確性(imprecision)和發表偏倚(publication bias),以及大效應量(large effect)、劑量效應關系(dose-response gradient)和相關混雜(plausible confounding)這3個升級因素將系統評價的證據質量分為高、中、低和極低4個等級(表 1)。

2.1 降級因素
2.1.1 偏倚風險
預后研究系統評價中的偏倚風險主要關注研究的局限性以及研究是否高估或者低估了事件發生率。例如不完整的隨訪可能會低估事件發生率,將病情類似的相關疾病錯誤納入會高估事件發生率。當前針對預后研究偏倚風險評估的工具和標準有多種,如QUIPS量表 [14],Newcastle Ottawa量表 [15],以及Cochrane系統評價手冊提供的標準等 [16]。由于預后研究問題的復雜性,當前尚沒有一種廣泛認可的偏倚風險評價標準,具體在使用這些標準時需要針對具體預后研究問題的特征選擇不同的標準或工具。本文關注的是人群健康方面預后研究系統評價的偏倚風險評估,GRADE工作組結合當前偏倚風險評估的標準,推薦從3個層面來考察,分別為人群的代表性、隨訪的完整性以及結局測量的客觀性和公正性(表 2)。

例如一篇系統評價 [17]評估了飲食障礙患者的自殺風險,在納入的36個研究中,發表年份從1966年到2010年,而實際上在這段時間中醫學界對飲食障礙的疾病定義發生了變化,因此,雖然每個研究納入的人群都符合當時對飲食障礙的定義,但其實納入的很多人群不滿足當前的診斷標準。另外,在一些研究中隨訪時間未清楚報告,可能導致低估事件發生率,還有一些研究納入了類似疾病患者(如厭食癥、貪食癥、精神障礙患者)。這些均會導致我們在系統評價的偏倚風險方面進行降級。需要注意的是,在評價總體偏倚風險的過程中,不能以納入有局限性研究的個數作為判斷總體是否在偏倚風險方面應該降級的依據,而要看存在偏倚風險研究的樣本量占總樣本量的比例。此外,還有可能出現偏倚風險高的研究與偏倚風險低的研究結果接近,可能的解釋是這些偏倚風險的累積還不足以影響結局。
2.1.2 不直接性
預后研究系統評價的不直接性主要包括兩個方面:納入研究包含的人群能否代表系統評價關注的人群,即人群外推性(generalizability),以及測量的結局能否代表患者的最終結局,即結局適用性(applicability)。在人群的不直接性方面,一篇預后研究系統評價關注了膝關節手術后發生靜脈血栓的風險 [18],但作者只關注了患者在院內發生血栓的風險,而對于在院外發生血栓風險的情況沒有考慮到。因此該系統評價的納入人群不能代表總體人群在膝關節手術后發生靜脈血栓的風險。結局測量的不直接性方面,一篇預后系統評價關注了血液透析患者發生丙肝的風險 [19],其納入的研究均是在2006年以前開展的,理論上對丙肝的診斷金標準是ELISA方法,但一些研究采用了PCR技術對病毒DNA檢測來代替ELISA方法,這種方法的敏感度較高,但特異度較低 [20, 21]。上述兩種情況下,血液透析患者發生丙肝的結局與真實情況均存在不直接性,需要對證據質量進行降級。
2.1.3 不一致性
GRADE對預后研究系統評價在不一致性上的判斷與在干預性和診斷性系統評價中的判斷相似,主要從納入研究的差異(臨床不一致性)、可信區間的方向和重疊程度(統計學不一致性)判斷。例如一篇系統評價 [22]分析了觀察性研究和RCT中房顫患者服用維生素K拮抗劑發生出血的風險,結果發現納入研究間存在很大變異,且這種變異在大樣本和小樣本研究間均存在,對于總體出血率和嚴重出血率,其I2值均超過90%,可信區間的范圍從0.65到7.53。這種差異會對臨床決策造成困擾,因此在不一致性上需要考慮降級。然而僅通過I2值來判斷不一致性存在較大局限性和挑戰。如在一篇關注了卒中復發風險的預后研究系統評價中 [23],有7個研究報告了5年復發率,4個研究報告了10年復發率,關注5年復發率的研究的納入人群更廣,樣本量均較大,每個研究的可信區間相對較窄,總體范圍從16.2到35.3,其合并結果的I2值超過了95%。而對于10年復發率的研究,其樣本量均較小,每個研究的可信區間相對較寬,范圍從24.5到51.3,其合并結果的I2值也超過了95%。雖然二者均存在不一致性,但分析其不一致性是有很大差異的,因為大樣本研究的可信區間相對較窄 [23, 24],如果設定一條臨床閾值線,這些研究結果可能均落在閾值線同側,即決策方向相同,一致性較好,此時如果僅憑I2值較大就做出異質性較大的推斷則并不恰當。在這種情況下,判斷點估計值的變異程度是很重要的,可以彌補僅用I2值判斷的局限。
系統評價中存在不一致的情況很常見,作者應該學會對存在的嚴重不一致提出假設并恰當地運用亞組分析來解釋不同組別(如按年齡或病情的嚴重程度分組)的差異。如果亞組分析仍然不能解釋大的不一致性,則需要在不一致性方面進行降級。
2.1.4 不精確性
不精確性與納入研究的樣本量以及合并結果可信區間的寬度有關。在預后研究系統評價中運用GRADE對不精確性的判斷主要從合并結果95%可信區間的寬度以及和臨床決策閾值的相關性來判斷。如果系統評價的合并結果可信區間太寬,或者跨越了臨床決策閾值線,則需要考慮在不精確性方面降級。一般情況下預后研究的系統評價因為主要是納入觀察性研究,因此樣本量都相對較大,因為樣本量造成不精確的可能性較小。對可信區間寬窄的判斷需要結合臨床閾值來綜合考慮。假設臨床上普遍認為對癌癥發病風險大于10/1 000(即每1 000人中有10人會發生癌癥)的人群進行集中隨訪很重要,而一篇系統評價 [25]評估了Barrett食管發展成為食管癌的風險,合并結果為10.2/1 000人,即每1 000個Barrett食管患者中有10.2人會發展成食管癌,可信區間范圍為6.3/1 000到16.4/1 000。此時決策者可能很難去做決策,到底有無必要對Barrett食管的患者進行集中隨訪,從可信區間下限來看沒有必要,而從可信區間上限來看有必要。在這種情況下需要考慮對不精確性進行降級。然而在針對具體的預后問題可能沒有明確的閾值來幫助判斷不精確性,此時系統評價制作者需要指出在判斷上存在的問題,幫助系統評價使用者和指南制定者明確該系統評價在不精確性方面存在不確定性。
2.1.5 發表偏倚
GRADE對預后研究系統評價發表偏倚的判斷方法與對干預性和診斷性系統評價相似。主要還是通過漏斗圖來幫助判斷。一般情況下,當研究間的不一致性較小時可以通過Egger檢驗 [26]來判斷,不一致性較大時需要通過Begg檢驗 [27]來判斷。
2.2 升級因素
GRADE中升高證據質量的因素有大的效應量、劑量效應關系以及可能的混雜因素會降低療效。劑量效應的存在可以提升干預措施和預后之間的相關性,從而增加我們對干預結果的信心。如在Mohan等 [21]關注卒中復發風險預后研究的系統評價中,卒中復發風險與初次卒中發生時間間隔之間呈現出了一種劑量效應關系(圖 1)。大效應量可以理解為干預組和對照組間的結果差異很大,并且這種差異難以用研究的偏倚來解釋,從而升高證據質量,如一篇系統評價 [24]關注了對于輕度和中度A型血友病(VIII因子缺乏)患者術前接受DDAVP(1-去氨-8-D-精氨酸血管緊張素)治療或不治療術后發生VIII因子抑制的風險,結果顯示如果術前不治療患者發生VIII因子抑制的風險超過30%,而術前進行DDAVP治療患者發生VIII因子抑制的風險小于5%,即術前不治療發生VIII因子抑制的風險是治療的6倍以上。在上述情況下,我們可能因為大的效應量而升高證據質量。對于GRADE中第三個升高證據質量的因素——相反的混雜因素,目前GRADE工作者也暫未在預后研究中找到合適的案例來解讀。

3 挑戰與發展
GRADE在預后研究系統評價中的運用主要存在以下兩個方面的挑戰:一是要區別發表偏倚和不直接性中人群的代表性的含義。將某一特征人群的研究結果運用到另一特征的人群屬于不直接性,這種差異可以體現在年齡、性別、疾病的嚴重程度等方面。或者一個研究的人群雖然滿足該研究的納入標準,但與系統評價或指南關注的人群在代表性方面存在差異,這種情況屬于不直接性的范圍;而如果研究納入的人群不能代表這類人群的普遍情況,如在RCT中因為對納入人群有著比較嚴格的納入標準,導致RCT納入的人群代表性很窄,這種情況屬于偏倚風險的范疇。另一方面的挑戰是避免對不一致性和不精確性方面過度降級。在預后研究系統評價中,納入研究的差異通常較大,當在進行數據合并時一般會選用隨機效應模型來分析研究內抽樣誤差和研究間變異來估計結果的可信區間。當納入的研究有除機遇外的異質性時,隨機效應模型會給出比固定效應模型更寬的可信區間 [28]。因此在對預后研究的系統評價進行證據分級時,可能會由于納入研究的差異,造成在不一致性和不精確性方面同時降級,但二者降級的偏倚來源可能相同,但如何鑒別造成不一致和不精確是否來自同一偏倚來源存在挑戰。盡管GRADE在預后研究中的應用存在一些挑戰,但是GRADE依然是當前針對預后研究進行證據質量分級最有價值的工具。隨著預后研究系統評價方法的不斷成熟,以及研究質量的逐步提高,GRADE在預后研究系統評價中的運用將會逐漸成熟和普及。
預后研究是對疾病各種結局發生概率及其影響因素的探索,通過對各種不同結局的預測以及對所患疾病可能的情況做出客觀估計與判斷,從而使預測結果盡可能接近患者的實際情況 [1]。近年來預后研究發表數量逐漸增多 [2-4],預后研究系統評價越來越受到重視,Cochrane協作網正在制定預后研究系統評價的制作手冊。一般來說,根據所研究的問題,預后研究系統評價可從4個方面開展 [5-8]:① 研究疾病對人群健康的危害性;② 探索影響疾病預后的重要因素;③ 探索影響預后的生物標志物;④ 研究改善疾病預后的因素。預后研究系統評價的研究方法與GRADE分級存在差異。在介紹了GRADE在系統評價中運用的注意事項、GRADE在診斷試驗系統評價中應用的原理、方法以及實例分析 [9-11]的基礎上,本文結合GRADE工作組最新發表的文章 [12],重點介紹GRADE在預后研究系統評價中應用的原理、方法以及挑戰,為國內的系統評價制作者、指南制定者和其他關注GRADE方法的讀者提供參考。
1 基本原理
在干預性研究系統評價中,隨機對照試驗(RCT)的起始證據質量為高,主要考慮降級因素,觀察性研究的起始證據質量為低,主要考慮升級因素。而在預后研究系統評價中,最恰當的研究設計是前瞻性隊列研究而非RCT。主要原因有兩個方面:一是在預后研究中開展RCT常會遇到倫理學問題;二是RCT在納入人群的過程中有較多限制,包括年齡、是否存在伴隨疾病,以及是否耐藥等,如果排除了部分可能和預后相關的人群,則會影響預后效果的真實性。此外在RCT中有些患者可能會因為不良結局提前終止試驗。但并非所有的預后研究的RCT都不能提供高質量的證據來源,基于大樣本和廣泛人群納入的RCT也能提供可靠的證據來源。一項系統評價關注了房顫患者服用維生素K拮抗劑后的出血風險 [13],結果發現來自大樣本的觀察性研究和大樣本RCT的效應量接近,而小樣本和中等樣本RCT的效應量相比于大樣本的觀察性研究和大樣本RCT差異很大。因此在預后研究系統評價中,無論其納入的原始研究是基于RCT還是觀察性研究,其起始證據質量都可以視為高,通過評估其可能存在的升降級因素,確定最終的證據質量。
2 分級方法
GRADE在預后研究系統評價中的應用是來分析系統評價的證據質量,即多大程度上能夠確信預后結局的真實性。主要通過考察5個降級因素,包括研究的偏倚風險(risk of bias)、不直接性(indirectness)、不一致性(inconsistency)、不精確性(imprecision)和發表偏倚(publication bias),以及大效應量(large effect)、劑量效應關系(dose-response gradient)和相關混雜(plausible confounding)這3個升級因素將系統評價的證據質量分為高、中、低和極低4個等級(表 1)。

2.1 降級因素
2.1.1 偏倚風險
預后研究系統評價中的偏倚風險主要關注研究的局限性以及研究是否高估或者低估了事件發生率。例如不完整的隨訪可能會低估事件發生率,將病情類似的相關疾病錯誤納入會高估事件發生率。當前針對預后研究偏倚風險評估的工具和標準有多種,如QUIPS量表 [14],Newcastle Ottawa量表 [15],以及Cochrane系統評價手冊提供的標準等 [16]。由于預后研究問題的復雜性,當前尚沒有一種廣泛認可的偏倚風險評價標準,具體在使用這些標準時需要針對具體預后研究問題的特征選擇不同的標準或工具。本文關注的是人群健康方面預后研究系統評價的偏倚風險評估,GRADE工作組結合當前偏倚風險評估的標準,推薦從3個層面來考察,分別為人群的代表性、隨訪的完整性以及結局測量的客觀性和公正性(表 2)。

例如一篇系統評價 [17]評估了飲食障礙患者的自殺風險,在納入的36個研究中,發表年份從1966年到2010年,而實際上在這段時間中醫學界對飲食障礙的疾病定義發生了變化,因此,雖然每個研究納入的人群都符合當時對飲食障礙的定義,但其實納入的很多人群不滿足當前的診斷標準。另外,在一些研究中隨訪時間未清楚報告,可能導致低估事件發生率,還有一些研究納入了類似疾病患者(如厭食癥、貪食癥、精神障礙患者)。這些均會導致我們在系統評價的偏倚風險方面進行降級。需要注意的是,在評價總體偏倚風險的過程中,不能以納入有局限性研究的個數作為判斷總體是否在偏倚風險方面應該降級的依據,而要看存在偏倚風險研究的樣本量占總樣本量的比例。此外,還有可能出現偏倚風險高的研究與偏倚風險低的研究結果接近,可能的解釋是這些偏倚風險的累積還不足以影響結局。
2.1.2 不直接性
預后研究系統評價的不直接性主要包括兩個方面:納入研究包含的人群能否代表系統評價關注的人群,即人群外推性(generalizability),以及測量的結局能否代表患者的最終結局,即結局適用性(applicability)。在人群的不直接性方面,一篇預后研究系統評價關注了膝關節手術后發生靜脈血栓的風險 [18],但作者只關注了患者在院內發生血栓的風險,而對于在院外發生血栓風險的情況沒有考慮到。因此該系統評價的納入人群不能代表總體人群在膝關節手術后發生靜脈血栓的風險。結局測量的不直接性方面,一篇預后系統評價關注了血液透析患者發生丙肝的風險 [19],其納入的研究均是在2006年以前開展的,理論上對丙肝的診斷金標準是ELISA方法,但一些研究采用了PCR技術對病毒DNA檢測來代替ELISA方法,這種方法的敏感度較高,但特異度較低 [20, 21]。上述兩種情況下,血液透析患者發生丙肝的結局與真實情況均存在不直接性,需要對證據質量進行降級。
2.1.3 不一致性
GRADE對預后研究系統評價在不一致性上的判斷與在干預性和診斷性系統評價中的判斷相似,主要從納入研究的差異(臨床不一致性)、可信區間的方向和重疊程度(統計學不一致性)判斷。例如一篇系統評價 [22]分析了觀察性研究和RCT中房顫患者服用維生素K拮抗劑發生出血的風險,結果發現納入研究間存在很大變異,且這種變異在大樣本和小樣本研究間均存在,對于總體出血率和嚴重出血率,其I2值均超過90%,可信區間的范圍從0.65到7.53。這種差異會對臨床決策造成困擾,因此在不一致性上需要考慮降級。然而僅通過I2值來判斷不一致性存在較大局限性和挑戰。如在一篇關注了卒中復發風險的預后研究系統評價中 [23],有7個研究報告了5年復發率,4個研究報告了10年復發率,關注5年復發率的研究的納入人群更廣,樣本量均較大,每個研究的可信區間相對較窄,總體范圍從16.2到35.3,其合并結果的I2值超過了95%。而對于10年復發率的研究,其樣本量均較小,每個研究的可信區間相對較寬,范圍從24.5到51.3,其合并結果的I2值也超過了95%。雖然二者均存在不一致性,但分析其不一致性是有很大差異的,因為大樣本研究的可信區間相對較窄 [23, 24],如果設定一條臨床閾值線,這些研究結果可能均落在閾值線同側,即決策方向相同,一致性較好,此時如果僅憑I2值較大就做出異質性較大的推斷則并不恰當。在這種情況下,判斷點估計值的變異程度是很重要的,可以彌補僅用I2值判斷的局限。
系統評價中存在不一致的情況很常見,作者應該學會對存在的嚴重不一致提出假設并恰當地運用亞組分析來解釋不同組別(如按年齡或病情的嚴重程度分組)的差異。如果亞組分析仍然不能解釋大的不一致性,則需要在不一致性方面進行降級。
2.1.4 不精確性
不精確性與納入研究的樣本量以及合并結果可信區間的寬度有關。在預后研究系統評價中運用GRADE對不精確性的判斷主要從合并結果95%可信區間的寬度以及和臨床決策閾值的相關性來判斷。如果系統評價的合并結果可信區間太寬,或者跨越了臨床決策閾值線,則需要考慮在不精確性方面降級。一般情況下預后研究的系統評價因為主要是納入觀察性研究,因此樣本量都相對較大,因為樣本量造成不精確的可能性較小。對可信區間寬窄的判斷需要結合臨床閾值來綜合考慮。假設臨床上普遍認為對癌癥發病風險大于10/1 000(即每1 000人中有10人會發生癌癥)的人群進行集中隨訪很重要,而一篇系統評價 [25]評估了Barrett食管發展成為食管癌的風險,合并結果為10.2/1 000人,即每1 000個Barrett食管患者中有10.2人會發展成食管癌,可信區間范圍為6.3/1 000到16.4/1 000。此時決策者可能很難去做決策,到底有無必要對Barrett食管的患者進行集中隨訪,從可信區間下限來看沒有必要,而從可信區間上限來看有必要。在這種情況下需要考慮對不精確性進行降級。然而在針對具體的預后問題可能沒有明確的閾值來幫助判斷不精確性,此時系統評價制作者需要指出在判斷上存在的問題,幫助系統評價使用者和指南制定者明確該系統評價在不精確性方面存在不確定性。
2.1.5 發表偏倚
GRADE對預后研究系統評價發表偏倚的判斷方法與對干預性和診斷性系統評價相似。主要還是通過漏斗圖來幫助判斷。一般情況下,當研究間的不一致性較小時可以通過Egger檢驗 [26]來判斷,不一致性較大時需要通過Begg檢驗 [27]來判斷。
2.2 升級因素
GRADE中升高證據質量的因素有大的效應量、劑量效應關系以及可能的混雜因素會降低療效。劑量效應的存在可以提升干預措施和預后之間的相關性,從而增加我們對干預結果的信心。如在Mohan等 [21]關注卒中復發風險預后研究的系統評價中,卒中復發風險與初次卒中發生時間間隔之間呈現出了一種劑量效應關系(圖 1)。大效應量可以理解為干預組和對照組間的結果差異很大,并且這種差異難以用研究的偏倚來解釋,從而升高證據質量,如一篇系統評價 [24]關注了對于輕度和中度A型血友病(VIII因子缺乏)患者術前接受DDAVP(1-去氨-8-D-精氨酸血管緊張素)治療或不治療術后發生VIII因子抑制的風險,結果顯示如果術前不治療患者發生VIII因子抑制的風險超過30%,而術前進行DDAVP治療患者發生VIII因子抑制的風險小于5%,即術前不治療發生VIII因子抑制的風險是治療的6倍以上。在上述情況下,我們可能因為大的效應量而升高證據質量。對于GRADE中第三個升高證據質量的因素——相反的混雜因素,目前GRADE工作者也暫未在預后研究中找到合適的案例來解讀。

3 挑戰與發展
GRADE在預后研究系統評價中的運用主要存在以下兩個方面的挑戰:一是要區別發表偏倚和不直接性中人群的代表性的含義。將某一特征人群的研究結果運用到另一特征的人群屬于不直接性,這種差異可以體現在年齡、性別、疾病的嚴重程度等方面。或者一個研究的人群雖然滿足該研究的納入標準,但與系統評價或指南關注的人群在代表性方面存在差異,這種情況屬于不直接性的范圍;而如果研究納入的人群不能代表這類人群的普遍情況,如在RCT中因為對納入人群有著比較嚴格的納入標準,導致RCT納入的人群代表性很窄,這種情況屬于偏倚風險的范疇。另一方面的挑戰是避免對不一致性和不精確性方面過度降級。在預后研究系統評價中,納入研究的差異通常較大,當在進行數據合并時一般會選用隨機效應模型來分析研究內抽樣誤差和研究間變異來估計結果的可信區間。當納入的研究有除機遇外的異質性時,隨機效應模型會給出比固定效應模型更寬的可信區間 [28]。因此在對預后研究的系統評價進行證據分級時,可能會由于納入研究的差異,造成在不一致性和不精確性方面同時降級,但二者降級的偏倚來源可能相同,但如何鑒別造成不一致和不精確是否來自同一偏倚來源存在挑戰。盡管GRADE在預后研究中的應用存在一些挑戰,但是GRADE依然是當前針對預后研究進行證據質量分級最有價值的工具。隨著預后研究系統評價方法的不斷成熟,以及研究質量的逐步提高,GRADE在預后研究系統評價中的運用將會逐漸成熟和普及。