針對營養學研究個性化需求,Schwingshackl研究組制定了NutriGrade分級系統,獨立評估營養學隨機對照試驗和隊列研究的證據質量,旨在總結不同營養因素和結果的關聯或影響,滿足證據使用者的具體需要,其優勢在于分類新穎、可量化性、獨立性和針對性,且具較好的一致性、公平性、可靠性和可行性。相比于隨機對照試驗,開展前瞻性隊列研究在營養領域可行性更高。隊列研究的證據質量分級涉及8個條目:① 偏倚風險、研究質量和研究局限性;② 精確性;③ 異質性;④ 間接性;⑤ 發表偏倚;⑥ 資助偏倚;⑦ 效應量;⑧ 劑量-反應關系。綜合上述各條目評價結果可將證據質量劃分為高(8~10)、中(<8)、低(<6)和極低(<4)四個等級。本文旨在介紹NutriGrade分級系統的基本原理、具體內容及應用方法,并列舉實例,為相關研究者提供參考。
引用本文: 商雪, 吳亞楠, 鄂芬芬, 盧存存, 后亮瑛, 郭康樂, 王艷, 周麗營, 徐夢, 楊超群, 楊克虎, 李秀霞. 營養學隊列研究證據質量分級系統NutriGrade的解讀. 中國循證醫學雜志, 2022, 22(11): 1348-1357. doi: 10.7507/1672-2531.202205035 復制
GRADE(grading of recommendations assessment, development, and evaluation)工作組在2004年研發了對證據質量和推薦強度進行分級的GRADE系統[1]。目前,GRADE標準已被WHO、英國國家健康與臨床優化研究所(National Institute for Health and Clinical Excellence,NICE)和Cochrane協作網等多個國際組織和機構認可和廣泛使用[2]。如今,越來越多營養研究的系統評價結果被食品政策和飲食指南采納作為推薦意見證據來源,但其中大部分未進行證據質量評價,這一定程度上影響了指南的可信度和可接受度。這一問題的存在引發了相關研究者的關注,Morenga等[3]著力強調開發和評估營養研究領域系統評價和Meta分析專用的證據質量分級工具的必要性。最近,Nestle的研究結果顯示,在JAMA發表的76個營養研究中70個得出了有利于出資企業的結果[4]。可見,在營養領域,廠商資助應被視為證據的重要影響因素。
隨機對照試驗(randomized controlled trial,RCT)通常被作為研究膳食與疾病因果關系、膳食變化和疾病(或中間)結局關聯性的首選研究設計,但由于營養干預中RCT的系統評價存在固有方法學的限制,將GRADE分級方法直接應用于營養學領域仍有一定局限性。如飲食干預的RCT無法采用真正的安慰劑對照,而只能對營養成分、食物種類或飲食模式進行限制;且大多數營養相關的RCT干預時間較短,通常無法觀察疾病終點結局[5];同時,RCT實施還受研究成本過高和驗證劑量范圍的限制;其他局限性還包括無法實施雙盲、小樣本量、研究對象依從性差、交叉偏倚和高失訪率等。而在RCT受限的營養流行病學領域,開展精心設計的前瞻性隊列研究可行性更好,更能長期隨訪觀察疾病終點與營養的關系。有研究發現營養研究膳食指南的證據來源大多數來自隊列研究[5]。因此,隊列研究在營養學領域更受關注[6]。
GRADE分級方法基于研究設計,將無嚴重缺陷的RCT初始評為高質量證據,將無明顯優勢的觀察性研究評定為低質量證據[7-8],而在營養學領域以觀察性(前瞻性)研究居多,因此,在使用GRADE工具評估過程中存在證據水平分布不合理(如以低和極低質量證據占主導)的現象。為彌補這一不足,Schwingshackl等[6,9]基于先前開發的工具并結合專家意見設計了一種改良的營養研究證據評分系統NutriGrade(NutriGrade scoring system),其充分考慮了營養研究的專業特色和方法學特點,對隨機對照試驗和隊列研究分別進行評估,旨在評估特定營養問題,如飲食評估方法及其驗證或飲食相關的生物標志物的評估。該系統將利益沖突、資助偏倚、飲食干預試驗中對參與者實施盲法的局限性考慮在內,加入評分細則使整個評估過程更加客觀透明。需要指出的是,該系統針對隨機對照試驗和隊列研究分別制定了評估條目和細則,RCT主要包括7個評價條目,隊列研究則包括8個評價條目;除將研究質量、精確性、異質性、間接性、發表偏倚和資助偏倚作為共同考慮的因素之外,RCT還將研究設計因素單獨考慮在內,而隊列研究則將效應量和劑量-反應關系也作為主要評估因素。本文將結合具體實例,對NutriGrade系統隊列研究證據質量分級的內容和使用方法進行詳細介紹,以期為相關研究提供參考。
1 隊列研究設計的NutriGrade條目解讀
NutriGrade針對隊列研究證據質量評價內容包括以下8項(表1):① 偏倚風險、研究質量和研究局限性;② 精確性;③ 異質性;④ 間接性;⑤ 發表偏倚;⑥ 資助偏倚;⑦ 效應量;⑧ 劑量-反應關系。下面將對各條目及其評分細則逐一進行解釋。

1.1 條目1:質量評價(偏倚風險、研究質量和研究局限性)(最高計2分)
如果納入研究質量存在缺陷,可能會對效應估計的信度造成一定影響,故應對其偏倚風險、研究質量和局限性進行充分評價。根據隊列研究設計與實施要點,將暴露確定、調整因素、結果評估和隨訪充分性等作為重點評估要素。
NutriGrade的質量評價:根據系統評價/Meta分析中是否對納入研究進行質量評價分為以下2種情況:① 對進行了質量評價的Meta分析,可根據不同的研究設計所采用的偏倚風險評價工具的得分進行評估。例如,對隊列研究采用NOS量表評分:平均分≥7分,計2分;平均分<7分,計1分;平均分<4分,計0分(圖1);另外,對于雖然進行了質量評價,但無量化打分僅提供了描述性信息的研究,可根據NutriGrade系統研發的隊列研究偏倚風險評估表進行評分,見表2。該表包括暴露的確定、基本模型和相關結局的調整、結果的評估和隨訪時間的充分性4個子項,評分范圍為0~2分,每一子項最高為0.5分。至少三分之二的納入研究被判定為低偏倚風險(低風險),則每一子項為0.5分;超過三分之一的納入研究被判定為高偏倚風險(高風險),各子項均為0分;若納入研究均為“不清楚”,則每個子項0.25分。② 對未進行質量評價且未提供偏倚風險相關信息的研究計0分;對于雖然沒有進行質量評價但提供了相關信息的研究應采用NutriGrade偏倚風險評估表。


1.2 條目2:精確性(最高計1分)
精確性反映了隨機誤差大小,可用置信區間的寬窄協助判斷。統計學精確性可提高我們對效應估計的可信度,主要通過病例數(事件發生數)、樣本量和95%CI進行評估。
NutriGrade的精確性評分范圍為0~1分:① 0分:事件發生數<500或者事件發生數≥500,95%CI包含了無效值(即RR值的范圍包括1.0),95%CI有益(RR<0.8)或危險因素(RR>1.2);② 1分:≥500個事件,95%CI不包含無效值;≥500個事件,但95%CI包含了無效值(即RR值的范圍包括1.0),且95%CI不包含有益(RR<0.8)或危險因素(RR<1.2)。
1.3 條目3:異質性(最高計1分)
統計學異質性指的是不同研究間被估計效應量在數值和方向上表現出的差異。統計量的異質性檢驗在Meta分析中尤為重要,目的是檢驗各個獨立研究的結果是否具有可合并性。如果研究間存在明顯的異質性,但研究者未能給出合理解釋時,證據質量就會顯著下降。
異質性的檢驗方法有統計量法和圖示法,具體包括觀察森林圖的重疊性、χ2檢驗或I2統計量等[10-11]。如果森林圖中各研究的95%CI重疊較少或不重疊,則提示研究間可能存在統計學異質性。I2的大小可幫助判斷異質性程度的大小,若呈現較大異質性(I2≥40%)時,則選用隨機效應模型進行合并分析,并通過亞組分析、Meta回歸、敏感性分析解釋異質性的主要來源,以消除其影響。該條目具體評分見圖2。

注:對于研究數量的乘數,當作者將男性和女性分別作為單獨的研究時,應將這些研究被視為一個研究。
1.4 條目4:間接性(最高計1分)
間接性評估目標問題和納入研究之間的相似性,直接證據是指納入研究人群、危險因素、結局等研究要素與我們關注的健康問題一致或相似的研究[12],在Jannasch等[13]研究中納入文獻均報告了飲食習慣模式及2型糖尿病發病率,與研究者關注人群、暴露因素和結局呈現較高相似性,故不存在間接性。而當納入研究的人群、暴露因素或結局顯然不同于所關注的研究對象時,則需考慮間接性的存在。NutriGrade間接性評估:① 人群或干預措施無顯著差異或臨床結果可靠(計1分);② 存在間接性的2種情況(計0分):一是存在目標人群差異(參與研究人群與所關注人群的生理機能不一致時,可能會導致效果衡量的顯著差異);二是結果測量的差異(有別于預期結局,而基于替代結果證據反映患者的重要結局變化)。如在糖尿病患者中用血糖水平替代最初設定的患者重要結局—糖尿病癥狀和并發癥發生情況。
1.5 條目5:發表偏倚(最高計1分)
發表偏倚是指由于研究者、審者和編輯在論文發表時依賴研究結果的方向與強度進行選擇性發表所產生的偏倚。即那些具有統計學意義的陽性結果的研究比無統計學意義的研究更容易投稿和發表。它具有一個突出的特征即“選擇性”,使得出版過程不再是一個隨機事件,而使得某些研究的發表受到壓制[14-16],從而導致對效應量或因果關聯強度的過高估計。通常用于檢測Meta分析中的發表偏倚的方法有漏斗圖法(觀察其對稱性是否良好)和統計學檢驗(如Egger’s和Begg’s檢驗)[17-18],但解釋其結果容易出錯[19-20],目前為止尚無檢測發表偏倚的“金標準”。NutriGrade發表偏倚評價(注:當作者把男性和女性作為單獨研究時,算作1個研究):以下情況計0分:① 當納入研究數量過少(<5個研究),難以判斷其是否存在發表偏倚時;② 漏斗圖明顯不對稱,或統計學檢驗結果(P<0.05)表明存在嚴重偏倚;③ 未評估發表偏倚。以下情況計0.5分:① 當納入研究數量處于5~9個之間,經漏斗圖法或統計學檢驗未發現存在發表偏倚;② 當納入研究數量≥10個,經漏斗圖法或統計學檢驗表明可能存在中等或少量發表偏倚(≥10個研究)。以下情況計1分:當納入研究數量≥10個,且無證據表明存在發表偏倚時。
1.6 條目6:資助偏倚(最高計1分)
資助偏倚對健康、營養和食品安全等領域研究的結果和發表的影響比其他領域更為顯著[21-22]。所有資金,無論來自公共或私人,政府或行業資助都有可能對研究結果產生潛在重要影響。尤其是行業資助可能由經濟利益驅動,導致研究結果有利于資助方,不僅降低證據可信度,還會在公共衛生決策和傳播領域產生重大偏倚,影響人群長期營養狀況[23]。NutriGrade的資助偏倚評估:① 行業資助,作者間存在利益沖突時(計0分);② 私人機構、基金會、非政府組織資助(應核實每個作者的隸屬關系)(計0.5分);③ 學術、研究機構贊助(計1分)。
1.7 條目7:效應量(最高計2分)
效應量是指由于暴露因素引起的差異,以衡量處理效應大小。依據效應量大小,能夠判斷具有顯著差異的研究結果是否具有實際意義或重要性。效應量(如RR、HR、OR)是否有意義,取決于所研究的結局指標的臨床價值。GRADE工作組指出,當觀測到RR取值范圍為2~5或0.2~0.5且無合理的混雜,可假定有很大的影響[24]。然而,在營養和飲食方面往往看不到這樣大的風險估計。當方法學嚴謹的觀察性研究療效顯著且結果高度一致時,可提高研究證據質量級別。在比較最高和最低類別時,效應量的評價:① 無效應(HR/RR=0.80~1.20)(計0分);② 中等效應量(HR/RR<0.50~0.80或HR/RR>1.2~2.00,相應檢驗具有統計學意義)(計1分);③ 大效應量(HR/RR<0.50或HR/RR>2.00,相應檢驗具有統計學意義,干預措施效果顯著)(計2分)。
1.8 條目8:劑量-反應關系(最高計1分)
劑量-反應關系是了解某種暴露水平的變化與結局指標發生風險的潛在關系,是影響證據質量等級的重要因素之一。與傳統GRADE工具一致,對具有明顯劑量-反應關系的證據進行升級。任何類型的劑量-反應梯度(線性和/或非線性)都是存在因果關系的一條重要因素[25],反映暴露水平變化與結局風險發生的整體趨勢。存在明顯的劑量-反應關系增加了隊列研究結果的可信度,從而提升了證據質量級別。劑量-反應評分:① 無劑量-反應或劑量-反應關系統計檢驗結果不顯著(計0分);② 前瞻性隊列研究中的劑量-反應關系:線性和/或非線性統計檢驗結果顯著(計1分)。
2 GRADE分級系統和NutriGrade分級系統的區別
NutriGrade分級系統是GRADE在營養研究領域應用與發展的新產物,兩者均以高、中、低和極低四個級別進行證據質量分級。而與已建立并廣泛應用、明確界定證據質量和推薦強度的GRADE相比,NutriGrade分級系統的不同之處在于(表2):① 相比于GRADE根據研究設計類別,初始就將RCT定為高質量證據,將觀察性研究定為低質量證據,NutriGrade充分考慮了營養研究的個性化需求,兼顧了隊列研究在營養領域的重要價值,不做初始評級;② 具備獨立性,分別運用不同條目對前瞻性觀察研究和干預研究設計進行獨立評價;③ 根據隊列研究的設計與實施,將暴露的確定、調整因素、結果評估和隨訪充分性等作為質量評價的重點評估要素,制定了特定的偏倚風險評估表,充分評估了偏倚風險、研究質量和局限性,并滿足了營養學領域的需求,旨在評估特定營養問題,如膳食評估方法及其驗證,在暴露的確定中,采用食物頻率問卷、24小時回憶飲食史或飲食記錄等評估膳食攝入情況,以及采取24小時尿液或晨尿作為飲食相關生物標志物;④ 將利益沖突和資助偏倚作為單獨評價項目。鑒于當前營養領域廠商資助現象普遍,而資助偏倚的產生,可能會對公眾健康造成重大危害,故該新增條目對營養研究尤為重要;⑤ 將隊列研究Meta分析效應量大小的設定值調整為更符合營養學領域實際;⑥ 引入評分系統,加入評分細則,根據各評估條目符合情況進行嚴格評分,具體量化,使整個評價過程更加客觀透明,呈現出更高的可靠性;⑦ 適用范圍更集中,僅為營養領域研究。
3 NutriGrade評分系統的應用方法
基于NutriGrade分級系統的8個條目對隊列研究不同結局指標的Meta分析結果進行獨立評價后,綜合各部分評價結果(總體評分最高計10分,見表3),最終轉化為高、中、低、極低4個級別的證據強度,各評級對應得分區間分別為:高質量證據(8~10分)、中等質量證據(<8分)、低質量證據(<6分)和極低質量證據(<4分),證據結果解釋見表4。


NutriGrade整體評價過程客觀透明、科學嚴謹。評價者評價每篇論文大概需要約17分鐘,時間范圍為7~42分鐘,由2個評分者進行交叉評價,兩者結果顯示高度一致(93%和89%)。
4 應用舉例
本文以2018年7月20日在《歐洲流行病學雜志》發表的研究“Evaluating Mediterranean diet and risk of chronic disease in cohort studies: an umbrella review of meta-analyses”[26]為例,闡述NutriGrade評分系統在基于隊列研究的證據質量分級中的應用。
4.1 背景
由于富含抗氧化劑和抗炎營養素食物相結合,地中海飲食被視為是世界范圍內最健康的飲食習慣之一。已有大量研究表明,高水平地中海飲食的依從性與某些慢性疾病(如2型糖尿病、心血管疾病或認知相關疾病)和癌癥呈顯著負相關。但是,這些Meta分析的證據信度尚未得以驗證分析。因此,該系統評價再評價,旨在使用NutriGrade系統以客觀評估其證據質量,并為人們日常飲食消費提供指導。
4.2 證據基礎
本案例只納入地中海飲食與2型糖尿病發病率相關的Meta分析結果,并進行證據質量評分及信度分級。在此研究中,共納入4個關于地中海飲食與2型糖尿病風險相關性的Meta分析,涉及29個隊列研究,主要結局指標為糖尿病發病率。
4.3 NutirGrade使用方法
為評估地中海飲食依從性與2型糖尿病發病風險之間關聯的證據信度,故應用NutriGrade分級系統進行評估(最高10分),主要包括以下項目:① 偏倚風險、研究質量和研究局限性;② 精確性;③ 異質性;④ 間接性;⑤ 發表偏倚;⑥ 資助偏倚;⑦ 效應量;⑧ 劑量-反應關系。基于此評分系統最終將證據質量劃分為4個證據等級:高(8~10分)、中(<8分)、低(<6分)和極低(<4分)。
4.4 結果
NutriGrade評分結果顯示,證據質量介于低(效應估計的信度較低,進一步研究提供重要證據,信度可能改變)至中等(效應估計具有一定信度,進一步研究可增加信度的證據,并可能改變效應)。為使最終結果盡可能直觀透明,通過“結果總結表”予以呈現,見表5。

5 討論
NutriGrade分級系統是將GRADE評估證據質量的理念應用于臨床研究以外的領域,以滿足營養研究特定需求的新工具。運用NutriGrade評分系統評價一個Meta分析平均需要17分鐘,具有良好的可行性。與已建立并廣泛使用的GRADE證據分級系統相比,NutriGrade的獨特優勢在于滿足了營養方面的特定需求,同時還考慮了之前未考慮的重要限制因素,即利益沖突[30]導致的資助偏倚可能會對證據質量產生影響,尤其在營養領域會對公眾健康造成重大危害,因此將資助偏倚作為單獨條目進行評價[4]。此外,營養領域還基于學科研究情況將隊列研究Meta分析效應量大小的設定區間調整得更符合學科實際情況。該工具另一個特點在于其基于全新的分類方法,對RCT和隊列研究分別評價,不做初始評級。大多數干預試驗持續時間較短,難以觀察到發病率、死亡率等結局指標且飲食干預的RCT無法給與真正的安慰劑予以控制,再加之雙盲無法實施、樣本量小、依從性差等問題,使得營養領域干預性試驗的效果可能會受到一定限制,而精心設計的前瞻性隊列研究可行性更好,NutriGrade進行分類評價充分考慮了上述情況。
GRADE之前被指出未提供足夠的指導來幫助系統評價進行證據等級判斷[31],即使有經驗的系統評價對證據的等級判斷結果也不太一致[32-33]。而NutriGrade則基于明確的指導,應用嚴謹的評分系統評估證據質量,且主要條目如質量評價、異質性、精確性和間接性等均具有較好的信度,顯著提高了我們對所得結果的信心。同時其具備較好的可行性、公平性和一致性,更適用于營養領域。研究者可使用NutriGrade以總結不同結果的Meta分析證據。首先,將使用NutriGrade條目對每個選取的結果進行評價;其次,根據預先設定的分級標準(極低、低、中、高)將總分轉換為證據分級。另外,NutriGrade可能發揮作用的新研究領域是同類系統評價和Meta分析流行病學研究,可將針對特定研究問題的大量Meta分析證據總結出來,并評估整體證據質量[34-35]。雖然NutriGrade是為營養學研究而開發,但同樣適用于其他與生活方式相關的領域,如體育活動。考慮到NutriGrade不做初始評級,而GRADE基于研究設計,一開始就將無明顯優勢的觀察性研究評定為低質量證據,加之兩個工具評價條目和評估方法截然不同,以及NutriGrade固有的明確指導和嚴謹評分標準,導致在營養學領域應用NutriGrade和GRADE分別評價時可能會出現結果不一致的情況。而有關評估結果的具體差異,仍需要未來更多營養領域研究的應用與驗證,以做進一步優化。
NutriGrade是基于GRADE衍生的一種更適用于營養領域的證據質量分級系統。該系統既兼具GRADE的特點,使用透明方法及標準對證據質量進行分級,同時又充分結合了營養領域研究的實際情況。例如,考慮到飲食干預的隊列研究較為流行,則不對其進行“低質量證據”初始評級;在偏倚風險評估表中引入營養領域具體內容(使用校準的食物頻率問卷、膳食相關生物標志物的評估等);鑒于當前營養領域廠商資助現象普遍,而資助偏倚的產生,可能會對公眾健康造成重大危害,將資助偏倚作為單獨項目評估。NutriGrade分級系統在GRADE證據分級系統的基礎上,根據營養學研究的特點而制定,因此更為適合營養學研究領域的證據質量分級。然而,作為一個新興的證據質量評價工具,仍存在一定局限性,主要包括:引入評分制意味著要針對不同條目賦予“權重”,但難以證明權重分配的科學性;系統性能還待進一步挖掘;目前看來其應用范圍較小、推廣受限。但不可否認,NutriGrade在營養及相關領域存在獨特優勢,未來仍需繼續關注該評分系統性能的報告結果,以達到更好的推廣應用。
迄今為止,NutriGrade分級系統顯示出良好的一致性和可靠性,并已在相關營養學研究中使用。發展一種評分或分級系統來重視并評價證據可信度,以尋求營養研究中的最佳證據質量,不僅是促進公共衛生領域發展的組成部分,也能為學科發展做出重要貢獻。NutriGrade作為一種營養領域極具發展潛力的新興證據評估方法,今后會有廣闊的應用空間。
GRADE(grading of recommendations assessment, development, and evaluation)工作組在2004年研發了對證據質量和推薦強度進行分級的GRADE系統[1]。目前,GRADE標準已被WHO、英國國家健康與臨床優化研究所(National Institute for Health and Clinical Excellence,NICE)和Cochrane協作網等多個國際組織和機構認可和廣泛使用[2]。如今,越來越多營養研究的系統評價結果被食品政策和飲食指南采納作為推薦意見證據來源,但其中大部分未進行證據質量評價,這一定程度上影響了指南的可信度和可接受度。這一問題的存在引發了相關研究者的關注,Morenga等[3]著力強調開發和評估營養研究領域系統評價和Meta分析專用的證據質量分級工具的必要性。最近,Nestle的研究結果顯示,在JAMA發表的76個營養研究中70個得出了有利于出資企業的結果[4]。可見,在營養領域,廠商資助應被視為證據的重要影響因素。
隨機對照試驗(randomized controlled trial,RCT)通常被作為研究膳食與疾病因果關系、膳食變化和疾病(或中間)結局關聯性的首選研究設計,但由于營養干預中RCT的系統評價存在固有方法學的限制,將GRADE分級方法直接應用于營養學領域仍有一定局限性。如飲食干預的RCT無法采用真正的安慰劑對照,而只能對營養成分、食物種類或飲食模式進行限制;且大多數營養相關的RCT干預時間較短,通常無法觀察疾病終點結局[5];同時,RCT實施還受研究成本過高和驗證劑量范圍的限制;其他局限性還包括無法實施雙盲、小樣本量、研究對象依從性差、交叉偏倚和高失訪率等。而在RCT受限的營養流行病學領域,開展精心設計的前瞻性隊列研究可行性更好,更能長期隨訪觀察疾病終點與營養的關系。有研究發現營養研究膳食指南的證據來源大多數來自隊列研究[5]。因此,隊列研究在營養學領域更受關注[6]。
GRADE分級方法基于研究設計,將無嚴重缺陷的RCT初始評為高質量證據,將無明顯優勢的觀察性研究評定為低質量證據[7-8],而在營養學領域以觀察性(前瞻性)研究居多,因此,在使用GRADE工具評估過程中存在證據水平分布不合理(如以低和極低質量證據占主導)的現象。為彌補這一不足,Schwingshackl等[6,9]基于先前開發的工具并結合專家意見設計了一種改良的營養研究證據評分系統NutriGrade(NutriGrade scoring system),其充分考慮了營養研究的專業特色和方法學特點,對隨機對照試驗和隊列研究分別進行評估,旨在評估特定營養問題,如飲食評估方法及其驗證或飲食相關的生物標志物的評估。該系統將利益沖突、資助偏倚、飲食干預試驗中對參與者實施盲法的局限性考慮在內,加入評分細則使整個評估過程更加客觀透明。需要指出的是,該系統針對隨機對照試驗和隊列研究分別制定了評估條目和細則,RCT主要包括7個評價條目,隊列研究則包括8個評價條目;除將研究質量、精確性、異質性、間接性、發表偏倚和資助偏倚作為共同考慮的因素之外,RCT還將研究設計因素單獨考慮在內,而隊列研究則將效應量和劑量-反應關系也作為主要評估因素。本文將結合具體實例,對NutriGrade系統隊列研究證據質量分級的內容和使用方法進行詳細介紹,以期為相關研究提供參考。
1 隊列研究設計的NutriGrade條目解讀
NutriGrade針對隊列研究證據質量評價內容包括以下8項(表1):① 偏倚風險、研究質量和研究局限性;② 精確性;③ 異質性;④ 間接性;⑤ 發表偏倚;⑥ 資助偏倚;⑦ 效應量;⑧ 劑量-反應關系。下面將對各條目及其評分細則逐一進行解釋。

1.1 條目1:質量評價(偏倚風險、研究質量和研究局限性)(最高計2分)
如果納入研究質量存在缺陷,可能會對效應估計的信度造成一定影響,故應對其偏倚風險、研究質量和局限性進行充分評價。根據隊列研究設計與實施要點,將暴露確定、調整因素、結果評估和隨訪充分性等作為重點評估要素。
NutriGrade的質量評價:根據系統評價/Meta分析中是否對納入研究進行質量評價分為以下2種情況:① 對進行了質量評價的Meta分析,可根據不同的研究設計所采用的偏倚風險評價工具的得分進行評估。例如,對隊列研究采用NOS量表評分:平均分≥7分,計2分;平均分<7分,計1分;平均分<4分,計0分(圖1);另外,對于雖然進行了質量評價,但無量化打分僅提供了描述性信息的研究,可根據NutriGrade系統研發的隊列研究偏倚風險評估表進行評分,見表2。該表包括暴露的確定、基本模型和相關結局的調整、結果的評估和隨訪時間的充分性4個子項,評分范圍為0~2分,每一子項最高為0.5分。至少三分之二的納入研究被判定為低偏倚風險(低風險),則每一子項為0.5分;超過三分之一的納入研究被判定為高偏倚風險(高風險),各子項均為0分;若納入研究均為“不清楚”,則每個子項0.25分。② 對未進行質量評價且未提供偏倚風險相關信息的研究計0分;對于雖然沒有進行質量評價但提供了相關信息的研究應采用NutriGrade偏倚風險評估表。


1.2 條目2:精確性(最高計1分)
精確性反映了隨機誤差大小,可用置信區間的寬窄協助判斷。統計學精確性可提高我們對效應估計的可信度,主要通過病例數(事件發生數)、樣本量和95%CI進行評估。
NutriGrade的精確性評分范圍為0~1分:① 0分:事件發生數<500或者事件發生數≥500,95%CI包含了無效值(即RR值的范圍包括1.0),95%CI有益(RR<0.8)或危險因素(RR>1.2);② 1分:≥500個事件,95%CI不包含無效值;≥500個事件,但95%CI包含了無效值(即RR值的范圍包括1.0),且95%CI不包含有益(RR<0.8)或危險因素(RR<1.2)。
1.3 條目3:異質性(最高計1分)
統計學異質性指的是不同研究間被估計效應量在數值和方向上表現出的差異。統計量的異質性檢驗在Meta分析中尤為重要,目的是檢驗各個獨立研究的結果是否具有可合并性。如果研究間存在明顯的異質性,但研究者未能給出合理解釋時,證據質量就會顯著下降。
異質性的檢驗方法有統計量法和圖示法,具體包括觀察森林圖的重疊性、χ2檢驗或I2統計量等[10-11]。如果森林圖中各研究的95%CI重疊較少或不重疊,則提示研究間可能存在統計學異質性。I2的大小可幫助判斷異質性程度的大小,若呈現較大異質性(I2≥40%)時,則選用隨機效應模型進行合并分析,并通過亞組分析、Meta回歸、敏感性分析解釋異質性的主要來源,以消除其影響。該條目具體評分見圖2。

注:對于研究數量的乘數,當作者將男性和女性分別作為單獨的研究時,應將這些研究被視為一個研究。
1.4 條目4:間接性(最高計1分)
間接性評估目標問題和納入研究之間的相似性,直接證據是指納入研究人群、危險因素、結局等研究要素與我們關注的健康問題一致或相似的研究[12],在Jannasch等[13]研究中納入文獻均報告了飲食習慣模式及2型糖尿病發病率,與研究者關注人群、暴露因素和結局呈現較高相似性,故不存在間接性。而當納入研究的人群、暴露因素或結局顯然不同于所關注的研究對象時,則需考慮間接性的存在。NutriGrade間接性評估:① 人群或干預措施無顯著差異或臨床結果可靠(計1分);② 存在間接性的2種情況(計0分):一是存在目標人群差異(參與研究人群與所關注人群的生理機能不一致時,可能會導致效果衡量的顯著差異);二是結果測量的差異(有別于預期結局,而基于替代結果證據反映患者的重要結局變化)。如在糖尿病患者中用血糖水平替代最初設定的患者重要結局—糖尿病癥狀和并發癥發生情況。
1.5 條目5:發表偏倚(最高計1分)
發表偏倚是指由于研究者、審者和編輯在論文發表時依賴研究結果的方向與強度進行選擇性發表所產生的偏倚。即那些具有統計學意義的陽性結果的研究比無統計學意義的研究更容易投稿和發表。它具有一個突出的特征即“選擇性”,使得出版過程不再是一個隨機事件,而使得某些研究的發表受到壓制[14-16],從而導致對效應量或因果關聯強度的過高估計。通常用于檢測Meta分析中的發表偏倚的方法有漏斗圖法(觀察其對稱性是否良好)和統計學檢驗(如Egger’s和Begg’s檢驗)[17-18],但解釋其結果容易出錯[19-20],目前為止尚無檢測發表偏倚的“金標準”。NutriGrade發表偏倚評價(注:當作者把男性和女性作為單獨研究時,算作1個研究):以下情況計0分:① 當納入研究數量過少(<5個研究),難以判斷其是否存在發表偏倚時;② 漏斗圖明顯不對稱,或統計學檢驗結果(P<0.05)表明存在嚴重偏倚;③ 未評估發表偏倚。以下情況計0.5分:① 當納入研究數量處于5~9個之間,經漏斗圖法或統計學檢驗未發現存在發表偏倚;② 當納入研究數量≥10個,經漏斗圖法或統計學檢驗表明可能存在中等或少量發表偏倚(≥10個研究)。以下情況計1分:當納入研究數量≥10個,且無證據表明存在發表偏倚時。
1.6 條目6:資助偏倚(最高計1分)
資助偏倚對健康、營養和食品安全等領域研究的結果和發表的影響比其他領域更為顯著[21-22]。所有資金,無論來自公共或私人,政府或行業資助都有可能對研究結果產生潛在重要影響。尤其是行業資助可能由經濟利益驅動,導致研究結果有利于資助方,不僅降低證據可信度,還會在公共衛生決策和傳播領域產生重大偏倚,影響人群長期營養狀況[23]。NutriGrade的資助偏倚評估:① 行業資助,作者間存在利益沖突時(計0分);② 私人機構、基金會、非政府組織資助(應核實每個作者的隸屬關系)(計0.5分);③ 學術、研究機構贊助(計1分)。
1.7 條目7:效應量(最高計2分)
效應量是指由于暴露因素引起的差異,以衡量處理效應大小。依據效應量大小,能夠判斷具有顯著差異的研究結果是否具有實際意義或重要性。效應量(如RR、HR、OR)是否有意義,取決于所研究的結局指標的臨床價值。GRADE工作組指出,當觀測到RR取值范圍為2~5或0.2~0.5且無合理的混雜,可假定有很大的影響[24]。然而,在營養和飲食方面往往看不到這樣大的風險估計。當方法學嚴謹的觀察性研究療效顯著且結果高度一致時,可提高研究證據質量級別。在比較最高和最低類別時,效應量的評價:① 無效應(HR/RR=0.80~1.20)(計0分);② 中等效應量(HR/RR<0.50~0.80或HR/RR>1.2~2.00,相應檢驗具有統計學意義)(計1分);③ 大效應量(HR/RR<0.50或HR/RR>2.00,相應檢驗具有統計學意義,干預措施效果顯著)(計2分)。
1.8 條目8:劑量-反應關系(最高計1分)
劑量-反應關系是了解某種暴露水平的變化與結局指標發生風險的潛在關系,是影響證據質量等級的重要因素之一。與傳統GRADE工具一致,對具有明顯劑量-反應關系的證據進行升級。任何類型的劑量-反應梯度(線性和/或非線性)都是存在因果關系的一條重要因素[25],反映暴露水平變化與結局風險發生的整體趨勢。存在明顯的劑量-反應關系增加了隊列研究結果的可信度,從而提升了證據質量級別。劑量-反應評分:① 無劑量-反應或劑量-反應關系統計檢驗結果不顯著(計0分);② 前瞻性隊列研究中的劑量-反應關系:線性和/或非線性統計檢驗結果顯著(計1分)。
2 GRADE分級系統和NutriGrade分級系統的區別
NutriGrade分級系統是GRADE在營養研究領域應用與發展的新產物,兩者均以高、中、低和極低四個級別進行證據質量分級。而與已建立并廣泛應用、明確界定證據質量和推薦強度的GRADE相比,NutriGrade分級系統的不同之處在于(表2):① 相比于GRADE根據研究設計類別,初始就將RCT定為高質量證據,將觀察性研究定為低質量證據,NutriGrade充分考慮了營養研究的個性化需求,兼顧了隊列研究在營養領域的重要價值,不做初始評級;② 具備獨立性,分別運用不同條目對前瞻性觀察研究和干預研究設計進行獨立評價;③ 根據隊列研究的設計與實施,將暴露的確定、調整因素、結果評估和隨訪充分性等作為質量評價的重點評估要素,制定了特定的偏倚風險評估表,充分評估了偏倚風險、研究質量和局限性,并滿足了營養學領域的需求,旨在評估特定營養問題,如膳食評估方法及其驗證,在暴露的確定中,采用食物頻率問卷、24小時回憶飲食史或飲食記錄等評估膳食攝入情況,以及采取24小時尿液或晨尿作為飲食相關生物標志物;④ 將利益沖突和資助偏倚作為單獨評價項目。鑒于當前營養領域廠商資助現象普遍,而資助偏倚的產生,可能會對公眾健康造成重大危害,故該新增條目對營養研究尤為重要;⑤ 將隊列研究Meta分析效應量大小的設定值調整為更符合營養學領域實際;⑥ 引入評分系統,加入評分細則,根據各評估條目符合情況進行嚴格評分,具體量化,使整個評價過程更加客觀透明,呈現出更高的可靠性;⑦ 適用范圍更集中,僅為營養領域研究。
3 NutriGrade評分系統的應用方法
基于NutriGrade分級系統的8個條目對隊列研究不同結局指標的Meta分析結果進行獨立評價后,綜合各部分評價結果(總體評分最高計10分,見表3),最終轉化為高、中、低、極低4個級別的證據強度,各評級對應得分區間分別為:高質量證據(8~10分)、中等質量證據(<8分)、低質量證據(<6分)和極低質量證據(<4分),證據結果解釋見表4。


NutriGrade整體評價過程客觀透明、科學嚴謹。評價者評價每篇論文大概需要約17分鐘,時間范圍為7~42分鐘,由2個評分者進行交叉評價,兩者結果顯示高度一致(93%和89%)。
4 應用舉例
本文以2018年7月20日在《歐洲流行病學雜志》發表的研究“Evaluating Mediterranean diet and risk of chronic disease in cohort studies: an umbrella review of meta-analyses”[26]為例,闡述NutriGrade評分系統在基于隊列研究的證據質量分級中的應用。
4.1 背景
由于富含抗氧化劑和抗炎營養素食物相結合,地中海飲食被視為是世界范圍內最健康的飲食習慣之一。已有大量研究表明,高水平地中海飲食的依從性與某些慢性疾病(如2型糖尿病、心血管疾病或認知相關疾病)和癌癥呈顯著負相關。但是,這些Meta分析的證據信度尚未得以驗證分析。因此,該系統評價再評價,旨在使用NutriGrade系統以客觀評估其證據質量,并為人們日常飲食消費提供指導。
4.2 證據基礎
本案例只納入地中海飲食與2型糖尿病發病率相關的Meta分析結果,并進行證據質量評分及信度分級。在此研究中,共納入4個關于地中海飲食與2型糖尿病風險相關性的Meta分析,涉及29個隊列研究,主要結局指標為糖尿病發病率。
4.3 NutirGrade使用方法
為評估地中海飲食依從性與2型糖尿病發病風險之間關聯的證據信度,故應用NutriGrade分級系統進行評估(最高10分),主要包括以下項目:① 偏倚風險、研究質量和研究局限性;② 精確性;③ 異質性;④ 間接性;⑤ 發表偏倚;⑥ 資助偏倚;⑦ 效應量;⑧ 劑量-反應關系。基于此評分系統最終將證據質量劃分為4個證據等級:高(8~10分)、中(<8分)、低(<6分)和極低(<4分)。
4.4 結果
NutriGrade評分結果顯示,證據質量介于低(效應估計的信度較低,進一步研究提供重要證據,信度可能改變)至中等(效應估計具有一定信度,進一步研究可增加信度的證據,并可能改變效應)。為使最終結果盡可能直觀透明,通過“結果總結表”予以呈現,見表5。

5 討論
NutriGrade分級系統是將GRADE評估證據質量的理念應用于臨床研究以外的領域,以滿足營養研究特定需求的新工具。運用NutriGrade評分系統評價一個Meta分析平均需要17分鐘,具有良好的可行性。與已建立并廣泛使用的GRADE證據分級系統相比,NutriGrade的獨特優勢在于滿足了營養方面的特定需求,同時還考慮了之前未考慮的重要限制因素,即利益沖突[30]導致的資助偏倚可能會對證據質量產生影響,尤其在營養領域會對公眾健康造成重大危害,因此將資助偏倚作為單獨條目進行評價[4]。此外,營養領域還基于學科研究情況將隊列研究Meta分析效應量大小的設定區間調整得更符合學科實際情況。該工具另一個特點在于其基于全新的分類方法,對RCT和隊列研究分別評價,不做初始評級。大多數干預試驗持續時間較短,難以觀察到發病率、死亡率等結局指標且飲食干預的RCT無法給與真正的安慰劑予以控制,再加之雙盲無法實施、樣本量小、依從性差等問題,使得營養領域干預性試驗的效果可能會受到一定限制,而精心設計的前瞻性隊列研究可行性更好,NutriGrade進行分類評價充分考慮了上述情況。
GRADE之前被指出未提供足夠的指導來幫助系統評價進行證據等級判斷[31],即使有經驗的系統評價對證據的等級判斷結果也不太一致[32-33]。而NutriGrade則基于明確的指導,應用嚴謹的評分系統評估證據質量,且主要條目如質量評價、異質性、精確性和間接性等均具有較好的信度,顯著提高了我們對所得結果的信心。同時其具備較好的可行性、公平性和一致性,更適用于營養領域。研究者可使用NutriGrade以總結不同結果的Meta分析證據。首先,將使用NutriGrade條目對每個選取的結果進行評價;其次,根據預先設定的分級標準(極低、低、中、高)將總分轉換為證據分級。另外,NutriGrade可能發揮作用的新研究領域是同類系統評價和Meta分析流行病學研究,可將針對特定研究問題的大量Meta分析證據總結出來,并評估整體證據質量[34-35]。雖然NutriGrade是為營養學研究而開發,但同樣適用于其他與生活方式相關的領域,如體育活動。考慮到NutriGrade不做初始評級,而GRADE基于研究設計,一開始就將無明顯優勢的觀察性研究評定為低質量證據,加之兩個工具評價條目和評估方法截然不同,以及NutriGrade固有的明確指導和嚴謹評分標準,導致在營養學領域應用NutriGrade和GRADE分別評價時可能會出現結果不一致的情況。而有關評估結果的具體差異,仍需要未來更多營養領域研究的應用與驗證,以做進一步優化。
NutriGrade是基于GRADE衍生的一種更適用于營養領域的證據質量分級系統。該系統既兼具GRADE的特點,使用透明方法及標準對證據質量進行分級,同時又充分結合了營養領域研究的實際情況。例如,考慮到飲食干預的隊列研究較為流行,則不對其進行“低質量證據”初始評級;在偏倚風險評估表中引入營養領域具體內容(使用校準的食物頻率問卷、膳食相關生物標志物的評估等);鑒于當前營養領域廠商資助現象普遍,而資助偏倚的產生,可能會對公眾健康造成重大危害,將資助偏倚作為單獨項目評估。NutriGrade分級系統在GRADE證據分級系統的基礎上,根據營養學研究的特點而制定,因此更為適合營養學研究領域的證據質量分級。然而,作為一個新興的證據質量評價工具,仍存在一定局限性,主要包括:引入評分制意味著要針對不同條目賦予“權重”,但難以證明權重分配的科學性;系統性能還待進一步挖掘;目前看來其應用范圍較小、推廣受限。但不可否認,NutriGrade在營養及相關領域存在獨特優勢,未來仍需繼續關注該評分系統性能的報告結果,以達到更好的推廣應用。
迄今為止,NutriGrade分級系統顯示出良好的一致性和可靠性,并已在相關營養學研究中使用。發展一種評分或分級系統來重視并評價證據可信度,以尋求營養研究中的最佳證據質量,不僅是促進公共衛生領域發展的組成部分,也能為學科發展做出重要貢獻。NutriGrade作為一種營養領域極具發展潛力的新興證據評估方法,今后會有廣闊的應用空間。