引用本文: 楊宗霞, 李筱, 王莉, 李幼平, 唐雪莉. 基本藥物證據循證評價質量評價工具背景研究之一:基于隨機對照試驗系統評價的方法學質量評價工具. 中國循證醫學雜志, 2015, 15(6): 723-729. doi: 10.7507/1672-2531.20150120 復制
基本藥物是能滿足大部分人口保健需要的藥物,基本藥物目錄(EML)作為世界衛生組織(WHO)一項成功的全球衛生策略,其制定旨在通過遴選有限藥物,保障藥品質量、安全、有效、經濟、可及性及其合理使用,從而提高醫療、藥品管理水平[1, 2]。
1977年,WHO正式提出基本藥物的概念,并推出了第一版《WHO基本藥物目錄》[3]。1981至今,我國共頒布8版EML,包括1版西藥目錄,7版中西藥目錄。2013年3月發布的2012年版《國家基本藥物目錄》,分為化學藥品、生物制品、中成藥和中藥飲片三個部分,其中317種化學藥品和生物制品,203種中成藥和中藥飲片,共計520種,目前仍在更新中[4-8]。與WHO EML和發達國家EML相比,我國EML的制定雖不斷完善合理,仍有很多不足。
已有的4個比較發達國家EML和WHO EML遴選的研究[1, 4, 7, 9]顯示,發達國家EML遴選尚存在以下主要問題:① 遴選專家和遴選過程不夠公開透明;② 調整和收錄品種遴選證據不足,本土化證據量少質差;③ 納入藥品的有效性、安全性和經濟性評價雖提及采用循證醫學和藥物經濟學方法,但缺乏證據支持;④ 適用性和實施效果評價的本土化證據較少。最突出的問題之一是缺乏科學高效的基本藥物有效性循證評價方法學體系和決策輔助工具。WHO EML強調使用標化的決策輔助工具,依靠當前可得的最佳證據循證評價遴選EML。英國、澳大利亞和加拿大等國基本藥物的評價、遴選和決策亦強調使用標化或經過驗證的評價與決策工具輔助專家和決策者進行藥物評價與決策,其主要包括針對不同研究內容和研究設計的輔助決策清單、評價量表及軟件。但這些評價工具多以清單方式呈現,未考慮影響決策的各種因素,且尚未形成總體推薦意見[4, 9]。
針對我國基本藥物遴選現狀,我們若建立適合我國基本藥物遴選證據評價的決策輔助工具,須先系統整理相關證據質量評價工具。為此,本研究全面收集了國內外基于隨機對照試驗(RCT)的系統評價(systematic review)和/或Meta分析(Meta-analysis)的質量評價工具,并對各工具的研發情況和條目設置情況進行了比較分析,以期為建立基本藥物證據循證評價的質量評價工具提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
RCT的系統評價或Meta分析的質量評價工具,包括研發或介紹系統評價質量評價工具的文獻。
1.1.2 排除標準
無質量評價工具內容或具體條目的文獻。
1.2 文獻檢索
計算機檢索PubMed和EMbase數據庫,納入RCT的系統評價/Meta分析的質量評價工具,檢索時限均為建庫截至2013年12月。質量評價的英文檢索詞包括quality assessment、critical assessment、assessment of validity、quality of scale、quality of evidence;量表和工具的檢索詞包括tool、checklist、scale、questionnaire、score、guideline;偏倚風險的檢索詞包括risk of bias、risk of the bias;系統評價/Meta分析的檢索詞包括systematic review、systematic and review、overview、Meta-analysis、Meta analysis、Meta and analysis。同時,追溯納入文獻的參考文獻,以盡可能降低漏檢的可能。
1.3 文獻篩選和資料提取
由兩位研究者按納入與排除標準獨立篩選文獻和提取資料,若遇分歧,交由第三位研究者協助裁決。采用EndNote X6管理納入文獻,剔除重復文獻后,閱讀文題和摘要,按納入與排除標準排除無明顯相關性的文獻;進一步閱讀全文,確定最終納入文獻。采用自制的資料提取表提取資料,主要提取內容包括:質量評價工具名稱、針對的研究設計類型、開發者/機構、年代、目的、方法、質量評價條目或內容。
1.4 統計分析
采用描述性分析介紹系統評價工具的基本內容,比較分析不同類型質量評價工具條目的內容。
2 結果
初檢共獲得6 338篇文獻,經逐層篩選,最終納入61篇文獻[10-70],涉及32個質量評價工具。文獻篩選流程及結果見圖 1。

納入的32個工具見表 1。32個工具中,20世紀80年代開發9個,90年代17個,2000年后 6個。美國研發工具最多,共11個;加拿大為9個;荷蘭和英國分別為4個;法國、德國、澳大利亞何美國、加拿大分別為1個。研發機構中24個為高校研究機構,7個為醫療科研機構,1個為社會機構。3個量表由荷蘭和加拿大的學者分別于1999、2001和2002年開發。

32個工具大多由高校的醫學研究機構、國家衛生服務和傳播機構的著名流行病學家和方法學家等制定研發。開發最早的是1984年由Richard J. Light及其團隊研發的Light Checklist;開發最晚的是2007年荷蘭 VU(Vrije Universiteit)大學醫學研究中心和加拿大渥太華大學的臨床流行病學專家們共同研發制定的AMSTAR。
32個工具包含2個報告質量評價工具(PRISMA[27]和QUOROM [28-37]),30個方法學質量評價工具[10-70]。4個評價量表分別是Auperin scale[68]、Assendelft scale[61]、The scale of Hoving et al[43]和OG scale[25, 26],其余28個均為清單。
納入的32個工具雖均用于評價系統評價/Meta分析質量,但不同工具的結構、條目數量、條目內容不盡相同。其中28個工具單純由條目構成,QUOROM和PRISMA由條目和流程圖構成,Neely checklist 和L'Abbé checklist的每個條目下又設子問題。納入工具的條目從5條~101條不等,其中9個工具條目數≥20條。
3 討論
3.1 系統評價質量控制與工具更新
系統評價是最佳證據的重要來源之一,其結果是公認評價臨床療效、制定臨床指南和規范的最可靠證據來源之一。但若其在實施過程中未有效控制偏倚或Meta分析使用不當,將會影響研究結果的正確性,誤導決策[10, 71]。系統評價和Meta分析本身的質量評價尤為重要,包括方法學質量和報告質量兩方面評價。二者既有差別又有聯系。系統評價報告質量高,研究質量一般也較高[72];也可能存在報告質量高的研究方法學不一定完全正確;而報告質量不高的研究真實性也可能較好。報告質量與研究適用性密切聯系,低質量報告勢必影響結果的適用性[72]。
系統評價制作過程主要包括以下7步[71]:① 提出研究問題;② 制定排除納入標準;③ 檢索和篩選文獻;④ 納入研究質量評價;⑤ 數據處理分析;⑥ 結果解釋;⑦ 討論。每一步都應嚴格實施,否則會影響研究質量。本研究結果顯示,雖大部分工具涵蓋了以上7方面重要內容,但仍有工具條目缺失某些方面內容。如1984年的Light 清單雖有10個條目,但與系統評價方法相關的卻僅有數據提取內容;1993年的Neely僅5個條目,方法學部分僅涉及證據檢索和文獻篩選;2002年的DARE標準也僅5個條目,雖包含了證據檢索和有效性評價兩個重要方法學內容,仍存在其他重要內容的缺失和不足。某些工具條目內容很多,但涉及內容是否重要、是否必要也值得研究者思考。如SQAC第三部分里有條目為資助來源情況,因藥廠贊助的研究可能受利益沖突等影響而更易存在偏倚;但其第六部分有條目為經濟學分析,而部分專家認為治療性研究的系統評價不一定涉及該內容[71]。
此外,系統評價實施的各步驟中偏倚產生不可避免。偏倚是指在資料收集、分析、解釋和發表等過程中可能導致結論偏離真實結果的情況,主要分發表偏倚,選擇偏倚和語言偏倚等。發表偏倚是研究者在根據研究目的收集相關資料時,因陽性結果文章較陰性結果文章更容易發表而造成的偏倚。在系統評價和Meta分析過程中最難控制,且研究最多[73, 74];對系統評價和Meta分析的結果的真實性和可靠性影響較大,在系統評價過程中應盡量減少發表偏倚。本研究結果表明納入32個工具中僅AMASTAR、SQAC和QUOROM 3個工具提及發表偏倚。
系統評價和Meta分析數量逐年增加,要求其質量評價工具不斷更新以適應研究方法、內容等變化。CRD guideline更新兩次,QUOROM發表后10年更新為PRISMA。本研究結果顯示系統評價、Meta分析方法學質量評價工具同樣存在更新不足的問題。只有AMSTAR是在OQAQ和SQAC的基礎上更新形成,Oxman checklist在發表6年后更新1次,其余均未更新。
3.2 系統評價工具尚無統一應用標準
32個系統評價和Meta分析質量評價工具目前尚無統一標準。如何選擇適當的質量評價工具對同一研究進行質量評價的過程中仍需考慮以下問題:① 這些工具研發年代跨度大,研發機構/者各異,制作水平、復雜程度不盡相同,具體應用時各工具使用程度與范圍也不一樣。1991年研發制定的QOAQ是評價系統評價真實性最常用的工具,2007年研發的AMSTAR也被廣泛應用于系統評價、Meta分析方法學質量評價。② 各工具所含條目數量5~101條不等。目前工具數量多,無統一標準,用不同工具評價同一研究時,若能得到相同結果,則條目少的工具因更省時而占優勢[75]。目前質量評價工具分量表和清單兩種形式,工具結構也不同,條目內容相似的情況下,量表因使用更方便且制作規范,而受研究者青睞[75]。但量表如何科學賦值,如何確定每個條目的權重,如何確定質量評分與真實質量之間的關系,如何根據評分合理區別質量高低等,是急需解決的問題。③ 質量評價工具可用于系統評價、測量工具方法學研究、衛生技術評估及公共衛生、臨床研究等多個領域研究的系統評價和Meta分析質量評價,在指導實踐和決策時其針對性不強。如何恰當選擇相應工具進行評價,更有效地評價研究質量和結果真實性,又省時省力的目的,值得研究者們思考。④ 目前,尚無統一的系統評價偏倚風險評估工具,偏倚風險評估是系統評價的重要步驟之一,它將決定納入臨床試驗數據是否有效可用,從而影響系統評價結論的可靠性[78]。因此,進一步完善系統評價質量評價工具尤為重要。
綜上,系統評價質量評價工具本身質量很重要。只有正確應用高質量的質量評價工具,才能更好地保證系統評價質量,更好地為衛生決策服務。制定適合我國基本藥物遴選證據評價的決策輔助工具,能為我國基本藥物遴選提供證據參考和依據。
3.3 本研究的局限性
首先,由于時間限制,本研究未納入更新檢索獲得的文獻,雖然補檢了其他系統評價質量評價工具,難免會遺漏未發表的研究。其次,由于部分工具發表年代較早,收集其完整資料存在困難,故對工具部分結果分析仍待進一步完善。第三,本研究未針對指南、RCT和Non-RCT的質量評價工具進行描述分析,只提取其相關條目形成本研究建立工具的證據質量條目,該部分將在后續研究進一步完善。
3.4 結論
綜上所述,本文系統收集并整理了目前已知的32個系統評價質量評價工具,分析其基本內容,總結目前系統評價質量評價工具存在的問題,為系統評價和Meta 分析質量評價的完善提出了建議。
基本藥物是能滿足大部分人口保健需要的藥物,基本藥物目錄(EML)作為世界衛生組織(WHO)一項成功的全球衛生策略,其制定旨在通過遴選有限藥物,保障藥品質量、安全、有效、經濟、可及性及其合理使用,從而提高醫療、藥品管理水平[1, 2]。
1977年,WHO正式提出基本藥物的概念,并推出了第一版《WHO基本藥物目錄》[3]。1981至今,我國共頒布8版EML,包括1版西藥目錄,7版中西藥目錄。2013年3月發布的2012年版《國家基本藥物目錄》,分為化學藥品、生物制品、中成藥和中藥飲片三個部分,其中317種化學藥品和生物制品,203種中成藥和中藥飲片,共計520種,目前仍在更新中[4-8]。與WHO EML和發達國家EML相比,我國EML的制定雖不斷完善合理,仍有很多不足。
已有的4個比較發達國家EML和WHO EML遴選的研究[1, 4, 7, 9]顯示,發達國家EML遴選尚存在以下主要問題:① 遴選專家和遴選過程不夠公開透明;② 調整和收錄品種遴選證據不足,本土化證據量少質差;③ 納入藥品的有效性、安全性和經濟性評價雖提及采用循證醫學和藥物經濟學方法,但缺乏證據支持;④ 適用性和實施效果評價的本土化證據較少。最突出的問題之一是缺乏科學高效的基本藥物有效性循證評價方法學體系和決策輔助工具。WHO EML強調使用標化的決策輔助工具,依靠當前可得的最佳證據循證評價遴選EML。英國、澳大利亞和加拿大等國基本藥物的評價、遴選和決策亦強調使用標化或經過驗證的評價與決策工具輔助專家和決策者進行藥物評價與決策,其主要包括針對不同研究內容和研究設計的輔助決策清單、評價量表及軟件。但這些評價工具多以清單方式呈現,未考慮影響決策的各種因素,且尚未形成總體推薦意見[4, 9]。
針對我國基本藥物遴選現狀,我們若建立適合我國基本藥物遴選證據評價的決策輔助工具,須先系統整理相關證據質量評價工具。為此,本研究全面收集了國內外基于隨機對照試驗(RCT)的系統評價(systematic review)和/或Meta分析(Meta-analysis)的質量評價工具,并對各工具的研發情況和條目設置情況進行了比較分析,以期為建立基本藥物證據循證評價的質量評價工具提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
RCT的系統評價或Meta分析的質量評價工具,包括研發或介紹系統評價質量評價工具的文獻。
1.1.2 排除標準
無質量評價工具內容或具體條目的文獻。
1.2 文獻檢索
計算機檢索PubMed和EMbase數據庫,納入RCT的系統評價/Meta分析的質量評價工具,檢索時限均為建庫截至2013年12月。質量評價的英文檢索詞包括quality assessment、critical assessment、assessment of validity、quality of scale、quality of evidence;量表和工具的檢索詞包括tool、checklist、scale、questionnaire、score、guideline;偏倚風險的檢索詞包括risk of bias、risk of the bias;系統評價/Meta分析的檢索詞包括systematic review、systematic and review、overview、Meta-analysis、Meta analysis、Meta and analysis。同時,追溯納入文獻的參考文獻,以盡可能降低漏檢的可能。
1.3 文獻篩選和資料提取
由兩位研究者按納入與排除標準獨立篩選文獻和提取資料,若遇分歧,交由第三位研究者協助裁決。采用EndNote X6管理納入文獻,剔除重復文獻后,閱讀文題和摘要,按納入與排除標準排除無明顯相關性的文獻;進一步閱讀全文,確定最終納入文獻。采用自制的資料提取表提取資料,主要提取內容包括:質量評價工具名稱、針對的研究設計類型、開發者/機構、年代、目的、方法、質量評價條目或內容。
1.4 統計分析
采用描述性分析介紹系統評價工具的基本內容,比較分析不同類型質量評價工具條目的內容。
2 結果
初檢共獲得6 338篇文獻,經逐層篩選,最終納入61篇文獻[10-70],涉及32個質量評價工具。文獻篩選流程及結果見圖 1。

納入的32個工具見表 1。32個工具中,20世紀80年代開發9個,90年代17個,2000年后 6個。美國研發工具最多,共11個;加拿大為9個;荷蘭和英國分別為4個;法國、德國、澳大利亞何美國、加拿大分別為1個。研發機構中24個為高校研究機構,7個為醫療科研機構,1個為社會機構。3個量表由荷蘭和加拿大的學者分別于1999、2001和2002年開發。

32個工具大多由高校的醫學研究機構、國家衛生服務和傳播機構的著名流行病學家和方法學家等制定研發。開發最早的是1984年由Richard J. Light及其團隊研發的Light Checklist;開發最晚的是2007年荷蘭 VU(Vrije Universiteit)大學醫學研究中心和加拿大渥太華大學的臨床流行病學專家們共同研發制定的AMSTAR。
32個工具包含2個報告質量評價工具(PRISMA[27]和QUOROM [28-37]),30個方法學質量評價工具[10-70]。4個評價量表分別是Auperin scale[68]、Assendelft scale[61]、The scale of Hoving et al[43]和OG scale[25, 26],其余28個均為清單。
納入的32個工具雖均用于評價系統評價/Meta分析質量,但不同工具的結構、條目數量、條目內容不盡相同。其中28個工具單純由條目構成,QUOROM和PRISMA由條目和流程圖構成,Neely checklist 和L'Abbé checklist的每個條目下又設子問題。納入工具的條目從5條~101條不等,其中9個工具條目數≥20條。
3 討論
3.1 系統評價質量控制與工具更新
系統評價是最佳證據的重要來源之一,其結果是公認評價臨床療效、制定臨床指南和規范的最可靠證據來源之一。但若其在實施過程中未有效控制偏倚或Meta分析使用不當,將會影響研究結果的正確性,誤導決策[10, 71]。系統評價和Meta分析本身的質量評價尤為重要,包括方法學質量和報告質量兩方面評價。二者既有差別又有聯系。系統評價報告質量高,研究質量一般也較高[72];也可能存在報告質量高的研究方法學不一定完全正確;而報告質量不高的研究真實性也可能較好。報告質量與研究適用性密切聯系,低質量報告勢必影響結果的適用性[72]。
系統評價制作過程主要包括以下7步[71]:① 提出研究問題;② 制定排除納入標準;③ 檢索和篩選文獻;④ 納入研究質量評價;⑤ 數據處理分析;⑥ 結果解釋;⑦ 討論。每一步都應嚴格實施,否則會影響研究質量。本研究結果顯示,雖大部分工具涵蓋了以上7方面重要內容,但仍有工具條目缺失某些方面內容。如1984年的Light 清單雖有10個條目,但與系統評價方法相關的卻僅有數據提取內容;1993年的Neely僅5個條目,方法學部分僅涉及證據檢索和文獻篩選;2002年的DARE標準也僅5個條目,雖包含了證據檢索和有效性評價兩個重要方法學內容,仍存在其他重要內容的缺失和不足。某些工具條目內容很多,但涉及內容是否重要、是否必要也值得研究者思考。如SQAC第三部分里有條目為資助來源情況,因藥廠贊助的研究可能受利益沖突等影響而更易存在偏倚;但其第六部分有條目為經濟學分析,而部分專家認為治療性研究的系統評價不一定涉及該內容[71]。
此外,系統評價實施的各步驟中偏倚產生不可避免。偏倚是指在資料收集、分析、解釋和發表等過程中可能導致結論偏離真實結果的情況,主要分發表偏倚,選擇偏倚和語言偏倚等。發表偏倚是研究者在根據研究目的收集相關資料時,因陽性結果文章較陰性結果文章更容易發表而造成的偏倚。在系統評價和Meta分析過程中最難控制,且研究最多[73, 74];對系統評價和Meta分析的結果的真實性和可靠性影響較大,在系統評價過程中應盡量減少發表偏倚。本研究結果表明納入32個工具中僅AMASTAR、SQAC和QUOROM 3個工具提及發表偏倚。
系統評價和Meta分析數量逐年增加,要求其質量評價工具不斷更新以適應研究方法、內容等變化。CRD guideline更新兩次,QUOROM發表后10年更新為PRISMA。本研究結果顯示系統評價、Meta分析方法學質量評價工具同樣存在更新不足的問題。只有AMSTAR是在OQAQ和SQAC的基礎上更新形成,Oxman checklist在發表6年后更新1次,其余均未更新。
3.2 系統評價工具尚無統一應用標準
32個系統評價和Meta分析質量評價工具目前尚無統一標準。如何選擇適當的質量評價工具對同一研究進行質量評價的過程中仍需考慮以下問題:① 這些工具研發年代跨度大,研發機構/者各異,制作水平、復雜程度不盡相同,具體應用時各工具使用程度與范圍也不一樣。1991年研發制定的QOAQ是評價系統評價真實性最常用的工具,2007年研發的AMSTAR也被廣泛應用于系統評價、Meta分析方法學質量評價。② 各工具所含條目數量5~101條不等。目前工具數量多,無統一標準,用不同工具評價同一研究時,若能得到相同結果,則條目少的工具因更省時而占優勢[75]。目前質量評價工具分量表和清單兩種形式,工具結構也不同,條目內容相似的情況下,量表因使用更方便且制作規范,而受研究者青睞[75]。但量表如何科學賦值,如何確定每個條目的權重,如何確定質量評分與真實質量之間的關系,如何根據評分合理區別質量高低等,是急需解決的問題。③ 質量評價工具可用于系統評價、測量工具方法學研究、衛生技術評估及公共衛生、臨床研究等多個領域研究的系統評價和Meta分析質量評價,在指導實踐和決策時其針對性不強。如何恰當選擇相應工具進行評價,更有效地評價研究質量和結果真實性,又省時省力的目的,值得研究者們思考。④ 目前,尚無統一的系統評價偏倚風險評估工具,偏倚風險評估是系統評價的重要步驟之一,它將決定納入臨床試驗數據是否有效可用,從而影響系統評價結論的可靠性[78]。因此,進一步完善系統評價質量評價工具尤為重要。
綜上,系統評價質量評價工具本身質量很重要。只有正確應用高質量的質量評價工具,才能更好地保證系統評價質量,更好地為衛生決策服務。制定適合我國基本藥物遴選證據評價的決策輔助工具,能為我國基本藥物遴選提供證據參考和依據。
3.3 本研究的局限性
首先,由于時間限制,本研究未納入更新檢索獲得的文獻,雖然補檢了其他系統評價質量評價工具,難免會遺漏未發表的研究。其次,由于部分工具發表年代較早,收集其完整資料存在困難,故對工具部分結果分析仍待進一步完善。第三,本研究未針對指南、RCT和Non-RCT的質量評價工具進行描述分析,只提取其相關條目形成本研究建立工具的證據質量條目,該部分將在后續研究進一步完善。
3.4 結論
綜上所述,本文系統收集并整理了目前已知的32個系統評價質量評價工具,分析其基本內容,總結目前系統評價質量評價工具存在的問題,為系統評價和Meta 分析質量評價的完善提出了建議。