引用本文: 張詩雨, 馬愛霞, 李洪超, 管欣. 藥物經濟學文獻質量評價工具再評價. 中國循證醫學雜志, 2019, 19(7): 844-850. doi: 10.7507/1672-2531.201803039 復制
2017 年醫保目錄更新與新藥談判中,衛生技術評估首次被列為可選的提交資料,藥物經濟學評價作為新的醫保談判依據,其在藥價制定、醫療衛生保健政策制定、臨床用藥決策等方面的重要作用日益凸顯。但有研究表明,目前我國已發表藥物經濟學文獻質量參差不齊:雷蕾等[1]對 2010 年的已發表的 117 篇藥物經濟學評價研究進行質量評估,認為我國藥物經濟學評價研究主要存在研究角度不明確、設計不合理、成本計算差距大、敏感性分析不合理等問題;伍紅艷等[2]分析我國 2009~2013 年發表的藥物經濟學評價文獻,認為主要存在研究單位類型單一、未說明經費來源及利益沖突、對照選擇標準不明確等 9 個方面的質量問題。而低質量證據往往會導致決策出現偏倚甚至錯誤,如何對眾多藥物經濟學評價報告質量進行有效評估,成為醫保專家、臨床專家、研究學者等共同關注的問題,并直接關系到國家醫保目錄談判和藥物經濟學在我國的發展與應用。
因此,本研究全面收集國際上主要使用的藥物經濟學評價表進行分析,回顧各自的優勢和劣勢,總結展示異同點,評價信度和效度,以期為質量評價工具的選擇和使用提供參考,也為內容更加全面的通用藥物經濟學質量評價工具的設計和研究奠定基礎。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
適用于成本-效果分析等的經濟學質量評價工具,適用于醫療衛生領域的原創評估量表、通用評估量表。其中,“原創”的判定標準為文章中包括對評估量表的設計過程和相關數據的報告和描述,并對藥物經濟學評價的實施提出建議,而非僅對之前已有的評估量表進行細節或表達上的修改和轉述。
1.1.2 排除標準
只針對某種疾病、某類人群或某一特定研究情形的非通用評估量表。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、ScienceDirect、Web of Science、CNKI、WanFang Data 和 VIP 數據庫,搜集有關藥物經濟學質量評價工具的研究,檢索時限均為建庫至 2017 年 12 月。中文檢索詞包括:經濟學評價、成本-效果分析、成本-效用分析、衛生技術評估、醫療衛生決策、質量評估、工具、標準、評估量表等;英文檢索詞包括:economic evaluation、cost-effectiveness analysis、cost-utility analysis、health technology assessment、health care decision making、quality assessment、instrument/tool、criteria/checklist 等。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。文獻篩選時首先閱讀文題,在排除明顯不相關的文獻后,進一步閱讀摘要和全文以確定是否納入。如有需要,通過郵件、電話聯系原始研究作者獲取未確定但對本研究非常重要的信息。資料提取內容包括:① 納入研究的基本信息:研究題目、第一作者、發表時間、發表雜志等;② 評估量表引用次數、評估量表條目數量(包括大條目和小條目數量)、條目回答形式;③ 評估量表設計方法、評估量表適用的經濟學評價類型;④ 評估量表條目內容。
1.4 統計分析
對藥物經濟學質量評價工具進行概述,結合發表時間、引用次數、評估量表形式、設計方法、條目數量等多個方面進行考量,選擇其中引用次數多、使用廣泛、設計方法嚴謹、在形式或條目數量上具有代表性的評估量表,從多個維度進行比較分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻 20 347 篇,經逐層篩選,最終納入 12 個原創性藥物經濟學質量評價工具[3-16],其中最具有代表性的評估量表共有 5 個[10-13, 15]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 重要原創評估量表概述
1987 年,Drummond 等[3]在《衛生保健項目經濟學評估方法》一書中提出的對經濟學評價進行質量評估的評估量表是國際上最早的藥物經濟學評價質量評估量表。該評估量表由研究問題、對照方案、項目服務有效性、成本和結果的識別、成本和產出的測量的準確性、成本和產出的測量的可信度、成本和費用的貼現、增量分析、不確定性分析、結論的適用性 10 個大條目、9 個小條目組成。
1992 年,Adams 等[4]基于 Drummond 的標準設計了評價表,來評價隨機對照試驗中經濟學評價的完整性。此評估量表主要由對照方案的識別、成本識別、效益識別、分配效應考量和成本效果整合五部分,共 21 個問題組成。每個問題都有相對應的特定選項,選項數量 2~12 個不等。
1992 年,Gerard 等[5]在評估量表制定過程中,納入了 12 名專家學者提出的意見,設計了一個包含背景特征、技術標準、成本、產出、政策相關標準和研究的整體質量 6 個一級條目和 37 個二級條目的評估量表,并將這些標準在三個成本效用評價研究中進行了測試。
1993 年,Sacristan 等[6]設計了由 12 個一級條目,40 個二級條目組成的評估量表。一級條目包括研究目的、樣本選擇、替代方案分析、研究角度分析、成本衡量、效益衡量、分析方法、結果分析、臨床研究評價方法、假設和局限性、倫理問題和結論。不同于上述評估量表每個問題都有其特定選項,此評估量表每個條目都以“正確的”、“可接受的”、“懷疑的”、“錯誤的”和“不適用的”五個選項進行判斷。
1995 年,美國醫藥研究與制造商協會(PhRMA)為其成員企業進行藥物經濟學評價制定了一套自愿采納的指導原則[7],由研究設計、方案或報告的結構、方案或報告的內容、成本或資源、產出或效益、數據來源和結果的外推性 7 個部分,共 20 個條目組成。這套原則由一個藥物經濟學專家組成的專家小組制定,并且在制定的每一個階段都有內部和外部的學者專家進行審閱。
1996 年,美國醫療衛生成本效果研究的專家小組(Panel on Cost-effectiveness in Health and Medicine)經過兩年半的討論,制定了由框架結構、數據和方法、結果和討論 4 部分組成,共 37 個條目的評估量表[8, 9]。前期設計通過回顧成本效果分析的理論基礎、目前實施情況、可選擇的方法、已發表的評價以及對于相關方法和報告的評述形成草案,再由聯邦政府的方法學家、衛生機構官員及學術界專家進行評論審閱決定最終條目。
1996 年,BMJ 發表了由 Drummond 帶領的工作小組制定的質量評估量表 BMJ checklist[10]。評估量表由研究設計、數據收集、結果分析和闡釋 3 個主要部分,共 35 個條目組成。每個條目由是、否、不清楚和不適用來判斷。此評估量表主要針對完整的經濟學評價進行質量評估,但“不適用”這一選項的設置使它也可以用來評估局部經濟學評價或報告。
2003 年,Chious 等[11]設計的 Quality of Health Economics Studies(QHES)是目前唯一一個對每條標準賦予權重的具有評分體系的評估量表。它由研究目標、研究角度、變量估計、亞組分析、不確定性分析、增量分析、分析方法、時間范圍、成本衡量、產出衡量、信度效度、模型選擇、假設和局限性、潛在偏倚、結論和資金來源 16 條標準組成。滿分 100 分,最低分 0 分。每條標準的權重通過對 120 位國際衛生經濟學專家的分析意見采用廣義線性回歸估計得到。作者在量表設計完成后對其進行了信度和效度檢驗。
2005 年,Evers 等[12]設計的 Consensus on Health Economic Criteria(CHEC)共由 19 個“是/否”問題組成。研究者在初步選擇了納入評估量表的條目后,采用三輪德爾菲法對這些條目進行篩選來創建最終評估量表。這是第一個基于德爾菲法產生的、被廣泛接受的經濟學評價量表,且只能對基于試驗的經濟學評價的文獻進行質量評估。
2006 年,Philips 等[13]發表的 Philips guidelines 則分為結構、數據和一致性 3 個維度,15 個主要部分共 61 個條目。主要部分包括決策問題或目的、研究角度或范圍、基本假設、對照組、模型類型、時間范圍、疾病類型、循環時長、數據定義、建模前數據分析、數據納入、不確定性評價、內部一致性和外部一致性。這是目前條目數量最多的評估量表,且只針對基于模型的經濟學評價的文獻進行質量評估。
2011 年,Grutters 等[14]發表了迄今條目最少的質量評價量表。作者通過查閱文獻,在與臨床醫生和政策制定者的合作交流下選擇了對于進行資源分配決策的衛生技術評估最重要的 11 個要素組成評估量表。11 個要素分別為研究目標、受眾、研究角度、研究人群、對照組、臨床實踐、時間范圍、結果、病人使用、專家使用、價格和資源使用。
2013 年,國際藥物經濟學與產出研究學會(International Society of Pharmacoeconomics and Outcomes Research,ISPOR)發表了由 24 個條目及其相對應的建議組成的 Consolidated Health Economic Evaluation Reporting Standards(CHEERS)評估量表[15, 16]。ISPOR 專家小組由學者、臨床專家、企業、政府和編輯代表組成,基于已有的指南文件,通過系統綜述選出候選條目,經過兩輪德爾菲法后對候選條目進行篩查和修正形成 CHEERS。其評估量表條目根據藥物經濟學評價報告的文章結構進行歸類,分為標題和摘要、介紹、方法、討論和其他五部分。每條條目都有相應的證據和例子來進行闡釋說明。
2.3 評估量表特點及條目內容比較
本研究根據發表時間的先后、引用次數的多少、評估量表本身設計方法和條目數量等方面的代表性等,選擇了 BMJ checklist、QHES instrument、CHEC list、Philips guidelines 和 CHEERS 這 5 個量表進行比較分析。選擇理由如下:① 除 BMJ checklist 外,其他 4 個評估量表都發表于 2000 年以后,在設計過程中均考量了以前評估量表的不合理之處,更符合現在研究的要求;② 以上量表的被引用次數較多,即在國際上的認可程度和影響力較高;③ 這幾個評估量表特點鮮明,具有代表性,如 BMJ checklist 在進行衛生經濟學評價的質量評估時被引用次數最多,QHES 是唯一一個具有評分系統的評估量表,CHEC 是第一個使用德爾菲法篩選評估量表條目,Philips guidelines 是目前條目數量最多的評估量表,CHEERS 是最新發表的使用說明最詳細的質量評估量表。
本文使用目前最新的 CHEERS 作為參考,將評估量表中的建議以問題的方式進行描述,對這 5 個評估量表的條目內容進行統計和比較(表 1)。此外,我們還詳細列出了這 5 個評估量表分別適合的經濟學評價類型、設計過程、報告形式、條目數量、問題回答形式等 11 個方面的主要特點以方便研究者選擇比較(表 2)。通過分析發現,在研究角度、研究時限、成本和產出的貼現、對產出衡量類型的選擇和衡量方法、敏感性分析這幾個方面 5 個評估量表都有涉及。此外,目標人群和亞組人群基線特征的描述及選擇原因、替代方案的選擇、參數的相關信息、數據的提取和統計分析方法、增量分析、研究結論的缺陷和可推廣性在其中 4 個評估量表被提及。由此可見,評估藥物經濟學報告質量的重要標準具有明顯一致性。但另一方面,如研究的利益沖突方等 3 條標準僅在其中一個或兩個評估量表中出現,這就表明目前在某些條目的重要程度判斷上面不同量表意見不一致。


2.4 評估量表的質量評估
目前已有的評估量表中只有 QHES 在設計完成后對評估量表的信度和效度進行了測量。研究者選擇了 60 位國際上的專家對三個藥物經濟學評價報告質量進行評估,先采用視覺模擬評分法(visual analogue scale,VAS),再使用 QHES 對這三篇報告分別進行評分。然后用 Spearman 秩檢驗(rho=0.78,P<0.0001)和 Wilcoxon 秩和檢驗(P=0.53)來檢驗建構效度,再用協方差分析(F=5.97,P=0.001)檢驗他們的區分效度。同時還對這個評分體系和專家的全球評分的一致性進行了評分者間效度檢驗,結果均顯示一致性較好[11]。
除此之外,Gerard 等[17]通過采用 BMJ checklist 對 43 篇成本效用分析的經濟學評價報告在同行之間進行了評估,得出 BMJ checklist 的評判者間信度為 80%。Gerkens 基于對 9 篇手術治療肥胖癥的經濟學評價文章進行質量評估,對 BMJ checklist、CHEC 和 QHES 評估量表做出了比較。結果顯示這三個評估量表間的 Spearman 相關系數很高(rho>0.7),重測信度也都比較好,分別為 BMJ checklist 0.98[95%CI(0.86,0.99)],CHEC 0.97[95%CI(0.73,0.99)],QHES 0.95[95%CI(0.75,0.99)]。但它們評分者間的一致性比較差(大部分條目的 K 值<0.4,且組內相關系數 ICC≤0.5)[18]。
Langer 等[19]設計了一個框架來對目前已有的衛生經濟學報告質量評估工具進行評價。框架中除了包括上面提到的信度效度檢驗之外,還從評估量表設計的目的和范圍、利益相關者的參與程度、評估量表設計過程的嚴謹性、評估量表呈現的清晰程度、評估量表的適用性和對評估量表的整體評價七個方面對其進行評價。并應用這一框架對 BMJ checklist、QHES、CHEC、Philips guidelines 4 個評估量表進行了評價,結果顯示 4 個評估量表各有利弊,但都沒有完全滿足這一框架的所有評價標準。其中,QHES 滿足的評價標準數量最多,BMJ checklist 滿足的數量最少。其中有 10 條評價標準,4 個評估量表沒有一個能夠滿足。例如:全部設計參與者都是相關領域權威專家、說明評估量表更新審閱日期、對信度效度的所有方面都進行測量等。
3 討論
藥物經濟學評價研究的質量高低決定了其應用到決策環境中的采信度,所以對藥物經濟學評價進行質量評估具有重要意義。使用藥物經濟學評價研究的質量評估工具,可以幫助決策者區分高質量和低質量的證據,為決策過程中高效配置醫療衛生資源提供有力的證據參考[20]。同時,能夠幫助期刊審稿專家和讀者對低質量藥物經濟學評價文獻進行甄別。但目前藥物經濟學研究的質量評價方法還沒有統一標準。因此,就如何選擇合適的質量評價工具,我們通過本文對國際上主要的質量評價工具進行總結分析后,提出以下建議:
① 根據經濟學評價的類型,BMJ checklist 和 CHEERS 適用范圍更廣,可用于所有類型經濟學研究的質量評價,既包括基于試驗的也包括基于模型的。除了以上兩者外,針對基于模型的經濟學評價可以選擇 QHES 和 Philips guidelines,針對基于臨床試驗和觀察性的研究建議選擇 CHEC 評估量表。
② 如果希望以量化的方式對藥物經濟學評價的文獻質量進行評估,那么建議選擇 QHES 評估量表。因為僅 QHES 采用定量評分,其他工具都是定性評分且條目大都是主觀和開放式的。但進行評估工具選擇時也要考慮 QHES 局限性:其效度只是通過對三個經濟學評價報告的質量評估進行測量,且由于樣本量有限,所以其預計效度效力有限。
③ 注重評估量表的時效性和可操作性時,建議選擇 CHEERS 評估量表。其優勢在于它是由一支目前國際上多學科的在經濟學評價和報告方面知名的編輯和專家團隊完成的,且和當前廣泛采用的報告和指南中提出的建議相符。專家小組還對評估量表中的每條條目都給出了使用建議及例子,加之它是從文章結構方面對評估量表條目進行分類,因此實際評價時的可操作性更強。
除了文中所總結的國際上主要使用的藥物經濟學評價質量評估量表外,國內學者也在其基礎上嘗試制定我國自己的評價標準。《中國藥物經濟學評價指南(2011 版)》[21]就如何評估藥物經濟學文獻質量給出了由 7 個一級項目,14 個二級項目構成的評估量表;吳久鴻等[22]在 2015 年就藥物經濟學研究質量評定的主要研究要素進行了總結,包括研究的問題和目的、替代方案的選擇、決策分析模型的應用等七個方面;伍紅艷等[23]參考 CHEERS、BMJ guidelines、QHES 和《中國藥物經濟學評價指南》于 2015 年設計了一個包含 5 個一級指標,24 個二級指標的文獻質量評價框架;王小藝等[24]則在參考各國藥物經濟學指南,以及 QHES、BMJ guidelines、CHEC 等評估量表后,采用德爾菲專家咨詢法于 2016 年確定了 26 個藥物經濟學研究質量評價指標。
藥物經濟學評價的質量評估目前還不存在一個“金標準”,已有質量評估工具仍存在各種問題。其質量評估結果更多地是受評價者而不是所使用評價工具的影響,所以已有評估量表的信度和效度還有待進一步檢驗[18]。另外,具有評分體系的評估量表也有待發展和完善。同時,在眾多被評價要素中,某一要素的高質量優勢是否能一定程度上彌補另一要素的缺陷,這些問題都還需要未來的研究給出答案[20]。一個具有廣泛適應性和推廣性的、高質量藥物經濟學評價的質量評估工具還有待進一步更新和發展。
2017 年醫保目錄更新與新藥談判中,衛生技術評估首次被列為可選的提交資料,藥物經濟學評價作為新的醫保談判依據,其在藥價制定、醫療衛生保健政策制定、臨床用藥決策等方面的重要作用日益凸顯。但有研究表明,目前我國已發表藥物經濟學文獻質量參差不齊:雷蕾等[1]對 2010 年的已發表的 117 篇藥物經濟學評價研究進行質量評估,認為我國藥物經濟學評價研究主要存在研究角度不明確、設計不合理、成本計算差距大、敏感性分析不合理等問題;伍紅艷等[2]分析我國 2009~2013 年發表的藥物經濟學評價文獻,認為主要存在研究單位類型單一、未說明經費來源及利益沖突、對照選擇標準不明確等 9 個方面的質量問題。而低質量證據往往會導致決策出現偏倚甚至錯誤,如何對眾多藥物經濟學評價報告質量進行有效評估,成為醫保專家、臨床專家、研究學者等共同關注的問題,并直接關系到國家醫保目錄談判和藥物經濟學在我國的發展與應用。
因此,本研究全面收集國際上主要使用的藥物經濟學評價表進行分析,回顧各自的優勢和劣勢,總結展示異同點,評價信度和效度,以期為質量評價工具的選擇和使用提供參考,也為內容更加全面的通用藥物經濟學質量評價工具的設計和研究奠定基礎。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
適用于成本-效果分析等的經濟學質量評價工具,適用于醫療衛生領域的原創評估量表、通用評估量表。其中,“原創”的判定標準為文章中包括對評估量表的設計過程和相關數據的報告和描述,并對藥物經濟學評價的實施提出建議,而非僅對之前已有的評估量表進行細節或表達上的修改和轉述。
1.1.2 排除標準
只針對某種疾病、某類人群或某一特定研究情形的非通用評估量表。
1.2 文獻檢索策略
計算機檢索 PubMed、EMbase、ScienceDirect、Web of Science、CNKI、WanFang Data 和 VIP 數據庫,搜集有關藥物經濟學質量評價工具的研究,檢索時限均為建庫至 2017 年 12 月。中文檢索詞包括:經濟學評價、成本-效果分析、成本-效用分析、衛生技術評估、醫療衛生決策、質量評估、工具、標準、評估量表等;英文檢索詞包括:economic evaluation、cost-effectiveness analysis、cost-utility analysis、health technology assessment、health care decision making、quality assessment、instrument/tool、criteria/checklist 等。以 PubMed 為例,其具體檢索策略見框 1。

1.3 文獻篩選與資料提取
由 2 名研究者獨立篩選文獻、提取資料并交叉核對。如有分歧,則通過討論或與第三方協商解決。文獻篩選時首先閱讀文題,在排除明顯不相關的文獻后,進一步閱讀摘要和全文以確定是否納入。如有需要,通過郵件、電話聯系原始研究作者獲取未確定但對本研究非常重要的信息。資料提取內容包括:① 納入研究的基本信息:研究題目、第一作者、發表時間、發表雜志等;② 評估量表引用次數、評估量表條目數量(包括大條目和小條目數量)、條目回答形式;③ 評估量表設計方法、評估量表適用的經濟學評價類型;④ 評估量表條目內容。
1.4 統計分析
對藥物經濟學質量評價工具進行概述,結合發表時間、引用次數、評估量表形式、設計方法、條目數量等多個方面進行考量,選擇其中引用次數多、使用廣泛、設計方法嚴謹、在形式或條目數量上具有代表性的評估量表,從多個維度進行比較分析。
2 結果
2.1 文獻篩選流程及結果
初檢出相關文獻 20 347 篇,經逐層篩選,最終納入 12 個原創性藥物經濟學質量評價工具[3-16],其中最具有代表性的評估量表共有 5 個[10-13, 15]。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:PubMed(
2.2 重要原創評估量表概述
1987 年,Drummond 等[3]在《衛生保健項目經濟學評估方法》一書中提出的對經濟學評價進行質量評估的評估量表是國際上最早的藥物經濟學評價質量評估量表。該評估量表由研究問題、對照方案、項目服務有效性、成本和結果的識別、成本和產出的測量的準確性、成本和產出的測量的可信度、成本和費用的貼現、增量分析、不確定性分析、結論的適用性 10 個大條目、9 個小條目組成。
1992 年,Adams 等[4]基于 Drummond 的標準設計了評價表,來評價隨機對照試驗中經濟學評價的完整性。此評估量表主要由對照方案的識別、成本識別、效益識別、分配效應考量和成本效果整合五部分,共 21 個問題組成。每個問題都有相對應的特定選項,選項數量 2~12 個不等。
1992 年,Gerard 等[5]在評估量表制定過程中,納入了 12 名專家學者提出的意見,設計了一個包含背景特征、技術標準、成本、產出、政策相關標準和研究的整體質量 6 個一級條目和 37 個二級條目的評估量表,并將這些標準在三個成本效用評價研究中進行了測試。
1993 年,Sacristan 等[6]設計了由 12 個一級條目,40 個二級條目組成的評估量表。一級條目包括研究目的、樣本選擇、替代方案分析、研究角度分析、成本衡量、效益衡量、分析方法、結果分析、臨床研究評價方法、假設和局限性、倫理問題和結論。不同于上述評估量表每個問題都有其特定選項,此評估量表每個條目都以“正確的”、“可接受的”、“懷疑的”、“錯誤的”和“不適用的”五個選項進行判斷。
1995 年,美國醫藥研究與制造商協會(PhRMA)為其成員企業進行藥物經濟學評價制定了一套自愿采納的指導原則[7],由研究設計、方案或報告的結構、方案或報告的內容、成本或資源、產出或效益、數據來源和結果的外推性 7 個部分,共 20 個條目組成。這套原則由一個藥物經濟學專家組成的專家小組制定,并且在制定的每一個階段都有內部和外部的學者專家進行審閱。
1996 年,美國醫療衛生成本效果研究的專家小組(Panel on Cost-effectiveness in Health and Medicine)經過兩年半的討論,制定了由框架結構、數據和方法、結果和討論 4 部分組成,共 37 個條目的評估量表[8, 9]。前期設計通過回顧成本效果分析的理論基礎、目前實施情況、可選擇的方法、已發表的評價以及對于相關方法和報告的評述形成草案,再由聯邦政府的方法學家、衛生機構官員及學術界專家進行評論審閱決定最終條目。
1996 年,BMJ 發表了由 Drummond 帶領的工作小組制定的質量評估量表 BMJ checklist[10]。評估量表由研究設計、數據收集、結果分析和闡釋 3 個主要部分,共 35 個條目組成。每個條目由是、否、不清楚和不適用來判斷。此評估量表主要針對完整的經濟學評價進行質量評估,但“不適用”這一選項的設置使它也可以用來評估局部經濟學評價或報告。
2003 年,Chious 等[11]設計的 Quality of Health Economics Studies(QHES)是目前唯一一個對每條標準賦予權重的具有評分體系的評估量表。它由研究目標、研究角度、變量估計、亞組分析、不確定性分析、增量分析、分析方法、時間范圍、成本衡量、產出衡量、信度效度、模型選擇、假設和局限性、潛在偏倚、結論和資金來源 16 條標準組成。滿分 100 分,最低分 0 分。每條標準的權重通過對 120 位國際衛生經濟學專家的分析意見采用廣義線性回歸估計得到。作者在量表設計完成后對其進行了信度和效度檢驗。
2005 年,Evers 等[12]設計的 Consensus on Health Economic Criteria(CHEC)共由 19 個“是/否”問題組成。研究者在初步選擇了納入評估量表的條目后,采用三輪德爾菲法對這些條目進行篩選來創建最終評估量表。這是第一個基于德爾菲法產生的、被廣泛接受的經濟學評價量表,且只能對基于試驗的經濟學評價的文獻進行質量評估。
2006 年,Philips 等[13]發表的 Philips guidelines 則分為結構、數據和一致性 3 個維度,15 個主要部分共 61 個條目。主要部分包括決策問題或目的、研究角度或范圍、基本假設、對照組、模型類型、時間范圍、疾病類型、循環時長、數據定義、建模前數據分析、數據納入、不確定性評價、內部一致性和外部一致性。這是目前條目數量最多的評估量表,且只針對基于模型的經濟學評價的文獻進行質量評估。
2011 年,Grutters 等[14]發表了迄今條目最少的質量評價量表。作者通過查閱文獻,在與臨床醫生和政策制定者的合作交流下選擇了對于進行資源分配決策的衛生技術評估最重要的 11 個要素組成評估量表。11 個要素分別為研究目標、受眾、研究角度、研究人群、對照組、臨床實踐、時間范圍、結果、病人使用、專家使用、價格和資源使用。
2013 年,國際藥物經濟學與產出研究學會(International Society of Pharmacoeconomics and Outcomes Research,ISPOR)發表了由 24 個條目及其相對應的建議組成的 Consolidated Health Economic Evaluation Reporting Standards(CHEERS)評估量表[15, 16]。ISPOR 專家小組由學者、臨床專家、企業、政府和編輯代表組成,基于已有的指南文件,通過系統綜述選出候選條目,經過兩輪德爾菲法后對候選條目進行篩查和修正形成 CHEERS。其評估量表條目根據藥物經濟學評價報告的文章結構進行歸類,分為標題和摘要、介紹、方法、討論和其他五部分。每條條目都有相應的證據和例子來進行闡釋說明。
2.3 評估量表特點及條目內容比較
本研究根據發表時間的先后、引用次數的多少、評估量表本身設計方法和條目數量等方面的代表性等,選擇了 BMJ checklist、QHES instrument、CHEC list、Philips guidelines 和 CHEERS 這 5 個量表進行比較分析。選擇理由如下:① 除 BMJ checklist 外,其他 4 個評估量表都發表于 2000 年以后,在設計過程中均考量了以前評估量表的不合理之處,更符合現在研究的要求;② 以上量表的被引用次數較多,即在國際上的認可程度和影響力較高;③ 這幾個評估量表特點鮮明,具有代表性,如 BMJ checklist 在進行衛生經濟學評價的質量評估時被引用次數最多,QHES 是唯一一個具有評分系統的評估量表,CHEC 是第一個使用德爾菲法篩選評估量表條目,Philips guidelines 是目前條目數量最多的評估量表,CHEERS 是最新發表的使用說明最詳細的質量評估量表。
本文使用目前最新的 CHEERS 作為參考,將評估量表中的建議以問題的方式進行描述,對這 5 個評估量表的條目內容進行統計和比較(表 1)。此外,我們還詳細列出了這 5 個評估量表分別適合的經濟學評價類型、設計過程、報告形式、條目數量、問題回答形式等 11 個方面的主要特點以方便研究者選擇比較(表 2)。通過分析發現,在研究角度、研究時限、成本和產出的貼現、對產出衡量類型的選擇和衡量方法、敏感性分析這幾個方面 5 個評估量表都有涉及。此外,目標人群和亞組人群基線特征的描述及選擇原因、替代方案的選擇、參數的相關信息、數據的提取和統計分析方法、增量分析、研究結論的缺陷和可推廣性在其中 4 個評估量表被提及。由此可見,評估藥物經濟學報告質量的重要標準具有明顯一致性。但另一方面,如研究的利益沖突方等 3 條標準僅在其中一個或兩個評估量表中出現,這就表明目前在某些條目的重要程度判斷上面不同量表意見不一致。


2.4 評估量表的質量評估
目前已有的評估量表中只有 QHES 在設計完成后對評估量表的信度和效度進行了測量。研究者選擇了 60 位國際上的專家對三個藥物經濟學評價報告質量進行評估,先采用視覺模擬評分法(visual analogue scale,VAS),再使用 QHES 對這三篇報告分別進行評分。然后用 Spearman 秩檢驗(rho=0.78,P<0.0001)和 Wilcoxon 秩和檢驗(P=0.53)來檢驗建構效度,再用協方差分析(F=5.97,P=0.001)檢驗他們的區分效度。同時還對這個評分體系和專家的全球評分的一致性進行了評分者間效度檢驗,結果均顯示一致性較好[11]。
除此之外,Gerard 等[17]通過采用 BMJ checklist 對 43 篇成本效用分析的經濟學評價報告在同行之間進行了評估,得出 BMJ checklist 的評判者間信度為 80%。Gerkens 基于對 9 篇手術治療肥胖癥的經濟學評價文章進行質量評估,對 BMJ checklist、CHEC 和 QHES 評估量表做出了比較。結果顯示這三個評估量表間的 Spearman 相關系數很高(rho>0.7),重測信度也都比較好,分別為 BMJ checklist 0.98[95%CI(0.86,0.99)],CHEC 0.97[95%CI(0.73,0.99)],QHES 0.95[95%CI(0.75,0.99)]。但它們評分者間的一致性比較差(大部分條目的 K 值<0.4,且組內相關系數 ICC≤0.5)[18]。
Langer 等[19]設計了一個框架來對目前已有的衛生經濟學報告質量評估工具進行評價。框架中除了包括上面提到的信度效度檢驗之外,還從評估量表設計的目的和范圍、利益相關者的參與程度、評估量表設計過程的嚴謹性、評估量表呈現的清晰程度、評估量表的適用性和對評估量表的整體評價七個方面對其進行評價。并應用這一框架對 BMJ checklist、QHES、CHEC、Philips guidelines 4 個評估量表進行了評價,結果顯示 4 個評估量表各有利弊,但都沒有完全滿足這一框架的所有評價標準。其中,QHES 滿足的評價標準數量最多,BMJ checklist 滿足的數量最少。其中有 10 條評價標準,4 個評估量表沒有一個能夠滿足。例如:全部設計參與者都是相關領域權威專家、說明評估量表更新審閱日期、對信度效度的所有方面都進行測量等。
3 討論
藥物經濟學評價研究的質量高低決定了其應用到決策環境中的采信度,所以對藥物經濟學評價進行質量評估具有重要意義。使用藥物經濟學評價研究的質量評估工具,可以幫助決策者區分高質量和低質量的證據,為決策過程中高效配置醫療衛生資源提供有力的證據參考[20]。同時,能夠幫助期刊審稿專家和讀者對低質量藥物經濟學評價文獻進行甄別。但目前藥物經濟學研究的質量評價方法還沒有統一標準。因此,就如何選擇合適的質量評價工具,我們通過本文對國際上主要的質量評價工具進行總結分析后,提出以下建議:
① 根據經濟學評價的類型,BMJ checklist 和 CHEERS 適用范圍更廣,可用于所有類型經濟學研究的質量評價,既包括基于試驗的也包括基于模型的。除了以上兩者外,針對基于模型的經濟學評價可以選擇 QHES 和 Philips guidelines,針對基于臨床試驗和觀察性的研究建議選擇 CHEC 評估量表。
② 如果希望以量化的方式對藥物經濟學評價的文獻質量進行評估,那么建議選擇 QHES 評估量表。因為僅 QHES 采用定量評分,其他工具都是定性評分且條目大都是主觀和開放式的。但進行評估工具選擇時也要考慮 QHES 局限性:其效度只是通過對三個經濟學評價報告的質量評估進行測量,且由于樣本量有限,所以其預計效度效力有限。
③ 注重評估量表的時效性和可操作性時,建議選擇 CHEERS 評估量表。其優勢在于它是由一支目前國際上多學科的在經濟學評價和報告方面知名的編輯和專家團隊完成的,且和當前廣泛采用的報告和指南中提出的建議相符。專家小組還對評估量表中的每條條目都給出了使用建議及例子,加之它是從文章結構方面對評估量表條目進行分類,因此實際評價時的可操作性更強。
除了文中所總結的國際上主要使用的藥物經濟學評價質量評估量表外,國內學者也在其基礎上嘗試制定我國自己的評價標準。《中國藥物經濟學評價指南(2011 版)》[21]就如何評估藥物經濟學文獻質量給出了由 7 個一級項目,14 個二級項目構成的評估量表;吳久鴻等[22]在 2015 年就藥物經濟學研究質量評定的主要研究要素進行了總結,包括研究的問題和目的、替代方案的選擇、決策分析模型的應用等七個方面;伍紅艷等[23]參考 CHEERS、BMJ guidelines、QHES 和《中國藥物經濟學評價指南》于 2015 年設計了一個包含 5 個一級指標,24 個二級指標的文獻質量評價框架;王小藝等[24]則在參考各國藥物經濟學指南,以及 QHES、BMJ guidelines、CHEC 等評估量表后,采用德爾菲專家咨詢法于 2016 年確定了 26 個藥物經濟學研究質量評價指標。
藥物經濟學評價的質量評估目前還不存在一個“金標準”,已有質量評估工具仍存在各種問題。其質量評估結果更多地是受評價者而不是所使用評價工具的影響,所以已有評估量表的信度和效度還有待進一步檢驗[18]。另外,具有評分體系的評估量表也有待發展和完善。同時,在眾多被評價要素中,某一要素的高質量優勢是否能一定程度上彌補另一要素的缺陷,這些問題都還需要未來的研究給出答案[20]。一個具有廣泛適應性和推廣性的、高質量藥物經濟學評價的質量評估工具還有待進一步更新和發展。