引用本文: 周鵬翔, 閆盈盈, 翟所迪. 國內醫院藥學人員系統評價/Meta 分析的方法學與報告質量評價. 中國循證醫學雜志, 2017, 17(2): 228-234. doi: 10.7507/1672-2531.201608070 復制
循證藥物評價遵循循證醫學的臨床實踐“五步法”,即提出問題-查找證據-評價證據-應用證據-后效評價[1],評價證據是其中重要一環。高質量的系統評價/Meta 分析是最佳證據的重要來源,是評價臨床療效、制定臨床指南和規范的基石[2],也是醫務工作者和醫藥衛生政策制定和決策者在決策時的強有力證據支持。因此,有必要對系統評價/Meta分析進行質量評價。
質量評價主要包括方法學質量和報告質量兩個方面。方法學質量是衡量系統評價/Meta 分析在研究設計和實施過程中對偏倚來源的控制情況[3],使結果更具真實性。AMSTAR(A Measurement Tool to Assess Systematic Reviews)工具因其方法學評價全面和豐富,且經過許多研究者應用,證實其具有較好的信度、效度和實用性[4, 5]。報告質量反映了系統評價/Meta 分析報告內容的規范性和全面性。PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)聲明為作者全面而清晰地報告系統評價/Meta 分析提供了結構化的指導,增強了報告的清晰性和條理性,能最大程度地提供研究信息,同時也給審稿人評審稿件帶來便利[6, 7]。
目前,國內系統評價/Meta 分析的質量評價在護理[5]、骨科[8]、中醫藥[9]、公共衛生[10]、口腔醫學[11]、兒科[12]、醫院藥學領域[13]等已有文獻發表。閆盈盈等[13]采用 OQAQ 和 PRISMA 對 2011 年前國內醫院藥學領域系統評價/Meta 分析的文獻質量進行評價,結果表明該領域發展迅速,但方法學與報告質量有待提高。但近 5 年來該領域人員發表的文獻質量狀況尚不清楚。
本研究旨在對國內醫院藥學人員發表的系統評價/Meta 分析進行文獻質量評價,了解存在的問題,以期進一步規范系統評價/Meta 分析,提高方法學和報告質量。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準 ① 國內醫院藥學人員;② 第一作者或通訊作者為醫院藥學部門(藥劑科、藥學部、藥房等)人員撰寫的系統評價或 Meta 分析;③ 系統評價內容為藥品評價、基因多態性或其他與醫院藥學相關的領域;④ 文獻語種為中文和英文,干預措施及結局指標不限。
1.1.2 排除標準 ① 未注明作者單位或無法判斷是否為醫院藥學人員撰寫的文獻;② 系統評價或 Meta 分析理論研究的文獻;③ 會議、學位論文等未在正式期刊發表的文獻;④ 重復發表或不能獲得全文的文獻;⑤ 不適用于本研究所選量表的相關文獻,如綜述等;⑥ 非中國大陸地區人員撰寫的文獻;⑦ 回信、評論或系統評價研究方案等。
1.2 檢索策略
計算機檢索 CNKI、WanFang Data、VIP、CBM、CMCI、PubMed、EMbase、The Cochrane Library 數據庫,檢索時限為建庫到 2016 年 3 月 17 日。中文檢索詞包括:系統評價、系統綜述、薈萃分析、Meta 分析、循證評價、循證醫學、循證藥學;藥劑科、藥學部、藥房。英文檢索詞包括:meta analysis、meta-analysis、systematic review;department of pharmacy、department of clinical pharmacy、department of clinical pharmacology、department of pharmaceutical science、clinical pharmacy research institute;hospital*;China。組內用 OR 連接,組間用 AND 連接。同時進行手工補充檢索納入研究的參考文獻以及其他相關雜志。以 PubMed 為例,其具體檢索策略見框 1。
1.3 文獻篩選與資料提取
兩位評價者(周鵬翔,閆盈盈)嚴格按照納入排除標準篩選文獻,通過閱讀標題、摘要、作者信息和全文后,根據預先設計的 Excel 表格進行提取。提取的內容包括標題、第一作者、通訊作者、作者單位、地域、雜志、年份、藥物類別、研究內容等,對中文文獻的下載量和引用量使用中國學術文獻網絡出版總庫查詢,英文研究提取期刊影響因子。若篩選及提取結果遇到問題,則與通訊作者(翟所迪)討論。
1.4 文獻質量評價
本研究采用 PRISMA 和 AMSTAR 兩種工具評價報告質量和方法學質量。PRISMA 量表包括 7 個方面 27 個條目,根據文獻對各個條目的報告符合程度進行打分,若全部符合按“完整報告”記 1 分,若部分符合按“部分報告”記 0.5 分,若未提及按“未報告”記 0 分,總分 27 分。當文獻評分為 21~27 分時,認為報告相對完全;當評分為 15~21 分時,認為報告有一定缺陷;當評分為 15 以下時,認為有相對嚴重的信息缺失[14]。AMSTAR 量表包括 11 個條目,每個條目分別用“完整報告”記 1 分,“部分報告”記 0.5 分和“未報告”記 0 分來評價,總分 11 分。文獻評分為 0~4 分為低質量,5~8 分為中等質量,9~11 分為高質量[9]。
采用 Excel 軟件建立質量評價量表。先對評價者(周鵬翔,閆盈盈)進行統一培訓和預評,對預評中存在的問題進行討論并達成一致后,制定評分細則和注意事項,合格后開始正式評價,如遇問題,則通過與通訊作者(翟所迪)討論解決。
1.5 數據分析
采用 Excel 和 SPSS 20.0 進行數據統計分析,分別計算 PRISMA 和 AMSTAR 量表中各條目“完整報告”、“部分報告”和“未報告”的研究數和百分比。總分的平均值若符合正態分布,表示為均數±標準差(),若不符合正態分布,則表示為中位數(下四分位,上四分位)(Median(Q1,Q3));兩組間比較采用獨立樣本 t 檢驗。進行 Pearson 分析,探討 PRISMA 評分與 AMSTAR 評分、量表評分分別與下載量和引用量之間的相關性。P<0.05 為差異有統計學意義。
2 結果
2.1 文獻篩選及檢索結果
初檢共獲得 5 127 篇文獻(中文文獻 4 620 篇、英文文獻 738 篇),利用 NoteExpress 軟件進行剔重和文獻篩選,經過逐層篩選,最終納入 1 018 篇文獻,其中中文 871 篇,英文 147 篇。文獻篩選流程及結果見圖 1。

2.2 納入文獻質量評價
經對 PRISMA 和 AMSTAR 量表各項進行逐一評價,納入文獻的報告質量基本情況見表 1,方法學質量見表 2。獨立樣本 t 檢驗結果表明,英文文獻報告和方法學平均分均高于英文文獻(P<0.000 1);大部分中文文獻存在一定的報告缺陷,方法學質量中等;大部分英文文獻報告相對完全,但方法學質量中等。


2.2.1 文獻報告質量評價(PRISMA) 在條目符合程度方面,無一篇文獻完整報告了 27 個條目。在中文文獻中,標題的“完整報告”率最高(99.43%);僅 1 篇研究完整地報告了結構式摘要。在前言部分,779 篇文獻詳細地闡明了理論基礎(91.73%),僅 10 篇報告了目的(1.15%)。在方法部分,信息來源、效應指標和合并結果均有較詳盡的報道,但方案和注冊僅有 3 篇文獻提供(0.34%)。在結果部分,研究篩選、單個研究結果和合并結果符合程度較高;347 篇研究在討論部分充分考慮了局限性(39.84%);197 篇研究涉及了利益沖突(22.62%)。在英文文獻中,理論基礎、效應指標、合并結果(方法)、單個研究結果、合并結果和結論的“完整報告”率均達到了 98%,利益沖突的報道率達 87.84%。在條目的平均分方面,與符合程度趨勢一致,詳見圖 2。

2.2.2 文獻方法學質量評價(AMSTAR) 在條目符合程度方面,無一研究按規范完整報告量表的全部 11 個條目。中文文獻中,符合程度較好的是前期設計方案(94.83%)、合并方法(98.97%)、篩選和提取的可重復性(76.58%)和納入研究的科學性(84.73%);無一研究提供納入或排除清單,僅有 12 篇研究(1.38%)全面地考慮了發表情況。英文文獻中,符合程度較好的有結論推導(91.16%)和合并方法(99.23%),僅有 3 篇研究較為全面地考慮了發表情況(2.04%),有 7 篇研究提供了納入排除清單(4.76%)。在條目的平均分方面,與符合程度趨勢一致,詳見圖 3。

2.3 報告及方法學質量的影響因素分析
影響 PRISMA 及 AMSTAR 量表評分的單因素分析結果顯示:① 量表發表時間:PRISMA 量表發布前(2008 年及以前)評分明顯低于發布后(2009 年及以后),AMSTAR 量表發布前(2007 年及以前)評分明顯低于發布后(2008 年及以后);② 語種差異:英文研究的報告質量高于中文研究;③ 資金支持與利益沖突:有資金支持的文獻的評分明顯高于無資金支持的文獻,闡明利益沖突的文獻的評分高于未闡明利益沖突的文獻。上述影響因素統計學均有顯著性差異(P<0.000 1)。結果詳見表 3。

2.4 相關性分析
對納入文獻的 PRISMA 評分和 AMSTAR 評分進行 Pearson 相關性分析,結果顯示兩者上顯著相關,r=0.777(P<0.000 1)。對文獻的下載量和引用量的研究進行 Pearson 相關性分析,結果顯示:下載量和引用量之間顯著相關,r=0.697(P<0.0001)。下載量與 PIRSMA 評分和 AMSTAR 評分之間均無顯著相關性(P>0.05);引用量與 PRISMA 評分之間無顯著相關性(P>0.05),而與 AMSTAR 評分之間有相關性,r=0.070(P=0.045),這表明具有較高質量方法學的文獻可能得到更多的引用。
3 討論
3.1 納入文獻的報告質量
從 PIRSMA 評分結果可知,最高分為 26.5 分,最低分為 7.5 分,均為中文文獻;英文文獻平均分高于中文文獻。大部分中文文獻屬于“報告有一定缺陷”,且有 11% 嚴重缺陷;超過半數的英文文獻報告相對完全,僅有一篇存在嚴重缺陷。可見,國內醫院藥學人員發表的中文研究報告質量有待進一步提高,其總體質量低于英文研究。
本研究納入的文獻中均存在不同程度的信息缺陷,主要存在以下不足:① 摘要方面:僅有 1 篇中文文獻和 2 篇英文文獻完整報告了結構式摘要,絕大部分摘要存在信息缺失。這可能與 PIRMSA 量表要求全面報道結構化摘要有關,可能與各雜志對摘要的字數限制向矛盾。② 前言部分:研究目的存在不同程度的信息缺失,極少有研究的問題構建基于 PICOS 原則(即研究人群、干預或暴露因素、對照干預或因素、主要結局和研究類型),多數研究將理論背景與研究目的混雜書寫。③ 方法學部分:僅有 3 篇中文文獻和 2 篇英文文獻較為完整地報告了方案或注冊信息,絕大多數研究未進行報到。系統評價進行注冊可以減少對于同一個選題進行過多系統評價的風險,也可在更新時提高透明度和可信度[15],制定研究方案也可使研究具有一定的前瞻性。絕大多數的研究闡明了信息來源,但大部分沒有提供詳細的檢索式,多數以檢索詞和邏輯關聯詞表示,這不利于讀者或研究者重復檢索過程。較少數的文獻對研究間偏倚和補充分析的方法進行描述。④ 結果部分:約 90% 的研究詳細報告了篩選過程和研究特征,但應用流程圖來表示的較少,較多研究特征的描述缺乏 PICOS。特征描述可以讓讀者了解系統綜述和 Meta 分析的研究范圍、結果的實用性和可能的偏倚影響,也有助于研究者開展亞組分析和解釋其結果[5]。⑤ 討論部分:證據強度的總結有助于闡明研究針對的人群、實際環境和利益相關者之間的關系,但大部分研究報告不完整;約 40% 的中文文獻和 85% 的英文文獻討論了局限性,讀者可以通過局限性了解該研究的各種偏倚因素、研究過程的不足和結果的適用性,有利于提高循證證據的可信度。⑥ 資金部分:約 22% 的中文研究和 88% 的英文研究報道了資金支持情況,潛在的利益相關可能影響研究設計、執行和陽性結果的報道,讀者在使用存在利益沖突的文獻結果時應謹慎,忽略對利益相關性報道可能會夸大結果的解讀[15]。
3.2 納入文獻的方法學質量
從 AMSTAR 評分結果可知,最高分為 10.5 分,最低分為 2.5 分,中文的平均分低于英文。“中等質量”的研究占大部分,僅有少數的中文和 35% 的英文文獻屬于“高質量”,有約 5% 的中文研究屬于“低質量”,無“低質量”的英文研究。
納入的文獻均有不同程度的方法學缺陷,存在的主要問題如下:① 較少文獻完整報告了前期設計方案。設計方案或注冊號的提供有助于研究保持前瞻性,多數納入排除標準未依據 PICOS 原則構建,一部分研究未提供排除標準。② 僅有 12 篇(1.38%)中文研究和 3 篇(2.04%)英文研究全面地考慮了發表情況,包括灰色文獻與語言限制。一個高質量的系統評價/Meta 分析應該在可能情況下包括各種類型的文獻,即使是灰色文獻[3],大多數的文獻僅將語言限制在中文和英文兩種,其產生結果的結果很有可能發生偏倚,這與研究者的語言限制以及其他語種相關數據庫的缺乏密切相關。③ 絕大部分中英文研究沒有提供完整的納入或排除清單,多數僅提供納入文獻清單,這可能與雜志版面限制有關。而完整的納入排除清單可清晰地呈現研究者的文獻篩選結果,從而使證據使用者易于判斷納入的文獻質量,降低選擇性偏倚。
3.3 納入文獻報告與方法學質量的影響因素分析
本研究對多種可能影響報告質量或方法學質量的因素進行分析:① 工具/量表發表時間:PRISMA 量表與 AMSTAR 量表發表后的相應評分均高于發表前,差異具有統計學意義,這表明兩個量表的發布對于系統評價/Meta 分析的報告和方法學質量均有所提高。② 英文文獻評分顯著性高于中文,這可能與國內外雜志刊登要求有關。國內期刊往往因其版面字數的限制,可能存在部分信息的缺失和偏倚,而國外期刊則提供更多版面并具有較為嚴謹科學的審稿制度。
3.4 相關性分析
Pearson 相關性分析顯示,報告質量評分與方法學質量評分呈顯著相關性,說明方法學質量較高的研究其報告也更加規范,兩者相輔相成。但報告質量與方法學質量也有差別,報告質量好的研究不一定方法學正確,反之報告質量較差的研究同樣可能具有較好的方法學,但較差報告質量影響結果的實用性[10]。
另外,文獻的下載量和引用量之間存在顯著相關性,下載量代表一篇研究的受關注程度,而引用量則表示該研究的被認可程度;文獻下載量與兩個量表的評分均無相關性,說明研究報告是否規范、方法學是否嚴謹與下載量并無太大聯系,但引用量卻與方法學質量呈現相關,R 相對較小,表明具有較高質量方法學的研究易被引用,因而獲得更廣泛的認可。
3.5 優勢與局限性
本研究納入了醫院藥學人員發表的所有系統評價/Meta 分析,文獻量較大。對醫院藥學循證藥物評價的研究質量進行了詳盡的評價,了解了質量全貌;明確了目前研究質量中存在的具體問題,為后續的研究質量進一步提高提供了較高參考價值。
本研究的局限性有如下幾點:由于檢索策略的限制,檢索可能存在漏檢情況,如無法檢索到以“醫院”或其他科室署名的藥學人員撰寫的系統評價/Meta 分析;本研究將兩個量表各條目均賦值為“1 分”,但各條目在質量評價中的權重不一定相同,可能存在一定的偏倚;盡管根據相關文獻制定了詳盡的量表的客觀評價標準,但在評價過程中仍可能存在一定的主觀性;本研究未對實際臨床價值和應用時的可行性進行評價。
3.6 建議
基于本研究的結果,我們提出如下建議,為后續的研究和評價標準提供參考:① 加強系統評價/Meta 分析以及循證藥學相關內容的培訓。醫院藥學人員作為循證藥學證據的主要評價者,應熟練掌握報告的方法學和規范,應系統地學習并遵守相應的聲明與原則,并在形成系統評價/Meta 分析后根據量表通過研究者雙人交叉核對的方式,及時補充缺失的信息。② 各期刊編輯部在審查系統評價/Meta 分析時,應由循證醫學、藥物流行病學或衛生統計學相關背景的專業人員把關,全面評價方法學及報告質量,最好可獲得作者提供的量表各條目對應信息,從而判斷其質量;另外,有條件的期刊可開設系統評價/Meta 分析的專欄,減少字數和版面限制,這有利于更高質量循證證據的發表。③ 目前,國內仍缺乏具有國際影響力的方案及注冊平臺,有條件的循證醫學中心及醫院單位可在國家政策的支持下聯合進行平臺的建設,這不僅可節約科研資源、避免重復工作,也可通過方案注冊等提高證據質量,使臨床證據可高效率利用和實踐,并加強國際交流與合作。④ 在保證系統評價/Meta 分析的方法學和報告質量的同時,也需要重點關注研究選題意義、臨床應用的可行性以及后效評價。
3.7 結論
國內醫院藥學領域的循證藥學評價近年來發展迅速,報告與方法學質量逐年提升,但發表的系統評價/Meta 分析仍存在不同程度的問題。未來應在進一步提高研究質量的同時,積極開展對證據的臨床意義、實際應用情況及后效評價的研究。
循證藥物評價遵循循證醫學的臨床實踐“五步法”,即提出問題-查找證據-評價證據-應用證據-后效評價[1],評價證據是其中重要一環。高質量的系統評價/Meta 分析是最佳證據的重要來源,是評價臨床療效、制定臨床指南和規范的基石[2],也是醫務工作者和醫藥衛生政策制定和決策者在決策時的強有力證據支持。因此,有必要對系統評價/Meta分析進行質量評價。
質量評價主要包括方法學質量和報告質量兩個方面。方法學質量是衡量系統評價/Meta 分析在研究設計和實施過程中對偏倚來源的控制情況[3],使結果更具真實性。AMSTAR(A Measurement Tool to Assess Systematic Reviews)工具因其方法學評價全面和豐富,且經過許多研究者應用,證實其具有較好的信度、效度和實用性[4, 5]。報告質量反映了系統評價/Meta 分析報告內容的規范性和全面性。PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)聲明為作者全面而清晰地報告系統評價/Meta 分析提供了結構化的指導,增強了報告的清晰性和條理性,能最大程度地提供研究信息,同時也給審稿人評審稿件帶來便利[6, 7]。
目前,國內系統評價/Meta 分析的質量評價在護理[5]、骨科[8]、中醫藥[9]、公共衛生[10]、口腔醫學[11]、兒科[12]、醫院藥學領域[13]等已有文獻發表。閆盈盈等[13]采用 OQAQ 和 PRISMA 對 2011 年前國內醫院藥學領域系統評價/Meta 分析的文獻質量進行評價,結果表明該領域發展迅速,但方法學與報告質量有待提高。但近 5 年來該領域人員發表的文獻質量狀況尚不清楚。
本研究旨在對國內醫院藥學人員發表的系統評價/Meta 分析進行文獻質量評價,了解存在的問題,以期進一步規范系統評價/Meta 分析,提高方法學和報告質量。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準 ① 國內醫院藥學人員;② 第一作者或通訊作者為醫院藥學部門(藥劑科、藥學部、藥房等)人員撰寫的系統評價或 Meta 分析;③ 系統評價內容為藥品評價、基因多態性或其他與醫院藥學相關的領域;④ 文獻語種為中文和英文,干預措施及結局指標不限。
1.1.2 排除標準 ① 未注明作者單位或無法判斷是否為醫院藥學人員撰寫的文獻;② 系統評價或 Meta 分析理論研究的文獻;③ 會議、學位論文等未在正式期刊發表的文獻;④ 重復發表或不能獲得全文的文獻;⑤ 不適用于本研究所選量表的相關文獻,如綜述等;⑥ 非中國大陸地區人員撰寫的文獻;⑦ 回信、評論或系統評價研究方案等。
1.2 檢索策略
計算機檢索 CNKI、WanFang Data、VIP、CBM、CMCI、PubMed、EMbase、The Cochrane Library 數據庫,檢索時限為建庫到 2016 年 3 月 17 日。中文檢索詞包括:系統評價、系統綜述、薈萃分析、Meta 分析、循證評價、循證醫學、循證藥學;藥劑科、藥學部、藥房。英文檢索詞包括:meta analysis、meta-analysis、systematic review;department of pharmacy、department of clinical pharmacy、department of clinical pharmacology、department of pharmaceutical science、clinical pharmacy research institute;hospital*;China。組內用 OR 連接,組間用 AND 連接。同時進行手工補充檢索納入研究的參考文獻以及其他相關雜志。以 PubMed 為例,其具體檢索策略見框 1。
1.3 文獻篩選與資料提取
兩位評價者(周鵬翔,閆盈盈)嚴格按照納入排除標準篩選文獻,通過閱讀標題、摘要、作者信息和全文后,根據預先設計的 Excel 表格進行提取。提取的內容包括標題、第一作者、通訊作者、作者單位、地域、雜志、年份、藥物類別、研究內容等,對中文文獻的下載量和引用量使用中國學術文獻網絡出版總庫查詢,英文研究提取期刊影響因子。若篩選及提取結果遇到問題,則與通訊作者(翟所迪)討論。
1.4 文獻質量評價
本研究采用 PRISMA 和 AMSTAR 兩種工具評價報告質量和方法學質量。PRISMA 量表包括 7 個方面 27 個條目,根據文獻對各個條目的報告符合程度進行打分,若全部符合按“完整報告”記 1 分,若部分符合按“部分報告”記 0.5 分,若未提及按“未報告”記 0 分,總分 27 分。當文獻評分為 21~27 分時,認為報告相對完全;當評分為 15~21 分時,認為報告有一定缺陷;當評分為 15 以下時,認為有相對嚴重的信息缺失[14]。AMSTAR 量表包括 11 個條目,每個條目分別用“完整報告”記 1 分,“部分報告”記 0.5 分和“未報告”記 0 分來評價,總分 11 分。文獻評分為 0~4 分為低質量,5~8 分為中等質量,9~11 分為高質量[9]。
采用 Excel 軟件建立質量評價量表。先對評價者(周鵬翔,閆盈盈)進行統一培訓和預評,對預評中存在的問題進行討論并達成一致后,制定評分細則和注意事項,合格后開始正式評價,如遇問題,則通過與通訊作者(翟所迪)討論解決。
1.5 數據分析
采用 Excel 和 SPSS 20.0 進行數據統計分析,分別計算 PRISMA 和 AMSTAR 量表中各條目“完整報告”、“部分報告”和“未報告”的研究數和百分比。總分的平均值若符合正態分布,表示為均數±標準差(),若不符合正態分布,則表示為中位數(下四分位,上四分位)(Median(Q1,Q3));兩組間比較采用獨立樣本 t 檢驗。進行 Pearson 分析,探討 PRISMA 評分與 AMSTAR 評分、量表評分分別與下載量和引用量之間的相關性。P<0.05 為差異有統計學意義。
2 結果
2.1 文獻篩選及檢索結果
初檢共獲得 5 127 篇文獻(中文文獻 4 620 篇、英文文獻 738 篇),利用 NoteExpress 軟件進行剔重和文獻篩選,經過逐層篩選,最終納入 1 018 篇文獻,其中中文 871 篇,英文 147 篇。文獻篩選流程及結果見圖 1。

2.2 納入文獻質量評價
經對 PRISMA 和 AMSTAR 量表各項進行逐一評價,納入文獻的報告質量基本情況見表 1,方法學質量見表 2。獨立樣本 t 檢驗結果表明,英文文獻報告和方法學平均分均高于英文文獻(P<0.000 1);大部分中文文獻存在一定的報告缺陷,方法學質量中等;大部分英文文獻報告相對完全,但方法學質量中等。


2.2.1 文獻報告質量評價(PRISMA) 在條目符合程度方面,無一篇文獻完整報告了 27 個條目。在中文文獻中,標題的“完整報告”率最高(99.43%);僅 1 篇研究完整地報告了結構式摘要。在前言部分,779 篇文獻詳細地闡明了理論基礎(91.73%),僅 10 篇報告了目的(1.15%)。在方法部分,信息來源、效應指標和合并結果均有較詳盡的報道,但方案和注冊僅有 3 篇文獻提供(0.34%)。在結果部分,研究篩選、單個研究結果和合并結果符合程度較高;347 篇研究在討論部分充分考慮了局限性(39.84%);197 篇研究涉及了利益沖突(22.62%)。在英文文獻中,理論基礎、效應指標、合并結果(方法)、單個研究結果、合并結果和結論的“完整報告”率均達到了 98%,利益沖突的報道率達 87.84%。在條目的平均分方面,與符合程度趨勢一致,詳見圖 2。

2.2.2 文獻方法學質量評價(AMSTAR) 在條目符合程度方面,無一研究按規范完整報告量表的全部 11 個條目。中文文獻中,符合程度較好的是前期設計方案(94.83%)、合并方法(98.97%)、篩選和提取的可重復性(76.58%)和納入研究的科學性(84.73%);無一研究提供納入或排除清單,僅有 12 篇研究(1.38%)全面地考慮了發表情況。英文文獻中,符合程度較好的有結論推導(91.16%)和合并方法(99.23%),僅有 3 篇研究較為全面地考慮了發表情況(2.04%),有 7 篇研究提供了納入排除清單(4.76%)。在條目的平均分方面,與符合程度趨勢一致,詳見圖 3。

2.3 報告及方法學質量的影響因素分析
影響 PRISMA 及 AMSTAR 量表評分的單因素分析結果顯示:① 量表發表時間:PRISMA 量表發布前(2008 年及以前)評分明顯低于發布后(2009 年及以后),AMSTAR 量表發布前(2007 年及以前)評分明顯低于發布后(2008 年及以后);② 語種差異:英文研究的報告質量高于中文研究;③ 資金支持與利益沖突:有資金支持的文獻的評分明顯高于無資金支持的文獻,闡明利益沖突的文獻的評分高于未闡明利益沖突的文獻。上述影響因素統計學均有顯著性差異(P<0.000 1)。結果詳見表 3。

2.4 相關性分析
對納入文獻的 PRISMA 評分和 AMSTAR 評分進行 Pearson 相關性分析,結果顯示兩者上顯著相關,r=0.777(P<0.000 1)。對文獻的下載量和引用量的研究進行 Pearson 相關性分析,結果顯示:下載量和引用量之間顯著相關,r=0.697(P<0.0001)。下載量與 PIRSMA 評分和 AMSTAR 評分之間均無顯著相關性(P>0.05);引用量與 PRISMA 評分之間無顯著相關性(P>0.05),而與 AMSTAR 評分之間有相關性,r=0.070(P=0.045),這表明具有較高質量方法學的文獻可能得到更多的引用。
3 討論
3.1 納入文獻的報告質量
從 PIRSMA 評分結果可知,最高分為 26.5 分,最低分為 7.5 分,均為中文文獻;英文文獻平均分高于中文文獻。大部分中文文獻屬于“報告有一定缺陷”,且有 11% 嚴重缺陷;超過半數的英文文獻報告相對完全,僅有一篇存在嚴重缺陷。可見,國內醫院藥學人員發表的中文研究報告質量有待進一步提高,其總體質量低于英文研究。
本研究納入的文獻中均存在不同程度的信息缺陷,主要存在以下不足:① 摘要方面:僅有 1 篇中文文獻和 2 篇英文文獻完整報告了結構式摘要,絕大部分摘要存在信息缺失。這可能與 PIRMSA 量表要求全面報道結構化摘要有關,可能與各雜志對摘要的字數限制向矛盾。② 前言部分:研究目的存在不同程度的信息缺失,極少有研究的問題構建基于 PICOS 原則(即研究人群、干預或暴露因素、對照干預或因素、主要結局和研究類型),多數研究將理論背景與研究目的混雜書寫。③ 方法學部分:僅有 3 篇中文文獻和 2 篇英文文獻較為完整地報告了方案或注冊信息,絕大多數研究未進行報到。系統評價進行注冊可以減少對于同一個選題進行過多系統評價的風險,也可在更新時提高透明度和可信度[15],制定研究方案也可使研究具有一定的前瞻性。絕大多數的研究闡明了信息來源,但大部分沒有提供詳細的檢索式,多數以檢索詞和邏輯關聯詞表示,這不利于讀者或研究者重復檢索過程。較少數的文獻對研究間偏倚和補充分析的方法進行描述。④ 結果部分:約 90% 的研究詳細報告了篩選過程和研究特征,但應用流程圖來表示的較少,較多研究特征的描述缺乏 PICOS。特征描述可以讓讀者了解系統綜述和 Meta 分析的研究范圍、結果的實用性和可能的偏倚影響,也有助于研究者開展亞組分析和解釋其結果[5]。⑤ 討論部分:證據強度的總結有助于闡明研究針對的人群、實際環境和利益相關者之間的關系,但大部分研究報告不完整;約 40% 的中文文獻和 85% 的英文文獻討論了局限性,讀者可以通過局限性了解該研究的各種偏倚因素、研究過程的不足和結果的適用性,有利于提高循證證據的可信度。⑥ 資金部分:約 22% 的中文研究和 88% 的英文研究報道了資金支持情況,潛在的利益相關可能影響研究設計、執行和陽性結果的報道,讀者在使用存在利益沖突的文獻結果時應謹慎,忽略對利益相關性報道可能會夸大結果的解讀[15]。
3.2 納入文獻的方法學質量
從 AMSTAR 評分結果可知,最高分為 10.5 分,最低分為 2.5 分,中文的平均分低于英文。“中等質量”的研究占大部分,僅有少數的中文和 35% 的英文文獻屬于“高質量”,有約 5% 的中文研究屬于“低質量”,無“低質量”的英文研究。
納入的文獻均有不同程度的方法學缺陷,存在的主要問題如下:① 較少文獻完整報告了前期設計方案。設計方案或注冊號的提供有助于研究保持前瞻性,多數納入排除標準未依據 PICOS 原則構建,一部分研究未提供排除標準。② 僅有 12 篇(1.38%)中文研究和 3 篇(2.04%)英文研究全面地考慮了發表情況,包括灰色文獻與語言限制。一個高質量的系統評價/Meta 分析應該在可能情況下包括各種類型的文獻,即使是灰色文獻[3],大多數的文獻僅將語言限制在中文和英文兩種,其產生結果的結果很有可能發生偏倚,這與研究者的語言限制以及其他語種相關數據庫的缺乏密切相關。③ 絕大部分中英文研究沒有提供完整的納入或排除清單,多數僅提供納入文獻清單,這可能與雜志版面限制有關。而完整的納入排除清單可清晰地呈現研究者的文獻篩選結果,從而使證據使用者易于判斷納入的文獻質量,降低選擇性偏倚。
3.3 納入文獻報告與方法學質量的影響因素分析
本研究對多種可能影響報告質量或方法學質量的因素進行分析:① 工具/量表發表時間:PRISMA 量表與 AMSTAR 量表發表后的相應評分均高于發表前,差異具有統計學意義,這表明兩個量表的發布對于系統評價/Meta 分析的報告和方法學質量均有所提高。② 英文文獻評分顯著性高于中文,這可能與國內外雜志刊登要求有關。國內期刊往往因其版面字數的限制,可能存在部分信息的缺失和偏倚,而國外期刊則提供更多版面并具有較為嚴謹科學的審稿制度。
3.4 相關性分析
Pearson 相關性分析顯示,報告質量評分與方法學質量評分呈顯著相關性,說明方法學質量較高的研究其報告也更加規范,兩者相輔相成。但報告質量與方法學質量也有差別,報告質量好的研究不一定方法學正確,反之報告質量較差的研究同樣可能具有較好的方法學,但較差報告質量影響結果的實用性[10]。
另外,文獻的下載量和引用量之間存在顯著相關性,下載量代表一篇研究的受關注程度,而引用量則表示該研究的被認可程度;文獻下載量與兩個量表的評分均無相關性,說明研究報告是否規范、方法學是否嚴謹與下載量并無太大聯系,但引用量卻與方法學質量呈現相關,R 相對較小,表明具有較高質量方法學的研究易被引用,因而獲得更廣泛的認可。
3.5 優勢與局限性
本研究納入了醫院藥學人員發表的所有系統評價/Meta 分析,文獻量較大。對醫院藥學循證藥物評價的研究質量進行了詳盡的評價,了解了質量全貌;明確了目前研究質量中存在的具體問題,為后續的研究質量進一步提高提供了較高參考價值。
本研究的局限性有如下幾點:由于檢索策略的限制,檢索可能存在漏檢情況,如無法檢索到以“醫院”或其他科室署名的藥學人員撰寫的系統評價/Meta 分析;本研究將兩個量表各條目均賦值為“1 分”,但各條目在質量評價中的權重不一定相同,可能存在一定的偏倚;盡管根據相關文獻制定了詳盡的量表的客觀評價標準,但在評價過程中仍可能存在一定的主觀性;本研究未對實際臨床價值和應用時的可行性進行評價。
3.6 建議
基于本研究的結果,我們提出如下建議,為后續的研究和評價標準提供參考:① 加強系統評價/Meta 分析以及循證藥學相關內容的培訓。醫院藥學人員作為循證藥學證據的主要評價者,應熟練掌握報告的方法學和規范,應系統地學習并遵守相應的聲明與原則,并在形成系統評價/Meta 分析后根據量表通過研究者雙人交叉核對的方式,及時補充缺失的信息。② 各期刊編輯部在審查系統評價/Meta 分析時,應由循證醫學、藥物流行病學或衛生統計學相關背景的專業人員把關,全面評價方法學及報告質量,最好可獲得作者提供的量表各條目對應信息,從而判斷其質量;另外,有條件的期刊可開設系統評價/Meta 分析的專欄,減少字數和版面限制,這有利于更高質量循證證據的發表。③ 目前,國內仍缺乏具有國際影響力的方案及注冊平臺,有條件的循證醫學中心及醫院單位可在國家政策的支持下聯合進行平臺的建設,這不僅可節約科研資源、避免重復工作,也可通過方案注冊等提高證據質量,使臨床證據可高效率利用和實踐,并加強國際交流與合作。④ 在保證系統評價/Meta 分析的方法學和報告質量的同時,也需要重點關注研究選題意義、臨床應用的可行性以及后效評價。
3.7 結論
國內醫院藥學領域的循證藥學評價近年來發展迅速,報告與方法學質量逐年提升,但發表的系統評價/Meta 分析仍存在不同程度的問題。未來應在進一步提高研究質量的同時,積極開展對證據的臨床意義、實際應用情況及后效評價的研究。