引用本文: 杜亮, 蔡羽嘉, 張永剛, 李幼平. 循證期刊學:過去、現在與未來. 中國循證醫學雜志, 2019, 19(6): 729-736. doi: 10.7507/1672-2531.201904152 復制
自 1991 年 Gordon Guyatt 教授提出“循證醫學”一詞以來[1],循證醫學至今已走過 28 年。循證醫學的理念和方法已深刻影響醫學實踐,全面提升了證據生產的質量和數量,推動了證據的轉化和臨床應用;建立了高質量證據生產、報告、評價、轉化的體系。循證臨床實踐指南、系統評價和 Meta 分析、臨床試驗的數量快速增長。2007 年,BMJ 在其網站通過投票選出自 1840 年以來最重要的醫學進展中,循證醫學位列第八[2],并被譽為“21 世紀的臨床醫學”。循證醫學的理念和方法迅速從臨床醫學領域向中醫藥學、公共衛生、護理學、藥學、臨床營養和社會科學等領域跨學科擴展。醫學期刊已廣泛接受循證醫學理念,JAMA、BMJ、Lancet、NEJM 等頂級醫學期刊成為循證醫學的主要倡導者和實踐者,發表了大量相關研究,成為醫學領域諸多里程碑事件的發起者和重要推動者。
期刊編輯與方法學家(循證醫學專家、臨床流行病學專家、統計學家)、臨床實踐者和衛生決策者廣泛合作,推動了報告規范、臨床試驗注冊、數據共享等影響深遠的衛生研究和發表的政策制訂和實施。兼具上述兩種或多種身份的專家不斷涌現,推動和創辦了“循證”冠名的期刊。陳耀龍等[3]的研究顯示:截止 2006 年,“循證”冠名期刊已達 24 種,涉及臨床、護理、衛生保健等 12 個學科,分布于 6 個國家,涵蓋中、英文兩個語種。目前被 SCIE、SSCI、ESCI 和 PubMed 收錄的“循證”冠名期刊分別達到 3 種、2 種、3 種和 20 種。
期刊作為循證決策與循證實踐的推動者,自身的運行卻因缺乏循證決策與循證實踐,很多環節仍是“黑箱操作”,缺乏透明性[4]。期刊領域的“循證研究”開展不多,觀察性和試驗性研究均很少,而以描述性研究居多。這在一定程度上導致生物醫學領域學術不端,發表的論文存在錯誤,缺乏重要性、科學性、可及性,及低質量報告高發,直接或間接導致了巨大的研究浪費。
1 學術不端在生物醫學領域呈現增長趨勢
國際上尚未對學術不端行為的定義達成共識,較公認的是美國公共衛生署、研究誠信辦公室對學術不端的定義:在研究設計、實施、評審或結果報告時的捏造、篡改數據和剽竊行為[5]。2012 年,Steen[6]報告:2000~2009 年期間 PubMed 數據庫中撤稿數量呈持續增長趨勢,其中因學術不端行為撤稿達 196 起,占所有撤稿的 26.4%。2011 年 Wanger 等[7]報告:近 10 年 WOS 撤稿數量增長了 10 倍,因捏造、篡改數據及剽竊等學術不端行為所致撤稿占所有撤稿的 44%,而同期發表文獻數增長僅 44%。Fang 等[8]對生命科學和生物醫學領域的 2 047 篇論文的綜合分析結果顯示,學術不端撤稿占 67.4%。而近年,因學術不端所致撤稿事件更是有增無減:2015 年 3 月,BMC 撤回 43 篇論文中 41 篇來自中國;8 月,Springer 撤回旗下 10 本學術期刊上發表的 64 篇論文,絕大部分來自中國;10 月,Elsevier 撤銷旗下 5 種雜志中的 9 篇論文,全部來自中國;2017 年 4 月,Springer 撤回旗下 Tumor Biology 上發表的 107 篇論文,均來自中國。2016 年,BMJ 報告稱:80% 中國新藥臨床試驗涉嫌數據造假[9]。2009 年,Wu 等[10]對發表在中文期刊上號稱“隨機對照試驗”的 1 000 余篇論文進行電話調查其隨機方法的實施情況,其中 93% 被判斷為假的隨機試驗。即便如此,學術不端仍在很大程度上被低估。此外,對研究過程中出現的一些問題是否屬于學術不端仍存在爭議,包括:未獲得倫理委員會批準、選擇性使用統計方法、忽略數據集中的異常值、刪除數據/隱藏或隱瞞數據、未披露利益沖突、重復發表、統計問題、著作權問題、數據管理/記錄問題等。
2 很多生物醫學論文存在錯誤和缺陷
除學術不端外,生物醫學研究的設計、實施、分析、報告的過程中還存在大量缺陷甚至錯誤,尤其在統計學方面,有些缺陷甚至能夠顛覆研究結論。1966 年,Schor 等[11]報告:在 JAMA 發表的 514 篇論文中,74% 有統計缺陷,7% 有致命缺陷。1998 年,王倩等[12]分析我國 5 種中華醫學會系列雜志論著中統計方法的使用情況發現:正確應用的比例僅 46%。2004 年 Lee 等[13]分析了 6 種藥學期刊發表的 144 篇論文發現:99 篇進行了統計分析,但其中僅 18% 的統計分析方法正確。2009 年 Afshar 等[14]報告:Journal of Urology 發表的 92 篇論文中,83% 對危險度(Ratios)的報告存在錯誤,78% 報告可信區間(CI)時存在錯誤,77% 在多元統計分析時存在錯誤,53% 在報告P值時存在錯誤,48% 在單因素統計分析時存在錯誤。2011 年,Kim 等[15]報告:1995~2009 年期間,發表在口腔科學領域的 418 篇文章中 51% 的論文包含至少一處統計學錯誤。此外,生物醫學研究設計的缺陷可能導致系統性錯誤,產生選擇性偏倚、測量偏倚和反向因果分析、過度的隨機變異和混雜,從而給使用者帶來誤導[16]。
3 生物醫學研究浪費高達 85%
生物醫學研究的過程包括研究的選題、設計、實施、分析、報告、傳播和監管等環節。2014 年,Lancet發表了系列研究[17-21],直擊生物醫學研究的浪費問題,深入討論了如何避免浪費,增加研究價值。據估計,2010 年全球生物醫學研究經費投入達 2 400 億美元,但其中 85%(約 2 000 億美元)存在浪費[22]。造成浪費的原因包括:① 研究問題的遴選:研究問題較少基于使用者的實際需求,或未關注重要的結局指標,有>50% 的研究并未基于系統評價結果立題。② 研究設計、方法和分析:>50% 的研究并未采用足夠的措施以降低研究偏倚,導致檢驗效能不足及研究結果的可重復性差。③ 研究監管:對因其他原因造成的浪費監管不足;監管程度應與研究可能的風險相匹配,過度監管和監管不足共存;監管給研究者和監管者均帶來負擔;監管缺乏一致性。④ 研究相關信息可及性:>50% 的研究因未完整報告而不可及;對陰性結果等不利結局因報告不足而不可及;研究的原始數據不可及。⑤ 研究報告:>30% 的試驗干預措施未清楚描述;>50% 的研究結局未充分報告;絕大多數研究未在系統評價其他相關證據的基礎上解釋研究結果。
這些問題與從研究立項到最終發表的全過程相關,發表環節既是研究過程完成的標志,也是研究成果傳播、轉化與應用的起點。生物醫學領域目前普遍存在重前端、輕后端的情況,對論文撰寫與發表環節資金投入不足,監管不夠,相關人員缺乏資質認證標準,能力不足,導致相關實踐與決策缺乏證據,特別是高質量研究缺乏的情況。
循證醫學推動了臨床實踐從經驗實踐到循證實踐的轉變,生物醫學期刊在實現這一轉變的過程中功不可沒。一些期刊主編和編輯也是循證醫學的倡導者、研究者和實踐者。但期刊自身的“循證決策”和透明化卻遠低于醫學領域,期刊運行在很大程度上仍屬于“黑箱操作”。故提高生物醫學期刊的透明化和公開化,減少存在學術不端、有缺陷(特別是嚴重缺陷)論文的發表,提高發表論文的質量、完整性和可及性,是生物醫學期刊的責任和使命。這一改革必須由期刊編輯、審稿人、研究者、出版商、基金機構、贊助商、監管者、用戶等利益相關方達成共識和共同參與。
4 創立期刊學對改善生物醫學研究質量、減少浪費、提高使用價值起到重要作用
1989 年“期刊學”(Journalologly)一詞最早在美國芝加哥召開的首屆國際生物醫學期刊同行評審大會上由BMJ前編輯 Stephen Lock 創造[23]。在主編 George Lundberg 的支持下,JAMA 雜志副主編 Drummond Rennie 創辦了首屆國際生物醫學期刊同行評審大會。Drummond Rennie 認為:期刊出版過程中存在許多可以通過科學方法研究的問題。如:陽性結果是否比陰性結果更容易發表?同行評審是否可以改善論文質量?······此次會議標志著期刊學的誕生,旨在聚焦研究從設計到發表的全過程,建立一套循證方法,以提高(至少是部分提高)科學記錄的質量。醫學期刊在這一過程中應發揮主導作用。
在上述里程碑事件中,報告規范、臨床試驗預注冊和數據共享是由生物醫學期刊主導建立的最重要的 3 個臨床研究政策和制度,對推動生物醫學研究透明化和提升研究的報告質量起到重要作用,對整個生物醫學領域向著更加健康的方向發展具有引領作用。見框 1。

4.1 報告規范的制定和應用
1993 年,來自醫學雜志、臨床試驗、流行病學和方法學領域的 30 位專家在加拿大渥太華召開工作會,討論制定一種用于評估 RCT 報告質量的新量表,并在會后發表了試驗報告規范(The Standards of Reporting Trials,SORT)聲明[24]。聲明由一個包括 32 個條目的清單和一份流程圖組成,以指導研究者如何規范報告 RCT。1994 年,另一群專家(Asilomar 工作組)在美國加州 Asilomar 獨立完成了類似工作,提出:在試驗報告中應該包括的條目清單,并建議雜志編輯將其寫進稿約[25]。
1995 年 9 月 20 日,為更好地吸引雜志采納并推動其傳播,JAMA雜志副主編 Drummond Rennie 建議兩個工作組的 9 位代表(包括雜志編輯、臨床流行病學家和統計學家)在芝加哥召開工作會,探討將兩份清單合二為一。清單條目的篩選使用改良的Delphi法,并盡可能循證進行條目判定,即研究此條目未報告和報告相比是否會帶來偏倚。若會帶來偏倚,則將該條目納入清單。1996 年工作組在BMJ發表了隨機對照試驗報告的統一規范(Consolidated Standards of Reporting Trials,CONSORT)聲明[26],旨在提高 RCT 的報告質量,促進讀者對試驗設計、實施、分析和解釋的理解,幫助用于評價試驗結果的真實性(包括內部和外部真實性),并指導審稿和編輯。隨著新證據的不斷出現,2001 和 2010 年分別發布了 CONSORT 聲明更新版[27, 28]。
目前,在 CONSORT 的基礎上,針對隨機對照試驗的其他擴展設計、觀察性研究、系統評價和 Meta 分析、病例報告、定性研究、診斷性/預后研究、質量改進研究、經濟學評價、臨床前動物研究及研究方案 10 大類研究,全球已制定出數百部報告規范。2006 年,Doug Altman 和 David Moher 等發起成立了提高衛生研究質量和透明度(Enhancing the quality and transparency of health research,EQUATOR)協作網,旨在促進衛生研究的準確性、完整性和透明性,從而提高研究的可重復性和使用價值[29]。在英國國家知識服務部(the UK National Knowledge Service)的資助下,2008 年 6 月 EQUATOR 網絡平臺正式上線[30],目前 EQUATOR 平臺已收錄報告規范 412 個[31],基于報告規范使用決策樹(圖 1),可以根據研究設計選擇最適合的報告規范指導研究的設計、實施、報告、同行評審和編輯出版。已有較多研究顯示,報告規范可以明顯提高研究的報告質量,增加研究的使用價值。

4.2 建立臨床試驗預注冊制度
2004 年 9 月,國際醫學期刊編輯委員會(ICMJE)發表聲明,只接受在公共機構注冊的臨床試驗[32]。世界衛生組織(WHO)支持 ICMJE 的做法并很快在同年 10 月發表《紐約宣言》[33],聲明 WHO 應牽頭制定正規程序以引領全球實行統一的臨床試驗注冊體系,并于 11 月發表《墨西哥宣言》[34],決定由 WHO 牽頭建立國際臨床試驗注冊平臺(ICTRP)。2005 年 7 月,世界醫學編輯學會在編輯倫理規范中專門論及臨床試驗注冊的編輯政策,要求醫學期刊編輯支持建立臨床試驗注冊機構和注冊制度,并發表經預注冊的臨床試驗。2007 年 ICMJE 重申,認可世界衛生組織批準的所有一級注冊機構。迄今 WHO ICTRP 一級注冊機構已達 16 個(表 1),注冊臨床試驗數已達 28 萬個。在臨床試驗注冊制度實施 1 年后,發表注冊臨床試驗的比例就從 12% 快速提升到 53%。在臨床試驗注冊制度實施 10 年后,至 2013 年末,發表的臨床試驗中申明已注冊的比例約達 61%。ICMJE 成員期刊(64%)和高水平期刊(如影響因子排名前 10 的外科期刊)(87%)發表注冊臨床試驗占比明顯更高[35]。

4.3 建立數據共享制度
為進一步推動臨床試驗透明化,2016 年 1 月 20 日,ICMJE 發布關于共享臨床試驗原始數據的倡議,要求在臨床試驗注冊時提供關于共享原始數據的計劃,包括開放共享時間和途徑。2017 年,ICMJE 在 JAMA 發文要求,從 2018 年 7 月 1 日起,發表的臨床試驗需提供數據共享的聲明[36]。預計實施該制度可很大程度提高研究透明化,特別是提高研究實施過程數據的真實性和可靠性。
5 向循證期刊學邁進
2016 年,David Moher 等[4]在BMC Medicine發文呼吁創建國際最佳實踐期刊研究網絡,為期刊學研究的創證提供平臺。目前期刊學缺乏研究證據,已有研究多為描述性研究,觀察性研究和半實驗研究也較少。可以借鑒循證醫學和臨床流行病學研究的方法開展期刊學研究,優化期刊學研究的設計,開展“臨床試驗”、系統評價和 Meta 分析,甚至跨期刊的多中心試驗。可以借鑒 COMET 遴選核心指標集的方法,遴選核心結局指標,以回答期刊學研究領域至今尚未解決的問題(如評價生物醫學研究質量核心指標、評價同行評審質量的核心指標、哪些同行評審措施對提升同行評審質量有效)。通過搭建國際最佳實踐期刊研究網絡,加強期刊間的合作與交流,為開展多中心研究創造條件,并加強行業內的數據共享(如共享同行評審數據)。
5.1 循證建立生物醫學編輯的核心能力
醫學期刊的主編和編輯對期刊的辦刊方向和論文質量把關作用至關重要。受期刊編輯能力的限制,可能不能識別研究設計、實施、分析、報告中的不端行為、錯誤、不充分報告等問題,導致問題研究和低質量研究的發表。這些低質量研究充斥于海量研究中,如被誤識別為高質量研究進行使用,將誤導臨床實踐,給后續研究的開展提供錯誤信息,不僅浪費研究資源,甚至可能危害患者。
醫療行業已建立完善的職業認證體系,要獲得職業醫師資格,需要經過嚴格的培訓和考核;即使獲得醫師資格,也需要接受終身繼續教育。但迄今研究者和編輯的職業認證仍缺乏相應的培養和認證體系。
2014 年,Moher 等[37]循證制定了生物醫學期刊編輯應該具備的 14 項核心能力(框 2)。這些核心能力對于期刊編輯和出版單位循證遴選合格的編輯,設計和開展編輯的在職培訓都具有重要作用。

目前,對期刊編輯和審稿人缺乏有效的培養和資質認定機制。醫學科研論文的編輯和審稿能力應成為醫藥院校學生,特別是研究生以上資歷學生的基本能力。但目前的學校教育往往更重視研究前端的教育而弱化研究后端的能力培養,論文的編輯和審稿能力與被認為與中學階段的教育相關,不屬于大學教育與培養的范疇。而事實上,在中國現行從小學到研究生的學校教育中都沒有相關要求、內容和考核,亟待系統建設,進行分段教育、培訓,逐級深化和強化,使之成為所有受教育者的基本誠信教育內容。
5.2 循證建立同行評審體系
同行評審是科技期刊的重要制度,已被多數期刊執行。2007 年,Jefferson 等[38]的 Cochrane 系統評價納入 28 項研究,結果顯示:沒有確切證據表明同行評審者的研究水平和盲法審稿、培訓及溝通對改善同行評審質量有效,僅采用清單審稿略有效果。2016 年,Bruce 等[39]系統評價了各種改進生物醫學期刊同行評審質量的措施,共納入 22 項隨機對照試驗,包括培訓審稿人(n=5)、增加統計學審稿人(n=2)、采用清單審稿(n=2)、開放同行評審(如告知審稿人公開其身份)(n=7)、作者的姓名和機構對審稿人設盲(n=6)、提高審稿速度的其他措施(n=3),結果顯示:除增加統計學審稿人[SMD=0.58,95%CI(0.19,0.98)]和開放同行評審[SMD=0.14,95%CI(0.05,0.24)]可以改善同行評審質量外,其余措施均未見能明顯改善同行評審質量。2019 年,Superchi 等[40]發表的系統評價,總結了評價同行評審質量的工具,共發現 24 個工具,包括 23 個量表和 1 個清單,涉及 9 個主要維度,但這些工具均未明確定義“同行評審質量”,其制定過程的科學性也欠佳。Drummond Rennie 創辦同行評審大會的目的就是要促進同行評審相關研究的開展,首屆大會舉辦至今已 30 年,發表的同行評審相關研究依然較少,在研項目也很缺乏,已知的注冊研究僅 European COST action PEERE 等[41]數項,因相關研究設計與實施困難、資金缺乏等原因難以推廣。Gasparyan 等[42]認為:高質量、循證的同行評審的終極目標是發表論文能促進診斷、治療指南的修訂,并改善衛生保健結局。
生物醫學期刊同行評審的質量在很大程度上依賴于審稿人的資質,但目前卻缺乏公認的最佳審稿人資質的標準。Blace 等[43]的研究顯示:接受過流行病學和統計學培訓,小于 60 歲,來自北美,本身做研究的審稿人的審稿質量往往較好。但 Callaham 等[44]的大樣本調查顯示:論文的同行評審質量僅與審稿人是否來自大學附屬醫院和年齡(畢業 10 年內)相關。
上述研究結果提示:① 未來需要循證構建生物醫學期刊同行評審專家的核心能力,循證遴選同行評審專家,并循證制定圍繞同行評審的系列措施(包括提高同行評審質量和效率的干預措施、評價同行評審質量的工具);② 迫切需要厘清同行評審的目的和意義,明確同行評審報告是否可以使用的判斷標準。
5.3 為出版政策和出版規范的完善提供更充分的證據
生物醫學期刊領域的出版政策和規范制定方法的科學性已大為改善。如制定報告規范,從建立工作組、收集條目證據,到遴選條目已建立起標準流程,但因缺乏關于條目證據的原始研究和受方法學限制,相關研究的設計和實施存在困難;依然缺乏相關證據,特別是高質量證據。但近年已在一些領域取得突破,如臨床試驗未實施或未充分實施隨機、分配隱藏、盲法,會導致研究結果產生偏倚,但其影響的程度大小和與不同結局的相關性,卻缺乏量化證據。2012 年,Savovic 等[45]采用 Meta 流行病學方法定量評價了未實施或未充分實施隨機、分配隱藏和盲法對研究結果的影響程度,其中未實施或未充分實施盲法帶來的偏倚最大,平均夸大干預措施效果 13%[ROR=0.87,95%CI(0.79,0.96)]。但基于不同類別結局指標的亞組分析結果顯示,主觀結局明顯較客觀結局(如死亡或生存率)受其影響大,這對指導臨床研究的設計、實施,精準判斷研究結果可靠性,均具有重要指導意義。
5.4 循證構建衡量生物醫學論文質量的核心指標
造成研究浪費的 5 方面原因中,未關注重要的結局指標是因研究問題遴選環節問題造成研究浪費的重要因素[18]。2010 年,生物醫學期刊編輯和臨床研究者、試驗注冊機構、基金資助機構等相關人員發起成立了 COMET(core outcome measures in effectiveness trials)工作組,致力于促進有效性試驗核心結局指標研究。截止 2017 年 12 月,COMET 數據庫中收錄的已完成的核心指標集已達 284 項[46]。這對提高研究價值、減少浪費、降低研究偏倚、促進研究轉化、指導臨床實踐都具有積極意義。借鑒 COMET 的成功經驗,循證建立編輯學研究主題,包括評價同行評審質量、論文質量等的核心指標集,對提升期刊學研究的科學性、開展期刊學相關的 Meta 分析研究、促進生物醫學期刊相關出版政策和規范的制定、促進已發表論文的轉化和應用都具有重要意義。
6 循證期刊學在中國
自中國循證醫學中心 1997 年建立以來,一直關注期刊學研究,推動出版政策和規范的引進和應用。
2001 年將 CONSORT 聲明引進其創辦的《中國循證醫學雜志》稿約,用于規范隨機對照試驗的報告[47];此后陸續翻譯和解讀了系列研究報告規范,在所主編的人衛社《循證醫學》研究生教材[48]、人衛社《實用循證醫學》專著[49]中編寫了關于報告規范的章節,并將其納入本科生教育、研究生教育和畢業后教育常規內容。
2004 年在加拿大渥太華召開的 Cochrane 年會上,中國循證醫學中心代表參加了啟動臨床試驗注冊平臺建設的會議。2007 年 5 月,中國臨床試驗注冊中心被 WHO ICTPR 認證為一級注冊機構,并得到 ICMJE 認可:在中國臨床試驗注冊中心注冊的臨床試驗在全球所有生物醫學期刊上,與美國臨床試驗注冊中心(ClinicalTrial.gov)及其他一級注冊機構同等對待和發展。中國臨床試驗注冊中心也最早倡導在注冊平臺公布臨床試驗結果,及通過注冊平臺共享臨床試驗數據的注冊中心。截至 2018 年底,在中國臨床試驗注冊中心注冊的臨床試驗已達 20 033 個,其中 2018 年注冊臨床試驗達到 6 223 個。中國臨床試驗注冊中心建設之初,就發起建立了中國臨床試驗注冊與發表協作網,以期推動生物醫學期刊的協作。
2009 年,李幼平、杜亮赴加拿大溫哥華參加了第六屆生物醫學期刊同行評審大會,并在此后的兩屆大會均派代表參會,三屆大會均有壁報交流。2017 年李幼平作為中國唯一代表被邀請成為美國芝加哥召開的第八屆生物醫學期刊同行評審大會委員[50]。
2017 年,杜亮等[51]在《中國循證醫學雜志》發文,倡導強化兩端,把好臨床試驗入口和出口關,最終建立從選題、設計、預注冊、實施、分析、報告、同行評審、發表、傳播、轉化、后效評價、持續改進、不斷更新的臨床研究全程質量控制體系。
循證期刊學應以生物醫學研究從設計到發表的全過程遇到的問題為導向,綜合運用包括臨床流行病學和循證醫學的思想和方法,不斷發展和完善。正如Lancet主編 Richard Horton 所言:“期刊的工作方式有一些黑暗的角落,需要有一些光照在它們上面”,循證期刊學正恰如這束光。馬里蘭大學藥學院 Peter Doshi 堅信“當期刊一起行動時,它們可以真正改變行為”,但這有賴于教育先行,并需要主編、編輯、審稿專家和作者的共同努力。
自 1991 年 Gordon Guyatt 教授提出“循證醫學”一詞以來[1],循證醫學至今已走過 28 年。循證醫學的理念和方法已深刻影響醫學實踐,全面提升了證據生產的質量和數量,推動了證據的轉化和臨床應用;建立了高質量證據生產、報告、評價、轉化的體系。循證臨床實踐指南、系統評價和 Meta 分析、臨床試驗的數量快速增長。2007 年,BMJ 在其網站通過投票選出自 1840 年以來最重要的醫學進展中,循證醫學位列第八[2],并被譽為“21 世紀的臨床醫學”。循證醫學的理念和方法迅速從臨床醫學領域向中醫藥學、公共衛生、護理學、藥學、臨床營養和社會科學等領域跨學科擴展。醫學期刊已廣泛接受循證醫學理念,JAMA、BMJ、Lancet、NEJM 等頂級醫學期刊成為循證醫學的主要倡導者和實踐者,發表了大量相關研究,成為醫學領域諸多里程碑事件的發起者和重要推動者。
期刊編輯與方法學家(循證醫學專家、臨床流行病學專家、統計學家)、臨床實踐者和衛生決策者廣泛合作,推動了報告規范、臨床試驗注冊、數據共享等影響深遠的衛生研究和發表的政策制訂和實施。兼具上述兩種或多種身份的專家不斷涌現,推動和創辦了“循證”冠名的期刊。陳耀龍等[3]的研究顯示:截止 2006 年,“循證”冠名期刊已達 24 種,涉及臨床、護理、衛生保健等 12 個學科,分布于 6 個國家,涵蓋中、英文兩個語種。目前被 SCIE、SSCI、ESCI 和 PubMed 收錄的“循證”冠名期刊分別達到 3 種、2 種、3 種和 20 種。
期刊作為循證決策與循證實踐的推動者,自身的運行卻因缺乏循證決策與循證實踐,很多環節仍是“黑箱操作”,缺乏透明性[4]。期刊領域的“循證研究”開展不多,觀察性和試驗性研究均很少,而以描述性研究居多。這在一定程度上導致生物醫學領域學術不端,發表的論文存在錯誤,缺乏重要性、科學性、可及性,及低質量報告高發,直接或間接導致了巨大的研究浪費。
1 學術不端在生物醫學領域呈現增長趨勢
國際上尚未對學術不端行為的定義達成共識,較公認的是美國公共衛生署、研究誠信辦公室對學術不端的定義:在研究設計、實施、評審或結果報告時的捏造、篡改數據和剽竊行為[5]。2012 年,Steen[6]報告:2000~2009 年期間 PubMed 數據庫中撤稿數量呈持續增長趨勢,其中因學術不端行為撤稿達 196 起,占所有撤稿的 26.4%。2011 年 Wanger 等[7]報告:近 10 年 WOS 撤稿數量增長了 10 倍,因捏造、篡改數據及剽竊等學術不端行為所致撤稿占所有撤稿的 44%,而同期發表文獻數增長僅 44%。Fang 等[8]對生命科學和生物醫學領域的 2 047 篇論文的綜合分析結果顯示,學術不端撤稿占 67.4%。而近年,因學術不端所致撤稿事件更是有增無減:2015 年 3 月,BMC 撤回 43 篇論文中 41 篇來自中國;8 月,Springer 撤回旗下 10 本學術期刊上發表的 64 篇論文,絕大部分來自中國;10 月,Elsevier 撤銷旗下 5 種雜志中的 9 篇論文,全部來自中國;2017 年 4 月,Springer 撤回旗下 Tumor Biology 上發表的 107 篇論文,均來自中國。2016 年,BMJ 報告稱:80% 中國新藥臨床試驗涉嫌數據造假[9]。2009 年,Wu 等[10]對發表在中文期刊上號稱“隨機對照試驗”的 1 000 余篇論文進行電話調查其隨機方法的實施情況,其中 93% 被判斷為假的隨機試驗。即便如此,學術不端仍在很大程度上被低估。此外,對研究過程中出現的一些問題是否屬于學術不端仍存在爭議,包括:未獲得倫理委員會批準、選擇性使用統計方法、忽略數據集中的異常值、刪除數據/隱藏或隱瞞數據、未披露利益沖突、重復發表、統計問題、著作權問題、數據管理/記錄問題等。
2 很多生物醫學論文存在錯誤和缺陷
除學術不端外,生物醫學研究的設計、實施、分析、報告的過程中還存在大量缺陷甚至錯誤,尤其在統計學方面,有些缺陷甚至能夠顛覆研究結論。1966 年,Schor 等[11]報告:在 JAMA 發表的 514 篇論文中,74% 有統計缺陷,7% 有致命缺陷。1998 年,王倩等[12]分析我國 5 種中華醫學會系列雜志論著中統計方法的使用情況發現:正確應用的比例僅 46%。2004 年 Lee 等[13]分析了 6 種藥學期刊發表的 144 篇論文發現:99 篇進行了統計分析,但其中僅 18% 的統計分析方法正確。2009 年 Afshar 等[14]報告:Journal of Urology 發表的 92 篇論文中,83% 對危險度(Ratios)的報告存在錯誤,78% 報告可信區間(CI)時存在錯誤,77% 在多元統計分析時存在錯誤,53% 在報告P值時存在錯誤,48% 在單因素統計分析時存在錯誤。2011 年,Kim 等[15]報告:1995~2009 年期間,發表在口腔科學領域的 418 篇文章中 51% 的論文包含至少一處統計學錯誤。此外,生物醫學研究設計的缺陷可能導致系統性錯誤,產生選擇性偏倚、測量偏倚和反向因果分析、過度的隨機變異和混雜,從而給使用者帶來誤導[16]。
3 生物醫學研究浪費高達 85%
生物醫學研究的過程包括研究的選題、設計、實施、分析、報告、傳播和監管等環節。2014 年,Lancet發表了系列研究[17-21],直擊生物醫學研究的浪費問題,深入討論了如何避免浪費,增加研究價值。據估計,2010 年全球生物醫學研究經費投入達 2 400 億美元,但其中 85%(約 2 000 億美元)存在浪費[22]。造成浪費的原因包括:① 研究問題的遴選:研究問題較少基于使用者的實際需求,或未關注重要的結局指標,有>50% 的研究并未基于系統評價結果立題。② 研究設計、方法和分析:>50% 的研究并未采用足夠的措施以降低研究偏倚,導致檢驗效能不足及研究結果的可重復性差。③ 研究監管:對因其他原因造成的浪費監管不足;監管程度應與研究可能的風險相匹配,過度監管和監管不足共存;監管給研究者和監管者均帶來負擔;監管缺乏一致性。④ 研究相關信息可及性:>50% 的研究因未完整報告而不可及;對陰性結果等不利結局因報告不足而不可及;研究的原始數據不可及。⑤ 研究報告:>30% 的試驗干預措施未清楚描述;>50% 的研究結局未充分報告;絕大多數研究未在系統評價其他相關證據的基礎上解釋研究結果。
這些問題與從研究立項到最終發表的全過程相關,發表環節既是研究過程完成的標志,也是研究成果傳播、轉化與應用的起點。生物醫學領域目前普遍存在重前端、輕后端的情況,對論文撰寫與發表環節資金投入不足,監管不夠,相關人員缺乏資質認證標準,能力不足,導致相關實踐與決策缺乏證據,特別是高質量研究缺乏的情況。
循證醫學推動了臨床實踐從經驗實踐到循證實踐的轉變,生物醫學期刊在實現這一轉變的過程中功不可沒。一些期刊主編和編輯也是循證醫學的倡導者、研究者和實踐者。但期刊自身的“循證決策”和透明化卻遠低于醫學領域,期刊運行在很大程度上仍屬于“黑箱操作”。故提高生物醫學期刊的透明化和公開化,減少存在學術不端、有缺陷(特別是嚴重缺陷)論文的發表,提高發表論文的質量、完整性和可及性,是生物醫學期刊的責任和使命。這一改革必須由期刊編輯、審稿人、研究者、出版商、基金機構、贊助商、監管者、用戶等利益相關方達成共識和共同參與。
4 創立期刊學對改善生物醫學研究質量、減少浪費、提高使用價值起到重要作用
1989 年“期刊學”(Journalologly)一詞最早在美國芝加哥召開的首屆國際生物醫學期刊同行評審大會上由BMJ前編輯 Stephen Lock 創造[23]。在主編 George Lundberg 的支持下,JAMA 雜志副主編 Drummond Rennie 創辦了首屆國際生物醫學期刊同行評審大會。Drummond Rennie 認為:期刊出版過程中存在許多可以通過科學方法研究的問題。如:陽性結果是否比陰性結果更容易發表?同行評審是否可以改善論文質量?······此次會議標志著期刊學的誕生,旨在聚焦研究從設計到發表的全過程,建立一套循證方法,以提高(至少是部分提高)科學記錄的質量。醫學期刊在這一過程中應發揮主導作用。
在上述里程碑事件中,報告規范、臨床試驗預注冊和數據共享是由生物醫學期刊主導建立的最重要的 3 個臨床研究政策和制度,對推動生物醫學研究透明化和提升研究的報告質量起到重要作用,對整個生物醫學領域向著更加健康的方向發展具有引領作用。見框 1。

4.1 報告規范的制定和應用
1993 年,來自醫學雜志、臨床試驗、流行病學和方法學領域的 30 位專家在加拿大渥太華召開工作會,討論制定一種用于評估 RCT 報告質量的新量表,并在會后發表了試驗報告規范(The Standards of Reporting Trials,SORT)聲明[24]。聲明由一個包括 32 個條目的清單和一份流程圖組成,以指導研究者如何規范報告 RCT。1994 年,另一群專家(Asilomar 工作組)在美國加州 Asilomar 獨立完成了類似工作,提出:在試驗報告中應該包括的條目清單,并建議雜志編輯將其寫進稿約[25]。
1995 年 9 月 20 日,為更好地吸引雜志采納并推動其傳播,JAMA雜志副主編 Drummond Rennie 建議兩個工作組的 9 位代表(包括雜志編輯、臨床流行病學家和統計學家)在芝加哥召開工作會,探討將兩份清單合二為一。清單條目的篩選使用改良的Delphi法,并盡可能循證進行條目判定,即研究此條目未報告和報告相比是否會帶來偏倚。若會帶來偏倚,則將該條目納入清單。1996 年工作組在BMJ發表了隨機對照試驗報告的統一規范(Consolidated Standards of Reporting Trials,CONSORT)聲明[26],旨在提高 RCT 的報告質量,促進讀者對試驗設計、實施、分析和解釋的理解,幫助用于評價試驗結果的真實性(包括內部和外部真實性),并指導審稿和編輯。隨著新證據的不斷出現,2001 和 2010 年分別發布了 CONSORT 聲明更新版[27, 28]。
目前,在 CONSORT 的基礎上,針對隨機對照試驗的其他擴展設計、觀察性研究、系統評價和 Meta 分析、病例報告、定性研究、診斷性/預后研究、質量改進研究、經濟學評價、臨床前動物研究及研究方案 10 大類研究,全球已制定出數百部報告規范。2006 年,Doug Altman 和 David Moher 等發起成立了提高衛生研究質量和透明度(Enhancing the quality and transparency of health research,EQUATOR)協作網,旨在促進衛生研究的準確性、完整性和透明性,從而提高研究的可重復性和使用價值[29]。在英國國家知識服務部(the UK National Knowledge Service)的資助下,2008 年 6 月 EQUATOR 網絡平臺正式上線[30],目前 EQUATOR 平臺已收錄報告規范 412 個[31],基于報告規范使用決策樹(圖 1),可以根據研究設計選擇最適合的報告規范指導研究的設計、實施、報告、同行評審和編輯出版。已有較多研究顯示,報告規范可以明顯提高研究的報告質量,增加研究的使用價值。

4.2 建立臨床試驗預注冊制度
2004 年 9 月,國際醫學期刊編輯委員會(ICMJE)發表聲明,只接受在公共機構注冊的臨床試驗[32]。世界衛生組織(WHO)支持 ICMJE 的做法并很快在同年 10 月發表《紐約宣言》[33],聲明 WHO 應牽頭制定正規程序以引領全球實行統一的臨床試驗注冊體系,并于 11 月發表《墨西哥宣言》[34],決定由 WHO 牽頭建立國際臨床試驗注冊平臺(ICTRP)。2005 年 7 月,世界醫學編輯學會在編輯倫理規范中專門論及臨床試驗注冊的編輯政策,要求醫學期刊編輯支持建立臨床試驗注冊機構和注冊制度,并發表經預注冊的臨床試驗。2007 年 ICMJE 重申,認可世界衛生組織批準的所有一級注冊機構。迄今 WHO ICTRP 一級注冊機構已達 16 個(表 1),注冊臨床試驗數已達 28 萬個。在臨床試驗注冊制度實施 1 年后,發表注冊臨床試驗的比例就從 12% 快速提升到 53%。在臨床試驗注冊制度實施 10 年后,至 2013 年末,發表的臨床試驗中申明已注冊的比例約達 61%。ICMJE 成員期刊(64%)和高水平期刊(如影響因子排名前 10 的外科期刊)(87%)發表注冊臨床試驗占比明顯更高[35]。

4.3 建立數據共享制度
為進一步推動臨床試驗透明化,2016 年 1 月 20 日,ICMJE 發布關于共享臨床試驗原始數據的倡議,要求在臨床試驗注冊時提供關于共享原始數據的計劃,包括開放共享時間和途徑。2017 年,ICMJE 在 JAMA 發文要求,從 2018 年 7 月 1 日起,發表的臨床試驗需提供數據共享的聲明[36]。預計實施該制度可很大程度提高研究透明化,特別是提高研究實施過程數據的真實性和可靠性。
5 向循證期刊學邁進
2016 年,David Moher 等[4]在BMC Medicine發文呼吁創建國際最佳實踐期刊研究網絡,為期刊學研究的創證提供平臺。目前期刊學缺乏研究證據,已有研究多為描述性研究,觀察性研究和半實驗研究也較少。可以借鑒循證醫學和臨床流行病學研究的方法開展期刊學研究,優化期刊學研究的設計,開展“臨床試驗”、系統評價和 Meta 分析,甚至跨期刊的多中心試驗。可以借鑒 COMET 遴選核心指標集的方法,遴選核心結局指標,以回答期刊學研究領域至今尚未解決的問題(如評價生物醫學研究質量核心指標、評價同行評審質量的核心指標、哪些同行評審措施對提升同行評審質量有效)。通過搭建國際最佳實踐期刊研究網絡,加強期刊間的合作與交流,為開展多中心研究創造條件,并加強行業內的數據共享(如共享同行評審數據)。
5.1 循證建立生物醫學編輯的核心能力
醫學期刊的主編和編輯對期刊的辦刊方向和論文質量把關作用至關重要。受期刊編輯能力的限制,可能不能識別研究設計、實施、分析、報告中的不端行為、錯誤、不充分報告等問題,導致問題研究和低質量研究的發表。這些低質量研究充斥于海量研究中,如被誤識別為高質量研究進行使用,將誤導臨床實踐,給后續研究的開展提供錯誤信息,不僅浪費研究資源,甚至可能危害患者。
醫療行業已建立完善的職業認證體系,要獲得職業醫師資格,需要經過嚴格的培訓和考核;即使獲得醫師資格,也需要接受終身繼續教育。但迄今研究者和編輯的職業認證仍缺乏相應的培養和認證體系。
2014 年,Moher 等[37]循證制定了生物醫學期刊編輯應該具備的 14 項核心能力(框 2)。這些核心能力對于期刊編輯和出版單位循證遴選合格的編輯,設計和開展編輯的在職培訓都具有重要作用。

目前,對期刊編輯和審稿人缺乏有效的培養和資質認定機制。醫學科研論文的編輯和審稿能力應成為醫藥院校學生,特別是研究生以上資歷學生的基本能力。但目前的學校教育往往更重視研究前端的教育而弱化研究后端的能力培養,論文的編輯和審稿能力與被認為與中學階段的教育相關,不屬于大學教育與培養的范疇。而事實上,在中國現行從小學到研究生的學校教育中都沒有相關要求、內容和考核,亟待系統建設,進行分段教育、培訓,逐級深化和強化,使之成為所有受教育者的基本誠信教育內容。
5.2 循證建立同行評審體系
同行評審是科技期刊的重要制度,已被多數期刊執行。2007 年,Jefferson 等[38]的 Cochrane 系統評價納入 28 項研究,結果顯示:沒有確切證據表明同行評審者的研究水平和盲法審稿、培訓及溝通對改善同行評審質量有效,僅采用清單審稿略有效果。2016 年,Bruce 等[39]系統評價了各種改進生物醫學期刊同行評審質量的措施,共納入 22 項隨機對照試驗,包括培訓審稿人(n=5)、增加統計學審稿人(n=2)、采用清單審稿(n=2)、開放同行評審(如告知審稿人公開其身份)(n=7)、作者的姓名和機構對審稿人設盲(n=6)、提高審稿速度的其他措施(n=3),結果顯示:除增加統計學審稿人[SMD=0.58,95%CI(0.19,0.98)]和開放同行評審[SMD=0.14,95%CI(0.05,0.24)]可以改善同行評審質量外,其余措施均未見能明顯改善同行評審質量。2019 年,Superchi 等[40]發表的系統評價,總結了評價同行評審質量的工具,共發現 24 個工具,包括 23 個量表和 1 個清單,涉及 9 個主要維度,但這些工具均未明確定義“同行評審質量”,其制定過程的科學性也欠佳。Drummond Rennie 創辦同行評審大會的目的就是要促進同行評審相關研究的開展,首屆大會舉辦至今已 30 年,發表的同行評審相關研究依然較少,在研項目也很缺乏,已知的注冊研究僅 European COST action PEERE 等[41]數項,因相關研究設計與實施困難、資金缺乏等原因難以推廣。Gasparyan 等[42]認為:高質量、循證的同行評審的終極目標是發表論文能促進診斷、治療指南的修訂,并改善衛生保健結局。
生物醫學期刊同行評審的質量在很大程度上依賴于審稿人的資質,但目前卻缺乏公認的最佳審稿人資質的標準。Blace 等[43]的研究顯示:接受過流行病學和統計學培訓,小于 60 歲,來自北美,本身做研究的審稿人的審稿質量往往較好。但 Callaham 等[44]的大樣本調查顯示:論文的同行評審質量僅與審稿人是否來自大學附屬醫院和年齡(畢業 10 年內)相關。
上述研究結果提示:① 未來需要循證構建生物醫學期刊同行評審專家的核心能力,循證遴選同行評審專家,并循證制定圍繞同行評審的系列措施(包括提高同行評審質量和效率的干預措施、評價同行評審質量的工具);② 迫切需要厘清同行評審的目的和意義,明確同行評審報告是否可以使用的判斷標準。
5.3 為出版政策和出版規范的完善提供更充分的證據
生物醫學期刊領域的出版政策和規范制定方法的科學性已大為改善。如制定報告規范,從建立工作組、收集條目證據,到遴選條目已建立起標準流程,但因缺乏關于條目證據的原始研究和受方法學限制,相關研究的設計和實施存在困難;依然缺乏相關證據,特別是高質量證據。但近年已在一些領域取得突破,如臨床試驗未實施或未充分實施隨機、分配隱藏、盲法,會導致研究結果產生偏倚,但其影響的程度大小和與不同結局的相關性,卻缺乏量化證據。2012 年,Savovic 等[45]采用 Meta 流行病學方法定量評價了未實施或未充分實施隨機、分配隱藏和盲法對研究結果的影響程度,其中未實施或未充分實施盲法帶來的偏倚最大,平均夸大干預措施效果 13%[ROR=0.87,95%CI(0.79,0.96)]。但基于不同類別結局指標的亞組分析結果顯示,主觀結局明顯較客觀結局(如死亡或生存率)受其影響大,這對指導臨床研究的設計、實施,精準判斷研究結果可靠性,均具有重要指導意義。
5.4 循證構建衡量生物醫學論文質量的核心指標
造成研究浪費的 5 方面原因中,未關注重要的結局指標是因研究問題遴選環節問題造成研究浪費的重要因素[18]。2010 年,生物醫學期刊編輯和臨床研究者、試驗注冊機構、基金資助機構等相關人員發起成立了 COMET(core outcome measures in effectiveness trials)工作組,致力于促進有效性試驗核心結局指標研究。截止 2017 年 12 月,COMET 數據庫中收錄的已完成的核心指標集已達 284 項[46]。這對提高研究價值、減少浪費、降低研究偏倚、促進研究轉化、指導臨床實踐都具有積極意義。借鑒 COMET 的成功經驗,循證建立編輯學研究主題,包括評價同行評審質量、論文質量等的核心指標集,對提升期刊學研究的科學性、開展期刊學相關的 Meta 分析研究、促進生物醫學期刊相關出版政策和規范的制定、促進已發表論文的轉化和應用都具有重要意義。
6 循證期刊學在中國
自中國循證醫學中心 1997 年建立以來,一直關注期刊學研究,推動出版政策和規范的引進和應用。
2001 年將 CONSORT 聲明引進其創辦的《中國循證醫學雜志》稿約,用于規范隨機對照試驗的報告[47];此后陸續翻譯和解讀了系列研究報告規范,在所主編的人衛社《循證醫學》研究生教材[48]、人衛社《實用循證醫學》專著[49]中編寫了關于報告規范的章節,并將其納入本科生教育、研究生教育和畢業后教育常規內容。
2004 年在加拿大渥太華召開的 Cochrane 年會上,中國循證醫學中心代表參加了啟動臨床試驗注冊平臺建設的會議。2007 年 5 月,中國臨床試驗注冊中心被 WHO ICTPR 認證為一級注冊機構,并得到 ICMJE 認可:在中國臨床試驗注冊中心注冊的臨床試驗在全球所有生物醫學期刊上,與美國臨床試驗注冊中心(ClinicalTrial.gov)及其他一級注冊機構同等對待和發展。中國臨床試驗注冊中心也最早倡導在注冊平臺公布臨床試驗結果,及通過注冊平臺共享臨床試驗數據的注冊中心。截至 2018 年底,在中國臨床試驗注冊中心注冊的臨床試驗已達 20 033 個,其中 2018 年注冊臨床試驗達到 6 223 個。中國臨床試驗注冊中心建設之初,就發起建立了中國臨床試驗注冊與發表協作網,以期推動生物醫學期刊的協作。
2009 年,李幼平、杜亮赴加拿大溫哥華參加了第六屆生物醫學期刊同行評審大會,并在此后的兩屆大會均派代表參會,三屆大會均有壁報交流。2017 年李幼平作為中國唯一代表被邀請成為美國芝加哥召開的第八屆生物醫學期刊同行評審大會委員[50]。
2017 年,杜亮等[51]在《中國循證醫學雜志》發文,倡導強化兩端,把好臨床試驗入口和出口關,最終建立從選題、設計、預注冊、實施、分析、報告、同行評審、發表、傳播、轉化、后效評價、持續改進、不斷更新的臨床研究全程質量控制體系。
循證期刊學應以生物醫學研究從設計到發表的全過程遇到的問題為導向,綜合運用包括臨床流行病學和循證醫學的思想和方法,不斷發展和完善。正如Lancet主編 Richard Horton 所言:“期刊的工作方式有一些黑暗的角落,需要有一些光照在它們上面”,循證期刊學正恰如這束光。馬里蘭大學藥學院 Peter Doshi 堅信“當期刊一起行動時,它們可以真正改變行為”,但這有賴于教育先行,并需要主編、編輯、審稿專家和作者的共同努力。