引用本文: 海帆, 蔣丹, 董愉, 李慧, 楊世昌, 李春波. 2016—2020年國內5種精神學科期刊臨床隨機對照試驗報告質量的調查. 中國循證醫學雜志, 2022, 22(9): 1048-1054. doi: 10.7507/1672-2531.202205005 復制
眾所周知,高質量臨床隨機對照試驗(randomized controlled trials,RCT)是不同干預性措施療效比較的高等級證據來源,也是疾病診療指南的重要證據來源。這是因為它通過隨機化分組來控制試驗中的選擇偏倚;通過盲法來控制測量偏倚;通過合理的分層、平行對照來控制混雜偏倚[1]。RCT報告質量為判斷臨床證據的水平提供重要參考。由國際專家和編輯組成的團隊于1996年制定并發表了臨床試驗報告的統一標準—CONSORT(consolidated standards of reporting trials)聲明,用來幫助評估和解釋RCT的報告質量。后經幾次更新修訂,于2010年發表了CONSORT 2010聲明,沿用至今。之后又陸續增加了針對不同主題內容的擴展版,如針對摘要的CONSORT Abstracts[2]和針對不良反應的CONSORT Harms[3]等。目前全球已有600多家生物醫學雜志及包括國際醫學雜志編輯委員會、世界醫學編輯協會等在內的組織認可該聲明。CONSORT被認為提高了期刊發表試驗報告的完整性[4]。蘇旻等[5]應用CONSORT聲明2001版評價了2004—2008年國內5種精神學科期刊刊發的臨床RCT報告質量,發現存在較多的問題。隨著國內臨床研究的迅速發展,國內精神學科期刊近年來RCT的報告質量如何,是否較CONSORT發表前提高?本研究運用CONSORT 2010聲明及CONSORT Abstracts和CONSORT Harms兩個擴展版比較2016—2020年各年間國內主要精神學科期刊上發表的臨床RCT報告質量,并將2016—2020年整體RCT報告質量與2004—2008年相比較,為提高今后精神學科臨床研究報告質量提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
2016—2020年發表在《中華精神科雜志》、《中國神經精神疾病雜志》、《上海精神醫學》(該雜志于2018年更名為General Psychiatry,更名后刊發的文獻也在本研究檢索范圍)、《中國心理衛生雜志》、《臨床精神醫學雜志》5種期刊的RCT。
1.1.2 排除標準
文獻研究(包含文獻綜述和Meta分析)、現況研究、病例-對照研究、動物實驗、方法學研究、非隨機對照研究(包括單臂研究和非隨機分組研究)、細胞和組織學研究、隊列研究、病例報告。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、CBM數據庫,搜集國內5種精神學科期刊刊發的RCT,檢索時限均從2016年至2020年,同時手工檢索紙質版期刊來查漏補缺。
1.3 文獻篩選與資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷。對符合標準的文獻下載全文。資料提取內容主要包括:發表年份,CONSORT 2010聲明、CONSORT Abstracts及CONSORT Harms條目中包含的相關內容。本研究所選5種期刊與蘇旻等[5]評價2004—2008年國內精神學科臨床RCT報告質量所選5種期刊相同,2004—2008年此5種精神學科期刊臨床RCT報告質量的數據由蘇旻研究團隊提供。
1.4 報告質量評價
根據CONSORT 2010聲明及擴展的CONSORT Abstracts和CONSORT Harms,通過問卷星平臺編制成問卷,用來評價RCT的報告質量。CONSORT 2010聲明包括25個對照檢查清單和1個流程圖,其中第1、2、3、4、6、7、8、11、12、13、14、17條清單又包含a和b 2個小項,一共37個條目[6],評價內容包括文章的標題、摘要、引言、對象、方法、結果和討論等(http://www.consort-statement.org)。其中第1b條目用來評價文獻摘要的項目由CONSORT Abstracts替代。CONSORT Abstracts共16個條目,專門針對結構式摘要,評價內容包括作者、試驗設計、方法、結果、結論、資助和試驗注冊。第19條目危害由CONSORT Harms替代,CONSORT Harms共10個條目,用于評價研究中不良反應的報告質量[7]。文獻中報告了條目相應的內容,該條目計1分,沒有報告計0分,總分范圍0~37分。
由3名經過培訓的精神科醫師負責完成RCT報告質量評價,1名精神科主任醫師負責指導。對所有納入的RCT進行編號,采用計算機隨機數字表的方法隨機抽取7篇RCT,由3名評價人員對抽取的7篇RCT分別進行評價,計算7篇RCT 3次評價結果的組內相關系數ICC。當ICC值越接近1時,則3名評價人員的評價一致性水平越高。
1.5 結局指標
1.5.1 RCT報告質量
每篇RCT的報告質量以其在問卷中的總分和符合比例表示,符合比例=條目總分/清單總條目數×100%。總分和符合比例越高,報告質量越高。
1.5.2 摘要和危害的報告質量
摘要的報告質量以其在CONSORT Abstracts的16個條目中的總分表示。危害的報告質量以其在CONSORT Harms的10個條目中的總分表示。
1.5.3 各對照檢查條目報告情況
每個條目的報告情況用報告比例表示,報告比例=此條目得分為1的文獻篇數/總RCT篇數。其中第1b條結構式摘要的報告比例為報告了結構式摘要的文章比例,而無論其摘要總分為多少;第19條危害的報告比例為危害總分不為0分的文章比例。將所有研究的某個條目被報告比例>75%作為一個條目被充分報告[8]。
1.6 統計分析
采用SPSS 17.0統計軟件對數據進行分析。定量數據大致符合正態分布,則采用均數±標準差為效應量,采用t檢驗、單因素方差分析和Welch檢驗(不滿足方差齊性時)進行差異性分析;定量數據不符合正態分布,則采用中位數和四分位數表示,采用Kruskal-Wallis檢驗進行差異性分析。分類數據采用例數和構成比表示分布趨勢,采用χ2檢驗和Fisher精確檢驗法進行差異性分析。事后檢驗皆采用Bonferroni法。ICC值的計算方法參考相關統計方法[9]。檢驗水準為α=0.05(雙側)。
2 結果
2.1 文獻篩選流程及結果
5種期刊2016—2020年共發表文獻4 018篇,其中RCT 226篇,占比5.62%。2016年5種期刊共發表RCT 40篇,占當年刊發文獻總篇數的4.93%;2017年46篇,占比5.46%;2018年36篇,占比4.59%;2019年48篇,占比6.32%;2020年56篇,占比6.84%。各年份發表的RCT數量占當年刊發文獻的比例差異無統計學意義(χ2=5.34,P=0.25)。文獻篩選流程及結果見圖1。

2.2 2016—2020年RCT的報告質量
3名評價人員7篇RCT的ICC組內相關系數分別為0.998、0.976、0.983、0.986、0.995、0.999和0.999,說明3名評價人員間具有良好的一致性。
2016—2020年RCT的條目總分為(14.63±3.30)分,符合比例為(39.54±8.92)%;摘要總分的中位數為7分,占全部CONSORT Abstracts條目的43.75%(7/16);危害總分的中位數為0分。2016—2020年各年間RCT報告質量的符合比例及條目總分比較差異無統計學意義(F=0.54,P=0.71)。5年間摘要總分比較差異無統計學意義(H=1.49,P=0.83);5年間危害總分比較差異具有統計學意義(H=10.78,P=0.03),兩兩比較結果顯示僅2020年與2016年的危害總分間的差異具有統計學意義(P=0.02)。結果見表1。

2.3 2016—2020年RCT各對照檢查條目報告情況
2016—2020年各年份的RCT僅在第16條和第19條的報告比例上具有統計學差異(Fisher’=8.61,P=0.04;χ2=11.63,P=0.02),其余條目間均無統計學差異(P>0.05)。兩兩比較結果顯示,在第16條上,5組間兩兩比較均未見統計學差異(P>0.05);在第19條上,僅2016年與2020年比較,存在統計學差異(P<0.05)。
在所有RCT中,標題和摘要中50%(1/2)的條目被充分報告(1b),引言中100%(2/2)的條目被充分報告(2a、2b),方法中17.65%(3/17)的條目被充分報告(4a、4b、5),結果中30%(3/10)的條目被充分報告(13a、14a、16),討論中33.33%(1/3)的條目被充分報告(22),其他信息中沒有1個條目被充分報告。
方法學中,試驗改變及理由(3b)、定義主要和次要結局指標(6a)、結局指標更改及原因(6b)、中期分析或試驗中止原則(7b)、分配隱藏(9)、隨機實施(10)、主要次要結局指標的統計方法(12a)的報告比例均<10%。結果中,試驗中止或停止的原因(14b)、結局指標的結果和效應值及其95%置信區間(17a)、二分類結局要提供絕對和相對效應值(17b)報告比例均<10%。討論中,推廣性(21)的報告比例<10%。其他信息中,試驗注冊(23)和試驗方案獲取的信息(24)的報告比例均<10%。受試者流程圖表的報告比例<10%。詳見表2。

在摘要和危害上,92.92%(210/226)的RCT報告了結構式摘要;41.59%(94/226)的文獻至少報告了1條CONSORT Harms的條目,在沒有報告任何有關危害內容的RCT中,非藥物干預研究占82.58%(109/132)。
2.4 2004—2008年與2016—2020年文獻報告質量比較
2004—2008年RCT的符合比例為(34.76±9.16)%,2016—2020年為(39.54±8.92)%,兩個時間段RCT的符合比例有統計學差異[差值4.78%,95%CI(3.36%,6.20%),t=6.60,P<0.001]。結果見表3。

2.5 2016—2020年各期刊RCT報告質量的橫向比較
2016—2020年5種期刊RCT報告質量的符合比例相比較差異有統計學意義(F=17.25,P<0.001)。兩兩比較顯示,《中華精神科雜志》與《上海精神醫學》比較未見統計學差異(P>0.05),而與《中國神經精神疾病雜志》、《中國心理衛生雜志》、《臨床精神醫學雜志》比較均存在統計學差異(P<0.05);《臨床精神醫學雜志》與其他4種期刊比較均存在統計學差異(P<0.05)。結果見表4。在5種期刊中,43篇RCT報告了樣本量估算,《中國心理衛生雜志》占比83.72%(36篇);12篇RCT有受試者流程圖表,《上海精神醫學雜志》占比66.67%(8篇)。


3 討論
本研究顯示,5種精神學科期刊在2016—2020年各年間的RCT報告質量的符合比例、條目總分、摘要報告質量及絕大多數條目的報告比例沒有大的變化,說明近5年內RCT報告質量并未逐年提升。與2004—2008年相比,RCT報告質量的符合比例升高,說明近5年內5種精神學科期刊RCT的報告質量較2004—2008年有所提高。
本研究中,2016—2020年國內5種精神學科期刊RCT的符合比例為39.54%(22.06%~57.02%)。同樣基于CONSORT聲明,Susvirkar等[10]評估2013年英國醫學雜志(BMJ)和美國醫學會雜志(JAMA)上發表的RCT,其符合比例為82.0%(59.4%~97.1%);Vassar等[11]評估PubMed數據庫15種成癮領域相關期刊2013—2017年發表的RCT,其平均符合比例為61.9%;董穩航等[12]評估2000—2009年我國口腔頜面外科RCT,其平均符合比例為37.3%;Zhang等[13]評估2013年5月之前中國應用選擇性血清素再攝取抑制劑治療抑郁癥的隨機雙盲平行對照試驗,其符合比例為42%(16%~81%)。本研究的結果與董穩航等[12],Zhang等[13]的研究結果大致持平,可見國內精神學科RCT與國內其他疾病領域RCT的報告質量沒有明顯差距,但與英文頂級期刊及英文精神學科期刊發表的RCT相比存在較大差距。
國內精神學科期刊RCT的報告質量不高,一方面是因為國內研究者在設計之初缺乏對研究嚴密、科學設計,另一方面是研究的實施過程缺乏透明化。試驗的倫理審查不能僅僅靠一句“本研究通過了××醫院的倫理審查”,而需要報告具體的倫理委員會批件文號;試驗的隨機化也不能將隨機抽樣和隨機分組混為一談,而需要具體報告由何人采用什么方法產生隨機序列、采用哪種隨機隱藏方法等。而臨床試驗注冊制度能有效提升國內研究者在這些方面的短板。本研究中的5種期刊在2016—2020年間僅3.54%的RCT報告了試驗注冊情況。這與研究者們普遍對臨床試驗注冊制度了解不夠,及期刊在收錄稿件時較少提出這方面的要求有關。正如《中國心理衛生雜志》的RCT更加注重報告樣本量的估算方法,《上海精神醫學雜志》的RCT更加注重報告受試者流程圖,這可能都與期刊在審稿、編修時的要求分不開。因此不僅研究者們要注重提高自身科研能力,各個期刊也要按照國際標準完善投稿要求,才能逐步提高我國期刊RCT的報告質量。
本研究中大部分研究(92.92%)都報告了結構式摘要,但各年間摘要總分都不高,說明國內精神學科期刊對摘要報告的不夠完整,國內外的一些研究也顯示中英文文獻的摘要報告質量需要提升[14-15]。本研究中各年份RCT的危害總分均較低。有一多半的RCT沒有報告任何有關危害的內容,這其中非藥物干預研究占82.58%。Hardy等[16]的研究表明心理治療存在3%~15%的不良影響,國內陳發展等[17]也有關于心理治療不良反應的研究。國內外的一些專家共識和臨床指南都明確指出重復經顱磁刺激治療可能存在的不良反應[18-20]。以上均說明非藥物干預并非不存在不良反應。研究者不僅要完整報告藥物干預的危害,更要重視對非藥物干預危害的報告。
本研究中的RCT在方法學、其他信息、受試者流程圖等方面的報告也存在明顯欠缺,與蘇旻[5]、張蘭蘭[21]、楊勇[22]等對國內精神疾病RCT報告質量的評價相一致,與于丹丹[23]、張明妍[24]、來保勇[25]等對國內其他醫學領域雜志RCT報告質量的評價相一致。而這些方面的信息在臨床試驗注冊時都需要明確闡述。如果1個RCT已經進行了臨床試驗注冊,同時期刊要求作者完善文章中這些相關方面的報告,那么這篇RCT文章的報告質量將有明顯提升。
本研究發現,《中華精神科雜志》刊發的RCT的符合比例最高,《臨床精神醫學雜志》最低,從一定程度上反映了各雜志RCT的報告質量。希望各期刊都能嚴格執行臨床試驗注冊制度,普及CONSORT報告清單,引進國際臨床研究規范等[26]。
本研究的不足之處:① 僅收集了5種期刊近5年的數據,沒有對其他國內精神學科期刊及其他非精神醫學期刊中有關的數據進行采集。② 未對RCT干預措施進行分類,在CONSORT聲明的擴展包里有針對草藥干預和非藥物干預的擴展聲明,需要對此類研究的報告質量進行細化評價,這樣將更為聚焦相關問題。③ 本研究沒有對RCT的疾病種類進行細分,不同病種的RCT的報告質量是否一致仍需進一步研究。④ 本研究僅關注RCT的報告質量,未能深入調查報告內容是否正確,如樣本量計算公式是否恰當、隨機方法是否正確等。
綜上所述,雖然2016—2020年國內精神學科RCT研究的報告質量比2004—2008年有所提高,但近5年內的報告質量變化較小,總體報告質量仍不理想。今后,研究者們不僅要在試驗設計、實施過程中把控質量,也要在研究報告中盡可能的按照CONSORT聲明等清單要求,進行清晰、完全和規范地報告。
眾所周知,高質量臨床隨機對照試驗(randomized controlled trials,RCT)是不同干預性措施療效比較的高等級證據來源,也是疾病診療指南的重要證據來源。這是因為它通過隨機化分組來控制試驗中的選擇偏倚;通過盲法來控制測量偏倚;通過合理的分層、平行對照來控制混雜偏倚[1]。RCT報告質量為判斷臨床證據的水平提供重要參考。由國際專家和編輯組成的團隊于1996年制定并發表了臨床試驗報告的統一標準—CONSORT(consolidated standards of reporting trials)聲明,用來幫助評估和解釋RCT的報告質量。后經幾次更新修訂,于2010年發表了CONSORT 2010聲明,沿用至今。之后又陸續增加了針對不同主題內容的擴展版,如針對摘要的CONSORT Abstracts[2]和針對不良反應的CONSORT Harms[3]等。目前全球已有600多家生物醫學雜志及包括國際醫學雜志編輯委員會、世界醫學編輯協會等在內的組織認可該聲明。CONSORT被認為提高了期刊發表試驗報告的完整性[4]。蘇旻等[5]應用CONSORT聲明2001版評價了2004—2008年國內5種精神學科期刊刊發的臨床RCT報告質量,發現存在較多的問題。隨著國內臨床研究的迅速發展,國內精神學科期刊近年來RCT的報告質量如何,是否較CONSORT發表前提高?本研究運用CONSORT 2010聲明及CONSORT Abstracts和CONSORT Harms兩個擴展版比較2016—2020年各年間國內主要精神學科期刊上發表的臨床RCT報告質量,并將2016—2020年整體RCT報告質量與2004—2008年相比較,為提高今后精神學科臨床研究報告質量提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
2016—2020年發表在《中華精神科雜志》、《中國神經精神疾病雜志》、《上海精神醫學》(該雜志于2018年更名為General Psychiatry,更名后刊發的文獻也在本研究檢索范圍)、《中國心理衛生雜志》、《臨床精神醫學雜志》5種期刊的RCT。
1.1.2 排除標準
文獻研究(包含文獻綜述和Meta分析)、現況研究、病例-對照研究、動物實驗、方法學研究、非隨機對照研究(包括單臂研究和非隨機分組研究)、細胞和組織學研究、隊列研究、病例報告。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、CBM數據庫,搜集國內5種精神學科期刊刊發的RCT,檢索時限均從2016年至2020年,同時手工檢索紙質版期刊來查漏補缺。
1.3 文獻篩選與資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷。對符合標準的文獻下載全文。資料提取內容主要包括:發表年份,CONSORT 2010聲明、CONSORT Abstracts及CONSORT Harms條目中包含的相關內容。本研究所選5種期刊與蘇旻等[5]評價2004—2008年國內精神學科臨床RCT報告質量所選5種期刊相同,2004—2008年此5種精神學科期刊臨床RCT報告質量的數據由蘇旻研究團隊提供。
1.4 報告質量評價
根據CONSORT 2010聲明及擴展的CONSORT Abstracts和CONSORT Harms,通過問卷星平臺編制成問卷,用來評價RCT的報告質量。CONSORT 2010聲明包括25個對照檢查清單和1個流程圖,其中第1、2、3、4、6、7、8、11、12、13、14、17條清單又包含a和b 2個小項,一共37個條目[6],評價內容包括文章的標題、摘要、引言、對象、方法、結果和討論等(http://www.consort-statement.org)。其中第1b條目用來評價文獻摘要的項目由CONSORT Abstracts替代。CONSORT Abstracts共16個條目,專門針對結構式摘要,評價內容包括作者、試驗設計、方法、結果、結論、資助和試驗注冊。第19條目危害由CONSORT Harms替代,CONSORT Harms共10個條目,用于評價研究中不良反應的報告質量[7]。文獻中報告了條目相應的內容,該條目計1分,沒有報告計0分,總分范圍0~37分。
由3名經過培訓的精神科醫師負責完成RCT報告質量評價,1名精神科主任醫師負責指導。對所有納入的RCT進行編號,采用計算機隨機數字表的方法隨機抽取7篇RCT,由3名評價人員對抽取的7篇RCT分別進行評價,計算7篇RCT 3次評價結果的組內相關系數ICC。當ICC值越接近1時,則3名評價人員的評價一致性水平越高。
1.5 結局指標
1.5.1 RCT報告質量
每篇RCT的報告質量以其在問卷中的總分和符合比例表示,符合比例=條目總分/清單總條目數×100%。總分和符合比例越高,報告質量越高。
1.5.2 摘要和危害的報告質量
摘要的報告質量以其在CONSORT Abstracts的16個條目中的總分表示。危害的報告質量以其在CONSORT Harms的10個條目中的總分表示。
1.5.3 各對照檢查條目報告情況
每個條目的報告情況用報告比例表示,報告比例=此條目得分為1的文獻篇數/總RCT篇數。其中第1b條結構式摘要的報告比例為報告了結構式摘要的文章比例,而無論其摘要總分為多少;第19條危害的報告比例為危害總分不為0分的文章比例。將所有研究的某個條目被報告比例>75%作為一個條目被充分報告[8]。
1.6 統計分析
采用SPSS 17.0統計軟件對數據進行分析。定量數據大致符合正態分布,則采用均數±標準差為效應量,采用t檢驗、單因素方差分析和Welch檢驗(不滿足方差齊性時)進行差異性分析;定量數據不符合正態分布,則采用中位數和四分位數表示,采用Kruskal-Wallis檢驗進行差異性分析。分類數據采用例數和構成比表示分布趨勢,采用χ2檢驗和Fisher精確檢驗法進行差異性分析。事后檢驗皆采用Bonferroni法。ICC值的計算方法參考相關統計方法[9]。檢驗水準為α=0.05(雙側)。
2 結果
2.1 文獻篩選流程及結果
5種期刊2016—2020年共發表文獻4 018篇,其中RCT 226篇,占比5.62%。2016年5種期刊共發表RCT 40篇,占當年刊發文獻總篇數的4.93%;2017年46篇,占比5.46%;2018年36篇,占比4.59%;2019年48篇,占比6.32%;2020年56篇,占比6.84%。各年份發表的RCT數量占當年刊發文獻的比例差異無統計學意義(χ2=5.34,P=0.25)。文獻篩選流程及結果見圖1。

2.2 2016—2020年RCT的報告質量
3名評價人員7篇RCT的ICC組內相關系數分別為0.998、0.976、0.983、0.986、0.995、0.999和0.999,說明3名評價人員間具有良好的一致性。
2016—2020年RCT的條目總分為(14.63±3.30)分,符合比例為(39.54±8.92)%;摘要總分的中位數為7分,占全部CONSORT Abstracts條目的43.75%(7/16);危害總分的中位數為0分。2016—2020年各年間RCT報告質量的符合比例及條目總分比較差異無統計學意義(F=0.54,P=0.71)。5年間摘要總分比較差異無統計學意義(H=1.49,P=0.83);5年間危害總分比較差異具有統計學意義(H=10.78,P=0.03),兩兩比較結果顯示僅2020年與2016年的危害總分間的差異具有統計學意義(P=0.02)。結果見表1。

2.3 2016—2020年RCT各對照檢查條目報告情況
2016—2020年各年份的RCT僅在第16條和第19條的報告比例上具有統計學差異(Fisher’=8.61,P=0.04;χ2=11.63,P=0.02),其余條目間均無統計學差異(P>0.05)。兩兩比較結果顯示,在第16條上,5組間兩兩比較均未見統計學差異(P>0.05);在第19條上,僅2016年與2020年比較,存在統計學差異(P<0.05)。
在所有RCT中,標題和摘要中50%(1/2)的條目被充分報告(1b),引言中100%(2/2)的條目被充分報告(2a、2b),方法中17.65%(3/17)的條目被充分報告(4a、4b、5),結果中30%(3/10)的條目被充分報告(13a、14a、16),討論中33.33%(1/3)的條目被充分報告(22),其他信息中沒有1個條目被充分報告。
方法學中,試驗改變及理由(3b)、定義主要和次要結局指標(6a)、結局指標更改及原因(6b)、中期分析或試驗中止原則(7b)、分配隱藏(9)、隨機實施(10)、主要次要結局指標的統計方法(12a)的報告比例均<10%。結果中,試驗中止或停止的原因(14b)、結局指標的結果和效應值及其95%置信區間(17a)、二分類結局要提供絕對和相對效應值(17b)報告比例均<10%。討論中,推廣性(21)的報告比例<10%。其他信息中,試驗注冊(23)和試驗方案獲取的信息(24)的報告比例均<10%。受試者流程圖表的報告比例<10%。詳見表2。

在摘要和危害上,92.92%(210/226)的RCT報告了結構式摘要;41.59%(94/226)的文獻至少報告了1條CONSORT Harms的條目,在沒有報告任何有關危害內容的RCT中,非藥物干預研究占82.58%(109/132)。
2.4 2004—2008年與2016—2020年文獻報告質量比較
2004—2008年RCT的符合比例為(34.76±9.16)%,2016—2020年為(39.54±8.92)%,兩個時間段RCT的符合比例有統計學差異[差值4.78%,95%CI(3.36%,6.20%),t=6.60,P<0.001]。結果見表3。

2.5 2016—2020年各期刊RCT報告質量的橫向比較
2016—2020年5種期刊RCT報告質量的符合比例相比較差異有統計學意義(F=17.25,P<0.001)。兩兩比較顯示,《中華精神科雜志》與《上海精神醫學》比較未見統計學差異(P>0.05),而與《中國神經精神疾病雜志》、《中國心理衛生雜志》、《臨床精神醫學雜志》比較均存在統計學差異(P<0.05);《臨床精神醫學雜志》與其他4種期刊比較均存在統計學差異(P<0.05)。結果見表4。在5種期刊中,43篇RCT報告了樣本量估算,《中國心理衛生雜志》占比83.72%(36篇);12篇RCT有受試者流程圖表,《上海精神醫學雜志》占比66.67%(8篇)。


3 討論
本研究顯示,5種精神學科期刊在2016—2020年各年間的RCT報告質量的符合比例、條目總分、摘要報告質量及絕大多數條目的報告比例沒有大的變化,說明近5年內RCT報告質量并未逐年提升。與2004—2008年相比,RCT報告質量的符合比例升高,說明近5年內5種精神學科期刊RCT的報告質量較2004—2008年有所提高。
本研究中,2016—2020年國內5種精神學科期刊RCT的符合比例為39.54%(22.06%~57.02%)。同樣基于CONSORT聲明,Susvirkar等[10]評估2013年英國醫學雜志(BMJ)和美國醫學會雜志(JAMA)上發表的RCT,其符合比例為82.0%(59.4%~97.1%);Vassar等[11]評估PubMed數據庫15種成癮領域相關期刊2013—2017年發表的RCT,其平均符合比例為61.9%;董穩航等[12]評估2000—2009年我國口腔頜面外科RCT,其平均符合比例為37.3%;Zhang等[13]評估2013年5月之前中國應用選擇性血清素再攝取抑制劑治療抑郁癥的隨機雙盲平行對照試驗,其符合比例為42%(16%~81%)。本研究的結果與董穩航等[12],Zhang等[13]的研究結果大致持平,可見國內精神學科RCT與國內其他疾病領域RCT的報告質量沒有明顯差距,但與英文頂級期刊及英文精神學科期刊發表的RCT相比存在較大差距。
國內精神學科期刊RCT的報告質量不高,一方面是因為國內研究者在設計之初缺乏對研究嚴密、科學設計,另一方面是研究的實施過程缺乏透明化。試驗的倫理審查不能僅僅靠一句“本研究通過了××醫院的倫理審查”,而需要報告具體的倫理委員會批件文號;試驗的隨機化也不能將隨機抽樣和隨機分組混為一談,而需要具體報告由何人采用什么方法產生隨機序列、采用哪種隨機隱藏方法等。而臨床試驗注冊制度能有效提升國內研究者在這些方面的短板。本研究中的5種期刊在2016—2020年間僅3.54%的RCT報告了試驗注冊情況。這與研究者們普遍對臨床試驗注冊制度了解不夠,及期刊在收錄稿件時較少提出這方面的要求有關。正如《中國心理衛生雜志》的RCT更加注重報告樣本量的估算方法,《上海精神醫學雜志》的RCT更加注重報告受試者流程圖,這可能都與期刊在審稿、編修時的要求分不開。因此不僅研究者們要注重提高自身科研能力,各個期刊也要按照國際標準完善投稿要求,才能逐步提高我國期刊RCT的報告質量。
本研究中大部分研究(92.92%)都報告了結構式摘要,但各年間摘要總分都不高,說明國內精神學科期刊對摘要報告的不夠完整,國內外的一些研究也顯示中英文文獻的摘要報告質量需要提升[14-15]。本研究中各年份RCT的危害總分均較低。有一多半的RCT沒有報告任何有關危害的內容,這其中非藥物干預研究占82.58%。Hardy等[16]的研究表明心理治療存在3%~15%的不良影響,國內陳發展等[17]也有關于心理治療不良反應的研究。國內外的一些專家共識和臨床指南都明確指出重復經顱磁刺激治療可能存在的不良反應[18-20]。以上均說明非藥物干預并非不存在不良反應。研究者不僅要完整報告藥物干預的危害,更要重視對非藥物干預危害的報告。
本研究中的RCT在方法學、其他信息、受試者流程圖等方面的報告也存在明顯欠缺,與蘇旻[5]、張蘭蘭[21]、楊勇[22]等對國內精神疾病RCT報告質量的評價相一致,與于丹丹[23]、張明妍[24]、來保勇[25]等對國內其他醫學領域雜志RCT報告質量的評價相一致。而這些方面的信息在臨床試驗注冊時都需要明確闡述。如果1個RCT已經進行了臨床試驗注冊,同時期刊要求作者完善文章中這些相關方面的報告,那么這篇RCT文章的報告質量將有明顯提升。
本研究發現,《中華精神科雜志》刊發的RCT的符合比例最高,《臨床精神醫學雜志》最低,從一定程度上反映了各雜志RCT的報告質量。希望各期刊都能嚴格執行臨床試驗注冊制度,普及CONSORT報告清單,引進國際臨床研究規范等[26]。
本研究的不足之處:① 僅收集了5種期刊近5年的數據,沒有對其他國內精神學科期刊及其他非精神醫學期刊中有關的數據進行采集。② 未對RCT干預措施進行分類,在CONSORT聲明的擴展包里有針對草藥干預和非藥物干預的擴展聲明,需要對此類研究的報告質量進行細化評價,這樣將更為聚焦相關問題。③ 本研究沒有對RCT的疾病種類進行細分,不同病種的RCT的報告質量是否一致仍需進一步研究。④ 本研究僅關注RCT的報告質量,未能深入調查報告內容是否正確,如樣本量計算公式是否恰當、隨機方法是否正確等。
綜上所述,雖然2016—2020年國內精神學科RCT研究的報告質量比2004—2008年有所提高,但近5年內的報告質量變化較小,總體報告質量仍不理想。今后,研究者們不僅要在試驗設計、實施過程中把控質量,也要在研究報告中盡可能的按照CONSORT聲明等清單要求,進行清晰、完全和規范地報告。