引用本文: 吳婷婷, 劉丹璐, 黃嬌, 麥月芬, 趙旭, 孫婉婷, 劉雅莉, 霍興晨, 魏茂強, 李育泉, 窠文博, 楊克虎. 偏倚風險評估工具在針刺Cochrane系統評價中的應用. 中國循證醫學雜志, 2014, 14(3): 361-364. doi: 10.7507/1672-2531.20140061 復制
評估納入研究內在真實性、偏倚風險或方法學質量是制作系統評價(systematic review,SR)/Meta分析(meta-analysis,MA)的重要環節,而隨機對照試驗(randomized controlled trial,RCT)是干預性系統評價最常納入的原始研究類型。自上世紀80年代以來,有眾多RCT方法學質量的評估工具出現[1],包括了2008年Cochrane協作網推薦的風險偏倚評估工具。與Cochrane系統評價指導手冊4.0相比,第5版有很多新的內容。除偏倚風險評估(risk of bias,ROB)工具外,還有證據分級的評估、制定與評價(Grading of Recommendations Assessment,Development,and Evaluation,GRADE)方法[2]。
ROB工具包括兩部分:“描述”和“判斷”。針對平行RCT,有6條評估條目,包括隨機序列、分配隱藏、盲法、數據資料完整性、選擇性報告和其他偏倚來源。對盲法,可根據不同研究內容、測量指標,針對不同施盲對象(盲患者、醫生、結果評估者、統計人員)分別進行評估;對數據資料完整性,常從試驗組和對照組是否有失訪及其失訪原因、是否應用意向性分析等方面進行評估。盡管Cochrane協作網及其分中心不斷致力于ROB工具的推廣和應用,但其前期工作提示ROB工具在中文期刊發表的針刺SR/MA中并未得到很好地應用,Jadad量表也常被系統評價人員選擇作為方法學質量評估工具[3]。本研究旨在進一步了解ROB工具在針刺Cochrane系統評價的應用情況。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
Cochrane系統評價(Cochrane systematic review,CSR)。
1.1.2 研究對象
需針刺治療的患者。
1.1.3 干預措施
試驗組給予針刺,對照組給予其他干預措施。
1.1.4 結局指標
不限定。
1.1.5 排除標準
排除處于“protocol”狀態的Cochrane計劃書。
1.2 檢索策略
計算機檢索Cochrane系統評價數據庫(2011年12期)。英文檢索詞主要包括acupuncture、electroacupuncture、ear acupuncture、moxibustion、acupressure等。其具體策略見框1。
框?1 ?CDSR檢索策略
acupuncture therapy acupuncture acupuncture analgesia OR ear acupuncture OR electroacupuncture OR electro-acupuncture OR meridians OR acupuncture points OR moxibustion OR acupressure OR acupoint #1 OR #2 OR #3
1.3 文獻篩選與資料提取
由2位研究者根據納入與排除標準獨立篩選文獻、提取資料,如遇分歧討論解決,必要時與第三方討論確定。資料提取內容包括:一般特征信息(如研究題目、完成作者情況、基金贊助、利益沖突);偏倚風險評估工具(如隨機序列、分配隱藏、盲法、選擇性報告、不完整數據、其他偏倚等);證據質量和推薦強度(GRADE)的使用情況。
1.4 統計分析
應用Excel軟件(2007版;http://office.microsoft.com/zh-cn/)和SPSS軟件(13.0版; http://www.spss.com)進行數據分析。采用頻數、構成比等進行描述性分析。
2 結果
2.1 文獻檢索結果
初檢出180篇CSR,經逐層篩選后,最終納入41個針刺CSR。文獻篩選流程及結果見圖 1。

2.2 納入研究的一般情況
納入的41個CSR中,有33個發表于2009年及以后。31.70%(13/41)CSR的第1作者來自中國。所關注疾病前3位依次為肌肉骨骼性疾病、神經類疾病和精神疾病。92.68%(38/41)的CSR有基金資助,但其中僅55.26%(21/38)報告無利益沖突。RCT是針刺CSR最常納入的研究類型(表 1)。

2.3 偏倚風險工具應用情況
納入41個CSR均對納入研究進行了方法學質量評價/偏倚風險評估,但僅有17.07%(17/41)應用了GRADE方法。
有25個研究采用Cochrane ROB工具評估納入研究偏倚風險,其中4個研究與Jadad量表合用,4個研究采用Cochrane Handbook 4,15個研究采用Cochrane Handbook 5,另有6個研究未報告具體版本;9個研究(25%)采用Jadad評分,其中8個研究同時與其他評估工具聯合評價(如Linde Internal Validity Scale)[4, 5]。
2009年后發表的33個CSR均評估了隨機序列、分配隱藏、盲法、不完整數據資料的信息;所有CSR均報告了是否實施盲法的信息和不完整數據資料,但部分未報告具體施盲對象;僅45.45%的研究(15/33)報告了偏倚風險評估工具中全部6個條目;54.55%的研究(18/33)報告了選擇性報告偏倚;42.42%的研究(14/33)提供了偏倚風險圖;12.12%的研究(4/33)引用了原始研究的原句作為偏倚風險評估的判斷依據(表 2)。

3 討論
針刺SR/MA的偏倚風險評估/方法學質量評價是其制作過程中關鍵環節之一。系統評價可以沒有Meta分析,但不可缺少偏倚風險評估/方法學質量評價。當前,術語“偏倚風險評估”和“方法學質量評價”處于混用狀態[3]。
自20世紀80年代以來,已有數十種RCT的質量評估工具先后發表。自Moher等[6, 7]研究中分析了1994年前發表的25個評分工具和9個清單后,更多的評估工具針對方法學質量[8-11]或同時關注方法學質量和報告質量[2, 12-16],但僅有一個評估工具針對針刺類研究[17]。在所有評價偏倚風險的工具中,使用最多的為Cochrane偏倚風險評估工具(約占64.48%)[18]。系統評價對納入RCT進行偏倚風險評估主要關注于RCT的內在真實性,而Cochrane偏倚風險評估工具中的6個條目均與RCT的內在真實性密切相關,因此被Cochrane Handbook 5推薦。
本研究提示大多數CSR選用Cochrane偏倚風險評估工具對納入的RCT進行偏倚風險/方法學質量評估。在選用Cochrane Handbook 4的4個研究中,有2個發表于2008年第4期,但另2個發表于2009年后,理論上應選用Cochrane Handbook 5而非版本4。大多數SR/MA報告了隨機序列、分配隱藏、盲法、不完整資料的信息,卻忽略了選擇性報告偏倚和其他偏倚來源的信息。盡管很多研究報告了基線可比信息,但并未分析其對其他來源偏倚的影響。
部分CSR未報告施盲的詳細信息。臨床試驗中,盲法可用于患者、臨床醫生、結局指標測量人員和統計人員。如果不清楚具體的施盲對象,也就無法準確判斷會產生何種偏倚(實施偏倚還是測量偏倚)。此外,研究中常常描述“雙盲”,但很少有研究進一步報告具體的施盲對象[19]。很多人猜測“雙盲”就是指對臨床醫生和患者施盲,但實際上可能是對患者和結局測量人員施盲。對主觀性測量指標,對結局測量人員施盲比對臨床醫生施盲能更有效地避免實施偏倚。
大多數研究提供了失訪/退出及ITT分析信息,但未描述“不完整結局數據”這一術語。我們推薦今后研究應分析“結果數據完整性”,不僅應詳細報告試驗組和對照組失訪/退出的具體數量,且應描述失訪原因。這些信息將有利于讀者評估減員偏倚。
針刺是當前國內外醫學研究熱點之一,在其臨床試驗設計過程中,研究者不僅要考慮到所選用研究設計類型(如RCT)的特點,同時還應關顧到針刺專業特征。如針刺RCT對照組的設立,假針刺的實施,施盲對象的選擇等都應細致設計。對于偏倚風險評估工具在針刺系統評價的應用中,盲法評估要考慮到對不同施盲對象施盲的可行性和必要性。通常情況下,對于針灸師很難實施盲法,而對于患者施盲可通過假針刺來實現,但假針刺如何選擇針刺的部位、深度、頻次、持續時間等問題,是系統評價研究者需考慮的因素之一。對于結果測量人員是否施盲,也主要根據評估針刺有效性和安全性的不同測量指標而定,因為針刺治療的優勢疾病通常是慢性疾病,如疼痛、術后惡心,對于以上主觀測量指標的療效評估人員進行施盲可有效避免可能產生的測量偏倚。另外,對于試驗組和對照組針灸師的選擇也可能對結果產生影響,例如選用了不同資質的針灸師,尤其是試驗組和對照組針灸師的施針技法有明顯差異,將可能引起實施偏倚。
GRADE方法是Cochrane Handbook 5中另一個方法學亮點。GRADE系統是由一個具有廣泛代表性的國際指南制定小組制定的一套普適、恰當、透明的證據評級系統。其界定了證據質量和推薦強度,對不同級別證據的升級與降級有明確、綜合的標準,證據評價到推薦意見強度全過程透明,注重考慮患者價值觀和意愿,多角度就推薦意見的強弱做出明確實用的詮釋,適用于系統評價、衛生技術評估及指南。GRADE系統將證據質量分為“高、中、低和極低”共4個等級,將推薦強度分為“強推薦和弱推薦”。在證據質量分級過程中在不同結局指標層面充分考慮偏倚風險對證據質量的影響是其重要特點之一[20, 21]。盡管Cochrane協作網強烈推薦系統評價制作過程中引入GRADE方法,然而當前其應用水平依然較低。因此,筆者強烈呼吁系統評價制作者不僅應采用ROB工具評估納入RCT的偏倚風險,同時應采用GRADE方法在結局指標層面進行證據質量分級,以全面、客觀展示系統評價結果,為循證臨床決策提供參考依據。
評估納入研究內在真實性、偏倚風險或方法學質量是制作系統評價(systematic review,SR)/Meta分析(meta-analysis,MA)的重要環節,而隨機對照試驗(randomized controlled trial,RCT)是干預性系統評價最常納入的原始研究類型。自上世紀80年代以來,有眾多RCT方法學質量的評估工具出現[1],包括了2008年Cochrane協作網推薦的風險偏倚評估工具。與Cochrane系統評價指導手冊4.0相比,第5版有很多新的內容。除偏倚風險評估(risk of bias,ROB)工具外,還有證據分級的評估、制定與評價(Grading of Recommendations Assessment,Development,and Evaluation,GRADE)方法[2]。
ROB工具包括兩部分:“描述”和“判斷”。針對平行RCT,有6條評估條目,包括隨機序列、分配隱藏、盲法、數據資料完整性、選擇性報告和其他偏倚來源。對盲法,可根據不同研究內容、測量指標,針對不同施盲對象(盲患者、醫生、結果評估者、統計人員)分別進行評估;對數據資料完整性,常從試驗組和對照組是否有失訪及其失訪原因、是否應用意向性分析等方面進行評估。盡管Cochrane協作網及其分中心不斷致力于ROB工具的推廣和應用,但其前期工作提示ROB工具在中文期刊發表的針刺SR/MA中并未得到很好地應用,Jadad量表也常被系統評價人員選擇作為方法學質量評估工具[3]。本研究旨在進一步了解ROB工具在針刺Cochrane系統評價的應用情況。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
Cochrane系統評價(Cochrane systematic review,CSR)。
1.1.2 研究對象
需針刺治療的患者。
1.1.3 干預措施
試驗組給予針刺,對照組給予其他干預措施。
1.1.4 結局指標
不限定。
1.1.5 排除標準
排除處于“protocol”狀態的Cochrane計劃書。
1.2 檢索策略
計算機檢索Cochrane系統評價數據庫(2011年12期)。英文檢索詞主要包括acupuncture、electroacupuncture、ear acupuncture、moxibustion、acupressure等。其具體策略見框1。
框?1 ?CDSR檢索策略
acupuncture therapy acupuncture acupuncture analgesia OR ear acupuncture OR electroacupuncture OR electro-acupuncture OR meridians OR acupuncture points OR moxibustion OR acupressure OR acupoint #1 OR #2 OR #3
1.3 文獻篩選與資料提取
由2位研究者根據納入與排除標準獨立篩選文獻、提取資料,如遇分歧討論解決,必要時與第三方討論確定。資料提取內容包括:一般特征信息(如研究題目、完成作者情況、基金贊助、利益沖突);偏倚風險評估工具(如隨機序列、分配隱藏、盲法、選擇性報告、不完整數據、其他偏倚等);證據質量和推薦強度(GRADE)的使用情況。
1.4 統計分析
應用Excel軟件(2007版;http://office.microsoft.com/zh-cn/)和SPSS軟件(13.0版; http://www.spss.com)進行數據分析。采用頻數、構成比等進行描述性分析。
2 結果
2.1 文獻檢索結果
初檢出180篇CSR,經逐層篩選后,最終納入41個針刺CSR。文獻篩選流程及結果見圖 1。

2.2 納入研究的一般情況
納入的41個CSR中,有33個發表于2009年及以后。31.70%(13/41)CSR的第1作者來自中國。所關注疾病前3位依次為肌肉骨骼性疾病、神經類疾病和精神疾病。92.68%(38/41)的CSR有基金資助,但其中僅55.26%(21/38)報告無利益沖突。RCT是針刺CSR最常納入的研究類型(表 1)。

2.3 偏倚風險工具應用情況
納入41個CSR均對納入研究進行了方法學質量評價/偏倚風險評估,但僅有17.07%(17/41)應用了GRADE方法。
有25個研究采用Cochrane ROB工具評估納入研究偏倚風險,其中4個研究與Jadad量表合用,4個研究采用Cochrane Handbook 4,15個研究采用Cochrane Handbook 5,另有6個研究未報告具體版本;9個研究(25%)采用Jadad評分,其中8個研究同時與其他評估工具聯合評價(如Linde Internal Validity Scale)[4, 5]。
2009年后發表的33個CSR均評估了隨機序列、分配隱藏、盲法、不完整數據資料的信息;所有CSR均報告了是否實施盲法的信息和不完整數據資料,但部分未報告具體施盲對象;僅45.45%的研究(15/33)報告了偏倚風險評估工具中全部6個條目;54.55%的研究(18/33)報告了選擇性報告偏倚;42.42%的研究(14/33)提供了偏倚風險圖;12.12%的研究(4/33)引用了原始研究的原句作為偏倚風險評估的判斷依據(表 2)。

3 討論
針刺SR/MA的偏倚風險評估/方法學質量評價是其制作過程中關鍵環節之一。系統評價可以沒有Meta分析,但不可缺少偏倚風險評估/方法學質量評價。當前,術語“偏倚風險評估”和“方法學質量評價”處于混用狀態[3]。
自20世紀80年代以來,已有數十種RCT的質量評估工具先后發表。自Moher等[6, 7]研究中分析了1994年前發表的25個評分工具和9個清單后,更多的評估工具針對方法學質量[8-11]或同時關注方法學質量和報告質量[2, 12-16],但僅有一個評估工具針對針刺類研究[17]。在所有評價偏倚風險的工具中,使用最多的為Cochrane偏倚風險評估工具(約占64.48%)[18]。系統評價對納入RCT進行偏倚風險評估主要關注于RCT的內在真實性,而Cochrane偏倚風險評估工具中的6個條目均與RCT的內在真實性密切相關,因此被Cochrane Handbook 5推薦。
本研究提示大多數CSR選用Cochrane偏倚風險評估工具對納入的RCT進行偏倚風險/方法學質量評估。在選用Cochrane Handbook 4的4個研究中,有2個發表于2008年第4期,但另2個發表于2009年后,理論上應選用Cochrane Handbook 5而非版本4。大多數SR/MA報告了隨機序列、分配隱藏、盲法、不完整資料的信息,卻忽略了選擇性報告偏倚和其他偏倚來源的信息。盡管很多研究報告了基線可比信息,但并未分析其對其他來源偏倚的影響。
部分CSR未報告施盲的詳細信息。臨床試驗中,盲法可用于患者、臨床醫生、結局指標測量人員和統計人員。如果不清楚具體的施盲對象,也就無法準確判斷會產生何種偏倚(實施偏倚還是測量偏倚)。此外,研究中常常描述“雙盲”,但很少有研究進一步報告具體的施盲對象[19]。很多人猜測“雙盲”就是指對臨床醫生和患者施盲,但實際上可能是對患者和結局測量人員施盲。對主觀性測量指標,對結局測量人員施盲比對臨床醫生施盲能更有效地避免實施偏倚。
大多數研究提供了失訪/退出及ITT分析信息,但未描述“不完整結局數據”這一術語。我們推薦今后研究應分析“結果數據完整性”,不僅應詳細報告試驗組和對照組失訪/退出的具體數量,且應描述失訪原因。這些信息將有利于讀者評估減員偏倚。
針刺是當前國內外醫學研究熱點之一,在其臨床試驗設計過程中,研究者不僅要考慮到所選用研究設計類型(如RCT)的特點,同時還應關顧到針刺專業特征。如針刺RCT對照組的設立,假針刺的實施,施盲對象的選擇等都應細致設計。對于偏倚風險評估工具在針刺系統評價的應用中,盲法評估要考慮到對不同施盲對象施盲的可行性和必要性。通常情況下,對于針灸師很難實施盲法,而對于患者施盲可通過假針刺來實現,但假針刺如何選擇針刺的部位、深度、頻次、持續時間等問題,是系統評價研究者需考慮的因素之一。對于結果測量人員是否施盲,也主要根據評估針刺有效性和安全性的不同測量指標而定,因為針刺治療的優勢疾病通常是慢性疾病,如疼痛、術后惡心,對于以上主觀測量指標的療效評估人員進行施盲可有效避免可能產生的測量偏倚。另外,對于試驗組和對照組針灸師的選擇也可能對結果產生影響,例如選用了不同資質的針灸師,尤其是試驗組和對照組針灸師的施針技法有明顯差異,將可能引起實施偏倚。
GRADE方法是Cochrane Handbook 5中另一個方法學亮點。GRADE系統是由一個具有廣泛代表性的國際指南制定小組制定的一套普適、恰當、透明的證據評級系統。其界定了證據質量和推薦強度,對不同級別證據的升級與降級有明確、綜合的標準,證據評價到推薦意見強度全過程透明,注重考慮患者價值觀和意愿,多角度就推薦意見的強弱做出明確實用的詮釋,適用于系統評價、衛生技術評估及指南。GRADE系統將證據質量分為“高、中、低和極低”共4個等級,將推薦強度分為“強推薦和弱推薦”。在證據質量分級過程中在不同結局指標層面充分考慮偏倚風險對證據質量的影響是其重要特點之一[20, 21]。盡管Cochrane協作網強烈推薦系統評價制作過程中引入GRADE方法,然而當前其應用水平依然較低。因此,筆者強烈呼吁系統評價制作者不僅應采用ROB工具評估納入RCT的偏倚風險,同時應采用GRADE方法在結局指標層面進行證據質量分級,以全面、客觀展示系統評價結果,為循證臨床決策提供參考依據。