引用本文: 李琴, 劉非, 魏永剛, 李波. 2016~2017 年中國肝癌臨床實踐指南的質量評價. 中國循證醫學雜志, 2018, 18(10): 1109-1113. doi: 10.7507/1672-2531.201804143 復制
原發性肝癌(以下簡稱為肝癌)是來源于肝細胞或肝內膽管細胞的惡性腫瘤[1],其發病率在全球惡性腫瘤中位列第六位。每年肝癌的新發病例和死亡病例超過一半發生在中國,是目前我國第四位常見惡性腫瘤及第三位病死率的腫瘤[2-4]。病毒性肝炎、酒精、飲食因素及黃曲霉素等是引起肝癌的主要原因[5]。由于早期缺乏典型臨床表現,一旦出現癥狀和體征,疾病多已進入中晚期[2-4],臨床上治療方式有手術與非手術治療,手術治療包括部分肝切除術和肝移植術,非手術治療包括介入、放療、化療、免疫和靶向治療等[6]。
臨床實踐指南(以下簡稱指南)是針對患者特定的臨床問題,基于系統評價形成的證據及對各種備選干預方式進行利弊評價之后提出的最優臨床指導意見[7]。目前國際公認的指南質量評價工具是 AGREE Ⅱ(the Appraisal of Guidelines Research and Evaluation II instrument)[8]。我國學者謝利民等[9]于 2012 年將其翻譯為中文。
近年來,我國臨床實踐指南的制定進展很快,多個肝癌臨床實踐指南紛紛發表,但其質量如何尚無評價報道。我們采用 AGREE Ⅱ對中國近兩年發布的肝癌診療指南進行質量評價,為今后我國肝癌指南制定和更新提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:符合指南定義的文獻[7],本文未將指南、共識與診療規范區分開,因其均符合 IOM(the Institute of Medicine)在 2011 年發布的關于指南定義。排除標準:重復發表的文獻、指南摘要、國外指南譯文、指南解讀、非診療指南等。
1.2 文獻檢索策略
計算機檢索 CNKI、WanFang Data、CBM 和 VIP 數據庫,搜集我國制定的肝癌臨床實踐指南,檢索時限為 2016 年 1 月 1 日至 2018 年 1 月 1 日。檢索詞包括:肝癌、指南、共識和規范。
1.3 文獻篩選、資料提取和質量評價
由 4 位研究者獨立篩選文獻、提取資料后,采用 AGREE Ⅱ[8, 9]對納入指南進行質量評價,最終評價結果由討論后取得一致。AGREE Ⅱ工具包括 6 個領域,23 條評分項。每條評分項分數為 1~7 分。每部指南各領域最終得分(標化為百分比)=(實際分–最低分)/(最高分–最低分)。在開始評價前進行預評價,并使用 SPSS 21.0 軟件進行組內相關系數分析(interclass correlation coefficient,ICC),當 ICC>0.8 時才開始正式評價,以確保不同研究者間評價的一致性。
2 結果
2.1 納入指南的基本特征
共納入 7 部指南[10-16],文獻篩選流程及結果見圖 1。
納入指南的基本特征見表 1,具體如下:① 在應用類別方面,2 部為診療指南,1 部為診斷指南,4 部為治療指南;② 在指南制定機構方面,由衛計委牽頭制定的指南僅 1 部,協作組制定的指南 1 部,其余 5 部指南均由各學會組織制定;③ 發表時間方面:2016 年發表 3 部指南,2017 年 4 部;④ 報告基金資助和利益聲明情況:僅 1 部指南報告無基金資助和利益沖突;⑤ 更新情況:僅 1 部指南報告會進行適時更新,但未清楚說明更新周期及步驟。


2.2 納入指南的質量評價結果
納入指南的質量評價結果見表 2。

2.2.1 領域 1:范圍和目的
此領域評價指標包括是否明確描述指南總目的、涵蓋衛生問題以及指南應用人群(患者或公眾)[8, 9],評價結果為 65.1%。大多數指南都較好地描述了如何有效診療肝癌及目前肝癌現狀,但在指南應用人群特點描述方面存在不足。
2.2.2 領域 2:參與人員
此領域評價指標主要包括是否清楚描述指南制定小組成員及各自職責、指南應用人群的觀點及明確界定指南使用者[8, 9],評價結果為 39.4%。僅 2 部指南描述了各成員分工情況,僅 3 部描述了相關專家醫院或科室方面信息,但均未報道是否有患者或公眾參與制定過程;所有納入指南在收集目標人群的觀點方面得分均很低;未清楚描述該指南的目標使用者,使讀者不能很快分辨此指南是否與其相關,是否應該參考。
2.2.3 領域 3:制定的嚴謹性
此領域主要關注檢索、納入證據過程及用于制定、更新推薦建議方法[8, 9],評價結果為 64.3%。僅 1 部指南描述了證據的檢索策略,部分指南在證據的評價方面(即推薦強度)未分出推薦強度強弱;未描述推薦建議的形成過程、過程中的爭議及解決爭議方法;所有指南均未報道在發表前已經過外部專家評審;僅 1 部指南報道指南會適時更新,但也未清楚描述更新周期及具體步驟,這些都是制定嚴謹性的不足。
2.2.4 領域 4:清晰性
此領域評估推薦建議是否清晰不含糊、是否明確列出不同的選擇或臨床問題及重要推薦是否容易識別[8, 9],評價結果為 55.6%。評分結果主要在于指南部分推薦意見有不明確性,如適當、必要時、在某些情況下等描述,這讓醫務工作者很難確定最好方法;僅少部分指南將推薦建議總結為流程圖以方便識別。
2.2.5 領域 5:應用性
此領域評價指南在應用過程中的促進和阻礙因素、付諸于實踐所需要的工具和相關資源及檢測標準,有助于臨床工作者權衡各推薦建議之間的利弊[8, 9],評價結果為 61.8%。
2.2.6 領域 6:編輯獨立性
此領域關注贊助單位的意見是否對指南推薦建議產生影響和指南制定小組成員間是否存在利益沖突[8, 9],評價結果為 6.1%。該領域得分最低,僅1部指南報道了以上內容,其余均未提及。
2.2.7 總體評價
我國近兩年肝癌診療指南的質量較高(圖 2),尤其是《原發性肝癌診療規范(2017 版)》[10]評分最高。全面評估后,納入指南均為 B 級推薦指南(得分≥30% 的領域數≥3 個,但存在得分≤60% 的領域),經補充或不同程度的修改完善后均推薦使用。

3 討論
目前我國關于肝癌的診療指南和共識不斷增多,但質量參差不齊,高質量的診療指南可為臨床工作提供正確指導,而低質量的指南則可能導致負面影響。因此,有必要對指南進行質量評價,以改進指南和更新。
本研究結果顯示,我國肝癌診療指南在各領域得分有一定差別,總體質量較高,尤其是在推薦指導意見及嚴謹性方面做得較好。但在參與人員及編輯獨立性等領域仍有待提高。對近兩年的指南的質量進行比較,2017 年指南在參與人員及應用性兩個領域得分高于 2016 年指南,說明隨著時間推移,我國指南的質量在不斷提高及改進。
在參與人員領域,部分指南僅報道醫務人員名字,對其具體分工和擅長專業未提及;也未考慮或未報道目標人群即患者、公眾的意見。目前醫療模式正在逐漸轉變,目標人群的選擇意愿也越來越得到重視,這一點應該在指南中體現。關于制定的嚴謹性方面,較少指南遵循證據檢索方法,僅有 3 部指南[10, 12, 14]對證據進行分級。傳統醫學常依靠個人經驗、高年資醫生指導來處理病人[21],多少缺乏科學性。隨著循證醫學概念[22]的提出,我們應該更加注重循證指南的制定。隨著時代發展,臨床研究結果層出不窮,指南也應保持更新,這一點更應該在指南中體現。指南是用來指導臨床實踐的,在制定中也應該考慮到推薦意見的推廣,列出推廣過程中可能需要的資源、工具或者指導手冊,將更方便應用。此外,各指南在編輯的獨立性領域得分最低,僅 1 部指南提及贊助單位和利益沖突,這可能使讀者質疑指南推薦意見的可信性和中立性。
我國指南常常更注重于推薦指導意見本身,而可能忽視其他如方法學、更新時間、贊助單位、利益相關等方面的內容報告,導致某些板塊得分低。若此后在指南制定過程中加強以上方面的報道,我國指南質量會得到進一步提升。
目前國內暫無文章評價肝癌診療指南,但在其他如闌尾炎[17]、咳嗽[18]等領域已有相似研究發表,結果均顯示指南得分不高。李楠等發布的《2012~2013 年中國大陸期刊發表臨床實踐指南質量評價》[19]顯示 2012~2013 年期間中國大陸發表的指南質量較低,但相對之前有所提升。相較之下,近年國際肝癌相關指南[20, 23-27]質量相對較高,如 EASL[20]制定的指南就詳細描述了領域一至領域六各個條目的情況。但國際與我國肝癌指南在目標人群(患者或公眾)意見的收集方面均存在不足,鮮有記錄目標人群的選擇和觀點。就整體而言,我國肝癌指南與國際指南質量差距逐漸縮小,反映出我國肝癌指南科學性和實用性越來越強。
本研究局限性:檢索到的文獻數量較少及時間限定,導致可能存在選擇性偏倚。且 AGREE Ⅱ 工具具有主觀性,評分者往往會有一定傾向性,給有影響力的指南評高分,而對自己不熟知的指南評低分。在本研究中,未實施盲法也是一個缺陷,但在實際評分過程中需要仔細閱讀整部指南,很難做到盲法。
總之,從本次評分結果來看,近兩年我國肝癌臨床實踐指南質量較高,尤其是其推薦指導意見對臨床具有較大實用價值,但仍需要參考國際指南制定方法和 AGREE Ⅱ 條目規范指南報告,從而制定出更高質量的肝癌診療指南。
原發性肝癌(以下簡稱為肝癌)是來源于肝細胞或肝內膽管細胞的惡性腫瘤[1],其發病率在全球惡性腫瘤中位列第六位。每年肝癌的新發病例和死亡病例超過一半發生在中國,是目前我國第四位常見惡性腫瘤及第三位病死率的腫瘤[2-4]。病毒性肝炎、酒精、飲食因素及黃曲霉素等是引起肝癌的主要原因[5]。由于早期缺乏典型臨床表現,一旦出現癥狀和體征,疾病多已進入中晚期[2-4],臨床上治療方式有手術與非手術治療,手術治療包括部分肝切除術和肝移植術,非手術治療包括介入、放療、化療、免疫和靶向治療等[6]。
臨床實踐指南(以下簡稱指南)是針對患者特定的臨床問題,基于系統評價形成的證據及對各種備選干預方式進行利弊評價之后提出的最優臨床指導意見[7]。目前國際公認的指南質量評價工具是 AGREE Ⅱ(the Appraisal of Guidelines Research and Evaluation II instrument)[8]。我國學者謝利民等[9]于 2012 年將其翻譯為中文。
近年來,我國臨床實踐指南的制定進展很快,多個肝癌臨床實踐指南紛紛發表,但其質量如何尚無評價報道。我們采用 AGREE Ⅱ對中國近兩年發布的肝癌診療指南進行質量評價,為今后我國肝癌指南制定和更新提供參考。
1 資料與方法
1.1 納入與排除標準
納入標準:符合指南定義的文獻[7],本文未將指南、共識與診療規范區分開,因其均符合 IOM(the Institute of Medicine)在 2011 年發布的關于指南定義。排除標準:重復發表的文獻、指南摘要、國外指南譯文、指南解讀、非診療指南等。
1.2 文獻檢索策略
計算機檢索 CNKI、WanFang Data、CBM 和 VIP 數據庫,搜集我國制定的肝癌臨床實踐指南,檢索時限為 2016 年 1 月 1 日至 2018 年 1 月 1 日。檢索詞包括:肝癌、指南、共識和規范。
1.3 文獻篩選、資料提取和質量評價
由 4 位研究者獨立篩選文獻、提取資料后,采用 AGREE Ⅱ[8, 9]對納入指南進行質量評價,最終評價結果由討論后取得一致。AGREE Ⅱ工具包括 6 個領域,23 條評分項。每條評分項分數為 1~7 分。每部指南各領域最終得分(標化為百分比)=(實際分–最低分)/(最高分–最低分)。在開始評價前進行預評價,并使用 SPSS 21.0 軟件進行組內相關系數分析(interclass correlation coefficient,ICC),當 ICC>0.8 時才開始正式評價,以確保不同研究者間評價的一致性。
2 結果
2.1 納入指南的基本特征
共納入 7 部指南[10-16],文獻篩選流程及結果見圖 1。
納入指南的基本特征見表 1,具體如下:① 在應用類別方面,2 部為診療指南,1 部為診斷指南,4 部為治療指南;② 在指南制定機構方面,由衛計委牽頭制定的指南僅 1 部,協作組制定的指南 1 部,其余 5 部指南均由各學會組織制定;③ 發表時間方面:2016 年發表 3 部指南,2017 年 4 部;④ 報告基金資助和利益聲明情況:僅 1 部指南報告無基金資助和利益沖突;⑤ 更新情況:僅 1 部指南報告會進行適時更新,但未清楚說明更新周期及步驟。


2.2 納入指南的質量評價結果
納入指南的質量評價結果見表 2。

2.2.1 領域 1:范圍和目的
此領域評價指標包括是否明確描述指南總目的、涵蓋衛生問題以及指南應用人群(患者或公眾)[8, 9],評價結果為 65.1%。大多數指南都較好地描述了如何有效診療肝癌及目前肝癌現狀,但在指南應用人群特點描述方面存在不足。
2.2.2 領域 2:參與人員
此領域評價指標主要包括是否清楚描述指南制定小組成員及各自職責、指南應用人群的觀點及明確界定指南使用者[8, 9],評價結果為 39.4%。僅 2 部指南描述了各成員分工情況,僅 3 部描述了相關專家醫院或科室方面信息,但均未報道是否有患者或公眾參與制定過程;所有納入指南在收集目標人群的觀點方面得分均很低;未清楚描述該指南的目標使用者,使讀者不能很快分辨此指南是否與其相關,是否應該參考。
2.2.3 領域 3:制定的嚴謹性
此領域主要關注檢索、納入證據過程及用于制定、更新推薦建議方法[8, 9],評價結果為 64.3%。僅 1 部指南描述了證據的檢索策略,部分指南在證據的評價方面(即推薦強度)未分出推薦強度強弱;未描述推薦建議的形成過程、過程中的爭議及解決爭議方法;所有指南均未報道在發表前已經過外部專家評審;僅 1 部指南報道指南會適時更新,但也未清楚描述更新周期及具體步驟,這些都是制定嚴謹性的不足。
2.2.4 領域 4:清晰性
此領域評估推薦建議是否清晰不含糊、是否明確列出不同的選擇或臨床問題及重要推薦是否容易識別[8, 9],評價結果為 55.6%。評分結果主要在于指南部分推薦意見有不明確性,如適當、必要時、在某些情況下等描述,這讓醫務工作者很難確定最好方法;僅少部分指南將推薦建議總結為流程圖以方便識別。
2.2.5 領域 5:應用性
此領域評價指南在應用過程中的促進和阻礙因素、付諸于實踐所需要的工具和相關資源及檢測標準,有助于臨床工作者權衡各推薦建議之間的利弊[8, 9],評價結果為 61.8%。
2.2.6 領域 6:編輯獨立性
此領域關注贊助單位的意見是否對指南推薦建議產生影響和指南制定小組成員間是否存在利益沖突[8, 9],評價結果為 6.1%。該領域得分最低,僅1部指南報道了以上內容,其余均未提及。
2.2.7 總體評價
我國近兩年肝癌診療指南的質量較高(圖 2),尤其是《原發性肝癌診療規范(2017 版)》[10]評分最高。全面評估后,納入指南均為 B 級推薦指南(得分≥30% 的領域數≥3 個,但存在得分≤60% 的領域),經補充或不同程度的修改完善后均推薦使用。

3 討論
目前我國關于肝癌的診療指南和共識不斷增多,但質量參差不齊,高質量的診療指南可為臨床工作提供正確指導,而低質量的指南則可能導致負面影響。因此,有必要對指南進行質量評價,以改進指南和更新。
本研究結果顯示,我國肝癌診療指南在各領域得分有一定差別,總體質量較高,尤其是在推薦指導意見及嚴謹性方面做得較好。但在參與人員及編輯獨立性等領域仍有待提高。對近兩年的指南的質量進行比較,2017 年指南在參與人員及應用性兩個領域得分高于 2016 年指南,說明隨著時間推移,我國指南的質量在不斷提高及改進。
在參與人員領域,部分指南僅報道醫務人員名字,對其具體分工和擅長專業未提及;也未考慮或未報道目標人群即患者、公眾的意見。目前醫療模式正在逐漸轉變,目標人群的選擇意愿也越來越得到重視,這一點應該在指南中體現。關于制定的嚴謹性方面,較少指南遵循證據檢索方法,僅有 3 部指南[10, 12, 14]對證據進行分級。傳統醫學常依靠個人經驗、高年資醫生指導來處理病人[21],多少缺乏科學性。隨著循證醫學概念[22]的提出,我們應該更加注重循證指南的制定。隨著時代發展,臨床研究結果層出不窮,指南也應保持更新,這一點更應該在指南中體現。指南是用來指導臨床實踐的,在制定中也應該考慮到推薦意見的推廣,列出推廣過程中可能需要的資源、工具或者指導手冊,將更方便應用。此外,各指南在編輯的獨立性領域得分最低,僅 1 部指南提及贊助單位和利益沖突,這可能使讀者質疑指南推薦意見的可信性和中立性。
我國指南常常更注重于推薦指導意見本身,而可能忽視其他如方法學、更新時間、贊助單位、利益相關等方面的內容報告,導致某些板塊得分低。若此后在指南制定過程中加強以上方面的報道,我國指南質量會得到進一步提升。
目前國內暫無文章評價肝癌診療指南,但在其他如闌尾炎[17]、咳嗽[18]等領域已有相似研究發表,結果均顯示指南得分不高。李楠等發布的《2012~2013 年中國大陸期刊發表臨床實踐指南質量評價》[19]顯示 2012~2013 年期間中國大陸發表的指南質量較低,但相對之前有所提升。相較之下,近年國際肝癌相關指南[20, 23-27]質量相對較高,如 EASL[20]制定的指南就詳細描述了領域一至領域六各個條目的情況。但國際與我國肝癌指南在目標人群(患者或公眾)意見的收集方面均存在不足,鮮有記錄目標人群的選擇和觀點。就整體而言,我國肝癌指南與國際指南質量差距逐漸縮小,反映出我國肝癌指南科學性和實用性越來越強。
本研究局限性:檢索到的文獻數量較少及時間限定,導致可能存在選擇性偏倚。且 AGREE Ⅱ 工具具有主觀性,評分者往往會有一定傾向性,給有影響力的指南評高分,而對自己不熟知的指南評低分。在本研究中,未實施盲法也是一個缺陷,但在實際評分過程中需要仔細閱讀整部指南,很難做到盲法。
總之,從本次評分結果來看,近兩年我國肝癌臨床實踐指南質量較高,尤其是其推薦指導意見對臨床具有較大實用價值,但仍需要參考國際指南制定方法和 AGREE Ⅱ 條目規范指南報告,從而制定出更高質量的肝癌診療指南。