引用本文: 徐暢, 李玲, 鄧可, 康德英, 李靜, 陳進, 譚婧, 王雯, 劉佳利, 劉艷梅, 孫鑫. 抗凝藥用于房顫患者隊列研究的結果可信度評價工具的研發. 中國循證醫學雜志, 2019, 19(2): 218-224. doi: 10.7507/1672-2531.201809087 復制
房顫(atrial fibrillation,AF)是臨床最常見的快速心律失常現象之一,以心房激動頻率高、心律絕對不齊為主要特征[1]。房顫發作時,心房失去有效的收縮功能,局部血液動力紊亂而形成血栓,血栓經血液運輸到達其他組織器官將造成血栓栓塞性事件。在我國,房顫的人群患病率為 0.77%,男性高于女性,且隨年齡增長而增加[2]。據統計,80 歲以上的人群中,房顫患病率高達 7%~8%[3]。按照病因,房顫可分為瓣膜性房顫、非瓣膜性房顫和孤立性房顫。瓣膜性房顫主要為風濕性心臟瓣膜疾病(二尖瓣狹窄為主)與心臟瓣膜置換術后的房顫;非瓣膜性房顫為不合并風濕性二尖瓣病變、機械或生物瓣膜置換術及二尖瓣成形術的情況下而出現的房顫;孤立性房顫則為不合并任何心臟病和全身系統性疾病的房顫。臨床上非瓣膜性房顫最為常見,占所有房顫患者的 2/3 以上[4]。
抗凝藥物常被用于預防房顫患者發生血栓事件。傳統抗凝藥物包括注射抗凝藥或口服抗凝藥維生素 K 拮抗劑;該類藥物特異性差,在臨床實際中存在療效不可預測、需要長期監測和調整劑量等諸多局限,嚴重限制了其臨床價值及應用[5]。新型口服抗凝藥(New oral anticoagulant,NOACs)克服了這些局限,NOACs 代表藥物包括利伐沙班(Rivaroxaban)、阿哌沙班(Apixaban)、達比加群(Dabigatran)及依度沙班(Edoxaban);已有 Ⅲ 期臨床試驗報告了各自的療效安全性[6-8]。
抗凝藥在臨床使用廣泛,越來越多的研究開始分析它們在真實世界中的有效性和安全性。真實世界研究一方面填補了 Ⅲ 期臨床試驗尚未回答的問題,為抗凝藥的合理使用提供了更多的證據;但另一方面,不同研究之間的設計方法差別較大,結果及結論不盡相同,如何認識及解讀這些證據仍存在許多不一致。由于當前尚無針對該類研究結果的評價工具,臨床醫師無法有效判斷真實世界研究結果可信度,采用這些研究證據進行臨床決策存在較大困難。本研究基于以上問題,采用循證醫學理念,通過文獻復習、頭腦風暴、專家咨詢法等方法擬制定能反映基于隊列設計的抗凝藥對房顫患者結局的研究結果可信度的評價量表,以期為臨床實踐和指南制作提供理論依據。
1 資料與方法
1.1 研究方法
本研究嚴格按照國際量表制作規范進行[9-11]。研究分 4 個步驟進行:第一步,全面、系統地檢索相關或類似的方法學質量評價量表;根據檢索出的量表,整理出所有可能反應觀察性研究結果可信度的條目,并對上述條目進行去重、遴選;第二步:進行頭腦風暴,對條目進行補充,形成初步條目集,經核心小組成員討論后形成初步量表;第三步,召開內部專家會議,邀請本單位的流行病學、循證醫學、臨床醫學專家對潛在遺漏的條目繼續進行補充,并對初步量表條目進行多輪評價、篩選;第四步,召開外部專家咨詢會,邀請國內知名流行病學、循證醫學、臨床醫學專家對上一輪修改的量表進行外部評價,形成最終量表。
1.2 文獻檢索
1.2.1 納入排除標準
本研究納入研究為量表類方法學研究,因此無法按照 PICO 原則進行制定。根據核心小組討論后,制定出如下納入標準:① 主題為臨床/流行病學研究方法學質量量表及相關研究的方法學研究或相關量表綜述;② 量表及相關質量評價方法針對的研究類型為觀察性研究,包括隊列研究、病例-對照研究、數據庫研究;③ 語言為中文或英文。排除標準如下:① 反映報告質量的量表;② 無法獲取使用權限的量表;③ 英文文獻的中文譯本。
1.2.2 檢索策略
由本課題研究小組制定檢索策略。小組成員均有 5 年及以上文獻檢索經驗,在國際上發表多篇高質量循證醫學實證類及方法學論文。檢索策略制定分為 3 步進行:首先進行關鍵詞預檢索,根據預檢索結果,采用主題詞和自由詞結合布爾邏輯詞、字段限制符擬定初始檢索策略。然后再根據初檢結果對檢索策略進行討論和修改完善。最后按修改后的檢索策略在相關數據庫進行試檢索,并根據人機對話反饋的結果再次調整,以形成最終檢索策略。
1.2.3 文獻檢索
計算機檢索 2 個常用英文數據庫(MEDLINE、EMbase)和 1 個中文數據庫(CBM),檢索時限為各數據庫建庫至 2017 年 12 月 19 日。同時手工檢索相關綜述的參考文獻,并根據團隊經驗收集常用的觀察性研究方法學質量評價量表,包括 NOS 量表、ROBINS-I 量表和 GRADE 工具。文獻檢索由 1 位課題主要承擔人員單獨進行。
1.2.4 文獻篩選
由 2 位研究員進行文獻篩選。首先由 1 位研究員將檢索結果導入 EndNote X8.0 并查重,2 位研究員確認后進行標記與剔除。接著進一步閱讀篩文獻的題目及摘要,排除明顯不符合納入標準的文獻后,另由 1 位研究員核查。最后,閱讀全文,篩選出符合要求的文獻。
1.3 條目收集和整理
1.3.1 條目收集
由 1 位課題主要承擔人員單獨負責條目收集。根據納入文獻量表或能反映方法學質量的內容(并非以條目出現,而是以整段文字描述某個方法學的內容)逐條進行數據庫入庫(事先采用 Excel 軟件制定數據庫),并標記各條目或內容出處。按照條目或內容的研究類型進行分類,在不改變原意的條件下對入庫內容進行修整使之成為單個條目。
1.3.2 條目整理及關鍵詞庫建立
條目整理由證據合成小組成員共同進行。各成員仔細閱讀每個條目及條目的說明,討論確定各條目的意義以保證對其理解正確。接著由課題主要承擔人員單獨對條目的關鍵詞進行提取形成關鍵詞庫,每個條目都對應 1 個關鍵詞。意義類似或相同的條目采用統一的關鍵詞。根據研究類別,采用 Excel 將條目關鍵詞排序,對重復關鍵詞僅保留 1 次,其余刪除,形成初步關鍵詞庫。本研究針對隊列研究,因此整理出關于隊列研究的關鍵詞庫。
1.3.3 初步條目池
將關鍵詞庫的每一個關鍵詞擴展成問句形式形成初步條目。課題小組隨之對初步條目逐一討論并進行首次修改。1 周后,小組成員召開小組討論會對條目進行修改及完善,形成初步條目池。
1.4 頭腦風暴
采用頭腦風暴的方式對初步條目池進行補充、完善。
1.5 內部專家討論
通過內部專家會討論條目的表達、條目域的設置和條目問題設計,以形成初步量表。本次邀請中國循證醫學中心及臨床流行病學教研室的 4 位循證醫學專業專家和 2 位臨床流行病學專家,通過召開內部專家會議完善量表,評價初步條目池,同時商議量表的外形設計和基本框架。
1.6 外部專家咨詢
邀請 10 余位國內相關領域專家定量評價上述量表條目的清晰性、適用性和重要性,并根據外部專家意見進一步修改,形成最終量表。外部專家咨詢分 4 輪進行。會議工作包括 3 部分:第一部分:補充潛在遺漏的條目;第二部分:評價初步量表條目,刪除不能反映結果可信度的條目;條目刪除規則如下:所有專家一致認為該條目無法反應結果可信度,則進行刪除;否則保留該條目進行后續評價;第三部分:評價剩余條目的表面效度,若條目表面效度差則需提出修改意見。(注:條目表面效度指某條目是否真實反映了該條目應該反映的內容)。
2 周后召開第二輪外部專家咨詢會議,共 9 名專家參會。將前次會議形成的條目集及相關修改材料整理后以紙質版發放給與會專家,請專家對量表再次進行討論及評價(刪減新條目、評價剩余條目表面效度、整合重合的條目)。條目刪減原則遵循首次會議原則。課題主要承擔人員根據第二次會議中專家意見整理條目,并作好記錄,形成完整量表。
第三輪外部專家咨詢會議邀請循證醫學領域、流行病學領域、臨床專家、數據庫研究專家、觀察性研究相關專家、量表制作專家等 11 名。各專家發放紙質版中、英文版量表各 1 份。要求專家對每個條目清晰度、重要性進行 VAS 評分(總分 10 分)并判斷。同時,參會專家再次對所有條目進行整合和刪減。條目刪減原則仍遵循首次會議原則。
1 周后繼續召開第四輪專家會議。共邀請 10 名相關專家參與。由負責人將經前次外部專家會議意見修改后的量表及修改記錄打印后發放給參會專家,繼續進行評價。會議內容主要討論條目說明,整合潛在條目,評價條目重要性及討論整體可信度評價標準及評價方法等,最終達成一致意見,形成完整量表。
2 結果
2.1 文獻篩選流程及結果
初檢共獲取 7 735 篇文獻。經逐層篩選后納入 17 篇[12-28]文獻。納入文獻中共整理出 55 個關于觀察性研究方法學質量評價工具,包括 780 個條目。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:MEDLINE(
2.2 條目收集和整理結果
根據條目關鍵詞提取、分類,剔除相同或意義相近關鍵詞后,獲得包括 46 個關鍵詞的關鍵詞池,形成 46 個條目組成初步條目池。經核心小組討論后,對潛在條目進行補充、對與方法學無關條目進行剔除、并對意義具有部分重疊的條目進行整合后,形成 43 個條目的初級量表。
2.3 內部專家討論
內部專家討論確定了量表的外形設計、基本框架、問題設計、回復設計等內容。經過 4 輪內部專家討論,確定量表以單個條目問題及可視化評分刻度 2 部分組成。在問題設計上,遵循簡潔、易懂、準確的原則。同時對每個問題,進行詳細的說明,以進一步闡釋問題所包含的內容。回復設計方面,以“非等距”回復為原則,分別為“肯定是”、“可能是”、“可能不是”、“肯定不是”。
2.4 外部專家咨詢
經過前兩輪外部專家討論會形成 28 個條目、分別對應 7 個域的完整量表。經過第三輪外部專家會后形成 23 個條目、對應 7 個域的量表;第四輪外部專家評價后最終形成包括 21 個條目、對應 7 個域的量表(表 1)。7 個域分別為:問題定義、測量、隨訪、混雜、缺失、統計方法、結果評價。


2.5 最終量表
量表分中文版和英文版 2 個版本,每個條目對應 4 種回復“肯定是”、“可能是”、“可能不是”、“肯定不是”。每個條目同時對應詳細說明,用以幫助使用者進行更準確的判斷。例如,對于問題定義部分的第一個問題“對房顫的定義是否充分?”,我們對“是否充分”進行了詳細說明,當研究明確界定房顫類型、病程、合并癥,并依據公認的診斷標準進行診斷時,我們認為該條目下可信度較高,選擇“肯定是”,而如果未對這些特征進行界定時,則選“肯定不是”。對于部分不確定的情況,可根據研究者目的自行進行判斷為“可能是”或“可能不是”。使用者根據實際情況,對每個條目進行評價,獲得單個條目對應的可信度。同時,我們采用可視化視覺評分工具,用以幫助使用者基于量表所有條目評價結果對單個研究的整體可信度進行評價(表 1)。
3 討論
本課題經過詳細的檢索、條目匯總、4 次核心小組討論會、4 次內部專家討論會、4 次外部專家咨詢會,最終形成用于評價針對(但不限于)房顫患者抗凝干預的研究結果可信度量表。本量表為第一個針對房顫患者抗凝治療的隊列研究結果可信度評價量表,填補了該領域的空白。同時,本量表具有較高臨床實用價值。首先,本量表對臨床醫師應用證據進行臨床決策具有一定指導意義;同時,本量表還可用于臨床指南制定中對隊列研究結果可信度評價,可為臨床指南的制定提供方法學支持。此外,研究者可根據本量表評價結果了解現有研究存在的問題,為今后開展同類研究提供改進意見和建議。
值得注意的是,本量表的目的是評價相關研究結果的可信度,需要與常用的質量評價工具進行區分。兩者具有不同的功能和適用范圍。結果可信度量表既包括偏倚風險評價的內容,同時也涵蓋了對結果的評價,如效應量是否足夠大、是否有生物學機制等;而偏倚風險評價工具僅僅從研究設計和實施角度進行考慮,并不對研究結果進行評價。
本量表存在以下幾個優勢。第一,本量表每個問題都進行了精簡設置,字數均保證在 20 個單詞以內,語言易懂,以保證使用者能在最短的時間理解語義,這也是量表制作過程中的重要環節。研究表明,當問題設置字數過多,語言難懂的情況下,量表的整體效度會降低。第二,本量表對每個條目都輔以相應說明,以保證使用者能更客觀的對文獻進行評價;第三,本量表采用類似 ROBINS-I 量表中使用的回復方式,簡單易懂,可有效降低主觀性偏倚;第四,本量表采用可視化視覺評分工具,使用者可根據前期對單個條目評價的結果,根據視覺評分工具對整體可信度進行評價,具有較好的可操作性。傳統量表通常對單個條目等權賦分值、并對分值進行相加而獲得整體可信度,但這類方法最大的缺陷在于條目權重并不一致,簡單對得分進行相加并不合理;而根據單個條目重要性,使用視覺評分工具對整體可信度進行評價可能更能反映真實的可信度。
本研究也存在一定的局限性。首先,類似于其他量表評價工具,本量表存在一定主觀性風險[9-11]。盡管我們對每個問題進行了詳細的說明幫助使用者更客觀的評價,但仍無法避免主觀性風險。因此我們建議在使用時,應由兩位及以上人員同時進行評價。其次,本量表的信度和效度尚不清楚,需要后續研究進一步驗證。
綜上,我們推薦臨床醫師根據本量表輔助臨床決策;同時,在相關指南的制作中,可采用本量表對隊列研究結果可信度進行評價。此外,研究者可根據本量表評價結果了解現有研究存在的問題,為今后開展同類研究提供改進意見和建議。
利益沖突聲明:本研究無利益沖突。
房顫(atrial fibrillation,AF)是臨床最常見的快速心律失常現象之一,以心房激動頻率高、心律絕對不齊為主要特征[1]。房顫發作時,心房失去有效的收縮功能,局部血液動力紊亂而形成血栓,血栓經血液運輸到達其他組織器官將造成血栓栓塞性事件。在我國,房顫的人群患病率為 0.77%,男性高于女性,且隨年齡增長而增加[2]。據統計,80 歲以上的人群中,房顫患病率高達 7%~8%[3]。按照病因,房顫可分為瓣膜性房顫、非瓣膜性房顫和孤立性房顫。瓣膜性房顫主要為風濕性心臟瓣膜疾病(二尖瓣狹窄為主)與心臟瓣膜置換術后的房顫;非瓣膜性房顫為不合并風濕性二尖瓣病變、機械或生物瓣膜置換術及二尖瓣成形術的情況下而出現的房顫;孤立性房顫則為不合并任何心臟病和全身系統性疾病的房顫。臨床上非瓣膜性房顫最為常見,占所有房顫患者的 2/3 以上[4]。
抗凝藥物常被用于預防房顫患者發生血栓事件。傳統抗凝藥物包括注射抗凝藥或口服抗凝藥維生素 K 拮抗劑;該類藥物特異性差,在臨床實際中存在療效不可預測、需要長期監測和調整劑量等諸多局限,嚴重限制了其臨床價值及應用[5]。新型口服抗凝藥(New oral anticoagulant,NOACs)克服了這些局限,NOACs 代表藥物包括利伐沙班(Rivaroxaban)、阿哌沙班(Apixaban)、達比加群(Dabigatran)及依度沙班(Edoxaban);已有 Ⅲ 期臨床試驗報告了各自的療效安全性[6-8]。
抗凝藥在臨床使用廣泛,越來越多的研究開始分析它們在真實世界中的有效性和安全性。真實世界研究一方面填補了 Ⅲ 期臨床試驗尚未回答的問題,為抗凝藥的合理使用提供了更多的證據;但另一方面,不同研究之間的設計方法差別較大,結果及結論不盡相同,如何認識及解讀這些證據仍存在許多不一致。由于當前尚無針對該類研究結果的評價工具,臨床醫師無法有效判斷真實世界研究結果可信度,采用這些研究證據進行臨床決策存在較大困難。本研究基于以上問題,采用循證醫學理念,通過文獻復習、頭腦風暴、專家咨詢法等方法擬制定能反映基于隊列設計的抗凝藥對房顫患者結局的研究結果可信度的評價量表,以期為臨床實踐和指南制作提供理論依據。
1 資料與方法
1.1 研究方法
本研究嚴格按照國際量表制作規范進行[9-11]。研究分 4 個步驟進行:第一步,全面、系統地檢索相關或類似的方法學質量評價量表;根據檢索出的量表,整理出所有可能反應觀察性研究結果可信度的條目,并對上述條目進行去重、遴選;第二步:進行頭腦風暴,對條目進行補充,形成初步條目集,經核心小組成員討論后形成初步量表;第三步,召開內部專家會議,邀請本單位的流行病學、循證醫學、臨床醫學專家對潛在遺漏的條目繼續進行補充,并對初步量表條目進行多輪評價、篩選;第四步,召開外部專家咨詢會,邀請國內知名流行病學、循證醫學、臨床醫學專家對上一輪修改的量表進行外部評價,形成最終量表。
1.2 文獻檢索
1.2.1 納入排除標準
本研究納入研究為量表類方法學研究,因此無法按照 PICO 原則進行制定。根據核心小組討論后,制定出如下納入標準:① 主題為臨床/流行病學研究方法學質量量表及相關研究的方法學研究或相關量表綜述;② 量表及相關質量評價方法針對的研究類型為觀察性研究,包括隊列研究、病例-對照研究、數據庫研究;③ 語言為中文或英文。排除標準如下:① 反映報告質量的量表;② 無法獲取使用權限的量表;③ 英文文獻的中文譯本。
1.2.2 檢索策略
由本課題研究小組制定檢索策略。小組成員均有 5 年及以上文獻檢索經驗,在國際上發表多篇高質量循證醫學實證類及方法學論文。檢索策略制定分為 3 步進行:首先進行關鍵詞預檢索,根據預檢索結果,采用主題詞和自由詞結合布爾邏輯詞、字段限制符擬定初始檢索策略。然后再根據初檢結果對檢索策略進行討論和修改完善。最后按修改后的檢索策略在相關數據庫進行試檢索,并根據人機對話反饋的結果再次調整,以形成最終檢索策略。
1.2.3 文獻檢索
計算機檢索 2 個常用英文數據庫(MEDLINE、EMbase)和 1 個中文數據庫(CBM),檢索時限為各數據庫建庫至 2017 年 12 月 19 日。同時手工檢索相關綜述的參考文獻,并根據團隊經驗收集常用的觀察性研究方法學質量評價量表,包括 NOS 量表、ROBINS-I 量表和 GRADE 工具。文獻檢索由 1 位課題主要承擔人員單獨進行。
1.2.4 文獻篩選
由 2 位研究員進行文獻篩選。首先由 1 位研究員將檢索結果導入 EndNote X8.0 并查重,2 位研究員確認后進行標記與剔除。接著進一步閱讀篩文獻的題目及摘要,排除明顯不符合納入標準的文獻后,另由 1 位研究員核查。最后,閱讀全文,篩選出符合要求的文獻。
1.3 條目收集和整理
1.3.1 條目收集
由 1 位課題主要承擔人員單獨負責條目收集。根據納入文獻量表或能反映方法學質量的內容(并非以條目出現,而是以整段文字描述某個方法學的內容)逐條進行數據庫入庫(事先采用 Excel 軟件制定數據庫),并標記各條目或內容出處。按照條目或內容的研究類型進行分類,在不改變原意的條件下對入庫內容進行修整使之成為單個條目。
1.3.2 條目整理及關鍵詞庫建立
條目整理由證據合成小組成員共同進行。各成員仔細閱讀每個條目及條目的說明,討論確定各條目的意義以保證對其理解正確。接著由課題主要承擔人員單獨對條目的關鍵詞進行提取形成關鍵詞庫,每個條目都對應 1 個關鍵詞。意義類似或相同的條目采用統一的關鍵詞。根據研究類別,采用 Excel 將條目關鍵詞排序,對重復關鍵詞僅保留 1 次,其余刪除,形成初步關鍵詞庫。本研究針對隊列研究,因此整理出關于隊列研究的關鍵詞庫。
1.3.3 初步條目池
將關鍵詞庫的每一個關鍵詞擴展成問句形式形成初步條目。課題小組隨之對初步條目逐一討論并進行首次修改。1 周后,小組成員召開小組討論會對條目進行修改及完善,形成初步條目池。
1.4 頭腦風暴
采用頭腦風暴的方式對初步條目池進行補充、完善。
1.5 內部專家討論
通過內部專家會討論條目的表達、條目域的設置和條目問題設計,以形成初步量表。本次邀請中國循證醫學中心及臨床流行病學教研室的 4 位循證醫學專業專家和 2 位臨床流行病學專家,通過召開內部專家會議完善量表,評價初步條目池,同時商議量表的外形設計和基本框架。
1.6 外部專家咨詢
邀請 10 余位國內相關領域專家定量評價上述量表條目的清晰性、適用性和重要性,并根據外部專家意見進一步修改,形成最終量表。外部專家咨詢分 4 輪進行。會議工作包括 3 部分:第一部分:補充潛在遺漏的條目;第二部分:評價初步量表條目,刪除不能反映結果可信度的條目;條目刪除規則如下:所有專家一致認為該條目無法反應結果可信度,則進行刪除;否則保留該條目進行后續評價;第三部分:評價剩余條目的表面效度,若條目表面效度差則需提出修改意見。(注:條目表面效度指某條目是否真實反映了該條目應該反映的內容)。
2 周后召開第二輪外部專家咨詢會議,共 9 名專家參會。將前次會議形成的條目集及相關修改材料整理后以紙質版發放給與會專家,請專家對量表再次進行討論及評價(刪減新條目、評價剩余條目表面效度、整合重合的條目)。條目刪減原則遵循首次會議原則。課題主要承擔人員根據第二次會議中專家意見整理條目,并作好記錄,形成完整量表。
第三輪外部專家咨詢會議邀請循證醫學領域、流行病學領域、臨床專家、數據庫研究專家、觀察性研究相關專家、量表制作專家等 11 名。各專家發放紙質版中、英文版量表各 1 份。要求專家對每個條目清晰度、重要性進行 VAS 評分(總分 10 分)并判斷。同時,參會專家再次對所有條目進行整合和刪減。條目刪減原則仍遵循首次會議原則。
1 周后繼續召開第四輪專家會議。共邀請 10 名相關專家參與。由負責人將經前次外部專家會議意見修改后的量表及修改記錄打印后發放給參會專家,繼續進行評價。會議內容主要討論條目說明,整合潛在條目,評價條目重要性及討論整體可信度評價標準及評價方法等,最終達成一致意見,形成完整量表。
2 結果
2.1 文獻篩選流程及結果
初檢共獲取 7 735 篇文獻。經逐層篩選后納入 17 篇[12-28]文獻。納入文獻中共整理出 55 個關于觀察性研究方法學質量評價工具,包括 780 個條目。文獻篩選流程及結果見圖 1。

*所檢索的數據庫及檢出文獻數具體如下:MEDLINE(
2.2 條目收集和整理結果
根據條目關鍵詞提取、分類,剔除相同或意義相近關鍵詞后,獲得包括 46 個關鍵詞的關鍵詞池,形成 46 個條目組成初步條目池。經核心小組討論后,對潛在條目進行補充、對與方法學無關條目進行剔除、并對意義具有部分重疊的條目進行整合后,形成 43 個條目的初級量表。
2.3 內部專家討論
內部專家討論確定了量表的外形設計、基本框架、問題設計、回復設計等內容。經過 4 輪內部專家討論,確定量表以單個條目問題及可視化評分刻度 2 部分組成。在問題設計上,遵循簡潔、易懂、準確的原則。同時對每個問題,進行詳細的說明,以進一步闡釋問題所包含的內容。回復設計方面,以“非等距”回復為原則,分別為“肯定是”、“可能是”、“可能不是”、“肯定不是”。
2.4 外部專家咨詢
經過前兩輪外部專家討論會形成 28 個條目、分別對應 7 個域的完整量表。經過第三輪外部專家會后形成 23 個條目、對應 7 個域的量表;第四輪外部專家評價后最終形成包括 21 個條目、對應 7 個域的量表(表 1)。7 個域分別為:問題定義、測量、隨訪、混雜、缺失、統計方法、結果評價。


2.5 最終量表
量表分中文版和英文版 2 個版本,每個條目對應 4 種回復“肯定是”、“可能是”、“可能不是”、“肯定不是”。每個條目同時對應詳細說明,用以幫助使用者進行更準確的判斷。例如,對于問題定義部分的第一個問題“對房顫的定義是否充分?”,我們對“是否充分”進行了詳細說明,當研究明確界定房顫類型、病程、合并癥,并依據公認的診斷標準進行診斷時,我們認為該條目下可信度較高,選擇“肯定是”,而如果未對這些特征進行界定時,則選“肯定不是”。對于部分不確定的情況,可根據研究者目的自行進行判斷為“可能是”或“可能不是”。使用者根據實際情況,對每個條目進行評價,獲得單個條目對應的可信度。同時,我們采用可視化視覺評分工具,用以幫助使用者基于量表所有條目評價結果對單個研究的整體可信度進行評價(表 1)。
3 討論
本課題經過詳細的檢索、條目匯總、4 次核心小組討論會、4 次內部專家討論會、4 次外部專家咨詢會,最終形成用于評價針對(但不限于)房顫患者抗凝干預的研究結果可信度量表。本量表為第一個針對房顫患者抗凝治療的隊列研究結果可信度評價量表,填補了該領域的空白。同時,本量表具有較高臨床實用價值。首先,本量表對臨床醫師應用證據進行臨床決策具有一定指導意義;同時,本量表還可用于臨床指南制定中對隊列研究結果可信度評價,可為臨床指南的制定提供方法學支持。此外,研究者可根據本量表評價結果了解現有研究存在的問題,為今后開展同類研究提供改進意見和建議。
值得注意的是,本量表的目的是評價相關研究結果的可信度,需要與常用的質量評價工具進行區分。兩者具有不同的功能和適用范圍。結果可信度量表既包括偏倚風險評價的內容,同時也涵蓋了對結果的評價,如效應量是否足夠大、是否有生物學機制等;而偏倚風險評價工具僅僅從研究設計和實施角度進行考慮,并不對研究結果進行評價。
本量表存在以下幾個優勢。第一,本量表每個問題都進行了精簡設置,字數均保證在 20 個單詞以內,語言易懂,以保證使用者能在最短的時間理解語義,這也是量表制作過程中的重要環節。研究表明,當問題設置字數過多,語言難懂的情況下,量表的整體效度會降低。第二,本量表對每個條目都輔以相應說明,以保證使用者能更客觀的對文獻進行評價;第三,本量表采用類似 ROBINS-I 量表中使用的回復方式,簡單易懂,可有效降低主觀性偏倚;第四,本量表采用可視化視覺評分工具,使用者可根據前期對單個條目評價的結果,根據視覺評分工具對整體可信度進行評價,具有較好的可操作性。傳統量表通常對單個條目等權賦分值、并對分值進行相加而獲得整體可信度,但這類方法最大的缺陷在于條目權重并不一致,簡單對得分進行相加并不合理;而根據單個條目重要性,使用視覺評分工具對整體可信度進行評價可能更能反映真實的可信度。
本研究也存在一定的局限性。首先,類似于其他量表評價工具,本量表存在一定主觀性風險[9-11]。盡管我們對每個問題進行了詳細的說明幫助使用者更客觀的評價,但仍無法避免主觀性風險。因此我們建議在使用時,應由兩位及以上人員同時進行評價。其次,本量表的信度和效度尚不清楚,需要后續研究進一步驗證。
綜上,我們推薦臨床醫師根據本量表輔助臨床決策;同時,在相關指南的制作中,可采用本量表對隊列研究結果可信度進行評價。此外,研究者可根據本量表評價結果了解現有研究存在的問題,為今后開展同類研究提供改進意見和建議。
利益沖突聲明:本研究無利益沖突。