系統評價(SR)是生產臨床決策證據的重要手段。傳統的 SR 過程主要由人工完成,具有較高的時間及人力成本,且效率較低,無法適應快速決策的需求。信息技術發展為計算機輔助 SR 方法奠定了基礎,研究者嘗試通過在 SR 各個環節,引入計算機技術以取代或增強人工操作,從而改善 SR 的時效性。本文從文獻獲取、數據處理和證據評價等角度,對國內外計算機輔助 SR 的方法學研究及其應用情況進行整理,以期了解該領域發展現狀及趨勢,為進一步推動自動化 SR 技術相關研究提供參考。
引用本文: 張雪芹, 張薇, 鄭培永, 鄧宏勇. 計算機輔助系統評價方法學研究和應用. 中國循證醫學雜志, 2021, 21(1): 111-116. doi: 10.7507/1672-2531.202006046 復制
系統評價(systematic review,SR)作為指導臨床決策最佳證據,是對某一特定醫療衛生問題的研究進行系統總結的方法[1]。其過程通常為全面收集文獻,對符合納入標準的研究進行嚴格的偏倚風險和證據質量評估,綜合各種研究結果,進行定量合并分析或定性分析。目前,SR 方法存在的主要問題是制作過程需要耗費大量人力、物力,不能滿足臨床快速決策需求[2]。計算機輔助方法可改善上述問題,對期間繁密重復的工作采取計算機技術來輔助執行,可降低評價員的勞動強度,提高工作效率,增強 SR 的可行性和可用性。本文以 SR 生產流程為基礎,從文獻獲取與篩選、數據提取與分析、證據質量評價等環節,對計算機輔助 SR 方法學研究及應用情況進行綜述。
1 文獻獲取與篩選
1.1 文獻獲取工具
完成 SR 的關鍵在于全面性掌握相關研究文獻[3]。SR 的主要檢索途徑是各種生物醫學數據庫,包括中文醫學文獻數據庫(SinoMed、CMCC、CNKI、VIP、CMBI、WanFang Data 等)和外文數據庫(PubMed、EMbase 和 The Cochrane Library 等)。當前,文獻獲取過程主要通過手動檢索,很難做到定期頻繁對數據庫進行檢索更新,造成最新的研究無法被及時納入。基于計算機技術的文獻獲取工具,擁有信息自動化主題檢索及提醒功能,可定期對預設主題詞進行檢索、儲存,保證證據及時更新。
PaperBot[4]是一款可配置的模塊化開放性檢索工具,能自動檢索文獻并作有效注釋。該工具完全免費,能獨立運行或與其他軟件、平臺集成運行,可依據研究者的檢索邏輯在 Elsevier、Wiley、Springer、PubMed、Nature 和 Google Scholar 等多種數據庫中進行自動檢索并儲存條目信息。PaperBot 還提供了一鍵式手動添加文獻選項,保存文獻信息后能通過網絡訪問,解決了 SR 文獻獲取、更新耗費人力的問題,同時檢索多個數據庫,有助于文獻篩選的高效進行。
搜索引擎 BEST[5]可智能化檢索 PubMed 數據庫中的海量生物醫學文獻,獲取隨機對照試驗(randomized controlled trial,RCT)、觀察性研究、SR 等數據信息。該工具包含 10 種不同類型的生物醫學文獻語料庫(如疾病、藥物、靶標、轉錄因子、miRNA 和突變等),利用文本挖掘技術,對標題、關鍵詞、摘要等信息進行語義分析識別。BEST 根據研究者的檢索策略自動檢索,實時更新并將最新文獻推送給研究者,其結果按相關性分類顯示,能快速縮小文獻范圍,保證了相關研究領域信息更新的時效性,便于后期的篩選工作。
1.2 文獻篩選工具
SR 生產過程中文獻篩選是重要步驟,傳統的文獻篩選過程是研究者根據文獻納入和排除標準,將數據庫收集的相關文獻進行手動納入或排除,這個工作量有時會非常巨大,同時由于人工誤差,可能造成文獻遺漏、誤選等情況。此時,采取計算機技術進行文獻自動篩選變得尤為重要。利用機器學習、文本分類等技術,對標題和摘要自動篩選,排除不相關的文獻,采納符合研究納入標準的文獻,該過程通常由計算機協同人工完成。
Wei 等[6]提出了可進行自動化篩選文獻的應用程序 GAPscreener。該程序基于支持向量機(support vector machine,SVM)機器學習技術,結合開源代碼 LibSVM Java,在 PubMed 中進行檢索和自動文本提取,對文本(包括生物醫學文獻)進行分類。通過在 PubMed 和每周更新一次的 HuGE Navigator 數據庫上檢驗其評估性能,結論為與現有的手動篩選過程相比,GAPscreener 將文獻的查全率從 80%大大提高至 97.5%,并且將需要單獨進行人工審閱的摘要數量減少了約 90%,大大減輕了人工審核的負擔。
Byron 等[7]介紹了一種新穎的在線分類策略,該策略可將生物醫學文獻標識并根據“與 SR 是否相關”進行分類。該技術構造了 SVM 分類器與標題文本和醫學主題詞(MeSH)術語一起使用的 SIMPLE 主動學習策略。使用 MetaMap 程序,標準術語頻率/反文檔頻率-IDF 編碼,自動提取標題文本 UMLS 術語,生成生物醫學術語集合。該策略提供了三個真實世界的 SR 數據集的實驗結果,表明其識別文獻的靈敏度達到了 95%,將 SR 需要進一步評估的摘要數量降低了 50%。
2016 年 5 月,Cochrane 協作網推出了對 RCT 進行文本分類的研究者社區平臺 Cochrane Crowd[8]。該平臺建立了機器學習模型,能根據題目和摘要預測該研究描述了 RCT 的可能性,相當于一個 RCT 分類器。該 RCT 模型能將數據庫中檢索所得文獻,排除 60%~80% 的不相關研究,同時保持超過 99% 的敏感度。Cochrane Crowd RCT 模型不直接篩選出完全符合需要的研究,而是評估了相關研究的標題和摘要后,將所有最可能是 RCT 的研究納入,縮小 RCT 研究篩選的范圍,再人工對全文進行篩選,減輕了后期文獻甄別的工作量。
2 數據提取與分析
2.1 數據提取軟件
利用計算機算法,對納入的研究進行 PICO(即患者、干預措施、對照組和結局指標)信息識別,目的是自動提取患者信息(包括性別、年齡、病程等)、研究中的干預手段(包括干預類型、干預頻率、干預時長等)、對照措施和結局指標的各方面信息,進行采集錄入。
Brassey 等[9]提出一個注釋器,并通過 241 個隨機選擇的 RCT 摘要(取自 Trip 的 RCT 語料庫)作為測試集,對比 6 名研究者手動標注和注釋器自動標注 RCT 的標題和摘要中 PIC 信息。測算出注釋器標注 20 個 RCT 之間的平均準確度,患者、干預、對照分別為 0.70、0.66 和 0.62。Brassey 的注釋器定義了以下規則:如果輸入與 PIC 識別模式匹配,則將輸入的 RCT 摘要進行解析并提取信息,提取識別過程見圖 1。

2019 年,倪亞暉等[10]基于模式識別技術,開發了提取標準化文獻中元數據的方法。該方法通過模式化智能讀取和鼠標拖拽兩種方式,根據不同元數據特征對文獻各種形式信息(數值、文字、表格等)進行自動提取,并由人工對計算機結果進行審查核對。該技術雖仍需要人工協作完成,但解決了人工對標準化文獻數據提取效率低和質量不高的問題。
2.2 數據分析方法
Meta 分析是 SR 常用分析方法,分析內容包括異質性檢驗、合并效應量估計、亞組分析、敏感性分析和發表偏倚評估等[11]。目前經典 Meta 分析算法及其軟件發展已較為成熟,有大量工具軟件可供選用,大致可分為用于 Meta 分析的專用軟件和可實現 Meta 分析的通用統計學軟件,前者如 RevMan、MetaDisc,后者如 Stata、R 等。此外還有一些基于通用編程語言開發的 Meta 分析模塊,因具備更強大靈活的二次開發功能,對于實現自動 Meta 分析具有重要意義。
PythonMeta[12]是一款 Meta 分析功能軟件包。該模塊基于 Python3(3.5~3.9)框架,包含 Data、Meta、Fig 三個主功能類和十余種方法屬性,可實現二分類數據和連續性數據的異質性檢驗,固定和隨機效應模型常見效應量(RR、OR、RD、MD、SMD)合并算法(M-H、Peto、IV、D-L 等)及其統計學檢驗,完成亞組分析、累積 Meta 分析、敏感性分析等,并實現森林圖、漏斗圖等結果可視化。PythonMeta 實現了 Python 語言的 Meta 分析第三方支持,適合桌面、服務器、Web、嵌入式 API 等多種應用場景的開發。和目前眾多的 Meta 分析軟件相比,PythonMeta 具有以下特點:① 跨平臺使用,Windows、IOS、Linux 系統都對 Python 及其模塊具有很好的支持性,PythonMeta 可以跨平臺開發應用;② 功能定制,模塊既打包了算法細節,又能根據業務需求靈活定制,如自動 Meta 分析、輸出個性化圖表等;③ 網絡支持,基于 Python 的服務端功能,可輕松實現在線 Meta 分析服務;④ 易于擴展,PythonMeta 繼承 Python 的強大擴展性,因此其在算法拓展和整合大數據處理、機器學習等功能時,具備堅實基礎且易于實現。以 PythonMeta 為后臺的在線 Meta 分析網站 PyMeta.com[13]呈現了該類分析模塊巨大應用潛力,該在線平臺不僅具備傳統 Meta 分析的常用功能,還可輕松實現累積 Meta 分析、敏感性分析以及更靈活直觀的圖形化結果(圖 2),基本覆蓋了自動 Meta 分析的所需的功能要求。

a:亞組分析;b:極坐標森林圖;c:單因素敏感性分析;d:兩因素敏感性分析
3 證據質量評價
證據質量評價是 SR 的重要環節,通常包括單個研究質量評價、證據等級評價和證據推薦等級評估等。相應的理論和方法有很多,目前較常用的有 Jadad 量表、牛津五級證據評價體系、Cochrane RoB 評價表和 GRADE 等[14]。證據質量評價涉及到綜合信息采集、評估和判斷,通常由經驗較豐富的專業人員進行,因此機器實現質量評價具有很大的挑戰性,但同時也是當前計算機輔助 SR 領域被關注的熱點。
Marshall 等[15]于 2016 年開發并評估了一種可自動評估臨床試驗偏倚的機器學習系統 RobotReviewer,該系統能識別和標記文獻中與偏倚判斷相關的語句,進行偏倚風險評估并輸出結果。RobotReviewer 應用機器學習算法實現了文獻分類和數據提取,并基于所得數據進行偏倚風險評估,輸出結果為“低、高或不明確”。利用 Cochrane SR 數據庫中的臨床試驗文獻進行測試,將測試結果與人工評估比較,其準確度比人工評估低 7%。開發者認為,應用該自動化 RoB 評估偏倚風險與已發布的 SR 結論類似。從實際使用情況來看,該工具有助于提高 SR 綜合性任務效率,可以作為偏倚風險自動化評估原型工具,現已被 Cochrane Library 采用。
GRADE 是目前應用較廣泛的證據評價工具。2013 年,GRADE 工作組推出了智能化證據評價在線工具 GRADE pro GDT[16]。該工具包含以下主要功能,一是建立證據質量概要表,二是自動形成推薦意見并匯總為指南,三是能將以上結果共享到手機終端。GRADE pro GDT 的證據質量概要表由“Question、Assessment、Summary of judgments 及 Conclusion”四部分組成。其中核心部分“Assessment”從問題的優先性、期望結果、不良反應、對證據體信心、患者價值偏好、利弊平衡、終端用戶可接受性及推薦可行性八方面進行評估,以其對臨床決策的重要性為依據,將證據質量等級分為“不明確、低、中等或高”四級。GRADE pro GDT 將根據錄入結果自動形成推薦意見(強烈推薦、強烈反對、考慮、考慮反對或不明確使用),并從推薦意見、判定依據、亞組分析、實施策略、監測與評價、研究重點等方面匯總成指南。該工具自動化、透明化程度較高,是目前較常用的 GRADE 證據評價輔助工具。
CINeMA[17, 18]是評價網狀 Meta 分析結果的在線工具。該平臺基于 R 語言的 Meta 和 netmeta 軟件包,前端采用 JavaScript 和 PureScript 編寫了具自定義功能的開源式框架。CINeMA 框架支持對元數據分析結果的證據可信度評價,通過“MyProjects”選項卡,上傳.csv 文件數據,輸出研究的偏倚風險評估和間接性判斷結果。評估的結果包括:研究內部偏倚、研究間偏倚、間接性、不精確性、異質性和不一致性等六個方面,并涉及靈敏度分析。基于證據質量評估規則,CINeMA 工具自動生成證據質量可信度評價:非常低、低、中或高,并通過條形圖等可視化形式呈現。CINeMA 工具具有以下優勢:① 可操作性強,簡化大型復雜結果的評估過程,提高快速處理大批量數據的能力;② 用于評估間接干預比較和混合干預比較的網狀 Meta 分析結果,可信度高;③ 開源軟件,明確界定了判斷依據的標準,具有較好的透明度。
4 其他
除上述專注某一特定環節的自動化工具外,還有一些軟件或平臺試圖參與到 SR 的多個或全部過程,或提供一些綜合的/特殊的輔助功能。
Parsifal[19]是一個綜合性 SR 在線工具,利用該工具不同區域的研究者可以開展遠程合作,基于共同的 PICOS 標準,完成文獻檢索、獲取文獻、制定納入和排除標準、提取數據及評估證據質量等過程。StArt[20]旨在為 SR 流程的每個階段提供支持,可進行自動檢索、篩選研究、數據提取、自動化分析和生成報告等。該軟件功能仍在持續更新,設有專門的學生交流界面,對研究生進行科研工作具有較大幫助。
Systematic Review Toolbox[21]是 Christopher 博士于 2015 年創建的 SR 列表平臺。該平臺提供了大量 SR 和 Meta 分析相關的軟件介紹和獲取途徑,涵蓋了自動化檢索、證據質量評估、數據處理、自動化分析和結果呈現等,并支持由開發者上傳提交新工具,是目前收集 SR 工具最全面的網絡平臺。表 1 展示了進行傳統 SR 生產過程中可實現自動化的環節,描述了計算機技術輔助 SR 的現狀及特點。

5 展望
第十屆亞太地區循證醫學研討會[22]提出了“循證醫學+中醫藥+人工智能”三位一體發展模式,探討將循證醫學、中醫藥學和人工智能三個領域交叉融合發展。目前,通過計算機方法輔助 SR 證據生產已有較多的研究和成果應用,大部分軟件、系統基于“人機結合”的半自動化工作方式,將 SR 流程化繁為簡,降低人力成本,提高工作效率。本文綜合分析發現,自動化文獻檢索和結果推送已相對成熟;基于人工智能技術的文獻篩選、標注、分類及數據提取是當前計算機技術與循證醫學結合的熱點區域,相關研究方興未艾,但實用化的成果還有待驗證;Meta 分析得益于 Python 專業化模塊出現,可滿足高度定制化的數據分析需求從而實現分析自動化;證據質量評價是計算機輔助 SR 研究和應用的另一熱點,目前已有 Robot Reviewer、GRADE pro GDT 等相對成熟的評價工具,但它們在準確性和實用性方面尚需進一步觀察。
在信息化技術高速發展的今天,大數據和人工智能與循證醫學的結合應用是必然的趨勢,展望這一領域的發展,國際 SR 自動化協作組織[23]提出了利用統一開源 API 接口,實現數據共享,開發和維護自動化工具,進行證據綜合任務的目標,并細化為三個重要研究方向:開發 SR 自動化工具、解決不同流程自動化工具的相互操作性問題和驗證自動化工具的可信程度,鼓勵研究者使用。隨著 SR 過程中越來越多地使用計算機技術,研究者可更高效、準確地進行快速 SR,對推動循證證據和推薦意見的實時更新、實現快速臨床決策有重要意義,進而促進臨床證據到實踐的轉化,推動循證醫學的不斷發展。
系統評價(systematic review,SR)作為指導臨床決策最佳證據,是對某一特定醫療衛生問題的研究進行系統總結的方法[1]。其過程通常為全面收集文獻,對符合納入標準的研究進行嚴格的偏倚風險和證據質量評估,綜合各種研究結果,進行定量合并分析或定性分析。目前,SR 方法存在的主要問題是制作過程需要耗費大量人力、物力,不能滿足臨床快速決策需求[2]。計算機輔助方法可改善上述問題,對期間繁密重復的工作采取計算機技術來輔助執行,可降低評價員的勞動強度,提高工作效率,增強 SR 的可行性和可用性。本文以 SR 生產流程為基礎,從文獻獲取與篩選、數據提取與分析、證據質量評價等環節,對計算機輔助 SR 方法學研究及應用情況進行綜述。
1 文獻獲取與篩選
1.1 文獻獲取工具
完成 SR 的關鍵在于全面性掌握相關研究文獻[3]。SR 的主要檢索途徑是各種生物醫學數據庫,包括中文醫學文獻數據庫(SinoMed、CMCC、CNKI、VIP、CMBI、WanFang Data 等)和外文數據庫(PubMed、EMbase 和 The Cochrane Library 等)。當前,文獻獲取過程主要通過手動檢索,很難做到定期頻繁對數據庫進行檢索更新,造成最新的研究無法被及時納入。基于計算機技術的文獻獲取工具,擁有信息自動化主題檢索及提醒功能,可定期對預設主題詞進行檢索、儲存,保證證據及時更新。
PaperBot[4]是一款可配置的模塊化開放性檢索工具,能自動檢索文獻并作有效注釋。該工具完全免費,能獨立運行或與其他軟件、平臺集成運行,可依據研究者的檢索邏輯在 Elsevier、Wiley、Springer、PubMed、Nature 和 Google Scholar 等多種數據庫中進行自動檢索并儲存條目信息。PaperBot 還提供了一鍵式手動添加文獻選項,保存文獻信息后能通過網絡訪問,解決了 SR 文獻獲取、更新耗費人力的問題,同時檢索多個數據庫,有助于文獻篩選的高效進行。
搜索引擎 BEST[5]可智能化檢索 PubMed 數據庫中的海量生物醫學文獻,獲取隨機對照試驗(randomized controlled trial,RCT)、觀察性研究、SR 等數據信息。該工具包含 10 種不同類型的生物醫學文獻語料庫(如疾病、藥物、靶標、轉錄因子、miRNA 和突變等),利用文本挖掘技術,對標題、關鍵詞、摘要等信息進行語義分析識別。BEST 根據研究者的檢索策略自動檢索,實時更新并將最新文獻推送給研究者,其結果按相關性分類顯示,能快速縮小文獻范圍,保證了相關研究領域信息更新的時效性,便于后期的篩選工作。
1.2 文獻篩選工具
SR 生產過程中文獻篩選是重要步驟,傳統的文獻篩選過程是研究者根據文獻納入和排除標準,將數據庫收集的相關文獻進行手動納入或排除,這個工作量有時會非常巨大,同時由于人工誤差,可能造成文獻遺漏、誤選等情況。此時,采取計算機技術進行文獻自動篩選變得尤為重要。利用機器學習、文本分類等技術,對標題和摘要自動篩選,排除不相關的文獻,采納符合研究納入標準的文獻,該過程通常由計算機協同人工完成。
Wei 等[6]提出了可進行自動化篩選文獻的應用程序 GAPscreener。該程序基于支持向量機(support vector machine,SVM)機器學習技術,結合開源代碼 LibSVM Java,在 PubMed 中進行檢索和自動文本提取,對文本(包括生物醫學文獻)進行分類。通過在 PubMed 和每周更新一次的 HuGE Navigator 數據庫上檢驗其評估性能,結論為與現有的手動篩選過程相比,GAPscreener 將文獻的查全率從 80%大大提高至 97.5%,并且將需要單獨進行人工審閱的摘要數量減少了約 90%,大大減輕了人工審核的負擔。
Byron 等[7]介紹了一種新穎的在線分類策略,該策略可將生物醫學文獻標識并根據“與 SR 是否相關”進行分類。該技術構造了 SVM 分類器與標題文本和醫學主題詞(MeSH)術語一起使用的 SIMPLE 主動學習策略。使用 MetaMap 程序,標準術語頻率/反文檔頻率-IDF 編碼,自動提取標題文本 UMLS 術語,生成生物醫學術語集合。該策略提供了三個真實世界的 SR 數據集的實驗結果,表明其識別文獻的靈敏度達到了 95%,將 SR 需要進一步評估的摘要數量降低了 50%。
2016 年 5 月,Cochrane 協作網推出了對 RCT 進行文本分類的研究者社區平臺 Cochrane Crowd[8]。該平臺建立了機器學習模型,能根據題目和摘要預測該研究描述了 RCT 的可能性,相當于一個 RCT 分類器。該 RCT 模型能將數據庫中檢索所得文獻,排除 60%~80% 的不相關研究,同時保持超過 99% 的敏感度。Cochrane Crowd RCT 模型不直接篩選出完全符合需要的研究,而是評估了相關研究的標題和摘要后,將所有最可能是 RCT 的研究納入,縮小 RCT 研究篩選的范圍,再人工對全文進行篩選,減輕了后期文獻甄別的工作量。
2 數據提取與分析
2.1 數據提取軟件
利用計算機算法,對納入的研究進行 PICO(即患者、干預措施、對照組和結局指標)信息識別,目的是自動提取患者信息(包括性別、年齡、病程等)、研究中的干預手段(包括干預類型、干預頻率、干預時長等)、對照措施和結局指標的各方面信息,進行采集錄入。
Brassey 等[9]提出一個注釋器,并通過 241 個隨機選擇的 RCT 摘要(取自 Trip 的 RCT 語料庫)作為測試集,對比 6 名研究者手動標注和注釋器自動標注 RCT 的標題和摘要中 PIC 信息。測算出注釋器標注 20 個 RCT 之間的平均準確度,患者、干預、對照分別為 0.70、0.66 和 0.62。Brassey 的注釋器定義了以下規則:如果輸入與 PIC 識別模式匹配,則將輸入的 RCT 摘要進行解析并提取信息,提取識別過程見圖 1。

2019 年,倪亞暉等[10]基于模式識別技術,開發了提取標準化文獻中元數據的方法。該方法通過模式化智能讀取和鼠標拖拽兩種方式,根據不同元數據特征對文獻各種形式信息(數值、文字、表格等)進行自動提取,并由人工對計算機結果進行審查核對。該技術雖仍需要人工協作完成,但解決了人工對標準化文獻數據提取效率低和質量不高的問題。
2.2 數據分析方法
Meta 分析是 SR 常用分析方法,分析內容包括異質性檢驗、合并效應量估計、亞組分析、敏感性分析和發表偏倚評估等[11]。目前經典 Meta 分析算法及其軟件發展已較為成熟,有大量工具軟件可供選用,大致可分為用于 Meta 分析的專用軟件和可實現 Meta 分析的通用統計學軟件,前者如 RevMan、MetaDisc,后者如 Stata、R 等。此外還有一些基于通用編程語言開發的 Meta 分析模塊,因具備更強大靈活的二次開發功能,對于實現自動 Meta 分析具有重要意義。
PythonMeta[12]是一款 Meta 分析功能軟件包。該模塊基于 Python3(3.5~3.9)框架,包含 Data、Meta、Fig 三個主功能類和十余種方法屬性,可實現二分類數據和連續性數據的異質性檢驗,固定和隨機效應模型常見效應量(RR、OR、RD、MD、SMD)合并算法(M-H、Peto、IV、D-L 等)及其統計學檢驗,完成亞組分析、累積 Meta 分析、敏感性分析等,并實現森林圖、漏斗圖等結果可視化。PythonMeta 實現了 Python 語言的 Meta 分析第三方支持,適合桌面、服務器、Web、嵌入式 API 等多種應用場景的開發。和目前眾多的 Meta 分析軟件相比,PythonMeta 具有以下特點:① 跨平臺使用,Windows、IOS、Linux 系統都對 Python 及其模塊具有很好的支持性,PythonMeta 可以跨平臺開發應用;② 功能定制,模塊既打包了算法細節,又能根據業務需求靈活定制,如自動 Meta 分析、輸出個性化圖表等;③ 網絡支持,基于 Python 的服務端功能,可輕松實現在線 Meta 分析服務;④ 易于擴展,PythonMeta 繼承 Python 的強大擴展性,因此其在算法拓展和整合大數據處理、機器學習等功能時,具備堅實基礎且易于實現。以 PythonMeta 為后臺的在線 Meta 分析網站 PyMeta.com[13]呈現了該類分析模塊巨大應用潛力,該在線平臺不僅具備傳統 Meta 分析的常用功能,還可輕松實現累積 Meta 分析、敏感性分析以及更靈活直觀的圖形化結果(圖 2),基本覆蓋了自動 Meta 分析的所需的功能要求。

a:亞組分析;b:極坐標森林圖;c:單因素敏感性分析;d:兩因素敏感性分析
3 證據質量評價
證據質量評價是 SR 的重要環節,通常包括單個研究質量評價、證據等級評價和證據推薦等級評估等。相應的理論和方法有很多,目前較常用的有 Jadad 量表、牛津五級證據評價體系、Cochrane RoB 評價表和 GRADE 等[14]。證據質量評價涉及到綜合信息采集、評估和判斷,通常由經驗較豐富的專業人員進行,因此機器實現質量評價具有很大的挑戰性,但同時也是當前計算機輔助 SR 領域被關注的熱點。
Marshall 等[15]于 2016 年開發并評估了一種可自動評估臨床試驗偏倚的機器學習系統 RobotReviewer,該系統能識別和標記文獻中與偏倚判斷相關的語句,進行偏倚風險評估并輸出結果。RobotReviewer 應用機器學習算法實現了文獻分類和數據提取,并基于所得數據進行偏倚風險評估,輸出結果為“低、高或不明確”。利用 Cochrane SR 數據庫中的臨床試驗文獻進行測試,將測試結果與人工評估比較,其準確度比人工評估低 7%。開發者認為,應用該自動化 RoB 評估偏倚風險與已發布的 SR 結論類似。從實際使用情況來看,該工具有助于提高 SR 綜合性任務效率,可以作為偏倚風險自動化評估原型工具,現已被 Cochrane Library 采用。
GRADE 是目前應用較廣泛的證據評價工具。2013 年,GRADE 工作組推出了智能化證據評價在線工具 GRADE pro GDT[16]。該工具包含以下主要功能,一是建立證據質量概要表,二是自動形成推薦意見并匯總為指南,三是能將以上結果共享到手機終端。GRADE pro GDT 的證據質量概要表由“Question、Assessment、Summary of judgments 及 Conclusion”四部分組成。其中核心部分“Assessment”從問題的優先性、期望結果、不良反應、對證據體信心、患者價值偏好、利弊平衡、終端用戶可接受性及推薦可行性八方面進行評估,以其對臨床決策的重要性為依據,將證據質量等級分為“不明確、低、中等或高”四級。GRADE pro GDT 將根據錄入結果自動形成推薦意見(強烈推薦、強烈反對、考慮、考慮反對或不明確使用),并從推薦意見、判定依據、亞組分析、實施策略、監測與評價、研究重點等方面匯總成指南。該工具自動化、透明化程度較高,是目前較常用的 GRADE 證據評價輔助工具。
CINeMA[17, 18]是評價網狀 Meta 分析結果的在線工具。該平臺基于 R 語言的 Meta 和 netmeta 軟件包,前端采用 JavaScript 和 PureScript 編寫了具自定義功能的開源式框架。CINeMA 框架支持對元數據分析結果的證據可信度評價,通過“MyProjects”選項卡,上傳.csv 文件數據,輸出研究的偏倚風險評估和間接性判斷結果。評估的結果包括:研究內部偏倚、研究間偏倚、間接性、不精確性、異質性和不一致性等六個方面,并涉及靈敏度分析。基于證據質量評估規則,CINeMA 工具自動生成證據質量可信度評價:非常低、低、中或高,并通過條形圖等可視化形式呈現。CINeMA 工具具有以下優勢:① 可操作性強,簡化大型復雜結果的評估過程,提高快速處理大批量數據的能力;② 用于評估間接干預比較和混合干預比較的網狀 Meta 分析結果,可信度高;③ 開源軟件,明確界定了判斷依據的標準,具有較好的透明度。
4 其他
除上述專注某一特定環節的自動化工具外,還有一些軟件或平臺試圖參與到 SR 的多個或全部過程,或提供一些綜合的/特殊的輔助功能。
Parsifal[19]是一個綜合性 SR 在線工具,利用該工具不同區域的研究者可以開展遠程合作,基于共同的 PICOS 標準,完成文獻檢索、獲取文獻、制定納入和排除標準、提取數據及評估證據質量等過程。StArt[20]旨在為 SR 流程的每個階段提供支持,可進行自動檢索、篩選研究、數據提取、自動化分析和生成報告等。該軟件功能仍在持續更新,設有專門的學生交流界面,對研究生進行科研工作具有較大幫助。
Systematic Review Toolbox[21]是 Christopher 博士于 2015 年創建的 SR 列表平臺。該平臺提供了大量 SR 和 Meta 分析相關的軟件介紹和獲取途徑,涵蓋了自動化檢索、證據質量評估、數據處理、自動化分析和結果呈現等,并支持由開發者上傳提交新工具,是目前收集 SR 工具最全面的網絡平臺。表 1 展示了進行傳統 SR 生產過程中可實現自動化的環節,描述了計算機技術輔助 SR 的現狀及特點。

5 展望
第十屆亞太地區循證醫學研討會[22]提出了“循證醫學+中醫藥+人工智能”三位一體發展模式,探討將循證醫學、中醫藥學和人工智能三個領域交叉融合發展。目前,通過計算機方法輔助 SR 證據生產已有較多的研究和成果應用,大部分軟件、系統基于“人機結合”的半自動化工作方式,將 SR 流程化繁為簡,降低人力成本,提高工作效率。本文綜合分析發現,自動化文獻檢索和結果推送已相對成熟;基于人工智能技術的文獻篩選、標注、分類及數據提取是當前計算機技術與循證醫學結合的熱點區域,相關研究方興未艾,但實用化的成果還有待驗證;Meta 分析得益于 Python 專業化模塊出現,可滿足高度定制化的數據分析需求從而實現分析自動化;證據質量評價是計算機輔助 SR 研究和應用的另一熱點,目前已有 Robot Reviewer、GRADE pro GDT 等相對成熟的評價工具,但它們在準確性和實用性方面尚需進一步觀察。
在信息化技術高速發展的今天,大數據和人工智能與循證醫學的結合應用是必然的趨勢,展望這一領域的發展,國際 SR 自動化協作組織[23]提出了利用統一開源 API 接口,實現數據共享,開發和維護自動化工具,進行證據綜合任務的目標,并細化為三個重要研究方向:開發 SR 自動化工具、解決不同流程自動化工具的相互操作性問題和驗證自動化工具的可信程度,鼓勵研究者使用。隨著 SR 過程中越來越多地使用計算機技術,研究者可更高效、準確地進行快速 SR,對推動循證證據和推薦意見的實時更新、實現快速臨床決策有重要意義,進而促進臨床證據到實踐的轉化,推動循證醫學的不斷發展。