系統評價可為臨床實踐和醫療衛生決策提供重要證據支持。但在系統評價的制作過程中,文獻篩選和數據提取是非常耗時的工作步驟。自然語言處理(NLP),作為計算機科學和人工智能的研究方向之一,可加速系統評價中的文獻篩選和數據提取過程。本文回顧了系統評價對快速文獻篩選和數據提取的需求;介紹了 NLP 的發展歷程和機器學習類型,系統整理了現有可用于系統評價初篩、全文篩選和數據提取過程的 NLP 工具;討論了現有 NLP 在系統評價領域應用時存在的問題,并對其未來發展提出了展望。
引用本文: 秦璇, 劉佳利, 王雨寧, 鄧可, 馬玉, 鄒康, 李玲, 孫鑫. 自然語言處理在系統評價中的應用. 中國循證醫學雜志, 2021, 21(6): 715-720. doi: 10.7507/1672-2531.202012150 復制
系統評價是一種文獻綜合方法,圍繞特定的臨床問題和需求,收集某一具體醫學問題的相關研究,按照納入和排除標準篩選文獻,嚴格評價納入研究的偏倚風險并提取所需數據,然后進行證據合成,得到當前的最佳證據[1]。然而,在系統評價制作過程中,文獻篩選和數據提取是非常耗時的工作步驟。隨著醫學的飛速發展,醫療領域積累了大量的科學文獻和醫療文本數據。截至 2020 年 5 月,PubMed 公共檢索平臺收集了 3 000 多萬份醫療文獻,而 2010 年為 2 000 萬份,平均每年增加 100 萬份[2]。與此同時,為確保檢索結果的全面性,檢索策略要求靈敏度超過 98% 而特異性低于 75%,這導致了初檢文獻中包含大量與研究目的無關的文獻[3]。另一方面,Cochrane 手冊建議系統評價應每兩年更新一次[4]。然而超半數的系統評價發表時間和最后檢索時間相隔 14 個月[5],因此 7% 的系統評價發表時結果已經過時[6]。而系統評價研究者需要篩選海量檢出文獻[7]。有研究顯示,發表一篇系統評價平均需花費研究者 67.3 周的時間,無關文獻率平均高達 97.1%[8]。由于文獻總量大、檢索策略特異度低和更新需求頻繁的原因,在系統評價過程,研究者需要長期耗費巨大的人力、物力在文獻篩選和數據提取的工作中[9]。如何從這些文本數據中快速、高效地提取有效的信息,是急需解決的問題。
自然語言處理(nature language processing,NLP)在 20 世紀 50 年代首次提出,作為計算機科學和人工智能的方向之一,主要是通過計算機算法來實現計算機對人類語言的理解和生成。目前 NLP 發展迅速,具有廣泛的應用場景,已在文本挖掘、情感分析、信息檢索、機器翻譯等領域取得突出進展,受到自然科學領域的廣泛關注。
與此同時,系統評價過程中的文獻篩選和數據提取任務,與 NLP 已有的實際應用場景類似。系統評價的初篩和全文篩選任務,即是將文獻分為兩類(納入或排除),這屬于文本分類問題。與之相似的 NLP 工業應用場景為新聞分類。對于新聞分類,網上大量的新聞手工歸檔難度大,利用 NLP 判斷一個新聞的類別(經濟、文化等),也屬于文本分類問題。系統評價的數據提取問題,類似于目前 NLP 在金融市場上提取交易決策相關信息用于金融決策,都是需要從文本中提取相關數據。
因此,NLP 作為可快速處理海量信息的方法,可能是一種加速系統評價的有效方法。本文旨在為系統評價研究者提供 NLP 在加速系統評價篩選方面的應用方法和工具進行總結,以期為系統評價者應用相關工具提供參考。
1 NLP 簡介
隨著技術的發展,人工智能展現出了高效而準確的實際應用效果,各行各業開始引入人工智能技術進行變革。NLP 作為計算機科學和人工智能的重要研究方向之一,也逐步受到研究者重視。隨著 NLP 算法的快速發展,NLP 的應用變得越來越廣泛。系統評價員作為 NLP 潛在使用者,了解 NLP 技術的發展和現有技術類型,有利于選取合適的 NLP 工具。
1.1 NLP 的發展
由于自然語言的復雜性,NLP 研究進展緩慢,直至引入機器學習相關算法,才極大地推進了 NLP 發展。NLP 的發展經歷了基于規則、基于統計和基于機器學習三個階段[10]。在這三個階段中,基于機器學習的 NLP 方法在應用中展現出較佳的實際效果。
在基于規則的方法中,需要專業人員人工制定規則,從而根據規則開發算法。這種策略高度依賴于專業人員對語言學和專業問題本身的掌握程度。同時,由于語言表達的多樣性,單一規則的方法難以覆蓋所有的知識領域,無法滿足復雜的實際需求。
在基于統計的方法中,需要 NLP 研究者先嘗試構建語料庫和詞庫,使計算機基于統計模型來學習文本特征,然后再構建具體的任務模型,如文本分類和數據提取。在這一策略中,研究者不再直接處理文字單詞本身,而是使用基于語言學的數字特征來表示文本中的每一個單詞,通過數學模型來構建關系,以到達機器理解文本的目的。基于語言學的數字特征包括詞頻、詞性、詞根、詞序等語言學量化的特征。這一時期代表模型為隱馬爾可夫(hiden Markov model,HMM)[11]、K-鄰近(k-nearest neighbor,KNN)[12]、支持向量機(support vector machine,SVM)[13]、樸素貝葉斯(naive Bayes,NB)[14]、條件隨機場(conditional random field,CRF)[15]等。基于統計的策略中,研究者不斷深入研究文字的特征向量,使產生的數字向量高維稀疏,難以構建有效的連接關系,這使得整個 NLP 模型的準確度難以提高。
在基于機器學習的方法中,文本的特征數字向量不再由研究者人為設計,而是通過語言模型將文本中的每一個單詞映射為低維度的數字向量。數字向量的數值來源于模型計算結果,不受人為控制,由文本本身及相應的語言模型產生低維的數字向量,從而解決數字向量的高維稀疏問題。這一時期常用的模型為詞向量(word2vec)[16]、卷積神經網絡(convolutional neural networks,CNN)[17]、循環神經網絡(recurrent neural network)[18]、長短期記憶(long short-term memory,LSTM)[19]、全自注意力網絡(transformer)[20]和預訓練的深度雙向全自注意力網絡語言模型(bidirectional encoder representations from transformers,BERT)[21]等。
在這三個階段中,基于機器學習的 NLP 方法在實際應用中展現出較佳的效果。因此,NLP 逐漸被廣泛地應用于多個現實場景,如機器翻譯、智能移動設備等。故系統評價員在選取 NLP 工具時,可考慮優先采用基于機器學習方法的 NLP 工具。
1.2 機器學習的類型
目前常用的 NLP 算法大多是基于機器學習。了解機器學習的類型,有助于使用者掌握這類 NLP 工具的使用方法。NLP 工具的核心在于 NLP 算法,基于機器學習的 NLP 算法核心在于機器學習模型。機器學習模型本身由模型結構和模型參數兩部分組成。模型結構由研究人員設計作為模型的骨架,模型參數由訓練數據計算得到。訓練過程則是計算模型參數的過程。根據訓練過程,機器學習的類型分為監督學習、無監督學習和半監督學習三種類型。監督學習是指通過使用一組已知類別的樣本來調整分類器參數以達到所需性能的過程[22]。無監督學習是指通過使用一組沒有已知類別的樣本來調整參數[22]。半監督學習是指通過使用少量具有已知類別的樣本和大量沒有已知類別的樣本來調整參數[22]。在監督學習、無監督學習和半監督學習三種類型中,監督學習的精度最佳[23]。基于監督學習的方法做文本分類任務,需要用戶提供樣本及樣本對應的分類標簽。
2 NLP 在加速系統評價中的應用
文獻總量大、檢索策略寬松和更新需求頻繁使系統評價研究者需要處理海量文獻。研究者可利用 NLP 自動化實現文獻篩選和數據提取,加速系統評價進程,幫助快速合成證據。目前 NLP 算法逐漸成熟,然而成熟的系統評價 NLP 工具還很少。對于系統評價研究者而言,NLP 工具操作性更好,學習成本和使用成本更少。本文將從初篩、全文篩選和數據提取三個方面整理現有具有代表性的系統評價 NLP 工具。
2.1 初篩
2.1.1 概述
針對海量的檢出文獻,系統評價員首先要根據檢出文獻的題目和摘要來判斷該文獻是否符合納入標準,這個過程為初篩。相較于全文篩選和數據提取,初篩領域的 NLP 工具較多。
2.1.2 現有工具工作原理和性能總結
目前具有代表性的初篩工具見表 1。根據機器學習類型,現有初篩工具可分為半自動化監督學習和監督學習兩類。半自動化監督學習代表性工具為 Abstrackr[24, 25]、EPPI-reviewer[26]、Rayyan[27]、ASReview[28]、DoCTER[29]、Colandr[30]和 SWIFT-Active Screener[31];監督學習的代表性工具為 GAPscreener。

在使用半自動化監督學習工具時,通常需要用戶將初篩文獻的摘要信息上傳至工具中,在工具內將顯示文本(包括題目、摘要、雜志、關鍵詞和作者信息),用戶人工判斷文本的類別(相關或者不相關),在用戶人工判斷了一定數量文獻后,工具采用內置模型預測文本的相關性,并對所有文本進行相關性排序[24, 25]。
半自動化監督學習工具的常用評價指標為 WSS@95。WSS(work saved over sampling),表示達到同樣期望的召回率,文獻按相關性排序,其相比于隨機排序,可以減少文獻篩選負擔的百分比。WSS@95 即為期望召回率為 95% 時,該模型可減少的文獻篩選負擔所占百分比。一個完全有序的列表的最大可能 WSS 評分接近 1,此時篩選的百分比接近 0,表明篩選負擔的理論上可 100% 減少。WSS 評分為 0 或負值則表明,隨機排序將與優先級排序一樣有效或更有效。
根據表 1 顯示,從節省工作量的效果角度來評價,在文章案例中 ASReview 的節省工作量效果最佳。就用戶調查結果而言,Rayyan 和 Covidence 工具是最常用的系統評價工具[32],然而 Covidence 在篩選上的幫助為高亮關鍵詞,并不能實現自動化篩選[33]。
在使用監督學習工具時,需要用戶將檢索結果文獻的摘要信息上傳至工具中,工具即可自動化篩選摘要。目前的代表性工具為 GAPscreener[34, 35]。該工具只能用于識別與人類基因相關的文獻摘要。其本身不能直接完成系統評價的初篩任務,僅能作為一種特定文獻類別的識別工具。該工具本身采用了 SVM 模型,基于監督學習的方式訓練工具模型,訓練數據中陽性樣本來自 HuGE Navigator 數據集,陰性樣本為隨機產生的 10 000 篇文本,訓練得到的模型為通用模型。在實際使用中不需要用戶進行文本分類工作。該工具的案例表現效果較好:召回率、特異度和精確度分別為 97.5%、98.3% 和 31.9%。其優點在于召回率高,特異度高,無需用戶標注文本對應的分類標簽,其缺點在于僅能篩選特定類型的文本。
2.2 全文篩選
2.2.1 概述
經過初篩后,進一步查找符合納入標準或不確定文獻的全文,再基于全文信息判斷該研究是否符合納入標準,這個過程為全文篩選。從技術角度出發,文獻全文信息主要以 PDF 文件的形式存在,計算機需要將 PDF 轉化為 xml、txt 等代碼可讀取的文本形式。相較于初篩的摘要文本,全文文本增加了信息量,相應的也增加了難度。目前沒有具有代表性的可直接用于自動化全文篩選的工具,僅有部分 PDF 全文解析工具。
2.2.2 現有工具工作原理和性能總結
目前沒有具有代表性的可直接用于自動化全文篩選的工具,RobotReviewer[36]有分析全文信息功能的工具。但 RobotReviewer 工具不能直接用于全文篩選,其具有識別 PDF 文件中描述 PICOS 原則句子的能力。若將 PICOS 原則的句子進一步結構化,可以幫助 PDF 文本篩選工具進行系統評價的全文篩選。目前全文篩選的難點在于全文信息復雜多樣、文本獲取難度高、解析難度高。特別是中文文本的解析更為困難,目前研究難點包括中文的分詞、中文詞意消歧、句法模糊等。在書寫中文時,漢字間沒有間隔,如何組詞劃定字詞邊界是中文分詞的難點問題。
2.3 數據提取
2.3.1 概述
經過初篩和全文篩選,最后,還要提取所有符合納入標準的研究的數據,這個過程為數據提取。這一階段,要求工具可以識別和提取出用戶需要的信息內容。這一階段的工具較少,目前系統評價尚無自動化數據提取工具。
2.3.2 現有工具工作原理和性能總結
目前主要有三類輔助工具:① 針對某一類文本進行數據提取,如 Spotfire-DXP[37],僅提取國家醫學圖書館臨床試驗網站的 xml 數據;② 數據提取輔助工具,幫助格式轉化、補充摘要信息和生成長文本摘要,不直接提供數據提取功能,如 Engauge Digitizer 將圖片轉文字、Data Abstraction Assistant(DAA)[38]幫助定位摘要信息在全文中的內容、Spá[39]實現 PDF 的自動注釋和形成文本摘要;③ 可用于用戶自身感興趣信息的提取,如 Colandr[30]、Covidence[33]都是輔助工具。Covidence 提供全文的關鍵詞高亮功能,也提供數據提取自定義表格和模板。
目前的數據提取工具的主要發展方向為便捷人工提取,如關鍵詞高亮和提取自定義表格和模板,其代表性工具為 Covidence,但該工具為商業軟件,目前需要注冊后付費使用。
2.4 綜合應用 NLP 的實例
目前 NLP 工具在系統評價中的綜合利用并不多。Clark[40]使用了一系列工具來加速系統評價過程,在兩周內完成了液體攝入對尿路感染影響的系統評價。在該案例中,這篇文章共使用了 10 種工具,分別服務于設計系統的檢索策略,同時在 PubMed 或 Medline(Ovid)中進行檢索、去重、篩選題目摘要獲取全文和評價偏倚風險。其中涉及篩選題目和摘要功能的工具為 SRA Helper、Robot Search 和 EndNote。SRA Helper 通過詞頻分析對文本進行聚類,通過對文本的聚類來加速對題目和摘要的篩選。RobotSearch 通過 NLP 算法識別 RCT 類型的摘要來加速對題目和摘要的篩選。EndNote 工具主要是通過分組功能來加速對題目和摘要的篩選,分組功能的實現不包含任何 NLP 自動化工作。在這個綜合案例中,系統評價工作得到了明顯加速,然而其中涉及的語義理解工作大部分依舊通過人工識別來完成。
在該案例中,涉及的語義理解工作(文獻篩選和數據提取)僅部分通過 NLP 工具來自動化完成,但系統評價完成速度已得到了明顯提升。若未來進一步發展 NLP 工具,實現文獻篩選和數據提取的自動化,可進一步加速系統評價過程。
3 討論與展望
3.1 問題總結
NLP 技術在系統評價領域中具有廣泛的應用前景。然而,NLP 目前在系統評價領域的應用仍處于初級階段。主要存在以下問題:① 系統評價研究者對 NLP 技術缺乏了解。目前 NLP 技術的前沿領域是通過深度學習算法來實現的,目前系統評價研究者對 NLP 的理解多停留在基于規則,由專家制定規則完成對文獻的篩選和信息的提取。然而這種規則要求制定者具有深厚的臨床專業背景和語言學背景,這也意味著研究者需要花大量時間和精力在制定規則上。同時,這樣的規則僅適用于單一任務,一旦變換語言環境,變換研究問題,則規則不再適用。臨床問題種類繁多且表述語言也在變化,導致研究者需要持續地花費大量時間和精力制定規則,② 利用基于監督學習進行文本分類和數據提取,這類方法面臨的問題包括篩選結果不穩定、缺乏統一評價環境和缺乏訓練數據。目前,基于監督學習的 NLP 工具,多是針對每個項目獲得相應的訓練數據,進行自動化,其結果依賴用戶給定的人工分類結果,這意味著工具篩選結果不穩定。在用戶上傳數據量小的時候,將存在篩選模型過度擬合的情況;在用戶上傳的人工分類效果不佳時,模型識別納入文本的能力也不佳。此外,各個初篩項目間的分類模型是獨立的,分類效果也是獨立的,難以在一個公平環境中比較各個自動化篩選工具的效果。同時,訓練數據很難得到,因為系統評價員很少報告(甚至記錄)系統評價引文在什么階段被排除在外,③ 現有的 NLP 工具多為輔助性工具,主要用于輔助信息的格式轉化,無法直接提供信息提取的功能。利用相關性進行排序,得到的是篩選的間接結果,無法得到準確的納入或者排除結果。PICOS 的識別屬于句子級別,全文的納入和排除結果依舊需要人工識別給出。
3.2 展望
系統評價的海量文本處理需求與 NLP 技術的海量文本識別的能力相契合。因此,NLP 在加速系統評價領域具有廣闊的應用前景。未來 NLP 在系統評價中的應用可向幾個方向發展:① 加強 NLP 在系統評價方面應用工具的開發,促進 NLP 技術在系統評價領域應用的推廣。現有的自然語言算法在逐漸成熟,然而成熟的包含 NLP 語義識別功能的系統評價工具還不多,加強自然語言算法在系統評價領域的成果轉化,將算法以操作簡易的 NLP 工具形式,在系統評價領域進行應用和推廣,有利于 NLP 技術在系統評價領域的推廣,② 建立大型語料庫,為基于監督學習的 NLP 技術提供訓練數據,為 NLP 在系統評價領域的應用效果提供公共的測評標準。基于 PICOS 原則建立通用型監督學習模型,建立大型語料庫,用于訓練 NLP 模型識別文本中的 PICOS,提取相關信息,再針對特定研究問題設定 PICOS 的納入標準來確定最終的納排結果。在這一思路下,構建的 NLP 模型具有更強的泛化能力,也可以降低 NLP 對單次項目數據質量的依賴,③ 關注 NLP 技術的最新進展,有利于 NLP 技術在系統評價領域的應用。基于監督學習的 NLP 算法,在結果敏感度上有較佳的表現,然而監督學習需要大量人工標注信息,人工標注過程耗時耗力。NLP 中半監督學習和非監督學習,對人工標注數據的需求量不大。關注半監督學習和監督學習在 NLP 中的發展,可以幫助研究者在保證正確率的情況下,減少人工工作量。
總之,NLP 技術本身近年來取得了長足的進步,然而目前在系統評價領域的應用較少。若能加快 NLP 在系統評價中的應用研究和推廣,可加速整個循證醫學領域的證據合成,為臨床決策提供大量真實可靠的醫學信息,促進醫療衛生決策的科學化。
系統評價是一種文獻綜合方法,圍繞特定的臨床問題和需求,收集某一具體醫學問題的相關研究,按照納入和排除標準篩選文獻,嚴格評價納入研究的偏倚風險并提取所需數據,然后進行證據合成,得到當前的最佳證據[1]。然而,在系統評價制作過程中,文獻篩選和數據提取是非常耗時的工作步驟。隨著醫學的飛速發展,醫療領域積累了大量的科學文獻和醫療文本數據。截至 2020 年 5 月,PubMed 公共檢索平臺收集了 3 000 多萬份醫療文獻,而 2010 年為 2 000 萬份,平均每年增加 100 萬份[2]。與此同時,為確保檢索結果的全面性,檢索策略要求靈敏度超過 98% 而特異性低于 75%,這導致了初檢文獻中包含大量與研究目的無關的文獻[3]。另一方面,Cochrane 手冊建議系統評價應每兩年更新一次[4]。然而超半數的系統評價發表時間和最后檢索時間相隔 14 個月[5],因此 7% 的系統評價發表時結果已經過時[6]。而系統評價研究者需要篩選海量檢出文獻[7]。有研究顯示,發表一篇系統評價平均需花費研究者 67.3 周的時間,無關文獻率平均高達 97.1%[8]。由于文獻總量大、檢索策略特異度低和更新需求頻繁的原因,在系統評價過程,研究者需要長期耗費巨大的人力、物力在文獻篩選和數據提取的工作中[9]。如何從這些文本數據中快速、高效地提取有效的信息,是急需解決的問題。
自然語言處理(nature language processing,NLP)在 20 世紀 50 年代首次提出,作為計算機科學和人工智能的方向之一,主要是通過計算機算法來實現計算機對人類語言的理解和生成。目前 NLP 發展迅速,具有廣泛的應用場景,已在文本挖掘、情感分析、信息檢索、機器翻譯等領域取得突出進展,受到自然科學領域的廣泛關注。
與此同時,系統評價過程中的文獻篩選和數據提取任務,與 NLP 已有的實際應用場景類似。系統評價的初篩和全文篩選任務,即是將文獻分為兩類(納入或排除),這屬于文本分類問題。與之相似的 NLP 工業應用場景為新聞分類。對于新聞分類,網上大量的新聞手工歸檔難度大,利用 NLP 判斷一個新聞的類別(經濟、文化等),也屬于文本分類問題。系統評價的數據提取問題,類似于目前 NLP 在金融市場上提取交易決策相關信息用于金融決策,都是需要從文本中提取相關數據。
因此,NLP 作為可快速處理海量信息的方法,可能是一種加速系統評價的有效方法。本文旨在為系統評價研究者提供 NLP 在加速系統評價篩選方面的應用方法和工具進行總結,以期為系統評價者應用相關工具提供參考。
1 NLP 簡介
隨著技術的發展,人工智能展現出了高效而準確的實際應用效果,各行各業開始引入人工智能技術進行變革。NLP 作為計算機科學和人工智能的重要研究方向之一,也逐步受到研究者重視。隨著 NLP 算法的快速發展,NLP 的應用變得越來越廣泛。系統評價員作為 NLP 潛在使用者,了解 NLP 技術的發展和現有技術類型,有利于選取合適的 NLP 工具。
1.1 NLP 的發展
由于自然語言的復雜性,NLP 研究進展緩慢,直至引入機器學習相關算法,才極大地推進了 NLP 發展。NLP 的發展經歷了基于規則、基于統計和基于機器學習三個階段[10]。在這三個階段中,基于機器學習的 NLP 方法在應用中展現出較佳的實際效果。
在基于規則的方法中,需要專業人員人工制定規則,從而根據規則開發算法。這種策略高度依賴于專業人員對語言學和專業問題本身的掌握程度。同時,由于語言表達的多樣性,單一規則的方法難以覆蓋所有的知識領域,無法滿足復雜的實際需求。
在基于統計的方法中,需要 NLP 研究者先嘗試構建語料庫和詞庫,使計算機基于統計模型來學習文本特征,然后再構建具體的任務模型,如文本分類和數據提取。在這一策略中,研究者不再直接處理文字單詞本身,而是使用基于語言學的數字特征來表示文本中的每一個單詞,通過數學模型來構建關系,以到達機器理解文本的目的。基于語言學的數字特征包括詞頻、詞性、詞根、詞序等語言學量化的特征。這一時期代表模型為隱馬爾可夫(hiden Markov model,HMM)[11]、K-鄰近(k-nearest neighbor,KNN)[12]、支持向量機(support vector machine,SVM)[13]、樸素貝葉斯(naive Bayes,NB)[14]、條件隨機場(conditional random field,CRF)[15]等。基于統計的策略中,研究者不斷深入研究文字的特征向量,使產生的數字向量高維稀疏,難以構建有效的連接關系,這使得整個 NLP 模型的準確度難以提高。
在基于機器學習的方法中,文本的特征數字向量不再由研究者人為設計,而是通過語言模型將文本中的每一個單詞映射為低維度的數字向量。數字向量的數值來源于模型計算結果,不受人為控制,由文本本身及相應的語言模型產生低維的數字向量,從而解決數字向量的高維稀疏問題。這一時期常用的模型為詞向量(word2vec)[16]、卷積神經網絡(convolutional neural networks,CNN)[17]、循環神經網絡(recurrent neural network)[18]、長短期記憶(long short-term memory,LSTM)[19]、全自注意力網絡(transformer)[20]和預訓練的深度雙向全自注意力網絡語言模型(bidirectional encoder representations from transformers,BERT)[21]等。
在這三個階段中,基于機器學習的 NLP 方法在實際應用中展現出較佳的效果。因此,NLP 逐漸被廣泛地應用于多個現實場景,如機器翻譯、智能移動設備等。故系統評價員在選取 NLP 工具時,可考慮優先采用基于機器學習方法的 NLP 工具。
1.2 機器學習的類型
目前常用的 NLP 算法大多是基于機器學習。了解機器學習的類型,有助于使用者掌握這類 NLP 工具的使用方法。NLP 工具的核心在于 NLP 算法,基于機器學習的 NLP 算法核心在于機器學習模型。機器學習模型本身由模型結構和模型參數兩部分組成。模型結構由研究人員設計作為模型的骨架,模型參數由訓練數據計算得到。訓練過程則是計算模型參數的過程。根據訓練過程,機器學習的類型分為監督學習、無監督學習和半監督學習三種類型。監督學習是指通過使用一組已知類別的樣本來調整分類器參數以達到所需性能的過程[22]。無監督學習是指通過使用一組沒有已知類別的樣本來調整參數[22]。半監督學習是指通過使用少量具有已知類別的樣本和大量沒有已知類別的樣本來調整參數[22]。在監督學習、無監督學習和半監督學習三種類型中,監督學習的精度最佳[23]。基于監督學習的方法做文本分類任務,需要用戶提供樣本及樣本對應的分類標簽。
2 NLP 在加速系統評價中的應用
文獻總量大、檢索策略寬松和更新需求頻繁使系統評價研究者需要處理海量文獻。研究者可利用 NLP 自動化實現文獻篩選和數據提取,加速系統評價進程,幫助快速合成證據。目前 NLP 算法逐漸成熟,然而成熟的系統評價 NLP 工具還很少。對于系統評價研究者而言,NLP 工具操作性更好,學習成本和使用成本更少。本文將從初篩、全文篩選和數據提取三個方面整理現有具有代表性的系統評價 NLP 工具。
2.1 初篩
2.1.1 概述
針對海量的檢出文獻,系統評價員首先要根據檢出文獻的題目和摘要來判斷該文獻是否符合納入標準,這個過程為初篩。相較于全文篩選和數據提取,初篩領域的 NLP 工具較多。
2.1.2 現有工具工作原理和性能總結
目前具有代表性的初篩工具見表 1。根據機器學習類型,現有初篩工具可分為半自動化監督學習和監督學習兩類。半自動化監督學習代表性工具為 Abstrackr[24, 25]、EPPI-reviewer[26]、Rayyan[27]、ASReview[28]、DoCTER[29]、Colandr[30]和 SWIFT-Active Screener[31];監督學習的代表性工具為 GAPscreener。

在使用半自動化監督學習工具時,通常需要用戶將初篩文獻的摘要信息上傳至工具中,在工具內將顯示文本(包括題目、摘要、雜志、關鍵詞和作者信息),用戶人工判斷文本的類別(相關或者不相關),在用戶人工判斷了一定數量文獻后,工具采用內置模型預測文本的相關性,并對所有文本進行相關性排序[24, 25]。
半自動化監督學習工具的常用評價指標為 WSS@95。WSS(work saved over sampling),表示達到同樣期望的召回率,文獻按相關性排序,其相比于隨機排序,可以減少文獻篩選負擔的百分比。WSS@95 即為期望召回率為 95% 時,該模型可減少的文獻篩選負擔所占百分比。一個完全有序的列表的最大可能 WSS 評分接近 1,此時篩選的百分比接近 0,表明篩選負擔的理論上可 100% 減少。WSS 評分為 0 或負值則表明,隨機排序將與優先級排序一樣有效或更有效。
根據表 1 顯示,從節省工作量的效果角度來評價,在文章案例中 ASReview 的節省工作量效果最佳。就用戶調查結果而言,Rayyan 和 Covidence 工具是最常用的系統評價工具[32],然而 Covidence 在篩選上的幫助為高亮關鍵詞,并不能實現自動化篩選[33]。
在使用監督學習工具時,需要用戶將檢索結果文獻的摘要信息上傳至工具中,工具即可自動化篩選摘要。目前的代表性工具為 GAPscreener[34, 35]。該工具只能用于識別與人類基因相關的文獻摘要。其本身不能直接完成系統評價的初篩任務,僅能作為一種特定文獻類別的識別工具。該工具本身采用了 SVM 模型,基于監督學習的方式訓練工具模型,訓練數據中陽性樣本來自 HuGE Navigator 數據集,陰性樣本為隨機產生的 10 000 篇文本,訓練得到的模型為通用模型。在實際使用中不需要用戶進行文本分類工作。該工具的案例表現效果較好:召回率、特異度和精確度分別為 97.5%、98.3% 和 31.9%。其優點在于召回率高,特異度高,無需用戶標注文本對應的分類標簽,其缺點在于僅能篩選特定類型的文本。
2.2 全文篩選
2.2.1 概述
經過初篩后,進一步查找符合納入標準或不確定文獻的全文,再基于全文信息判斷該研究是否符合納入標準,這個過程為全文篩選。從技術角度出發,文獻全文信息主要以 PDF 文件的形式存在,計算機需要將 PDF 轉化為 xml、txt 等代碼可讀取的文本形式。相較于初篩的摘要文本,全文文本增加了信息量,相應的也增加了難度。目前沒有具有代表性的可直接用于自動化全文篩選的工具,僅有部分 PDF 全文解析工具。
2.2.2 現有工具工作原理和性能總結
目前沒有具有代表性的可直接用于自動化全文篩選的工具,RobotReviewer[36]有分析全文信息功能的工具。但 RobotReviewer 工具不能直接用于全文篩選,其具有識別 PDF 文件中描述 PICOS 原則句子的能力。若將 PICOS 原則的句子進一步結構化,可以幫助 PDF 文本篩選工具進行系統評價的全文篩選。目前全文篩選的難點在于全文信息復雜多樣、文本獲取難度高、解析難度高。特別是中文文本的解析更為困難,目前研究難點包括中文的分詞、中文詞意消歧、句法模糊等。在書寫中文時,漢字間沒有間隔,如何組詞劃定字詞邊界是中文分詞的難點問題。
2.3 數據提取
2.3.1 概述
經過初篩和全文篩選,最后,還要提取所有符合納入標準的研究的數據,這個過程為數據提取。這一階段,要求工具可以識別和提取出用戶需要的信息內容。這一階段的工具較少,目前系統評價尚無自動化數據提取工具。
2.3.2 現有工具工作原理和性能總結
目前主要有三類輔助工具:① 針對某一類文本進行數據提取,如 Spotfire-DXP[37],僅提取國家醫學圖書館臨床試驗網站的 xml 數據;② 數據提取輔助工具,幫助格式轉化、補充摘要信息和生成長文本摘要,不直接提供數據提取功能,如 Engauge Digitizer 將圖片轉文字、Data Abstraction Assistant(DAA)[38]幫助定位摘要信息在全文中的內容、Spá[39]實現 PDF 的自動注釋和形成文本摘要;③ 可用于用戶自身感興趣信息的提取,如 Colandr[30]、Covidence[33]都是輔助工具。Covidence 提供全文的關鍵詞高亮功能,也提供數據提取自定義表格和模板。
目前的數據提取工具的主要發展方向為便捷人工提取,如關鍵詞高亮和提取自定義表格和模板,其代表性工具為 Covidence,但該工具為商業軟件,目前需要注冊后付費使用。
2.4 綜合應用 NLP 的實例
目前 NLP 工具在系統評價中的綜合利用并不多。Clark[40]使用了一系列工具來加速系統評價過程,在兩周內完成了液體攝入對尿路感染影響的系統評價。在該案例中,這篇文章共使用了 10 種工具,分別服務于設計系統的檢索策略,同時在 PubMed 或 Medline(Ovid)中進行檢索、去重、篩選題目摘要獲取全文和評價偏倚風險。其中涉及篩選題目和摘要功能的工具為 SRA Helper、Robot Search 和 EndNote。SRA Helper 通過詞頻分析對文本進行聚類,通過對文本的聚類來加速對題目和摘要的篩選。RobotSearch 通過 NLP 算法識別 RCT 類型的摘要來加速對題目和摘要的篩選。EndNote 工具主要是通過分組功能來加速對題目和摘要的篩選,分組功能的實現不包含任何 NLP 自動化工作。在這個綜合案例中,系統評價工作得到了明顯加速,然而其中涉及的語義理解工作大部分依舊通過人工識別來完成。
在該案例中,涉及的語義理解工作(文獻篩選和數據提取)僅部分通過 NLP 工具來自動化完成,但系統評價完成速度已得到了明顯提升。若未來進一步發展 NLP 工具,實現文獻篩選和數據提取的自動化,可進一步加速系統評價過程。
3 討論與展望
3.1 問題總結
NLP 技術在系統評價領域中具有廣泛的應用前景。然而,NLP 目前在系統評價領域的應用仍處于初級階段。主要存在以下問題:① 系統評價研究者對 NLP 技術缺乏了解。目前 NLP 技術的前沿領域是通過深度學習算法來實現的,目前系統評價研究者對 NLP 的理解多停留在基于規則,由專家制定規則完成對文獻的篩選和信息的提取。然而這種規則要求制定者具有深厚的臨床專業背景和語言學背景,這也意味著研究者需要花大量時間和精力在制定規則上。同時,這樣的規則僅適用于單一任務,一旦變換語言環境,變換研究問題,則規則不再適用。臨床問題種類繁多且表述語言也在變化,導致研究者需要持續地花費大量時間和精力制定規則,② 利用基于監督學習進行文本分類和數據提取,這類方法面臨的問題包括篩選結果不穩定、缺乏統一評價環境和缺乏訓練數據。目前,基于監督學習的 NLP 工具,多是針對每個項目獲得相應的訓練數據,進行自動化,其結果依賴用戶給定的人工分類結果,這意味著工具篩選結果不穩定。在用戶上傳數據量小的時候,將存在篩選模型過度擬合的情況;在用戶上傳的人工分類效果不佳時,模型識別納入文本的能力也不佳。此外,各個初篩項目間的分類模型是獨立的,分類效果也是獨立的,難以在一個公平環境中比較各個自動化篩選工具的效果。同時,訓練數據很難得到,因為系統評價員很少報告(甚至記錄)系統評價引文在什么階段被排除在外,③ 現有的 NLP 工具多為輔助性工具,主要用于輔助信息的格式轉化,無法直接提供信息提取的功能。利用相關性進行排序,得到的是篩選的間接結果,無法得到準確的納入或者排除結果。PICOS 的識別屬于句子級別,全文的納入和排除結果依舊需要人工識別給出。
3.2 展望
系統評價的海量文本處理需求與 NLP 技術的海量文本識別的能力相契合。因此,NLP 在加速系統評價領域具有廣闊的應用前景。未來 NLP 在系統評價中的應用可向幾個方向發展:① 加強 NLP 在系統評價方面應用工具的開發,促進 NLP 技術在系統評價領域應用的推廣。現有的自然語言算法在逐漸成熟,然而成熟的包含 NLP 語義識別功能的系統評價工具還不多,加強自然語言算法在系統評價領域的成果轉化,將算法以操作簡易的 NLP 工具形式,在系統評價領域進行應用和推廣,有利于 NLP 技術在系統評價領域的推廣,② 建立大型語料庫,為基于監督學習的 NLP 技術提供訓練數據,為 NLP 在系統評價領域的應用效果提供公共的測評標準。基于 PICOS 原則建立通用型監督學習模型,建立大型語料庫,用于訓練 NLP 模型識別文本中的 PICOS,提取相關信息,再針對特定研究問題設定 PICOS 的納入標準來確定最終的納排結果。在這一思路下,構建的 NLP 模型具有更強的泛化能力,也可以降低 NLP 對單次項目數據質量的依賴,③ 關注 NLP 技術的最新進展,有利于 NLP 技術在系統評價領域的應用。基于監督學習的 NLP 算法,在結果敏感度上有較佳的表現,然而監督學習需要大量人工標注信息,人工標注過程耗時耗力。NLP 中半監督學習和非監督學習,對人工標注數據的需求量不大。關注半監督學習和監督學習在 NLP 中的發展,可以幫助研究者在保證正確率的情況下,減少人工工作量。
總之,NLP 技術本身近年來取得了長足的進步,然而目前在系統評價領域的應用較少。若能加快 NLP 在系統評價中的應用研究和推廣,可加速整個循證醫學領域的證據合成,為臨床決策提供大量真實可靠的醫學信息,促進醫療衛生決策的科學化。