生物醫學科研人員進行系統評價時,檢索結果的敏感度和精確度直接影響系統評價最終結果,而不同的檢索方法和檢索工具得到產生不同的檢索結果。本文首先評價了布爾邏輯檢索、等級檢索、主題檢索和全文檢索方法對系統評價檢索結果的影響,接著介紹了一站式檢索工具(Google Scholar 和資源發現系統)在系統評價檢索中的應用,并比較其檢索效果。
引用本文: 蘇石, 翟中會, 劉華. 一站式檢索工具在系統評價中的應用及效果評價. 中國循證醫學雜志, 2018, 18(5): 506-510. doi: 10.7507/1672-2531.201709070 復制
生物醫學文獻的系統評價是基于原始臨床醫學研究產生二次證據的過程,是對已出版的文獻進行系統總結、評價和分析[1]。常用生物醫學文獻數據庫包括:CNKI、CBM、CMCC、VIP、WanFang Data、MEDLINE、EMbase、SCI、Ovid、PQDT、The Cochrane Library 等[2]。目前 PsycINFO 數據庫已有超過三百萬條文獻記錄,MEDLINE 和 EMbase 也已超過兩千萬條。它們都支持布爾邏輯檢索、通配符、詞根擴展等檢索方式。但不同數據庫的檢索詞間存在差別,這不僅增加了研究者的工作負擔,同時對檢索結果的敏感度和精確度也產生很大的影響。系統評價研究人員為了保證查全率,就必須檢索大量數據庫,這無疑增加了系統評價團隊的工作量,如能采用一站式檢索工具 Google Scholar 或資源發現系統代替眾多的數據庫檢索,將減輕系統評價時文獻檢索的工作量。本文采用實例,評價了布爾邏輯檢索、等級檢索、主題檢索和全文檢索方法對系統評價檢索結果的影響,并與一站式檢索工具結果比較,確定一站式檢索工具是否能夠滿足系統評價要求的查全率和查準率。
1 現狀
國內外學者做了大量系統評價檢索策略優化的研究,主要集中在根據不同的檢索目的構建相應的過濾器,其中 narrow 過濾器可提高查準率,broad 過濾器可提高查全率[3-6]。但系統評價檢索策略還存在一些其他問題:① 需從不同的數據庫平臺檢索文獻,但不同數據庫檢索策略和收錄范圍均不同,這無疑給研究人員增加了工作負擔。另外由于系統評價團隊對一些檢索平臺不熟悉,往往導致大量的漏檢、誤檢等。所以除了采用數據庫檢索外,還需要采用引文跟蹤、跟蹤登記的臨床試驗、瀏覽專題雜志、閱讀相關會議文獻等手段保證查全率;② 檢索結果的再現困難,系統評價要求檢索策略能夠再現相同的檢索記錄集合,但很多系統評價的檢索式不能滿足這個要求。造成這種原因主要包括:檢索策略拼寫錯誤、不恰當的邏輯組配、截詞錯誤、不相關的 MeSH 詞、錯誤的 MeSH 詞、不合理的冗余以及同一檢索策略不適用于所有數據庫。另外,美國國立醫學圖書館每年對醫學主題詞表(MeSH)的更新也可能使檢索表達式不能重新執行或者不能獲取相同的檢索結果。
2 常用檢索范式
系統評價檢索策略主要采用布爾邏輯檢索和等級檢索 2 個檢索范式。布爾邏輯檢索已有 40 多年歷史,但布爾邏輯檢索不適用于最近幾年出現的檢索系統,如 Google Scholar 和資源發現系統。而等級檢索近年來才出現,這種方式比布爾邏輯檢索更適合于 Google Scholar 和資源發現服務等系統。
2.1 布爾邏輯檢索
采用邏輯運算符連接術語、短語、子表達式等組成系統評價檢索式,布爾邏輯檢索式非常直觀,用戶能夠從檢索式中預計檢索結果包括或不包括哪些內容。盡管制定布爾邏輯檢索式非常復雜,但系統評價一直在使用該檢索式,主要是由于布爾邏輯檢索具有再現性,如果數據庫記錄沒有發生變化,運行同樣的檢索式能夠返回相同的檢索結果。另外一個原因是布爾邏輯表達式的靈活性,能夠表達非常復雜的概念,如“(clin$ adj25 trial$).ti”標識標題中包含 clin 和 trial 詞根并且能相鄰 25 個字符。布爾邏輯檢索能夠明確知道包含和排除哪些文檔,這有利于在出現新的論文后對系統評價進行更新,布爾邏輯檢索還可以定義為一個查詢模板,這些模板可以用于相應的子查詢。
但布爾邏輯檢索也存在一些不利因素,一方面很難控制檢索結果數量,如錯用一個“AND”將會丟失大量的檢索結果,錯用一個“OR”將導致返回大量的檢索結果。另一方面由于檢索結果沒有按相關性排序,判斷哪些結果納入系統評價比較困難。再者,一些檢索式過于復雜,如 The Cochrane Library 的系統評價中有的檢索式長達 100 多行,容易出現錯誤。且較長的檢索式很難重復獲取相同的檢索結果,如由于主題詞表的變化引起主題詞擴展(EXP)意義發生改變或數據庫加入新的元數據字段引起邏輯運算符“OR”的語義發生變化。
2.2 等級檢索
等級檢索依據詞頻、查詢上下文、鏈接結構等技術對檢索結果進行排序,用戶能夠通過等級判斷哪些文獻更符合系統評價納入標準,而不需考慮整個檢索結果的大小[7]。等級檢索更適合迭代查詢,在檢索式改變后,能夠很明確看到是否改善了檢索結果,這個優點完全符合系統評價檢索的要求,這是布爾邏輯檢索進行迭代查詢時無法做到的。
但值得注意的是,等級檢索缺乏再現性,由于數據集合的改變,術語統計數據也發生了變化,因此等級排序結果也可能發生改變。自動擴展查詢可能明顯改變了查詢的原來目的,另外由于檢索機制經常調整,非常小的語法解析變化可能導致排序結果發生很大的變化。另外,排序文獻中究竟排在前面多少位條目是相關文獻,這個數值也很難界定。
目前還沒有充分的證據支持將等級檢索式作為系統評價檢索方式,現有系統評價還是采用布爾邏輯檢索,但等級檢索可以作為布爾邏輯檢索的補充,如系統評價團隊根據文獻標題和摘要選擇相關文獻的時候,可以根據等級排序方法迅速找出相關文獻,從而減少評價人員的工作量。另外布爾邏輯檢索時需要注意 MeSH 詞擴展僅僅支持最新版本的 MeSH 詞表,如果 MeSH 詞表發生了變化,重新運行檢索式將不能得到相同的結果集。Ovid 提供的 MEDLINE 不同歷史版本能夠弱化這種影響。此外,由于詞根檢索對用戶的不透明性,應使用手動截詞進行更有效的控制。
3 常用檢索方式
3.1 主題檢索
主題檢索是要求關鍵詞出現在標題、關鍵詞或摘要中,檢索步驟為思考研究主題、分解主題概念、列舉主題概念的同義詞、建立邏輯組配檢索式“(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3)”。這種檢索方式主要適用于摘要或索引數據庫(MEDLINE、SCI 等),特點是精確檢索,即輸入什么關鍵詞就會檢索到與該關鍵詞相關的文獻,這種情況下,大部分檢索返回結果較少,有時甚至檢索結果為零。一方面由于檢索詞僅僅和元數據匹配,如檢索“youth”,而文章標題或摘要中僅有“teenager”時,將不能檢索到這篇文獻。另一方面檢索系統只能精確檢索,沒有自動詞根覆蓋單詞的所有變體,如英式和美式拼法,因此在檢索時必須包含單詞的所有變體、單復數等形式。復雜的布爾邏輯檢索確保了主題檢索的準確性和命中率。
3.2 全文檢索
全文檢索是指關鍵詞在全文中匹配而不僅僅是元數據,隨著大量全文數據庫的出現,檢索環境也發生了很大的變化,數據庫提供自動詞根搜索并自動增加相關同義詞,如檢索“teenagers”,全文中可能出現“youth”、“adolescence”等,不需要用“teenagers”的同義詞檢索。即使采用最基本的檢索如“ A AND B AND C ”也能夠保證查全率。相反,選擇不恰當的同義詞或過度使用通配符反而會使檢索結果變得更糟糕。
恰當的關鍵詞是主題檢索的關鍵,如采用“OR”連接藥物名稱列表、同一個概念列表等,但問題是許多研究人員對關鍵詞列表沒有充分理解,經常過度延伸使用關鍵詞。如檢索式“(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3)”,可能使用 A3、B3、C3 三個詞并不確切,但用戶僅僅是為了避免萬一遺漏的情況,這時由于沒有區分學科,相同的關鍵詞可能出現在不同學科而檢索意義完全相反。采用此檢索式進行全文檢索雖然保證了查全率,但查準率較低。
4 Google Scholar 檢索工具
Google Scholar 從 2004 年誕生到現在,已經被廣大科研人員接受,據 2010 年 OCLC 的統計,84% 的科研人員使用 Google Scholar 檢索文獻[8]。但許多信息檢索專家提出了 Google Scholar 的大量缺點,如檢索式有 256 個字符限制,最多顯示 1 000 個檢索結果,每個頁面最多 20 個結果,不能成批導出結果,僅僅能通過 ZOTERO 導出每頁 20 個結果,不能和其他專業文獻選擇過程整合等。此外,Google Scholar 沒有截詞操作符,自動詞根機制僅用于常見詞根,但檢索時并不可靠,如“child”不能自動匹配“childhood”和“children”,邏輯操作符嵌套不能超過一層等缺點;甚至會出現由于檢索詞順序不同而引起檢索結果不同,如“esophagus OR oesophagus”和“oesophagus OR esophagus”由于關鍵詞順序不同,檢索結果就相差了 1 萬多條。和專業數據庫如 PubMed 相比,Google Scholar 采用自由詞匹配,而 PubMed 優先采用規范的主題詞匹配,更容易控制查全率和查準率。此外,而由于網絡原因,國內訪問 Google Scholar 需要通過 VPN 訪問。
Google Scholar 不是傳統意義的文獻數據庫,他采用自動化爬行互聯網的學術文檔,然后基于全文建立索引[9]。索引數據可能來源于出版社的網頁,也可能來自一篇全文,Google Scholar 沒有自己的文獻數據庫,而是直接鏈接到文獻的 web 頁面。這種索引機制不能保證一個時間點檢索到的內容和另外一個時間點檢索的內容完全相同。但也正是由于這個原因,Google Scholar 可能代替 PubMed、EMbase 等數據庫的聯合檢索,用戶也不需掌握不同的數據庫檢索方法。
4.1 Google Scholar 檢索方法
4.1.1 數據來源
從 The Cochrane Library 檢索到最新的 10 篇 Cochrane Database Systematic Reviews 文獻(2016 年 12 月 1 日),然后從這 10 篇論文中提取其納入研究和檢索表達式。因這些研究的檢索表達式一般都采用了截詞、邏輯嵌套且字符大大超過了 256 個字符限制,所以要對這些檢索式進行修訂才能適應于 Google Scholar 檢索。修訂原則為:檢索表達式限制在 256 個字符內,盡可能用簡單的邏輯組配連接術語、短語和子表達式,盡可能保證檢索結果的敏感性。其中 1 篇系統評價的檢索式轉換如下,框 1 為系統評價中的檢索表達式,框 2 為修訂后適合 Google Scholar 檢索的表達式:


為了檢查系統評價中納入研究是否能在 Google Scholar 中檢索到,對修訂后的檢索式進一步縮小范圍,如給檢索表達式加入作者或標題的一部分進行確切匹配,框 3 為加入了作者的檢索表達式。

4.1.2 不同檢索結果的評價
采用 Google Scholar 中精確匹配的檢索結果 R(如采用框 3 的確切匹配檢索式)和 10 篇論文中提取到的納入研究 Ds 之比表示檢索的敏感性(R/Dselect);采用檢索結果 R 和 Google Scholar 中檢索到所有結果 Dall 之比(R/Dall)表示檢索的準確性。通過這兩個比值判斷 Google Scholar 檢索的敏感性和準確性。
10 篇最新系統評價共納入了 340 個原始研究。我們的檢索結果顯示,Google Scholar 的每篇系統評價搜索結果在 4 100~61 000 篇之間,共計 271 430 篇。R/Dall 在 74%~100% 范圍內,其中 6 篇系統評價的 R/Dall 值為 100%,R/Dall 整體值為 91%,說明 Google Scholar 檢索能夠滿足系統評級檢索準確性。R/Dselect 最小值為 0.10%,最大值為 17.8%,R/Dselect 整體值為 4.7%,說明檢索敏感性較低。但由于研究方法設計沒有考慮到 Google Scholar 對相關文獻的排序,所以本研究得到的 R/Dselect 低于實際值。系統評價檢索式字符長度(Lr)為 141 到 1 800 字符之間,中位數為 810 個字符,修訂后適合 Google Scholar 檢索的表達式長度(Lg)為 93~220 個字符之間,中位數為 180 個字符,系統評價檢索式字符長度和修訂后適合 Google Scholar 檢索的表達式長度(Lr/Lg)比值范圍為 0.09~0.37,平均值為 0.2。
5 資源發現系統檢索工具
近年來各高校圖書館為了提高資源利用率和用戶體驗,紛紛引進了資源發現系統,國內引進的資源發現系統主要為 Primo、EDS、Summon、Worldcat Local 四種系統。資源發現系統和 Google Scholar 類似,都為用戶提供了一站式檢索各種筒倉數據的功能。但資源發現系統在某些方面優于 Google Scholar,如沒有 256 個字符限制,提供了類似于學術數據庫的高級搜索、方面搜索等,檢索功能更接近傳統的學術數據庫。本節采用了以上類似方法評價資源發現系統是否能單獨作為系統評價的檢索工具,方法學部分同上。
由于不同單位采用的發現系統不同,且使用相同的發現系統的不同單位,其資源配置也不同,導致收錄范圍和最終檢索結果都不同,故本研究僅評價了西安交通大學圖書館的 Summon 資源發現系統。
檢索同樣的 10 篇系統評價納入的 340 個研究,發現系統檢索到的結果在 2 200~7 800 篇之間,共計 4 700 篇。R/Dall 在 75%~100% 范圍內,其中 4 篇系統評價的 R/Dall 值為 100%,R/Dall 整體值為 76%,資源發現系統檢索能夠滿足系統評價的檢索準確性。R/Dselect 最小值為 0.20%,最大值為 31%,R/Dselect 整體值為 12%,該值雖然高于 Google Scholar,但和系統評價要求的檢索敏感性還有很大的差距。系統評價檢索式字符長度(Lr)為 141 到 1 800 字符之間,中位數為 810 個字符,修訂后適合資源發現系統檢索的表達式長度(Lg)為 93~310 個字符之間,中位數為 237 個字符,系統評價檢索式字符長度和修訂后適合資源發現系統檢索的表達式長度(Lr/ Lg)比值范圍為 0.13~0.48,平均值為 0.30。
6 小結
本文分析了系統評價檢索的敏感性和準確性,在進行系統評價時,應將布爾邏輯檢索和等級檢索結合起來,采用布爾邏輯檢索獲取相關文獻,利用等級檢索篩查相關文獻。建議進行字段和元數據搜索,而不需要進行全文檢索。因一站式檢索系統 Google Scholar 和資源發現系統能夠滿足檢索準確性,但敏感度較低,所以進行系統評價時,仍需進行傳統數據庫的檢索,而將一站式檢索系統 Google Scholar 和資源發現系統檢索作為補充。
生物醫學文獻的系統評價是基于原始臨床醫學研究產生二次證據的過程,是對已出版的文獻進行系統總結、評價和分析[1]。常用生物醫學文獻數據庫包括:CNKI、CBM、CMCC、VIP、WanFang Data、MEDLINE、EMbase、SCI、Ovid、PQDT、The Cochrane Library 等[2]。目前 PsycINFO 數據庫已有超過三百萬條文獻記錄,MEDLINE 和 EMbase 也已超過兩千萬條。它們都支持布爾邏輯檢索、通配符、詞根擴展等檢索方式。但不同數據庫的檢索詞間存在差別,這不僅增加了研究者的工作負擔,同時對檢索結果的敏感度和精確度也產生很大的影響。系統評價研究人員為了保證查全率,就必須檢索大量數據庫,這無疑增加了系統評價團隊的工作量,如能采用一站式檢索工具 Google Scholar 或資源發現系統代替眾多的數據庫檢索,將減輕系統評價時文獻檢索的工作量。本文采用實例,評價了布爾邏輯檢索、等級檢索、主題檢索和全文檢索方法對系統評價檢索結果的影響,并與一站式檢索工具結果比較,確定一站式檢索工具是否能夠滿足系統評價要求的查全率和查準率。
1 現狀
國內外學者做了大量系統評價檢索策略優化的研究,主要集中在根據不同的檢索目的構建相應的過濾器,其中 narrow 過濾器可提高查準率,broad 過濾器可提高查全率[3-6]。但系統評價檢索策略還存在一些其他問題:① 需從不同的數據庫平臺檢索文獻,但不同數據庫檢索策略和收錄范圍均不同,這無疑給研究人員增加了工作負擔。另外由于系統評價團隊對一些檢索平臺不熟悉,往往導致大量的漏檢、誤檢等。所以除了采用數據庫檢索外,還需要采用引文跟蹤、跟蹤登記的臨床試驗、瀏覽專題雜志、閱讀相關會議文獻等手段保證查全率;② 檢索結果的再現困難,系統評價要求檢索策略能夠再現相同的檢索記錄集合,但很多系統評價的檢索式不能滿足這個要求。造成這種原因主要包括:檢索策略拼寫錯誤、不恰當的邏輯組配、截詞錯誤、不相關的 MeSH 詞、錯誤的 MeSH 詞、不合理的冗余以及同一檢索策略不適用于所有數據庫。另外,美國國立醫學圖書館每年對醫學主題詞表(MeSH)的更新也可能使檢索表達式不能重新執行或者不能獲取相同的檢索結果。
2 常用檢索范式
系統評價檢索策略主要采用布爾邏輯檢索和等級檢索 2 個檢索范式。布爾邏輯檢索已有 40 多年歷史,但布爾邏輯檢索不適用于最近幾年出現的檢索系統,如 Google Scholar 和資源發現系統。而等級檢索近年來才出現,這種方式比布爾邏輯檢索更適合于 Google Scholar 和資源發現服務等系統。
2.1 布爾邏輯檢索
采用邏輯運算符連接術語、短語、子表達式等組成系統評價檢索式,布爾邏輯檢索式非常直觀,用戶能夠從檢索式中預計檢索結果包括或不包括哪些內容。盡管制定布爾邏輯檢索式非常復雜,但系統評價一直在使用該檢索式,主要是由于布爾邏輯檢索具有再現性,如果數據庫記錄沒有發生變化,運行同樣的檢索式能夠返回相同的檢索結果。另外一個原因是布爾邏輯表達式的靈活性,能夠表達非常復雜的概念,如“(clin$ adj25 trial$).ti”標識標題中包含 clin 和 trial 詞根并且能相鄰 25 個字符。布爾邏輯檢索能夠明確知道包含和排除哪些文檔,這有利于在出現新的論文后對系統評價進行更新,布爾邏輯檢索還可以定義為一個查詢模板,這些模板可以用于相應的子查詢。
但布爾邏輯檢索也存在一些不利因素,一方面很難控制檢索結果數量,如錯用一個“AND”將會丟失大量的檢索結果,錯用一個“OR”將導致返回大量的檢索結果。另一方面由于檢索結果沒有按相關性排序,判斷哪些結果納入系統評價比較困難。再者,一些檢索式過于復雜,如 The Cochrane Library 的系統評價中有的檢索式長達 100 多行,容易出現錯誤。且較長的檢索式很難重復獲取相同的檢索結果,如由于主題詞表的變化引起主題詞擴展(EXP)意義發生改變或數據庫加入新的元數據字段引起邏輯運算符“OR”的語義發生變化。
2.2 等級檢索
等級檢索依據詞頻、查詢上下文、鏈接結構等技術對檢索結果進行排序,用戶能夠通過等級判斷哪些文獻更符合系統評價納入標準,而不需考慮整個檢索結果的大小[7]。等級檢索更適合迭代查詢,在檢索式改變后,能夠很明確看到是否改善了檢索結果,這個優點完全符合系統評價檢索的要求,這是布爾邏輯檢索進行迭代查詢時無法做到的。
但值得注意的是,等級檢索缺乏再現性,由于數據集合的改變,術語統計數據也發生了變化,因此等級排序結果也可能發生改變。自動擴展查詢可能明顯改變了查詢的原來目的,另外由于檢索機制經常調整,非常小的語法解析變化可能導致排序結果發生很大的變化。另外,排序文獻中究竟排在前面多少位條目是相關文獻,這個數值也很難界定。
目前還沒有充分的證據支持將等級檢索式作為系統評價檢索方式,現有系統評價還是采用布爾邏輯檢索,但等級檢索可以作為布爾邏輯檢索的補充,如系統評價團隊根據文獻標題和摘要選擇相關文獻的時候,可以根據等級排序方法迅速找出相關文獻,從而減少評價人員的工作量。另外布爾邏輯檢索時需要注意 MeSH 詞擴展僅僅支持最新版本的 MeSH 詞表,如果 MeSH 詞表發生了變化,重新運行檢索式將不能得到相同的結果集。Ovid 提供的 MEDLINE 不同歷史版本能夠弱化這種影響。此外,由于詞根檢索對用戶的不透明性,應使用手動截詞進行更有效的控制。
3 常用檢索方式
3.1 主題檢索
主題檢索是要求關鍵詞出現在標題、關鍵詞或摘要中,檢索步驟為思考研究主題、分解主題概念、列舉主題概念的同義詞、建立邏輯組配檢索式“(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3)”。這種檢索方式主要適用于摘要或索引數據庫(MEDLINE、SCI 等),特點是精確檢索,即輸入什么關鍵詞就會檢索到與該關鍵詞相關的文獻,這種情況下,大部分檢索返回結果較少,有時甚至檢索結果為零。一方面由于檢索詞僅僅和元數據匹配,如檢索“youth”,而文章標題或摘要中僅有“teenager”時,將不能檢索到這篇文獻。另一方面檢索系統只能精確檢索,沒有自動詞根覆蓋單詞的所有變體,如英式和美式拼法,因此在檢索時必須包含單詞的所有變體、單復數等形式。復雜的布爾邏輯檢索確保了主題檢索的準確性和命中率。
3.2 全文檢索
全文檢索是指關鍵詞在全文中匹配而不僅僅是元數據,隨著大量全文數據庫的出現,檢索環境也發生了很大的變化,數據庫提供自動詞根搜索并自動增加相關同義詞,如檢索“teenagers”,全文中可能出現“youth”、“adolescence”等,不需要用“teenagers”的同義詞檢索。即使采用最基本的檢索如“ A AND B AND C ”也能夠保證查全率。相反,選擇不恰當的同義詞或過度使用通配符反而會使檢索結果變得更糟糕。
恰當的關鍵詞是主題檢索的關鍵,如采用“OR”連接藥物名稱列表、同一個概念列表等,但問題是許多研究人員對關鍵詞列表沒有充分理解,經常過度延伸使用關鍵詞。如檢索式“(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3)”,可能使用 A3、B3、C3 三個詞并不確切,但用戶僅僅是為了避免萬一遺漏的情況,這時由于沒有區分學科,相同的關鍵詞可能出現在不同學科而檢索意義完全相反。采用此檢索式進行全文檢索雖然保證了查全率,但查準率較低。
4 Google Scholar 檢索工具
Google Scholar 從 2004 年誕生到現在,已經被廣大科研人員接受,據 2010 年 OCLC 的統計,84% 的科研人員使用 Google Scholar 檢索文獻[8]。但許多信息檢索專家提出了 Google Scholar 的大量缺點,如檢索式有 256 個字符限制,最多顯示 1 000 個檢索結果,每個頁面最多 20 個結果,不能成批導出結果,僅僅能通過 ZOTERO 導出每頁 20 個結果,不能和其他專業文獻選擇過程整合等。此外,Google Scholar 沒有截詞操作符,自動詞根機制僅用于常見詞根,但檢索時并不可靠,如“child”不能自動匹配“childhood”和“children”,邏輯操作符嵌套不能超過一層等缺點;甚至會出現由于檢索詞順序不同而引起檢索結果不同,如“esophagus OR oesophagus”和“oesophagus OR esophagus”由于關鍵詞順序不同,檢索結果就相差了 1 萬多條。和專業數據庫如 PubMed 相比,Google Scholar 采用自由詞匹配,而 PubMed 優先采用規范的主題詞匹配,更容易控制查全率和查準率。此外,而由于網絡原因,國內訪問 Google Scholar 需要通過 VPN 訪問。
Google Scholar 不是傳統意義的文獻數據庫,他采用自動化爬行互聯網的學術文檔,然后基于全文建立索引[9]。索引數據可能來源于出版社的網頁,也可能來自一篇全文,Google Scholar 沒有自己的文獻數據庫,而是直接鏈接到文獻的 web 頁面。這種索引機制不能保證一個時間點檢索到的內容和另外一個時間點檢索的內容完全相同。但也正是由于這個原因,Google Scholar 可能代替 PubMed、EMbase 等數據庫的聯合檢索,用戶也不需掌握不同的數據庫檢索方法。
4.1 Google Scholar 檢索方法
4.1.1 數據來源
從 The Cochrane Library 檢索到最新的 10 篇 Cochrane Database Systematic Reviews 文獻(2016 年 12 月 1 日),然后從這 10 篇論文中提取其納入研究和檢索表達式。因這些研究的檢索表達式一般都采用了截詞、邏輯嵌套且字符大大超過了 256 個字符限制,所以要對這些檢索式進行修訂才能適應于 Google Scholar 檢索。修訂原則為:檢索表達式限制在 256 個字符內,盡可能用簡單的邏輯組配連接術語、短語和子表達式,盡可能保證檢索結果的敏感性。其中 1 篇系統評價的檢索式轉換如下,框 1 為系統評價中的檢索表達式,框 2 為修訂后適合 Google Scholar 檢索的表達式:


為了檢查系統評價中納入研究是否能在 Google Scholar 中檢索到,對修訂后的檢索式進一步縮小范圍,如給檢索表達式加入作者或標題的一部分進行確切匹配,框 3 為加入了作者的檢索表達式。

4.1.2 不同檢索結果的評價
采用 Google Scholar 中精確匹配的檢索結果 R(如采用框 3 的確切匹配檢索式)和 10 篇論文中提取到的納入研究 Ds 之比表示檢索的敏感性(R/Dselect);采用檢索結果 R 和 Google Scholar 中檢索到所有結果 Dall 之比(R/Dall)表示檢索的準確性。通過這兩個比值判斷 Google Scholar 檢索的敏感性和準確性。
10 篇最新系統評價共納入了 340 個原始研究。我們的檢索結果顯示,Google Scholar 的每篇系統評價搜索結果在 4 100~61 000 篇之間,共計 271 430 篇。R/Dall 在 74%~100% 范圍內,其中 6 篇系統評價的 R/Dall 值為 100%,R/Dall 整體值為 91%,說明 Google Scholar 檢索能夠滿足系統評級檢索準確性。R/Dselect 最小值為 0.10%,最大值為 17.8%,R/Dselect 整體值為 4.7%,說明檢索敏感性較低。但由于研究方法設計沒有考慮到 Google Scholar 對相關文獻的排序,所以本研究得到的 R/Dselect 低于實際值。系統評價檢索式字符長度(Lr)為 141 到 1 800 字符之間,中位數為 810 個字符,修訂后適合 Google Scholar 檢索的表達式長度(Lg)為 93~220 個字符之間,中位數為 180 個字符,系統評價檢索式字符長度和修訂后適合 Google Scholar 檢索的表達式長度(Lr/Lg)比值范圍為 0.09~0.37,平均值為 0.2。
5 資源發現系統檢索工具
近年來各高校圖書館為了提高資源利用率和用戶體驗,紛紛引進了資源發現系統,國內引進的資源發現系統主要為 Primo、EDS、Summon、Worldcat Local 四種系統。資源發現系統和 Google Scholar 類似,都為用戶提供了一站式檢索各種筒倉數據的功能。但資源發現系統在某些方面優于 Google Scholar,如沒有 256 個字符限制,提供了類似于學術數據庫的高級搜索、方面搜索等,檢索功能更接近傳統的學術數據庫。本節采用了以上類似方法評價資源發現系統是否能單獨作為系統評價的檢索工具,方法學部分同上。
由于不同單位采用的發現系統不同,且使用相同的發現系統的不同單位,其資源配置也不同,導致收錄范圍和最終檢索結果都不同,故本研究僅評價了西安交通大學圖書館的 Summon 資源發現系統。
檢索同樣的 10 篇系統評價納入的 340 個研究,發現系統檢索到的結果在 2 200~7 800 篇之間,共計 4 700 篇。R/Dall 在 75%~100% 范圍內,其中 4 篇系統評價的 R/Dall 值為 100%,R/Dall 整體值為 76%,資源發現系統檢索能夠滿足系統評價的檢索準確性。R/Dselect 最小值為 0.20%,最大值為 31%,R/Dselect 整體值為 12%,該值雖然高于 Google Scholar,但和系統評價要求的檢索敏感性還有很大的差距。系統評價檢索式字符長度(Lr)為 141 到 1 800 字符之間,中位數為 810 個字符,修訂后適合資源發現系統檢索的表達式長度(Lg)為 93~310 個字符之間,中位數為 237 個字符,系統評價檢索式字符長度和修訂后適合資源發現系統檢索的表達式長度(Lr/ Lg)比值范圍為 0.13~0.48,平均值為 0.30。
6 小結
本文分析了系統評價檢索的敏感性和準確性,在進行系統評價時,應將布爾邏輯檢索和等級檢索結合起來,采用布爾邏輯檢索獲取相關文獻,利用等級檢索篩查相關文獻。建議進行字段和元數據搜索,而不需要進行全文檢索。因一站式檢索系統 Google Scholar 和資源發現系統能夠滿足檢索準確性,但敏感度較低,所以進行系統評價時,仍需進行傳統數據庫的檢索,而將一站式檢索系統 Google Scholar 和資源發現系統檢索作為補充。