加載指標

開放獲取

同行評議

研究文章

穀歌學者在證據評價中的作用及其在灰色文獻檢索中的適用性

尼爾·羅伯特·哈達威，

*電子郵件:neal_haddaway@hotmail.com

聯係MISTRA EviEM，瑞典皇家科學院，斯德哥爾摩，瑞典
⨯
亞曆山德拉·瑪麗·柯林斯，

從屬關係環境政策中心，帝國理工學院，英國倫敦，環境、食品和農村事務部，英國倫敦
⨯
Coughlin黛博拉,

從屬關係環境、食品和農村事務部，英國倫敦，帝國理工學院土木與環境工程係，英國倫敦
⨯
斯圖亞特·柯克

從屬關係英國倫敦環境、食品和農村事務部，英國倫敦環境局
⨯

穀歌學者在證據評價中的作用及其在灰色文獻檢索中的適用性

尼爾·羅伯特·哈達威，
亞曆山德拉·瑪麗·柯林斯，
Coughlin黛博拉,
斯圖亞特·柯克

發布日期:2015年9月17日
https://doi.org/10.1371/journal.pone.0138237

數據

摘要

穀歌Scholar (GS)是一個常用的基於網絡的學術搜索引擎，收錄了2億到1億份學術和灰色文獻(未由商業學術出版商正式發表的文章)的記錄。穀歌Scholar整理來自互聯網的結果，並且可以免費使用。因此，它作為一種搜索文獻的方法，特別是在搜索灰色文獻時，受到了相當大的關注，這是係統綜述所要求的。然而，對GS作為獨立資源的依賴一直存在很大的爭議，其在灰色文獻檢索中的有效性尚未得到調查。利用來自環境科學的係統評價案例研究，我們調查了GS在係統評價和灰色文獻搜索中的效用。我們的研究結果表明，GS結果包含適量的灰色文獻，大多數平均在第80頁。我們還發現，當具體搜索時，大多數使用Web of Science識別的文獻也可以使用GS找到。然而，我們的研究結果顯示，當在Web of Science和GS中使用相似的搜索字符串時，結果的重疊程度中等/較差(10-67%)，並且在6個案例研究中，GS遺漏了5個重要的文獻。此外，一般的GS搜索未能從涉及手動搜索組織網站的案例研究中找到任何灰色文獻。如果用於灰色文獻的係統評價，我們建議對文章標題的搜索集中在前200到300個結果上。 We conclude that whilst Google Scholar can find much grey literature and specific, known studies, it should not be used alone for systematic review searches. Rather, it forms a powerful addition to other traditional search methods. In addition, we advocate the use of tools to transparently document and catalogue GS search results to maintain high levels of transparency and the ability to be updated, critical to systematic reviews.

引用:Haddaway NR, Collins AM, Coughlin D, Kirk S(2015)穀歌學者在證據評價中的作用及其在灰色文獻檢索中的適用性。PLoS ONE 10(9): e0138237。https://doi.org/10.1371/journal.pone.0138237

編輯器:K. Brad Wray，紐約州立大學，奧斯威戈，美國

收到:2015年6月23日;接受:2015年8月26日;發表:2015年9月17日

數據可用性:所有相關數據都在論文及其支持信息文件中。

資助:AMC承認由自然環境研究委員會、英國環境、食品和農村事務部以及環境署資助的政策安置獎學金。該項目的一些想法是由即將到來的Defra研究項目(WT1552)提出的。NH在班戈大學(http://www.bangor.ac.uk/)。

利益衝突:作者宣稱不存在競爭利益。

介紹

搜索信息是研究的一個組成部分。超過11500種期刊被期刊引用報告(http://thomsonreuters.com/journal-citation-reports/)，發表的科學研究的數量也在以不斷增長的速度增長[1，2]。科學家必須篩選這些信息來找到相關的研究，而今天最常用的方法是使用在線引文數據庫(例如Web of Science)和搜索引擎(例如b穀歌Scholar)。正如學術文章和期刊的數量在穩步增長一樣，引文數據庫的數量也在穩步增長。

引文數據庫是一組引文，可以使用在線工具進行檢索，例如Web of Science (https://webofknowledge.com/)。這些數據庫通常收取訪問數據庫的訂閱費，但不包括訪問研究文章全文本身的費用。一般來說，這些數據庫根據預先定義的期刊、出版商或主題領域有選擇地對引文進行編目。最近出現了一些免費的互聯網引文搜索服務，最著名的是穀歌Scholar和微軟學術搜索。這些搜索引擎不將引文存儲在特定的數據庫中，而是定期在互聯網上“爬行”，尋找似乎是引文的信息。對數據庫和搜索引擎的一些關鍵特性進行了比較表1。

下載:

表1。學術引文數據庫與搜索引擎的典型特征。

https://doi.org/10.1371/journal.pone.0138237.t001

據湯森路透稱，Web of Science核心館藏引文數據庫包含近5000萬條研究記錄(http://wokinfo.com/citationconnection/realfacts/;截至2013年1月，微軟學術搜索報告目錄超過4500萬條記錄(http://academic.research.microsoft.com/About/help.htm#9)。b穀歌Scholar沒有報告通過他們的搜索工具可識別的引用量，盡管有人試圖估計這一數字表明在180萬[3.]及1億條紀錄[4]是可識別的。

“灰色文獻”是用來描述非商業出版商出版的文獻的術語，它可能構成證據審查的重要組成部分，如係統審查和係統地圖[5]，快速證據評估[6]和synoses [7]。灰色文獻包括學術論文、組織報告、政府文件等，盡管不像傳統學術文獻那樣正式發表，但在綜合研究中可能具有很高的影響力。[8]。在係統評價中，通常需要相當大的努力來搜索灰色文獻，試圖包括從業者持有的數據，並考慮可能的情況發表偏倚［5，9]。發表偏倚是指顯著的、積極的研究比不顯著的或消極的研究更容易發表的趨勢，導致在薈萃分析和其他綜合研究中高估效應量的可能性增加[10]。納入灰色文獻是係統評價方法的核心原則，其目的是納入所有可用的文獻證據並減少對偏倚的易感性。

學術引文數據庫通常是研究人員尋找信息的第一站。然而，訪問數據庫通常是昂貴的;有些項目每年花費10萬英鎊，適用於員工人數不超過100人的組織。越來越多的研究人員使用學術引文搜索引擎來查找信息(Haddaway，未發表的數據)。學術引文搜索引擎似乎是昂貴的引文數據庫的另一種有吸引力的選擇，它幾乎可以立即對研究進行編目，而且不局限於某些期刊、出版商或主題類別。搜索引擎對係統審稿人特別有吸引力，因為它們有可能被用來快速而簡單地搜索灰色文獻，而不是使用過多的單個網站[5]。

關於b穀歌Scholar作為一種學術資源的效用，目前正在進行辯論，例如[11，12]，但也可以作為傳統學術引文數據庫的替代品，以及在係統綜述中搜索灰色文獻[13，14]。穀歌Scholar對研究人員來說是一個有吸引力的資源，因為它是免費使用的，似乎對大量的學術文章進行了編目，允許單獨導出引文，並且還提供引文跟蹤(盡管參見Delgado Lopez-Cozar等人對引文跟蹤的批評)。15])。b穀歌Scholar在係統評論中也有潛在的用途，因為隻依賴一個這樣的搜索平台將:i)提供資源效率，ii)提供成本效率，iii)允許快速鏈接到全文，iv)提供對大量灰色文獻和學術文獻的訪問，v)與批量下載引文的新方法兼容，這將允許一個非常透明的搜索方法[16]。

先前的研究表明，在係統綜述中識別的文章可以使用穀歌Scholar [13]。然而，其他作者認為，這並不能使穀歌Scholar成為學術引文數據庫的適當替代品，因為在實踐中，與學術數據庫相比，穀歌Scholar的搜索工具存在相當大的局限性[11]，關於b穀歌Scholar在研究中的地位的爭論正在進行中[12]。舒爾茨(17]列出了許多歸因於b穀歌Scholar的限製，包括該服務隻允許在搜索字符串中使用基本的布爾運算符，限製為256個字符，並且用戶不能對結果進行排序(盡管在最近的更新中已經糾正了其他一些被引用的缺點)。在學術搜索中使用b穀歌Scholar的另外兩個限製是無法直接將結果批量導出為引用(盡管在設定的時間段內可以提取有限數量的單個引用)，並且隻顯示前1000條搜索記錄，而沒有詳細說明它們的排序方式。

基於網絡的學術搜索引擎，如b穀歌Scholar，經常用於二次綜合(即文獻綜述、元分析和係統綜述)。係統評審通常在b穀歌Scholar中篩選前50至100條搜索記錄，例如[18，19，20.]，有時將搜索限製為標題而不是全文搜索，例如[21]。然而，這些活動本身並沒有證據。很少有人知道這些結果是如何排序的，或者搜索結果中傳統學術文獻相對於灰色文獻的比例是多少。此外，這種小程度的篩選(50到100條記錄)是通過其他來源(通常是成千上萬條記錄)找到的文獻數量的非常小的比例。

穀歌Scholar在最近的迭代中有了很大的改進;從早期對該服務的批評中可以看出，學術引文數據庫引用的問題已經不複存在，例如[22，23]。雖然近年來關於b穀歌Scholar在學術活動中的實用性的爭論一直在繼續，但該服務的一些改進提供了明確的實用性;例如，Shariff等人。[24發現b穀歌Scholar提供的免費文章幾乎是PubMed的三倍(分別為14%和5%)。

係統評價指南中關於分配更多資源使用學術搜索引擎(如b穀歌Scholar)的任何建議，都應基於這樣的認識，即這些資源是值得的，學術搜索引擎提供了有意義的證據來源，而不是浪費精力。

在這裏，我們描述了一項研究，調查使用穀歌Scholar作為研究文獻的來源，以幫助回答以下問題:

b穀歌學者搜索結果中，學術文獻占多大比例，灰色文獻占多大比例，不同主題之間有何差異?
從b穀歌Scholar獲得的結果與Web of Science獲得的結果有多少重疊?
b穀歌Scholar和Web of Science搜索結果中有多少比例是重複的是什麼導致了這種重複？
僅使用穀歌Scholar是否可以識別以前環境係統評價中包含的文章?
b穀歌Scholar是一種有效的方法，可以找到相對於手工搜索組織網站的灰色文獻嗎?

方法

7篇已發表的係統綜述被用作案例研究[20.，25，26，27，28，29，30.)(見表2)。之所以選擇這些評論，是因為它們涵蓋了環境管理和保護方麵的各種主題，並包括與公共衛生、社會科學和分子生物學有關的跨學科要素。灰色文獻的重要性和類型因學科而異，對灰色文獻搜索工具的效用進行任何評估，主題的多樣性是必要的。本文使用的搜索字符串要麼直接取自每個係統綜述方法中穀歌Scholar中使用的字符串，要麼基於該綜述的學術搜索字符串，其中穀歌Scholar最初並未被搜索。b穀歌Scholar中的搜索結果是在“全文”(即搜索每個文檔的整個全文以搜索指定的術語)和“標題”(即僅搜索每個文檔的標題以搜索指定的術語)級別使用高級搜索功能執行的(參見https://scholar.google.se/intl/en/scholar/help.html#searching有關詳情)。搜索包括專利和引文。由於b穀歌Scholar最多顯示1000個搜索結果，這是使用下麵描述的專門開發的方法可以提取的最大引用數。

下載:

表2。作為案例研究的係統評論(SRs)及其搜索字符串(以及對WoS搜索字符串的修改，這些修改是穀歌Scholar高級搜索工具中必要的，如劃線文本所示)。

搜索於2015年2月6日進行。Web of Science包括以下數據庫，作為MISTRA EviEM訂閱的一部分;kci -韓國期刊數據庫、SciELO引文索引和Web of Sciences核心館藏。

https://doi.org/10.1371/journal.pone.0138237.t002

1.b穀歌學者搜索結果中灰色文獻的比例是多少?

下載管理器(DownThemAll!;http://www.downthemall.net)及網頁搜集程式(Import.io;http://www.import.io)下載每一頁的搜索結果(最多100頁;1000個結果)，然後將引用作為模式數據從本地存儲的HTML文件提取到數據庫中。為這7篇係統綜述中的每一篇創建了兩個數據庫(一個用於標題搜索，另一個用於全文搜索)，每個數據庫最多可容納1,000穀歌次學者引用(見S1文件)。

輸出的引文被NRH和AMC評估並歸類為以下類型的文獻之一:

“黑”——發表在學術期刊上的同行評議文章
“書”——由商業出版商出版的專著或全集
“圖書章節”——商業出版商出版的圖書中的章節
“專利”是指在美國專利商標局(USPTO)注冊的專利和專利申請
“論文”-研究生學位(碩士和博士)的學位論文
“會議”-會議、工作坊、會議、代表大會、專題討論會和學術討論會的報告、摘要、海報和論文集
“其他”-所有其他可能或不可能經過同行評議的文獻，包括;報告、工作底稿、自行出版的書籍等。
“不明確”-任何不能按照上述分類進行分類的搜索記錄(如果由於信息有限無法達成共識，則審稿人討論了模棱兩可的引用，並將其歸類為“不明確”)。

書籍章節是書籍的一個子類別，但為了更加清晰而被分開。選擇這些類別是因為它們反映了Web of Science(“黑色”文獻)和穀歌Scholar(所有文獻)返回的信息類型。這些類別還反映了根據引文中的信息和任何相關描述可能出現的緊急分類。

對於每種搜索類型(標題或全文)，在每頁結果中總結了搜索結果中文獻類型的比例，以評估這些類型在結果中的相對位置。

2.b穀歌Scholar和Web of Science之間有多少重疊?

在穀歌Scholar和Web of Science(2015年1月25日)中對7個係統綜述案例進行標題和全文檢索，並提取引文記錄(Web of Science的所有記錄或穀歌Scholar的前1000條記錄)。沒有提取SR4的全文搜索結果，因為返回了超過47,000條記錄，這對於本次評估來說過於龐大。然後使用下麵描述的Excel模糊重複識別插件對搜索結果進行比較，以調查Web of Science與前1,000 b穀歌Scholar搜索結果之間的重疊程度。

3.b穀歌Scholar和Web of Science的搜索結果中有多少比例是重複的?是什麼導致了這種重複?

重複記錄是指對同一篇文章的多次引用。它們在搜索結果中是不利的，因為它們不代表真正唯一的記錄，並且需要時間和資源進行處理。重複也會導致對搜索結果大小的錯誤估計:根據重複的程度，可能與搜索結果的真實大小有很大的偏差。上述7個案例研究係統評價中的14個數據庫使用Excel模糊重複查找插件(https://www.ablebits.com/excel-find-similar/)設置查找最多10個字符的記錄標題之間的差異。然後人工評估潛在的重複，並記錄重複的原因(例如拚寫錯誤或語法差異)。

使用Web of Science進行搜索(使用班戈大學的訂閱，包括Biological Abstracts, MEDLINE, SciELO, Web of Science核心館藏和Zoological Record)，使用與b穀歌Scholar中上述案例研究相同的7個搜索字符串進行主題詞搜索。前1000個搜索結果被提取出來，並使用上麵描述的模糊重複查找器評估標題的重複。檢索結果按相關性和出版日期排序(最新的優先)提取，但SR2、SR5和SR7除外，總共分別獲得230條、1,058條和1,071條記錄(全部返回)。

4.以前的環境係統評價中包含的文章是否可以使用穀歌Scholar識別?

為了檢查b穀歌Scholar與環境管理係統綜述中納入的研究的覆蓋範圍，在全文評估後的納入文章列表摘自六篇綜述(其中四篇綜述描述於表2;SR1、SR4、SR5、SR6和另外兩篇綜述;［8，31])，並使用穀歌Scholar搜索每條記錄的標題。b穀歌Scholar中包含引文的選項被選中。如果不能立即找到標題，則使用引號，然後在可能的印刷錯誤或標點符號變化可能導致找不到記錄的情況下部分刪除標題。如果記錄被確定為引用(例如b穀歌Scholar在另一篇文章的參考文獻列表中發現了參考文獻)，也會記錄這一點。此外，從三個係統綜述(SR1, SR4, SR6)的最終收錄文章列表中檢索參考文獻，如上b穀歌Scholar所述。

5.穀歌Scholar是一種有效的方法，可以從組織網站的手動搜索中找到灰色文獻嗎?

對於另一個係統綜述搜索字符串(SR5)，表2)在已發表的綜述中搜索灰色文獻時確定的84篇文章[28]從16個機構網站下載(見S1表)用於測試穀歌Scholar使用單個搜索字符串查找相關灰色文獻的能力。將84篇文章與b穀歌Scholar中導出的標題和全文搜索結果進行比對(參見方法上文第1節)。這84篇文章隨後在b穀歌Scholar中被單獨篩選，以評估它們是否被包含在搜索引擎的覆蓋範圍內。

結果

1.b穀歌學者搜索結果中有多少比例是灰色文獻

b穀歌Scholar中8% - 39%的全文搜索結果被歸類為灰色文獻(平均值±SD: 19%±11)，8% - 64%的標題搜索結果(40%±17)被歸類為灰色文獻。圖1按灰色文獻類別顯示搜索結果，標題搜索結果中灰色文獻比學術文獻的比例(43.0%)比全文搜索結果(18.9%)高。與全文檢索相比，會議論文集、論文和“其他”灰色文獻(即報告和白皮書)在標題檢索中占灰色文獻的比例增加。在所有案例研究中，論文在全文搜索結果中所占比例特別小(1.3%)，但在標題搜索結果中所占比例較大(6.4%)。同樣，會議論文集在全文搜索結果中的出現頻率(3.2%)低於標題搜索結果(15.3%)。在全文和標題搜索中，專利、圖書章節和圖書的比例相似(分別為0.2和0.3;1.7和2.5;分別為4.2%和2.8%)。

下載:

圖1所示。7個案例研究按文獻類型分類的學者搜索結果占總數的比例(見表2參閱SR代碼的說明)。

https://doi.org/10.1371/journal.pone.0138237.g001

當檢查文獻類別在搜索結果中的位置時(參見S1無花果)出現了幾種模式。灰色文獻內容的“峰值”(即搜索結果中每頁灰色文獻數量最高的點，以及發現大量灰色文獻的地方)平均出現在全文結果的第80頁(±15 (SD))，而標題結果的“峰值”出現在第35頁(±25 (SD))。在這些點之前，在搜索結果中灰色文獻的含量相對較低。對於大多數案例研究來說，直到第20到30頁，灰色文獻才構成搜索結果每頁的大部分。

2.b穀歌Scholar和Web of Science之間有多少重疊?

b穀歌Scholar顯示了與Web of Science標題搜索的適度重疊:這種重疊範圍從Web of Science的總結果的10%到67% (表3)。研究對象之間的重疊度差異很大，海洋保護區的有效性和陸地保護區的社會經濟影響的重疊度最低(分別為17.1%和10.3%)。兩個案例研究標題搜索返回的結果超過穀歌Scholar (SR1和SR4)中1,000個搜索結果的可見限製，因此隻能提取前1,000個。

下載:

表3。Web of Science (WoS)和b穀歌Scholar (GS)在Web of Science中的標題搜索和穀歌Scholar中標題搜索的前1000個搜索結果之間的重疊。

看到表2對於案例研究的解釋。

https://doi.org/10.1371/journal.pone.0138237.t003

b穀歌Scholar的全文搜索結果與Web of Science的搜索結果重疊程度較低(表4)，占Web of Science總結果的0.2%到19.8%不等。

下載:

表4。Web of Science (WoS)和穀歌Scholar (GS)在Web of Science的主題詞搜索和穀歌Scholar全文搜索的前1000個搜索結果之間的重疊。

N /a對應於搜索結果太大，無法全部下載。看到表2對於案例研究的解釋。

https://doi.org/10.1371/journal.pone.0138237.t004

3.b穀歌Scholar和Web of Science的搜索結果中有多少比例是重複的?這些重複是如何產生的?

b穀歌Scholar和Web of Science的重複率(即重複記錄占總結果的百分比)顯示在表5範圍從0.00到2.93%。穀歌Scholar的重複率遠高於Web of Science，穀歌Scholar的標題搜索率遠高於全文搜索率(表6)，盡管這在7個案例研究中差異很大(1.0%至4.8%)。

下載:

表5所示。b穀歌Scholar和Web of Science使用7個案例研究係統綜述搜索字符串進行標題級、主題詞和全文搜索的重複率(重複結果占總結果的比例)。

括號內的數字對應於個別案例研究重複率的標準偏差。樣本大小指總的搜索記錄數目，其次是獨立的搜索字符串數目(即調查的個案研究數目)。

https://doi.org/10.1371/journal.pone.0138237.t005

下載:

表6所示。b穀歌Scholar和Web of Science在7個案例研究中搜索的重複率(重複結果占總結果的比例)。

對最多1,000個搜索記錄(或總數少於1,300個)的重複率進行評估。對於Web of Science，全文結果按出版日期(最新的優先)和相關性排序，其中返回了1000多個結果。數字是重複率(%)後跟括號中的總搜索記錄。

https://doi.org/10.1371/journal.pone.0138237.t006

重複出現的原因似乎有很多。首先，在b穀歌Scholar(占標題記錄的15%)和Web of Science中都發現了人工抄寫引起的印刷錯誤。例如，來自Web of Science的唯一一個重複的例子是以下標題中兩個記錄的不同之處，隻是“Goukamma”(或Goukarmma)這個詞的拚寫不同:“改變Goukamma海洋保護區的向海邊界可以增加保護和漁業利益”。格式和標點符號的差異是排版錯誤的一個子集，相當於18%的標題級重複。其次，資本化導致b穀歌學者的重複，並負責36%的標題級重複。第三，不完整的標題(即一些缺失的單詞)占標題水平重複的15%。第四，自動文本檢測(即，當掃描文檔數字化時)負責3%的標題級別重複。第五，b穀歌Scholar還會掃描所選文獻的參考文獻中的引文，這些引文和原始文章本身的存在導致了13%的標題級重複。

4.以前的環境係統評價中包含的文章是否可以使用穀歌Scholar識別?

六個已發表的係統評價案例研究中的許多文章都是在b穀歌Scholar (表7)。然而，一篇綜述中相當大比例的研究[31]在穀歌Scholar中未被發現(31.5%)。其他綜述的最佳代表是b穀歌學者覆蓋率(94.3 - 100%的研究)。隻有一篇綜述的收錄文章列表被b穀歌Scholar完全覆蓋，這篇綜述的證據基礎最小，隻有37項研究[31]。對於那些沒有被b穀歌Scholar識別的研究，我們在Web of Science (表7)，這表明其中一些研究(來自2個案例研究綜述的6項研究)被Web of Science收錄。

下載:

表7所示。b穀歌Scholar能夠從六篇已發表的係統評論中找到包含的文章。

被識別為引用的記錄隻能在其他文章的參考列表中找到(與超鏈接引用不同，它們的存在不能通過出版商版本或全文文章的存在來驗證)。

https://doi.org/10.1371/journal.pone.0138237.t007

穀歌僅作為引用(即從其他搜索結果的參考列表中獲得)的學者搜索結果占已識別結果的0 - 15.2%。引用通常不會指向提供額外信息的網頁，因此無法由用戶手動驗證。

當專門搜索單個文章時，b穀歌Scholar收錄的文章比例高於Web of Science(穀歌Scholar占總數的百分比/ Web of Science占總數的百分比:SR1, 98.3/96.7;SR4 94.3/83.9;SR6, 99.4/89.7)。

5.穀歌Scholar是一種有效的方法，可以從組織網站的手動搜索中找到灰色文獻嗎?

SR5鑒定出的84篇灰色文獻[28]在導出的b穀歌Scholar搜索結果中找到(標題搜索的68條記錄和全文搜索的49,700條記錄中的1,000條)。然而，當搜索84篇文章中的61篇時，b穀歌Scholar找到了。

討論

本文旨在探討穀歌Scholar在係統文獻綜述和其他文獻綜述中搜索學術文獻和灰色文獻中的作用。b穀歌Scholar由於其免費使用的界麵，明顯的全麵性而引起了很多人的興趣。[11，12，13，14]，並在係統檢討中應用[16]。然而，先前的研究對該服務是否可以作為一個獨立的資源，例如。[11，12]。我們的研究建議使用穀歌Scholar係統地搜索學術文獻和灰色文獻，特別是在係統綜述中。

1.b穀歌學者搜索結果中灰色文獻的比例是多少?

我們的研究結果表明，穀歌Scholar確實是一個搜索環境科學灰色文獻的有用平台，這將有利於係統審稿人等研究人員，同意以前的醫學研究[32，33]。我們的調查還表明，標題搜索比全文搜索返回更多的灰色文獻(分別為43%和19%)，略高於之前在b穀歌Scholar早期版本中單獨進行全文搜索的調查(占總結果的13%;［17])。穀歌Scholar返回的灰色文獻可能會被一些人視為不利的，因為它被認為缺乏驗證(通過正式的學術同行評審)，特別是在研究人員尋找純傳統學術證據的情況下。然而，對於那些從學術和灰色文獻領域尋求證據的人來說，這可能特別有用;例如，那些希望最小化發表偏倚風險(學術出版物中重要研究的過度代表性)的人[34])。

我們發現，在標題搜索中，灰色文獻的最大搜索量出現在第35頁左右。這一發現表明，使用穀歌Scholar作為灰色文獻來源的研究人員，包括係統審稿人，應該修改當前搜索前50-100個結果(5-10頁)的常見做法，以支持更廣泛的搜索，進一步查看返回的記錄。相反，那些希望使用標題搜索純學術文獻的人應該關注前300個結果，以減少灰色文獻在搜索結果中的比例。

本文研究的7個係統綜述案例研究中返回的灰色文獻主要由“其他”灰色文獻和會議記錄組成;即白皮書和組織報告。報告和白皮書可能對二次綜合特別有用，因為它們可能經常代表政策和實踐決策者委托的資源。會議論文集通常代表未在商業學術期刊上正式發表的學術作品:此類文章也可能為審稿人，特別是係統審稿人提供有用的證據。學術論文在b穀歌Scholar的標題搜索中更常見，而書籍在全文搜索中更常見。論文可以提供灰色文獻的重要來源[35，這些研究從未通過學術出版物進入公共領域。值得注意的是，雖然學術同行評議並不能保證嚴謹，但未經過正式學術同行評議的研究在納入係統評議等綜合研究之前，應仔細評估[5]。穀歌Scholar因此可能被證明是除了專門的論文數據庫之外的有用資源(例如DART-Europe;http://www.dart-europe.eu/basic-search.php)和其他灰色文獻庫(例如procedingsfirst;https://www.oclc.org/support/services/firstsearch/documentation/dbdetails/details/Proceeding.en.html)。

2.b穀歌Scholar和Web of Science之間有多少重疊?

令人驚訝的是，我們發現穀歌Scholar和Web of Science之間的重疊相對較少(10-67%的WoS結果是使用標題搜索在穀歌Scholar中搜索得到的)。對於最大的結果集(SR4)，在穀歌Scholar的可查看結果中隻返回17%的WoS記錄(僅限於前1000條記錄)。然而，在穀歌Scholar中返回的實際結果數是4,310，由於穀歌Scholar的限製，隻有前1,000個結果是可見的。假設在這些結果中重疊研究的分布是均勻的，我們可能期望總的覆蓋率為適度的73%(通過從前1000條到全部4,310條搜索記錄應用一致的17%的比率來計算)。穀歌Scholar中可查看結果的限製使得當結果數量大於1000時無法對重疊進行評估。然而，案例研究SR1僅略微超過1,000項研究的可見限製，並確定了38%的重疊。

兩種服務之間相對較低的重疊表明穀歌Scholar並不是傳統學術搜索的合適替代品:雖然它的搜索結果比Web of Science要多，但是大多數Web of Science的搜索結果並不是由穀歌Scholar返回的。然而，穀歌Scholar是傳統數據庫搜索的一個有用的補充，因為每個案例研究都返回了大量不重疊的搜索記錄，潛在地增加了任何多數據庫搜索的覆蓋範圍，例如在係統評論中進行的搜索。

3.b穀歌Scholar和Web of Science的搜索結果中有多少比例是重複的?這些重複是如何產生的?

引文數據庫中的重複是不利的，因為它們代表了錯誤的記錄。雖然單個參考可能是正確的，但它在數據庫中的存在會增加結果的數量。在大量的參考文獻必須手工篩選的地方，如在係統審查中，重複也可能代表資源的浪費，因為它們不能自動檢測到。Web of Science的重複率很低(0-0.05%)，但b穀歌Scholar的重複率較高(1-5%)。b穀歌Scholar中的重複是由於格式、標點符號、大寫、不完整的記錄以及自動掃描和填充搜索記錄時的錯誤造成的。b穀歌Scholar搜索的敏感性是有代價的，因為相同的記錄被標識為唯一的引用。對於小規模的搜索來說，這可能不是什麼大問題，但是5%的重複率對於必須手動篩選成千上萬個標題的係統審查來說是一種資源浪費。

4.以前的環境係統評價中包含的文章是否可以使用穀歌Scholar識別?

Gehano等。[13]發現穀歌Scholar能夠從29個醫學係統綜述中識別出所有738篇文章，並得出結論，它可以作為係統綜述中的一個獨立資源，並指出“如果29個係統綜述的作者隻使用GS，就不會遺漏任何參考文獻”。正如其他研究人員所指出的[14]，這個結論是不正確的，因為找到特定的、已知的參考文獻的能力並不等同於使用搜索策略返回這些參考文獻的能力，就像在係統綜述中進行的那樣:最重要的是，相關的文章可能會在可查看的1000條記錄之外返回。朱斯蒂尼和布洛斯[14]發現係統評價中有5%的研究無法通過b穀歌Scholar的特定搜索來識別，而Boeker等人[11發現14項係統評價中多達34%的研究被遺漏。

b穀歌Scholar能夠在我們的調查中找到係統回顧案例研究中包含的許多現有文獻，並且在調查的三個案例研究中確實發現了比Web of Science更多的文獻。因此，穀歌Scholar提供了一個強大的工具來識別已知存在的文章(例如，在查找引文或訪問全文文檔時)。此外，搜索引擎還能夠識別大量潛在相關的灰色文獻。然而，穀歌Scholar根本沒有發現一些重要的證據(在一個案例研究中占31.5%)，這意味著如果僅僅依賴穀歌Scholar，該綜述可能會得出非常不同的結論。同樣，僅靠Web of Science不足以識別所有相關文獻。如上所述，穀歌Scholar可以在傳統的學術數據庫之外提供有用的證據來源，但它不應該被用作係統評價等證據收集活動的獨立資源。

5.穀歌Scholar是一種有效的方法，可以從組織網站的手動搜索中找到灰色文獻嗎?

b穀歌Scholar通過手動搜索組織網站(84篇文章中的61篇)，能夠識別出在一個案例研究中發現的大部分灰色文獻。然而，有23篇文章無法通過搜索引擎找到。此外，使用典型的係統評論式搜索字符串時，沒有返回找到的61篇文章。總之，這些因素表明穀歌Scholar是一個有用的資源，除了手工搜索組織網站，返回大量潛在的相關信息，但它不應該被用作灰色文獻搜索的獨立資源，因為一些重要的信息被遺漏了。按“係統檢討環境證據指引合作”的建議，手動檢索[5]，僅限於包含在一個先天的協議。穀歌Scholar詳盡地搜索互聯網上的研究，然而，雖然它可能比精細水平的手工搜索(即缺失的研究)更粗糙，但針對灰色文獻的穀歌Scholar搜索的增加將增加全麵性，而不會引起任何係統偏差的擔憂。但是，由於排序搜索結果的算法沒有公開，因此應該對相當大比例的搜索結果進行檢查。

其他的考慮

如上所述，穀歌Scholar中隻能查看前1000個搜索結果，並且沒有披露返回結果的順序。此外，“高級”搜索功能隻支持非常基本的布爾邏輯，隻接受一組“OR”或“AND”參數，而不是兩組參數。此外，下標和上標文本(例如帶有化學符號的文本)顯示和識別方式的變化意味著，當這些字符構成文章標題的一部分時，搜索過程中會出現不匹配的情況。最後，b穀歌Scholar對重複活動設置了較低的閾值，可以觸發對用戶IP地址的自動阻塞(根據我們的經驗，可以導出大約180個引用或180個單獨搜索)。值得慶幸的是，這可以很容易地繞過ip鏡像軟件，如Hola (https://hola.org/)，但在係統訪問穀歌Scholar時應小心，以確保不違反使用條款。

結論

我們提供的證據表明，穀歌Scholar是一個查找特定文獻的強大工具，但它不能取代傳統的學術引文數據庫，也不能取代手工搜索灰色文獻。顯示的搜索結果數量的限製、高級搜索工具的不完整布爾運算以及排序搜索結果的算法的不公開意味著穀歌Scholar不是一個透明的搜索工具。此外，穀歌Scholar遺漏的灰色文獻的比例很高，這意味著它不是一個可行的替代手工搜索灰色文獻作為一個獨立的工具。盡管如此，穀歌Scholar能夠識別出大量額外的灰色文獻，而不是傳統的學術引文數據庫或灰色文獻識別方法所能發現的。這些因素使穀歌Scholar成為手檢索的一個有吸引力的補充，進一步提高了證據檢索的全麵性。

我們還注意到，從穀歌Scholar獲取搜索結果快照並提取這些結果作為引用的工具的開發可以顯著提高使用穀歌Scholar的效率和透明度(即，超越目前許多係統評論中青睞的任意前50個搜索結果)。

對於那些希望使用穀歌Scholar作為研究證據資源的人，我們可以根據我們的發現提出以下建議:

1.發現@ b穀歌Scholar能夠識別係統綜述案例研究中所檢查的大多數證據，當專門搜索已知文章時。
建議穀歌Scholar是一個功能強大，免費使用的工具，如果你想尋找具體的研究，可以推薦給你。
2.發現當前位置:b穀歌Scholar無法識別係統評價案例研究中發現的所有相關證據，遺漏了一些重要信息(Web of Science也是如此)。
建議:穀歌Scholar(和Web of Science)不應被用作尋找證據的獨立資源，作為全麵搜索活動的一部分，例如係統評論。
3.發現:在b穀歌Scholar中使用標題搜索發現的灰色文獻比全文搜索發現的灰色文獻多得多。
推薦:如果尋找灰色文獻，審稿人應該考慮使用標題搜索。如果尋找學術文獻標題搜索將產生大量不合適的信息。
4.發現:標題級別的搜索會產生更多的會議記錄、論文和“其他”灰色文獻。
推薦:標題級別的查冊，在找出尚未發表的學術研究、灰色文獻、機構報告及政府文件時，可能特別有用[9］
5.發現:大多數灰色文獻在大約20到30頁的結果之後開始出現。
推薦:如果尋找灰色文獻，結果應該篩選遠遠超過20^th頁麵。

總之，我們發現穀歌學者是一個有用的補充搜索證據，特別是灰色文獻，隻要它的局限性是公認的。我們建議，對b穀歌Scholar的前50個搜索結果的任意評估(經常在係統評價中進行)應該被記錄所有可見搜索結果的快照(即前1000條記錄)的做法所取代。實踐中的這種變化可以顯著提高係統評價的透明度和覆蓋範圍，特別是關於它們的灰色文獻成分。

支持信息

S1無花果。穀歌按文獻類型分隔的學者搜索結果。

按頁麵搜索7個案例研究的結果(見表2用於描述)，用於a)全文和b)標題搜索。顯示的結果是穀歌Scholar中可提取記錄的總數。

https://doi.org/10.1371/journal.pone.0138237.s001

(XLSX)

S1文件。穀歌學者搜索結果。

數據庫b穀歌學者全文和標題搜索7個案例研究係統評論。

https://doi.org/10.1371/journal.pone.0138237.s002

(XLSX)

S1表。SR5的機構網站列表。

為係統檢討陸地保護區對人類福祉的影響而提供可能相關證據的機構名單。

https://doi.org/10.1371/journal.pone.0138237.s003

(多克斯)

致謝

作者希望感謝Helen Bayliss和Beth Hall對這一主題的討論。AMC承認由自然環境研究委員會、英國環境、食品和農村事務部以及環境署資助的政策安置獎學金。該項目的一些想法是由即將到來的Defra研究項目(WT1552)提出的。

作者的貢獻

構思和設計實驗:NH。進行實驗:NH AC。分析數據:NH。貢獻試劑/材料/分析工具:寫論文:NH AC DC SK。

參考文獻

1.馮英m。科學引文索引提供的科學出版物的增長率和覆蓋率的下降。科學計量學。2010;84:575 - 603。pmid: 20700371
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
2.生物子領域的出版物增長:模式、可預測性和可持續性。可持續性。2012;4:3234 - 3247。
- 觀點的文章
- 穀歌學者
3.Noorden房車。開放獲取:科學出版的真正成本。大自然。2013;495:426 - 429。pmid: 23538808
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
4.哈布薩M，賈爾斯CL。公共網絡上學術文獻的數量。PLOS ONE。2014; 9: e93949。pmid: 24817403
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
5.環境證據合作(CEE)環境管理中的係統審查和證據綜合指南。4.2版。2013.環境證據:www.environmentalevidence.org/Documents/Guidelines/Guidelines4.2.pdf
6.張建軍，張建軍，張建軍，等。基於gis的水證據快速評估方法研究。中國環境科學。2014:第2版。
7.保護的證據。方法。2015。可用:http://conservationevidence.com/site/page?view=methods。訪問2015年2月24日。
8.李建軍，張建軍，李建軍，等。浮遊和底棲魚類的減少對溫帶富營養化湖泊的水質有什麼影響?係統回顧。《妒忌》，2015;2:9。
- 觀點的文章
- 穀歌學者
9.哈達威NR，貝利斯HR。為生態綜合檢索數據:灰色地帶。生物大會，2015。
- 觀點的文章
- 穀歌學者
10.Jennions MD, Møller AP.生態學和進化中的發表偏倚:使用“修剪和填充”方法的實證評估。生物學報。2002;77:211-222。pmid: 12056747
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
11.Boeker M, Vach W, Motschall E.穀歌Scholar替代係統文獻檢索:良好的相對查全率和查準率是不夠的。中華醫學雜誌，2013;13(3):131。pmid: 24160679
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
12.De Winter j, Zadpoor a, dodoou D. b穀歌Scholar與Web of Science的縱向研究。科學計量學2014;98:1547 - 1565。
- 觀點的文章
- 穀歌學者
13.Gehanno JF, Rollin L, Darmoni S. b穀歌Scholar的覆蓋範圍是否足以單獨用於係統評價?中華醫學雜誌，2013;13:7。pmid: 23302542
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
14.Giustini D, Kamel Boulos MN。穀歌Scholar不足以單獨用於係統評價。公共衛生通報，2013;5:214。pmid: 23923099
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
15.Delgado López‐Cózar E, Robinson‐García N, Torres‐Salinas D.穀歌學者實驗:如何索引虛假論文和操縱文獻計量指標。信息科學學報，2014;35(5):444 - 444。
- 觀點的文章
- 穀歌學者
16.網絡抓取軟件在灰色文獻檢索中的應用。《格雷日記》。在出版社。
17.比較PubMed和b穀歌Scholar的測試搜索。醫學圖書館協會雜誌:JMLA。2007; 95:442 - 445。pmid: 17971893
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
18.Reed J, Deakin L, Sunderland T.什麼是“綜合景觀方法”，它們在熱帶地區的實施效果如何:一個係統的地圖協議。2015; 2。
- 觀點的文章
- 穀歌學者
19.Hughes KM, Kaiser MJ, Jennings S, McConnaughey RA, Pitcher R, Hilborn R，等。調查流動海底捕撈對底棲生物群的影響:一項係統審查方案。Env Evid. 2014;3:23。
- 觀點的文章
- 穀歌學者
20.Roe D, Fancourt M, Sandbrook C, Sibanda M, Giuliani A, Gordon-Maclean A.生物多樣性的組成或屬性對貧困的影響。嫉妒。2014;3:3。
- 觀點的文章
- 穀歌學者
21.Garcia-Yi J, Lapikanonth T, Vionita H, Vu H, Yang S, Zhong Y，等。轉基因作物在世界範圍內的社會經濟影響是什麼?一個係統的地圖協議。嫉妒。2014;3:24。
- 觀點的文章
- 穀歌學者
22.As we may search- Web of Science、Scopus和穀歌Scholar基於引文和引文增強數據庫的主要特征比較。當代科學。2005:89;1537。
- 觀點的文章
- 穀歌學者
23.Falagas ME, Pitsouni EI, Malietzis GA, Pappas G. PubMed, Scopus, web of science，穀歌scholar的比較:優勢與劣勢。美國實驗生物學學會聯合會。2008; 22:338 - 342。
- 觀點的文章
- 穀歌學者
24.Shariff SZ, Bejaimal SAD, Sontrop JM, Iansavichus AV, Haynes RB, Weir MA，等。檢索臨床證據:PubMed和穀歌Scholar快速臨床搜索的比較。[J] .中國醫學信息學報，2013;16(5):391 - 391。pmid: 23948488
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
25.Haddaway NR, Burden A, Evans CD, Healey JR, Jones DL, Dalrymple SE等。評估土地管理對北溫帶低地泥炭地係統溫室氣體通量和碳平衡的影響。嫉妒。2014;3:5。
- 觀點的文章
- 穀歌學者
26.Savilaakso S, Garcia C, Garcia- ulloa J, Ghazoul J, Groom M, Guariguata MR，等。油棕生產對生物多樣性影響的係統綜述。嫉妒。2014;3:1-21。
- 觀點的文章
- 穀歌學者
27.Sciberras M, Jenkins SR, Kaiser MJ, Hawkins SJ, Pullin AS。評估完全和部分受保護的海洋區域的生物有效性。生態學報。2013;21 - 31。
- 觀點的文章
- 穀歌學者
28.Pullin AS, Bangpan M, Dalrymple S, Dickson K, hadaway NR, Healey JR，等。陸地保護區對人類福祉的影響。生態學報。2013;2:19。
- 觀點的文章
- 穀歌學者
29.hadaway NR, Styles D, Pullin AS。高海拔/山區農田廢棄對環境影響的證據:係統地圖。嫉妒。2014;3:17。
- 觀點的文章
- 穀歌學者
30.Whitlock R, Stewart GB, Goodman SJ, Piertney SB, Butlin RK, Pullin AS，等。種群間近親繁殖的表型反應的係統綜述。《妒忌》，2013;2:13。
- 觀點的文章
- 穀歌學者
31.Bernes C, br
then KA, Forbes BC, Speed JDM, Moen J.馴鹿/北美馴鹿對北極和高山植被的影響?《妒忌》，2015;4:4。
- 觀點的文章
- 穀歌學者
32.銀行馬。穀歌學者的興奮，穀歌印刷品的擔憂。生物醫學雜誌。2005;2:2。pmid: 15784147
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
33.安德斯·梅，埃文斯·DP。PubMed和穀歌Scholar文獻檢索的比較。呼吸護理。2010;55:578-83。pmid: 20420728
- 觀點的文章
- PubMed / NCBI
- 穀歌學者
34.[J]。生態學薈萃分析中的統計問題。生態。1999;80:1142 - 1149。
- 觀點的文章
- 穀歌學者
35.哈達威NR，貝利斯HR。灰色的陰影:兩種形式的灰色文獻在保護評論中很重要。Conserv雜誌。
- 觀點的文章
- 穀歌學者

打印

主題領域
？

有關PLOS主題領域的更多信息，請單擊在這裏。
我們想要你的反饋。這些主題領域對本文有意義嗎?點擊錯誤主題區域旁邊的目標，讓我們知道。謝謝你的幫助!

數據庫搜索

是學科領域嗎?“數據庫搜索”適用於這篇文章嗎?

謝謝你的反饋。
係統評價

是學科領域嗎?“係統評價”適用於這篇文章嗎?

謝謝你的反饋。
引文分析

是學科領域嗎?“引文分析”適用於這篇文章嗎?

謝謝你的反饋。
文獻計量學

是學科領域嗎?“文獻計量學”適用於這篇文章嗎?

謝謝你的反饋。
信息檢索

是學科領域嗎?“信息檢索”適用於這篇文章嗎?

謝謝你的反饋。
環境保護科學

是學科領域嗎?“保護科學”適用於這篇文章嗎?

謝謝你的反饋。
生物多樣性

是學科領域嗎?“生物多樣性”適用於這篇文章嗎?

謝謝你的反饋。
互聯網

是學科領域嗎?“互聯網”適用於這篇文章嗎?

謝謝你的反饋。