評估預測算法
為了測試Rayyan的SVM分類器的質量,我們將上述特征用於發表在[16 ].在本研究中,為15個回顧主題分別構建了測試集合(表1)1 ),由俄勒岡州EPC、南加州EPC和三角研究所/北卡羅來納大學(RTI/UNC) EPC進行。對於每一篇評論,我們都知道所有的文章以及哪些被納入/排除。納入文獻比例為0.5 ~ 21.7%,最大的綜述包含3465篇研究,最小的綜述包含310篇。
表1 15項係統綜述納入和排除決策的統計情況[16 ]
使用雙重交叉驗證,50%的數據用於訓練,50%用於測試。這個過程重複十次,結果取平均值。兩個指標用於評估分類器的質量,AUC和WSS@95。當我們改變分類器使用的閾值時,通過繪製真陽性率與假陽性率的曲線圖來獲得ROC(受試者工作特征)曲線。AUC是指這條曲線下的麵積;1.0是滿分,0.5相當於隨機排序。在0.95召回率下測量的隨機抽樣所節省的功(WSS@95),在[16 ],指的是與隨機抽樣相比,由於被分類器以0.95的召回率篩選掉,審稿人無需審閱的研究的百分比。文本\ ({\ {WSS}} = \壓裂{{\文本{TN}} +{\文本{FN}}} {N} -(1 -{\文本{回憶}})\) 其中TN為真陰性數,FN為假陰性數,N 是數據集中的實例總數。回憶是指對陽性類(包括研究)的回憶。AUC=0.87±0.09,WSS@95=0.49±0.18。49%的結果很重要,因為它表明Rayyan可以幫助節省使用自動預測的時間。雖然這些結果說明了預測功能節省了可觀的時間,但重要的是要記住,Rayyan提供了更多的時間節省,因為所有方麵、過濾功能和視覺線索都有助於加快篩選過程。
中試Rayyan
試點測試需要對應用程序內置的兩個特定功能進行早期評估。在考慮進一步開發之前,在一開始就至關重要的是,評估Rayyan與Cochrane文獻中使用的人工方法進行直接比較的準確性。同樣重要的是,在開發過程的這個階段,有必要向開發人員提供“預測”特性的潛在附加好處的早期概述。
2013年12月,兩篇由采埃孚撰寫和發表的Cochrane評論被用於應用程序的初始測試[17 ,18 ].這兩篇綜述的搜索結果以Word文檔的形式提供了273篇和1030篇個人研究的參考文獻。由於這些係統綜述已經發表,因此納入和排除研究的最終選擇之前是使用“手動”方法(MS Word文檔中的電子高亮標記)進行的,選擇過程的綜合結果已在已發表的Cochrane綜述中報告。在整個選擇過程的每個階段,包括排除的原因以及作者之間的協議和分歧,都在MS Word文檔中進行了注釋,並在已發表的Cochrane綜述中的PRISMA流程圖中報告了關鍵細節。
測試階段開始於開發人員(HH/MO)在Rayyan中為每個Cochrane評論創建單獨的文件夾,然後上傳每個評論的相應搜索。開發人員(HH)向測試人員(ZF)提供了訪問網站的權限(用戶名/密碼)以及應用程序功能的介紹。雖然測試人員已經知道了選擇過程的“結果”,因此從技術上講,實驗並不是“盲目的”,但在這個階段熟悉搜索和結果可以快速了解應用程序的外觀和感覺,並使測試人員能夠對應用程序的功能進行早期評論,然後由開發團隊主動解決。
第一個和較小的“測試”Cochrane係統評價(273條記錄)最近更新了,新的搜索和確定的研究已經包含在最新版本的Cochrane評論中。這些對更新的額外搜索隨後被上傳到Rayyan,在對前一批搜索進行預測試後,這些組合搜索將受到應用程序的進一步評估。Cochrane係統評價主要用作“試吃”,讓測試者熟悉應用程序,並允許探索使用包括/排除/不確定“按鈕”識別、選擇和標記個別參考文獻的選項,並在適當的情況下進一步注釋排除的原因。在早期開發階段,測試人員和用戶做出的所有臨時響應和評論都通過應用程序中的“發送消息”功能實時傳輸,這樣這些請求就可以由開發人員同時執行,然後由測試人員作為迭代過程的一部分進一步重新評估。
Rayyan應用程序在第二次Cochrane綜述(1030條記錄)上的測試需要幾次嚐試,以確定Cochrane綜述作者在進行係統綜述過程中使用“手動”方法先前選擇的11項試驗。這部分測試階段被證明是更實質性的,因為引用的數量更多,也因為它試圖評估預測特征的附加價值,即“建議”和“提示”。基於文本和措辭的近乎匹配的相似性,這些引用被評為星級(1至5星),並作為潛在的合格研究提供給測試者進行進一步考慮,期望這將有助於加快選擇過程。
測試人員的評論
測試人員最初的評論表明,總的來說,應用程序相對容易使用,易於導航,直觀,不需要“幫助”功能。然而,這個選項是作為一個可能的附加功能進行討論的,但它將受到更多用戶對Rayyan應用程序的進一步“獨立”和更廣泛的測試。
測試人員確定了許多關鍵的積極特性,實際上,在開發過程的早期階段,一些領域需要額外的關注。特別提到了“未確定/包括/排除”選擇選項的即時可見性,它們是一鍵可用的,允許快速標記研究,這些選擇清楚地顯示,易於訪問,並在選擇時立即響應。特別提到了下拉選項在“原因”(見圖。5 ),允許選擇一個或多個通用和常用的排除研究的原因,即“錯誤的人群/錯誤的出版物類型/錯誤的研究設計”,但能夠在現有的預定義列表中添加其他“自我生成”的原因。通過納入決定或合作作者做出決定篩選參考文獻的能力,提供了對研究資格方麵潛在分歧的瞬時概述,這些分歧可以隨後進行討論和解決(見圖2)。6 ).當研究被排除或包括時,快速可視化累積總數的能力,以及可以用作限製符的標記研究的文字顯示被認為是附加價值函數。專題總結詞“雲”也被注意到,因為它提供了一個非常實用和圖形化的指示,顯示了由關鍵詞確定的研究總數,以及與“雲”一詞中的文本字體大小相關的研究數量。
如果研究摘要是以綜述作者的母語以外的語言發表的,那麼在評估納入研究之前翻譯這些摘要是必要的。Rayyan的一個獨特功能包括,可以將應用程序中特定參考文獻的鏈接直接轉發給選定的翻譯人員,翻譯人員可以翻譯文本或摘要的部分,並在應用程序中直接將翻譯粘貼在研究參考文獻的下方。在最初的測試階段,還強調了能夠在Rayyan內部或從Rayyan直接完成這一操作的便利性和好處。在早期測試階段還注意到,一些引用的引文不完整,在某些情況下,細節被一係列問號所取代。開發人員檢查了這個錯誤,認為是由於文件上傳到Rayyan時格式錯誤引起的,這個錯誤很容易識別,而且通常沒有代表大量的引用。
來自用戶的推薦信強調了搜索的探索可以輕鬆完成,節省了大量的時間,能夠輕鬆地分享和比較個別作者對納入或排除研究的決定的相對簡單性和滿意度。
推出後納入的附加功能
突出顯示文本,以便快速識別重要的關鍵字,例如,試驗和隨機安慰劑被開發人員考慮並添加為“突出顯示”按鈕。盲法和獨立的研究選擇是審查過程的一個關鍵方麵,並且還應要求添加了能夠隱藏個別作者關於納入研究的決定的選項。
推出後的用戶數據
Rayyan吸引了來自全球各地的大量分布良好的用戶的極大興趣。截至2016年11月,用戶超過2000人,來自60多個國家。這些用戶正在對總計超過160萬次引用進行數百次評論,單個評論的引用量從數十次到38k次不等。
研討會、演示和用戶反饋
2014/2015年出現了幾次向全球研究界展示Rayyan的機會,包括在海德拉巴Cochrane Colloquium(2014)、Evidence-Live牛津(2015)和維也納Cochrane Colloquium(2015)的研討會。這些展覽允許進一步發展,並根據與會者收到的反饋和建議整合一些新功能。我們還有另外兩個渠道,用戶可以通過它們向我們提供反饋,一個內置在網站和調查中的功能,我們的用戶可以隨時進行調查(到目前為止,有66名受訪者)。從所有這些反饋渠道中,該應用程序的最大特點是它的功能,即,以清晰和明確的方式,可以將研究與已完成的選擇一起在上下文中查看,以及如何將“未確定”的研究反饋到係統中,然後將這些研究突出顯示為“提示”。從調查中可以看出,Rayyan在節省時間和最重要的特性方麵有兩個重要的亮點。我們的用戶報告說,與其他工具相比,使用Rayyan平均節省了40%的時間,37%的受訪者報告說節省了50%以上的時間。對於第二部分,約75%的受訪者提到,篩選和標簽研究以及審查合作是Rayyan的兩個最重要的功能。
未來的發展
基於本文報道的試點研究以及與綜述作者的不同互動,正在計劃添加幾個新特性。最終目標是支持大多數評審過程,其中機器學習、數據/文本挖掘和信息提取技術以及良好的軟件工程最佳實踐可以提供清晰可見的質量和速度,以促進評審人員在創建和更新係統評審過程中的努力。計劃擴展的主要方麵包括:
更好地檢測副本和用戶引導的處理這些副本的過程。
偏見風險評估,最初的重點是Cochrane定義的基於領域的標準,包括從全文文章中識別和提取支持句。用戶將能夠驗證這些自動判斷,並用自己的評估對全文進行注釋。
自動提取與PICO和其他數據元素相關的值或文本。同樣,用戶將能夠驗證提取的信息並注釋全文以提取更多元素。
擴展Rayyan API,這樣其他軟件平台可以通過簡單的REST調用來使用Rayyan的特性。