條文本
摘要
簡介《個體預後或診斷多變量預測模型透明報告》(TRIPOD)和《預測模型偏倚風險評估工具》(PROBAST)的發表,都是為了改進診斷和預後預測模型研究的報告和批判性評價。本文描述了用於開發TRIPOD語句(TRIPOD-人工智能,AI)和PROBAST (PROBAST-AI)工具的擴展的過程和方法,用於應用機器學習技術的預測模型研究。
和分析方法TRIPOD-AI和PROBAST-AI將根據赤道網絡發布的指導進行開發,將包括五個階段。第一階段將包括兩個係統審查(涵蓋所有醫學領域,特別是腫瘤學領域),以檢查已發表的基於機器學習的預測模型研究報告的質量。在第二階段,我們將使用德爾菲法(Delphi process)谘詢不同的關鍵利益相關者群體,確定需要考慮納入TRIPOD-AI和PROBAST-AI的項目。第三階段將是虛擬協商會議,以鞏固和優先考慮將納入TRIPOD-AI和PROBAST-AI的關鍵項目。階段4將涉及開發TRIPOD-AI檢查表和PROBAST-AI工具,並編寫相應的解釋和闡述論文。在最後階段,也就是第五階段,我們將通過期刊、會議、博客、網站(包括TRIPOD、PROBAST和EQUATOR Network)和社交媒體傳播TRIPOD- ai和PROBAST- ai。TRIPOD-AI將為從事基於機器學習的預測模型研究的研究人員提供一個報告指南,可以幫助他們報告讀者評估研究質量和解釋研究結果所需的關鍵細節,從而潛在地減少研究浪費。我們預計,PROBAST-AI將幫助研究人員、臨床醫生、係統審批者和政策製定者批判性地評估基於機器學習的預測模型研究的設計、進行和分析,並提供一個強大的偏見評估標準化工具。
道德和傳播牛津大學中央大學研究倫理委員會於2020年12月10日批準了該研究的倫理批準(R73034/RE001)。這項研究的結果將通過同行評審出版物傳播。
普洛斯彼羅注冊號CRD42019140361 CRD42019161764。
- 統計與研究方法
- 流行病學
- 全科醫學(見內科)
這是一篇開放獲取的文章,按照創作共用署名4.0未移植(CC BY 4.0)許可發布,該許可允許其他人複製、重新發布、混合、轉換和基於此作品的任何目的,隻要原始作品被正確引用,提供許可證鏈接,並說明是否進行了更改。看到的:https://creativecommons.org/licenses/by/4.0/.
來自Altmetric.com的統計
本研究的優勢和局限性
使用人工智能的臨床預測模型報告較差。
目前還沒有關於使用人工智能的臨床預測模型的報告或偏倚風險評估的指導方針。
這項研究的優勢在於它遵循了赤道網絡發布的報告指南。
專家意見和共識將從多個利益相關方(統計學家、臨床科學家、流行病學家、計算機科學家、資助者、醫療保健決策者、患者和行業領袖)那裏獲得。
背景
預測臨床結果的模型在醫學文獻中大量存在,並被廣泛歸類為那些估計存在特定結果(診斷性)或特定結果(如事件)是否在未來發生的概率(預後性)的模型。1傳統上,這些模型(在此稱為預測模型)是使用基於回歸的方法開發的,通常是短期結果的邏輯回歸和長期結果的考克斯回歸。2大量評論發現,描述預測模型的開發和驗證(包括更新)的研究往往沒有報告幫助讀者判斷方法的關鍵信息,也沒有對模型的預測準確性和其他相關細節(如目標人群和模型本身的內容)有完整、透明和清晰的了解。3 - 6缺乏充分和全麵的報告限製了這些研究結果的可用性,例如,在後續的驗證研究、證據綜合研究或日常實踐中,因此造成了研究浪費。7為此,2015年發表了《個體預後或診斷多變量預測模型透明報告(TRIPOD)聲明》。1 8TRIPOD聲明是一份包含22個項目的清單,作者應該以足夠詳細和清晰的方式報告研究是如何進行的。
自TRIPOD聲明發表以來,人工智能(AI),特別是機器學習,臨床預測的方法已經發展和普及,隨著人工智能和機器學習出版物的數量迅速上升。9-14在最近對COVID-19相關預測模型的一項綜述中,這一點很明顯,其中57項(在107項納入的研究中)使用機器學習方法開發模型。15
機器學習是人工智能的一個分支,可以廣泛地描述為數據分析方法,從數據中學習,而不需要明確編程,根據數據本身識別模式。它們通常被描述為具有捕獲複雜關聯的靈活性,特別是在大型和非結構化數據中,以及建模的複雜性。雖然TRIPOD聲明中的絕大多數項目都與基於機器學習的預測模型研究相關,但機器學習仍存在一些未被捕獲的獨特挑戰。由於其複雜性,這些預測模型通常被認為是“黑箱”,不像基於回歸的模型,完整的模型可以透明地呈現(例如,作為一個包含所有回歸係數的方程)。此外,雖然許多機器學習方法起源於統計文獻,但出現了兩種(重疊的)預測模型文化,分別來自統計學/流行病學背景和計算機科學/數據科學背景。16雖然有明顯的重疊,但模型開發、驗證和更新的不同方法已經出現,並且出現了不同的、有時是衝突的術語。
由於將機器學習方法應用於臨床預測建模的相對新穎性,很少有關於這些研究報告質量的信息。然而,少數審查報告的完整性得出的結論是,報告是糟糕的。17 18針對這些問題,需要指導來幫助作者在使用機器學習方法時充分描述他們的預測模型研究。因此,TRIPOD小組發起了一個大型國際項目,開發一個基於共識的TRIPOD擴展,特別關注使用機器學習技術(在這裏稱為TRIPOD- ai)進行診斷或預後預測模型的開發、驗證或更新的研究報告。19TRIPOD-AI擴展包括一個清單和一個附帶的闡述和解釋文件,將為基於機器學習的預測模型研究的研究人員、作者、審稿人、編輯、用戶和其他利益相關方提供關於報告項目的最小集合的指導,並為每個項目提供詳細的良好報告示例。
完整的報告允許研究被理解、複製和使用。然而,對研究方法質量的批判性評價也是循證醫學的一個重要組成部分。批判性評價和評估研究質量是循證醫學的一個重要組成部分。2019年,預測模型偏差風險評估工具(PROBAST)發布20 21幫助各種利益相關者,例如參與臨床指南開發的係統審稿人、研究人員、期刊編輯、手稿審稿人和決策者,批判性地評估研究設計,進行和分析預測模型研究。PROBAST包括四個領域(參與者、預測者、結果和分析),包含20個信號問題,以促進偏見風險評估。顯然,偏見評估和報告的風險是內在聯係的,因為判斷偏見的風險是建立在初步研究報告的基礎上的。雖然原則上PROBAST與使用機器學習的預測模型研究相關,但模型開發和驗證的不同方法和術語已經出現,在這些研究實施之前,批判性評估這些研究的能力是至關重要的。22日23日因此,在開發TRIPOD-AI的同時,我們還將開發PROBAST-AI,這是一種在基於機器學習的多變量預測模型研究中評估偏差風險的工具。
重點關注TRIPOD-AI和PROBAST-AI
TRIPOD-AI和PROBAST-AI的重點都是利用任何(有監督的)機器學習技術開發(或更新)或驗證(測試)多變量預測模型的研究或努力報告。根據TRIPOD和PROBAST的原始出版物,多變量預測模型被定義為兩個或兩個以上預測因子的任何組合或方程,用於個性化預測,以估計個人具有(診斷)或發展(預後)特定健康結果或狀態的概率。預測因素可能有任何形式,來自患者病史、體格檢查、診斷、預後或監測測試以及所接受的治療。預後也可以有任何形式(二分、分類、連續)和任何種類,如存在或不存在某種特定的疾病或障礙(診斷結果或分類),短期預後結果(如住院死亡率或術後並發症),以及長期預後結果,如1年發生治療並發症,5年發生轉移或終身存活)。
根據原始出版物,TRIPOD-AI和PROBAST-AI還將處理來自所有醫療保健環境(公共衛生、初級、二級、三級和養老院護理)和所有相應目標人群(健康個體、疑似和患病個體)的預測模型研究。
TRIPOD-AI和PROBAST-AI並不意味著要解決:
方法/設計
TRIPOD-AI和PROBAST-AI都將根據赤道網絡發布的指導進行開發。26我們將分五個階段製定指南:(1)係統審查以確定當前報告的質量,(2)德爾福演習,(3)協商一致會議,(4)製定指南說明和(5)指南傳播。我們已在赤道網絡網站(www.equator-network.org)、TRIPOD網站(www.tripod-statement.org)並在最近的《柳葉刀》雜誌上宣布了這一研究,19而PROBAST- ai的開發已經在PROBAST網站上宣布(www.probast.org).
TRIPOD-AI / PROBAST-AI工作組
TRIPOD/PROBAST工作組將包括:(1)一個執行委員會(2)一個谘詢和工作組以及(3)一個大型國際Delphi小組。
TRIPOD-AI/PROBAST-AI執行委員會將負責領導和協調與TRIPOD-AI指南的製定和傳播有關的所有過程。執行委員會由TRIPOD報告指南和PROBAST工具的兩位主要作者,以及來自機器學習社區的預測模型專家和研究人員組成。第二階段(德爾菲調查)的主要利益相關者將被確定並邀請參加,這些關鍵利益相關者中的一部分(顧問組)將參加第三階段(協商一致會議)。
在這裏,關鍵利益相關者一詞是指跨界別的參與者(包括工業和公共部門),他們至少屬於以下其中一種類別:
在臨床預測環境中使用機器學習的研究人員,在使用機器學習或開發機器學習方法方麵有明確的知識和專業知識。這些人包括應用(生物)醫學調查員、統計學家、流行病學家和數據科學家。
AI或機器學習模型的評估者和審批者,如監管評估者和倫理委員會成員。
TRIPOD-AI指導和PROBAST-AI工具的受益者或用戶,如期刊編輯和期刊審稿人。
研究撥款委員,如資助者。
研究結果的消費者,如醫療保健提供者、患者和公民。
第一階段:係統審查目前的報告
目前正在進行兩項並行的係統審查,以評估在醫學領域開發、驗證或更新基於機器學習的預測模型的已發表研究中當前報告的質量。這兩項係統審查將評估報告是否符合TRIPOD原始聲明,1 8使用TRIPOD堅持檢查表。27綜述還將檢查初級研究的方法學指導,包括使用最近發布的診斷和預後預測模型研究(PROBAST)的偏倚風險評估工具(質量評估),20 21並將引出與機器學習相關的TRIPOD和PROBAST目前沒有涵蓋的具體問題。兩個係統綜述的方案已經在國際前瞻性係統綜述注冊(PROSPERO IDs CRD42019140361和CRD42019161764)注冊。一項綜述(CRD42019161764)將審查所有醫療領域(2018年1月至2019年12月)基於機器學習的預測模型研究報告的質量,而另一項綜述(CRD42019140361)將關注發表在腫瘤學(2019年1月至2019年9月)的基於機器學習的預測模型研究報告的質量。
進行這些審查有兩個目的:(1)了解當前醫學文獻中基於機器學習的預測模型研究報告的完整性;(2)確定用於TRIPOD擴展的獨特報告項目,以及用於PROBAST擴展的獨特偏差風險或質量項目。這一階段的數據收集正在進行中。審查將評估目前報告的完整性和研究的質量,並確定需要為TRIPOD-AI和PROBAST-AI考慮的其他報告和質量項目。
這兩項審查將評估目前報告的完整性和研究的質量。再加上其他證據3 4 17 18 28從現有的方法指導文件中,它們將提供關於報告透明度和質量的重要信息。使用原始的TRIPOD和PROBAST檢查清單作為起點,執行委員會將在文獻中確定第二階段(德爾菲研究)要考慮的初步項目,並將其納入最終的TRIPOD- ai檢查清單和PROBAST- ai工具。
第二階段:Delphi練習
我們將在一個大型的相關利益相關者國際網絡中進行廣泛的德爾菲調查,最多三輪,以幫助決定可以修改、添加或從TRIPOD 2015檢查清單中刪除的項目,以形成TRIPOD- ai檢查清單,以及隨後的PROBAST-AI檢查清單。
設計
德爾菲過程將包括一係列的回合,在這些回合中,小組成員將獨立和匿名地評估和達成一致意見,包括納入或排除擬議的報告和質量項目,以及建議額外的項目。這個過程最多重複三輪。在每一輪之後,參與者將得到上一輪的結構化反饋,以幫助協調個人意見並達成集體共識。達成較高一致程度(≥70%)的項目將提交到協商一致會議(第三階段)。
潛在項目的選擇
TRIPOD-AI(和PROBAST-AI)的項目清單將由執行委員會整理,包括兩次係統審查的結果,任何其他可用的關於基於機器學習預測模型的方法論或報告的研究,以及來自Delphi小組成員的專家建議。將檢索相關的方法學指南或方法學論文,以確定基於機器學習的預測模型研究的其他候選報告和質量項目。預選包括將項目分為需要進一步考慮的項目,可以作為可選指導提供的項目(在隨附的解釋和細化文件中概述),或不考慮潛在納入的項目。Delphi的參與者將有機會在每一輪中查看和提供反饋,也可以建議新的項目。
招聘流程及參與人員
Delphi參與者將通過執行委員會的專業網絡進行識別,參與原始TRIPOD指南的Delphi練習(以及TRIPOD文摘和TRIPOD集群Delphi調查),原始PROBAST Delphi練習,通過對宣布TRIPOD- ai的《柳葉刀》2019年論文的自我回應,19以及對TRIPOD-AI的社交媒體公告(如Twitter)的回應。
我們將邀請來自不同背景(如大學、醫院、初級保健、生物醫學期刊、非營利組織和營利性組織)的不同角色的國際參與者(如研究人員、醫療保健專業人員、期刊編輯、資助者、政策製定者、醫療保健監管機構、預測模型的最終用戶)。參與者將通過個人郵件被邀請,該郵件將描述TRIPOD-AI擴展和PROBAST-AI工具開發,並解釋Delphi演習的目標、過程和時間表。我們計劃邀請至少200名參與者參加德爾福調查。在所有輪調查中,調查將保持開放3周,並在首次邀請後1周發送提醒郵件。在Delphi的第二輪中,可能會尋求更多的參與者,以確保所有關鍵利益相關者的公平代表。29
參與者將通過在線同意書獲得知情同意,參與者可以隨時退出。表明希望退出調查的個人將被從後續邀請中刪除。參與者將不知道Delphi小組中其他個體的身份,也不知道任何個體提供的具體答案。
選擇項目的程序
我們計劃要求參與者在審查現有的、新的或修改的納入項目時考慮以下指導原則:(1)項目的報告應促進研究的可重複性(即用戶應能夠根據報告的信息重新創建研究結果);(2)報告項目有助於評估機器學習研究結果的質量、偏差風險和適用性,以促進其在後續研究、係統評審和日常實踐中的吸收和使用;(3)項可能與幾乎所有預測模型研究相關;(4)項目集代表在開發、驗證或更新診斷或預後預測模型的所有機器學習研究中應報告的最小值。
第一輪
參與者將被要求以李克特5分量表(李克特5分表)對tripodai擴展和PROBAST-AI工具中包含的每個檢查項進行評分(1=非常不同意,2=有點不同意,3=我不知道,4=有點同意,5=非常同意)。我們會提供一個自由文本框,就每個項目提供一般意見(以證明他們的決定是正確的或建議措辭的改變)。在調查結束時,我們會提供一個自由文本框,建議額外的核對項目或就核對清單提供一般意見。該調查將對少數熟悉預測模型或機器學習但未參與TRIPOD-AI指南擴展或PROBAST-AI工具的個人進行可用性和清晰度的試點測試,並根據他們的反饋進行相應的修改。
第二輪
第一輪的參與者將被邀請參加第二輪。參與者將被提供他們對每個項目的第一輪回應,匿名的小組評級總結和匿名的評論,以證明評級。使用與第一輪相同的格式,參與者將看到每個項目,包括第一輪中建議的任何新項目,並再次表達他們在多大程度上同意將項目納入TRIPOD-AI清單或PROBAST-AI工具,考慮結構化的反饋來通知他們的回答。被邀請參加第一輪但沒有回應的參與者將被邀請參加第二輪,並將收到一份匿名的小組評分摘要。在第一輪(≥70%)中達到較高一致程度(4分或5分)的項目將僅供參考,不進行投票,但將提供一個自由文本框供任何評論。如果執行委員會認為有必要,將采用第三輪Delphi。
德爾菲調查結果
項目得分將根據情況總結為整個小組的一個整體(例如,評分類別的頻率和比例),並附有調查結果、評論和建議的敘述摘要。執行委員會將討論兩輪調查的結果。對於第二次德爾菲會議未達成共識的項目,將由執行委員會進行討論,並考慮在後續的共識會議上進行討論。
第三階段:協商一致會議
將舉行兩次虛擬共識會議(分別針對TRIPOD-AI和PROBAST-AI),時間均超過2天,目的是討論德爾斐演習的結果,並最終確定將納入報告指南和偏見風險工具的項目。協商一致小組的組成將反映上述關鍵利益攸關方的多樣性。參加Delphi演習的重點專家將被考慮參加協商一致會議。我們還將考慮邀請沒有參與德爾菲會議的專家參與共識。預計共有大約25至30名國際與會者將為虛擬協商一致會議作出貢獻。
過程
共識會議的議程和任何材料(如係統審查和Delphi的結果)將由執行委員會準備,並將提前與與會者分享。執行委員會成員將促進對德爾福演習中確定的每個項目背後的基本原理進行結構化討論。然後,與會者將有機會討論每個項目(TRIPOD-AI的報告項目和PROBAST-AI的信號問題),並對每個項目進行投票。在TRIPOD-AI和PROBAST-AI中保留一個項目的決定將基於取得協商一致會議參與者至少70%的支持。工作組將就TRIPOD-AI最終擴展和PROBAST-AI工具的報告項目草案清單達成一致。具體的項目措辭將不會在會議中討論,但與會者可以建議和小組就項目的總體意圖和含義達成一致。傳播計劃將在協商一致會議結束時討論。
引導測試
我們將邀請醫學領域機器學習預測模型研究的作者、從事預測模型、機器學習課程或講習班的博士生,以及經常發表這種預測模型研究的期刊的同行審稿人和編輯,來試點使用TRIPOD-AI清單和PROBAST-AI工具的草稿版本。我們會詢問那些使用清單和工具的人,項目的措辭是否含糊或難以解釋。
第四階段:擬定TRIPOD-AI聲明草案、PROBAST-AI草案以及解釋和闡述文件
執行委員會將根據協商一致會議(第三階段)商定的項目清單,領導TRIPOD-AI報告指南和PROBAST-AI信號問題的開發。執行委員會將邀請協商一致會議的一部分成員(組成寫作小組)幫助起草解釋和闡述文件。
執行委員會將保留在開發TRIPOD-AI聲明期間更新(即刪除或添加)TRIPOD-AI清單的額外項目的權利,如果有必要(作為試點測試的結果)。
對於TRIPOD-AI擴展和PROBAST-AI偏差風險工具,將開發兩份文稿:(1)陳述文件,介紹清單/工具並描述其開發過程;(2)解釋和闡述文件。解釋和闡述論文將概述報告項目(TRIPOD-AI)和信號問題(PROBAST-AI)的基本原理、良好報告的例子(TRIPOD-AI)和如何使用PROBAST-AI的例子。文件草稿將分發給協商一致會議的所有與會者,征求他們的意見。
第五階段:指南傳播
傳播戰略將根據協商一致會議上的討論來確定。我們的目標是在主要期刊上同時出版,以針對不同的讀者。為了提高能見度和輔助吸收,TRIPOD- ai檢查表和PROBAST-AI工具將公開發布,並在TRIPOD網站和其他TRIPOD擴展(www.tripod-statement.org),以及在PROBAST網站(www.probast.org),以及“進步處”網頁(www.prognosisresearch.com).TRIPOD-AI擴展將被編入赤道網站(www.equator-network.org).社交媒體將被用來幫助傳播擴展。執行委員會將(並鼓勵達成共識的參與者)在主要會議和課程上宣傳TRIPOD-AI聲明和PROBAST-AI工具。
出版計劃
根據設想,TRIPOD-AI和PROBAST-AI倡議將產生以下出版物:
出版物1:研究方案。
出版物2:係統評審協議(在PROSPERO上注冊)。
出版物3和4:係統評論。
出版物5和6:TRIPOD-AI聲明和解釋和闡述論文。
出版物7和8:PROBAST-AI工具和解釋和精化論文。
結論
使用機器學習方法進行預測模型研究的數量正在迅速增加,包括開發、驗證或更新的預測模型。確保報告關鍵細節非常重要,以便讀者能夠評估研究質量,並解釋其發現,包括開發、驗證或更新的預測模型,以提高他們在後續研究(如驗證研究)、證據合成項目(如預測模型的係統綜述)和醫療保健專業人員、患者或公民的日常實踐中的吸收。我們預計TRIPOD-AI將幫助作者透明地報告他們的研究,並幫助審稿人、編輯、決策者和最終用戶理解方法和發現,從而減少研究浪費。同樣,我們預計PROBAST-AI將幫助研究人員、臨床醫生、係統評審員和政策製定者批判性地評估基於機器學習的預測模型研究的設計、實施和分析。
倫理語句
參考文獻
腳注
推特@GSCollins, @pauladhiman, @GSCollins, @AndrewLBeam, @BenVanCalster, @Maartenvsmeden, @Richard_D_Riley, @CarlMoons
GSC和KGM貢獻相等。
調整通知由於本文首次在網上發布,作者的名字已更新為潔。
貢獻者GSC、PD、CLAN、JM、LH、JBR、PL、ALB、LP、BVC、MvS、RDR、KGMM參與了本研究的規劃設計。GC與所有的作者一起起草了手稿。
資金該研究得到了英國健康數據研究中心的支持,這是一項由英國研究與創新、衛生和社會福利部(英格蘭)和下放的行政部門資助的倡議,以及領先的醫學研究慈善機構、英國癌症研究中心項目贈款(C49297/A27294)、牛津大學NIHR生物醫學研究中心和荷蘭科學研究組織。
相互競爭的利益沒有宣布。
患者和公眾的參與患者和/或公眾未參與本研究的設計、實施、報告或傳播計劃。
來源和同行評審不是委托;外部同行評議。