分析評價證據的質量和建議的力度

GRADE:對證據質量和建議強度進行評級的新共識

BMJ2008;336doi:https://doi.org/10.1136/bmj.39489.470347.AD(2008年4月24日發布)引用如下:BMJ336:924 2008;

戈登·H·蓋亞特教授,1，
安德魯·D·奧克斯曼,研究員2，
Gunn Vist,研究員2，
Regina昆茲，副教授3.，
Yngve Falck-Ytter，助理教授4，
巴勃羅Alonso-Coello,研究員5，
Holger J sch內曼教授,6
為GRADE工作小組提供資料

¹加拿大安大略省漢密爾頓市麥克馬斯特大學臨床流行病學與生物統計學係l8n3z5
²挪威衛生服務知識中心，挪威奧斯陸0130 St Olavs Plass郵政信箱7004
^3.巴塞爾大學醫院巴塞爾臨床流行病學研究所，Hebelstrasse 10, 4031瑞士巴塞爾
⁴美國凱斯西儲大學凱斯醫學中心消化內科，俄亥俄州克利夫蘭44106
⁵伊比利亞美洲Cochrane中心，Epidemiología Clínica y Salud服務Pública(巴塞羅那大學Autónoma)，聖保羅醫院，西班牙巴塞羅那08041
⁶意大利國家癌症研究所流行病學部，裏賈納埃琳娜，意大利羅馬

通訊:G H Guyatt, CLARITY研究小組，臨床流行病學和生物統計學係，2C12室，1200 Main Street, West Hamilton, ON, Canada L8N 3Z5guyatt在{}mcmaster.ca

指南在如何評價證據的質量和建議的力度方麵是不一致的。這篇文章探討了GRADE係統的優點，它越來越多地被世界各地的組織所采用

總結分

不考慮證據的質量可能導致錯誤的建議;絕經後婦女的激素替代療法提供了一個有益的例子
有高質量的證據表明，幹預措施的理想效果明顯大於其不良效果，或者明顯不大於其不良效果，值得強烈推薦
權衡的不確定性(因為低質量的證據或因為理想和不理想的影響是緊密平衡的)保證了弱推薦
指南應告知臨床醫生基礎證據的質量，以及建議是強是弱
建議分級評估、發展和評估(GRADE)方法提供了一個明確、全麵、透明和務實的證據質量和建議強度評級係統，越來越多地被世界各地的組織采用

世界各地的指南製定者在如何評價證據質量和建議強度方麵是不一致的。因此，指南使用者在理解評分係統試圖傳達的信息方麵麵臨挑戰。自2006年起BMJ在bmj.com上的“給作者的說明”中要求，作者在提交臨床指南文章時，最好使用分級推薦評估、發展和評估(GRADE)係統對證據進行分級。這個決定的背後是什麼?

在五篇係列文章的第一篇中，我們將解釋為什麼許多組織使用正式的係統來評估證據和建議，以及為什麼這對臨床醫生很重要;我們將重點關注GRADE的建議方法。在接下來的兩篇文章中，我們將研究GRADE係統如何對證據質量和建議強度進行分類。最後兩篇文章將側重於診斷測試的建議和GRADE解決幹預措施對資源使用影響的框架。

GRADE比以前的評分係統有很多優點(方框1)。其他評分係統也有一些優點，但除了GRADE之外，沒有一個係統能把所有優點都結合起來。1

專欄1 GRADE相對於其他係統的優點

由具有廣泛代表性的國際指南製定小組製定
明確區分證據質量和建議的力度
明確評估替代管理策略結果的重要性
明確、全麵的證據質量等級降級和提升標準
從證據到建議的透明過程
明確承認價值觀和偏好
對臨床醫生、患者和政策製定者的強、弱建議進行清晰、務實的解釋
有助於係統審查和衛生技術評估，以及指導方針

什麼是“證據質量”?為什麼它很重要?

在製定醫療保健管理決策時，患者和臨床醫生必須權衡各種替代策略的利弊。決策者不僅會受到對預期利弊的最佳估計的影響，而且還會受到他們對這些估計的信心的影響。這幅描繪天氣預報員不確定性的漫畫抓住了對結果可能性的評估與對該評估的信心之間的差異⇓)。對幹預效果大小的估計是否有用，取決於我們對該估計的信心。

專家臨床醫生和向臨床社區提供建議的組織經常因為沒有充分考慮證據的質量而犯錯誤。2十年來，各組織建議臨床醫生鼓勵絕經後婦女使用激素替代療法。3.許多初級保健醫生盡職盡責地在他們的實踐中應用了這一建議。

人們相信這種療法可以大大降低女性心血管疾病的風險，因此提出了這一建議。如果當時應用了一個嚴格的證據質量評級係統，它就會表明，由於數據來自結果不一致的觀察性研究，降低心血管風險的證據質量非常低。4認識到證據的局限性，本可以緩和這些建議。最終，隨機對照試驗表明，激素替代療法不能降低心血管風險，甚至可能增加心血管風險。5 6

美國食品和藥物管理局批準抗心律失常藥物encainide和flecainide用於患者，因為這兩種藥物能夠減少與猝死相關的無症狀室性心律失常。這一決定沒有認識到，由於心律失常的減少隻間接地反映了猝死的結果，因此藥物有益的證據質量很低。隨後，一項隨機對照試驗表明，這兩種藥物增加了猝死的風險。7對低質量證據的適當關注本可以挽救成千上萬人的生命。

未能識別出高質量的證據也會導致類似的問題。例如，專家的建議落後於實施良好的隨機對照試驗的證據，即溶栓治療降低了心肌梗死的死亡率。8

對證據質量的重視不足可能導致不適當的指南和建議，從而導致臨床醫生采取損害患者利益的行動。認識到證據的質量將有助於防止這些錯誤。

指南製定者應該如何提醒臨床醫生注意證據的質量?

一個對證據質量進行分類的正式係統——例如，從高到極低——是向臨床醫生傳達證據質量的明顯策略。然而，確實存在一些限製。證據質量是一個連續體;任何離散的分類都包含一定程度的隨意性。然而，簡單、透明和生動的優點超過了這些限製。

什麼是“推薦強度”，為什麼它很重要?

向患者提供特定治療的建議可能來自大型、嚴格的隨機對照試驗，這些試驗顯示出持續的令人印象深刻的益處，副作用很少，不便和成本最低。在哮喘加重患者中使用短期口服類固醇就是這種情況。臨床醫生幾乎可以毫不猶豫地為所有患者提供此類治療。

另外，治療建議可能來自觀察性研究，可能涉及明顯的危害、負擔或成本。決定是否對植入人工心髒瓣膜的孕婦使用抗血栓治療包括權衡瓣膜血栓減少的程度、不便、成本和致畸風險。提供此類治療的臨床醫生必須幫助患者根據自己的價值觀和偏好，仔細權衡可取和不可取的效果。

因此，指導方針和建議必須表明是否(一)證據是高質量的，有利的影響明顯大於不利的影響，或者(b)有一種接近或不確定的平衡。簡單、透明的推薦評分可以有效地傳達這一關鍵信息。

正式的推薦評分是有限製的。與證據的質量一樣，可取效果和不可取效果之間的平衡反映了一個連續體。因此，將特定的推薦按“強”和“弱”進行分類會帶來一些隨意性。大多數製定指導方針的組織都認為，明確的推薦等級利大於弊。

什麼是好的評分係統?

並不是所有的評分係統都將證據的質量與推薦的強度分開。那些做不到這一點的人會製造混亂。高質量的證據並不一定意味著強有力的建議，而強有力的建議可能來自低質量的證據。

例如，首次發生深靜脈血栓，無明顯誘發因素的患者，在抗凝治療的第一個月後，必須決定是否繼續長期服用華法林。高質量的隨機對照試驗表明，持續使用華法林將降低血栓複發的風險，但代價是出血風險增加和不便。由於不同價值觀和偏好的患者會做出不同的選擇，盡管有高質量的證據，但關於患者是否應該繼續或終止華法林的指南小組應該提供一個弱推薦。

考慮給水痘兒童服用阿司匹林或撲熱息痛(對乙酰氨基酚)。觀察性研究已經發現阿司匹林與雷氏綜合征之間存在關聯。9由於阿司匹林和撲熱息痛在鎮痛和解熱作用上相似，關於阿司匹林和雷氏綜合征之間關係的低質量證據並不排除對撲熱息痛的強烈推薦。

將“專家意見”歸類為證據類別的係統也會造成混亂。判斷是解釋所有證據的必要條件，無論證據的質量是高還是低。專家的臨床經驗報告應與病例報告和其他不受控製的臨床觀察結果一起明確標記為非常低質量的證據。

分級係統在判斷證據的質量和建議的力度方麵都很簡單，便於患者、臨床醫生和政策製定者使用。1詳細和明確的質量評級和強度分級標準將使使用指南和建議的人的判斷更加透明。

雖然許多評分係統在某種程度上符合這些標準，1過多的係統使一線臨床醫生難以使用它們。了解各種係統既不有效也不現實地利用臨床醫生的時間。GRADE係統被廣泛使用:世界衛生組織、美國醫師學會、美國胸科學會、UpToDate(一種在北美廣泛使用的電子資源)、www.uptodate.com)和Cochrane Collaboration是超過25個采用GRADE的組織之一。GRADE的廣泛采用反映了GRADE作為一個方法嚴謹、用戶友好的評分係統的成功。

GRADE係統如何對證據質量進行分類?

為了實現透明度和簡潔性，GRADE係統將證據質量分為四個級別——高、中、低和極低(方框2)。一些使用GRADE係統的組織選擇將低和極低類別結合起來。基於隨機對照試驗的證據最初是高質量的證據，但我們對證據的信心可能會因以下幾個原因而降低，包括:

研究的局限性
結果不一致
間接證據
不精確
報告的偏見。

雖然觀察性研究(例如，隊列研究和病例對照研究)以“低質量”評級開始，但如果治療效果的強度非常大(如嚴重的髖關節骨關節炎和髖關節置換術)，如果有證據表明劑量-反應關係，或者如果所有合理的偏差都會降低明顯治療效果的強度，則可能有理由將評級提高。

方框2證據質量和定義

高質量的-進一步的研究不太可能改變我們對效果估計的信心
溫和的品質-進一步的研究可能會對我們對效果估計的信心產生重要影響，並可能改變估計
低質量-進一步的研究很可能對我們對效果估計的信心產生重要影響，並可能改變估計
質量很低-對影響的任何估計都是非常不確定的

GRADE係統如何考慮推薦的強度?

GRADE係統提供了兩個等級的推薦:“強”和“弱”(盡管指導小組可能更喜歡“有條件的”或“自由裁量的”而不是“弱”)。當一項幹預措施的預期效果明顯大於預期效果，或者明顯大於預期效果時，指南小組就會提出強有力的建議。另一方麵，當權衡不太確定時——要麼是因為證據質量低，要麼是因為證據表明理想和不理想的效果是緊密平衡的——弱推薦就變成了強製性的。

除了證據的質量外，還有其他幾個因素影響建議的強弱(表1)⇓)。

影響推薦強度的因素

查看該表:

腳注

這是解釋GRADE係統評價證據質量和建議強度的五篇係列文章中的第一篇。
伊比利亞美洲科克倫中心是西班牙公共衛生網絡CIBER de Epidemiología y Salud Pública的一部分。
GRADE工作組成員包括Phil Alderson、Pablo Alonso-Coello、Jeff Andrews、David Atkins、Hilda Bastian、Hans de Beer、Jan Brozek、Francoise Cluzeau、Jonathan Craig、Ben Djulbegovic、Yngve falcock - ytter、Beatrice Fervers、Signe Flottorp、Paul Glasziou、Gordon Guyatt、Robin Harbour、Margaret Haugh、Mark Helfand、Sue Hill、Roman Jaeschke、katherine Jones、Ilkka Kunnamo、Regina Kunz、Alessandro Liberati、Merce Marzo、James Mason、Jacek Mrukovics、Susan Norris、Andrew Oxman、維維安·羅賓遜、霍爾格·施內曼、泰莎·譚·托雷斯、大衛·托維、彼得·圖格威爾、瑪麗絲卡·圖特、海倫娜·瓦羅寧、岡恩·維斯特、克雷格·威廷頓、約翰·威廉姆斯和詹姆斯·伍德科克。
貢獻者:GRADE工作組的所有成員都為稿件中的思想發展做出了貢獻，並閱讀和批準了稿件。GHG編寫了初稿，並整理了來自作者和審稿人的評論，以供後續迭代使用。ADO、GEV、RK、YF-Y、PA-C和HJS對文章的結構和內容提出了意見，提供了示例，審查了稿件的後續草稿，並提供了反饋。溫室氣體是保證人。
資助:沒有具體資助。
利益競爭:所有作者都參與了《GRADE》的傳播，《GRADE》的成功對作者的學術生涯產生了積極的影響。署名所列的作者已收到旅費報銷和酬金，因為他們的報告包括審查評等處評定證據質量的方法和評等建議。GHG作為UpToDate的顧問;他的工作包括幫助UpToDate使用GRADE。HJS是美國胸科學會的文件編輯和方法學家;他在這些職位上的角色之一是幫助實現GRADE的使用。他獲得了“人為因素，流動性和居裏夫人行動科學家重返社會歐洲委員會補助金:IGR 42192-GRADE”的支持。
出處和同行評議:未委托;外部同行評審。

參考文獻

↵

Atkins D, Eccles M, Flottorp S, Guyatt GH, Henry D, Hill S，等。證據質量和建議強度分級係統1:對現有方法的批判性評估。GRADE工作組。BMC健康服務資源2004;4(1):38。

OpenUrl CrossRef PubMed
↵

隨機試驗的驚人結果。在:蓋亞特G，德拉蒙德R，編輯。醫學文獻用戶指南:循證臨床實踐手冊。芝加哥，伊利諾伊州:AMA出版社，2002。
↵

美國醫師學會。絕經後婦女預防性激素治療谘詢指南。Ann實習醫生1992;117：1038-41年。

OpenUrl CrossRef PubMed 科學網
↵

陳寶康，張建平，張建平。絕經後激素替代療法與心血管疾病的初級預防。Ann實習醫生2002;137：273-84年。

OpenUrl CrossRef PubMed 科學網
↵

胡利S, Grady D, Bush T, Furberg C, Herrington D, Riggs B，等。雌激素加黃體酮對絕經後婦女冠心病二級預防的隨機試驗。心髒和雌激素/黃體酮替代研究(HERS)研究組。《美國醫學會雜誌》1998;280：605-13年。

OpenUrl CrossRef PubMed 科學網
↵

Rossouw JE, Anderson GL, Prentice RL, LaCroix AZ, Kooperberg C, Stefanick ML，等。雌激素加黃體酮對健康絕經後婦女的風險和益處:來自婦女健康倡議隨機對照試驗的主要結果。《美國醫學會雜誌》2002;288：321-33年。

OpenUrl CrossRef PubMed 科學網
↵

Echt DS, Liebson PR, Mitchell LB, Peters RW, obbias - manno D, Barker AH等。接受encainide、flecainide或安慰劑患者的死亡率和發病率。心律失常抑製試驗。[英]醫學1991;324：7818。

OpenUrl CrossRef PubMed 科學網
↵

劉建軍，劉傑，李建軍，李建軍，李建軍。隨機對照試驗薈萃分析結果與臨床專家建議的比較。心肌梗塞的治療。《美國醫學會雜誌》1992;268：2408。

OpenUrl CrossRef PubMed 科學網
↵

傳染病委員會。阿司匹林和雷氏綜合征。兒科1982;69：8102。

OpenUrl 摘要/免費的全文

視圖抽象

GRADE:對證據質量和建議強度進行評級的新共識

總結分

專欄1 GRADE相對於其他係統的優點

什麼是“證據質量”?為什麼它很重要?

指南製定者應該如何提醒臨床醫生注意證據的質量?

什麼是“推薦強度”，為什麼它很重要?

什麼是好的評分係統?

GRADE係統如何對證據質量進行分類?

方框2證據質量和定義

GRADE係統如何考慮推薦的強度?

腳注

參考文獻

文章警告

登錄或注冊:

將本文下載到引文管理器

幫助

轉發此頁

內容鏈接

關於我們

資源

探索BMJ

我的賬戶

信息

搜索表單

GRADE:對證據質量和建議強度進行評級的新共識

總結分

專欄1 GRADE相對於其他係統的優點

什麼是“證據質量”?為什麼它很重要?

指南製定者應該如何提醒臨床醫生注意證據的質量?

什麼是“推薦強度”，為什麼它很重要?

什麼是好的評分係統?

GRADE係統如何對證據質量進行分類?

方框2證據質量和定義

GRADE係統如何考慮推薦的強度?

腳注

參考文獻

文章警告

登錄或注冊:

將本文下載到引文管理器

幫助

轉發此頁

內容鏈接

關於我們

資源

探索BMJ

我的賬戶

信息