測量不一致的薈萃分析
BMJ2003年;327年doi:https://doi.org/10.1136/bmj.327.7414.557(2003年04年9月出版)引用這個:BMJ327:557 2003;- 朱利安·P T希金斯,統計學家(julian.higgins在{}mrc-bsu.cam.ac.uk)1,
- 西蒙·G·湯普森主任1,
- 喬納森·J Deeks高級醫學統計學家2,
- 道格拉斯·G奧特曼教授在醫學統計數據2
- 函授:J P T希金斯
Cochrane綜述最近開始包括數量我2幫助讀者評估研究的薈萃分析的結果的一致性。這個新的數量是什麼意思,為什麼是異質性的評估對臨床實踐中如此重要?
係統評價和薈萃分析能提供令人信服的和可靠的證據有關的許多方麵醫學和衛生保健。1它們的價值尤其清楚當研究的結果包括展示類似規模的臨床重要的影響。然而,結論是不太清楚,包括研究有不同的結果。為了建立研究是否一致,薈萃分析的報告普遍存在異質性的統計檢驗。測試旨在確定是否有真正的差異基礎研究的結果(異質性),或者是否變化僅在發現是兼容的機會(同質性)。然而,測試容易試驗包括在薈萃分析的數量。我們已經開發出一種新的數量,我2,我們相信可以更好地展現出一致性試驗的薈萃分析。
需要的一致性
評估的一致性的影響研究是一個重要的薈萃分析的一部分。除非我們知道研究的結果一致,我們無法確定generalisability薈萃分析的結果。事實上,一些證據分級分層係統狀態研究的結果必須是一致的或均勻獲得最高評分。2- - - - - -4
測試異質性是常用的決定相結合的研究方法和結論的一致性或不一致的結果。56但是測試實現在實踐中,和由此產生的P值應如何解釋?
測試的異質性
一個異質性檢驗零假設的測試中,所有的研究正在評估相同的效果。通常的檢驗統計量(科克倫的問)是由加法計算每個研究的平方偏差的估計的總體整合估計,每個研究的貢獻權重以同樣的方式在薈萃分析。7P值是通過比較用χ統計2分布與k1自由度(k是研究的數量)。
測試是窮人在檢測真正的異質性研究意義重大。薈萃分析通常包括少量的研究,68和測試的力量在這種情況下很低。910例如,考慮隨機對照試驗的薈萃分析的金剛烷胺預防流感(圖1)。11八個試驗中的治療效果似乎不一致:減少的幾率從16%變化到93%,不置信區間的重疊。但異質性的考驗收益率P值為0.09時,通常解釋為非重大的。因為測試是窮人在檢測真正的異質性,非重大的結果不能被視為同質性的證據。使用截止10%的意義12改善這一問題,但增加了風險圖一個假陽性的結論(錯誤)。10
相反,測試可能是過度的權力當有許多研究,尤其是當這些研究都大。最大的薈萃分析Cochrane係統評價的數據庫三環類抗抑鬱藥的臨床試驗和選擇性5 -羥色胺再攝取抑製劑用於治療抑鬱症。13超過15 000名參與者從135年試驗包括在評估比較輟學率,異質性和測試是顯著(P = 0.005)。然而,這個P值並不合理描述異質性程度的試驗結果。稍後我們展示,這些試驗之間存在一個小矛盾但這並不影響評審的結論(5 -羥色胺再攝取抑製劑的停藥率低於三環類抗抑鬱藥)。
自係統評價彙集不同的臨床和方法論上的研究,非均質性在他們的結果是可以預料的。6例如,非均質性是通過多樣性可能出現劑量,跟進的長度,研究質量和參與者的入選標準。所以看起來小點簡單測試異質性時,重要的是它在多大程度上影響分析的結論。
量化異構性:一個更好的方法
我們開發了一個替代方法,量化異質性的影響,提供了一個衡量的程度不一致的研究結果。14數量,我們稱之為我2描述總變異的百分比在研究由於非均質性,而不是機會。我2可以方便地計算出基本從一個典型的薈萃分析結果我2= x (100%問- df) /問,在那裏問科克倫的異質性數據和df的自由度。負的我2將等於零,這樣嗎我2位於0%和100%之間。0%的值表示沒有觀測到的異質性,並顯示增加異質性較大值。
值的例子我2
的主要優勢我2是它可以跨薈萃分析計算和比較不同大小、不同類型的研究中,並使用不同類型的結果數據。表1給了我2值六一起發表的薈萃分析不確定性區間為95%。這些區間的上限表明同質性在小數量的薈萃分析研究的結論往往是不合理的。111315- - - - - -19
他莫昔芬和鏈激酶薈萃分析,包括研究發現類似的效果,1617有我2的值分別為3%和19%。這些表明之間的可變性的研究不能解釋的機會。審查比較輟學生的選擇性5 -羥色胺再攝取抑製劑與三環類抗抑鬱藥,我2是26%,這表明雖然異構性是非常重要的,它是一個小的效果。
試驗的評價心肌梗死後鎂(我2= 63%)和病例對照研究調查的影響,電磁輻射對白血病(69%)都包括與多樣化的研究結果。高我2值表明,大多數可變性的研究由於非均質性,而不是機會。盡管沒有發現顯著的異質性對金剛烷胺,11矛盾是比較大(我2= 44%)。
圖2顯示的觀測值我2從509年的薈萃分析Cochrane係統評價的數據庫。幾乎一半的薈萃分析(250)沒有不一致(我2= 0%)。薈萃分析中一些異質性的分布我2大概是平的。
進一步的應用我2
我2也可以幫助調查原因和類型的異質性,如下的三個例子。
方法論的子組
圖3顯示了磁場和白血病的六個病例對照研究分成兩個子組基於評估的質量。19如果異質性中確定一個薈萃分析常見的選擇是子群的研究。因為失去動力,與子群內異質性可能是由於不是同質性而是較小數量的研究。異質性檢驗,P值較高的兩個子組(P = 0.3, P = 0.009)比完整的數據(P = 0.007),這表明更大的子組內的一致性。然而,的值我2顯示三個低質量的研究更不一致(我2比所有六個(= 79%)我2= 69%)(表2)。大大減少之間的矛盾存在高質量研究(我2= 15%),盡管不確定性區間的所有我2寬值。
太多的異質性是多少?
一個天真的分類值我2不會適合所有情況下,雖然我們會暫時分配形容詞的低,溫和,和高我2值的25%,50%和75%。圖2顯示,約有四分之一的薈萃分析我2值超過50%。量化的異質性是隻有一個組件的可變性更廣泛的調查研究中,最重要的是臨床和方法學方麵的多樣性。Meta-analysts還必須考慮的臨床意義研究觀察到的程度不一致。例如,給定的解釋程度的異質性在幾個研究將根據不同是否影響的估計顯示相同的方向。
的優點我2
注意力集中於任何異質性薈萃分析的影響
解釋是intuitive-the總變異的百分比在研究由於異質性
可以伴隨著不確定性區間
簡單的計算,通常可以來自出版的薈萃分析
沒有本質上取決於研究的薈萃分析的數量
可能解釋同樣不管結果數據的類型(如二分、定量或時間事件)和選擇效果的測量(如優勢比或風險比)
廣泛的應用
總結分
不一致的研究結果在一個薈萃分析減少建議治療的信心
不一致通常是評估測試的異質性,但問題的權力能給誤導的結果
一個新的數量我2,從0 - 100%,直徑不一致的程度的描述研究的薈萃分析
我2可以直接對比與不同數量的薈萃分析研究和不同類型的結果數據
我2比測試異質性在判斷證據的一致性
另一種異質性量化在薈萃分析研究中的方差(通常稱為τ2),計算作為隨機效應分析的一部分。這是比較更有用的子組之間的異質性,但值取決於治療的效果。我們相信,我2提供優於現有方法評估的異質性(盒)。專注於異質性的影響還避免了誘惑執行所謂的兩階段分析,薈萃分析的策略(固定或隨機效應方法)是由統計檢驗的結果。這些策略被發現是有問題的。2324因此,我們認為,我2比異質性在評估不一致的測試研究。
確認
我們感謝Keith O’rourke和伊恩·白有用的評論。
腳注
貢獻者作者所有工作,統計學家和在方法論上的豐富經驗,薈萃分析的實證研究和應用研究。JH, JD, DA coconvenors科克倫的統計方法。本文的觀點是作者。所有作者描述的方法的發展。JH和聖工作的發展更緊密地合作我2。JH擔保人。
資金這項工作的部分資金由MRC
相互競爭的利益沒有宣布