教育和辯論

測量不一致的薈萃分析

BMJ2003年;327年doi:https://doi.org/10.1136/bmj.327.7414.557(2003年04年9月出版)引用這個:BMJ327:557 2003;

朱利安·P T希金斯,統計學家(julian.higgins在{}mrc-bsu.cam.ac.uk)1,
西蒙·G·湯普森主任1,
喬納森·J Deeks高級醫學統計學家2,
道格拉斯·G奧特曼教授在醫學統計數據2

¹MRC生物統計學單位、公共衛生學院、劍橋CB2老2,
²英國癌症研究中心/ NHS統計在醫學,健康科學學院,牛津OX3 7低頻

函授:J P T希金斯

Cochrane綜述最近開始包括數量我²幫助讀者評估研究的薈萃分析的結果的一致性。這個新的數量是什麼意思,為什麼是異質性的評估對臨床實踐中如此重要?

係統評價和薈萃分析能提供令人信服的和可靠的證據有關的許多方麵醫學和衛生保健。1它們的價值尤其清楚當研究的結果包括展示類似規模的臨床重要的影響。然而,結論是不太清楚,包括研究有不同的結果。為了建立研究是否一致,薈萃分析的報告普遍存在異質性的統計檢驗。測試旨在確定是否有真正的差異基礎研究的結果(異質性),或者是否變化僅在發現是兼容的機會(同質性)。然而,測試容易試驗包括在薈萃分析的數量。我們已經開發出一種新的數量,我²,我們相信可以更好地展現出一致性試驗的薈萃分析。

需要的一致性

評估的一致性的影響研究是一個重要的薈萃分析的一部分。除非我們知道研究的結果一致,我們無法確定generalisability薈萃分析的結果。事實上,一些證據分級分層係統狀態研究的結果必須是一致的或均勻獲得最高評分。2^{- - - - - -}4

測試異質性是常用的決定相結合的研究方法和結論的一致性或不一致的結果。5 6但是測試實現在實踐中,和由此產生的P值應如何解釋?

測試的異質性

一個異質性檢驗零假設的測試中,所有的研究正在評估相同的效果。通常的檢驗統計量(科克倫的問)是由加法計算每個研究的平方偏差的估計的總體整合估計,每個研究的貢獻權重以同樣的方式在薈萃分析。7P值是通過比較用χ統計²分布與k1自由度(k是研究的數量)。

測試是窮人在檢測真正的異質性研究意義重大。薈萃分析通常包括少量的研究,6 8和測試的力量在這種情況下很低。9 10例如,考慮隨機對照試驗的薈萃分析的金剛烷胺預防流感(圖1)。11八個試驗中的治療效果似乎不一致:減少的幾率從16%變化到93%,不置信區間的重疊。但異質性的考驗收益率P值為0.09時,通常解釋為非重大的。因為測試是窮人在檢測真正的異質性,非重大的結果不能被視為同質性的證據。使用截止10%的意義12改善這一問題,但增加了風險圖一個假陽性的結論(錯誤)。10

Fig 1

Eight trials of amantadine for prevention of influenza.11 Outcome is cases of influenza. Summary odds ratios calculated with random effects method

圖1

八個試驗的金剛烷胺預防流感。11的結果是流感的病例。總結優勢比計算與隨機效應的方法

相反,測試可能是過度的權力當有許多研究,尤其是當這些研究都大。最大的薈萃分析Cochrane係統評價的數據庫三環類抗抑鬱藥的臨床試驗和選擇性5 -羥色胺再攝取抑製劑用於治療抑鬱症。13超過15 000名參與者從135年試驗包括在評估比較輟學率,異質性和測試是顯著(P = 0.005)。然而,這個P值並不合理描述異質性程度的試驗結果。稍後我們展示,這些試驗之間存在一個小矛盾但這並不影響評審的結論(5 -羥色胺再攝取抑製劑的停藥率低於三環類抗抑鬱藥)。

自係統評價彙集不同的臨床和方法論上的研究,非均質性在他們的結果是可以預料的。6例如,非均質性是通過多樣性可能出現劑量,跟進的長度,研究質量和參與者的入選標準。所以看起來小點簡單測試異質性時,重要的是它在多大程度上影響分析的結論。

量化異構性:一個更好的方法

我們開發了一個替代方法,量化異質性的影響,提供了一個衡量的程度不一致的研究結果。14數量,我們稱之為我²描述總變異的百分比在研究由於非均質性,而不是機會。我²可以方便地計算出基本從一個典型的薈萃分析結果我²= x (100%問- df) /問,在那裏問科克倫的異質性數據和df的自由度。負的我²將等於零,這樣嗎我²位於0%和100%之間。0%的值表示沒有觀測到的異質性,並顯示增加異質性較大值。

值的例子我²

的主要優勢我²是它可以跨薈萃分析計算和比較不同大小、不同類型的研究中,並使用不同類型的結果數據。表1給了我²值六一起發表的薈萃分析不確定性區間為95%。這些區間的上限表明同質性在小數量的薈萃分析研究的結論往往是不合理的。11 13 15^{- - - - - -}19

表1

異質性統計數據的薈萃分析文獻的例子。薈萃分析進行了使用元或metan占據¹⁵

把這個表:

他莫昔芬和鏈激酶薈萃分析,包括研究發現類似的效果,16 17有我²的值分別為3%和19%。這些表明之間的可變性的研究不能解釋的機會。審查比較輟學生的選擇性5 -羥色胺再攝取抑製劑與三環類抗抑鬱藥,我²是26%,這表明雖然異構性是非常重要的,它是一個小的效果。

試驗的評價心肌梗死後鎂(我²= 63%)和病例對照研究調查的影響,電磁輻射對白血病(69%)都包括與多樣化的研究結果。高我²值表明,大多數可變性的研究由於非均質性,而不是機會。盡管沒有發現顯著的異質性對金剛烷胺,11矛盾是比較大(我²= 44%)。

圖2顯示的觀測值我²從509年的薈萃分析Cochrane係統評價的數據庫。幾乎一半的薈萃分析(250)沒有不一致(我²= 0%)。薈萃分析中一些異質性的分布我²大概是平的。

圖2

分布的觀測值基於優勢比從509年的I2薈萃分析的二分結果Cochrane係統評價的數據庫。數據從第一組(如果有的話)在第一個薈萃分析(如果有的話)在每個審查,如果它涉及一個二分和至少兩個試驗結果與事件。薈萃分析進行metan占據15

進一步的應用我²

我²也可以幫助調查原因和類型的異質性,如下的三個例子。

方法論的子組

圖3顯示了磁場和白血病的六個病例對照研究分成兩個子組基於評估的質量。19如果異質性中確定一個薈萃分析常見的選擇是子群的研究。因為失去動力,與子群內異質性可能是由於不是同質性而是較小數量的研究。異質性檢驗,P值較高的兩個子組(P = 0.3, P = 0.009)比完整的數據(P = 0.007),這表明更大的子組內的一致性。然而,的值我²顯示三個低質量的研究更不一致(我²比所有六個(= 79%)我²= 69%)(表2)。大大減少之間的矛盾存在高質量研究(我²= 15%),盡管不確定性區間的所有我²寬值。

圖3

薈萃分析的六個病例對照研究有關住宅接觸電磁場兒童白血病。19日總結優勢比隨機效應計算方法

表2

更高級的應用²在三發表的薈萃分析評估異質性。進行了薈萃分析元或metan STATA15¹⁵

把這個表:

異質性相關措施選擇的影響

係統回顧臨床試驗的危重患者的白蛋白政府得出結論,白蛋白可能增加死亡率。20.這些研究沒有不一致的風險比率估計(我²= 0%)和一個狹窄的區間不確定性。表2顯示了異質性風險統計差異以及對風險比率。6個試驗在治療組無一例死亡不貢獻信息風險比率,但它們都提供估計的風險差異。使用P值來決定哪個規模更一致的數據21是不合適的,因為不同數量的研究。我²值可能有效進行比較,表明風險差異不太均勻,這是常有的事。22

臨床上重要的子組

我²也可以用來描述子組之間的異質性。表2包括結果複發試驗的薈萃分析的結果他莫昔芬的女性早期乳腺癌。有高度顯著(P = 0.00002)和重要的異質性(我²= 50%)的試驗。16然而,一個潛在的重要的異質性來源是治療的持續時間。作者將試驗分為三個類別和時間提供了一個整體的異質性測試,測試比較三個子組和測試子組內的異質性。我²值對應於每個測試顯示,96%的變化觀察三組無法解釋的機會。這是不清楚的P值。所有55試驗中極端矛盾複發的優勢比(我²= 50%)明顯減少(我²= 13%)一次治療持續時間占的差異。

太多的異質性是多少?

一個天真的分類值我²不會適合所有情況下,雖然我們會暫時分配形容詞的低,溫和,和高我²值的25%,50%和75%。圖2顯示,約有四分之一的薈萃分析我²值超過50%。量化的異質性是隻有一個組件的可變性更廣泛的調查研究中,最重要的是臨床和方法學方麵的多樣性。Meta-analysts還必須考慮的臨床意義研究觀察到的程度不一致。例如,給定的解釋程度的異質性在幾個研究將根據不同是否影響的估計顯示相同的方向。

的優點我²

注意力集中於任何異質性薈萃分析的影響
解釋是intuitive-the總變異的百分比在研究由於異質性
可以伴隨著不確定性區間
簡單的計算,通常可以來自出版的薈萃分析
沒有本質上取決於研究的薈萃分析的數量
可能解釋同樣不管結果數據的類型(如二分、定量或時間事件)和選擇效果的測量(如優勢比或風險比)
廣泛的應用

總結分

不一致的研究結果在一個薈萃分析減少建議治療的信心
不一致通常是評估測試的異質性,但問題的權力能給誤導的結果
一個新的數量我²,從0 - 100%,直徑不一致的程度的描述研究的薈萃分析
我²可以直接對比與不同數量的薈萃分析研究和不同類型的結果數據
我²比測試異質性在判斷證據的一致性

另一種異質性量化在薈萃分析研究中的方差(通常稱為τ²),計算作為隨機效應分析的一部分。這是比較更有用的子組之間的異質性,但值取決於治療的效果。我們相信,我²提供優於現有方法評估的異質性(盒)。專注於異質性的影響還避免了誘惑執行所謂的兩階段分析,薈萃分析的策略(固定或隨機效應方法)是由統計檢驗的結果。這些策略被發現是有問題的。23 24因此,我們認為,我²比異質性在評估不一致的測試研究。

確認

我們感謝Keith O’rourke和伊恩·白有用的評論。

腳注

貢獻者作者所有工作,統計學家和在方法論上的豐富經驗,薈萃分析的實證研究和應用研究。JH, JD, DA coconvenors科克倫的統計方法。本文的觀點是作者。所有作者描述的方法的發展。JH和聖工作的發展更緊密地合作我²。JH擔保人。
資金這項工作的部分資金由MRC
相互競爭的利益沒有宣布

引用

↵
1. 症米,
2. 戴維史密斯G
。薈萃分析:潛力和希望。BMJ1997年;315年:1371年- - - - - -4。
OpenUrl 免費的全文
↵
1. Liberati一個,
2. BuzzettiR,
3. 格雷利R,
4. MagriniN,
5. Minozzi年代
。我們指導方針可以信任嗎?西地中海J2001年;174年:262年- - - - - -5。
OpenUrl CrossRef PubMed 網絡的科學
1. 港口R,
2. 米勒J,
3. 蘇格蘭校際指南網絡分級審查小組
。一個新的係統基於證據分級的建議的指導方針。BMJ2001年;323年:334年- - - - - -6。
OpenUrl 免費的全文
↵
1. GuyattG,
2. 蘭尼D
1. GuyattG,
2. 辛克萊J,
3. 庫克D,
4. JaeschkeR,
5. SchunemannH,
6. Pauker年代
。從證據的行動。GuyattG,蘭尼Deds。用戶指南醫學文獻:循證臨床實踐的手冊。芝加哥:美國醫學協會,2002年:599年- - - - - -608年。
↵
1. PetittiDB
。異質性在薈萃分析方法。地中海統計2001年;20.:3625年- - - - - -33。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. 希金斯J,
2. 湯普森年代,
3. DeeksJ,
4. 奧特曼D
。臨床試驗統計異質性係統評價:一個關鍵的評價準則和實踐。Res J衛生服務政策2002年;7:51- - - - - -61年。
OpenUrl 文摘/免費的全文
↵
1. 科克倫工作組
。估計不同的組合實驗。生物識別技術1954年;10:101年- - - - - -29日。
OpenUrl CrossRef 網絡的科學
↵
1. Sterne江淮,
2. 症米
。漏鬥圖檢測偏差分析:選擇軸的指導方針。中國論文2001年;54:1046年- - - - - -55。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. 保羅老,
2. 唐納一個
。小樣本的性能均勻性測試的優勢比k 2×2表。地中海統計1992年;11:159年- - - - - -65年。
OpenUrl PubMed 網絡的科學
↵
1. 哈代RJ,
2. 湯普森SG
。檢測和描述在薈萃分析異質性。地中海統計1998年;17:841年- - - - - -56。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. 傑佛遜來,
2. DemicheliV,
3. DeeksJJ,
4. RivettiD
。金剛烷胺和金剛烷乙胺預防和治療甲型流感的成年人。科克倫數據庫係統轉速2002年;(4):CD001169
↵
1. DickersinK,
2. 柏林晶澳
。薈萃分析:尖端科學。論文牧師1992年;14:154年- - - - - -76年。
OpenUrl 免費的全文
↵
1. BarbuiC,
2. Hotopf米,
3. FreemantleN,
4. 博因頓J,
5. 丘吉爾R,
6. 埃克爾斯國會議員,
7. 戈德斯小,
8. 等
。與選擇性5 -羥色胺再攝取抑製劑(SSRIs)治療停藥和三環類抗抑鬱藥物(TCAs)。科克倫數據庫係統轉速2003年;(3):CD002791
↵
1. 希金斯JPT,
2. 湯普森SG
。在一個薈萃分析量化異質性。地中海統計2002年;21:1539年- - - - - -58。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. 症米,
2. 戴維史密斯G,
3. 奧特曼DG
1. Sterne江淮,
2. Bradburn喬丹,
3. 症米
。占據的薈萃分析。症米,戴維史密斯G,奧特曼DGeds。在衛生保健係統評價:薈萃分析。第二版。倫敦:BMJ雜誌,2001年:347年- - - - - -69年。
↵
1. 早期乳腺癌實驗合作組
。對早期乳腺癌三苯氧胺:隨機試驗的概況。《柳葉刀》1998年;351年:1451年- - - - - -67年。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. 劉J,
2. Antman新興市場,
3. Jimenez-SilvaJ,
4. KupelinkB,
5. Mosteller科幻小說,
6. 查爾默斯TC
。累計為心肌梗死的治療試驗的薈萃分析。N拉米夫地中海1992年;327年:248年- - - - - -54。
OpenUrl CrossRef PubMed 網絡的科學
1. 症米,
2. 戴維史密斯G
。誤導的薈萃分析。BMJ1995年;310年:752年- - - - - -4。
OpenUrl 免費的全文
↵
1. Angelillo如果,
2. 維拉裏P
。住宅暴露在電磁場和兒童白血病:一個薈萃分析。牛世界衛生機關1999年;77年:906年- - - - - -15。
OpenUrl PubMed 網絡的科學
↵
1. 科克倫損傷組白蛋白評論家
。危重患者的白蛋白管理:隨機對照試驗的係統評價。BMJ1998年;317年:235年- - - - - -40。
OpenUrl 文摘/免費的全文
↵
1. 恩格斯EA,
2. 施密德CH,
3. TerrinN,
4. Olkin我,
5. 劉J
。異質性在薈萃分析和統計意義:125年薈萃分析的實證研究。地中海統計2000年;19:1707年- - - - - -28。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. DeeksJJ
。問題彙總統計的選擇與二進製結果臨床試驗的薈萃分析。地中海統計2002年;21:1575年- - - - - -1600年。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. 弗裏曼公關
。兩級的性能分析兩種治療,兩年期交叉試驗。地中海統計1989年;8:1421年- - - - - -32。
OpenUrl CrossRef PubMed 網絡的科學
↵
1. Steyerberg電子戰,
2. Eijkemans喬丹,
3. HabbemaJD
。逐步選擇較小的數據集:偏見在邏輯回歸分析的模擬研究。中國論文1999年;52:935年- - - - - -42。
OpenUrl CrossRef PubMed 網絡的科學

視圖抽象

測量不一致的薈萃分析

需要的一致性

測試的異質性

量化異構性:一個更好的方法

值的例子我²

進一步的應用我²

異質性相關措施選擇的影響

臨床上重要的子組

太多的異質性是多少?

的優點我²

總結分

確認

腳注

引用

文章警告

登錄或注冊:

下載本文引用管理器

幫助

提出這一頁

內容鏈接

關於我們

資源

探索BMJ

我的賬戶

信息

搜索表單

測量不一致的薈萃分析

需要的一致性

測試的異質性

量化異構性:一個更好的方法

值的例子我2

進一步的應用我2

異質性相關措施選擇的影響

臨床上重要的子組

太多的異質性是多少?

的優點我2

總結分

確認

腳注

引用

文章警告

登錄或注冊:

下載本文引用管理器

幫助

提出這一頁

內容鏈接

關於我們

資源

探索BMJ

我的賬戶

信息

值的例子我²

進一步的應用我²

的優點我²