跳到主要內容

辛普森悖論可視化:羅格列酮薈萃分析的例子

摘要

背景

辛普森悖論有時在流行病學和臨床研究領域被提及。它也可以在隨機臨床試驗的薈萃分析中發現。然而,盡管讀者能夠從假設的和真實的數據中重新計算例子,但他們可能很難輕鬆地找出它的來源。

方法

首先,提出了兩種圖形來說明這種現象,散點圖和折線圖。隨後,這些可以被覆蓋,從而產生一個覆蓋圖。這些圖應用於最近的大型薈萃分析羅格列酮對心肌梗死的不良影響,並從文獻中的一個例子。為了進一步的例子,篩選了大量的薈萃分析。

結果

如前所述,在薈萃分析中出現辛普森悖論,如果存在,則與治療組大小的不平衡有關。擬議的情節很好地說明了這一點。羅格列酮薈萃分析顯示,如果合並所有試驗,效果逆轉。在157個薈萃分析的樣本中,9個在合並後顯示出效應逆轉,盡管在所有情況下都不顯著。

結論

這些圖表揭示了試驗組大小的不平衡是如何作為一個混雜因素發揮作用的,從而產生了辛普森悖論。讀者可以看到為什麼必須使用元分析方法,以及簡單的彙集有什麼問題。

同行評審報告

背景

辛普森悖論,又稱生態效應,於1903年由尤爾首次提出。1],並以辛普森1951年發表的文章命名[2]。它指的是這樣一種現象,即有時在一個人口的子群體中,兩個二分變量之間的關聯是相似的,比如女性和男性,但如果子群體中的個體沒有分層,則其符號就會改變。貝克和克萊默的一篇論文的標題就反映了這一點(“對女人好,對男人好,對人不好”,[3.])。有許多例子,特別是來自流行病學和社會科學領域的例子,表明關聯受到觀察到的或未觀察到的二分變量的強烈影響[4- - - - - -8]。甚至還流傳著一個基於辛普森悖論的故事。9]。其發生的原因是存在一個未被考慮的影響變量,通常未被觀察到。因此,這種效應似乎是觀察性研究的特征,可以通過隨機化來避免。

這是不正確的,正如其他人所指出的那樣。10- - - - - -14]。正如Altman和Deeks所指出的那樣,辛普森悖論並不是一個真正的悖論,而是一種偏見,如果不加以解釋,就會導致數據的異質性[10]。通常給出假設和實際數據示例的表格。然而,盡管這些例子很容易重新計算,但讀者,特別是臨床醫生和其他領域的從業者,仍有必要真正了解這一現象的本質。

貝克和克萊默提出了一個情節,後來被稱為貝克-克萊默(BK)情節,這個情節是很早以前由其他人獨立發明的,用來形象地說明辛普森的悖論[3.13- - - - - -15]。他們的例子來源於假設的數據。對於這個圖,要求影響變量是二分類的。然而,在薈萃分析的設置中,異質性的主要來源,因此最重要的影響變量是眾所周知的,而不是一般的二分法:它是變量“試驗”。在病例對照研究的薈萃分析中出現的辛普森悖論的一個完美例子是Hanley和Theriault [8]。在這項薈萃分析中,所有的單一試驗都顯示暴露個體的風險增加,而彙總分析則逆轉了這一效應。

作為隨機對照試驗薈萃分析的一個(不太完美的)例子,我們使用了最近對羅格列酮對心肌梗死和心血管疾病死亡風險影響的係統綜述[16]。它表明羅格列酮組心肌梗死顯著增加。作者發現Peto優勢比為1.428,置信區間為95% [1.031;1.979]和p值0.0321(固定效應模型)[17]。這項薈萃分析立即引發了一場討論,不僅涉及藥物的安全性,還涉及方法學問題,包括潛在的異質性、不同的隨訪時間、大量沒有或很少發生事件的試驗以及許多試驗中群體規模的不平衡[18- - - - - -20.]。使用幾種變體的Mantel-Haenszel方法重新分析數據發現,該效應的顯著性值得懷疑(比值比估計在1.26至1.36之間,其中大多數不顯著)[18]。雖然沒有一致的顯著性,但薈萃分析(所有方法)顯示,與對照組(任何其他方案)相比,治療組(羅格列酮)的事件過多。例如,采用風險差(固定效應模型,Mantel-Haenszel方法)得到的綜合估計為0.002(95%置信區間[0.000;0.004], p值為0.0549),估計NNH (Number Needed to Harm)約為489例患者。

這些數據的一個問題是大量的試驗沒有任何事件。如果結果是通過風險比或優勢比來衡量的,這些試驗通常被排除在薈萃分析之外,因為有人認為它們不能提供任何關於治療效果大小的信息[21]。為了使用所有可用的信息,對所有單個表進行簡單池化可能是相當誘人的。這似乎很方便,因為有相當多的雙零研究,盡管普遍的共識是不鼓勵這樣做[22]。如果對主要終點心肌梗死(MI)進行合並(盡管存在這種反對意見),我們實際上驚訝地觀察到合並的2 × 2表提供了相反的結果:治療個體的MI風險為0.0055,因此低於對照組(0.0059),見表1。合並優勢比為0.94,置信區間為95% [0.69;1.29] (p值0.7109)。這種由彙集產生的(不顯著的)效應逆轉被另一位作者觀察到,根據這些結果,他發現薈萃分析的結果“很有趣”[23]。這可以看作是辛普森悖論的一種溫和形式。

表1羅格列酮薈萃分析彙總數據(完整數據見參考文獻[16])

在下一節中,我們首先以羅格列酮為例,發展兩類情節來揭示和說明辛普森悖論和效應逆轉的機製。第三個情節出現在兩個情節的疊加上。在結果部分,我們將圖應用於Hanley和Theriault給出的數據[8討論方法和結果。論文以結論結束。

方法與結果

連續變量的辛普森悖論

用圖形表示數據的第一個想法非常簡單。它來自一個圖形,用於演示效果的連續版本。例如,考慮一個相關研究,其中數據按名義變量分組Z比如學習中心。條件相關性(即相關性)給出Z)的兩個連續變量XY的所有值都是正的Z。另一方麵,辛普森悖論發生的條件是之間的不同程度的Z握得越高X,低者為Y”。最能說明這一點的圖表如下圖所示1。它是一個分組散點圖,顯示了在每一水平內近似平行的上升回歸線Z,而是中點的遞減序列。我們現在的目標是把這個想法轉移到兩者的情況下XY二分。

圖1
圖1

兩個連續變量之間的相關散點圖XY,按名義變量分組Z不同的顏色代表不同的層次Z

二分類變量的辛普森悖論:散點圖

XY是二分類變量,其中X治療(1 =主動,0 =對照)和Y為感興趣的結果(例如,1 = MI, 0 =無MI,其中MI表示心肌梗死)。分組變量記為Z。在我們的元分析例子中,Z{1,…,N}是試驗(N羅格列酮薈萃分析= 42)。發生辛普森悖論,例如,如果(大多數)研究,事件Y在積極治療組更常見(X= 1),但是之間的研究表明,那些治療比例較大的患者(對應較高)X)傾向於表現較低的事件概率(對應較低)Y)。隻有在所有試驗中使用活性藥物治療的患者比例有很大差異時,這才有可能。正是這一點——在許多研究中明顯的組間不平衡——是羅格列酮薈萃分析的一個特征,正如原文[16]和與之相關的幾種反應,例如[18]。一些作者早前就指出了群體失衡與生態效應之間的聯係[81011]。

數字2(左圖)是上麵描述的連續圖的直接類比。而不是(二分類)變量XY它們自己,它們觀察到的頻率被使用。給出了一個簡單的散點圖,顯示了整個事件頻率PY= 1 |Z=)在…之內N試用= 1,…,N相對於比例PX= 1 |Z=接受積極治療的病人。治療比例的大分散,在隨機試驗中是不尋常的,可以清楚地看到。治療比例與事件概率之間的負相關(由擬合的未加權回歸線表示)可能導致錯誤的印象,即越多的患者接受積極治療,不良事件的頻率就會降低,從而可能產生辛普森悖論。

圖2
圖2

三個圖闡明了羅格列酮薈萃分析的效果逆轉:(a)積極治療組事件比例與患者比例的散點圖(左圖)。(b)顯示試驗內風險差異的線形圖(中間麵板)。0 =對照組,1 =積極治療組。(c)散點圖與線形圖疊加圖(右圖)。

二分類變量的辛普森悖論:一個線形圖

圖中給出了演示這一點的第二種方法2(中間麵板)。根據連續變量的散點圖,它顯示了實際的處理X(即0或1)x-軸和事件頻率取決於組(X= 0或X= 1),試驗(Z),即PY= 1 |XZ)y設在。屬於同一試驗的點由細線連接,以便不同的線表示不同的試驗。每個的斜率within-trial線對應於本次試驗的風險差異。在大多數試驗中,這條線顯示出增加的趨勢,表明積極治療組的不良事件更多,這與發表的薈萃分析結果一致。

此外,還繪製了另外三條線。綠線連接控製下和羅格列酮下估計的平均事件頻率,在試驗中計算,並以所有試驗的相同權重平均。藍線是相似的,但試驗現在加權了它們的精度,通過反向抽樣方差來衡量,從使用風險差異作為結果測量的薈萃分析中計算出來。兩條線都略有增加,反映了在試驗中平均發生的情況。

然而,紅線是通過簡單地折疊所有2 × 2表格而不通過試驗分層來計算的,折痕。原因是有許多不平衡的試驗,治療組大於對照組,同時事件發生率最低(見圖)2(左麵板)。我們可以通過在這個圖中添加更多的元素來可視化。單條試驗線的起點和終點用菱形標記,菱形的大小分別與本次試驗的對照組和實驗組的大小成正比。如果做到了這一點,單一試驗組對紅線的貢獻就變得明顯了。在我們的例子中,我們有一個大型試驗,在對照組中有許多事件(左),另一方麵,許多試驗中有較大比例的羅格列酮患者有低事件發生率(右)。

二分類變量的辛普森悖論:疊加圖

右麵板圖2顯示散點圖和折線圖的組合。散點圖中的圓和線形圖中特定於試驗的線被覆蓋,而回歸線、彩色線和菱形則為了清晰起見被跳過。對x-軸和線條現在略有變化。值xx-軸表示試驗中積極治療的所有可能比例。的y在給定的情況下,屬於某一特定試驗的直線上的值表示該試驗中事件的預期頻率X=x。如果X= 0,這對應於對照組中觀察到的事件的比例(截距)。如果X= 1,該值表示該試驗治療組觀察到的事件的比例。的這條直線由線性方程給出

y=PZ=Y= 1 |X= 0) + [PZ=Y= 1 |X= 1) -PZ=Y= 1 |X= 0)]x

這裏斜率是PZ=Y= 1 |X= 1) -PZ=Y= 1 |X= 0)為試驗中觀察到的風險差異Z=,如上文所述。如果我們插入forx所占的比例x0實際接受治療的病人就是這樣x0=PZ=X= 1),我們得到

y0=PZ=Y= 1 |X= 0) + [PZ=Y= 1 |X= 1) -PZ=Y= 1 |X= 0)]PZ=X= 1),

直接簡化後的結果是什麼y0=PZ=Y= 1),試驗中事件的總體發生頻率。這些值被標記為右麵板中直線上的圓圈,它們與散點圖(左麵板)上的圓圈相同。這個等式對應於[4]。

應用程序

我們將這些圖應用於Hanley和Theriault給出的病例對照研究的薈萃分析示例(數據參見參考文獻[8])。這些案例是患有白血病的兒童,引起興趣的是在住宅100米範圍內存在高壓電線。數字3.顯示此示例的繪圖。的y-軸是對數變換的,因為效果是用比值比來衡量的。散點圖(左側麵板)顯示,在病例對照比較低的研究中,暴露比例(居住在電力線附近的兒童,此處以對數賠率表示)較高。線形圖(中間麵板)顯示,在所有研究中,暴露與白血病有輕微關聯,分層薈萃分析也是如此(綠線和藍線),但在彙總樣本(紅線)中,關聯方向相反。菱形圖揭示了大病例組和對照組如何將紅線拉向相反的方向。直接疊加這些圖是沒有意義的,因為當使用非線性變換時y-軸時,散點圖的圓並不完全位於線形圖的直線上。相反,通過對方程(1)進行logit變換,我們得到了一個與覆蓋圖相對應的曲線。如圖右麵板所示3.

圖3
圖3

在病例對照研究的meta分析中,有三個圖說明了辛普森悖論:(a)發病頻率(對數賠率)與病例比例的散點圖(左圖)。(b)顯示研究內對數比值比的線形圖(中間麵板)。0 =對照組,1 =病例組。(c)曲線疊加圖(右圖)。

討論

羅格列酮薈萃分析的例子表明,即使所有的研究都是隨機臨床試驗,生態效應也可能發生。應用本例的散點圖顯示,積極治療組的患者比例越高,心肌梗死率越低。這不是治療的影響,而是本薈萃分析中納入的研究的人為影響。在一些試驗中,絕大多數接受治療的患者可以解釋為,作者在適用的情況下將多組患者合並接受羅格列酮治療[16]。另一方麵,許多研究的隨訪時間很短,因此觀察到的事件很少。偶然地,我們注意到這種異質性在研究設計中是存在的,盡管沒有跡象表明治療效果在任何尺度上的統計異質性,用的是τ2H224]。這些措施沒有捕捉到其他方麵的異質性。考慮到這一點,薈萃分析的結果表明,更多的不良事件歸因於治療而不是控製,這在[16],被其他人質疑[18]。

一般來說,即使與研究內關聯相反的強相關性也不一定會導致效果逆轉。隻有當治療組大小的差異大到足以抵消單個試驗中的治療效果時,才會發生這種情況。這可以通過檢查線形圖來判斷。折線圖顯示了每個單獨研究的處理效果,因為每條線的斜率對應於本研究中測量的處理效果。綠線的斜率為(均勻加權)平均處理效果,藍線的斜率為加權平均處理效果,後者對應於meta分析的結果。正如第二個例子所示,這類圖並不局限於風險差異。相反,它很容易概括為風險比或優勢比或其他治療效果度量的圖,如反正弦差[25],使用對數標度、對數標度或反正弦標度y分別設在。

如果y-軸不轉換,繪圖可以疊加。乍一看,疊加圖讓人聯想到所謂的bk圖[3.13- - - - - -15]。首先用一個隻有兩組(男性和女性)的假設情況來證明這一點,其中女性患者的比例為x-軸和兩種處理對應的兩條線[3.]。例如,bk圖被應用於醫學院的入學數據[26]。然而,我們的覆蓋圖與bk圖之間存在根本差異,如表所示2。在疊加圖中,x-軸表示變量“治療”,即接受積極治療的患者比例,線條對應於任意數量的分層(這裏是試驗)。然而,在bk的情節中,x表示二元混雜因素(即屬於兩個亞組之一的患者比例),線條對應於治療。實際上,引入BK-plot的初衷是為了闡明辛普森悖論,即對於治療變量和混雜變量都是二元的最簡單情況。這張圖隻包含兩條線和兩個圓。通過比較這兩條線上兩個圓的位置,我們可以了解到:如果辛普森悖論成立,這兩條線的方向相同,不相交,下麵線上的圓比上麵線上的圓高。這種兩兩比較循環的方法不適用於大型且可能異構的薈萃分析。混雜因素,這裏的試驗,不是二元的。此外,在薈萃分析中,辛普森悖論通常以一種一般化的形式出現:我們並不預先假設所有研究中的效果都有相同的方向。如果合並效應的標誌不同於研究內治療效應的標誌,則用薈萃分析方法估計效果逆轉。

表2疊加圖與Baker-Kramer圖[3]的比較

如前所述,僅看散點圖或疊加圖是不夠的,因為治療患者比例與與治療效果相反方向的事件頻率之間的強烈關聯不足以實現效果逆轉。基本信息是通過線形圖或使用整個三聯體圖給出的。

此外,我們篩選了大量的薈萃分析,以尋找這種現象的進一步例子。該數據集由瑞士伯爾尼大學社會和預防醫學係的Peter j尼提供,包括157項具有二元終點和兩個治療組的meta分析。我們以前曾將這些數據用於研究發表偏倚[27]。對於每個薈萃分析,使用風險差異(不失一般性),通過比較合並分析結果的符號與薈萃分析結果的符號,進行“辛普森檢查”。我們發現157個meta分析中有9個(5.7%)的症狀發生了改變。然而,在所有這些例子中,治療效果遠不顯著,薈萃分析和彙總估計的置信區間在很大程度上重疊。因此,符號的變化在統計學上是不重要的。

結論

羅格列酮的例子說明,即使所有的研究都是隨機臨床試驗,生態效應(辛普森悖論)也可能發生。然而,我們的實證研究表明,這並不是一個普遍現象。當它發生時,是由meta分析中納入的試驗中分配給主動治療和對照治療的比例嚴重不平衡引起的。通常的治療效果量表異質性測量方法對這種異質性並不敏感。

我們認為,這裏提出的圖表有助於澄清計算之外發生的事情。綜上所述,如果辛普森以元分析的方式麵對這個悖論,它們將幫助讀者理解其背後的原因。生成圖表的R代碼可向第一作者索取[28]。

參考文獻

  1. 統計屬性關聯理論述評。中華生物醫學雜誌,2003,22(2):121-134。10.1093 / biomet / 2.2.121。

    文章穀歌學者

  2. 列聯表中相互作用的解釋。統計學報,2001,13(3):388 - 388。

    穀歌學者

  3. Baker SG, Kramer BS:對女性有益,對男性有益,對人類有害:辛普森悖論和觀察性研究中性別特異性分析的重要性。婦女健康與性別醫學雜誌,2001,10(9):867-872。10.1089 / 152460901753285769。

    文章中科院PubMed穀歌學者

  4. Greenland S, Morgenstern H:生態偏差、混淆和效應修正。國際流行病學雜誌,1989,18:269-274。10.1093 / ije / 18.1.269。

    文章中科院PubMed穀歌學者

  5. Julious SA, Mullee MA:混淆和辛普森悖論。BMJ。[j] .中國科學:地球科學。

    文章中科院PubMed公共醫學中心穀歌學者

  6. D . Appleton D . French J . Vanderpump M .忽略協變量:辛普森悖論的一個例子。美國統計學家。1996,50(4):340-341。10.2307 / 2684931。

    穀歌學者

  7. Reintjes R, de Boer A, van Pelt W, de Groot JM:辛普森悖論:來自醫院流行病學的一個例子。流行病學雜誌,2000,11:81-83。10.1097 / 00001648-200001000-00017。

    文章中科院PubMed穀歌學者

  8. 漢利JA, Theriault G:薈萃分析中的辛普森悖論。流行病學雜誌,2000,11(5):613-10.1097/00001648-200009000-00022。

    文章中科院PubMed穀歌學者

  9. 愛德華A:一個警世故事。意義。2007,2:47-48。10.1111 / j.1740-9713.2007.00223.x。

    文章穀歌學者

  10. Altman DG, Deeks JJ:薈萃分析,辛普森悖論,以及需要治療的人數。中華醫學會醫學研究方法論。2002,2:3-10.1186/1471-2288-2-3。

    文章PubMed公共醫學中心穀歌學者

  11. 蓋茨CJ:辛普森悖論和數字的計算需要從元分析中處理。中華醫學會醫學研究方法論。2002,2(1):1-10.1186/1471-2288-2-1。

    文章PubMed公共醫學中心穀歌學者

  12. 李麗娟,劉建軍,李建軍,等。藥物安全性評價的meta分析。心血管醫學的當前對照試驗。2002,3:6-10.1186/1468-6708-3-6。

    文章PubMed公共醫學中心穀歌學者

  13. Baker SG, Kramer BS:隨機試驗的傳遞謬論:如果A在單獨的試驗中優於B和B優於C, A是否優於C?醫學研究方法,2002,2:13-10.1186/1471-2288-2-13。

    文章穀歌學者

  14. Baker SG, Kramer BS:隨機試驗,概括性和薈萃分析:二元結果的圖形見解。中華醫學會醫學研究方法論。2003,3:10-10.1186/1471-2288-3-10。

    文章PubMed公共醫學中心穀歌學者

  15. 全俊,全輝,裴俊:辛普森悖論的可能性。統計學報。1987,16(6):117-125。

    穀歌學者

  16. Nissen SE, Wolski K:羅格列酮對心血管疾病心肌梗死和死亡風險的影響。NEJM。中國生物醫學工程學報,2009,35(4):559 - 561。10.1056 / NEJMoa072761。

    文章中科院PubMed穀歌學者

  17. 張曉東,張曉東,張曉東,等。心肌梗死後β -阻斷治療的臨床研究進展。心血管病進展。1985,27:335-371。10.1016 / s0033 - 0620(85) 80003 - 7。

    文章中科院PubMed穀歌學者

  18. Diamond GA, Bax L, Kaul S:羅格列酮對心肌梗死和心血管死亡風險的不確定影響。中華內科雜誌,2007,47(8):578-581。

    文章PubMed穀歌學者

  19. Shuster J, Jones L, Salmon D:罕見事件研究的固定效應與隨機效應薈萃分析:羅格列酮與心肌梗死和心髒性死亡的聯係。醫學統計,2007,26:4375-4385。10.1002 / sim.3060。

    文章PubMed穀歌學者

  20. Carpenter JR, r cker G, Schwarzer G:致編輯的信。醫學統計。2007,[DOI: 10.1002/sim.3173]。

    穀歌學者

  21. Bradburn MJ, Deeks JJ, Berlin JA, Localio AR:無事生非:對罕見事件的元分析方法性能的比較。醫學統計,2007,26:53-77。10.1002 / sim.2528。

    文章PubMed穀歌學者

  22. Whitehead A:對照臨床試驗的meta分析。2002年,威利

    穀歌學者

  23. 羅格列酮與心血管風險。中華醫學雜誌,2007,31(9):937-938。10.1056 / NEJMc071602。[作者回複939-940]。

    文章中科院PubMed穀歌學者

  24. Higgins JPT, Thompson SG:量化meta分析中的異質性。醫學統計,2002,21:1539-1558。10.1002 / sim.1186。

    文章PubMed穀歌學者

  25. rcker G, Schwarzer G, Carpenter JR:二元結果薈萃分析發表偏倚的arcsin檢驗。醫學統計,2008,27(5):746-763。10.1002 / sim.2971。

    文章PubMed穀歌學者

  26. Wainer H, Brown LM:解釋群體差異的兩個統計悖論:以醫學院錄取和許可數據為例。統計學家。2004,58(2):117-123。

    穀歌學者

  27. Carpenter JR, Schwarzer G, r cker G, k nstler R:實證評估表明Copas選擇模型在80%的meta分析中提供了有用的總結。2007年,

    穀歌學者

  28. R開發核心團隊:R:統計計算的語言和環境。2006,R Foundation for Statistical Computing, Vienna, Austria, [ISBN 3-900051-07-0]。, (http://www.R-project.org

    穀歌學者

出版前的曆史

下載參考

致謝

GR由Deutsche Forschungsgemeinschaft (FOR 534 Schw 821/2-2)資助。作者希望感謝兩位審稿人對本文的有益評論。

作者信息

作者及單位

作者

相應的作者

對應到歌塔洛克

額外的信息

相互競爭的利益

作者宣稱他們沒有競爭利益。

作者的貢獻

GR構思了擬議的情節並起草了手稿。MS貢獻了曲線疊加的情節,並增加了文字。兩位作者都閱讀並批準了最終的手稿。

作者提交的原始圖片文件

下麵是作者提交的原始圖片文件的鏈接。

圖1的作者原始文件

圖2的作者原始文件

圖3的作者原始文件

權利和權限

本文由BioMed Central Ltd.授權發表。這是一篇基於知識共享署名許可(http://creativecommons.org/licenses/by/2.0),允許在任何媒體上不受限製地使用、分發和複製,前提是正確引用原創作品。

轉載及權限

關於本文

引用本文

r cker, G., Schumacher, M. Simpson悖論可視化:羅格列酮薈萃分析的例子。BMC醫學研究方法8, 34(2008)。https://doi.org/10.1186/1471-2288-8-34

下載引用

  • 收到了

  • 接受

  • 發表

  • DOIhttps://doi.org/10.1186/1471-2288-8-34

關鍵字

  • 羅格列酮
  • 風險的區別
  • 積極治療組
  • 線路圖
  • 影響降級
Baidu
map