係統回顧和薈萃分析觀察性研究的方法:建議的係統範圍回顧

莫妮卡穆勒^1，2，
Maddalena達達裏奧²，
馬提亞症¹，
Myriam Cevallos^3.，
奧拉夫Dekkers^4，5，
懷特裏Mugglin¹＆
.．.
皮帕·斯科特ORCID:orcid.org/0000 - 0003 - 0849 - 1812⁶

醫學研究方法學體積18，文章號:44（2018）引用本文

46 k訪問
179引用
64Altmetric
指標細節

摘要

背景

經常對觀察性研究進行係統回顧和薈萃分析，但目前沒有被廣泛接受的指導。我們對已發表的關於如何係統回顧和薈萃分析觀察性研究的方法學建議進行了係統的範圍綜述。

方法

我們搜索了在線數據庫和網站，並聯係了該領域的專家，以找到可能符合條件的文章。我們納入了關於如何對觀察性研究進行係統評價和薈萃分析的任何類型的建議的文章。我們提取並總結了關於預定義關鍵項目的建議:方案開發、研究問題、搜索策略、研究資格、數據提取、處理不同研究設計、偏倚評估風險、發表偏倚、異質性、統計分析。我們按關鍵項目總結了建議，確定了一致和不一致的領域，以及建議缺失或不足的領域。

結果

搜索確定了2461篇文章，其中93篇符合條件。許多對觀察性研究的回顧和薈萃分析的建議是從為隨機對照試驗的回顧和薈萃分析製定的指南轉移過來的。雖然在一些方法學領域取得了實質性的共識，但在如何進行觀察性研究的證據綜合方麵也存在相當大的分歧。在係統綜述和薈萃分析中納入不同的研究設計，使用質量量表評估偏倚風險，以及薈萃分析模型的選擇(例如固定效應與隨機效應)等主題上，存在相互衝突的建議。

結論

對於如何對觀察性研究進行係統綜述和薈萃分析，有必要提供合理的方法學指導，這些研究批判性地考慮了存在相互衝突的建議的領域。

同行評審報告

背景

由於倫理或方法學原因，許多研究問題無法在隨機對照試驗(rct)中進行調查[1]，大約80-90%的已發表臨床研究在設計上是觀察性的[2，3.］．弗雷明漢心髒研究、全國兒童發展研究和達尼丁多學科健康與發展研究是大型觀察性研究的例子，這些研究為重大公共衛生問題的危險因素和預防提供了重要信息[4，5，6］．

係統綜述和薈萃分析綜合了來自多項研究的證據，可能比單獨的個別研究提供更有力的證據。經常進行考慮觀察性數據的係統綜述，在對300篇係統綜述的調查中，64%的綜述包括觀察性研究[7］．重要的是，從觀察性研究中合成證據與從隨機對照試驗中檢驗證據時使用的方法不同。例如，定義研究問題和進行充分的文獻檢索的過程可能比隨機對照試驗的綜述更具迭代性，偏倚評估的風險是不同的，圍繞組合結果的決策需要更仔細的考慮，以避免薈萃分析得出精確但具有誤導性的結果[8，9］．

希望對觀察性研究進行係統回顧的研究人員應該為他們可能遇到的挑戰做好準備。然而，關於如何對觀察性研究進行係統評價的指南不如隨機對照試驗的評價指南那麼容易獲得。由於觀察性研究在許多方麵與隨機對照試驗不同，針對隨機對照試驗的綜述的指導應謹慎應用於觀察性研究[10，11］．18年前發表的一份方法學指南側重於如何報告觀察性研究的薈萃分析，而不是如何進行此類研究[12］．該指南還主要將rct的證據合成知識直接轉移到觀察性研究的證據合成。本文旨在回顧如何對觀測數據進行係統評價和元分析的方法學建議。它還旨在突出已發表的建議之間的相似點和重要差異，以指導未來的研究。

方法

我們使用先前描述的方法學方法進行了係統的範圍回顧[13，14，15]，並遵循開始審查之前編寫的協議(見附加文件1)．

資格準則及定義

如果已發表的文章提供了至少一個與觀察性研究的係統評價和薈萃分析相關的關鍵方法學項目的建議，則納入已發表的文章1)．關鍵項目是先驗定義的，並基於報告係統評價或薈萃分析的指南[10，11，12］．我們納入了非隨機研究和準實驗研究或偽隨機對照試驗，因為當不可能采用隨機方法時，這些研究經常用於評估醫療保健和公共衛生幹預[16］．我們認為建議是任何方法上的陳述，告知讀者如何進行觀察性研究的證據綜合(例如“任何彙總估計都必須考慮到研究間的異質性。在實踐中，該測試對檢測異質性的敏感性較低，有人建議使用自由顯著性水平，例如0.1’)［16］．我們不認為一份建議是對方法論原則的一般性陳述，而沒有為讀者提供明確的建議(例如:“這一步所涉及的數學過程通常涉及將不同研究的結果合並(彙總)成一個總體估計。與個別研究的結果相比，彙總結果可以提高統計效力，並導致對治療效果的更精確估計”)(16］．我們排除了1994年以前發表的文章，因為我們認為係統評價方法的發展始於Cochrane手冊的首次出版。我們還排除了那些報告了觀察性研究綜述結果而沒有就如何進行此類綜述的方法學方麵提出建議的文章。專注於隨機對照試驗、成本效益研究或診斷研究的文章也被排除在外。

表1觀察性研究的係統評價或薈萃分析的方法學關鍵項

全尺寸表

文獻檢索

我們的文獻搜索基於理論飽和的原則[17，18]，目的是找出所有相關的建議，而非所有相關的文章。我們通過搜索電子數據庫(Medline和Cochrane方法注冊(CMR))和審查中心的特定網站(Cochrane圖書館、評論和傳播中心(CRD)、坎貝爾合作、蘇格蘭校際指南網絡(SIGN)、醫療保健研究和質量機構(AHRQ)、赤道網絡、國家健康和護理卓越研究所(NICE)、有效公共衛生實踐項目)和喬安娜布裏格斯研究所[19，20.，21，22，23，24，25，26，27，28］．我們篩選了所有專注於證據合成的特定期刊的在線問題(研究合成方法，係統評論和流行病學評論)。為了完成我們的搜索，我們聯係了該領域的專家以獲得更多的參考文獻，並將收錄全文中引用的相關文章添加到潛在符合條件的論文列表中。我們在Medline中進行了敏感性搜索以確定最終的搜索策略(附加文件)2)．對於其他數據庫或網站，我們使用了“係統評價”、“元分析”和“觀察”等術語的組合。我們在搜索中沒有語言限製。初步搜索工作於2014年1月進行。2017年2月重複了搜索，CMR除外，因為數據庫自2012年年中以來沒有更新過。

文章選擇和數據提取

每個標題和摘要都由兩名審稿人獨立篩選，並就至少一個關鍵項目提出建議。然後對所有被認為可能符合條件的文章全文進行資格評估。關於資格的分歧通過與高級方法學家(M.E, O.M.D.或P.S.)討論來解決。

我們將所有納入的文章隨機分配給三對審稿人，由他們獨立記錄論文中涉及的關鍵項目並提取相關文本。對提取的文本通過討論達成共識，分歧通過谘詢高級方法學家(m.e.， O.M.D.或P.S.)來解決。我們還從每篇納入的文章中提取了一組有限的標準變量，以總結建議的來源，包括檢索文章的數據庫，第一個和最後一個作者的從屬關係(分類為國際係統評審方法組織;統計或流行病學部門;或專科臨床/健康相關部門)和期刊類型(一般國際醫學期刊;國際醫學專家雜誌;國家醫學雜誌;統計/流行病學雜誌》;或係統評價方法期刊)。我們還確定了每篇文章所針對的研究設計[13，14，15］．我們將每個提取的建議分配給一個方法關鍵項目。我們沒有評價納入的文章和建議的方法學質量，因為目前缺乏廣泛接受的係統評價和觀察性研究的薈萃分析標準。我們使用描述性方法總結數據，並對提取為文本的建議進行定性專題分析。

結果

識別合資格物品

這些搜索確定了2461篇文章。電子數據庫和網站提供了2412篇文章(圖。1)，以及專家谘詢和篩選全文的參考文獻，又增加了49項。在剔除193個條目(重複、出版日期以外、圖書)後，篩選了2268個條目。最常見的排除原因是沒有對關鍵項目提供建議(2122條)。我們收錄了93篇文章。

建議概述

表格2顯示每篇文章中建議處理的關鍵項目。納入的93篇文章中，隻有一篇(1%)涉及所有關鍵項目[29]， 56篇(60%)文章對兩個或兩個以上的關鍵項目提出了建議，37篇(40%)文章隻對一個關鍵項目提出了具體的建議。表格3.顯示每個關鍵項目中的主要建議主題。參見附加文件3.表S1顯示了每篇文章的期刊類型和作者關係，提供了有關建議來源的信息。大多數文章(62%)發表在統計學、流行病學或係統綜述方法學期刊上，其次是醫學期刊29%和健康科學期刊9%。在納入的文章中，72%的作者隸屬於係統評價組織或大學統計/流行病學部門。我們發現，對於“研究問題”、“研究資格”、“考慮不同的研究設計”、“偏倚評估風險”、“發表偏倚”和“統計分析”等關鍵項目的建議存在衝突(表2)4)．

表2研究特點及重點項目建議

全尺寸表

表3 93份出版物按關鍵項目列出的建議摘要

全尺寸表

表4建議衝突的關鍵項目

全尺寸表

協議開發

16篇文章(17%)提供了關於關鍵項目“協議開發”的建議(表2)3.), (29，30.，31，32，33，34，35，36，37，38，39，40，41，42，43，44]，出版日期在1994年至2015年之間(出版年中位數為2009年)。大多數文章強調了製定係統審查方案的重要性。他們提出了類似的建議，但在編寫協議的原因和協議中要處理的要素方麵略有不同。撰寫方案的最常見原因是通過預先指定研究選擇標準來減少研究選擇中的偏倚[37，38，40，42］．其他原因還包括確保可複製性[34]，並記錄檢討所采用的所有程序[31］．這些條款建議議定書應述明目標、待檢驗的假設和審查的理由，[29]，並應說明申請資格的準則[29，33，35，36，38，39，41]，界定納入研究的類別[35，37，42，44]，並說明在綜述中納入觀察性研究的原因[35，37，40］．此外，建議方案應定義用於偏倚風險評估、meta分析和異質性探索的方法[41，42，44］．

研究問題

20篇文章(22%)就關鍵項目“研究問題”提出建議[29，30.，35，36，38，39，40，41，42，43，45，46，47，48，49，50，51，52，53，54]，出版日期在1997年至2015年之間(出版年中位數為2009年)。所有文章都將研究問題描述為定義範圍和證明係統評價的基本原理的基本基礎。經常被提及的需要解決的重要方麵是人口、暴露或幹預措施以及結果[38，39，40，41，43，47，48，50，54］．兩篇文章建議回顧問題說明哪些研究設計將在回顧中被考慮[47，48］．有一些分歧(表4)研究問題是否應具體(狹義表述)[51，53]，或一般的(廣義的)[35，47，49］．一篇文章指出“一個集中的研究問題是至關重要的。所提出的問題需要在科學上盡可能精確"［51而另一個人則反駁說“審查需要關注有意義而不是微不足道的結果。所選擇的審查重點，無論是廣義的還是狹義的，本身不會影響審查的質量，但會影響其相關性。”［49］．

搜索策略

33篇文章(35%)就關鍵項目“搜索策略”提出建議[12，29，30.，33，34，35，36，38，39，43，46，47，48，49，50，51，53，54，55，56，57，58，59，60，61，62，63，64，65，66，67，68，69]，出版日期在1995年至2016年之間(出版年中位數為2007年)。大多數文章討論了係統綜述的一般方麵，包括不同文獻來源和數據庫的優勢和局限性，搜索工具，識別未發表研究的重要性，文獻搜索技術，包括如何構建搜索字符串和報告[12，29，33，34，35，36，46，48，50，51，53，54，57，59，60，61，62，67，68］．

大約三分之一的文章承認，由於缺乏特定的搜索過濾器和建立不佳或使用不一致的索引術語，搜索觀察性研究需要額外的時間和資源[38，39，47，49，56，58，59，64，65］．在觀察性研究的綜述中，找到所有可用的信息可能沒有在隨機對照試驗的綜述中那麼重要[43］．一篇文章指出，“標題和摘要中的研究報告很少使用描述研究設計的明確術語。病例係列、隊列、觀察性、非隨機和非比較(包括這些術語的變體)等術語僅在一小部分記錄中出現，因此敏感性較低“(58］．由於這一點和對觀察性研究索引不足，經常在檢索中檢索大量研究，導致資源使用效率低下。

雖然不同文章中給出的建議之間沒有直接衝突，但為了有效地搜索，提出了許多策略。例如，一項建議是在進行不良反應審查時，使用特定於幹預措施的術語(例如藥物名稱、仿製藥或商品名稱)和研究設計來構建搜索策略[64］．另一項建議是創建兩個不同的搜索詞:一個用於對研究設計沒有限製的較早日期，另一個用於較近的日期，在數據庫中引入研究設計搜索詞後，應用了研究設計限製[59］．另一篇文章探討了使用語義概念識別軟件來選擇搜索詞，以補充專家的搜索詞選擇[69］．

研究的可行性

22篇(24%)就“研究資格”這一關鍵項目提出建議，[12，29，30.，33，34，37，38，39，41，42，43，46，47，48，54，55，61，65，70，71，72，73]，出版日期在1995年至2016年之間(出版年中位數為2009年)。

許多人建議預先訂明資格準則[30.，33，38，39，47，55，65]以及厘定資格準則的理據須有明確的理由[38，39，65]，不含糊的[65]，由複核問題[47］．與對隨機對照試驗的綜述類似，有人建議應根據感興趣的人群、幹預措施、結果和研究設計來定義標準[47，54]，但也提出了觀察性研究回顧的修改版本:條件、背景和人群(“CoCoPop”)[72］．一篇文章強調，為資格標準和“展示這些標準如何將潛在的偏差和混淆最小化”至關重要[38］．另一篇文章建議，納入標準，特別是關於符合條件的研究設計，可能因同一綜述中檢查的不同結果而有所不同[42］．五篇文章給出了如何評估資格的建議:應該是盲目的[29，30.，46]，獨立的[29，33，46，48]，並由兩名評審員執行[29，30.，33，48］．一篇文章建議使用專家小組來決定研究的納入地位[48］．

我們發現在出版語言、資格標準寬度、全文或摘要評估以確定資格以及如何處理副本等方麵的建議相互矛盾(表2)4)．推薦的一篇文章包括"所有研究，不論發表的語言是什麼"［30.]，而另一個人建議“包含所有語言的論文實際上可能會在元分析中引入更多偏見”［61］．關於資格準則的寬度，有些作者認為，寬泛的準則可保持概括性[12，38，54]，而另一些人則主張狹窄的標準可能會減少研究之間的異質性[46，54］．一篇文章建議基於摘要的決定[55]，而另一篇文章則指出摘要所攜帶的信息不足以確定是否合格，因此有必要查閱全文[65］．一些作者認為“作者必須小心避免出現多篇出版物的研究的多重收錄”［61]，而其他人則建議合並同一研究的多個報告，以獲得單一的“最佳”答案，或包括最新和最完整的研究[33，70］．

數據提取

九篇文章(10%)就如何進行數據提取提出建議[29，33，34，35，38，43，47，48，74]，出版日期在1995年至2016年之間(出版年中位數為2009年)。一般認為數據提取應使用標準化表格[29]以避免遺漏[74］．幾篇文章提供了有關要提取的信息類型的資料[29，38，43，47，48]例如人口特征和研究環境(包括環境和文化因素);［47，48]幹預措施的詳情[47]，暴露[34]，結果包括樣本量、點估計和標準誤差;［34，47，48]以及方法學研究質量的要素[29，47］．一篇文章特別建議對觀察性研究提取和分析調整後的結果，因為在任何觀察性研究中都預期會出現混雜[38］．幾篇文章建議數據應由兩名獨立的審稿人提取，以避免錯誤[29，33]，或者那些評估方法質量的人對作者的名字、他們的機構和期刊的名字視而不見，會導致更一致的提取[29，34］．關於不良影響，有人指出“沒有提及不良反應並不一定意味著沒有發生不良反應。通常最安全的假設是它們沒有被確定或沒有被記錄:作者必須選擇是否將該研究排除在不良反應分析之外，或者在例外情況下，假設發生率為零“(35］．

考慮不同的研究設計

25篇(27%)文章就“考慮不同的研究設計”提出建議[8，29，34，35，37，38，39，42，44，49，51，56，61，65，70，73，75，76，77，78，79，80，81，82，83]，出版日期在1995年至2016年之間(出版年中位數為2007年)。大多數文章考慮了隨機對照試驗和非隨機設計的組合[29，35，38，39，49，51，56，61，75，81］．隻有5篇文章提到不同的非隨機研究的組合[38，70，75，79，80］．主要就2個問題提出建議:是否應將不同的研究設計納入係統評價;［29，34，37，38，39，49，56，65，73，75]以及不同的研究設計是否應在單一的元分析中一起分析[8，34，35，37，38，42，49，51，56，61，70，75，78，79，80，81，82，78］．在這兩個問題上有很大的分歧(表2)4)．

一篇文章建議既不要在係統綜述中納入不同的研究設計，也不要在薈萃分析中結合它們的結果[29］．五篇文章不鼓勵在元分析中結合不同的研究設計，但看到了在係統綜述中包括不同設計的附加價值[35，38，56，61，75］．人們一致認為，在數據的可用性和觀察性研究中固有的額外偏差的引入之間存在平衡。在如何做出決定的問題上，各條條文存在分歧。一些人給出了寬泛的說法，比如“任何比較研究設計，如隊列研究、病例對照研究、純病例方法、間斷時間序列、曆史對照試驗、病例交叉和流行病學研究等，如果它們有助於回答研究問題，都應考慮納入”，［49]或“理想情況下，研究人員應該考慮隻納入適當隨機的患者對照試驗，根據治療意向原則報告所有最初納入的患者，並進行客觀的、最好是盲的結果評估。”［29］．最近的兩篇文章主張根據具體情況作出決定[37，65］．一篇文章指出，“評論作者應....根據他們對文獻的背景知識，仔細考慮什麼樣的NRS最適合係統評價來解決評價方案中規定的PICO問題。”［38］．另一篇文章建議“綜述作者可能需要在綜述中針對不同的研究問題設置不同的資格標準“(65］．當納入觀察性研究時，工作量通常較高，也被認為是決定納入何種研究設計的一個因素[75］．

作者一致認為，在薈萃分析中結合不同的研究設計，如果沒有仔細考慮，可能會導致誤導性的結果[35，38，56，70，75，76］．一些作者指出“元分析可能給出平均偏差的精確估計，而不是對幹預效果的估計”還有"研究結果之間的異質性可能反映了不同的偏見，而不是幹預效果的真正差異。”［75］．一些作者同意研究設計應作為研究異質性的潛在來源進行調查[8，34，42，77]，其他人建議將每種研究類型的薈萃分析與總體薈萃分析的結果一起呈現[42，83］．然而，對於如何處理不同研究設計帶來的異質性，幾乎沒有達成共識。一些作者建議，隻有在沒有明顯異質性的情況下，才應將結果合並到單一薈萃分析中[34，51］．兩篇文章建議，如果異質性較大，則根據研究設計進行分層;如果異質性較小，則根據研究設計進行調整[51，77］．另一篇文章強調，適當組合來自多個研究設計的數據的方法需要進一步發展[78］．

偏倚風險評估

39篇文章(42%)對個別研究的質量和偏倚風險評估提出了建議，[12，16，29，30.，32，33，34，35，37，38，43，47，48，49，50，52，53，54，56，64，65，66，70，71，73，75，77，82，84，85，86，87，88，89，90，91，92，93，94]，出版日期在1994年至2016年之間(出版年中位數為2009年)。“偏倚風險”一詞在18篇文章中被特別使用，這些文章都是最近幾年發表的(中位數出版年份為2012年，而其他文章的中位數出版年份為2007年)。幾篇文章對個別研究的偏倚風險和綜述提供的證據質量進行了區分。例如，在GRADE係統中，證據體的質量不僅可能受到個別研究的高偏倚風險的影響，還可能受到影響估計不精確、不同研究結果不一致、研究結果的間接性(即缺乏適用性)和發表偏倚的其他方麵的影響[84，93］．

所有文章都建議對係統綜述和薈萃分析中納入的觀察性或非隨機研究的偏倚風險進行係統評估，以便能夠衡量證據體的強度。正如一篇文章所說，"不評估每項研究，就不可能確定偏差和/或混淆對結果的影響程度"［50］．10篇文章強調了完整報告所有相關方法學方麵的必要性，作為評估研究偏倚風險的先決條件，[16，33，35，47，50，56，86，87，90，91]是流行病學觀察性研究meta分析(MOOSE)小組發表的一篇文章中建議的重點[12］．人們也普遍認為，在評估觀察性研究的偏倚風險時，缺乏關於哪些研究特征最重要的經驗證據，並且沒有被廣泛接受的工具存在。ROBINS-I是最近發表的一個工具，為評估幹預措施的非隨機研究中的偏倚風險提供了一個框架[82］．該工具將每項研究視為模擬假設隨機試驗的嚐試，並為每個結果提供跨七個偏倚域的總體偏倚判斷風險。

對於如何評估偏倚風險存在分歧(表2)4)．一些文章建議使用質量量表和為每項研究計算的總結評分，而另一些文章則主張采用組件方法。成分法建議開發一組項目，以與符合條件的研究最相關的偏倚領域為指導，並建議單獨評估每個項目，而不計算任何總結得分。大部分文章建議不使用體重計，但有12篇文章建議使用體重計[29，30.，48，49，50，52，53，56，66，77，86，91］．推薦組件方法的文章比推薦使用量表和摘要評分的文章發表得更晚。

發表偏倚

20篇(22%)論文報告了“發表偏倚”一項[16，29，33，34，36，46，48，49，50，55，56，61，70，78，85，95，96，97，98，99]，出版日期在1994年至2012年之間(出版年中位數為2001年)。

一個經常被提出的問題是，是否可以通過納入未發表的研究來最大限度地減少發表偏倚。幾篇文章明確建議搜索和包括未發表的研究[34，48，50，61，96]，認為未發表的研究結果可能與已發表的研究有係統性差異。一篇文章推薦作為消除發表偏見的第一步，元分析師需要從未發表的研究中獲取信息。”［48］．然而，一些作者認為，由於非同行評議文章的方法學質量較差，納入未發表的研究也可能引入偏倚:“未發表報告的質量必須嚴格審查，因為它們可能沒有經曆與已發表文獻相同的同行評審。”［34］．

自“期刊通常更有可能發表有差異的結果，而不是那些沒有差異的結果。”［48]，而發表偏倚難以消除，不同的文章建議使用漏鬥圖來圖形化地檢查其存在，或使用統計測試來評估[16，36，48，55，85，97，99］．然而，其中一些文章在使用漏鬥圖或統計測試時也引起了關注。他們指出，“通過漏鬥圖檢測偏差並不像看起來那麼明顯。在任何給定的時間都可能存在幾種類型的偏置機製;例如，在發表小型研究(即使是重要的)的結果時，可能存在偏見，也可能反對發表不重要的結果……”［48)，以及“這種檢查很重要，但也會受到分析師主觀預期的影響。”［85］．其他人強調，結果可能因選擇結果量表而異(例如奇比vs.風險差異)[99］．

關於觀察性研究的綜述是否比隨機對照試驗的綜述更容易出現發表偏倚的討論很少。一篇文章指出，“在某些情況下，隨機對照試驗可能比非隨機對照試驗更容易受到傳播偏倚的影響。例如，對於具有強烈經濟利益的主題，rct更有可能由具有競爭利益的讚助者資助，因此如果獲得有利的結果，rct更有可能發表“(99］．

非均質性

39篇(42%)就異質性及其評估提出建議，[8，12，16，29，30.，33，34，36，38，39，41，42，43，44，47，49，50，51，52，54，55，56，61，66，70，72，77，82，85，87，98，One hundred.，101，102，103，104，105，106，107]，出版日期在1994年至2016年之間(出版年中位數為2006年)。所有的文章都認為異質性的檢查是觀察性研究的元分析的核心特征。正如一篇文章所述“仔細進行的元分析應包括對同質性假設的評估，如果發現存在異質性，則應仔細分析其來源“(34］．研究間異質性的來源可能與設計(例如病例對照研究vs對照研究，不同隨訪期)、偏倚風險(例如盲法vs非盲法結果評估)或納入研究人群的臨床特征(例如研究間不同的年齡分布)有關[71，98］．異質性可以使用統計度量來探索，例如I²-和Tau²-或q統計量，在元回歸分析中[54，72，105］．

一個常見的建議是探討敏感性分析中的異質性，比較按設計或臨床特征分層的研究[12，16，29，34，39，51，55，56，66，77，85，One hundred.，102］．許多人建議預先定義這些亞組，以降低假陽性結果的風險[33，52，77，106］．一篇文章建議通過從分析中剔除一項或多項研究來探索研究異質性，並將結果與包括所有研究的主要分析進行比較[55］．這一建議的一個變體是排除高偏倚風險的研究[42，44，54，73，82］．

統計分析

52篇文章(56%)在觀察性研究的元分析的背景下提供了統計分析的建議[8，12，16，29，30.，31，33，34，35，36，38，41，42，43，44，47，48，52，54，55，56，61，66，70，72，73，77，79，80，81，82，83，85，87，96，One hundred.，101，103，104，105，107，108，109，110，111，112，113，114，115，116，117，118]，出版日期在1994年至2016年之間(出版年中位數為2006年)。考慮了兩個主要問題:是否將結果集中在一個單一的效果估計中;以及固定效應模型和隨機效應模型之間的選擇。其他主題包括元回歸，而很少有文章關注更具體的統計問題，如劑量-反應分析[81，109，111，113]、可信度上限[110]，偏差調整[112]，層次模型[117]，或回歸偏倚[108］．

許多人認為異質性對於決定是否將數據集中起來很重要[34，36，47，55，56，66，101，103］．然而，對於如何進行池化存在分歧。可以區分出三種互不排斥的方法。首先，基於測試的方法:執行異構性測試，或者類似地，使用已定義的I²閾值，以決定數據是否應該組合，以及使用哪個模型。作者建議，如果異質性太高，就不要進行池化[35，38，47，85，103]，並使用異質性的統計措施在隨機效應(在異質性的情況下)和固定效應模型之間進行選擇[55，66］．例如:不拒絕零假設假定研究之間存在同質性，研究之間的差異是由於隨機錯誤。在這種情況下，固定效應分析是合適的“(55］．然而，這種方法經常受到批評，因為在很少(< 10)納入研究的情況下，檢測異質性的能力較低[52，77，101，104，116，118］．其次，經常推薦默認使用隨機效應模型進行觀察性研究的元分析[8，16，29，34，70，77，One hundred.，101］．盡管隨機效應模型在統計上考慮了異質性，但缺點是它可能會“將注意力從異質性的關鍵來源轉移，[…]，隻有在徹底搜索異質性來源後，仍然存在重要的異質性時，才應該使用這種總結。”［85］．第三種方法在決定合並和選擇模型時，將臨床和統計因素考慮在內[31，38，41，44，47，61，116，因為”統計檢驗不能彌補常識、臨床敏銳性和生物學合理性的不足。”［16］．因此，20年前的這句話今天仍然適用。”如何對觀察性研究進行薈萃分析以及在異質性存在時使用的方法需要達成共識。”［One hundred.］．

討論

我們發現93篇文章就如何對觀察性研究進行係統回顧和元分析提供了建議。隻有一篇發表於1997年的文章分別論述了我們研究的10個方法論方麵[29］．許多觀察性研究綜述的建議都是不加批判地從rct綜述轉過來的。為觀察性研究的證據合成提供建議的文章很難找到，而且經常給出相互矛盾的建議。關於如何對觀察性研究進行證據綜合的綜合性指導文件是缺乏的。與觀察性研究的證據合成特別相關的最重要的分歧領域是要解決的研究問題的寬度;在同一綜述中考慮隨機和非隨機研究;將隨機和非隨機研究的結果彙集在一個薈萃分析中;觀察性研究的質量評估使用總結評分。這些領域需要進一步的方法研究。

本研究的一個優勢是對現有的關於如何對觀察性研究進行係統回顧和薈萃分析的方法學建議進行了係統搜索和綜合。係統方法包括廣泛搜索以確定相關建議，由兩名審稿人進行資格評估和文本提取，以及根據先驗定義的關鍵項目或主題對建議進行結構化總結[10，11，12］．另一個優點是我們納入了不同研究設計是否應合並的關鍵項目，這在觀察性研究的證據合成中比在隨機對照試驗的證據合成中更相關。在電子數據庫中查找方法學論文具有挑戰性:相關文章的索引可能不同，而且沒有關鍵字來搜索這類文章[18］．為了克服這個問題，我們在Medline上使用了廣泛的搜索詞，還搜索了多個其他來源，並聯係了該領域的專家。我們承認，通過收錄基於標題和摘要的文章，我們可能會遺漏一些相關的文章。然而，我們的研究是由理論飽和的方法學原則指導的[17，18］．理論飽和表明在方法學研究中不需要識別每一篇文章。一旦確定了一組涵蓋所有相關方法學方麵的方法學文章，額外的搜索對最初一組文章中已經出現的思想幾乎沒有任何補充。我們在綜述中排除了書籍，因此沒有包括Cochrane手冊[10］．Cochrane手冊的主要重點是綜合隨機對照試驗的證據。我們篩選了關於觀察性研究的部分，沒有發現在我們的綜述中包含的文章中沒有涵蓋的其他建議。我們沒有評估建議的合理性，而是報告了一份建議清單，重點是相互矛盾的陳述，指出需要進一步澄清和研究的地方。但是，我們報告了每篇文章的來源(見附加文件)3.:表S1)以方便讀者對建議進行批判性評估[13］．最後，我們避免深入討論統計方法，這超出了本文的範圍。

鑒於係統綜述和薈萃分析中越來越多地使用觀測數據[7]，對於審稿人來說，獲得關於如何對觀測數據進行係統評價和元分析的合理方法學建議至關重要。以前的倡議主要集中在改進觀察性研究的回顧報告[11]，或觀察性研究本身[12］．關於觀察性研究綜述的建議應針對此類綜述，而不是作為“標準”RCT綜述的變體。審稿人可獲得的大部分建議都集中在rct上，盡管許多程序在觀察性研究的綜述中相似，但有一些重要的具體考慮，如合格研究設計的選擇、偏倚風險評估的方法、對異質性來源的特別注意以及統計方法的選擇。對於rct係統綜述的元流行病學研究結果是否可以推廣到觀察性研究，目前尚不清楚。雖然有許多權威的文章提供合理的建議，例如格陵蘭[85]，艾格等。[29，97]，以及《研究綜合方法》係列[37，40，65，71，75，經驗不足的審稿人可能會發現很難在眾多意見相互矛盾的論文中找到它們。

需要努力就如何對觀察性研究進行係統評價和薈萃分析提供信息豐富、用戶友好和易於獲取的指導。重點應放在編寫一份單一、全麵的指導文件上，就當前審查中概述的關鍵項目提出建議，並具體處理我們發現建議相互矛盾的領域。文件中提供的指導應基於方法學專家的共識，並就我們在本次審查中確定的相互衝突的建議領域提供權威的建議。理想情況下，該文檔應該包括良好實踐的說明性示例，以指導非專家評審員的研究人員。本係統範圍審查所確定的對方法學建議的分歧也可能表明需要在哪些方麵進行額外的方法學研究。最後，改進書目數據庫中方法學文章的索引和在期刊上公開發表這類文章將是有幫助的。

結論

我們發現，許多關於如何係統地回顧和薈萃分析觀察性研究的建議都來自於隨機對照試驗的回顧建議，忽略了這些類型研究設計之間的許多方法學差異。對於如何對觀察性研究進行係統評價和薈萃分析存在相當大的分歧，並且迫切需要一個健全的方法指導的全麵來源，批判性地考慮我們發現衝突建議的領域。

縮寫

AHRQ:: 衛生保健研究和質量機構
CMR:: 科克倫方法學登記冊
CoCoPop:: 條件，環境和人口
CRD:: 評論和傳播中心
EPHPP:: 有效的公共衛生實踐項目
麋鹿:: 流行病學觀察性研究的meta分析
好:: 國家健康和護理卓越研究所
評分:: Non-randomised研究
皮科:: 人口，幹預，比較，結果
個隨機對照試驗:: 隨機對照試驗
簽名:: 蘇格蘭校際指導方針網絡

參考文獻

為什麼我們需要觀察性研究來評估醫療保健的有效性。BMJ。1996; 312:1215-8。
文章 PubMed 公共醫學中心中科院穀歌學者
Funai EF, Rosenbush EJ, Lee MJ, Del Priore G.研究設計在美國四大婦產科雜誌上的分布。婦科疾病調查，2001;51:8-11。
文章中科院穀歌學者
Scales CD, Norris RD, Peterson BL, Preminger GM, Dahm P.泌尿學文獻中的臨床研究和統計方法。中華泌尿外科雜誌，2005;29(4):344 - 344。
文章 PubMed 穀歌學者
弗雷明漢心髒研究。https://www.framinghamheartstudy.org．2017年6月20日訪問。
全國兒童發展研究。http://www.cls.ioe.ac.uk．2017年6月20日訪問。
達尼丁多學科健康與發展研究。http://dunedinstudy.otago.ac.nz．2017年6月20日訪問。
張文傑，陳誌強，張誌強，等。生物醫學研究係統綜述的流行病學和報告特征:橫斷麵研究。PLoS Med 2016;13:e1002028。
文章 PubMed 公共醫學中心穀歌學者
李誌剛，李誌剛。醫學研究中的meta分析。《中國日報》，2008;26:20 20 - 9。
文章 PubMed 穀歌學者
艾格，施耐德，戴維。盡管有失精準嗎?觀察性研究的meta分析。BMJ。1998; 316:140-4。
文章 PubMed 公共醫學中心中科院穀歌學者
希金斯JPT，格林S.科克倫手冊。5.1.0版本。2011.http://handbook.cochrane.org．2017年6月20日訪問。
Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gøtzsche PC, Ioannidis JPA，等。用於報告評估醫療保健幹預研究的係統評價和元分析的PRISMA聲明:解釋和闡述。BMJ。2009; 339: b2700。
文章 PubMed 公共醫學中心穀歌學者
Stroup DF，柏林JA, Morton SC, Olkin I, Williamson GD, Rennie D，等。流行病學觀察性研究的元分析:報告建議。流行病學觀察性研究的meta分析(MOOSE)組。《美國醫學協會雜誌》上。2000; 283:2008-12。
文章 PubMed 中科院穀歌學者
Peters MDJ, Godfrey CM, Khalil H, Mcinerney P, Parker D, Soares CB。指導進行係統範圍審查。中國臨床醫學雜誌。2015;13:41 - 6。
文章穀歌學者
Colquhoun HL, Levac D, Brien KKO, Straus S, Tricco AC, Perrier L，等。範圍審查:明確定義、方法和報告的時間。中華臨床流行病學雜誌2014;67:1291-4。
文章 PubMed 穀歌學者
崔科，李麗麗，李麗娟，李麗娟，李麗娟，等。關於範圍審查的進行和報告的範圍審查。BMC medical Res methodo2016;16:15。
文章 PubMed 公共醫學中心穀歌學者
劉建平，劉建平，劉建平。係統綜述中定量合成的研究。安實習醫學1997;127:820-6。
文章 PubMed 中科院穀歌學者
Lilford RJ, Richardson A, Stevens A, Fitzpatrick R, Edwards S, Rock F，等。方法論研究中的問題:來自研究者和委員的觀點。衛生技術評估，2001;5:1-57。
文章 PubMed 中科院穀歌學者
Rutjes A, Reitsma J, Coomarasamy A, Khan K, Bossuyt P.在沒有金標準的情況下對診斷測試的評估。方法回顧。衛生技術評估，2007;11(50)。
科克倫方法學登記冊。https://community.cochrane.org．2017年6月20日訪問。
科克倫圖書館。http://www.cochranelibrary.com．2017年6月20日訪問。
評論和傳播中心。http://www.york.ac.uk/inst/crd/index.htm．2017年6月20日訪問。
坎貝爾合作。http://www.campbellcollaboration.org．2017年6月20日訪問。
蘇格蘭校際指導方針網絡。http://www.sign.ac.uk/index.html．2017年6月20日訪問。
醫療保健研究和質量機構http://www.ahrq.gov．2017年6月20日訪問。
赤道網絡。http://www.equator-network.org．2017年6月20日訪問。
國家健康和護理卓越研究所。http://www.nice.org.uk．2017年6月20日訪問。
有效的公共衛生實踐項目。https://merst.ca/ephpp．2017年6月20日訪問。
喬安娜布裏格斯研究所。http://joannabriggs.org．2017年6月20日訪問。
艾格M，史密斯GD，菲利普斯AN。元分析:原則和程序。BMJ。1997; 315:1533-7。
文章 PubMed 公共醫學中心中科院穀歌學者
霍什德爾，阿提亞J，卡尼SL.薈萃分析的基本概念:臨床醫生的入門。中華臨床雜誌，2006;30(2):387 - 394。
文章中科院穀歌學者
Friedenreich CM, Brant RF, Riboli E. 13項結直腸癌和膳食纖維病例對照研究彙總分析中方法學因素的影響。流行病學。1994;5:66 - 79。
文章 PubMed 中科院穀歌學者
Chambers D, Rodgers M, Woolacott N.在對快速發展的技術進行係統評價時，不僅應考慮隨機對照試驗，還應考慮病例係列。中華流行病學雜誌2009;62:1253-60。e4
文章 PubMed 穀歌學者
Sagoo GS, Little J, Higgins JPT。遺傳關聯研究的係統綜述。人類基因組流行病學網絡PLoS Med 2009;6:e28。
PubMed 穀歌學者
張誌強，張誌強，張誌強，等。元分析在環境流行病學中的應用指南。ISLI風險科學研究所。Regul Toxicol Pharmacol. 1995; 22:189-97。
文章 PubMed 中科院穀歌學者
Loke YK, Price D, Herxheimer a .不良反應的係統回顧:結構化方法的框架。BMC醫學Res方法。2007;7:32。
文章 PubMed 公共醫學中心穀歌學者
阿什福德D，大衛K，班尼特SJ。參與者之間和/或參與者內部設計的基於差異的元分析程序:體育和運動科學家的教程審查。運動科學進展。2009;27:27 - 55。
文章穀歌學者
Wells GA, Shea B, Higgins JPT, Sterne J, Tugwell P, Reeves BC。在係統綜述中納入非隨機研究時，綜述作者需要考慮的方法學問題清單。Res Synth Methods. 2013; 4:63-77。
文章 PubMed 穀歌學者
Simunovic N, Sprague S, Bhandari M.骨科研究中觀察性研究的係統回顧和薈萃分析中的方法學問題。中華骨外科雜誌2009;21(增刊3):87-94。
文章穀歌學者
阿姆斯特朗R，沃特斯E，編輯。健康促進和公共衛生幹預的係統評論。健康促進及公共衛生專責小組係統檢討指引版本2。墨爾本大學:澳大利亞;2007.
Schünemann HJ, Tugwell P, Reeves BC, Akl EA, Santesso N, Spencer FA，等。非隨機研究作為幹預措施效果係統綜述中隨機對照試驗的補充、順序或替代證據的來源。Res Synth Methods. 2013; 4:49-62。
文章 PubMed 穀歌學者
莫歐拉，穆恩Z，西爾斯K, Sfetcu R, Currie M, Lisy K，等。進行關聯(病因學)的係統回顧:喬安娜布裏格斯研究所的方法。中國臨床醫學雜誌，2015;13:163-9。
文章 PubMed 穀歌學者
我是奧康納，中士JM。元分析，包括來自觀察性研究的數據。2014; 113:313-22。
文章 PubMed 穀歌學者
Ravani P, Ronksley PE, James MT, Strippoli GF。閱讀和使用觀察性研究係統綜述的腎髒學指南。《移植雜誌》2015;30:1615-21。
文章 PubMed 中科院穀歌學者
Tufanaru C, Munn Z, Stephenson M, Aromataris E.固定效應或隨機效應元分析?有效性係統評價中的常見方法學問題。中華臨床醫學雜誌，2015;13:196-207。
文章 PubMed 穀歌學者
Guyatt GH, Oxman AD, Kunz R, Atkins D, Brozek J, Vist G，等。GRADE指南:2。提出問題並決定重要的結果。臨床流行病學雜誌，2011;64:395-400。
文章 PubMed 穀歌學者
MacDonald-Jankowski DS, Dozier MF。放射診斷學係統綜述。中華口腔醫學雜誌2001;30:78-83。
文章 PubMed 中科院穀歌學者
曼奇康提L，達塔S，史密斯HS，赫希JA。介入疼痛管理的循證醫學、係統評價和指南:第6部分。觀察性研究的係統回顧和薈萃分析。疼痛醫師。2009;12:819-50。
PubMed 穀歌學者
元分析:製定、評估、結合和報告。統計醫學1999;18:21 - 59。
文章 PubMed 中科院穀歌學者
Price D, Jefferson T, Demicheli V.疫苗安全性證據係統綜述引起的方法學問題。疫苗。2004;22:2080-4。
文章 PubMed 中科院穀歌學者
張麗華，陳建軍，張麗華，等。有效保健的AHRQ方法。植入式醫療器械係統綜述的報告質量。羅克維爾(馬裏蘭州):醫療保健研究和質量機構(美國);2012.
羅森塔爾R, DiMatteo MR.元分析:文獻綜述定量方法的最新進展。精神科學，2001;52:59-82。
文章 PubMed 中科院穀歌學者
Tak LM, Meijer A, Manoharan A, de Jonge P, Rosmalen JG。超過其部分的總和:薈萃分析及其發現心身醫學異質性來源的潛力。精神病學雜誌2010;72:253-65。
文章 PubMed 穀歌學者
Thomas BH, Ciliska D, Dobbins M, Micucci S.係統回顧文獻的過程:為公共衛生護理幹預提供研究證據。世界觀循證Nurs, 2004; 1:176-84。
文章 PubMed 中科院穀歌學者
蔡雅庫納普魯克，肖凱歐，王曉明，王曉明。衛生技術評價的係統評價與網絡元分析。泰國醫學雜誌2014;97(增刊5):S33-42。
穀歌學者
Mahid SS, Hornung CA, Minor KS, Turina M, Galandiuk S.外科科學家的係統回顧和元分析。中華外科雜誌，2006;29(3):344 - 344。
文章 PubMed 中科院穀歌學者
Wille-Jorgensen P, Renehan AG。結腸直腸病學的係統回顧和薈萃分析:解釋和潛在缺陷。色彩，2008;10:21-32。
中科院穀歌學者
Haynes RB, Kastner M, Wilczynski NL, Hedges T.在EMBASE中開發用於檢測臨床聲音和相關因果研究的最佳搜索策略。美國醫學醫學雜誌2005;5:8。
文章穀歌學者
Fraser C, Murray A, Burr J.在MEDLINE和EMBASE中鑒別手術幹預的觀察性研究。BMC醫學研究方法。2006;6:41。
文章 PubMed 公共醫學中心穀歌學者
Furlan AD, Irvin E, Bombardier C.有限搜索策略在尋找相關的非隨機研究中是有效的。臨床流行病學雜誌2006;59:1303-11。
文章 PubMed 穀歌學者
金德S，洛克Y，麥金托什HM。不良反應的係統回顧中，報告不佳和搜索不足是很明顯的。中華流行病學雜誌。2008;61:440-8。
文章 PubMed 穀歌學者
元分析中的發表偏倚:原因與後果。臨床流行病學雜誌，2000;53:207-16。
文章 PubMed 中科院穀歌學者
Kuper H, Nicholson A, Hemingway H.搜索觀察性研究:引文跟蹤對PubMed有什麼貢獻?抑鬱症和冠心病的案例研究BMC醫學Res方法。2006;6:4。
文章 PubMed 公共醫學中心穀歌學者
Lemeshow AR, Blum RE, Berlin JA, Stoto MA, Colditz GA。對觀察性研究進行薈萃分析，隻搜索一兩個數據庫是不夠的。中華流行病學雜誌2005;58:867-73。
文章 PubMed 穀歌學者
Loke YK, Golder SP, Vandenbroucke JP。藥物不良反應的綜合評價:適當的研究選擇和數據來源的重要性中國醫藥雜誌，2011;2:59-68。
文章 PubMed 公共醫學中心穀歌學者
希金斯JPT，拉姆齊C，裏維斯BC, Deeks JJ，謝伊B，瓦倫丁JC，等。在幹預措施效果的係統評價中納入非隨機研究時，與研究設計和偏倚風險有關的問題。Res Synth Methods. 2013; 4:12-25。
文章 PubMed 穀歌學者
wineggardner ML, Reaume KT, Dabaja GS, Kalus JS。非隨機研究在病人護理中的實際應用:奈西立肽的一個案例研究。藥物治療。2007;27:143-51。
文章 PubMed 中科院穀歌學者
瑙曼。如何製定搜索策略。2007.https://www.researchgate.net/file.PostFileLoader.html?id=5996c4eb48954ceeca4bf303&assetKey=AS%3A528656902483968%401503053035454．2018年2月13日訪問。
斯坦斯菲爾德，K迪克森，M邦潘，Oliver S，邦潘M, Stansfield C，等。探索在進行網站搜索和其他在線資源進行係統評價的問題:我們如何才能有係統?係統修訂版2016;5:19 9。
文章 PubMed 公共醫學中心穀歌學者
張誌剛，張誌剛。係統綜述中搜索詞選擇的一種係統方法。Res Synth Methods. 2014; 5:87-97。
文章 PubMed 穀歌學者
王澳，Raabe GK。元分析在回顧職業隊列研究中的應用。《職業環境醫學雜誌》1996;53:793-800。
文章 PubMed 公共醫學中心中科院穀歌學者
Norris SL, Moher D, Reeves BC, Shea B, Loke Y, Garner S，等。在對醫療保健幹預措施效果的係統評價中納入非隨機研究時，與選擇性報告有關的問題。Res Synth Methods. 2013; 4:36-47。
文章 PubMed 穀歌學者
Munn Z, Moola S, Lisy K, Riitano D, Tufanaru C.報告患病率和累積發病率數據的觀察性流行病學研究係統回顧的方法學指導。中華臨床醫學雜誌，2015;13:457 - 457。
文章 PubMed 穀歌學者
王誌剛，王誌剛，王誌剛，等。質量評估的創新工具:多重研究設計審查的綜合質量標準(ICROMS)。公共衛生，2016;133:19-37。
文章 PubMed 中科院穀歌學者
Horton J, Vandermeer B, Hartling L, Tjosvold L, Klassen TP, Buscemi N.係統回顧數據提取:橫斷麵研究表明經驗不提高準確性。臨床流行病學雜誌，2010;63:289-98。
文章 PubMed 穀歌學者
瓦倫丁JC，湯普森得分後衛。在幹預措施效果的係統評價中納入非隨機研究時，涉及混雜和薈萃分析的問題。Res Synth Methods. 2013; 4:26-35。
文章 PubMed 穀歌學者
Austin H, Perkins LL, Martin DO。估計稀疏病例對照和隨訪研究的相對風險:一種元分析方法。中華醫學雜誌1997;16:10 5 - 15。
文章 PubMed 中科院穀歌學者
柯迪茲，葛，布迪克，莫斯蒂勒。流行病學研究數據薈萃分析的異質性:評論。美國流行病學雜誌，1995;142:371-82。
文章 PubMed 中科院穀歌學者
薩頓AJ，庫珀NJ，蘭伯特PC，瓊斯博士，艾布拉姆斯KR, Sweeting MJ。罕見和不良事件數據的meta分析。Expert Rev Pharmacoecon Outcomes Res. 2002; 2:367-79。
文章 PubMed 穀歌學者
Martin DO, Austin H.病例對照和隨訪研究薈萃分析的精確方法。流行病學。2000;11:255-60。
文章 PubMed 中科院穀歌學者
Moreno V, Martin ML, Bosch FX, de Sanjose S, Torres F, Munoz N.配對和非配對病例對照研究的聯合分析:不同研究的風險估計比較。美國流行病學雜誌1996;143:293-300。
文章 PubMed 中科院穀歌學者
Souverein OW, Dullemeijer C, van 't Veer P, van der Voet H.彙總統計數據作為對數尺度線性劑量反應模型元分析輸入的轉換:EURRECA內部開發的方法。BMC medical Res Methodol. 2012;12:57。
文章 PubMed 公共醫學中心穀歌學者
楊曉明，楊曉明，楊曉明，等。ROBINS-I:在非隨機幹預研究中評估偏倚風險的工具。BMJ。2016; 355: i4919。
文章 PubMed 公共醫學中心穀歌學者
Verde PE, Ohmann C.在臨床研究中結合隨機和非隨機證據:方法和應用綜述。Res Synth Methods. 2015; 6:45-62。
文章 PubMed 穀歌學者
李文傑，李誌強，張誌強，等。GRADE指南:3。對證據質量進行評級。臨床流行病學雜誌，2011;64:401-6。
文章 PubMed 穀歌學者
受邀評論:對一些流行的元分析方法的批判。美國流行病學雜誌1994;140:290-6。
文章 PubMed 中科院穀歌學者
王煒，張CS，哈特GJ。開發一種質量評估工具，用於係統評價男男性行為中艾滋病毒流行率及相關風險行為的觀察性研究(QATSO)。新興主題流行病學，2008;5:23。
文章 PubMed 公共醫學中心穀歌學者
薩蘭蒂，桑德森，希金斯，JP。遺傳關聯研究的元分析障礙與機遇。Genet Med. 2005; 7:13-20。
文章 PubMed 穀歌學者
埃尼迪斯JP。評論:調整偏差:對觀察性研究進行meta分析的整形手術用戶指南。國際流行病學雜誌，2011;40:777-9。
文章 PubMed 穀歌學者
Shamliyan T, Kane RL, Jansen S.係統性綜述綜合證據，沒有一致的質量評估，檢查慢性疾病流行病學的主要研究。中華流行病學雜誌，2012;
文章 PubMed 穀歌學者
桑德森，塔特ID，希金斯JP。流行病學觀察性研究中評估質量和偏倚易感性的工具:係統綜述和注釋書目。國際流行病學雜誌，2007;36:666-76。
文章 PubMed 穀歌學者
West S, King V, Carey TS, Lohr KN, McKoy N, Sutton SF，等。係統來評估科學證據的強度。取證代表技術評估(總結)。2002:1-11。
赫比森，海-史密斯J，吉萊斯皮J。應放棄基於質量評分的元分析調整。臨床流行病學雜誌2006;59:1249-56。
文章 PubMed 穀歌學者
Guyatt GH, Oxman AD, Vist G, Kunz R, Brozek J, Alonso-Coello P，等。GRADE指南:4。評價證據質量-研究局限性(偏倚風險)。臨床流行病學雜誌，2011;64:407-15。
文章 PubMed 穀歌學者
Robertson C, Ramsay C, Gurung T, Mowatt G, Pickard R, Sharma P.使用修改版Cochrane協作偏倚風險工具進行隨機和非隨機研究設計的實用性，應用於衛生技術評估環境。合成方法。2014;5:20 - 11。
文章 PubMed 穀歌學者
Guyatt GH, Oxman AD, Montori V, Vist G, Kunz R, Brozek J，等。GRADE指南:5。評價證據質量-發表偏倚。臨床流行病學雜誌，2011;64:1277-82。
文章 PubMed 穀歌學者
王曉明，王曉明。元分析。未解決的問題和未來的發展。BMJ。1998; 316:221-5。
文章 PubMed 公共醫學中心中科院穀歌學者
艾格M，史密斯GD。研究地點和選擇的偏倚。BMJ。1998; 316:61-6。
文章 PubMed 公共醫學中心中科院穀歌學者
戴維·史密斯G，艾格M，菲利普斯AN。薈萃分析。超出大均值?BMJ。1997; 315:1610-4。
文章 PubMed 公共醫學中心中科院穀歌學者
Sutton AJ, Abrams KR, Jones DR.證據的廣義合成和傳播偏見的威脅。電子胎心率監測(EFM)的實例。臨床流行病學雜誌2002;55:1013-24。
文章 PubMed 穀歌學者
pldevall - vila M, Delclos GL, Varas C, Guyer H, Brugues-Tarradellas J, Anglada-Arisa A.口服避孕藥與類風濕性關節炎風險的爭議:衝突研究的薈萃分析和衝突薈萃分析的回顧，特別強調異質性分析。美國流行病學雜誌1996;144:1-14。
文章 PubMed 中科院穀歌學者
Dwyer T, Couper D, Walter SD。觀察性研究meta分析中的異質性來源:SIDS和睡姿的例子。臨床流行病學雜誌2001;54:44 - 7。
文章 PubMed 中科院穀歌學者
艾布拉姆斯K，瓊斯博士元分析和證據合成。中華醫學醫學雜誌，1995;12(2):397 - 397。
文章 PubMed 中科院穀歌學者
多利亞。放射學meta分析及結構化文獻綜述。放射學學報。2005;12:399-408。
文章 PubMed 穀歌學者
Takkouche B, Cadarso-Suarez C, Spiegelman D.流行病學薈萃分析中新舊異質性檢驗的評價。中華流行病學雜誌1999;150:206-15。
文章 PubMed 中科院穀歌學者
Zeegers MP, Heisterkamp SH, Kostense PJ, van der Windt DA, Scholten RJ。係統回顧的實踐。7綜合觀察性研究的結果。《中國日報》，2000;144:1393-7。
PubMed 中科院穀歌學者
郭亞華，張誌強，張誌強，等。GRADE指南:7。評價證據的質量-不一致性。臨床流行病學雜誌，2011;64:1294-302。
文章 PubMed 穀歌學者
Hernandez AF, Gonzalez-Alzaga B, Lopez-Flores I, Lacasana M.與農藥接觸相關的神經發育和神經退行性疾病的係統綜述:方法學特征和對風險評估的影響。環境科學。2016;92-93:657-79。
文章 PubMed 中科院穀歌學者
周DL。回歸效應是非隨機幹預試驗和觀察性研究係統綜述中被忽視的偏倚來源。2007;30: 54 - 64。
文章 PubMed 穀歌學者
李國強，李國強，李國強，李國強。結合來自不同暴露切入點的觀察性研究的風險估計:身體質量指數和2型糖尿病的薈萃分析。美國流行病學雜誌，2006;163:1042-52。
文章 PubMed 穀歌學者
Salanti G, Ioannidis JP。綜合觀察性研究應考慮可信度上限。臨床流行病學雜誌，2009;62:115-22。
文章 PubMed 穀歌學者
Smith SJ, Caudill SP, Steinberg KK, Thacker SB.通過元分析結合流行病學研究的劑量反應數據。中華醫學雜誌1995;14:531-44。
文章 PubMed 中科院穀歌學者
Thompson S, Ekelund U, Jebb S, Lindroos AK, Mander A, Sharp S，等。已發表的觀察性研究的薈萃分析的偏倚調整方法。國際流行病學雜誌，2011;40:765-77。
文章 PubMed 穀歌學者
Tweedie RL, Mengersen KL.劑量-反應關係的元分析方法在肺癌和環境煙草煙霧暴露研究中的應用。中華醫學雜誌1995;14:545-69。
文章 PubMed 中科院穀歌學者
麥卡倫CE，普爾納耶古姆，塔巴恩L，戈爾裏R，塔裏德JE。從隨機和非隨機研究中綜合證據的貝葉斯層次模型中調整潛在混雜因素的重要性:比較腹主動脈瘤治療的應用。中國醫學雜誌。2010;10:64。
文章 PubMed 公共醫學中心穀歌學者
湯普森SG，希金斯JP。元回歸分析應該如何進行和解釋?統計醫學2002;21:1559-73。
文章 PubMed 穀歌學者
Brockwell SE, Gordon IR。元分析的統計方法比較。統計醫學2001;20:825-40。
文章 PubMed 中科院穀歌學者
Prevost TC, Abrams KR, Jones DR.證據廣義綜合中的層次模型:基於乳腺癌篩查研究的一個例子。統計醫學2000;19:3359-76。
文章 PubMed 中科院穀歌學者
舒斯特JJ，瓊斯LS，薩蒙達。罕見事件研究中的固定效應與隨機效應薈萃分析:羅格列酮與心肌梗死和心源性死亡有關。統計醫學2007;26:4375-85。
文章 PubMed 穀歌學者

下載參考

確認

我們向新西蘭克賴斯特徹奇奧塔哥大學的Sharon Gardner和Suetonia Palmer表示感謝，感謝他們在篩選標題和摘要資格方麵的幫助。

作者的貢獻

MM, MD, MC, ME和PS構思了這項研究。MM、MD和CM進行了文獻檢索並評估了研究的合格性。數據提取涉及MM、MD、MC、CM、OD和PS。所有作者都參與了結果的總結。MM和PS撰寫了論文的初稿，所有作者都貢獻了最終稿。

資金

這項研究由瑞士伯爾尼大學社會和預防醫學研究所的校內基金資助。

數據和材料的可用性

本綜述中包括的所有主要出版物都屬於公共領域。有關搜索結果和篩選的數據可按要求向通訊作者提供。

作者信息

作者及隸屬關係

瑞士伯爾尼大學社會與預防醫學研究所
莫妮卡·米勒，馬蒂亞斯·艾格和卡特裏娜·馬格林
轉化研究中心，伯爾尼大學精神病院，伯爾尼，瑞士
Monika Mueller & Maddalena D 'Addario
伯爾尼CTU，伯爾尼臨床試驗股，伯爾尼大學醫院和伯爾尼大學，伯爾尼，瑞士
Myriam Cevallos
荷蘭萊頓大學醫學中心臨床流行病學科
奧拉夫Dekkers
丹麥奧胡斯奧胡斯大學醫院臨床流行病學科
奧拉夫Dekkers
新西蘭基督城奧塔哥大學病理與生物醫學學係
皮帕·斯科特

作者

莫妮卡穆勒

查看作者出版物

您也可以在PubMed穀歌學者
Maddalena達達裏奧

查看作者出版物

您也可以在PubMed穀歌學者
馬提亞症

查看作者出版物

您也可以在PubMed穀歌學者
Myriam Cevallos

查看作者出版物

您也可以在PubMed穀歌學者
奧拉夫Dekkers

查看作者出版物

您也可以在PubMed穀歌學者
懷特裏Mugglin

查看作者出版物

您也可以在PubMed穀歌學者
皮帕·斯科特

查看作者出版物

您也可以在PubMed穀歌學者

相應的作者

對應到皮帕·斯科特．

道德聲明

相互競爭的利益

作者宣稱他們之間沒有利益衝突。

出版商的注意

施普林格自然對出版的地圖和機構從屬關係中的管轄權主張保持中立。

附加文件

附加文件1:

協議。(PDF 424kb)

附加文件2:

Medline搜索詞。(PDF 100kb)

附加文件3:

表S1。建議來源。(PDF 123kb)

權利和權限

開放獲取本文根據創作共用屬性4.0國際許可協議(http://creativecommons.org/licenses/by/4.0/)，允許在任何媒介上不受限製地使用、分發和複製，前提是您對原作者和來源給予適當的讚揚，提供到創作共用許可證的鏈接，並注明是否進行了更改。創作共用公共領域奉獻棄權書(http://creativecommons.org/publicdomain/zero/1.0/)除另有說明外，適用於本條所提供的資料。

轉載及權限

關於本文

引用本文

穆勒，男，達達裏奧，男，艾格，男。et al。係統回顧和薈萃分析觀察性研究的方法:建議的係統範圍回顧。BMC醫學Res Methodol18， 44(2018)。https://doi.org/10.1186/s12874-018-0495-9

下載引用

收到了：7月17日
接受：2018年4月24日
發表：2018年5月21日
DOI：https://doi.org/10.1186/s12874-018-0495-9

關鍵字

建議
觀察性研究
係統綜述
薈萃分析
方法

係統回顧和薈萃分析觀察性研究的方法:建議的係統範圍回顧

摘要

背景

方法

結果

結論

背景

方法

資格準則及定義

文獻檢索

文章選擇和數據提取

結果

識別合資格物品

建議概述

協議開發

研究問題

搜索策略

研究的可行性

數據提取

考慮不同的研究設計

偏倚風險評估

發表偏倚

非均質性

統計分析

討論

結論

縮寫

參考文獻

確認

作者的貢獻

資金

數據和材料的可用性

作者信息

作者及隸屬關係

相應的作者

道德聲明

相互競爭的利益

出版商的注意

附加文件

附加文件1:

附加文件2:

附加文件3:

權利和權限

關於本文

引用本文

分享本文

關鍵字

醫學研究方法學

聯係我們