跳到主要內容

臨床風險預測建模中的有向無環圖與因果思維

摘要

背景

在流行病學中,因果推理和預測建模方法在曆史上是不同的。有向無環圖(dag)用於建立先驗因果假設模型,並告知因果問題的變量選擇策略。雖然最初為預測而設計的工具在因果推理中得到了應用,但其對應物在很大程度上仍未被探索。這項基於理論和模擬的研究的目的是評估在臨床風險預測建模中使用dag的潛在益處。

方法

我們探討了如何結合關於潛在因果結構的知識來提供關於診斷臨床風險預測模型在不同環境下的可移植性的見解。我們進一步探討因果知識是否可以用於改善臨床風險預測模型中的預測者選擇。

結果

在某些情況下,因果方向上的單一預測模型可能比反因果方向上的模型具有更好的可移植性。我們的經驗表明,馬爾可夫毯,包括DAG中結果節點的父節點、子節點和子節點的父節點在內的一組變量,是該結果的最佳預測因子集。

結論

我們的研究結果為直覺提供了理論基礎,即包括原因作為預測因子的診斷性臨床風險預測模型可能更具可移植性。此外,如果存在或可以學習到潛在因果結構的強大知識,使用dag識別馬爾可夫毯變量可能是在臨床風險預測模型中選擇預測因子的有用、有效的策略。

同行評審報告

背景

在現代流行病學中,預測建模和因果推理通常被認為是獨立的分支,具有獨特的方法和目標。然而,最近,“因果學習”或“因果發現”的新興領域導致了預測建模和機器學習技術的引入,作為基於數據驅動程序生成因果結構的工具[1]。盡管有一些具體的實現[2],但另一個方向的發展卻很少被探索;即因果推理原理和圖論在臨床風險預測建模策略中的應用。

圖表和圖形是直觀的可視化工具,用於告知分析方法以回答因果問題[3.]。越來越多地使用因果圖和需要自動化程序來評估因果效應,因為結合了以前的結構知識和新數據,導致了一種緊湊的形式化理論的發展,沒有參數假設,以透明地模擬因果關係[3.]。有向無環圖(dag)用於嚴格映射圍繞感興趣的因果問題的所有先驗假設[3.]並以圖形方式描述底層數據生成過程。在dag中,每個節點代表一個隨機變量,有向因果路徑用箭頭表示。因此,因果圖結構提供了有關感興趣的變量的條件獨立性的定性信息。dag被用作因果推理的工具,以說明混淆和選擇偏差的潛在來源,並最終確定解決這些問題的合適策略[3.4]。我們假設讀者熟悉dag;對於那些還不熟悉的人,在其他地方發表了一些容易理解的介紹[3.5]。

這項工作的目的是研究在臨床風險預測問題中使用dag和因果思維的潛在益處。具體地說,我們描述了在評估可轉運性和選擇臨床風險預測模型預測因子的因果知識的使用。

方法

可移植性和獨立機製原則

在臨床風險預測模型中可能有用的一個因果概念是獨立機製原理1]。這一基本假設被形式化,以證明從觀測數據推斷因果結構的合理性[16],後來被認為是推動基於機器學習的預測方法的有用假設[7]。

這一獨立機製原則指出,“係統變量的因果生成過程由互不相互通知或影響的自主模塊組成”[1]。這意味著因果過程可以被解釋為一係列獨立的機製,其中每個因果機製將前一個機製的狀態輸出作為輸入,並將其自己的狀態輸出“饋送”給下一個機製。鏈上的每個因果機製都可以被概念化為對其接收的輸入不變的物理機製[1]。機製自治的概念實際上比看起來更直觀。事實上,這就是我們如何證明所有臨床幹預的合理性:我們假設人為地改變一種機製或其輸入不會影響任何其他機製[1]。

讓我們考慮兩個具有明確因果關係的變量。為簡單起見,我們稱這兩個變量為“Cause”和“Effect”。這兩個變量的聯合概率分布(原因,結果)可以用兩種方式分解[17]:

$$ \ mathm {\mathbb{P}}\左(\ mathm{原因},\ mathm{效果}\右)=\ mathm {\mathbb{P}}\左(\ mathm{效果}|\ mathm{原因}\右)\ mathm {\mathbb{P}}\左(\ mathm{原因}\右)=\ mathm {\mathbb{P}}\左(\ mathm{原因}|\ mathm{效果}\右)\ mathm {\mathbb{P}}\左(\ mathm{效果}\右)\ mathm {\mathbb{P}}\左(\ mathm{效果}\右)$$

獨立機製原理表明,變量Cause的邊際分布,(Cause),以及變量Effect對變量Cause的條件分布,(效果|原因),不包含彼此的信息[17]。的確,(Effect|Cause)是變量Effect對於變量Cause的每個給定值的分布。它表示將輸入(Cause)轉化為輸出(Effect)的物理機製,而(Cause)表示輸入的狀態。在獨立機製原則下,(原因),(Effect|Cause)在不同的聯合分布中相互獨立地變化[1]。

第一個分解中的獨立性約束在因果的條件分布,(Cause b| Effect),以及Effect的邊際分布,(效應),在反因果方向的第二次數學分解中顯示[17]。因此,(效果),(Cause b| Effect)在不同的關節分布中經常以依賴的方式變化[1]。由於這種獨立性概念涉及的是機製而不是變量,因此它不能像概率論中的統計獨立性概念那樣簡單地定義、檢驗或量化[1]。

在這項工作中,我們提出了兩個假設的,簡化的臨床例子,從神經退行性疾病的領域來說明後果獨立機製原理在診斷性臨床風險預測模型的背景下。具體來說,我們描述了兩種臨床風險預測模型的可移植性,用於使用不同的預測因子進行阿爾茨海默病的診斷。在第一個例子中,疾病是預測因子的影響(等位基因APOE ε4狀態,這是已知的阿爾茨海默病的原因),而在第二個例子中,疾病是預測因子的原因(腦脊液中tau蛋白的濃度,這被描述為阿爾茨海默病的病理過程的影響)。

預測器選擇和馬爾可夫毯

在建立臨床風險預測模型的第一步和可以說是最重要的一步中,還有另一個因果概念可能是有用的:預測者選擇。在這裏,我們關注的主要挑戰是選擇所有可用變量的最小可能子集,這些變量提供足夠的信息,以在校準方麵具有良好的有效性來預測感興趣的結果。

有許多眾所周知的原因來限製用於構建風險預測模型的預測因子的數量:(i)減少由於模型中大量變量導致的問題,從而提高性能;(ii)減少與數據收集和存儲、模型開發或培訓相關的成本、時間和精力;(iii)使模型更容易在不同環境中使用;以及(iv)增加生成概率估計背後機製的可解釋性[89]。最後一個原因在臨床風險預測模型中尤為重要。事實上,醫生不願意使用沒有一定程度可解釋性的預測模型[10],因為輸出概率用於支持有關治療和預防策略的臨床決策。

直觀地說,預測器選擇問題可以解釋為如何選擇最小的變量子集,排除所有不提供有關感興趣結果的附加信息的變量。

通過使用條件獨立的概念對缺乏附加信息進行操作[11],預測者選擇的整個問題類似於確定結果變量的所謂“馬爾可夫毯”。

我們將Y定義為興趣和結果的隨機變量X作為y的所有可用候選預測變量的集合X是與Y所涉及的因果過程相關的變量的超集。Y的馬爾可夫毯,MB(Y),是X,以此為條件,所有其他變量X包含在MB(Y)中的數據與Y無關[89]:

V $ $ \原則\ mathrm{} \中\ mathbf {X} - \ mathrm {MB} \離開(\ mathrm {Y} \右):\公關\離開(\ mathrm {Y} | \ mathrm {MB} \離開(\ mathrm {Y} \右),\ mathrm {V} \右)= \公關\離開(\ mathrm {Y} | \ mathrm {MB} \離開(\ mathrm {Y} \) \右),$ $

在哪裏X -MB(Y)表示包含的變量集合X但單位不是MB(Y)。馬爾可夫毯的概念最初是由Pearl於1988年在他對貝葉斯網絡的研究中提出的[12]。多年後,它首次被用於確定預測任務的理論最優變量集[11]。

根據上麵的定義,給定MB(Y),則包含的其他變量X獨立於結果Y。這意味著它們不提供任何關於Y的進一步信息,所有預測結果行為的信息都已經包含在馬爾可夫包層MB(Y)中[113]。

如果用於構建Y預測模型的技術可以完全描述潛在的真實概率Pr(Y b| MB(Y)),並且首選變量較少的模型,則結果Y的馬爾可夫毯中包含的變量是唯一需要的變量在校準方麵進行最優預測[8]。因此,在理想回歸設置中,為了擬合合適的模型,預測器選擇任務包括找到結果變量的馬爾可夫毯[19]。這一概念可用於將臨床風險預測建模中的變量選擇與數據的潛在因果結構聯係起來[14]。

讓我們考慮DAGG以及由聯合分布描述的一組變量S年代有密度。分布年代,是關於的馬爾可夫函數G如果每個變量條件獨立於它的非子代(即不受它影響的變量),則給定它的父代(即它的直接原因)[19]。這個馬爾可夫性質在年代G,確保DAG所需的所有條件獨立性也存在於概率分布中[115]。

另一個條件使這種聯係更加緊密;“忠實”意味著在聯合分布中唯一的條件獨立性年代那些人被卷入了嗎G14]。

之前的直覺可以形式化;已經證明,如果變量的聯合分布相對於DAG是忠實的和馬爾可夫的,那麼預測器是強相關的(見[1617[用於定義]用於預測結果,當且僅當它是結果的馬爾可夫毯的一部分[17]。在這些條件下,結果的馬爾可夫毯是唯一的,並且具有特定的構成:它包括結果節點的所有父節點,它的所有子節點,以及它的子節點的所有父節點[18912]。

如圖所示。1,這些節點“保護”結果變量Y不受DAG中所有其他變量的影響[13]。因此,這些節點中包含的信息足以描述結果變量的狀態。

圖1
圖1

一個多節點的簡單有向無環圖(DAG)中結果Y的馬爾可夫毯(黑色)的例子

這些結果對負責選擇臨床風險預測模型預測因子的研究人員很有吸引力。根據2010年的一篇綜述,至少有8種不同的算法被開發出來,使用數據驅動的程序來識別結果變量的馬爾可夫毯子[9]。在因果學習領域,學習整個因果結構的算法[14]和局部因果結構[18基於馬爾可夫識別的毯子已經被開發出來。考慮到這一理論論證,我們相信了解數據生成背後的潛在因果過程可以幫助確定納入臨床風險預測模型的最佳預測因子。

作為概念驗證,我們使用R版本3.6.3進行了一係列模擬(R代碼可以在補充文件)。我們模擬了10萬個數據集,每個數據集有25個變量和1萬個觀察值。每個數據集都根據隨機生成的DAG進行模擬(使用dagitty R包中的randomDAG函數)。DAG包含25個有序節點,對應25個變量。給每個節點一個0.1的概率,從之前的每個節點接收到一個有向箭頭。然後隨機選擇其中一個節點作為感興趣的二進製結果,假設所有其他24個變量都是連續的。任何外生變量(即沒有任何父節點的變量)生成均值為0、方差為1的正態分布變量,或者如果結果是外生的,生成事件概率為0.2的伯努利隨機變量。

當結果為內生變量(即至少有一個父節點)時,每個觀測值都是從具有定義的概率參數的伯努利分布中提取的。這被設置為對結果節點的父變量的線性組合進行評估的逆logit函數,並隨機繪製係數。具體而言,結果內生變量的係數(包括截距)取自(- 1,1)上的均勻分布。

同樣,連續內生變量的觀測值隨機取自單位方差的正態分布,均值等於隨機抽取的係數與節點父變量值的線性組合。在這裏,每個內生變量的係數(包括截距)是從(- 2,2)上的均勻分布中繪製的。因此,回歸係數的選擇不受限製,以滿足設計的信度假設。

對於10萬個數據集中的每一個,開發了8個預測工具來預測二進製結果等於1的概率:

  1. (我)

    一個邏輯回歸模型,隻包括結果的馬爾可夫毯中的變量作為預測因子;

  2. (2)

    一個包含所有24個變量作為預測因子的邏輯回歸模型,

  3. (3)

    一個邏輯回歸模型,包括任何具有通向結果節點的路徑的變量(無論路徑上的箭頭方向如何)作為預測因子;

  4. (iv)

    邏輯回歸模型隻包括結果節點的父變量作為預測因子,

  5. (v)

    一個輸入全部24個變量的logistic套索回歸模型,

  6. (vi)

    一個輸入全部24個變量的logistic嶺回歸模型,

  7. (七)

    一個混合參數alpha為0.5的logistic彈性網絡回歸模型,輸入全部24個變量,且

  8. (八)

    隨機森林算法輸入所有24個變量。

在所有回歸模型中,所有納入的變量都被建模為與結果的logit線性相關。套索網、脊網和彈性網模型是使用glmnet R包中的glmnet函數計算的,具有默認設置。正則化參數,lambda,最小化了10倍的交叉驗證誤差,基於與cv的邏輯回歸的偏差。選擇Glmnet函數(Glmnet包)。隨機森林是使用隨機森林R包中的隨機森林函數構建的,其中有1000棵樹和默認設置。

對於每個數據集,每個預測工具的校準使用綜合校準指數[19] (ICI),基於10倍交叉驗證。ICI越低,模型校正效果越好。ICI估計依賴於結果變量和預測工具估計的預測風險之間的非參數回歸。因此,如果非參數回歸在10個交叉驗證集中的一個或多個中失敗,則不可能計算ICI。如果隻計算截距模型或變量回歸係數非常接近0的模型,就會發生這種情況。我們還比較了基於馬爾可夫毯子的邏輯模型中包含的變量集與套索和彈性網絡回歸模型所選擇的變量集。如果一個變量的估計回歸係數的絕對值是非零的,我們認為該變量是由模型選擇的,我們將其操作為大於10的值−10

結果

可移植性和獨立機製原則

的潛在效益獨立機製原理以神經退行性疾病領域的兩個簡化臨床實例,提出了臨床風險預測模型的可轉運性評估。

示例1

假設我們有興趣利用APOE ε4等位基因狀態(X = 1,存在;X = 0,缺席)作為一般老年人人群預後的唯一預測因子。Y = 0表示無病。

因為APOE ε4是阿爾茨海默病的已知病因[20.],我們可以繪製如圖所示的DAG。2。注意,我們假設了一個直接的、無混雜的因果關係(一個強有力的假設)。按照慣例,DAG中的每個變量都受一個“噪聲”變量的影響,假設該變量獨立於其他噪聲變量,並將其建模為隨機變量。這些通常沒有明確描述,因為它們與所研究的因果關係無關。但值得注意的是,影響X的噪聲變量決定了APOE ε4等位基因的患病率,而影響Y的噪聲變量有助於確定APOE ε4等位基因狀態與阿爾茨海默病之間的因果機製[7]。

圖2
圖2

有向無環圖(DAG),例1

假設我們收集了a人群中阿爾茨海默病和APOE ε4等位基因狀態的橫斷麵數據,利用這些數據,我們可以利用logistic回歸建立一個簡單的診斷性臨床風險預測模型來預測阿爾茨海默病的存在。回歸方程為:

$ $ {\ log} _ {\ mathrm {e}} \離開(\公關\左(\ mathrm {Y} = 1 | \ mathrm {X} = \ mathrm {X} \右)/ \公關\離開(\ mathrm {Y} = 0 | \ mathrm {X} = \ mathrm {X} \) \右)= {\ upbeta} _0 + {\ upbeta} _1 \ mathrm {X} $ $

使用邏輯回歸方程,可以估計四個條件概率Pr(Y = 1|X = 0), Pr(Y = 1|X = 1), Pr(Y = 0|X = 0)和Pr(Y = 0|X = 1),它們定義了條件分布(Y | X)。我們假設邏輯回歸能夠完全描述這種條件分布,而APOE ε4等位基因的患病率(Pr(X = 1))定義了邊際分布(X)這個預測器。

接下來,假設我們想要使用我們新開發的風險預測模型作為阿爾茨海默病的診斷工具,在另一個人群B中,我們知道APOE ε4等位基因的患病率不同。預測因子X在種群B中的新分布可以表示為*(X)。

根據獨立機製的原則X的原始分布,(X),已改為*(X)沒有給出任何關於機製的信息(Y|X)在種群B [17]。這是因為X導致Y(原因)獨立於(效果|原因)。

如果潛在的因果機製沒有改變((Y|X)在兩個人群中相同),在人群A中建立的診斷性臨床風險預測模型在人群b中也會產生有效的估計。另一方麵,如果因果機製發生變化,知道預測因子分布*(X)沒有給我們任何關於機製如何改變的信息[17]。在這種情況下,在種群A中開發的邏輯回歸模型進行建模(Y|X)仍然是我們最好的診斷工具候選[17]。

在這個例子中,對潛在因果結構的了解表明,在新的人群中使用相同的診斷性臨床風險預測模型是一個合理的選擇[17]。

示例2

接下來,假設我們仍然對建立阿爾茨海默病存在的診斷臨床風險預測模型感興趣,但選擇使用不同的變量作為唯一的預測因子,該變量表明腦脊液中tau蛋白的濃度(CSF-tau)是否高於預定義的閾值。和前麵一樣,Y = 1和Y = 0表示阿爾茨海默病的存在和不存在。K = 1表示tau蛋白濃度高,K = 0表示tau蛋白濃度低。

眾所周知,高CSF-tau水平與阿爾茨海默病的存在有關。具體地說,作為阿爾茨海默病特征的蛋白質在大腦中沉積的結果,腦脊液中tau蛋白的濃度發生了改變[21]。因此,腦脊液中tau蛋白的高水平可以解釋為阿爾茨海默病的結果,導致圖中所示的DAG。3.

圖3
圖3

有向無環圖(DAG),例2

在這個例子中,我們通過其潛在的病理過程來定義阿爾茨海默病,而不是基於診斷標準。然而,在現實世界中,為了實際的臨床目的,直接影響通常被納入疾病診斷標準的一部分。我們進一步假設Y對K的直接影響沒有混淆,即使我們承認疾病的直接影響通常也是由疾病的風險因素引起的(在圖中描述的Y→K因果關係中引入混淆)。3.)。為了創建一個簡化的、說明性的示例,需要這些強有力的假設。

如前所述,假設我們已經收集了關於阿爾茨海默病和新人群C中CSF-tau濃度的橫斷麵數據。使用人群C數據,我們可以開發另一種簡單的診斷性臨床風險預測模型,使用邏輯回歸預測阿爾茨海默病。估計的回歸方程為:

$ $ {\ log} _ {\ mathrm {e}} \離開(\公關\左(\ mathrm {Y} = 1 | \ mathrm {K} = \ mathrm {K} \右)/ \公關\離開(\ mathrm {Y} = 0 | \ mathrm {K} = \ mathrm {K} \) \右)= {\ upgamma} _0 + {\ upgamma} _1 \ mathrm {K} $ $

假設邏輯回歸是合適的,其方程充分描述了底層的條件分布(Y|K),而高CSF-tau的患病率(Pr(K = 1))定義了邊際分布(K)。

假設我們現在想要應用在人群C中開發的診斷性臨床風險預測模型來檢測具有不同流行率的高CSF-tau濃度的人群D中阿爾茨海默病的存在。然而,我們現在正處於一個反因果情景中,我們正試圖利用CSF-tau濃度的效應,來檢測病因,即阿爾茨海默病。因此,(Y | K)表示一個因果機製獨立的(K)。

由於CSF-tau水平的邊際分布從(K)在種群C到*(K)在總體D中,條件分布的變化,(Y|K),很可能發生,因為我們正處於反因果的方向[17]。在種群C中發展的模型來描述(Y b| K)可能不能很好地校準用於種群D,因為Y在K上的潛在條件分布在兩個種群中是不同的。如果阿爾茨海默病導致高CSF-tau濃度的因果機製在兩個人群中是相同的,這也成立,因為描述Y在K上的條件分布的方程純粹是一個數學偽命題,而不是描述因果過程。

預測器選擇和馬爾可夫毯

模擬研究的結果顯示,與其他常用方法相比,對數據生成過程背後的因果結構的充分了解是否改善了預測器的選擇1

表1模擬結果:預測工具的性能指標

在100,000個模擬數據集中的37,272個中,結果變量節點沒有任何父節點,因此不可能在這些情況下僅將結果節點的父變量作為預測因子來評估邏輯回歸的性能(表1)1)。在8032個模擬數據集中,結果變量節點沒有任何父節點或子節點,因此無法評估基於馬爾可夫毛毯的邏輯模型和邏輯回歸的性能,包括所有具有結果路徑的變量作為預測因子(表1)1)。

當Markov毯集為空時,套索和彈性網回歸模型在大約93.3%的時間內正確地將所有回歸係數縮小到零或非常接近零,導致無法計算的ICI。總的來說,套索回歸在14,936(14.9%)個模擬數據集的10個交叉驗證中至少選擇了一個準確的馬爾可夫毯變量集。當馬爾可夫毯是空的(93.3%)或隻包含一個變量(46.8%)時,這一比例高於包含兩個(7.6%)或更多變量時。這一發現支持Li等人提出的lasso正則化和選擇算法與馬爾可夫毯的識別之間存在聯係的觀點[22]。

總體而言,與所有其他研究的預測工具相比,基於馬爾可夫毛毯的logistic模型的平均ICI(0.01882)較低。當隻考慮那些所有預測工具都具有可計算的ICI值的數據集時,該模型也產生了最低的平均ICI (0.01956)1)。在正麵比較中,在大多數模擬數據集中,各種預測工具的ICI大於或等於基於馬爾可夫毯的logistic模型的ICI(範圍:57.0%至98.2%)。

討論

可移植性和獨立機製原則

通過這兩個簡單的例子,我們提供了一個直觀的理論基礎,即包括原因作為預測因素的診斷性臨床風險預測模型可能更具可移動性[23]。如例2所示,在反因果情景中,校準方麵的可移植性可能較低,其中預測結果是疾病,預測者是結果的影響[17]。

在簡化的例2中沒有包括Y和K的共同原因,我們注意到,如果預測者和疾病具有一個或多個共同原因,則診斷性臨床風險預測模型在相似的反因果情景下對不同人群的可轉移性可能更高。在因果學習的“不變因果預測”方法中,也利用了風險預測模型的觀點,即包括感興趣結果的直接原因作為預測因子,將更適合於不同的設置[1]以及在機器學習實踐中的“協變量移位”[17]。總的來說,我們認為診斷性臨床風險預測建模領域可以從將潛在因果結構的知識納入建模策略的實踐中受益匪淺。這些信息的整合可以深入了解給定的診斷風險預測模型在不同情況下的可移植性[7]。

預測器選擇和馬爾可夫毯

我們的結果在經驗上證明了基於馬爾可夫毯子的邏輯模型的同等或更好的性能,證實了前麵提出的理論。在與其他方法的正麵比較中,基於馬爾可夫毯的邏輯模型在所有生成的數據集中產生了超過57%的相同或更好的校準(在比較的預測工具中範圍為57%至98%)。基於馬爾可夫毯子的邏輯模型不僅在校準方麵表現出良好的性能,而且所需的輸入變量比可用變量的數量少得多。此外,這種方法明確地依賴於總結因果知識,與常見的因果不可知論方法相比,它提供了高度的可解釋性。

我們承認,在現實世界的環境中,不太可能遇到理想的情況,在這種情況下,對潛在的因果結構有完美的了解,所有必要的變量都是可用的和完整的,並且沒有非線性關係和相互作用。需要進一步研究與這些理想條件的偏差,特別是要了解當存在統計相互作用或非線性關係以及測量誤差時模型錯誤規範的後果。盡管如此,我們相信我們的結果為使用DAG提供了重要的理論基礎,DAG總結了因果結構的先驗知識,以便在理想環境中以簡單和結構化的方式識別預測因子。

結論

通過一係列的理論例子和模擬結果,我們已經表明,對潛在因果結構的深入了解可以幫助理解潛在的可轉運性,並為給定的臨床風險預測模型優化預測因子的選擇。在臨床風險預測模型的開發和應用中,我們認為先驗的因果信息往往被忽略或在沒有結構化框架的情況下被直觀地使用。我們渴望看到我們所概述的框架的首次應用,進一步的理論發展,以及對這一概念的科學討論。

數據和材料的可用性

本文模擬了支持本文結論的數據集,代碼可以在補充文件中找到。在手稿中詳細描述了模擬條件以及軟件,包名稱和功能,以實現完全透明。

縮寫

APOEε4:

載脂蛋白E等位基因ε4

CSF-tau:

腦脊液中的Tau蛋白

DAG:

有向無環圖

這裏:

綜合校準指標

套索:

最小絕對收縮和選擇操作符

m:

馬爾科夫毯

參考文獻

  1. 王誌強,王誌強,Schölkopf .基於神經網絡的因果推理方法研究。劍橋:麻省理工學院出版社;2017.

  2. [3]李建軍,李建軍,李建軍,李建軍,等。基於邊緣結構模型的臨床預測模型研究。中華醫學雜誌,2018;37(4):444 - 444。https://doi.org/10.1002/sim.7913

    文章PubMed公共醫學中心穀歌學者

  3. 格林蘭S,珀爾J,羅賓斯JM。流行病學研究的因果圖。流行病學。1999;10:37-48。

    文章中科院穀歌學者

  4. 王誌強,王誌強,王誌強,等。統計參考在線;2014.https://onlinelibrary.wiley.com/doi/abs/10.1002/9781118445112.stat03732

  5. Hernán MA, Hernández-Díaz S, Werler MM, Mitchell AA。因果知識作為混雜評價的先決條件:在出生缺陷流行病學中的應用。中華流行病學雜誌。2002;32(1):1 - 6。

    文章穀歌學者

  6. Janzing D, Schölkopf B.基於算法馬爾可夫條件的因果推理。計算機工程學報,2010;56(6):568 - 568。

    文章穀歌學者

  7. [Schölkopf]張凱,張文傑,張文傑。因果學習與反因果學習的關係。arXiv [cs。LG];2012.

    穀歌學者

  8. 李建軍,李建軍。基於馬爾可夫毛毯的特征空間變量選擇。技術報告DSL TR-08-01;2008.

    穀歌學者

  9. 傅紹平,張建平。基於馬爾可夫毯子的特征選擇方法。見:世界工程大會論文集。香港:Newswood Ltd;2010; 1:321-8。

  10. Elshawi R, Al-Mallah MH, Sakr S.基於機器學習的高血壓預測模型的可解釋性研究。中華醫學雜誌,2019;19:146。

    文章穀歌學者

  11. 李建軍,李建軍。基於特征選擇的最優特征選擇方法。參見:ICML ' 96第十三屆機器學習國際會議論文集;1996.p . 284 - 92。

    穀歌學者

  12. J.智能係統的概率推理:似是而非的推理網絡。舊金山:摩根·考夫曼;1988.

  13. 張建軍,張建軍。基於預測馬爾可夫毯子的最優特征選擇。參加:第五屆IEEE數據挖掘國際會議(ICDM ' 05);2005.

    穀歌學者

  14. J-P, Elisseeff A.基於馬爾可夫毛毯的因果結構學習。[J] .中文信息學報,2008;9(9):1295 - 1242。

  15. 李建軍,李建軍,李建軍,等。基於馬爾可夫覆蓋層的大規模馬爾可夫覆蓋層發現算法。在:FLAIRS會議;2003.p . 376 - 80。

    穀歌學者

  16. Kohavi R, John GH。用於特征子集選擇的包裝器。情報學報。1997;97:273-324。

    文章穀歌學者

  17. 邁向有原則的特征選擇:相關性、過濾器和包裝器。AISTATS:第九屆國際人工智能與統計研討會論文集;2003.

  18. 楊鬆,王輝,胡鑫。基於馬爾可夫毯子的局部因果發現方法。arXiv [cs.AI];2019.

    穀歌學者

  19. Austin PC, Steyerberg EW。綜合校正指數(ICI)和相關指標用於量化邏輯回歸模型的校正。中華醫學雜誌,2019;38(4):591 - 591。

  20. Uddin MS, Kabir MT, Al Mamun A, Abdel-Daim MM, Barreto GE, Ashraf GM. APOE與阿爾茨海默病:越來越多的證據表明靶向APOE4可能對抗阿爾茨海默病的發病機製。中國生物醫學工程學報,2019;56(6):544 - 544。

    文章中科院穀歌學者

  21. 李建軍,金世傑,洪森,金勇。利用澱粉樣蛋白和tau蛋白作為液體生物標誌物診斷阿爾茨海默病。中華醫學雜誌,2019;51:1-10。

  22. 李G,戴H,你y識別馬爾可夫毛毯使用套索估計。見:《知識發現與數據挖掘進展》。柏林-海德堡:施普林格;2004.308 - 18頁。

    穀歌學者

  23. Steyerberg電子戰。臨床預測模型:開發、驗證和更新的實用方法。第二版。可汗:施普林格;2019.

  24. 王曉明,王曉明,王曉明,等。臨床風險預測模型的有向無環圖與因果思維。arXiv [stat.ME]。2020.http://arxiv.org/abs/2002.09414。2020年6月15日發布。

下載參考

致謝

作者希望感謝James M. Robins博士提出的有見地的意見和建議,這有助於改進本文。此手稿的預印本可在arXiv服務器上獲得[24]。

資金

JLR的研究得到了Else-Kröner-Fresenius基金會(www.ekfs.de, GSO/EKFS-17,授予TK)。資助者在研究設計、數據收集和分析、發表決定或手稿準備方麵沒有任何作用。我們感謝德國研究基金會(DFG)和柏林慈善機構開放獲取出版基金(Universitätsmedizin)的支持。

作者信息

作者及單位

作者

貢獻

MP將這項研究概念化。MP和SK設計並運行了模擬。MP和JR起草了手稿。TK和SK監督了這個項目。所有作者都嚴格審查了最終版本。

相應的作者

對應到馬可Piccininni

道德聲明

倫理批準並同意參與

不適用。

發表同意書

不適用。

相互競爭的利益

我們聲明所提交的作品沒有利益衝突。捷豹路虎、MP和SK沒有進一步的披露。在提交的工作之外,TK報告還為CoLucid的一個顧問委員會和安進資助的一個研究項目做出了貢獻,柏林慈善基金會Universitätsmedizin因此獲得了不受限製的報酬。他還獲得了禮來、Newsenselab和道達爾提供方法學建議的酬金,諾華和Daiichi Sankyo提供神經流行病學和研究方法講座的酬金,以及英國醫學雜誌的編輯服務。

額外的信息

出版商的注意

b施普林格《自然》雜誌對已出版的地圖和機構的管轄權要求保持中立。

補充信息

權利和權限

開放獲取本文遵循知識共享署名4.0國際許可協議,該協議允許以任何媒介或格式使用、共享、改編、分發和複製,隻要您適當地注明原作者和來源,提供知識共享許可協議的鏈接,並注明是否進行了更改。本文中的圖像或其他第三方材料包含在文章的知識共享許可協議中,除非在材料的署名中另有說明。如果材料未包含在文章的知識共享許可中,並且您的預期用途不被法律法規允許或超過允許的用途,您將需要直接獲得版權所有者的許可。如欲查閱本許可證副本,請瀏覽http://creativecommons.org/licenses/by/4.0/。創作共用公共領域免責聲明(http://creativecommons.org/publicdomain/zero/1.0/)適用於本文中提供的數據,除非在數據的信用額度中另有說明。

轉載及權限

關於本文

通過CrossMark驗證貨幣和真實性

引用本文

piccinini, M., Konigorski, S., Rohmann, J.L.et al。臨床風險預測建模中的有向無環圖與因果思維。BMC醫學研究方法20., 179(2020)。https://doi.org/10.1186/s12874-020-01058-z

下載引用

  • 收到了

  • 接受

  • 發表

  • DOIhttps://doi.org/10.1186/s12874-020-01058-z

關鍵字

  • 因果關係
  • 臨床風險預測
  • 預測模型
  • 馬爾科夫毯
  • 有向無環圖
  • 可移植性
  • 預測的選擇
Baidu
map