PLOS ONE: modelo de abordagem de seleção evidenciou Causal de Associação entre 25-hidroxivitamina D e colorretal Cancer

Abstract

Introdução

A deficiência de vitamina D tem sido associada com aumento do risco de cancro colorectal (CRC), mas relação causal ainda não foi confirmada. Nós investigamos a direção da causalidade entre a vitamina D e CRC, estendendo as abordagens convencionais para permitir relações pleiotrópicos e modelando explicitamente fatores de confusão não medidos.

Métodos

Plasma de 25-hidroxivitamina D (25-OHD) , variantes genéticas associadas com 25-OHD e CRC, e outras informações relevantes estava disponível para 2645 indivíduos (1057 casos CRC e 1588 controles) e incluída no modelo. Nós investigar se 25-OHD é susceptível de ser causalmente associada a CRC, ou vice-versa, selecionando a melhor hipótese de modelagem de acordo com escores preditivos Bayesian. Examinamos consistência para uma série de suposições prévias.

Resultados de

comparação Modelo mostrou preferência pela associação causal entre a baixa de 25-OHD e CRC sobre a hipótese de causalidade reversa. Isto foi confirmado por posteriores desvios médios obtidos para ambos os modelos (11,5 unidades log naturais em favor do modelo causal), e também para critérios de informação desvio (DIC) computados para uma série de distribuições anteriores. No geral, os modelos ignorando escondida confusão ou pleiotropia tiveram pontuações DIC significativamente mais pobres.

Conclusão

Os resultados sugerem associação causal entre a 25-OHD e cancro colorectal, e apoiar a necessidade de ensaios clínicos randomizados para novas confirmações .

Citation: Zgaga L, Agakov F, Theodoratou E, Farrington SM, Tenesa A, Dunlop MG, et al. (2013) Abordagem Selecção do modelo sugere associação causal entre a 25-hidroxivitamina D e câncer colorretal. PLoS ONE 8 (5): e63475. doi: 10.1371 /journal.pone.0063475

editor: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Itália |

Recebido: 23 Janeiro, 2013; Aceito: 03 de abril de 2013; Publicado em: 24 de maio de 2013

Direitos de autor: © 2013 Zgaga et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada por doações Programa de financiamento do Cancer Research UK (C348 /A12076) e Scottish Governo Chief Scientist Escritório (CZH /4/529). ET é financiado pelo Cancer Research UK Fellowship (C31250 /A10107). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Competir interesses:. Dr. Felix Agakov é empregados por e um CEO de Pharmatics limitada – uma empresa comercial especializada no desenvolvimento de produtos e serviços de software baseados na aprendizagem de máquina probabilística e estatística high-dimensionais. Não há patentes, produtos em desenvolvimento ou produtos comercializados a declarar. Isto não altera a adesão dos autores para todas as políticas de PLoS One sobre os dados e materiais de compartilhamento.

Introdução

Em 1980, foi colocada a hipótese primeira que a vitamina D é um fator protetor contra o câncer colorretal (CRC) [1]. Posteriormente foi demonstrado que a ingestão mais elevada de vitamina D [2], maior níveis séricos de 25-hidroxivitamina D (25-OHD) [3] e de residência em regiões com radiação UVB forte [4] estão todos associados a um menor risco CRC e morte por câncer [ ,,,0],5]. A maioria das evidências disponíveis vem de correlações ecológicas ou estudos observacionais. tentativas imparciais para investigar a causalidade nestes estudos não são confiáveis, como desenho do estudo não podem explicar completamente o efeito de potenciais fatores de confusão, tais como obesidade ou atividade física [6], [7]. No entanto, estudos experimentais [8], [9], ensaios randomizados controlados [2], [10] e aplicação de critérios de Hill para a causalidade [11], [12] apoiar um possível papel causal de deficiência de vitamina D no câncer colorretal. O volume de observação e

in vitro

provas e a importância potencial grande de saúde pública deve associações provar ser causal, exigem uma investigação mais aprofundada.

Enquanto aguardam os resultados de ensaios clínicos randomizados, a aprendizagem estatística e máquina métodos permitem a investigação de causalidade em estudos observacionais. Um tal método é a randomização mendeliana (MR). MR é uma aplicação da análise de variáveis ​​instrumentais (IV) que usa polimorfismos genéticos como instrumentos [13], [14], [15]. Tornou-se cada vez mais popular, uma vez que estudos de associação do genoma (GWAS) identificou numerosas variantes genéticas que podem ser usados ​​como “instrumentos” [16]

Convencional MR aproxima assumir que:. (I) genótipos são randomizados ; (Ii) variantes genéticas consideradas como instrumentos afetar o resultado

única

modificando o biomarcador, ou seja, não existem efeitos pleiotrópicos desses variantes sobre o resultado; (Iii) variações entre o verdadeiro eo observados biomarcadores são insignificantes (sem ruído de observação) [17], [18], [19], [20]. Se estes pressupostos segurar, inferência de causalidade a partir de dados de observação é teoricamente válida, embora conclusões são sensíveis aos instrumentos escolhidos [21] e pode não ser válida quando os efeitos dos instrumentos sobre os biomarcadores são fracos. Apesar de sua popularidade, tem-se argumentado que os métodos de RM empurrar o problema da inferência causal para outro reino, como os seus pressupostos são geralmente não verificável [22]. Por exemplo, raramente é possível excluir pleiotropia ou estimar efeitos de tais exclusões na estimativa resultante, especialmente para múltiplos instrumentos [23], [24]. Além disso, em MR clássico é difícil avaliar como as estimativas causais são afetados por diferentes suposições sobre as distribuições dos fatores de confusão latentes.

Outra limitação importante do MR é que falta um quadro de comparação modelo formal para inferir a

direção

de causalidade quando pleiotropia e de confusão não pode ser excluída como possíveis explicações. A abordagem clássica estima o tamanho do efeito causal [25], mas não avalia o valor relativo de causalidade

vs.

Reverter explicações causais. Isto pode não importa em um estudo de coorte de longo prazo em que a sequência temporal de biomarcador para o resultado é clara, mas limita a capacidade de inferir causalidade a partir de dados de corte transversal ou caso-controle. Observe também que em modelos pleiotrópicos o causais e reverter modelos não são aninhados e testes clássicos para aninhadas não pode ser facilmente utilizado. Uma abordagem mais geral para aprender a direção da causalidade é a causalidade Selecção do modelo baseado em Probabilidade método (LCMS) sugerido por [26], que propõem seleção do melhor hipótese de modelagem por meio dos escores baseada em probabilidade de causalidade directa, inverta e pleiotropic modelos. Embora esta abordagem relaxa a hipótese de não haver pleiotropia do método MR clássico, ele não permite para fatores de confusão latentes ou ruído de medição. Além disso, porque o seu método não é Bayesian, ele não pode ser facilmente escalado para grandes problemas, onde os genótipos e /ou fenótipos high-dimensionais são utilizados como instrumentos.

Temos anteriormente realizada uma análise MR para investigar o possível efeito causal de plasma de 25-OHD no risco de câncer colorretal [27]. Nossos resultados foram inconclusivos e uma relação causal entre a baixa de 25-OHD e CRC não foi nem demonstrou claramente nem excluídos.

Neste estudo, partimos para investigar o efeito causal de 25-OHD no risco de câncer colorretal. Nós estendemos as abordagens convencionais (MR e LCMS) por: (i) que permite ligações pleiotrópicos entre os instrumentos e doenças, (ii) representando o ruído na medição e (iii) a modelagem de “variáveis ​​de confusão ocultos”, ou seja, factores não medidos que pode afetar biomarcador e doença. Procedemos ao selecionar o melhor hipótese de modelagem de acordo com escores preditivos Bayesiana, e investigar sua consistência para uma ampla gama de suposições prévias. A nossa abordagem baseia-se nos pontos fortes do MR e LCMS, mas relaxa suas suposições restritivas, o que resulta em modelos que se encaixam melhor os dados de acordo com os critérios considerados.

Métodos

Foram estudados um subgrupo de indivíduos a partir do Estudo SOCCS (1999-2006) [27], [28]. No total, 2645 indivíduos com todas as medições relevantes disponíveis foram incluídos neste estudo (1057 casos e 1588 controles). A aprovação ética para o estudo SOCCS foi obtida a partir da comissão multicêntrico de Ética em Pesquisa para a Escócia (número de referência 01/0/05) e do Escritório de Pesquisa e Desenvolvimento do NHS Lothian (número de referência 2003 /W /GEN /05). Todos os participantes deram consentimento informado por escrito. Os indivíduos completaram um questionário perguntando sobre estilo de vida. Questionário recolhidos dados sobre a história médica geral, atividade física (horas de ciclismo e outras actividades desportivas, 4 grupos), status sócio-econômico (Carstairs Índice de Privação), hábito de fumar, ingestão regular de aspirina e NSAIDs, altura, peso, e outros. Os participantes também completaram um semi-quantitativo de freqüência alimentar (https://www.foodfrequency.org) e suplementos de questionários, que foram utilizados para calcular a ingestão de vitamina D (ver [27], [29]).

plasmática total 25-OHD (25-OHD

2 e 25-OHD

3), a forma de armazenamento principal de vitamina D, foi medida por espectrometria de massa de cromatografia líquida-tandem (/MS LC-MS) método de [30 ]. concentração de 25-OHD foi padronizado para remover o efeito de destaque da temporada, quando o sangue foi tirada, e medição May-ajustado foi utilizado nas análises (como descrito em [29]).

Neste estudo, foram utilizados 16 SNPs associados com o CRC no GWAS: rs6691170, rs6687758, rs10936599, rs16892766, rs7014346, rs10795668, rs3802842, rs7136702, rs11169552, rs4444235, rs4779584, rs9929218, rs4939827, rs10411210, rs961253, rs4925386 [31], [32], [33] , [34], [35], [36] e quatro SNPs associados com 25-OHD: rs2282679, rs12785878, rs10741657, rs6013897 [37]. Nós reduzimos dimensionalidade dos fatores genéticos para 6 componentes principais.

probabilística Gráfica Modelagem

As relações entre biomarcadores e os resultados podem ser descritos por “redes Bayesian” representados por grafos acíclicos dirigidos, onde os nós correspondem a variáveis ​​aleatórias, bordas descrever estruturas independência condicional, ea cada dois nós são condicionalmente independentes um do outro dado os seus pais. Tais modelos têm sido amplamente explorado na literatura estatística e aprendizagem de máquina; sua principal vantagem é que eles podem às vezes ser usado para diferenciar a causalidade de meras associações estatísticas [38], [39], [40].

Como argumentado por exemplo por MacKay (35,3, [41]), uma abordagem bayesiana para inferência de causalidade pode ser baseado em

selecção do modelo

, onde os modelos que descrevem diferentes hipóteses causais são considerados e comparados. Por exemplo, quando priores sobre efeitos de confusão e pleiotrópicos são especificados, o peso das evidências a favor de um modelo causal sobre outra alternativa pode ser avaliada, embora os critérios clássicos para identificação de efeitos causais em modelos gráficos [42], [43] não são conheceu. O fato de que o mesmo modelo for selecionado para uma ampla gama de priores específicas de domínio pode indicar a direção da causalidade (que podem ter de ser ainda mais validada através de experimentos controlados). Esta abordagem é atraente, porque é aplicável em situações do mundo real, onde ambos confusão e pleiotropia podem estar presentes.

A estrutura gráfica do modelo genérico considerado neste trabalho é mostrado na Figura 1. Isso amplia a anteriormente método introduzido de [44], permitindo efeitos pleiotrópicos de genótipos sobre biomarcadores e resultados. Nós consideramos diversas variantes do modelo básico, por exemplo, invertendo a direcção da ligação entre a vitamina D e o cancro colo-rectal, ou retirá-la inteiramente. Para todos esses modelos, calculamos pontuação baseada em probabilidade que indicam o quão bem o modelo se ajusta aos dados, em conformidade com a abordagem recentemente introduzido [45], [46], [47].

Fazer a ligação

u

representa o efeito de variáveis ​​de previsão em 25-OHD,

w

é o efeito de 25-OHD no CRC,

wg

é o efeito de variáveis ​​de previsão sobre a CRC,

v

é o efeito de fatores de confusão não medidos no 25-OHD e

wz

é o efeito de fatores de confusão não mensuráveis ​​sobre o cancro colorectal.

Resultado, as variáveis ​​de biomarcadores e Predictor.

Nós examinar a relação entre o cancro colorectal (resultado,

y

) e May-padronizado plasma de 25-OHD (biomarcador, com a concentração real não observada denotado por

x

e o que corresponde a medição barulhento denotado por

xt

), como mostrado na Figura 1. Observe que

xt

acomoda erro de medição e oscilações biológicos. Contabilizamos

conhecido

confusão, incluindo o vector de variáveis ​​de previsão

g,

que contém dados sobre fatores gerais e ambientais (idade, sexo, IMC, atividade física, história familiar de CRC, NSAIDs admissão, status sócio-econômico, ingestão calórica total, consumo de álcool, tabagismo, consumo de carne vermelha e ingestão de vitamina D na dieta) e fatores genéticos. Antes da análise, todas as variáveis ​​de previsão foram dimensionadas para ter:. Média = 0 e DP = 1.

variáveis ​​de confusão não mensuráveis ​​(ou oculto)

Nós assumimos que os efeitos conjuntos de fatores de confusão não medidos no biomarcador e os resultados são aproximadamente aditivos e pode ser resumido por um oculto (latente) variável

z

(Figura 1), onde

z

segue uma distribuição normal de média = 0 e SD = 1. gaussianidade de fatores latentes é uma suposição padrão de modelos lineares mistos [48] e pode ser justificada pelo teorema do limite central (que postula que a soma de um grande número de efeitos independentes é de aproximadamente distribuídos normalmente, sob certas condições). é necessária a restrição sobre a variação do fator de confusão para garantir a identificabilidade do seu efeito sobre biomarcadores e resultados; nós escolhemos-lo para que confundidor

z

encontra-se na mesma escala que as variáveis ​​de previsão em escala. Durante a inferência do fator de confusão é marginalizado por médias de computação ao longo de sua distribuição de probabilidade, que é uma maneira padrão de contabilização de variáveis ​​ocultas em teoria da probabilidade [41].

parametrização Modelo.

Agakov et al . introduziu o método Dispersa Instrumental Variable (spiv) [46]. Eles assumem que todas as distribuições condicionais no modelo mostrado na Figura 1 são Gaussians linear, com os priores Gama inversa sobre as variâncias dos termos de ruído, e priores Laplace de indução de esparsidade sobre coeficientes dos mapeamentos lineares [46]. Eles consideram o

a posteriori

aproximação máxima de inferência; definir um algoritmo expectativa de maximização (EM) para a montagem de seu modelo de dados, e utilizar a validação cruzada para outras hiperparâmetros sintonizar. Nós, em grande medida seguir esta construção, mas assumir uma variável binária resultado

y

(caso /controle) e um modelo de regressão logística escasso para a probabilidade de CRC dados os genótipos, biomarcador, e fatores de confusão ocultos. Além disso, em contraste com [46], em vez de usar as estimativas pontuais dos parâmetros, consideramos o tratamento Bayesian completa mais geral aproximada por Markov Chain Monte Carlo (MCMC).

priores /parâmetros.

da mesma forma que [49] foi considerado de média nula priores Laplace sobre os coeficientes lineares com a concentração hiperparâmetro

gam1

. Modelos com maior

gam1 Quais são mais propensos a ter suas ligações podadas no modo posterior (veja a Figura S1) .Nós investigar a relação entre CRC e 25-OHD para uma série de distribuições anteriores (assumindo

gam1

é de 0,025, salvo indicação em contrário). A concentração em torno de zero codifica a nossa crença de que as grandes genotípicas e fenotípicas efeitos são improváveis, enquanto as caudas gordas do componente Laplace permitir possíveis associações grandes raras.

Nós denotado precisões (inverso variações) de preditores lineares como

precx

,

precxt

,

precy

e

precz

para o verdadeiro 25-OHD, medição de 25-OHD, os efeitos sobre o estado da doença e fatores de confusão não medidos respectivamente. Para estes, temos usado ambos os valores fixados para garantir a identificabilidade dos efeitos aleatórios e indicativo de nossas crenças na magnitude do ruído de observação, e o conjugado priores Gama. valores menores das precisões correspondem aos intervalos de confiança mais amplos associados a cada medição.

inferência probabilística e selecção do modelo.

Várias dezenas baseada em probabilidade pode, em princípio, ser considerado [50], [51] . Aqui nós selecionar o melhor modelo usando critério de informação de desvio (DIC) prontamente computável a partir de amostras MCMC [51]. DIC equilibra qualidade do ajuste e da complexidade de um modelo, o que ajuda a evitar overfitting. hipóteses de modelagem preferidos são caracterizados pela CIM mais baixas, proporcionando a melhor combinação de qualidade e simplicidade

.

Os modelos são comparados por examinar sua pontuação DIC

diferenças

. Grosso modo, as diferenças absolutas de acima de 10 unidades de descartar definitivamente o modelo com o maior DIC, e as diferenças entre 5 e 10 são substanciais [51], [52]. Nós investigamos a consistência do melhor modelo sob diferentes suposições sobre antecedentes sobre os efeitos fixos das co-variáveis, efeitos aleatórios dos fatores de confusão, eo ruído de medição. Para obter os melhores tais situações, nós também comparar posterior meios de desvios dos modelos.

Experimentos

Em todos os experimentos, utilizou-se todo o conjunto de pontuações genotípicas e fatores ambientais associados com qualquer CRC ou 25-OHD. O objetivo do experimento 1 foi determinar a importância dos fatores de confusão não medidos e suas implicações sobre a inferência de causalidade. Comparamos 3 modelos: o modelo causal completa com fatores de confusão (M1), o modelo causal

sem

fatores de confusão (M2), eo modelo inverso

sem

fatores de confusão (M3) (Figura 2A). Nós permitiu uma possibilidade de dependências pleiotrópicos em que tanto o biomarcador e os resultados foram afetados por variáveis ​​de previsão (os genótipos e fatores ambientais). Os modelos foram então comparados para uma série de distribuições anteriores e suposições sobre o ruído de observação, ea melhor hipótese de modelagem foi selecionado com base na pontuação DIC.

A. Experimento 1. M1 – modelo causal completa com fatores de confusão, M2 – modelo causal sem confusão, e M3 – reverse modelo sem fatores de confusão. B. Experiência 2. Comparamos causal convencional (M4) e os modelos convencionais de causalidade reversa (M5) (ambos (i) assumir ausência de efeitos pleiotrópicos de instrumentos sobre biomarcadores e resultados, (ii) exclui explicitamente fatores de confusão não medidas de modelagem e (iii) conta para o ruído na medição) com o modelo onde a associação entre o biomarcador eo resultado é modelado

inteiramente

por fatores de confusão não medidos (M6). C. Experiência 3. Nós comparamos causal completa (M7) e cheio modelo causal reversa (M8), permitindo relacionamentos pleiotrópicos e representando escondidas, fatores de confusão não medidos.

No experimento 2, foi considerada a barulhenta extensões do causal convencional (M4) e reverter modelos (M5) da abordagem LCMS [26], [53] com um modelo onde a associação entre o biomarcador e o resultado foi totalmente explicado por um fator de confusão desmedida (M6), como mostrado na Figura 2B. O objectivo desta experiência foi duplo: (i) para demonstrar restrição do pressuposto de que não confusão latentes em LCMS, e (ii) para mostrar que um tratamento Bayesiana do método variável instrumental clássico [44] não seria capaz de identificar causalidade, favorecendo um não-causal sobre uma explicação causal. Como no experimento 1, foi selecionado o melhor modelo para uma série de definições de parâmetros anteriores.

O objetivo do experimento 3 foi comparar a causal completo e modelos onde os fatores de confusão foram modelados de forma explícita (Figura 2C) reversa. Note-se que ambos estes modelos são probabilidade equivalente; por exemplo. para cada configuração de parâmetros de uma existe uma configuração de parâmetros do outro o que resulta em um risco idêntico. A abordagem considerada aqui tratadas como simetria, escolhendo a prévia distribuição Laplace sobre as magnitudes dos efeitos lineares, que codificou a nossa crença anterior de que muito grande genotípicas e fenotípicas efeitos são raros (ver Apêndice S1).

No exploratória fase do experimento 3, consideramos priores independentes sobre as associações diretas entre o biomarcador eo resultado (

gam1, w

link) e os efeitos de confusão (

gam2

,

v

e

WZ ligações

), que foram feitos diferentes, a fim de aumentar ainda mais a flexibilidade do método. Uma amostra aleatória de 500 casos e 500 controles foi usado para fazer uma exploração de diferentes suposições prévias mais eficiente. Realizamos várias execuções das cadeias de Markov de inicializações aleatórias para ter em conta possíveis variações nos escores deviance (ver Métodos S1 para mais detalhes) para uma ampla variedade de distribuições anteriores.

Na fase final do experimento 3, usando o conjunto de dados completo comparamos a causal completa (M7) e modelos de reverter (M8) onde as variáveis ​​de confusão foram modelados de forma explícita. Realizamos várias repetições mantendo parâmetro sparsity

gam1

fixo para o melhor valor desde a fase de low-dimensional mais cedo, mas precisões variados para verificar a consistência dos resultados.

Resultados

a população do estudo é descrito na Tabela 1. Ambos os níveis de 25-OHD crude e May-padronizadas foram fortemente associada com CRC no modelo univariada (p = 1.2E-10 e 6.9E-9, respectivamente), o modelo ajustado para idade e sexo (p = 3,5E-10 2,9E-e 8, respectivamente) e em modelo totalmente ajustado (p = 5.5E-10 2.0E-e 8, respectivamente). Além disso, previu nível de vitamina D (utilizando todas as co-variáveis) também foi associada com CRC (p = 0,048), sugerindo que a co-variáveis ​​escolhidas são preditivos de vitamina D e pode realmente ser consideradas como instrumentos de candidatos válidos. Os resultados foram consistentes quando os dados foi dividida em treinamento e teste conjuntos de dados (dados não mostrados).

Experimento 1. Importância das variáveis ​​de confusão para a inferência de causalidade

Pela primeira configuração no Experimento 1, partituras DIC para causal e reverter modelos causais sem fatores de confusão foram DIC

M2 = 42.132 e DIC

M3 = 41.911, respectivamente. A pontuação DIC significativamente menor para o modelo de causalidade reversa (DIC diferença = 221 unidades) indica a sua superioridade sobre o modelo causal. No entanto, DIC marcar para o modelo causal completa com fatores de confusão (M1) foi significativamente inferior (DIC

M1 = -3.797), obtendo-se uma diferença muito grande de DIC 45,929 e 45,708 unidades de suporte de M1, quando comparado com M2 e M3 , respectivamente. Os resultados foram consistentes em todos os ambientes testados (Tabela 2). Isto sugere que o modelo de contabilização de outros factores de dúvida não medidos

, de longe,

supera modelos sem fatores de confusão.

Experiência 2. A comparação com LCMS Models

pontuações DIC para o causal convencional e reverter modelos causais considerados por LCMS [26], [53] foram DIC

M4 = 43.347 e DIC

M5 = 41.915, respectivamente, para o primeiro ajuste no Experimento 2. a diferença de pontuação DIC de 1432 a favor da M5 sugere que a relação de causalidade reversa entre 25 OHD e CRC é mais provável. No entanto, um modelo que assume

única

uma associação indireta entre 25 OHD e CRC através de fatores de confusão não medidos (M6), se ajusta aos dados significativamente melhores do que qualquer um dos modelos anteriores (M4 e M5), como é sugerido por DIC marcar diferenças de 43,266 e 41,834 unidades, respectivamente. Os resultados foram consistentes em todos os ambientes testados (Tabela 3).

Experiência 3. Inferência de causalidade entre o plasma 25-OHD e CRC

Na fase exploratória do experimento 3, foi realizada 30 comparações diferentes

gam1

e

gam2

. Não é novidade que, para os modelos mais esparsas (maiores valores de

gam1

) a diferença nos escores de causal completa e modelos reverter torna-se menos significativo. Este é intuitivo, porque para ampliar

gam1

os modelos são aproximadamente dissociado, e qualquer diferença é em grande parte devido ao ruído amostragem (figura S1). A média de DIC foi calculado para cada

gam1

configuração, e confirmou-se que os modelos densos ajustar os dados melhor (-2.801,12, -1.816,54, -1.598,58, -1.571,33 e -1.557,48, respectivamente).

Quando se concentra em modelos mais densos (

gam1

≤0.25), em 15/18 iterações havia esmagadora (diferenças DIC na faixa de 10,6 a 3.919) e em 2 (diferenças DIC de 9.7 e 5.2) substanciais provas em favor do modelo causal completa, e em uma iteração não foi possível distinguir um modelo preferido com certeza, embora o modelo causal foi favorecido (DIC diferença = 3,2 unidades) (Figura 3). Os resultados de todas as comparações são apresentados na Tabela 4 e mais detalhe na Tabela S1.

DIC marcar diferenças que resultam da comparação da causalidade completo e modelos causais reversa, para uma variedade de configurações de parâmetros são mostrados. Os valores positivos indicam preferência pelo modelo causal. A média de DIC (linha preta) representa o DIC média para todos causal e modelos causais considerados reversa (inferior escores médios DIC sugerir melhores modelos), para qualquer configuração de dispersão

gam1

parâmetro (maior

gam1

favorece modelos esparsas – as ligações entre os nós estão cada vez mais propensos a ser podadas). Consideramos priores gama independentes sobre as associações em relação aos efeitos de confusão (

gam2

), a fim de atenuar o forte efeito de fatores de confusão e para aumentar artificialmente a importância da ligação entre a 25-OHD e cancro colorectal. No geral, os modelos ideais são os mais densos (caracterizada por menores valores de

gam1

parâmetro, a maioria dos links permanecem no modelo), e grandes diferenças DIC positivos fornecer esmagadora evidência para uma relação causal direta entre a baixa de 25-OHD e câncer colorretal.

Por fim, utilizou-se todos os dados disponíveis para comparar causal completo e modelos causais inversa. Nós observado de forma consistente evidências em apoio da relação de causalidade directa entre a baixa de 25-OHD e CRC. Em todas as definições de parâmetros de ruído que nós explorados,

o modelo causal completo, desde uma melhor explicação dos dados do que a completa inversão de causalidade modelo

: diferenças DIC foram entre 580 e 10.715 unidades em favor do modelo completo de causalidade (Figura 4 e Tabela 5, para os componentes DIC ver Tabela S2)

DIC marcar diferenças entre os modelos são mostrados.; Os valores positivos indicam que a associação causal é mais provável. A média de DIC (linha vermelha) é calculado como o DIC média para todos causal e modelos causais considerados para qualquer ajuste de parâmetros reversa (valores menores indicam melhores modelos). Grandes diferenças DIC positivos fornecem evidência esmagadora para uma relação causal direta entre a baixa de 25-OHD e cancro colorectal. * Configurações: S1: precx = 1000, precxt = 1000, precy = 0,1; S2: precx = 100, precxt = 100, precy = 100; S3: precx = 1000, precxt = 1000, precy = 10; S4: precx = 100, precxt = 100, precy = 200; S5: precx = 20, precxt = 20, precy = 200.

pontuações DIC computados aqui [51] generalizar pontuações AIC usados ​​para inferir a direção da causalidade no LCMS [26], [ ,,,0],53]. No entanto, tem-se argumentado que eles podem underpenalize complexidade do modelo [50]. Ao assumir que o modelo inverso completa tem aproximadamente a mesma complexidade que o modelo causal completa, que, adicionalmente, o melhor comparação do causal e inverter modelos de acordo com os seus desvios posterior médios (DBar). (Note-se que -1/2 DBar também pode ser visto como o “limite de refrigeração” de integração termodinâmico utilizado para aproximar probabilidades marginais dos modelos [54]). . Mais uma vez, encontramos evidências de 11,5 unidades log naturais em favor do modelo causal

Note que este fica em frente aos resultados encontrados por excluindo explicitamente a presença de confundimento escondida (experimentos 1 e 2); no entanto, temos mostrado que, de acordo com a pontuação DIC, os modelos que permitam a confusão escondidas resultou em melhores explicações sobre os dados do que os modelos que não permitem a fatores de confusão. Nós também observado de forma consistente que os níveis mais baixos de 25-OHD estão associados com status do caso CRC. Juntos, estes resultados sugerem que a baixa dos níveis plasmáticos de 25-OHD podem ser causalmente associada com o risco de CRC.

Discussão

Neste artigo, vamos mostrar provas em apoio de uma relação causal entre a baixa de plasma 25 o risco de cancro colo-rectal e -OHD. O estudo foi realizado através da implementação de nova metodologia que se estende a abordagem variável instrumental convencional e mais recente, o método de selecção do modelo causalidade baseada em probabilidade [26], pelo que representa, tanto para fatores de confusão por fatores desconhecidos e permitindo relacionamentos pleiotrópicos.

spiv e melhoria da metodologia

convencional abordagens para o problema da inferência causal são baseadas em suposições fortes e muitas vezes irreais sobre dados. Na prática, tais suposições podem ser violados, o que pode levar a modelos pobres e estimativas causais tendenciosos [22], [55]. Se um escolhe cuidadosamente instrumentos ou dados de sub-amostras para aproximadamente satisfazer as hipóteses restritivas, inferência em MR e LCMS é matematicamente correcto, mas os resultados serão geralmente sensíveis às seleções e pode levar a conclusões diferentes [21], [46], [56]. Neste artigo, aplicar uma estratégia diferente, baseada selecção modelo chamado spiv, onde podemos considerar conjuntamente fatores genotípicas preditiva de ambos os biomarcadores ou resultados sem depender de fortes pressupostos dos métodos clássicos. O fato de que o mesmo modelo “full causal” explica os dados melhor do que hipóteses de modelagem alternativos, como mostrado para uma ampla variedade de distribuições anteriores apoiados pelo domínio é indicativo da possível causalidade e justifica experimentos ainda mais controlados

.

A selecção do modelo estratégia baseada spiv subjacente foi defendido por alguns dos cientistas mais proeminentes de aprendizado de máquina [41], aplicados por Schadt et al. para um subconjunto dos modelos [26], desenvolvido por Agakov et ai. [46], e, recentemente, teoricamente investigada por Winn [57]. Ele oferece importantes extensões da metodologia comum e pode ser usado mesmo em situações onde as relações são pleiotropic ou confundidos por fatores desconhecidos /não medidos (ver Tabela 6 e Apêndice S1 para mais detalhes). A nossa abordagem pode acomodar modelos subjacentes aos métodos convencionais como a limitação casos especiais.

Temos anteriormente descrito uma associação inversa entre a concentração plasmática de 25 OHD e CRC nesta população de estudo. No entanto, os resultados de estudo randomização mendeliana realizamos foram inconclusivos [27].

Neste estudo, aplicando spiv observamos consistentemente evidências em apoio da relação de causalidade directa entre a baixa de 25-OHD e um aumento do risco de CRC , quando os efeitos pleiotrópicos e confusão foram modelados de forma explícita, que está de acordo com o trabalho anterior [58], [59]. Tal inferência tornou-se possível através do relaxamento dos fortes hipóteses de abordagens comuns e explorar selecção do modelo Bayesian.

Deixe uma resposta