PLOS ONE: Aplicação de Multi-SNP Abordagens Bayesian laço e AUC-RF para detectar Principais Efeitos da Inflamatória-Gene variantes associadas com cancro de bexiga de Risco

Abstract

A relação entre a inflamação eo câncer está bem estabelecida em vários tipos de tumores, incluindo o câncer de bexiga. Foi realizado um estudo de associação entre 886 variantes inflamatória do gene eo risco de câncer de bexiga em 1.047 casos e 988 controles do cancro da bexiga Espanhol (SBC) /Estudo Epicuro. A exploração preliminar com a abordagem de regressão logística univariada amplamente utilizado não identificou qualquer SNP significativa após correção para testes múltiplos. Aplicamos ainda dois métodos mais abrangentes para capturar a complexidade do cancro da bexiga susceptibilidade genética: Threshold Bayesian LASSO (BTL), um método de regressão regularizada, e AUC-Random Floresta, um algoritmo de aprendizado de máquina. Ambas as abordagens explorar o efeito conjunto de marcadores. análise BTL identificada uma assinatura de 37 SNPs em 34 genes que mostram uma associação com câncer de bexiga. AUC-RF detectado um subconjunto preditivo óptima de 56 SNPs. 13 SNPs foram identificados por ambos os métodos na população total. Utilizando recursos do estudo Texas cancro de bexiga, fomos capazes de replicar 30% dos SNPs avaliados. As associações entre SNPs inflamatórias e cancro da bexiga foram reexaminados entre os não-fumantes para eliminar o efeito do tabaco, um dos fatores de risco ambiental mais forte e mais prevalente para este tumor. Um SNP 9-assinatura foi detectada por BTL. Aqui nós relatamos, pela primeira vez, um conjunto de SNP nos genes inflamatórios associados em conjunto com o risco de cancro da bexiga. Esses resultados destacam a importância da estrutura complexa da susceptibilidade genética associada com o risco de câncer

Citation:. De Maturana EL, Ye Y, Calle ML, Rothman N, Urrea V, Kogevinas M, et al. (2013) Aplicação de Multi-SNP Abordagens Bayesian laço e AUC-RF para detectar Principais Efeitos da Inflamatória-Gene variantes associadas com cancro de bexiga de Risco. PLoS ONE 8 (12): e83745. doi: 10.1371 /journal.pone.0083745

editor: Chuhsing Kate Hsiao, Universidade Nacional de Taiwan, Taiwan

Recebido: 25 de junho, 2013; Aceito: 07 de novembro de 2013; Publicação: 31 de dezembro de 2013

Direitos de autor: © 2013 de Maturana et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O trabalho foi parcialmente financiado pelo Fondo de Investigación Sanitaria, Instituto de Salud Carlos III (G03 /174, 00/0745, PI051436, PI061614, PI09-02102, G03 /174 e Sara Borrell bolsa para ELM) e Ministério da Ciência e Inovação (MTM2008 -06.747-C02-02 e FPU bolsa de estudos para VU), Espanha; AGAUR-Generalitat de Catalunya (Grant 2009SGR-581); Fundacióla Maratóde TV3; Red Temática de Investigação Cooperativa en Câncer (RTICC); Asociación Española Contra el Câncer (AECC); UE-FP7-201663; e RO1- CA089715 e CA34627; Instituto Espanhol Nacional de Bioinformática (www.inab.org); e pelo Programa de Pesquisa Intramural da Divisão de Cancer Epidemiology and Genetics, National Cancer Institute, EUA. suporte MD Anderson para este projeto incluiu U01 CA 127.615 (XW); R01 CA 74880 (XW); P50 CA 91846 (XW, CPD); Betty B. Marcus fundo de cadeira na prevenção do câncer (XW); UT Research Trust Fund (XW) e R01 CA 131335 (JG). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o câncer de bexiga (BC) é a quinta neoplasia mais comum em termos de incidência nos países industrializados representam cerca de 5-7% e 2-2,5% dos tumores malignos diagnosticados em homens e mulheres, respectivamente. BC é um dos cânceres mais prevalentes devido à sua natureza crônica [1]. Tabaco e da exposição ocupacional a aminas aromáticas são os dois factores de risco ambientais mais bem estabelecidos [2], [3]. Além disso, uma forte evidência para a influência de variantes genéticas comuns no desenvolvimento aC foi adquirido nos últimos anos [4], [5]. A predisposição genética para aC foi investigada em relação a genes que codificam enzimas envolvidas no metabolismo de xenobióticos, a apoptose, o controlo do ciclo celular, angiogénese, inflamação e [4]. Quanto a este último processo, há evidências de que as células inflamatórias, citocinas pró-inflamatórias, e quimiocinas contribuem para a imunossupressão, o crescimento do cancro e progressão [6]. A ligação entre inflamação crônica e BC é apoiado pelas associações encontradas entre

Schistosoma haematobium

e carcinoma de células escamosas [7] e, menos consistente, entre carcinoma urotelial e outros tipos de infecção do trato urinário [8]. Além disso, o efeito protector do uso a longo prazo de drogas não esteróides anti-inflamatórias observadas em alguns estudos de caso-Controla suporta um papel da inflamação neste cancro [9], [10].

A maioria associação estudos focaram-se na detecção de efeitos principais usando um teste de alelos ou à base de genótipo para cada polimorfismo de um único nucleótido-(SNP) separadamente. No entanto, sabe-se que as características complexas, incluindo BC, são explicados por múltiplos loci com bastante pequenas efeitos individuais [11]. Assim, esta estratégia simples provavelmente irá capturar apenas uma pequena proporção da variância genética total da doença conferida por todas as variantes [12]. Portanto, as estratégias para avaliar, ao mesmo tempo vários SNPs e seus efeitos de interação são necessários. métodos estatísticos padrão, tais como regressão logística não são bem adaptados para este fim. Este nível de complexidade genética representa um desafio estatística em estudos de associação, devido ao elevado número de coeficientes de regressão (

p

) em relação ao tamanho da amostra (

n

). algoritmos de aprendizado de máquina fornecer alternativas para a realização de análises em SNP multi [13]. Esses algoritmos são altamente atraentes, uma vez que são o modelo sem especificação e pode capturar informações ocultas. Aleatória Floresta (RF), um algoritmo de classificação proposto por Breiman [14] que podem ser usadas para identificar as variáveis ​​mais importantes relacionadas com a doença, também tem sido aplicada com êxito para o genoma de dados de largura [15]. Recentemente, um algoritmo para seleção de variáveis ​​foi proposto (AUC-RF): identifica o conjunto de variáveis ​​com maior precisão da previsão através da optimização da AUC (área sob a curva ROC) de uma sequência de florestas aleatórios [16]. Outros métodos para lidar com problemas de regressão oversaturated [17] que estão ganhando reconhecimento são os métodos de regressão regularizadas, como a regressão de cumeeira [18], o mínimo absoluto Encolhimento e Seleção Operator (LASSO) [19], e sua versão Bayesiana [20] . Estes métodos são penalizados procedimentos de probabilidade onde as funções de sanções apropriados são adicionados ao log-verossimilhança negativa a encolher automaticamente efeitos espúrios (efeitos de co-variáveis ​​redundantes) para zero enquanto efetivamente estimar os relevantes. A versão Bayesian de LASSO fornece várias vantagens sobre regressão de cumeeira ou o laço clássico. Como outros modelos Bayesiana, que fornece medidas de incerteza sobre as estimativas e previsões, e, como consequência, erros padrão válidos, o que pode ser problemático para o laço frequentista [21]. Além disso, ele produz encolhimento específico do marcador de estimativas de efeito, em contraste com a regressão de cumeeira, e supera a principal limitação do LASSO que admite, no máximo,

n

-1 coeficientes de regressão diferentes de zero [22].

Até presente, estudos de associação do genoma completo (GWAS) analisados, individualmente, um grande número de SNPs, a maioria deles localizados em regiões não associado à característica de interesse, enquanto outros em LD com a variante causal. Esta abordagem não é satisfatória para características afectados por um grande número de variantes /genes [12]. Uma estratégia alternativa é análise de caminho, lidando com a avaliação conjunta de um subconjunto de SNPs com um efeito funcional potencial sobre o fenótipo de interesse.

O principal objetivo deste estudo foi avaliar se SNPs nos genes relacionados com a inflamação desempenhar um papel no desenvolvimento do BC em um grande estudo de caso-controle conduzido na Espanha e, posteriormente, identificar um padrão dessas variantes (assinatura) associados com o risco BC através da aplicação de dois métodos estatísticos desenvolvidos recentemente, modelo de limiar Bayesiana LASSO (BTL) e AUC-RF. Para avaliar a robustez da estratégia, resultados relevantes também foram analisadas em um estudo independente, o Cancer Study Texas bexiga.

Resultados

Estatísticas sumárias

A Tabela 1 mostra as características de casos e controles para toda a amostra e para a subpopulação não-fumante. No geral, o estudo incluiu 1.047 casos e 988 controles com dados de genotipagem para 886 SNPs em 194 genes inflamatórios. O subconjunto não-fumante consistiu de 424 indivíduos, dos quais 147 eram casos BC. A idade média dos pacientes no momento do diagnóstico foi de 68 e 70 anos (varia 22-80 anos) para a população total e não-fumantes, respectivamente. No geral, o consumo de cigarros foi mais comum nos casos do que nos controles (86%

vs.

72%) e em homens do que em mulheres (87%

vs.

22%). Consequentemente, a percentagem de homens era diferente em ambos os conjuntos de indivíduos:. 87% e 35% para o estudo total e para não-fumantes, respectivamente

População total análise

A aplicação do limiar Bayesiana LASSO fornece para cada SNP sua probabilidade posterior de ser associado com BC. Na Figura 1, que mostra a distribuição da probabilidade posterior de cada SNP, classificados por ordem decrescente. Os SNPs foram considerados como estando associados a aC se a probabilidade posterior de ser maior /menor do que 0 era 80%. Esta estratégia identificados 37 SNPs em 34 genes que mostram uma associação com o BC. A maior probabilidade posterior (associação ou seja, mais relevante) foi 96,07% para

CASP3-

rs3087455, enquanto o menor foi 51,98% para

TLR2-

rs3804100. O SNPs com um alelo menor proteção foram:

CASP3-

rs3087455,

CCR3-

rs3091312,

CASP9-

rs2020902,

IL17A-

rs8193036,

MAP3K7-

rs150126,

IL6R-

rs8192284,

BLNK-

rs3789928,

SCARB1-

rs4765621,

hominídeo fóssil

rs7101,

TBK1-

rs10878176,

BIRC5-

rs744120,

LY96-

rs17226566,

AICDA-

rs11046349,

MAP2K4-

rs4791489,

IL15-

rs17461269,

CD14_IK-r

s2569190,

JAK3-

rs11888 e

TNFRSF10A

-rs4871857. A posterior ou meios variaram de 0,81 a 0,93 quando se compara o menor com os genótipos homozigotos comuns (Tabela 2). Os SNPs com o alelo menor associado com um risco aumentado de BC foram:

PRF1-

rs10999426,

IL7R-

rs1494555,

ABCA1-

rs2230806,

IFNAR2-

rs2236757,

MASP1-

rs710459,

BLNK-

rs12357751,

MAP3K3-

rs7209435,

BLNK-

rs10882755,

TLR2-

rs3804099,

SOCS6-

rs723279,

IL17C-

rs899729,

TLR4-rs2737191

,

hominídeo fóssil

rs1063169,

ABCC4-

rs3765535,

PARP4-

rs13428,

BIRC3-

rs11602147,

IL21R-

rs8049804,

FADD

-rs7939734 e

ICAM1-

rs5498. Os meios posteriores das RUP variou 1,10-1,20, quando se compara o menor com genótipos homozigotos comuns. Todos os SNPs detectados estavam em Hardy-Weinberg na população de controlo. Modelos de regressão logística Single-SNP rendeu

p-valores Art 0,05 para 17 deles (de um total de 32, ver Tabela S1), com um mínimo

p Restaurant –

valor

de 0,0021, não corrigido por meio de testes múltiplos. A estimativa de OR correspondente ao SNPs-signature 37 foi 4,92 (ver figuras S1 e S2 para mais detalhes). O intervalo de 95% para o OR quando se compara a combinação mais alta genótipo de risco com o mais alto de proteção variou 31,2-629,4. A vasta gama de o intervalo de credibilidade mostra o grande erro associado com a estimativa. Posterior média, mediana e moda da distribuição posterior assimétrica foram 206,5, 123,5 e 63,8, respectivamente.

A linha de ponto ponto indica o ponto de corte de 80% acima do qual SNPs foram considerados.

AUC-RF consideradas variáveis ​​genéticos e não-genéticos e detectou um subconjunto ótimo de 59 fatores, incluindo 56 SNPs (Tabela S2). Todas as co-variáveis ​​ambientais, com exceção de gênero, foram classificados em primeiro lugar: tabagismo foi classificado como a variável mais relevante, com uma diminuição do índice de Gini médio (ODM) de 11,55, seguido por região geográfica com uma importância relativa de 35,2%. A idade do doente foi classificada em terceiro lugar, com uma importância relativa de 19,4%, seguido por SNPs. A Tabela 3 mostra os 12 SNPs mais importantes detectados por este método. Sua importância relativa variou de 20,8% para

JAK3

-rs2286662 para 14,4% para

AKR1C3

-rs1937845.

Treze SNPs em

CASP3

,

PRF1

,

IL7R

,

ABCA1

,

IL6R

,

MASP1

,

SCARB1

,

TLR2

,

IL17C

,

MAP2K4

,

CD14_IK

,

FADD

, e

ICAM1

foram identificados como relevantes por ambos BTL e AUC-RF aproxima (SNPs em negrito na Tabela 2; ver também Figura 2a.). Entre eles, 6 SNPs localizados em

CASP3

,

PRF1

,

IL7R

,

ABCA1

,

IL6R

e

CD14_IK

teve um

valor de p Art 0,05 por regressão logística ajustado por co-variáveis ​​(ver Tabela 2, para mais detalhes). O significado de nenhum deles realizada após a correção de Bonferroni para múltiplos testes [23]. Apesar do fato de que nenhuma associação significativa foi encontrada após a realização do único marcador de análises, o ranking de SNPs altamente correlacionada com aquela obtida a partir dos resultados baseados em BTL probabilidade posterior (correlação de Spearman, rho = 0,78).

(A ) Número de SNPs detectados por cada um método no total da população. (B) Número de SNPs detectados por cada método no subconjunto não-fumante. (C) Número de SNPs comuns detectados pela BTL no total do subconjunto da população e não-fumante, com probabilidades posteriores de, pelo menos, 80% e 75% de ter um efeito diferente de 0. (D) Número de SNPs detectados pelo AUC-RF tanto na população total e o subconjunto não-fumante.

foi utilizado genótipos para 17/37 SNPs com uma probabilidade posterior superior a 80% na fase de descoberta estavam disponíveis a partir do estudo TXBC e esta informação para fins de replicação. Além disso, 13 SNPs em alta LD com SNPs detectados por BTL na fase de descoberta foram incluídos nas análises de fase 2. Tabela S3 mostra as probabilidades posteriores de ser maior /menor do que 0 e a média posterior do RUP obtidos no conjunto de replicação. Dois SNPs (

IL6R-

rs4129267 e

TBK1-

rs10878182) em alta LD com

IL6R

-rs8192284 e

TBK1-

rs10878176 detectado na descoberta estudo teve por BTL probabilidades posteriores de ter um efeito não-nulo superior a 90%. O OR desses SNPs substitutos foram de risco, enquanto os identificados no estudo descoberta eram de proteção. Cinco SNPs adicionais (

IL21R-

rs9930086 – em alta LD com

IL21R

-rs8049804, e

MAP3K3-

rs7209435, IL17A-rs8193036, FADD-rs7939734, e TLR2- rs3804099) mostrou probabilidades posteriores 70%, o limite considerado para replicação. As RUP destes 5 SNPs eram da mesma magnitude e direção como aqueles encontrados no estudo descoberta.

Não-fumante análise subconjunto

O tabagismo é o fator de risco ambiental mais forte e mais prevalente para BC e pode modificar o efeito de SNPs em genes relacionados com a inflamação. Por isso, foi realizada a análise de associação entre os não-fumantes para contornar o seu efeito. Em tal contexto, a BTL detectados apenas dois SNPs relevantes (

BCL10-

2.647.396 e

NFKBIA-

rs696) associado com o risco de BC com uma probabilidade posterior de pelo menos 80%. Os dois SNPs foram também detectados pela AUC-RF (ver Figura 2b). Quando estendido a probabilidade posterior (≥75%), o número de SNPs detectados por ambas as abordagens aumentada até 8 em 8 genes (ver Tabela 4). OU posterior médias variaram 1,12-1,16 para os SNPs que mostram um aumento do risco de BC, quando se comparam os dois genótipos homozigóticos, e 0,89-0,91 para aqueles com um efeito protector. A análise de regressão logística univariada produziu resultados significativos para os 8 SNPs com um mínimo

p Restaurant –

valor

de 0,0032, não corrigido por meio de testes múltiplos. O OR densidade posterior mediana correspondente ao 9 SNPs-assinatura detectado por BTL foi de 2,73, com uma probabilidade posterior de 99% de ser . 1 e um intervalo entre 1,35 e 6,66 como 95% intervalo de credibilidade (ver figura S3)

AUC-RF detectou um subconjunto ótimo de 93 variáveis ​​relacionadas ao BC, 90 dos quais foram SNPs (Tabela S4). Ao contrário dos achados na população total, o sexo era o co-variável mais importante relacionado ao BC entre os não-fumantes, e idade e região estavam na terceira e quarta posições, respectivamente.

SNPs comuns entre total e não conjuntos de dados fumador

Figuras 2C e 2D mostram o número de SNPs detectados por ambos BTL e AUC-RF no estudo SBC /Epicuro tanto para toda a população e os indivíduos não-fumador. Não foram detectadas por SNPs comuns BTL para os conjuntos de população com probabilidades posteriores superiores a 80%. No entanto, quando a probabilidade posterior aplicada foi ≥75%, três SNPs foram detectados em ambos os conjuntos de dados:

MAP2K4-

rs4791489,

PRF1

-rs10999426 e

BCL10

-rs2647396.

Quando foco em resultados AUC-RF, 24 SNPs (

ABCA1-

rs2230806,

AICDA-

rs2580874,

ALOX5-

rs1369214,

BCL10- rs2647396,

CD2-

rs3136701,

CD4-

rs2707210,

FADD-

rs7939734,

FASLG-

rs929087,

H2AFX- rs640603,

H2AFX-

rs643788,

IKBKB-

rs3747811,

IL15RA-

rs2296135,

IL21R-

rs2189521,

JAK3- rs2286662,

MAP2K4-

rs4791489,

MASP1-

rs710459,

NFKBIA-

rs696,

OPRD1-

rs204076,

PRF1-

rs10999426,

relações

rs11820062,

relações

rs1466462,

SCARB1-

rs4765621,

TBK1

-rs10878178 e

TMED7-

rs2052834) foram identificados em ambos os conjuntos de dados, representando 43% e 27% dos SNPs seleccionados no total e não-fumante indivíduos, respectivamente.

Discussão

Como todos complexo doenças, BC não é um único transtorno /gene SNP. Em vez disso, muitos SNPs com efeitos pequenos pode levar ao comprometimento das vias principais envolvidos na sua fisiopatologia. A identificação de tais SNP assinaturas representa um desafio analítico, requerendo a aplicação de novas abordagens estatísticos abrangentes. Para o nosso conhecimento, este é o primeiro estudo sobre BC analisar um grande número de SNPs com BTL que identificou um subconjunto delas contribuir conjuntamente para esta fenótipo com uma magnitude relevante de risco muito mais elevado do que o previsto pelo tabagismo (OR = 5 [ ,,,0],2]), o principal factor de risco para o BC.

Treze SNPs em 13 genes foram identificados por ambos BTL e AUC-RF, que pode ser considerada como uma validação interna. SNPs em

CASP3

,

IL6R

,

SCARB1

,

MAP2K4

e

CD14_IK

mostraram um efeito protetor enquanto aqueles em

PRF1

,

IL17R

,

ABCA1

,

MASP1

,

TLR2

,

IL17C

,

FADD Comprar e

ICAM1

foram associados a um maior risco de BC. Cada SNP mostrou um pequeno efeito individual que não poderia ter sido identificado por meio de regressão logística, a abordagem analítica comum usado em GWAS, depois de aplicar a correção do conservador de Bonferroni para testes múltiplos.

Encontramos publicado anteriormente evidências sobre a associação de vários desses SNPs /genes com o risco de câncer, apesar do fato de que esta informação não foi usada na seleção de SNP. Entre eles,

SCARB1

codifica para o gene do receptor eliminador de classe B de tipo I, um receptor da superfície celular que se liga ao colesterol de lipoproteína de alta densidade (HDL-C) e medeia a captação de HDL-C [24], [ ,,,0],25].

SCARB1

-rs4765621 mapeia para intron 1 e tem sido associada com um risco aumentado de BC em combinação com

SLC23A2

-rs12479919,

AKR1C3

-rs2275928 e

PLA2G6 –

rs2016755 [26]. Este SNP está em desequilíbrio de ligação com

SCARB1

-rs4765623 que tem sido associado com o carcinoma de células renais [27].

MAP2K4

codifica uma dupla especificidade Ser /Thr proteína quinase. desequilíbrios alélicas neste gene têm sido relatados em tumores da bexiga [28]. Além disso, as deleções e mutações do

MAP2K4

foram descritos no pâncreas humano, do pulmão, da mama, do testículo, e linhas celulares de cancro colorrectal, sugerindo um papel supressor de tumores [29].

MAP2K4-

rs4791489 está localizado 1.226 bp a jusante do gene e este é o primeiro estudo a relatar uma associação com um fenótipo.

IL7R

codifica o receptor para a IL-7, uma citoquina envolvida na diferenciação de células T e a activação.

IL7R

variação tem sido associada a doenças inflamatórias crónicas e cancro:

IL7R

-rs1494555 tem sido associado com um aumento do risco de cancro gástrico [30], neoplasias hematológicas – interagindo com um elevado IMC – [31], e cancro do pulmão de células não-pequenas onde foi detectado por ambos os testes de regressão logística e florestais aleatório [31]. Isto leva a um SNP Ile

138Val substituição para o qual não há nenhuma evidência funcional.

CD14 desempenha um papel importante nas vias de transdução de sinal activadas por agentes patogénicos e na produção de citocinas inflamatórias [32].

CD14_IK-

rs2569190 tem sido associado com câncer de próstata em afro-americanos [33], e com a artéria coronária e doenças cerebrovasculares [34], [35].

PRF1

codifica para uma perforina, uma das principais proteínas tóxicas de grânulos citolíticos e uma efectora chave em T-células e naturais citólise mediada por células assassinas. Suas alterações causar hemophagocytic familiar lymphohistiocytosis tipo 2 (HPLH2), uma doença autossômica recessiva rara e letal da primeira infância.

PRF1

-rs10999426 foi agrupado com outros genes associados com as células T citotóxicas num estudo de cancro colorrectal: de alta expressão do cluster dos genes citotóxicos foi associado com uma sobrevivência livre de doença prolongada [36]. Solúvel de interleucina-6-receptor-α-subunidade (

IL-6R

) é uma citoquina potente que joga um papel importante na resposta imunitária. a expressão do gene alterada tem sido associado a mieloma múltiplo, doenças auto-imunes e cancro da próstata risco [37]. O SNP

IL6R

-rs7529229, em desequilíbrio de ligação com

IL6R

-rs8192284, também foi relacionado ao risco de mieloma múltiplo [37].

Nós ainda mais focado no avaliação dos não-fumantes para descartar o efeito modificador potencial do tabaco sobre a associação entre as variantes genéticas e risco de câncer de bexiga. Apenas dois polimorfismos associados com o CM foram detectados por ambos os métodos analíticos:

NFKBIA-rs696

e

BCL10-rs2647396

.

NFKBI

está envolvido na resposta ao estresse, regula

COX-2 Comprar e citocinas pró-inflamatórias, e é um importante mediador da oncogênese [38]. O

NFKBIA-rs696

homozygosity tem sido associada com uma pior sobrevida em pacientes suecos com cancro colo-rectal [39]. Outros estudos têm associado a supressão do

NFKBIA

com glioblastoma multiforme [40] e espécimes linfoma de Hodgkin [41].

NFKBIA-

rs696 está em desequilíbrio de ligação com rs8904, uma variante que tem sido associado com a intensidade da dor em pacientes com câncer de pulmão [42].

BCL10

, associado com a protecção do BC no nosso estudo, desempenha um papel importante nas vias de sinalização de NF-kappaB e STAT [40], esta tem sido proposta para participar no carcinoma pancreático [43] e

MALT

linfomas como parte da t (1,4) (p22, q32) translocação [44].

BCL10-rs2647396

é intrônica e nenhuma função é conhecida por esse polimorfismo.

Usando uma população independente e SNPs substitutos em alta LD com aqueles identificados no estudo descoberta, nós replicado a associação com SNPs em

IL6R

e

TBK1

identificado por BTL. O facto de as RUP obtidas no estudo foram de replicação em sentido oposto aos detectados no estudo descoberta pode ser explicada quando se utiliza SNPs substitutos. Greene

et al.

Recentemente provado com dados simulados que as diferenças na freqüência do alelo também pode proporcionar um efeito alélicas inversas em um estudo de replicação [45]. Quando o limite da probabilidade posterior foi reduzido para 70%, a associação de cinco SNPs adicionais também foi replicado. No geral, nós fomos capazes de replicar 30% dos SNPs seleccionados por BTL disponíveis no estudo TXBC, um número que é notável quando se considera que BC é em grande parte causada por factores ambientais e que ambos os estudos vêm de diferentes áreas geográficas e de centros com distintas padrões de referência de pacientes (no estudo SBCS maioria dos centros são hospitais gerais Considerando que o estudo TXBC foi realizado no MD Anderson Cancer Center). Outras causas propostos para a falta de replicação são heterogeneidade genética, as interacções ambientais, efeitos dependentes da idade, poder estatístico inadequada, e interacções gene-gene, a última explicação que aponta para uma maior complexidade da arquitectura genético subjacente [45]. Nós não tentar replicar SNPs identificados pela AUC-RF porque este método depende em grande parte das variáveis ​​iniciais consideradas. Lamentavelmente, os dados de um número de SNPs originais considerados na fase de descoberta não estavam disponíveis no estudo usado para replicação.

O presente estudo tem vários pontos fortes principais. Importante, aplica-se abordagens inovadoras analíticos relacionados com a complexidade biológica do fenótipo. análises de associação foram levadas a cabo através da aplicação de um modelo de regressão regularizado (BTL) e um método de selecção de variáveis ​​não-paramétrico (AUC-RF), para além da regressão logística incondicional único marcador, utilizados na maioria dos estudos de associação. Os dois primeiros métodos superar a principal limitação da última vez que consideram toda a informação genética em conjunto. A aplicação de regressão logística indivíduo faz sentido sob a suposição de que apenas alguns genes afetam a predisposição genética [12], o que certamente não é o caso para o BC. BTL considera, a priori, que a maioria dos SNPs têm um efeito pequeno (se houver) no desenvolvimento da doença, e executa um encolhimento específico marcador de estimativas de efeito [20]. Esta abordagem permite lidar com o “pequeno

n

grande

p”

problema e impede overfitting. De los Campos et al [22] sugeriu este método como uma alternativa interessante para executar regressões nos marcadores sob um modelo aditivo. Foram considerados como estando associadas a esses BC SNPs com uma probabilidade posterior 0,8 de ter um efeito maior (menor) do que 0, como em [45]. Outros critérios, como a pontuação Bayesiana LOD 3.2 [46] ou “herdabilidade do marcador” 0,5% [47], têm sido utilizados em aplicações anteriores do BL. A escolha destes critérios é arbitrária, porque eles não foram formalmente comparação ainda. Pelo contrário, AUC-RF não assume qualquer modelo e considera todas as possíveis interacções entre as co-variáveis ​​incluídas nas análises. Ele proporciona uma medida da importância da variável, embora não indica se o efeito desta variável é protector ou arriscado. Também é importante ressaltar que as variáveis ​​selecionadas com AUC-RF não são necessariamente significativamente associado à característica; em vez disso, eles representam a combinação de genótipos que melhor prediz o indicador de doença e são, portanto, digno de uma investigação mais aprofundada. Demos prioridade aos SNPs selecionados por ambos os métodos, embora SNPs seleccionados por apenas um deles não deve ser descartada, dada a natureza e os pressupostos de cada abordagem diferente. Outros pontos fortes metodológicas do estudo são o grande tamanho da amostra, as altas taxas de participação, ea alta qualidade de informações sobre exposições e genotipagem da SBC /Estudo Epicuro.

No entanto, algumas limitações devem ser consideradas na interpretação estes resultados. É possível que os marcadores de susceptibilidade potencialmente informativos não foram seleccionados para genotipagem. Além disso, a marcação incompleta dos genes seleccionados pode ter resultado da utilização de uma edição anterior para seleccionar HapMap tag SNPs. Portanto, esses genes com SNPs sem resultados relevantes neste estudo não deve ser desconsiderada como potencialmente associados com BC. Quanto às restrições das abordagens utilizadas, BTL única assume um modo aditivo da herança e há interações foram consideradas. Um inconveniente comum de métodos baseados em aprendizagem de máquina, tais como AUC-RF, é que eles normalmente identificam um conjunto SNP que produz a precisão da classificação mais elevada, mas não corresponde necessariamente a uma forte associação com a doença. Na verdade, máquina de abordagens baseadas em aprendizagem tendem a introduzir falsos positivos, uma vez que a inclusão de muitos SNPs aumenta a exatidão da classificação [48].

A grande diferença nas estimativas de risco de acordo com a BTL entre o total ea não-fumante conjuntos de dados sugere um efeito modificador potencial do tabaco sobre o SNP-assinatura em risco BC. Embora os resultados de fraca potência estatísticos não pode ser descartada, uma grande fumar * SNPs avaliação interacção considerando todas as SNPs incluídos no estudo deve ser realizado. Esta análise requer de uma maior inovação metodologia e grande infra-estrutura computacional.

Em conclusão, relatamos aqui o efeito conjunto das diversas variantes em genes inflamatórios fortemente associados ao risco BC. O uso de abordagens de avaliação multi-SNP para explorar a herdabilidade escondido de doenças complexas é altamente promissora no campo de análise de associação. Enquanto a aplicação desses métodos a nível de todo o genoma é simples, a grande demanda computacional representa o principal constrangimento e poucos estudos têm aplicado os a genoma-largas dados em associação [15] ou configurações de previsão [49] até ao presente. O nosso é um dos primeiros estudos que aplicam essas metodologias para um grande conjunto de SNPs na pesquisa do câncer.

Materiais e Métodos

Ética declaração

consentimento informado por escrito foi obtido a partir da participantes do estudo. O estudo foi aprovado pelo Conselho de Administração do Instituto Nacional do Câncer dos Estados Unidos, os Comitês de Ética de cada hospital participante, MD Anderson Cancer Center, e do Colégio Baylor de Medicina de Revisão Institucional.

População do estudo

a população considerada nesta análise vem do estudo Epicuro Câncer /Espanhol bexiga. Este é um estudo de caso-controle de base hospitalar realizado durante 1998-2001 em 18 hospitais em cinco áreas na Espanha (Astúrias, Barcelona área metropolitana, Vallès /Bages, Alicante e Tenerife), como descrito em outros lugares [50]. casos elegíveis estavam com idades entre 21-80 anos e recém-diagnosticados de um diagnóstico histológico de carcinoma de células transicionais da bexiga urinária baseado no sistema da OMS e da Sociedade Internacional de Urologia Patologia [51] de 1998.

Deixe uma resposta