PLOS ONE: A Colorectal Cancer Susceptibilidade nova variante em 4q26 na população espanhola Identificado por Genome-Wide Association Análise

Abstract

Fundo

câncer colorretal não-hereditária (CRC) é uma desordem complexa resultante da combinação de fatores genéticos e não-genéticos. estudo de associação genômica ampla (GWAS) são úteis para a identificação desses fatores de susceptibilidade genética. No entanto, o único loci até agora associada com CRC representam apenas uma fracção do risco genético para o desenvolvimento de CRC na população em geral. Por isso, muitas outras variantes de risco genéticos isoladamente e em combinação ainda deve permanecer para ser descoberto. O objetivo deste trabalho foi procurar fatores de risco genéticos para CRC, através da realização de loco único e de dois lócus GWAS na população espanhola.

Resultados

Um total de 801 controles e 500 CRC casos foram incluídos na descoberta GWAS conjunto de dados. 77 polimorfismos de nucleotídeo único (SNP) s de um único lócus e 243 SNPs da associação de dois lócus análises foram selecionados para replicação em 423 casos CRC adicionais e 1382 controles. Na meta-análise, um SNP, rs3987 em 4q26, atingiu GWAS p-valor significativo (p = 4,02 × 10

-8), e um SNP par, rs1100508 CG e rs8111948 AA, mostrou uma tendência para dois lócus associação (p = 4,35 × 10

-11). Além disso, nossa GWAS confirmou a associação previamente relatada com CRC de cinco SNPs localizados em 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) e 14q22.2 (rs4444235).

Conclusões

Nossos GWAS para CRC pacientes de Espanha confirmou algumas associações anteriormente para CRC e rendeu um SNP risco candidato novela, localizada em 4q26. Epistasia análises também rendeu vários pares de susceptibilidade romance candidatos que precisam ser validados em análises independentes

Citation:. LM real, Ruiz A, Gayan J, González-Pérez A, Sáez ME, Ramírez-Lorca R, et al . (2014) A Colorectal Cancer Susceptibilidade nova variante em 4q26 na população espanhola identificados pela análise Associação Genome-Wide. PLoS ONE 9 (6): e101178. doi: 10.1371 /journal.pone.0101178

editor: Zongli Xu, do Instituto Nacional de Ciências de Saúde Ambiental, Estados Unidos da América

Recebido: 11 Abril de 2014; Aceito: 03 de junho de 2014; Publicação: 30 de junho de 2014

Direitos de autor: © 2014 real et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Data Availability:. O autores confirmam que todos os dados subjacentes às conclusões estão totalmente disponíveis sem restrições. Todos os dados são incluídos dentro do papel

Financiamento:. Este trabalho foi parcialmente financiado pelo programa CENIT do Centro Tecnológico Industrial (CEN-20091016), os subsídios do Instituto Espanhol de Saúde Carlos III (ADE10 /00026, PI09 /02.444, PI12 /00511, a Ação transversal de câncer) doações do Fondo de Investigación Sanitaria /FEDER (08/1276, 08/0024, PS09 /02368, 11/00219, 11/00681), e pelo escritório de custos através CUSTO ação BM1206. SCB é suportada por contratos do Fondo de Investigación Sanitaria (CP 03-0070). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. LMR, AR, AGP, MES, RRL, FJM, JV, RMF, JMC , CMR, EV são ex-funcionários da Neocodex. JG é o fundador da Bioinfosol. Isto não altera a adesão dos autores para PLOS ONE políticas em dados e materiais de compartilhamento.

Introdução

O câncer colorretal (CRC) representa a nível mundial, em termos de frequência, a terceira principal causa de câncer mortalidade -relacionados, ea segunda doença maligna mais frequente na Europa [1]. Uma minoria dos pacientes têm uma história familiar de CRC, sugerindo alguma contribuição hereditária. mutações da linha germinal foram identificados como a causa do risco de cancro herdado em algumas destas famílias CRC-prone. Em geral, as mutações penetrância elevada Estima-se que representam menos de 5% dos casos de CRC [2]. Por outro lado, a grande maioria dos pacientes com CCR apresentam nenhuma evidência clara de ter herdado a desordem e, portanto, são classificados como câncer “esporádica”.

CRC esporádica é considerado um distúrbio complexo resultante da combinação da genética e fatores de risco não-genéticos em concerto com alterações genéticas e epigenéticas somáticas. Os fatores de risco genéticos não-mendeliana são variantes de baixo risco comuns distribuídos por todo o genoma. A abordagem estudos de associação do genoma (GWAS) é uma ferramenta útil para identificar tais variantes [3]. Utilizando esta abordagem cerca de 30 variantes de risco genéticos relacionados com a susceptibilidade CRC foram relatados nos últimos anos [4] – [15]. Apesar disso, o efeito combinado destas variantes completamente representa apenas uma pequena proporção do risco genético para o desenvolvimento de CRC na população geral [16]. Isto sugere que muitas variantes genéticas outro risco estão ainda a ser descoberto.

Em geral, GWAS têm sido insuficientes para descobrir todos os genes envolvidos em doenças complexas e, mais importante, eles não têm sido muito útil no isolamento específico molecular vias relacionadas com os distúrbios a ser estudados [17]. Uma das razões pode ser que a abordagem de loco único normalmente é o único método aplicado a conjuntos de dados GWAS, e isso não leva em conta a natureza multigenic que subjaz a etiologia de doenças complexas. Assim, novos métodos analíticos que ajudariam a detectar mais poderosas associações genéticas com base na combinação de marcadores têm sido propostos por nós e outros [18] – [20]. Recentemente, o primeiro estudo de associação de dois locus CRC tem sido relatada [21]. Estudos adicionais são claramente necessárias para uma compreensão mais abrangente da complexidade genética do CRC susceptibilidade nas diferentes populações humanas.

O objetivo deste trabalho foi procurar fatores de risco genéticos para CRC na população espanhola, realizando uma nova GWAS usando um único lócus e dois locus de análises de associação genética.

resultados

Fase I. CRC-GWAS análise

Para identificar CRC SNPs associados a risco, nós projetamos um GWAS (NXC-GWAS), que compreende 801 controles e 500 casos da população espanhola pouco estudado (amostra NXC-GWAS).

Todos os SNPs foram genotipados usando o chip Affymetrix NSP I 250K. Depois de controle de qualidade, 20 casos foram descartados (4 sexo discordante, 8 etnia diferente e 8 taxa de chamadas de baixo da amostra). Finalmente, foram selecionados 480 casos e 801 controles para análise de associação. Análise de componentes principais realizado entre esta amostra não revelou mistura população (Figura S1). Idade ao recrutamento foi 58,0 ± 9,1 anos, em casos e de 51,9 ± 8,8 anos em controles (média ± desvio padrão). O número correspondente (percentagem) de amostras de mulheres foram 278 (57,9%), e 368 (45,9%), respectivamente. Entre os 262264 SNPs que podem ser genotipados com este chip, 83334 não passar os controlos de qualidade (52964 SNPs foram descartados devido à baixa freqüência do alelo menor (MAF), 2307 SNPs falhou HWE, e 28.333 tiveram uma taxa significativamente diferente da falta completa entre a caixa e grupos de controle). Um total de 178,930 marcadores foram finalmente selecionados para análises de associação subsequente. Não houve inflação global da estatística de teste (fator de inflação genômica = 1,10) (ver Figura S2), proporcionando a garantia de que fatores de confusão sistemáticas eram improváveis.

Usando Plink foi realizada uma análise único locus associação genética [22 ]. Um marcador genético, rs10446758 no cromossomo 4q31.23, atingiu o valor GWAS significativa p (p = 1,73 × 10

-8), e outros dois marcadores, rs4887855 em 16q23.1 cromossomo e rs7171889 em 15q26.2 cromossomo, mostrou uma tendência para a associação (p = 8,27 × 10

-8 e P = 8,53 × 10

-8, respectivamente) (Figura 1) (Tabela S1).

azuis e vermelhos linhas horizontais correspondem aos valores de p de 6,97 × 10

-4 e 5 × 10

-8 respectivamente.

também foi realizada uma análise de dois lócus usando o software HFCC (veja pacientes e Métodos secção), exclusivamente no SNPs que passou os controlos de qualidade. Um total de 1,60 × 10

10 combinações de dois locos foram finalmente obtido. Depois de aplicar o sentido de controle e acompanhamento de filtros, este software rendeu 5×10

5 dois estratos lócus. Embora nenhum deles atingiu o valor p cortado estabelecida em 3,12 × 10

-12 alguns pares de valores próximos a esse limite (Tabela S2). Alcançados

Fase II. Validação e meta-análise

Para testar os melhores associações genéticas observadas na fase I, em primeiro lugar, foram seleccionados, os SNPs que foram incluídos em qualquer um dos melhores sinais 157 de dois loco (Tabela S2). Estes pares representaram 276 SNPs individuais, porque 38 SNPs estavam presentes em mais do que um par. Em segundo lugar, 79 SNPs das análises de loco único foram selecionados de acordo com o valor p associação obtido na fase I (p 6,9 × 10

-4), ou a probabilidade de ser genotipados com sucesso com a tecnologia Veracode. Assim, um total de 355 SNPs foram inicialmente seleccionados para a preparação de matrizes feitas à medida. No entanto, foi apenas possível projetar pools de oligonucleotídeos para 340 SNPs (79 SNPs loco único e 261 de dois locus de SNPs).

Estes marcadores genéticos foram genotipados em 423 casos diferentes e 1448 controles diferentes (amostra NXC-VAL ). Idade ao recrutamento foi de 58,7 ± 7,3 anos, em casos e 51,1 ± 12,9 nos controles (média ± desvio padrão). O número correspondente (percentagem) de amostras de fêmeas foi de 262 (61,8%), e 920 (63,5%), respectivamente. Vinte SNPs não passar o controlo de qualidade (14 SNPs não foram genotipados em mais de 80% das amostras, e 6 mostraram uma SNPs HWE p-valor 0,001 em controlos). Como para as amostras, 66 controlos foram excluídos (31 indivíduos não obtiveram uma taxa de chamada de genotipagem 80%, e 35 indivíduos apresentaram algum grau de relação uns aos outros de acordo com os dados obtidos com o software GRR). Finalmente 423 casos CRC e 1382 controles foram genotipados com 320 marcadores (77 single-loco e 243 de dois lócus selecionado SNPs) (Tabela S3). A Tabela 1 mostra estes SNPs seleccionados que foram replicados na amostra NXC-Val (p 0,05 e mesmo efeito de direcção). Apenas um SNP, rs3987 em 4q26, atingiu um valor de p GWAS significativa na meta-análise (Tabela 2). Curiosamente, mais quatro SNPs na mesma região do genoma mostrou uma tendência para a associação no valor de p GWAS significativa (Tabela 2).

No que diz respeito duas análises lugar, apenas cinco pares foram validados em fase II (p 0,05 e mesma direcção efeito). Embora nenhum deles atingiu GWAS p-valor significativo (p 3,12 × 10

-12) na meta-análise (Tabela 3), um par SNP, rs1100508 CG e rs8111948 AA, foi limítrofe para a associação (4,35 × 10

-11).

validação dos resultados utilizando conjuntos de dados adicionais

Para testar se os resultados poderiam ser replicados em outro conjunto de dados Espanhol, foram utilizados dados do projeto Epicolon [23] . No entanto, nenhum dos SNPs que foram considerados significativos ou candidatos na fase II do estudo replicadas nesta amostra Epicolon.

Os resultados obtidos em nosso GWAS (fases I e II), e aqueles obtidos a partir da coorte Epicolon , foram combinados em um esforço para ver um efeito global de todos esses SNPs verificados na fase II. Nenhum dos SNPs atingiu o valor de p GWAS significativo no estudo combinado (Tabela S4). A Tabela 4 mostra os melhores resultados obtidos neste estudo (seleccionados entre os SNPs que mostram um efeito na mesma direção em todas as três séries analisadas. Ver detalhes desses SNPs selecionado na tabela S5).

Quanto dois -locus HFCC análise, não SNP-dupla mostrou um efeito significativo e consistente (na mesma direção), quando as 3 amostras (NXC-GWAS, NXC-Val e Epicolon) foram analisados ​​em conjunto.

análise de SNPs anteriormente CRC associado com

Apenas um dos SNPs anteriormente associados com risco CRC foi genotipados com sucesso no nosso GWAS. A fim de cobrir um maior número desses SNPs nós imputada genótipos usando CEU HapMap base de dados e software Plink. Após imputação, obtivemos um total de 1,371,009 SNPs para análise posterior. Um total de 16 previamente reportado como CRC associado SNP estavam disponíveis no momento da análise (Tabela 5). Destes, cinco SNPs localizados em 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) e 14q22.2 (rs4444235), mostrou associação nominal com CRC em nossa GWAS, e com efeitos na mesma direcção do que os previamente relatados (Tabela 5). Mais dois SNPs localizados em 8q23.3 (rs16892766) e 12q13.13 (rs7136702) mostrou uma tendência de associação nominal com CRC em nosso estudo, mais uma vez com o efeito no mesmo sentido que anteriormente relatados (Tabela 5).

não foi possível testar os SNPs candidatos relatados por Fernandez-Rozadilla

et al

. [23] em sua CRC-GWAS realizado na população espanhola (amostra Epicolon), porque os candidatos não foram cobertos ou com êxito genotipados /imputado em nosso estudo.

Nós também testamos interações de dois locos entre rs1571218 (20p12 0,3) e rs10879357 (12q21.1) previamente associados com CRC [21]. Aplicação de modelos lineares gerais, não observamos nenhuma evidência de interação entre eles no nosso conjunto de dados (dados não mostrados).

Discussão

Nós apresentamos um novo duas fases CRC-GWAS realizado no população espanhola para o único lugar e também para associação de dois lócus usando nosso software HFCC [18]. Um marcador, rs3987 em 4q26, chegou a associação com CRC susceptibilidade à GWAS p-valor significativo. Além disso, um par SNP, rs1100508 AA rs8111948 CG (localizado na 7q31.33 e 19q12, respectivamente), mostraram também uma tendência para a associação epistatic

Apesar das limitações do nosso GWAS -. Baixa densidade de cobertura genômica de o DNA-chip, e um tamanho de amostra moderada – que replicado cinco dos 16 SNPs anteriormente associados com CRC. Além disso, a maior parte destes 16 SNPs no nosso estudo foram GWAS na mesma direcção do que nos relatórios publicados (Tabela 5). Além disso, a análise de regressão mostrou boa concordância dos odds ratio (Figura S3). Estes dados em conjunto sugerem que nosso estudo está em consonância com as análises publicado anteriormente CRC GWAS.

Em nosso duas fases CRC-GWAS, um marcador, ou seja, rs3987 em 4q26, associação expôs com CRC susceptibilidade à GWAS p significativa valor. Este SNP está localizado em uma região intergénica de 4q26 entre

TRAM1L1

e

genes NDST3

(-500 kb e ~180 kb, respectivamente). Vários estudos já sugeriram a presença de genes de cancro na região 4q [24], [25], e também tem sido relatado que as supressões em 4q26 somáticas são frequentes em CRC [26], [27]. Curiosamente, o

NDST4

gene, localizado em 4q26, também, e que pertence à mesma família de

NDST3

, foi identificado como um possível gene supressor tumoral em CRC [27].

A análise de dois lócus revelou que um dos pares de SNPs, rs1100508 e rs8111948 CG AA (localizado em 19q12 e 7q31.33, respectivamente), mostrou uma tendência para a associação. Estes SNPs são em regiões intergénicas localizadas em 19q12 e 7q31.33. O gene mais próximo de rs1100508

GPR37

, um membro da família de receptores acoplados à proteína G que se sabe interagir com Parkin, embora a sua função permanece para ser completamente caracterizado. Por outro lado, situa-se entre rs8111948

LINC00662

e

LINC00906

(-500 kb e ~600 kb, respectivamente), dois loci pertencentes ao longo de ARN não codificante da família (lncRNA) . Se a associação deste par SNP for confirmada, a natureza dessa interação terá de ser ainda caracterizada.

Estudamos também os marcadores associados com a CRC do nosso bifásico GWAS em um conjunto de dados GWAS Espanhol independente (Epicolon ), mas nenhuma destas associações replicado. No entanto, desde a nossa GWAS pôde validar mais das associações CRC bem-riado do que o Epicolon GWAS [23], considera-se que os candidatos derivados de nosso estudo merecem ser validado em mais meta-análise incluindo outros estudos GWAS e validação realizados no população espanhola, ou em uma população caucasiana mais geral

de acordo com o catálogo GWAS do NIH (https://www.genome.gov/26525384), e trabalhos anteriores neste tópico [5] -. [15 ], nem as variantes associadas com CRC relatado na tabela 1 ou 2, nem variantes incluídas nos pares SNP relatados na tabela 3 (ou em desequilíbrio de ligação com eles) tenham sido previamente associadas com CRC. Uma vez que a maioria destes estudos anteriores não foram particularmente realizados na população caucasiana Southern, os nossos resultados podem ser específicos para esta população. Uma explicação alternativa seria que eles são falsos positivos. O agrupamento de vários SNPs ao mesmo 4q26, e a replicação do relatado anteriormente associações argumenta contra essa possibilidade.

Embora nossos resultados não poderiam ser replicados na amostra Epicolon independente, foi realizada uma meta-análise tendo em conta as três amostras analisadas aqui (NXC-GWAS, NXC-VAL, e Epicolon). Nenhum dos SNPs, ou combinações dos mesmos, foram replicados nas três amostras, mas os melhores sinais compreendem vários SNPs em desequilíbrio de ligação a 9q31.1, dentro ou perto de

LINC00587

lócus (Tabela 4). Este gene também pertence à família lncRNA envolvidos na diferenciação e proliferação celular como reguladores pós-transcricional de splicing ou como chamarizes moleculares para miARN [28], [29]. A expressão de lncRNAs é desregulamentado em muitos cancros diferentes, incluindo o cancro do cólon [30], e alguns estudos sugerem um papel na iniciação do câncer, progressão e metástase [31]. A associação relatou em GWAS prévio entre CRC suscetibilidade e SNPs localizados em 8q24 poderia ser devido ao

PRNCR1

lugar, um membro lncRNA [32].

Curiosamente, uma alta proporção de SNPs encontrados para estar associado a CRC na nossa fase de descoberta estudo (tabelas 1, 2 e 4), foram seleccionadas por análise de duas lócus. Isto sugere que, em adição para identificar interacções epistáticas, o nosso método de análise de dois locus de (software HFCC) pode também melhorar a captação de sinais individuais no genoma relacionadas com CRC susceptibilidade e, portanto, em particular na doença multigênica em geral. Esta é uma hipótese atraente que pode ser confirmado se alguns desses SNPs são validados em estudos futuros. Por outro lado, os resultados das análises de duas locus de sugerem que os sinais de interacção não têm valor preditivo mais poderoso do que os loci de susceptibilidade individual para CRC por causa da incapacidade de detectar SNP pares associados com a CRC GWAS p-valor significativo. Esta observação, juntamente com a ausência de resultados estatisticamente significativos na nossa meta-análise global, bem como a falta de replicação da única interacção par SNP previamente relatado como associado com CRC [21] sugere que o papel dos factores genéticos em CRC susceptibilidade pode ser mais complexa que se pensava anteriormente.

em conclusão, temos realizado um CRC-GWAS na população espanhola que está em linha com alguns relatado anteriormente associações e rendeu um novo SNP candidato para CRC susceptibilidade a 4q26 que precisa de ser validado em estudos futuros. Nosso estudo de dois lócus também fornece evidência do alto nível de complexidade no risco de câncer genética.

Materiais e Métodos

Os pacientes

Indivíduos em fase I foram 801 controles da população em geral espanhol (que foram descritos anteriormente [33]) e 500 casos diagnosticados de CRC com a confirmação patológica (amostra NXC-GWAS). Na Fase II 1448 controles e 423 casos de CRC foram utilizados (amostra NXC-VAL). amostras de CRC foram coletadas em dois diferentes hospitais espanhóis (Hospital Universitário Virgen del Rocío, em Sevilha e Hospital Universitário 12 de Outubro em Madrid) a partir de novembro de 2002 a abril de 2008. O controle de amostras incluídos na fase II foram coletados durante o mesmo período de tempo em vários primária centros de saúde de toda a Espanha. Estas amostras foram previamente utilizados como controlos em outros estudos de associação realizados para diferentes doenças na população espanhola [34]. Portanto, um total de 923 casos de CRC e 2249 controlos da população geral Espanhola foram incluídos neste estudo. Todos os indivíduos inscritos eram caucasianos com ancestrais espanhóis registados (duas gerações), registadas pelos investigadores clínicos.

Ética Declaração

Os comitês de ética do Hospital Universitário Virgen del Rocío, em Sevilha, e Hospital Universitário 12 de Octubre, Madrid, bem como Neocodex aprovou o protocolo de pesquisa, que estava em conformidade com a legislação nacional e realizado de acordo com as diretrizes éticas da Declaração de Helsinki [35]. consentimento informado por escrito foi obtido de todos os indivíduos incluídos neste trabalho.

genotipagem externo dataset

Os dados genotipagem de SNPs seleccionados de outros GWAS realizado na população espanhola (Epicolon coorte) [23] foram utilizados como uma referência para os resultados aqui obtidos. Especificamente, esta coorte consistiu em 882 casos e 473 controles apurados através do projeto Epicolon II e 194 controles adicionais do banco de DNA Nacional espanhola.

foram usadas Genotipagem

O sangue periférico de todos os casos e controles para isolar o ADN da linha germinal de leucócitos. extracção de ADN foi efectuada automaticamente de acordo com procedimentos convencionais, utilizando o sistema de isolamento de ADN Magnapure (Roche Diagnostics, Mannheim, Alemanha).

para a genotipagem do genoma foi utilizado o chip Afymetrix NSPI como previamente descrito [33]. Para genotipagem de SNPs selecionados na NXC-VAL amostra foram empregados personalizados protocolos Golden Gate e ensaio de genotipagem Veracode (Illumina, San Diego, Califórnia, EUA) de acordo com as instruções do fabricante.

A disponibilidade de dados

resultados de associação para SNPs genotipados e imputados são fornecidos como arquivos compactados (Plink Dataset S1 e S2) Dataset. Caso a caso os dados genótipo está disponível mediante pedido ao comitê de ética da IMPPC (Instituto de Medicina Preditiva y Personalizada del câncer) de acordo com as condições estabelecidas na Lei espanhola for Biomedical Research (Ley 14/2007, de 3 de julio).

o controle de qualidade analisa

Para amostras genotipados usando a plataforma Affymetrix, foi realizado um extenso controlo de qualidade utilizando Affymetrix Genotyping Console Software (https://www.affymetrix.com) e Plink [22] . Somente os indivíduos com uma taxa de chamada de exemplo acima de 93% foram posteriormente re-chamada com o Bayesian Robust Modelo Linear com o algoritmo de distância Malalanobis (BRLMM), correu com parâmetros predefinidos. BRLLM melhorou as taxas de chamadas na maioria das amostras. sexo auto-relatado foi comparado ao sexo atribuído pelos genótipos cromossomo X, e as discrepâncias foram resolvidas ou amostras removido. A representação gráfica do programa de relações (GRR) [36] foi utilizado para verificar parentesco amostra e para corrigir potencial rotulagem inadequada da amostra, duplicações, ou contaminações. Os SNPs foram selecionados para ter um taxa de chamada acima de 95% (em cada caso, o controlo e o grupo combinado), e uma frequência do alelo menor superior a 1% (mais uma vez, em cada caso, o controlo e o grupo combinado). SNPs que desviaram grosseiramente a partir de Hardy-Weinberg (HWE) (valor P 10

-4) no controle amostras também foram removidos. Nós também removeu SNPs com uma taxa significativamente diferente da falta completa (P-value 5 × 10

-4). Entre as amostras de estudo e controle

Da mesma forma, SNPs genotipados na fase II foram submetidos a qualidade filtros de controlo. Assim, estes SNPs que não foram genotipados com sucesso em, pelo menos, 80% dos indivíduos, e aqueles com um valor de p para o equilíbrio de Hardy-Weinberg (EHW) inferior a 0,001 foram descartados. Além disso, os indivíduos com mais de 10% dos dados em falta genótipo ou que mostrou relacionamento uns com os outros também foram excluídos.

Análise de Componentes Principais

Análise de componentes principais foi realizada com EIGENSOFT [37] , [38] para avaliar mistura população dentro de nossa população e para identificar os indivíduos como discrepantes. Corremos o programa SMARTPCA com parâmetros predefinidos, excluindo marcadores cromossomo X e usando SNPs independentes (r pairwise

2 0,1). Para minimizar o efeito de desequilíbrio de ligação na análise, regiões de desequilíbrio de ligação de longo alcance previamente relatada [39] ou detectado na população foram também excluídas. Indivíduos identificados como valores extremos (seis desvios-padrão ou mais ao longo de um dos dez melhores componentes principais) foram removidos de todas as análises subsequentes. Análise de componentes principais foi executado em conjunto com outros países europeus HapMap e populações em todo o mundo para detectar indivíduos de diferentes etnias.

associação lócus única análise

Unadjusted alélicas de loco único (1 grau de liberdade, df) associação as análises foram realizadas utilizando o software Plink [22], de forma independente dentro de cada grupo de sujeitos de fase I ou fase II. ferramenta de análise de meta no Plink foi usado para analisar dados combinados de diferentes conjuntos de dados. Nestes estudos, os modelos de efeitos fixos foram empregues quando nenhuma evidência de heterogeneidade foi encontrado. Caso contrário, foram empregados modelos de efeitos aleatórios. A p-valor significativo GWAS foi estabelecido em 5 × 10

-8 [40]. Plink também foi utilizado para estimar o fator de inflação genômica. software Haploview [41] foi utilizado para representação gráfica dos resultados da análise único locus GWAS (Manhattan parcela). A concordância do efeito detectado eo efeito relatado por esses SNPs anteriormente encontrados para ser associado com CRC foi analisada por regressão linear após transformação logarítmica dos odds ratio.

Two-locus de análise de associação

com o objetivo de detectar potencial epistatic

loci

, exploramos todo o universo de interações de dois locos (todo o SNP x interações SNP), utilizando o software Hipótese gratuito Clonagem Clínica (HFCC) como descrito anteriormente [18]. Resumidamente, na fase foram criados I três grupos de replicação diferentes de 160 casos e 267 controles. A fim de ser considerada um resultado positivo preliminar, o valor de cut-off de teste de qui-quadrado (1 gl) foi fixado em 6,64 (p 0,01) e a direcção do efeito tinha que ser a mesma para cada grupo de replicação (o qual se aproxima para p 1 × 10

-6 mais de todos os três grupos de replicação)

epistasis

para explorar a natureza ea força das interações nos padrões de dois locos selecionados, nós ainda avaliada entre os marcadores selecionados usando software Alambique [. ,,,0],18]. Especificamente, Alambique foi programado para medir partida de modelos aditivos através do cálculo do índice de Sinergia, AP estatísticas ou Reri, enquanto partida da multiplicidade foi medida pelo cálculo odds ratio específicos de estratos e teste de interação caso somente. Os algoritmos no software incluído Alambique foram previamente descrita [42], [43].

Durante o processo de validação, estes SNPs seleccionados por HFCC, que foram genotipados com sucesso na amostra NXC-VAL foram analisados ​​para a replicação . Neste caso, dois grupos de replicação foram criadas: a amostra NXC-GWAS ea amostra NXC-VAL. Quando os pares seleccionados foram também estudados na coorte Epicolon, três grupos de replicação foram criados:. NXC-GWAS, NXC-VAL ea amostra Epicolon

correção de múltipla teste foi aplicado nesses estudos tendo em conta a número de diferentes pares de SNP-gerado. Assim, o limite de p-valor foi estabelecido em (p = 3,12 × 10

-12 (0,05 /número total de SNP-pares gerados na fase I série de dados).

Para testar a dois lócus interação que foi previamente associada a CRC susceptibilidade [21], ou seja, rs1571218 (20p12.3) e rs10879357 (12q21.1), modelamos a interação por meio de regressão linear com software SPSS 19.0 (IBM Corporation, Somers, NY, EUA).

Imputação

Nós imputada genótipos usando fase HapMap 2 CEU fundadores (n = 60) como um painel de referência com Plink [22] genótipo chama com dezenas de alta qualidade (informações 0,8). foram utilizados na análises de associação subsequente.

Informações de Apoio

Figura S1.

Scatterplot dos dois vectores próprios principais obtidos a partir da análise de componentes principais realizado em 801 controles (círculos verdes) e 480 casos (círculos azuis) selecionados para o estudo de associação de fase I

doi:. 10.1371 /journal.pone.0101178.s001

(PDF)

Figura S2

Quantile-Quantile (QQ) parcela dos c2 valores observados e esperados. obtida a partir do estudo da associação entre o SNP genótipo eo risco de câncer colorretal

doi:. 10.1371 /journal.pone.0101178.s002

(PDF)

Figura S3.

Correlação entre os efeitos (OR) encontrados no NXC-GWAS e os efeitos relatados para as 16 SNPs anteriormente encontrados para associar com o risco de CRC. A linha azul representa correlação perfeita. A linha verde indica a correlação excluindo a rs16969681 outlayer (círculo vermelho). Este SNP foi originalmente relatado no UK2 GWAS com um OR de 1.247, que atingiu GWAS significativa após a análise meta com outra Europa do Norte GWAS mas não foi replicado na Epicolon GWAS do Sul da Europa. O coeficiente de determinação (R2) e p-valor (P de Pearson) da correlação são indicados. Sem excluir a rs16969681, o coeficiente de determinação e valor de p foram 0,28 e 0,035, respectivamente

doi:. 10.1371 /journal.pone.0101178.s003

(PDF)

Tabela S1. resultados

melhor fase I obtidos por Plink

doi: 10.1371. /journal.pone.0101178.s004

(DOC)

Tabela S2.

Melhor SNP × interações SNP obtidos pelo software HFCC

doi:. 10.1371 /journal.pone.0101178.s005

(DOC)

Tabela S3.

SNPs incluídos nos resultados da fase II e meta-análise

doi:. 10.1371 /journal.pone.0101178.s006

(DOC)

Tabela S4.

SNPs incluídos nos resultados da meta-análise de fase II e globais

doi:. 10.1371 /journal.pone.0101178.s007

(DOC)

Tabela S5.

Detalhes dos resultados obtidos em cada amostra a partir desses SNPs que apresentaram os melhores resultados na meta-análise global

doi:. 10.1371 /journal.pone.0101178.s008

(DOC)

Dataset S1. arquivo

Plink associação de SNPs genotipados

doi:. 10.1371 /journal.pone.0101178.s009

(ZIP)

Dataset S2. arquivo de associação

Plink de SNPs imputadas

doi:. 10.1371 /journal.pone.0101178.s010

(ZIP)

Reconhecimentos

Professor Manuel Serrano Rios, investigador principal de “Proyecto Segovia”, é reconhecido por indivíduos de recrutamento representativa da população espanhola para o grupo controle.

Deixe uma resposta