PLOS ONE: Comparação de Análise de Caminho abordagens utilizando Lung Cancer GWAS Dados Sets

Abstract

análise Pathway tem sido proposta como um complemento para análises único SNP em GWAS. Este estudo comparou métodos de análise de caminho usando dois conjuntos de dados de câncer de pulmão GWAS baseados em quatro estudos: um de dados combinados set da Europa Central e de Toronto (CETO); o outro, um dados combinados definidos da Alemanha e MD Anderson (GRMD). Buscamos a literatura de métodos de análise de caminho que foram amplamente utilizados, representativas de outros métodos, e teve software disponível para executar a análise. Foi selecionado o EASE programas, que usa um cálculo exato Fishers modificados para testar associações da via, GenGen (a versão do Gene Set Enriquecimento Análise (GSEA)), que usa um Kolmogorov-Smirnov-like estatística soma parcial como a estatística de teste, e SLAT, que utiliza uma abordagem de combinação p-valor. Nós também incluiu uma versão modificada do método SUMSTAT (mSUMSTAT), que testa para a associação pela média χ

2 estatísticas de testes de associação de genótipos. Havia cerca de 18 mil genes disponíveis para análise, seguindo o mapeamento de mais de 300.000 SNPs de cada conjunto de dados. Estes foram mapeados para 421 GO nível 4 conjuntos de genes para análise via. Entre os métodos destinados a ser robusto a vieses relacionados ao tamanho do gene e correlação via SNP (GenGen, mSUMSTAT e SLAT), a abordagem mSUMSTAT identificados os caminhos mais significativos (8 no CETO e 1 em GRMD). Isto incluiu uma associação altamente plausível para a via de atividade do receptor de acetilcolina, tanto CETO (FDR≤0.001) e GRMD (FDR = 0,009), embora dois sinais de forte associação em um cluster único gene (

CHRNA3-CHRNA5-CHRNB4

) conduzir este resultado, o que complica a sua interpretação. Poucas outras associações replicados foram encontrados usando qualquer um destes métodos. Dificuldade em associações replicando dificultado a nossa comparação, mas os resultados sugerem mSUMSTAT tem vantagens sobre as outras abordagens, e pode ser uma ferramenta de análise de caminho útil para usar juntamente com outros métodos, como a abordagem utilizada GSEA (GenGen).

Citation : Fehringer G, Liu G, Briollais L, Brennan P, Amos CI, Spitz MR, et al. (2012) Comparação de Análise de Caminho abordagens utilizando Lung Cancer GWAS conjuntos de dados. PLoS ONE 7 (2): e31816. doi: 10.1371 /journal.pone.0031816

editor: Zhongming Zhao, Vanderbilt University Medical Center, Estados Unidos da América

Recebido: 27 de julho de 2011; Aceito: 13 de janeiro de 2012; Publicação: 21 de fevereiro de 2012

Direitos de autor: © 2012 Fehringer et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo é suportado pelo Canadian Cancer Society (conceder no. 020214), o Presidente CCO em estudos populacionais, CCO Chair in Experimental Therapeutics, o Presidente Brown Alan na Molecular Genomics, e do Instituto Nacional de Saúde (U19 CA148127-01). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Genoma ampla estudos de associação (GWAS) examinar a associação de centenas de milhares de variantes genéticas com doença ou outros fenótipos. Esses estudos identificaram com sucesso associações entre as variantes genéticas e os resultados, tais como associações entre SNPs no risco 15q25 e 5p região e câncer de pulmão [1], [2], [3], [4], [5], [6] . GWAS de câncer de pulmão e outras doenças geralmente identificar apenas alguns SNPs que são associados com a doença e estes normalmente têm pequenos efeitos. Por exemplo, o alelo por odds ratio para variantes, que implicam os genes do receptor de acetilcolina em 15q25 com o risco de cancro do pulmão é de cerca de 1,3 [1], [2], [5]. SNPs com efeitos mais fracos poderia ser desperdiçada devido às rigorosas exigências necessárias para o ajuste para comparações múltiplas.

análise Pathway tem sido proposta como uma abordagem complementar ao único SNP análises no GWAS. Pathway grupos de análise genes que estão relacionados biologicamente e testa se estes grupos de genes estão associados com o resultado. Embora a evolução dos associada com a variação em muitos genes pode ser muito pequeno para detectar em GWAS usando análise de SNP única, as associações podem ser detectados a partir do efeito conjunto de muitos sinais mais fracos em genes agrupados em um caminho baseado em função biológica compartilhada. Outros benefícios desta abordagem são a redução substancial da carga de testes múltiplos, uma vez genes são agrupados em caminhos para o teste de associação [7] ea incorporação do conhecimento biológico na análise, o que não é contabilizada de GWAS.

o número de métodos desenvolvidos para a análise via continua a aumentar. Muitos programas on-line oferecem uma abordagem enriquecimento conjunto de genes simples que usa alguma forma de teste exato de Fisher para determinar sobre-representação de genes dentro de uma via. Em geral, um gene é atribuído um valor de P (usualmente obtido a partir do SNP mais fortemente associado com o resultado de um gene) e um corte arbitrário (por exemplo, p≤0,05) é usada para separar os genes fortemente associados com o resultado de outros genes . Um cálculo exacta de Fisher é então utilizada para testar para dentro de enriquecimento via de genes fortemente associado com o resultado. Esta abordagem não leva em conta os padrões de desequilíbrio de ligação entre os SNPs em diferentes genes na via. Assim, pode sobre-estimar a importância das vias com grandes genes (ou seja, muitos SNPs), uma vez que seleccionando o SNP mais significativa quando existem muitas SNPs para um único gene é mais provável encontrar uma associação forte entre o gene e o resultado pela possibilidade [8], [9].

a abordagem popular GSEA geralmente usa o SNP mais fortemente associada com o resultado em cada gene de representar as associações de gene para os resultados. Algumas implementações de ter em conta o desequilíbrio de ligação entre os SNPs e viés de tamanho gene através da realização de fenótipo (status de caso-controle) permutações e usando rotinas de normalização. Genes são primeiro classificados por tamanho de sua estatística de teste para a associação com desfecho. Uma estatística de Kolmogorov-Smirnov, do tipo soma parcial é então usado para testar para o enriquecimento de genes altamente classificados dentro de vias, comparando a estatística de teste via a sua distribuição nula, tal como determinado por as permutações fenótipo [9], [10]. Outras abordagens, por exemplo, a abordagem que utiliza SUMSTAT a soma de χ

2 estatísticas atribuídos aos genes como uma estatística de teste via de [11], pode ser adaptado para usar permutações fenótipo e métodos de normalização. Alternativas a estas abordagens de enriquecimento do gene definido, tal como os métodos para combinar os valores de P (semelhantes a meta-análises), também têm sido propostos para a análise de via. Alguns destes, incorporar metodologia que representa potencial viés relacionado ao tamanho do gene ou correlação entre os SNPs [12], [13].

Nós comparar quatro métodos de análise de percurso. Estes incluem uma abordagem de enriquecimento de gene simples no EASE, que calcula um Fishers modificados probabilidade exata [14], GSEA (usando o programa GenGen) [9], [10], uma abordagem SUMSTAT modificado e SLAT, uma abordagem combinada P-value [12]. O primeiro método é o representante de abordagens início mais simples que utilizam o teste exato de Fisher, enquanto os outros, conforme descrito acima, são mais sofisticado e concebido para abordar preconceitos relacionados ao tamanho do gene e desequilíbrio de ligação entre os SNPs. Nós comparar e contrastar os resultados de análises que usam esses métodos em dois cancro do pulmão conjuntos de dados GWAS.

Materiais e Métodos

Amostras

Os dados foram utilizados a partir de caso-controle GWAS de pulmão risco de câncer. Estes casos de câncer de pulmão incluídos e controles da Europa Central [2], Toronto [2] e na Alemanha (estudo HGF) [15], [16] e os casos não-pequenas de câncer de pulmão de células e controles de Texas (MD Anderson Cancer Center) [ ,,,0],1]. A genotipagem foi realizada utilizando o Illumina HumanHap300 ou fichas HumanHap550. Os dados dos quatro estudos foram combinados em dois conjuntos de dados: 1) A Europa Central e de Toronto (CETO); e 2) a Alemanha e Texas (GRMD), a fim de alcançar o tamanho da amostra adequado e poder estatístico para detectar associações em análises da via. A escolha de quais os conjuntos de dados de combinar foi feito predominantemente para assegurar o tamanho das amostras semelhantes nas duas análises independentes. A Tabela 1 fornece mais detalhes relacionados a esses estudos.

Seleção de métodos de análise de caminho

métodos de análise de caminho foram identificados através de revisão da literatura. Métodos implementados nos programas EASE [14], GenGen (desenvolvido a partir de GSEA) [9], [10] e SLAT [12] foram escolhidos porque eles foram amplamente utilizados e /ou representante de outras abordagens de análise via. Nós escolhemos o método SUMSTAT com base em um relatório indicando que ele tinha poder superior para detectar associações via do que os métodos exactos GSEA ou Fishers [11]. Para este método de um programa SAS in-house foi desenvolvido. Os métodos são descritos aqui brevemente, com detalhes fornecidos nas publicações originais.

Descrição de métodos de análise conjunto de genes

Com a exceção de SLAT, métodos de análise via aqui descritos requerem atribuição de uma estatística de teste (ou P-value) para cada gene que representa sua associação com o desfecho. Nós usamos a prática comum de atribuição de cada gene a estatística de teste mais importante de todos os testes de associações de SNP para o gene [8], [9].

Entrada para EASE requer que os genes significativamente associados com o resultado são distinguidos de todos outros genes, usando um cut-off pré-especificado (por exemplo, p≤0,05). Enriquecimento para genes significativas em cada percurso é então testado usando a pontuação EASE, a probabilidade exata Fishers modificados representando o limite superior de canivete Fisher probabilidades exatas. FDRs globais são calculados para ter em conta as comparações múltiplas [14].

GenGen é adaptado de Gene Set Enriquecimento Análise (GSEA), usado originalmente para a análise microarray [17]. Os genes são classificados por ordem decrescente de acordo com o tamanho da estatística de associação inicial. Uma estatística de Kolmogorov-Smirnov-like soma parcial ponderada é então calculado que reflete sobre a representação de genes maior classificados em um caminho na lista gene. O peso assume os valores das estatísticas dos testes de SNP que representam genes na lista. Uma estatística enriquecimento normalizada (NER) é calculada para os dados observados, seguido por permutações fenótipo que dão valores NER permutados, criando a distribuição nula a partir da qual são determinadas de associação via valores de P. FDRs são usados ​​para explicar as comparações múltiplas [9].

A abordagem modificada SUMSTAT (mSUMSTAT), que desenvolvemos, é adaptado de Tintle et al. [11]. A abordagem é semelhante ao utilizado na GenGen mas a estatística de teste via é calculado pela média χ

2 estatísticas de ensaio dentro de cada via. A equação abaixo mostra o cálculo do valor médio normalizado do observado χ

2 estatística, onde S refere-se a um conjunto de genes específicos e π denota a permutação. A estatística permutada normalizado é calculado da mesma forma.

O p-valor é determinado pela comparação do valor médio normalizado do χ

2 estatística para as permutada normalizados significa χ

2 estatísticas [18] e uma FDR é calculado de acordo com Wang et al. [9]. Este método contrasta com a de Tintle et al., [11], através do cálculo de um valor estatístico do ensaio normalizado, e a utilização de permutações fenótipo em vez do gene seleccionado aleatoriamente conjuntos para determinar a distribuição nula.

O programa calcula SLAT Os valores de p para a associação de SNPs com o resultado de uma via (definido como neste estudo), o gene ou região. valores-p atingindo um limite específico são combinadas em uma estatística de teste. A estatística é calculado para os dados permutados observada e fenótipo que permite a determinação de um valor de P via [12]. Nenhum método particular para o ajuste para múltiplas comparações é fornecido pelos autores. (Nós usamos a correção Benjamini-Hochberg para calcular FDRs para este método).

Detalhes da análise

SNPs foram excluídos quando o valor P para HWE nos controles foi ≤0.001 (consistente com a via anterior estudos de análise [9], [11]), a freqüência do alelo menor foi 1%, eo genótipo estava faltando em 5% dos indivíduos. Além disso, os SNPs de o chip HumanHap550 que foram usadas no GWAS alemão foram excluídos se houve nenhuma SNP correspondente de MD Anderson (o estudo com o qual os dados GWAS alemã foi combinado) .Subjects com discrepâncias sexuais (com base na taxa de heterozigosidade no cromossoma X ) e aqueles com . 10% SNPs desaparecidas foram excluídos

regressão logística incondicional, usando Plink 1,05 [19] gerado alélicas χ

2 valores para SNPs para cada conjunto de dados, CETO e GRMD, para uso nos programas de EASE, GenGen e mSUMSTAT. Permutada resultados de associação de SNP foram gerados para GenGen e mSUMSTAT usando 1000 regressão logística é executado com status de caso-controle misturadas aleatoriamente para cada execução. Análises de regressão logística foram ajustados para sexo, idade e país de origem. O programa SLAT realizado os seus próprios testes de associação de SNP para a sua análise de caminho, que não inclui o ajuste para co-variáveis.

SNPs foram atribuídos a um gene se fossem dentro de 20 kb do gene. Um SNP para gene ligando arquivo e GO nível 4 arquivo de banco de dados caminho, ambos obtidos no site da GenGen, foram usados ​​para ligar SNPs, genes e caminhos. Somente vias com 15 a 200 genes foram incluídos para evitar testar vias GO excessivamente grandes ou pequenos [6]. A χ

2 do SNP mais significativo no gene foi designado para esse gene. Este χ

2 estatística foi usado para atribuir o valor de corte de P ≤ 0,05 para identificar genes fortemente associados para a análise com facilidade. Os mesmos χ

2 estatística foi utilizada no cálculo das estatísticas de teste via para GenGen e mSUMSTAT. Todos os SNPs em cada gene foram utilizados como entrada para o cálculo dos valores de P caminho para SLAT

A influência do tamanho do gene no ranking do percurso dos métodos de análise de quatro vias foi investigado usando análise de regressão linear (SAS 9.2.: SAS Institute Inc., Cary, Carolina do Norte). tamanho gene mediana (número médio de SNPs por gene) foi calculada para cada percurso superior e incluído como variável desfecho em um modelo com o método de análise de caminho (tratado como uma variável categórica e codificadas em quatro variáveis ​​dummy) como o principal efeito eo número de genes por via incluído como um fator de confusão em potencial.

resultados

a Tabela 2 mostra o número de vias significativas identificadas pelos quatro métodos de análise de caminho em CETO e GRMD usando um FDR de ≤0.05 como critério para determinar a significância estatística. FACILIDADE identificou 10 vias como associados com o risco de câncer de pulmão nos dois conjuntos de dados, 7 em CETO, 5 em GRMD, com duas vias significativas comuns a ambos os conjuntos de dados. O método mSUMSTAT identificou 8 vias como significativos, 8 em CETO, 1 em GRMD com um sendo comum a ambos os conjuntos de dados. SLAT identificou cinco vias como significativos, três no GRMD e dois no CETO.

Desde EASE identificou 10 vias importantes, mais do que os outros métodos, a Tabela 3 mostra os 10 principais vias identificadas no CETO e GRMD por todos os métodos de análise de via (tomadas a partir de listas que compreendem os resultados de ambos os conjuntos de dados). Um FDR de ≤0.05 em ambos os conjuntos de dados foram utilizados como critérios para um resultado replicado. Transmissão de impulsos nervosos e os Ras fatores de câmbio nucleotídeo guanil vias foram identificados pela facilidade como associados com câncer de pulmão em CETO e GRMD (Tabela 3). A via de atividade do receptor de acetilcolina foi identificado como associado com câncer de pulmão em CETO e GRMD por mSUMSTAT. Este caminho contém o

-CHRNA3-CHRNA5 CHRNB4

agrupamento de genes em 15q25, onde GWAS identificaram vários SNPs associados com o risco de câncer de pulmão [1], [2], [5]. Esta via foi a via de classificação mais elevada no CETO usando o método GenGen (FDR = 0,19) (Tabela 3). Em GRMD, esta via foi classificada 16

th entre todas as vias (não mostrados) por GenGen. O FDR foi de 0,43, mas foi acompanhada por um valor de P nominalmente significativa (P = 0,004). Outras associações via significativa em CETO tinha correspondentes valores P nominalmente significativas nos GRMD, especificamente: processo metabólico heme, porfirina processo metabólico, processo de biossíntese de pigmentos e 4 de ferro, 4 aglomerado de enxofre ligação usando mSUMSTAT; e vinculativa lipoproteína de baixa densidade utilizando facilidade. SLAT identificou a regulação da migração celular como significativamente associada com o câncer de pulmão em GRMD, com um P-valor nominal significativa correspondente no CETO (Tabela 3).

Para além da via de atividade do receptor de acetilcolina, que foi identificado por ambos mSUMSTAT e GenGen como uma via de topo, havia poucas vias superiores identificados por mais de um método. Cloreto de ligação iônica foi associado com o risco em CETO de acordo com a facilidade e GenGen. via de ativação-clássica do complemento foi associado com o risco de câncer de pulmão em CETO acordo com GenGen, mSUMSTAT e SLAT. processo metabólico heme foi identificado como associado com o risco em CETO por GenGen e mSUMSTAT. montagem da cromatina foi associado com o risco de câncer de pulmão em CETO acordo com mSUMSTAT e SLAT. processo de biossíntese de interleucina-2 foi identificado como associado com o risco de facilidade e GenGen em GRMD. Regulação da migração celular foi associado com risco de GRMD de acordo com a facilidade e SLAT (Tabela 3). transporte aniónica foi identificado como uma via de topo por mSUMSTAT mas 35 de 102 genes desta via foram incluídos na via de ligação de ião cloreto (64 genes), identificado como um percurso superior por facilidade e GenGen (número de genes em vias calculados seguinte mapeamento SNP) . Do mesmo modo, 16 de 18 genes na via de interleucina 2 (EASE) estão incluídas entre os 65 genes na via metabólica de citocinas (GenGen). Outras vias de topo identificados por métodos diferentes genes partilhada mas a sobreposição era de 12% ou menos com base em genes comuns, para a maior das duas vias (por exemplo, 20 de 50 regulação positiva de genes de vias de fósforo (GenGen) estão incluídos no metabolismo do factor de crescimento via (SLAT), que tem 165 genes).

o método EASE caminhos selecionados com maior tamanho gene (definida usando o número médio de SNPs por gene) do que os outros métodos. O tamanho médio de gene para os melhores caminhos EASE mostrados na Tabela 3 foi de 12,2 SNPs por gene, enquanto que o tamanho médio superior gene da via foi de 8,4 para GenGen, 7,4 para mSUMSTAT, e 8,7 para SLAT. A análise de regressão, onde método de análise de caminho foi codificado em quatro variáveis ​​dummy, produziu uma associação estatisticamente significativa entre o método facilidade e tamanho gene (P = 0,02)

.

Como dois métodos identificou a atividade do receptor de acetilcolina como um caminho topo, examinou esta associação em mais detalhes. SNPs perto do

CHRNA3 Restaurant –

CHRNA5 Restaurant –

CHRNB4

agrupamento de genes mostrando forte associação com o risco de câncer de pulmão, estão em forte LD, e existe uma sobreposição entre as estatísticas de teste SNP atribuídos a estes genes (ou seja, a estatística de teste para o mesmo SNP foi atribuído a ambos

CHRNA5

e

CHRNA3

). Estas características da via podem sinais de associação via viés [20], [21] Para avaliar se a análise de caminho foi impulsionado por um único gene associado ou do grupo de genes, que analisou o efeito da remoção do

gene CHRNA5

(onde a variante de causalidade putativa está localizada) e de todo o agregado de genes a partir de análises utilizando mSUMSTAT e GenGen. Removendo

CHRNA5

não teve influência nos resultados mSUMSTAT no CETO (

CHRNA5

: P = 0,001, FDR≤0.001), mas FDRs caiu bem abaixo do nível de significância de 0,05 em GRMD (

CHRNA5

: P = 0,002, FDR = 0,37). Removendo

CHRNA5

a partir da análise GenGen resultou em enfraquecimento de associação no CETO (P = 0,003, FDR = 0,48), mas praticamente nenhuma mudança na GRMD (P = 0,01, FDR = 0,41). No entanto, a remoção do grupo de genes inteiro resultou em redução acentuada do FDR e perda de significado nos dois conjuntos de dados para ambos os métodos de análise de via (mSUMSTAT sem CHRNA3-CHRNA5-CHRNB4: CETO: P = 0,19, FDR = 0,56 GRMD: P = 0,71, FDR = 0,82; GenGen sem CHRNA3-CHRNA5-CHRNB4 CETO: P = 0,11, FDR = 1,00 GRMD: P = 0,32, FDR = 0,76)

Nós explorada a associação desta via com o risco. representando graficamente odds ratio e intervalo de confiança de 95% para receptor de acetilcolina via de SNPs e genes produzidos por análises de regressão logística não condicional. A Figura 1A mostra a razão de probabilidades para os SNPs específicas atribuídas aos genes (isto é, o SNP mais significativa para cada um dos genes) para a análise CETO e, para comparação, odds ratio para estes mesmos SNPs para GRMD. Além de SNPs no

CHRNA3-CHRNA5-CHRNB4

aglomerado de genes, um SNP em

CHRNA2

mostrou uma associação significativa com o risco nominalmente em ambos os conjuntos de dados (CETO: P = 0,012; GRMD: P = 0,022). A Figura 1B mostra a razão de probabilidades para o SNP mais significativo atribuído a cada um dos genes em ambos os conjuntos de dados (isto é, os SNPs reais usados ​​na via análises nos dois conjuntos de dados). associações nominalmente significativas adicionais foram encontrados para

CHRM3

(CETO: P = 0,003; GRMD: P = 0,028),

CHRNA7

(CETO: P = 0,016; GRMD: P = 0,009), e

Chrna4

(CETO: P = 0,012; GRMD: P = 0,038) em ambos os conjuntos de dados. No total, 6 de 8 genes associados ao risco no CETO foram associados ao risco em GRMD, um resultado maior do que o esperado por acaso dado o número de SNPs em cada gene.

A) o mais significativo SNP para cada gene usado em análise e odds ratio Central Europe-Toronto para os mesmos SNPs para a Alemanha MD Anderson); B) o SNP mais significativo atribuído a cada um dos genes em ambos os conjuntos de dados (isto é, os SNPs reais usados ​​na via análises nos dois conjuntos de dados). número de cromossomos (Chr) e genes de ambos os gráficos são mostrados na esquerda. (Central Europa – Toronto SNPs: preenchimento sólido, Alemanha MD Anderson SNPs harmonização: sem preenchimento, Alemanha MD Anderson topo SNP (diferindo Central Europe-Toronto): preenchimento cinza). A) alelo Referência mesma em ambos Central Europe-Toronto e na Alemanha-MD Anderson, mas escolhida para mostrar associação positiva para a Europa Central-Toronto. alelo B) Referencia sempre escolhido para mostrar associação positiva.

CHRNA5

é excluído como SNPs são idênticos aos que representa

CHRNA3

. odds ratio ajustada para a idade, sexo e país de estudo.

Discussão

Quatro métodos de análise da via foram comparados usando cada um para associação teste de nível GO 4 vias com risco de câncer de pulmão em dois conjuntos de dados de câncer de pulmão GWAS. Métodos de comparação incluiu definidas abordagens de quatro genes de enriquecimento, facilidade GenGen, mSUMSTAT e uma aproximação da combinação p-valor, SLAT. Após o ajuste para comparações múltiplas utilizando um FDR inferior ou igual a 0,05 como critério para uma associação significativa, facilidade e mSUMSTAT identificados mais percursos associados com o risco de câncer de pulmão entre os dois conjuntos de dados (10 e 8, respectivamente) do que GenGen (sem vias ), ou SLAT (5 vias). Facilidade e mSUMSTAT também identificou caminhos que foram significativamente associados com o risco em ambos os conjuntos de dados: transmissão do impulso nervoso e Ras fator de troca guanil nucleotídeo pela facilidade; e a via de actividade do receptor de acetilcolina por mSUMSTAT. Houve um acordo limitado entre os diferentes métodos na identificação de topo do ranking vias. Comparando genes entre os principais caminhos escolhidos por cada método mostrou apenas um modesto grau de sobreposição.

Ao comparar métodos de análise de caminho, nós examinamos se o número de SNPs por gene nas vias influenciado a seleção dos melhores caminhos. Os resultados EASE indicados, identificada principais vias com um número significativamente maior mediana de SNPs por gene do que os outros métodos. Este resultado não é inesperado. Para todos os métodos de enriquecimento de genes definir usamos a abordagem comum de atribuição do SNP mais significativa para representar cada gene. Genes com mais SNPs, geralmente grandes genes, são mais susceptíveis de ser atribuído um SNP com uma estatística associação alta, o que pode levar a um excesso de estimativa de significância de vias com grandes genes (gene de polarização tamanho) [8], [9]. Nós reconhecemos que grandes genes podem ser mais propensos a abrigar múltiplas variantes que são realmente associados com o resultado, mas os nossos comentários se concentrar em propriedades estatísticas dos métodos, especificamente o potencial de falsos positivos resultantes de preconceito tamanho gene. EASE, que usa uma abordagem relativamente simples baseada no teste exato de Fisher, é suscetível a esse viés. rotinas de normalização e permutações fenótipo incorporados GenGen e mSUMSTAT proteger contra esse viés [6], [22]. SLAT também estão protegidos contra esta distorção uma vez que utiliza todos os SNPs em uma via para a análise e incorpora um fenótipo baralhar rotina [12]. O design mais robusto de GenGen, mSUMSTAT e SLAT fornece um benefício adicional, uma vez que estes métodos representam correlação entre os SNPs dentro vias.

Um aspecto crítico desta comparação foi o uso de replicação das principais vias através CETO e GRMD para ajudar a avaliar o desempenho relativo destes métodos. No entanto, com base em um FDR de ≤0.05, algumas associações replicados foram encontrados. A falta de poder do estudo pode, em conta a parte para o pequeno número de associações replicados. Em particular tamanho da amostra insuficiente GRMD (casos = 1639, controles = 1618) pode ter tido para detectar associações encontradas no CETO (casos = 2258, controles = 3027). Heterogeneidade entre os conjuntos de dados também pode ter contribuído para pequeno número de associações replicados, como a amostra alemã era restrita a indivíduos abaixo de 50 anos, eo MD Anderson GWAS incluído apenas nunca fumantes. Portanto, os indivíduos GRMD eram mais jovens e tinham uma maior proporção de nunca fumantes em comparação com indivíduos CETO.

Entre os três métodos (GenGen, mSUMSTAT e SLAT) que são robustas contra viés tamanho único gene mSUMSTAT identificou uma associação replicado. Isto foi para a via de actividade do receptor de acetilcolina. A associação desta via com o risco não é inesperado como vários SNPs em ou perto do

CHRNA3 Restaurant –

CHRNA5 Restaurant –

CHRNB4

agrupamento de genes estão associados tanto com o risco de câncer de pulmão [ ,,,0],1], [2], [5] e nicotina vício [5], [23], [24]. É de interesse que o método GenGen também identificou a atividade do receptor de acetilcolina como o caminho topo do ranking em CETO e uma das vias mais bem classificados em GRMD, embora o resultado não foi significativa em qualquer conjunto de dados após correção para comparações múltiplas utilizando o FDR. Notamos que as associações encontradas por esta via foi impulsionado pelo

CHRNA3 Restaurant –

CHRNA5 Restaurant –

CHRNB4

aglomerado de genes, como demonstrado pela redução drástica da força de associação ( de acordo com o FDR) encontrada para ambos os métodos e mSUMSTAT GenGen quando os dados foram reanalisados ​​com estes três genes removidos da via. Isto pode complicar a interpretação da associação observada como idealmente, vias significativas não deve ser identificado a partir de um sinal que pode em última análise, representam um único gene ou uma sua variante [20], [21] Destacam-se, no entanto, que existem dois de risco independente associado loci nesta região [25] e de momento não é claro quais genes da região estão causalmente relacionados com o risco de doença. É preferível que, em seguida, as vias, tais como estes são identificados a ser associada com o resultado pelo método de análise, e o pesquisador pode então seguir-se com análises exploratórias adicionais. Outras investigações desta via que sugerem que permitir que o mesmo SNP para representar ambos

CHRNA5

e

CHRNA3

na análise superestimou significado nos dados GRMD definidos para mSUMSTAT e os dados CETO definidos para GenGen. Os resultados das análises que excluíam

CHRNA5 Quais são provavelmente o mais adequado para esta via.

Para efeitos de comparação adicional associações via através conjuntos de dados foi utilizado um critério menos restritivo para uma associação via replicado ( um FDR significativa em um conjunto de dados e uma associação nominalmente significativa (P = 0,05) no segundo). Isto permitiu associações adicionais a ser identificado, embora com menos confiança do que aqueles identificados utilizando o critério inicial. O método mSUMSTAT encontrou quatro vias risco potencial associado com um FDR significativa no CETO e valores P nominalmente significativas em GRMD: processo metabólico heme, porfirina processo metabólico, biossíntese de pigmentos e 4 de ferro, 4 aglomerado de enxofre de ligação. Os metabólicas heme e porfirina vias metabólicas mostram um alto grau de sobreposição. Todos os quatro destas vias incluem

IREB2

que está na mesma região de forte LD que inclui o

CHRNA3 Restaurant –

CHRNA5 Restaurant –

CHRNB4

cluster. SLAT identificou uma via, a regulação da migração celular, usando o mesmo critério.

No geral, nossos resultados (juntamente com insights de outras comparações discutidas abaixo) sugerem mSUMSTAT devem ser considerados na escolha de um método de análise de caminho. A falta de forte replicação de associações pathway faz com que seja difícil avaliar GenGen e SLAT um contra o outro. No entanto, a abordagem GenGen parece ter algumas vantagens. resultados GenGen forneceu algum suporte para uma associação da via receptor de acetilcolina com o risco, e como mSUMSTAT este método permite a incorporação de co-variáveis, considerando que o programa SLAT não têm esta capacidade. Finalmente, GenGen é comumente utilizado e forneceu outras associações plausíveis na via análises de GWAS conjuntos de dados [10]. Por outro lado, o utilitário de SLAT é difícil de avaliar dado nossos resultados e for necessária uma avaliação deste método. O restante da discussão se concentra em mSUMSTAT e GenGen.

O nosso método mSUMSTAT contrasta com a de Tintle et al. [11] através de cálculo de uma estatística de teste normalizada, e da utilização de permutações fenótipo em vez do gene seleccionado aleatoriamente conjuntos para determinar a distribuição nula. Estas alterações foram introduzidas para abordar os preconceitos de tamanho gene e manter a estrutura de correlação entre os SNPs em um caminho.

Alguns resultados da simulação sugerem que as abordagens que usam a soma ou a média do χ

2 como uma estatística de teste via será mais poderoso do que aqueles que usam o ponderada Kolmogorov-Smirnov-like estatística soma parcial incorporados em GenGen e abordagens GSEA relacionados. Tintle et ai. descobriu que a estatística de teste SUMSTAT original mais poderoso do que uma abordagem GSEA em uma comparação onde os conjuntos de genes aleatórios foram utilizados para construir a distribuição nulo para ambos os métodos [11]. Efron e Tibshirani encontrados valores de pa geralmente inferiores usando estatísticas de teste média quando comparado a GSEA na expressão do gene simulado análises [18] A análise .Their utilizado um teste t em vez de um χ

2 estatística, permitindo comparações de dois expressão gênica grupos. Permutação e normalização abordagens foram os mesmos como aqui utilizado, excepto para a normalização meios GSEA também incorporados e os desvios padrão calculados a partir de permutações com conjuntos de genes aleatórios.

Deixe uma resposta