PLOS ONE: Usando informações prévias da Literatura Médica em GWAS de Oral Cancer Identifica Novel Susceptibilidade Variant no cromossomo 4 – os adaptar Method

Abstract

Fundo

estudos de associação

Genome-largos (GWAS ) requerem amostras de grande tamanho para obter o poder estatístico adequado, mas pode ser possível aumentar a potência mediante a incorporação de dados complementares. Neste estudo nós investigamos a possibilidade de recuperar automaticamente as informações da literatura médica e alavancar essas informações em GWAS.

Métodos

Nós desenvolvemos um método que procura através de resumos PubMed por palavras-chave pré-atribuído e conceitos-chave, e usa esta informação para atribuir probabilidades anteriores de associação para cada polimorfismo de nucleotídeo único (SNP) com o fenótipo de interesse – o Ajuste Associação priores com texto método (adaptar). resultados de associação de um GWAS pode, posteriormente, ser classificado no contexto destes antecedentes utilizando a estrutura Bayes Falso Descoberta Probabilidade (BFDP). Nós inicialmente testado adaptar ao comparar rankings de alelos de susceptibilidade conhecidos em um câncer de pulmão anterior GWAS, e, posteriormente, aplicou em uma de duas fases GWAS de câncer oral.

Resultados

pulmonares Conhecido SNPs de susceptibilidade ao câncer foram consistentemente mais alto por se adaptar BFDPs que por valores p. No câncer oral GWAS, procuramos replicar as cinco principais SNPs como classificados por adaptar BFDPs, dos quais rs991316, localizado na

ADH

gene região de 4q23, exibidos uma associação estatisticamente significativa com o risco de câncer oral na fase de replicação (

per-raro alelo-p-valor aditivo log [p

tendência]

= 2,5 × 10

-3). A combinadas ou por ter um alelo raro adicional foi (IC 95%: 0,76-0,90) 0,83, e essa associação foi independente da SNPs susceptibilidade previamente identificados que estão associados com o cancro geral VADS nesta região do gene. Também investigamos se rs991316 foi associado com outros cânceres do trato aerodigestivo superior (VADS), mas nenhum sinal de associação adicional foi encontrado.

Conclusão

Este estudo destaca a utilidade potencial de sistematicamente incorporando prévia conhecimento da literatura médica nas análises do genoma utilizando a metodologia de se adaptar. Adaptar está disponível online. (Url: https://services.gate.ac.uk/lld/gwas/service/config)

Citation: Johansson M, Roberts A, Chen D, Li Y, Delahaye- Sourdeix H, Aswani N, et al. (2012) Usando informações prévias da Literatura Médica em GWAS de Oral Cancer Identifica Novel Susceptibilidade Variant no cromossomo 4 – O método de se adaptar. PLoS ONE 7 (5): e36888. doi: 10.1371 /journal.pone.0036888

editor: Olga Y. Gorlova, da Universidade do Texas M. D. Anderson Cancer Center, Estados Unidos da América

Recebido: 20 Dezembro, 2011; Aceito: 09 de abril de 2012; Publicado em: 25 de maio de 2012 |

Direitos de autor: © 2012 Johansson et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Esta pesquisa tem sido apoiada pela subvenção da UE-FP7 [LarKC, url: https://www.larkc.eu] [FP7-215535]. Financiamento da coordenação do estudo, genotipagem de estudos de replicação e análise estatística foi fornecida pelos Estados Unidos Instituto Nacional do Câncer (R01 CA092039 05) e do Instituto Nacional de Pesquisa Dental e Craniofacial (1R03DE020116). Suporte para os estudos centrais em todo o genoma Europa e ARCAGE foi fornecido pelo INCA (Instituto Nacional do Câncer du, França. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito.

CONFLITO dE iNTERESSES:. Os autores declararam que não existem interesses conflitantes

Introdução

Os efeitos dos riscos de variantes de susceptibilidade comuns de doenças complexas – incluindo a maioria dos cânceres – são geralmente pequenas (ou seja, OR 1.5) [1] e estudos de associação do genoma (GWAS) exigem um limite estrito significado (por exemplo, valor de p 10.

-7), devido à carga de testes múltiplos Assim, GWAS para o risco de câncer requerem tamanhos de amostra grandes a fim de ter poder estatístico suficiente. por isso, é problemático para realizar estudos GWA de cânceres menos comuns para as quais o recrutamento de um número adequado de casos é difícil. pode haver benefício na incorporação de elementos de prova complementares recolhidos através de experimentos complementares ou de outras fontes de informação. Tal informação pode ser incorporada com resultados GWAS usando métodos de Bayesian simples [2], por exemplo, o método desenvolvido por Wakefield [3]. Este usa o fator aproximada Bayes (ABF), estimado com estimativas beta e erros padrão de variação genética para associações de doenças, juntamente com as probabilidades prévias para a hipótese nula para gerar o Probabilidade Descoberta Falso Bayes (BFDP). Assim, o BFDP fornece uma estimativa da probabilidade de que o resultado observado representa uma associação positiva falsa, e pode ser usado em lugar de valores de p, quando a classificação ou de outro modo a avaliação dos resultados de associação. A principal dificuldade na aplicação de uma abordagem deste tipo na GWAS está atribuindo probabilidades anteriores relevantes e realistas de associação com a doença para cada polimorfismo de nucleotídeo único investigado (SNP).

informação prévia potencial para relacionamentos gene com a doença podem ser recuperados a partir de vários fontes, por exemplo experimentos de expressão Quantitative trait loci (eQTL), bancos de dados via ontologia, e varreduras literatura [2]. Reconhecendo que um grande número de variantes de susceptibilidade identificados através GWAS residem perto genes candidatos plausíveis [4], a hipótese de que é possível extrair conhecimento anterior a partir da literatura médica com base em texto, a fim de aumentar o poder estatístico para detectar SNPs de susceptibilidade para que essa informação esteja disponível.

a fim de avaliar a viabilidade eo potencial benefício de um tal desenho do estudo, desenvolvemos um método que recupera automaticamente os dados relevantes de resumos PubMed, a fim de gerar probabilidades anteriores de um genoma escala variantes investigadas estar envolvido em uma doença específica, e, posteriormente, incorpora esses dados com os resultados de associação de GWAS utilizando a estrutura BFDP [5], os priores Associação de ajuste com Texto (Adapt), método. Adaptar foi posteriormente aplicada em um GWAS de câncer oral (OC) [6] – [10].

Resultados

Os cálculos de energia para BFDP e valores p

Tal como descrito por Wakefield [3], [11] a estimativa BFDP pode ser usado como meio de avaliar e relatar associações notáveis ​​em seu próprio direito. No entanto, prevemos uma maior adopção de um desenho do estudo híbrido, em duas fases, em que SNPs que são considerados suficientemente “notável” de acordo com as suas estimativas BFDP são escolhidos para a replicação em uma população de estudo independente e avaliados utilizando os valores de p replicação. Por exemplo, adotando uma BFDP de corte de 0,8 ao selecionar SNPs para a replicação implica que um falso não-descoberta é quatro vezes tão caro como uma falsa descoberta, ou que esperam, em média, um em cada cinco SNPs escolhidos para a replicação para ser associado com a doença. Falso non-descoberta inclui qualquer “verdadeiro” susceptibilidade SNP presente no conjunto de dados que não atingir um BFPD abaixo de 0,8. Aqui, consideramos verdadeiros SNPs susceptibilidade a ser associado com o fenótipo de interesse na forma estatisticamente robusta e reprodutível, apesar de fazer implica causalidade funcional. A fim de avaliar o poder estatístico de seleção de SNPs susceptibilidade de câncer oral, utilizando nossa série de 791 casos e 7.012 controles de caso-controle, foi avaliado o poder estatístico de acordo com (equação [eq.] 9, consulte Análise estatística). Estes cálculos de energia foram baseados em 300.000 SNPs sendo avaliados no GWAS, que 100 verdadeiros SNPs susceptibilidade de câncer bucal foram incluídos no conjunto de dados e uniformemente distribuídas pelas categorias anteriores (ou seja,

N * = 100, N

1 * = N

2 * = N

3 * = 33,3)

. Foram considerados três categorias anteriores (

J = 3

) e os SNPs globais no GWAS está sendo distribuído como

C

1 = 0,875, C

2 = 0,10, e C

3 = 0,025

. Podemos calcular as probabilidades anteriores da hipótese nula para as três categorias anteriores sob estas premissas de acordo com (eq. 7) que dá

PO

1 = 7874, PO

2 = 899, e PO

3 = 224

. O poder estatístico para alcançar um BFDP de 0,8 para os SNPs, com um OR de 1,25 em cada uma das três categorias anteriores é mostrado na Figura 1. Para fins de comparação, que incluem a potência para a utilização BFDP assumindo o mesmo

N *

mas com todos os SNPs atribuído o mesmo antes. Sob estas premissas o poder para detectar SNPs associados em

C

3

ou

C

2

é aumentada, enquanto sacrificar algum poder para aqueles em

C

3

. Isto demonstra os benefícios potenciais da adopção de um quadro tão Bayesian no GWAS, se as categorias e os seus antecedentes são escolhidos de forma adequada.

Esses cálculos de poder assumir uma avaliação de 300.000 SNPs dos quais 100 são realmente associados com o resultado e distribuídos uniformemente em três categorias anteriores, respectivamente. A distribuição global de SNPs nas três categorias anteriores é assumido como sendo [87,5%; 10%; 2,5%]. PO Plano pressupõe uma única categoria anterior.

Nós também incluiu cálculos de potência suplementares em Figura S1, variando o número assumido de verdadeiros SNPs suscetibilidade.

Validação de adaptar a metodologia

a fim de executar uma inicial

prova de princípio

avaliação do método de adaptar-BFDP, ele foi aplicado aos dados de nosso cancro do pulmão previamente relatado GWAS [12]. Em primeiro lugar, se o serviço de web adaptar para gerar probabilidades prévias para SNPs com base na literatura médica (ver Materiais e Métodos). As palavras-chave foram agrupados por prioridade, o primeiro grupo que inclui palavras abrangentes que são específicos para o câncer de pulmão, por exemplo, ‘Câncer de pulmão “e” carcinoma de pulmão “, o segundo grupo incluía palavras mais gerais especificamente relevantes para o cancro do pulmão, por exemplo, ‘Fumar’, ‘nicotina “,” carcinoma de células não-pequenas “, eo terceiro grupo incluía palavras mais genéricas que não são exclusivamente importante para o cancro do pulmão, mas por câncer em geral, por exemplo, ‘Cancerígeno’, ‘danos no DNA “,” neoplásicas “,” apoptose “. Nós posteriormente procurou através de todos os resumos PubMed para cada gene e as probabilidades anteriores atribuídos de acordo com (eq. 7). Somente foram incluídos literatura publicada antes da data da primeira câncer de pulmão GWAS [12], a fim de evitar viés.

Em segundo lugar, nós dividir o nosso câncer de pulmão originais GWAS em uma série de subconjuntos menores para simular GWAS com menor estatística poder. Isto foi realizado escolhendo aleatoriamente (distribuições iguais de casos e controlos) 50% e 75% do total de séries de dados de 100 vezes. análise GWAS para todas as subséries foi então realizada e os resultados classificados por p-valor e por BFDP usando priores estimadas usando o serviço web se adaptar. Comparou-se a classificação por BFDPs e valores de p dentro de cada sub-série (50%, 75% ou 100%) para as variantes de cinco susceptibilidade identificados por cancro do pulmão GWAS que foram replicados de forma independente em vários estudos (Tabela 1) [12] – [14 ]. Fora destes cinco SNPs, quatro foram designados priores elevadas que resultaram em melhorias claras no ranking ao usar as estimativas BFDP em comparação com os valores de p. Por exemplo, quando a amostragem de 75% dos dados completos definir o SNP rs401681 em 5p15.33 foi classificada em 2709 pelo p-valor e em 664 por BFDP.

analisa Novel de associação do genoma

a seguir, foi realizado um GWAS de câncer oral. Essa verificação seguiu um desenho de duas fases, com os resultados de associação da fase de descoberta do genoma classificados por adaptar-BFDPs.

fase Discovery.

Na fase de descoberta, após o controle de qualidade, genoma análise -wide foi realizada em 791 casos e 7.012 controles. análise trama Q-Q não indicaram qualquer inflação notável geral (λ

inflação = 1,04), sugerindo que subestruturas população oculta teve pouco ou nenhum impacto sobre os resultados da análise de todo o genoma (Figura S2). Adaptar foi empregado com base em resumos PubMed, usando palavras-chave relevantes para o cancro oral (Tabela S1) de uma maneira comparável ao experimento câncer de pulmão descrito acima. Fora de 293,211 SNPs avaliados, 149.998 foram agrupados como

C

1 |, 137.576 foram agrupados como

C

2

, e 6.637 foram agrupados como

C

3

. Foram avaliadas as estimativas individuais SNP BFDP usando uma abordagem básica de análise de sensibilidade por três conjunto distinto de hipóteses sobre o número de verdadeiros SNPs de suscetibilidade, ou seja,

N * = 50, N * = 100, e N * = 500

. Foi aplicado um limite BFDP de 0,80 para seleção de SNPs para replicação, e seis SNPs cumpriram este critério para todos

N *

(Tabela 2). Porque já tínhamos avaliado e confirmou a 6

th SNP classificado (rs1789924,

AHD1C

) em um estudo prévio de câncer geral VADS (Tabela 2) [11], foram selecionados cinco SNPs para replicação. Estes SNPs incluídos rs1888732 em 1p22.3 (log odds ratio aditivos [OR

tendência] = 0,70, intervalo de confiança de 95% [IC 95%]: 0,61-0,81,

BFDP

100

= 0,06 ), rs3130559 em 6p21.33 (OR

tendência = 0,76, 95% CI: 0,65-0,88,

BFDP

100

= 0,57), rs10801805 em 1p22.2 (OR

tendência = 1,30, 95% CI: 1,16-1,46,

BFDP

100

= 0,58), rs991316 em 4q23 (OR

tendência = 0,81, 95% CI: 0,72-0,91,

BFDP

100

= 0,62), e rs10008621 em 4q35.2 (OR

tendência = 0,72, 95% CI:. 0,60-0,86,

BFDP

100

= 0,66)

Replication.

Depois de controle de qualidade e análise estatística dentro da série de replicação, única rs991316 exibida uma associação estatisticamente significativa com o risco de câncer oral (

per-rare-alelo aditivo log valor de p [p

tendência]

= 2,5 × 10

-3, Tabela 2). Um gráfico de -log

10 p-valores e r de pares

2 estimativas para SNPs incluídos na fase GWAS do

ADH e região gene é dado na Figura 2. O OR em comparação com os principais homozigotos do conjunto de dados combinados (GWAS + dados replicação) foram (IC 95%: 0,78-1,01) 0,88 para os heterozigotos, e (IC 95%: 0,57-0,79) 0,67 para os menores homozigotos. O OR associado a ter um alelo raro adicional (modelo log-aditivo) foi (IC 95%: 0,76-0,90) 0,83, e essa associação foi replicada de forma independente (

p

tendência Art 0,05) em os dois maiores estudos de replicação (os estudos da América Latina e ORC, Tabela S1,

p

heterogeneidade

= 0,67). O SNP rs991316 está localizado em uma região de 4q23 que inclui vários genes que codificam genes diferentes subunidades

álcool desidrogenase

(

ADH

), ou seja, o

álcool desidrogenase 6

,

ADH1A

,

ADH1B

,

ADH1C

, e

ADH7

genes. Na busca adaptar literatura, dois genes foram designados como potencialmente relevantes para o SNP rs991316,

ADH1C

e

ADH7

, localizado a cerca de 49 kb centromérico e 11 kb telomérica do rs991316, respectivamente. SNPs na região (ou seja rs1229984 [

ADH1B

], rs1789924 [

ADH1C

] e rs971074 [

ADH7

]) previamente têm sido associados com o cancro geral VADS. No entanto, rs991316 foi mal correlacionados com rs1229984, rs1789924 e rs971074 (r

2 0,05), e condicionado a análise de risco sobre esses SNPs não nomeadamente afectar a OR de rs991316 (OR

ajustadas 0,84). Além disso, investigamos se rs991316 também foi associado com outros subsites VADS além de câncer oral, mas a análise estratificada revelou que o efeito risco de rs991316 foram confinados ao câncer oral (boca e orofaringe), mas não câncer de hipofaringe, laringe e esôfago (

p

heterogeneidade

= 0,03, Figura 3). Tomados em conjunto, estes resultados sugerem que o SNP rs991316 está associada especificamente com câncer oral, mas não com outros tipos de câncer VADS dentro desta população, e que a associação é independente previamente detectado SNPs susceptibilidade de câncer VADS nesta região. Além disso, essa heterogeneidade em efeitos de risco entre os cânceres VADS orais e outros também pode explicar por que esta variante não foi detectada em nosso GWAS inicial de câncer geral VADS.

P-valores que indicam a força da associação para cada SNP na GWAS com câncer bucal são mostrados na escala -log10 (Y-eixo esquerdo), contra as suas posições no cromossoma 4 (Construir 36,3). A cor de cada ponto e SNP representam o grau de desequilíbrio de ligação (r

2) com rs991316 de acordo com a fase de HapMap II dados CEU. Em destaque na figura são rs1229984, rs1789924 e rs971074, que foram relatados para ser associado com VADS cancros anteriormente, bem como o SNP rs991316 que foi descoberta a ser associada especificamente com câncer oral no estudo atual. rs1229984 não foi genotipados, nem marcado por uma variante proxy na BeadChip HumanHap300 mas foi genotipados por ensaio Taqman nas mesmas amostras provenientes da Europa Central e estudos ARCAGE como incluídos na fase de descoberta da corrente GWAS, e r

2 entre rs1229984 e rs991316 foi estimado em 3.513 controles de estudos europeus e ARCAGE Central. taxas de recombinação em toda a região são mostrados pela linha azul clara em função do eixo y direito. Genes da região são representados com cabeças de seta indicando a direção da transcrição.

a) Para além do OR para os heterozigotos TC e homozigotos TT, que foram estimadas em relação às principais homozigotos CC, todos OR e 95 % CIs foram estimadas usando o modelo log-aditivo, o ajuste para idade, sexo e centro. Todos os indivíduos das fases do genoma e de replicação com covariáveis ​​disponíveis foram incluídos nesta análise (não os controles genéricos). Os cancros gerais ou para o de cavidade oral e orofaringe é mostrado pela linha vertical pontilhada. b) P para heterogeneidade indica diferenças nos ou entre estratos e foi derivado de teste Q do Cochran. c) Nunca bebedores eram assuntos que quer relatados 0 g ingestão de álcool por dia, ou relataram estar não bebedor, bebedores leves consumido 0 e 6,06 g alc./day, bebedores intermediários consumidos 6,06 e 46,3 g alc ./day, e bebedores pesados ​​consumido 46,3 g alc./day. d) hipofaringe, laringe e esôfago casos não foram incluídos nas análises acima.

análises estratificadas

Realizamos análises de risco mais estratificado para rs991316 (Figura 3), mas para além de o efeito de risco heterogêneo em cancros orais em geral, em comparação com outros tipos de câncer VADS (

p

heterogeneidade

= 0,03), não foram observadas modificações claro efeito (

p

heterogeneidade Art 0,10). Observou-se alguma evidência sugestiva para modificação de efeito por sexo (

p

heterogeneidade

= 0,11), a associação com o risco de ser mais forte entre os homens. Também foi observado algumas indicações de tabagismo e consumo de álcool também modificando a associação com o risco, com o risco de tornar-se mais pronunciado com níveis mais elevados de fumar e beber, mas os testes formais não suportar a interação (

p

interação

= 0,15 e 0,10 para fumar e consumo de álcool, respectivamente). Além disso ajustar a análise de risco rs991316 principal para beber e fumar não modificou a OR estimativas (dados não mostrados).

Discussão

Apresentamos um método para recuperar informações da literatura médica com base em texto e estimar probabilidades anteriores de associação para todos os SNPs investigados no GWAS, os Ajustar priores associação com o método de texto (adaptar). Os priores pode, posteriormente, ser incorporados com a associação resulta em uma medida Bayesian do noteworthiness de associação para cada SNP a associação doença.

Um dos principais argumentos para a realização de GWAS é que a abordagem é agnóstico, oferecendo assim a capacidade para detectar novos loci susceptibilidade sem inferir crenças anteriores sobre a importância de genes específicos (por exemplo, comparar com a abordagem do gene candidato). No entanto, muitas variantes de susceptibilidade genética detectados em GWAS residem perto genes candidatos plausíveis, eo método adaptar-BFDP dá uma oportunidade de aproveitar essas informações de forma automática. Adaptar procura automaticamente por meio de resumos PubMed para a evidência anterior relevante de envolvimento na doença em questão. Juntamente com o quadro estatístico BFDP, adaptar incorpora a informação prévia com os resultados de associação do GWAS, dando assim SNPs próximos genes previamente implicados na doença de interesse uma classificação mais elevada.

Nós inicialmente validado adaptar-BFDP baseado em dados GWAS de câncer de pulmão e observou que SNPs susceptibilidade validados foram consistentemente mais alto pelas estimativas adaptar-BFDP que por valores de p (Tabela 1). O método foi aplicado posteriormente em um GWAS de tamanho modesto de câncer oral (cerca de 800 casos) com poder estatístico pobres para detectar os efeitos de risco intermediário tipicamente observados em GWAS (≤40% de poder estatístico para a escolha de um SNP para a replicação em p 10

-5 assumindo uma OR de 1,25). Ao classificar os resultados de associação de acordo com a adaptar-BFDPs e replicar as cinco principais SNPs, identificamos uma nova variante susceptibilidade dentro da conhecida região suscetibilidade ao câncer oral e VADS do

ADH

gene cluster em 4q23. Nós investigamos se a associação de rs991316 poderia ser explicado pelo desequilíbrio de ligação com variantes de risco previamente identificados de câncer geral VADS sobre este lugar [8], [15], incluindo rs1229984, rs1789924 e rs971074, mas suas correlações de pares eram baixos e condicionado a análise de risco sobre esses SNPs não afetou a estimativa ou de rs991316. Além disso, a análise de haplótipos mostraram claramente que os alelos variantes destas SNPs foram localizados em diferentes haplótipos (dados não mostrados), reforçando assim ainda mais a inferência independência destas SNPs de susceptibilidade. Importante, o SNP rs991316 não foi associada a outros tipos de câncer VADS (Figura 3), portanto, apoiando a noção de um romance de associação, como evidência de associação com outros locais de câncer VADS tem sido observado com os detectados anteriormente SNPs suscetibilidade.

Nós reconhecemos que qualquer método que leva informações não curada antes em conta em estudos de associação é imperfeito e sujeito a vários preconceitos [2], bem como o método adaptar-BFDP tem várias limitações. Como adaptar pesquisas resumos PubMed para a presença de palavras-chave pré-atribuído e conceitos relacionados semanticamente, o resultado final (ranking por BFDPs em vez de valores de p) serão SNPs privilégio nas proximidade de genes que têm sido estudados em relação ao desfecho de interesse . Como mostrado na Figura 1, há uma perda de poder estatístico para SNPs para os quais nenhuma informação anterior relevante está disponível. Esta penalização imposta aos novos genes e desertos gene que parece contraditório com a natureza agnóstica de um GWAS, apesar de sinais de forte associação continuará a ser altamente classificado nos dois métodos.

O método também é sensível ao número assumido de verdade Associated SNPs (

N *

). Aumentar este número irá permitir que mais SNPs para passar o limiar BFDP, mas isso não vai mudar a sua classificação. Num desenho de duas fases, onde o número de SNPs retida para a segunda fase é determinada pela potência de segunda fase [16], apenas a classificação relativa na primeira fase é relevante e a escolha de

N * é

imaterial. Em contrapartida, a proporção de SNPs verdadeiramente associados em cada uma das categorias anteriores influencia o ranking mudando a probabilidade anterior de associação para cada variante.

Além disso, a implementação actual dos adaptar usa um algoritmo de mineração de texto relativamente simples e, como tal, mantém-se relativamente em bruto. Por exemplo, ele não leva a frequência da palavra-chave corresponde em conta ao atribuir os priores, nem leva em conta se os estudos individuais relatar os resultados do estudo positivos ou negativos. Essas estratégias serão avaliados em futuras implementações de adaptação, bem como métodos com o objetivo de expandir as palavras-chave em conceitos relacionados semanticamente. Além disso, adaptar atualmente atribui SNPs individuais aos genes simplesmente com base em sua localização, por exemplo, Se eles estão dentro de 50 kb a partir de um determinado gene. Aqui, parece útil para também tomar desequilíbrio de ligação em conta, como tem sido implementado nas relações Gene Através implicado Loci (GRAIL) metodologia [17]. Da mesma forma a se adaptar, GRAIL usa mineração de textos de resumos PubMed para priorizar SNPs em GWAS, mas fá-lo através da identificação de genes que são funcionalmente relacionados a vários outros genes numa extensão maior do que o que seria esperado por acaso. Embora a metodologia GRAIL tem a vantagem de não exigir o fenótipo de interesse a ser estudado em relação a um gene em particular antes, nem beneficia quando tal informação está disponível. Assim, parece tanto a adaptar e metodologias GRAIL pode ser útil em conjunto, ou por conta própria, na priorização de SNPs de varreduras iniciais da GWA para posterior acompanhamento.

É importante ressaltar que prevemos utilizando o método de adaptar-BFDP como ferramenta complementar – em vez de uma substituição – para a abordagem mais tradicional GWAS (ou seja, a classificação de p-valor), por exemplo, por inicialmente utilizando classificação baseada p-valor para detectar loci genéticos de uma forma agnóstica, e, posteriormente, a metodologia adaptar-BFDP para alavancar ainda mais os dados com um potencial de detectar variantes que podem de outra maneira ser negligenciado. Embora geralmente não é recomendado para realizar estudos de fraca potência, o método adaptar-BFDP também podem auxiliar a detecção de loci susceptibilidade quando o poder estatístico é pobre, por exemplo, na análise de todo o genoma estratificada como no câncer oral fraca potência GWAS. Na verdade, o SNP rs991316 ficou em 76

th por valores de p, e este SNP susceptibilidade não teria sido incluído na fase de replicação teve que adotamos para replicar apenas as variantes topo classificados por valores p. Além disso, se o número de SNPs seleccionados para a replicação tinha sido suficientemente profunda para incluir rs991316, a evidência estatística para a replicação (

P

tendência

= 2,5 × 10

-3) não teria sido considerado notável após o ajuste para os testes múltiplos na fase de replicação (isto é, um limite de significância de Bonferroni ajustado de P = 0,0007). Assim, parece que a estratégia de adaptar-BFDP assistido a detecção e validação da variante rs991316. O processo de adaptar também pode ser facilmente adaptada para proporcionar informação prévia de genes totais, em vez de SNPs individuais, e como tal, podem também ser úteis em aplicações genómicas, tais como exome ou do genoma base estudos de sequenciação. Além disso, várias fontes de informação poderia ser incluída no âmbito Bayesian, para bancos de dados exemplo via ontologia, outros métodos baseados em texto, incluindo GRAIL, ou experiências complementares, tais como análise de eQTL do genoma [18].

Conclusões

este estudo confirma que é possível incorporar informação prévia abrangente de forma automatizada para ajudar na priorização de SNPs em GWAS para posterior seguimento, neste caso da literatura médica baseada em texto utilizando a metodologia adaptar-BFDP . Em apoio a esta, relatamos um romance SNP susceptibilidade de câncer oral em ADH

gene região do

de 4q23, que foi associado com o risco, independentemente de SNPs de risco previamente identificados de câncer geral VADS nesta região. Fizemos a metodologia disponível para a comunidade de pesquisa adaptar através de um serviço web (url: https://services.gate.ac.uk/lld/gwas/service/config).

Materiais e Métodos

Ética declaração

Todos os participantes assinaram termo de consentimento para participar do estudo e Comitê de Ética da IARC (IEC) aprovou esta pesquisa.

Recuperar informações da literatura médica usando adaptar

a fim de extrair informações relevantes de literatura médica de uma forma abrangente e imparcial, desenvolvemos os priores Associação de ajuste com Texto (Adapt), método. Adaptar identifica resumos PubMed relevantes para cada gene RefSeq através do banco de dados do gene Entrez (url: https://www.ncbi.nlm.nih.gov/gene), onde todos os estudos que investigaram um gene particular, são cruzados com PubMed. Para este estudo, qualquer gene no prazo de 50 000 pares de bases de um SNP foi mapeado, juntamente com os resumos ligada a esse gene. Também é possível usar os textos GeneRif, que são resumos curtos e anotados manualmente de cada trabalho de pesquisa, no lugar de resumos PubMed. Estes textos GeneRif são diretamente fornecidos na base de dados Entrez gene. Todos os resumos relevantes são posteriormente extraído por palavras-chave e conceitos fundamentais relacionados com aspectos importantes da doença ou fenótipo de interesse, incluindo etiológico e os fatores mecanicistas. Esta mineração é realizada utilizando Gate (url: https://gate.ac.uk) [19], que divide resumos em frases, tokenizes as sentenças em termos individuais, encontra a parte do discurso de tokens, e divide cada token em seu principal componente (raiz morfológica). Os resumos também foram mapeados para conceitos UMLS usando MetroMeta [20], [21]. Tokens e conceitos foram armazenados em um índice de Mimir GATE para facilitar a recuperação rápida e para armazenar mapeamento entre SNPs individuais e resumos relevantes [22]. Palavras-chave para a mineração também foram processados ​​com portão para dar raízes morfológicas e as presenças de estes foram posteriormente verificada no índice para cada SNP.

Nós atribuímos palavras-chave em um dos três grupos, G1, G2 e G3, grupo G1 contendo palavras da mais alta importância para o fenótipo e G3 grupo que contém relevante, mas palavras subjectivamente menos importante. Com base na presença de palavras-chave relevantes, cada gene e SNPs proximais pode logicamente ser atribuído a um dos 8 possíveis combinações binárias de G1, G2 e G3. Para os nossos propósitos, definimos três categorias (

C

i, i = 1,2,3

):

C

1 | = {Não

G

1 |, não

G

2

, Não

G

3

}

C

2

= {Pelo menos um dos

G

1, G

2, G

3

mas não todos}

C

3

= {

G

1, G

2, G

3

}.

Nós desenvolvemos um serviço web que permite que um usuário realizar consultas de palavras-chave ao longo de um conjunto arbitrário de SNPs em tempo hábil, por exemplo, uma lista de SNPs incluídos em um BeadChip genoma escala particular (url: https://services.gate.ac.uk/lld/gwas/service/config). Isso retorna uma classificação sobre todas as 8 categorias possíveis, permitindo ainda mais em colapso pelo usuário. Nós também fornecemos um script-R que estima as probabilidades anteriores para cada SNP e re-classifica os resultados GWAS de acordo com as estimativas BFDP. Isso permitirá que os investigadores a aplicar livremente a metodologia adaptar sem transferir seus resultados de associação on-line (url: https://services.gate.ac.uk/lld/gwas/service/rscript). O R-script também permite que o usuário redefinir o agrupamento de categorias anteriores.

Análise estatística

Atribuição de probabilidades anteriores de associação e a probabilidade de descoberta falsa Bayesiana (BFDP).

Deixe uma resposta