PLOS ONE: Análise Descoberta de TCGA dados revelam associação entre germinativa Genótipo e Sobrevivência em ovarianos pacientes com câncer

Abstract

Fundo

O câncer de ovário continua a ser um fardo significativo para a saúde pública, com a mais alta taxa de mortalidade de todos os cancros ginecológicos. Este é atribuível à fase tardia em que a maioria dos cânceres de ovário são diagnosticados, juntamente com a resposta de baixa e variável de tumores avançados para quimioterapias padrão. Até à data, os preditores clinicamente úteis de resposta ao tratamento permanecem falta. Identificar os determinantes genéticos de sobrevivência de câncer de ovário e resposta ao tratamento é fundamental para o desenvolvimento de biomarcadores prognósticos e terapias personalizadas que podem melhorar os resultados para os pacientes em estágio final que constituem a maioria dos casos.

Métodos

para identificar variações genéticas constitucionais que contribuem para a mortalidade por câncer de ovário, foi investigado sistematicamente associações entre polimorfismos germinativas e de sobrevivência de câncer de ovário usando dados do Projeto Genoma Atlas câncer (TCGA). Usando Cox riscos proporcionais regressão estratificada-stage, examinamos 650.000 SNP loci para a associação com a sobrevivência. Nós, adicionalmente, examinou se a associação de SNPs significativa com a sobrevida foi modificada por alterações somáticas.

Resultados

polimorfismos germinativas em rs4934282 (AGAP11 /C10orf116) e rs1857623 (DNAH14) foram associados com ajustado estágio sobrevivência (= 1.12e-07 e 1.80e-07, FDR = 1.2E-04 e 2.4e-04, respectivamente). Um terceiro SNP, rs4869 (C10orf116), foi adicionalmente identificados como significativos nos dados exome sequenciamento; ele está em quase perfeita LD com rs4934282. As associações com a sobrevivência permaneceu significativa quando alterações somáticas.

Conclusões

análise Descoberta de dados TCGA revela variações genéticas germinativas que podem desempenhar um papel na sobrevivência do cancro do ovário, mesmo entre os casos em estágio final. Os loci significativas estão localizados perto de genes previamente relatados como tendo uma possível relação de platina e taxol resposta. Uma vez que os alelos variantes nos loci significativas são comuns (frequências para alelos rs4934282 A /C = 0,54 /0,46, respectivamente; rs1857623 /G alelos A = 0,55 /0,45, respectivamente) e variantes da linha germinal pode ser ensaiada de forma não invasiva, os nossos resultados proporcionam alvos potenciais para uma maior exploração como biomarcadores de prognóstico e terapias individualizadas

Citation:. Braun R, Finney R, Yan C, Chen QR, Hu Y, Edmonson M, et al. (2013) Descoberta Análise de TCGA dados revelam associação entre germinativa Genótipo e Sobrevivência em ovarianos pacientes com câncer. PLoS ONE 8 (3): e55037. doi: 10.1371 /journal.pone.0055037

editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos da América

Recebido: 09 de novembro de 2011; Aceito: 21 de dezembro de 2012; Publicação: 21 de março de 2013

Este é um artigo de acesso aberto, livre de todos os direitos autorais e pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita. O trabalho é feito disponível sob a dedicação de domínio público da Creative Commons CC0

Financiamento:. Os autores são apoiados pelo Programa de Pesquisa Intramural do National Cancer Institute, Estados Unidos National Institutes of Health, Bethesda, MD. Não houve fontes de financiamento externo para este estudo. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

contas cancro do ovário para cerca de três por cento de todos os cancros nas mulheres e é a quinta causa de morte relacionada ao câncer entre as mulheres nos Estados Unidos, com uma taxa de incidência ajustadas por idade de 12,8 por 100.000 mulheres por ano e taxa de mortalidade de 8,6 por 100.000 mulheres por ano (2003-2007) [1]. Dos cancros ginecológicos, o câncer de ovário tem a maior mortalidade, com uma taxa global de sobrevida em cinco anos de 43,7% para as mulheres brancas e 34,9% para as mulheres negras [1]. As estatísticas de sobrevivência pobres são atribuíveis à fase tardia em que cânceres de ovário são diagnosticados devido à sua natureza assintomática: enquanto na fase I tumores têm uma taxa de sobrevivência relativa de 92,4%, que representam apenas 15% dos diagnósticos de câncer de ovário; pelo contrário, estágio III e IV cancros têm taxas de sobrevivência de 34% e 18%, respectivamente, e, juntos, respondem por 65,4% dos diagnósticos [1]. Resposta à quimioterapia padrão (platina mais taxano) é muito variável [2], [3], e tende a ser pobre em casos avançados [2]. Compreender os determinantes genéticos de sobrevivência de câncer de ovário e resposta ao tratamento pode melhorar essas estatísticas, particularmente para a fase III e IV pacientes que constituem a maioria dos casos. Em particular, as variações, identificando que predizem a resposta à quimioterapia permite a possibilidade de a administração de terapias alternativas que podem melhorar os resultados.

Estudos anteriores examinaram o papel da variação genética na susceptibilidade do cancro do ovário, progressão, a resposta ao tratamento, e sobrevivência . Demonstrou-se que as mutações BRCA1 /2 germinativas contribuir para 10-15% dos casos [4], e análise de dados do projeto Atlas do Genoma do Câncer (TCGA [5]) mostrou também que essa mutação BRCA1 /2 da linha germinativa, somática mutações e promotor efeito metilação de sobrevivência de câncer de ovário [5]. Além disso, estudos de genes candidatos têm demonstrado que os polimorfismos em MDM2, juntamente com o estado TP53 e SULF1, estão associados com a sobrevivência do cancro do ovário [6] – [8]. Recentemente, Huang e colaboradores relataram uma variação genética está associado com carboplatina citotoxicidade in vitro e in vivo [3], uma descoberta que pode explicar a capacidade de resposta diferencial para a terapia do cancro do ovário padrão à base de platina. Os mesmos autores mostraram depois que o locus identificado regula miARNs que contribuem para a sensibilidade de platina, sugerindo um mecanismo de acção [9].

Até à data, no entanto, um marcador genómico clinicamente útil de sobrevivência do cancro do ovário permanece elusiva. O SNP associado à platina investigada por Huang não foi encontrado para ser significativamente associada com a sobrevivência em uma coorte de validação [3]. Da mesma forma, Bolton e colegas de trabalho identificados com sucesso vários loci associados à susceptibilidade câncer de ovário, mas aqueles que inicialmente encontrado para ser associado com a sobrevivência não atingiu significância no conjunto de validação [10], embora espera-se que futuros estudos de coorte será resultar em associações estabelecidas com o resultado clínico [10]. Embora a expressão do gene do tumor de assinaturas de previsão da resposta ao tratamento e recidiva têm sido relatados (por exemplo, [11], [12]), a sua utilidade clínica está limitada pelo custo, capacidade de invasão, e variabilidade inerente na avaliação da expressão do gene do tumor. Da mesma forma, somáticos número de cópias alterações em certos genes foram recentemente relatou que influencie a sobrevivência [13], mas a utilidade de medir CNV como um teste prognóstico é igualmente limitado.

O Projeto Atlas do Genoma do Câncer (TCGA [5] ) fornece um conjunto de dados genômicos e clínicos em que a associação entre genética e sobrevivência pode ser completamente exploradas. Aqui, realizamos uma análise de todo o genoma para investigar sistematicamente associações entre

germinal

variação genética ea sobrevida global em pacientes TCGA diagnosticado com câncer de ovário (cystadenocarcinoma serosa) [14]. Os doentes tinham uma idade e distribuição de fase típica do cancro do ovário, como mostrado na Tabela 1. Utilizando o clínico e Affymetrix SNP6.0 ( “SNP6”) dados de genótipos, foram identificados dois loci single nucleotide polymorphism (SNP) em que o genótipo da linha germinal é preditiva de sobrevida global em doentes com cancro do ovário. As associações continuam a ser significativas após o ajuste para o estágio, e estão associados com a sobrevivência, mesmo entre pacientes III palco. Isto sugere que a variação genética constitucional pode desempenhar um papel na resposta ao tratamento e fornece uma avenida potencial para um teste de biomarcador de prognóstico não invasivo.

Resultados

Aqui, nós relatamos a associação entre SNPs germinativas e sobrevida do paciente usando dados de câncer de ovário TCGA. Os dados filtrados compreendia um total de 662,521 SNPs testados em 489 amostras de cancro do ovário clinicamente anotados, com distribuições de palco e de idade, conforme apresentados na Tabela 1. Cada um dos 662,521 SNPs que satisfazem os critérios de filtragem foram testados para a associação com a sobrevivência usando Cox riscos proporcionais regressão ajustado para a fase utilizando um modelo não-aditivo. Dois SNPs, rs4934282 (A /C) na AGAP11 gene (anteriormente associado com C10orf116) e rs1857623 (A /G) a montante da DNAH14, mostrou uma associação univariada estatisticamente significativa com a sobrevida global do câncer de ovário, como resumido na Tabela 2. A trama dos -Valores obtidos é dada na Figura 1. Além disso os rácios calculados por um alelo de risco para estes SNPs utilizando um modelo aditivo, obtendo-RH = 0,599 (= 1.28e-08) para o alelo em rs4934282 e HR = 1.425 (= 1.70e-05) para o alelo em rs1857623. Deve notar-se que, devido ao pequeno tamanho da amostra, o poder de detectar um SNP com MAF = 0,45 (como estes são) com = 1e-06 é 32% de HR = 0,6 e 3,5% para HR = 1,4; portanto, é provável que outros SNPs com tamanhos de efeito similar pode ter sido perdido por acaso nesta análise.

plot Quantile-quantil de valores observados para os testes de razão de probabilidade dos modelos de Cox ajustado estágios x a distribuição esperada de valores sob hipóteses nulas independentes. Pontos acima da linha indicam valores que são mais significativos do que o esperado; um grande desvio sistemático desta linha seria indicativo de subestrutura população dirigir os resultados. Os dois SNPs identificados como significativos, rs4934282 e rs1857623, encontram-se bem acima da linha e fora do pequeno desvio sistemático.

Para ilustrar o efeito de rs4934282 (AGAP11 /C10orf116) e rs1857623 (DNAH14 ) genótipo da linha germinativa na sobrevivência entre os pacientes com tumor estádio semelhante, gráficos de Kaplan-Meier para o 372 fase III pacientes são dadas nas figuras 2 e 3. em particular, o genótipo CC em rs4934282 em AGAP11 /C10orf116 confere um efeito protetor, quase dobrando a mediana tempo de sobrevivência em relação ao grupo genótipo AA. Além disso, os pacientes com CC homozigoto em rs4934282 têm uma taxa de sobrevida em cinco anos de 45%, contra 34% no total para a Fase III pacientes [1].

parcelas de sobrevivência de Kaplan-Meier para a III pacientes palco, estratificada por genótipo da linha germinativa em rs4934282 (AGAP11): AA, preto; AC, azul; CC, vermelho. Os intervalos de confiança são mostrados como uma região a sombreado em volta de cada curva de Kaplan-Meier. observações censuradas são denotados com carrapatos verticais. As linhas horizontais e verticais tracejadas marcam% de sobrevivência de 50 e cinco anos (1825 dias), respectivamente

Kaplan-Meier de sobrevida para pacientes III Palco, estratificados por genótipo da linha germinativa em rs1857623 (DNAH14):. AA, preto; AG, azul; GG, vermelho. Os intervalos de confiança são mostrados como uma região a sombreado em volta de cada curva de Kaplan-Meier. observações censuradas são denotados com carrapatos verticais. As linhas horizontais e verticais tracejadas marca de 50% de sobrevivência de cinco anos (1825 dias), respectivamente.

Para investigar mais variação nas regiões genômicas em torno desses SNPs, examinamos /dados de sequenciamento de captura exome (para 375 doentes com dados disponíveis da linha germinativa) em 100 janelas Kpb centrada sobre os dois SNPs identificados como significativos nos dados SNP6, chr10 especificamente: 88.672.456-88.772.455 e Chr1: 223.081.228-223.181.227. Durante dez amostras com dados de todo o genoma disponíveis, fomos capazes de comparar o rs4934282 intrônica e rs1857623 Affymetrix SNP6.0 chamadas para os do sequenciamento de genoma completo, confirmando as chamadas validade SNP6. Dos SNPs 29 exome /captura testados (ver Tabela 3) em 375 amostras, apenas rs4869 em C10orf116 permaneceu significativa após o ajuste para as várias hipóteses (FDR = 9.89e-03). rs4869 está localizado p.e. a montante da rs4934282 e está em desequilíbrio de ligação quase perfeita com o rs4934282 (A /C em rs4934282 correlacionando-se com C /T em rs4869, respectivamente). rs4869 codifica uma mutação sinónimo em C10orf116 (Ile68Ile). Nós também investigou se os alelos variantes em qualquer destes 29 loci levou a alterações na proteína nonsynonymous deletérios; apenas cinco SNPs teve mis-senso variações alélicas, nenhum dos quais foram previstos para ser deletério (Tabela 4).

Finalmente, foram utilizados dados obtidos a partir de amostras pareadas normais de tumor para avaliar se o forte efeito do genótipo da linha germinativa na sobrevivência foi significativamente mediada ou moderadas por ganho de expressão do gene do tumor ou a perda do número de cópias no tumor, ou por perda de heterozigosidade (ver S1 ficheiro) para testar a hipótese de que o efeito do genótipo da linha germinativa no cancro do ovário sobrevivência pode ser influenciada por eventos somáticas. Não houve associação significativa da expressão do gene do tumor, copiar número variação, ou perda de heterozigosidade nessas regiões com a sobrevivência (veja S1 Arquivo). Em vez disso, o grande efeito do genótipo da linha germinal nos loci de sobrevivência do paciente é independente destas alterações somáticas, e parece sugerir que a variação genética constitucional nestas regiões desempenha um papel na resposta ao tratamento.

Discussão

estudos recentes têm demonstrado que variantes genéticas comuns estão associados com risco do cancro do ovário [15], [16]. No entanto, continua a ser difícil prever independente de sobrevivência de câncer de ovário de fase; achados clínicos atuais mostram que a resposta do tumor e resistência às drogas extrema in vitro não são bons preditores de sobrevivência do cancro do ovário [17], [18]. Em nosso estudo, nós exaustivamente testados os SNPs testados nos dados TCGA SNP6.0 para a associação com a sobrevivência, e, adicionalmente, analisados ​​todo o genoma e SNPs exome /captura nas regiões genômicas que cercam os SNPs SNP6.0 significativos. Foram identificados três SNPs em duas regiões genômicas que tiveram associação estatisticamente significante com a sobrevivência. Como mostrado na Tabela 2, as taxas de risco para os alelos menores homozigotos aproxima ou excede duas vezes em modelos de risco proporcional de Cox estratificado-estágio, e os tamanhos por alelo-efeito para esses SNPs utilizando um modelo aditivo genótipo estágio estratificada foram HR = 0,599 e HR = 1,425 para rs4934282 e rs1857623, respectivamente. Interessantemente, nenhum dos variações somáticas examinados (expressão do gene do tumor, copiar a variação do número, e a perda de heterozigosidade) estiveram associados com o genótipo da linha germinal nestes loci ou com a sobrevivência, apesar de uma hipótese plausível que alterações somáticas no tumor pode ter um efeito sobre a associação genótipo-sobrevivência. Em vez disso, esses SNPs são fortemente preditivo da sobrevivência independente das alterações somáticas que já tinham ocorrido no tumor (ver S1 Arquivo).

Dois dos SNPs associados a sobrevivência estão localizados dentro de uma região 2.200 pb no cromossoma 10 ( rs4934282 em chr10: 88732476 e rs4869 no chr10: 88730312) e estão em LD quase perfeita neste dados. Esta região genômica está associada com C10orf116 (chr10: 88.727.949-88.730.672) e AGAP11 (chr10: 88.730.498-88.769.960), que se sobrepõem; o significado biológico da variação sondado por rs4934282 e rs4869 pode ser associada com qualquer um. AGAP11 é um membro da repetição anquirina e GTPase domínio Arf GTPase família de genes de proteína de activação de [19]. C10orf116 (também referido como APM2) é uma proteína de função desconhecida que é homóloga da cadeia médio de complexo proteína associada à clatrina de mamíferos e está envolvida no transporte vesicular, em levedura. A região genómica contendo rs4934282 e rs4869 é mostrado na Figura 4.

Descrição Detalhada da região genómica do cromossoma 10 contendo rs4934282 (SNP segundo da direita) e rs4869 (mostrado em verde). Observe a sobreposição entre AGAP11 e C10orf116.

Enquanto pouca evidência antes que liguem AGAP11 a susceptibilidade ao câncer, sobrevivência, ou a resposta ao tratamento, existe alguma evidência para o papel de C10orf116. expressão C10orf116 /APM2 tem sido implicado em outros cancros ginecológicos; por exemplo, se foi mostrado para diferenciar entre os fortemente associada BRCA1 subclasses de tumor da mama ESR1-positivos e negativos ESR1-[20] e é tem sido encontrado para ser regulada negativamente em cancro utering num número de estudos [21]. Mais recentemente, C10orf116 foi demonstrado exibir expressão diferencial em diferentes tipos patológicos de carcinoma dos ovários [22] e na resposta de cancro da mama à quimioterapia [23], [24].

Mais importante ainda, existe a partir de As linhas celulares que apontam para C10orf116 como um mediador de resistência à cisplatina. cancro do ovário tem sido tratada com compostos de platina para muitos anos [25], [26], com a cisplatina e carboplatina (que tem um perfil de toxicidade mais acceptible) como uma terapia padrão para a fase III cancros ovarianos diagnosticados de novo [26], [27 ]. No entanto, embora muitos pacientes respondem ao tratamento inicial, as taxas de sobrevivência de cinco anos continuam a ser pobres (34% do total para a fase III [1]). APM2 (C10orf1116) foi mostrado para promover a resistência à cisplatina, quando sobre-expresso em linhas celulares HCT116 que eram sensíveis à quimioterapia e à radiação [28], sugerindo um possível mecanismo através do qual rs4869 e rs4934282 influenciar a sobrevivência. O silenciamento de APM2 por shRNA foi mostrado para melhorar os efeitos citotóxicos da cisplatina em xenoenxertos de tumor cultivadas em ratinhos CD-1 nu. Além disso, foi encontrado APM2 a ser sobre-expressos em células de cancro gástrico resistentes a cisplatina, mas não em células de cancro gástrico resistentes a 5-FU ou doxorrubicina [29]. Mais recentemente, verificou-se que rs1649942, um SNP localizado a 5 Mb a montante do rs4934282 /rs4869, teve uma modesta associação com a citotoxicidade induzida por carboplatina e a sobrevivência de pacientes com câncer ovariano após a quimioterapia à base de carboplatina [3]. Embora este SNP não atingiu significância na análise de validação fase 2 (e da mesma forma não significativa em nosso estudo), ele adiciona ao corpo de evidências implicando esta região genômica na sensibilidade platina.

O terceiro significativa SNP, rs1857623 , se encontra em uma região intergênica no cromossomo 1, 53 Kb a montante da DNAH14 e 136 Kb a jusante da CNIH3. DNAH14 pertence à família da cadeia pesada dineína, uma proteína motor que atribui aos microtúbulos e caminha ao longo dos microtúbulos do citoesqueleto [30]. O mecanismo pelo qual a variação em DNAH14 pode impactar a sobrevivência é menos clara. Uma via possível para estudos futuros é o seu potencial papel no contexto da terapia de taxol: DNAH14 contém a haste de ligação a microtúbulos de motor de dineína (pfam12777 em Localização: 2910-3244 NP_001364.1 de proteína de referência), e foi demonstrado que o taxol liga os microtúbulos [28]. DNAH14 também foi encontrada para ser regulados diferencialmente em resposta à terapia de taxano em cancros gástricos [31] e terapia de doxorrubicina em células do endométrio [32].

Estes resultados sugerem que as variações genéticas consitutional nestas regiões podem desempenhar um papel na sobrevivência do cancro do ovário, mesmo entre os casos em estágio final. No entanto, deve notar-se que os resultados aqui apresentados constituem uma análise à base de descoberta de que não incluem uma coorte de validação. Como tal, os resultados podem ser espúrias falsos positivos, e necessitam de confirmação em estudos de acompanhamento. Se validadas, esses SNPs podem ter potencial clínico importante como biomarcadores de prognóstico, uma vez genótipo da linha germinativa podem ser analisadas de forma não invasiva e porque os alelos variantes nos loci significativas são comuns (frequências para alelos rs4934282 A /C = 0,54 /0,46, respectivamente; rs1857623 A /alelos G = 0,55 /0,45, respectvely, ambos comparável ao alelo frequências para a população caucasiana CEPH em HapMap [33]). Os loci importantes estão localizados em genes previamente identificados como tendo uma possível relação à resposta quimioterapêutico, sugerindo que a sua associação com a sobrevivência pode ser devido a sua influência na resposta ao tratamento. Nosso estudo sugere alvos potenciais para testes prognositic e terapias individualizadas, e fornece uma base para a pesquisa de acompanhamento.

Materiais e Métodos

Dados

Os dados foram coletados pelo TCGA projeto, conforme descrito em outro lugar [14]. Follow-up vezes, status vital, estágio do tumor, e os dados de genótipos germinativas foram obtidos a partir do projeto TCGA [14] através do portal de dados em 06/03/2011.

SNP6 genótipos.

chamadas de genótipos para as 906,600 sondas de SNP ensaiadas utilizando a plataforma Affymetrix genoma SNP6.0 e processados ​​usando Birdseed foram obtidos a partir TCGA. As amostras que não passaram no controle de qualidade TCGA (por número de cópia de arquivo de dados de exemplo do relacionamento Format TCGA) foram removidos. Um total de 496 pacientes cystadenocarcinoma seroso do ovário teve tempo de sobrevivência e os dados do genótipo da linha germinativa (normal sangue ou tumorais adjacentes). Genótipo chamadas foram codificados como 0, 1 ou 2 de acordo com o número de alelos variantes e filtrou-se de acordo com um limite de confiança de 0,05 Birdseed.

Os dados genótipo foram sujeitas a filtração critérios adicionais de controlo de qualidade da seguinte forma. SNPs com taxas de chamadas ou as frequências alélicas menores foram excluídos, bem como SNPs fora de Hardy Weinberg com. Foram excluídas todas as amostras com uma taxa de chamada abaixo de 80%. Identidade por estado foi calculado usando o pacote de R GenABEL, e as amostras estreitamente relacionadas com IBS foram removidos. O SNP e critérios de filtragem de amostra foram aplicados de forma iterativa até que todas as amostras e os SNPs atingiu os limiares estabelecidos. No total, 489 amostras e 662,521 SNPs passados ​​foram mantidos na análise.

estágio do tumor.

subcategorias etapa foram se uniram para efeitos desta análise em categorias de palco sumárias rendendo quatro classificações de palco (ou seja, , Estágio IA, IB, IC foram tratados como Fase I, etc.). O número de amostras em cada categoria fase é dada na Tabela 1.

dados exome /captura.

Próxima geração exome /dados de sequenciamento de captura também foram recuperados para 375 pacientes com dados disponíveis da linha germinativa. A análise foi restrita a 100 janelas Kpb centradas sobre os dois SNPs identificados como significativos nos dados SNP6, chr10 especificamente: 88.672.456-88.772.455 e Chr1: 223.081.228-223.181.227. descrições gráficas destas regiões genômicas são fornecidos nas Figuras 5 e 6.

Imagem de cgwb.nci.nih.gov de faixas selecionadas para construir genoma NCBI36 (hg18) para a região circundante duas variações da linha germinativa associado com a sobrevivência em câncer de ovário na região C10orf116 /AGAP11 no cromossoma 10. as faixas são uma faixa personalizada que mostra os rs4869 SNPs e rs4934282, gene RefSeq, mRNA, ESTs emendados e mapability.

imagem de cgwb.nci.nih .gov de faixas selecionadas para construir genoma NCBI36 (hg18) para a região em torno de uma variação da linha germinativa associados com a sobrevivência no cancro do ovário a montante da DNAH14 no cromossoma 1. as faixas são uma faixa personalizada que mostra os rs1857623 SNP, gene RefSeq, mRNA, ESTs emendados e mapability.

Binary Sequence Alignment /Map arquivos (BAM) foram baixados da dbGAP, usando para cada amostra o maior disponível arquivo BAM normal. O “mpileup” e “bcftools” características de SAMtools [34] foram utilizados para gerar a informação da chamada variante, com a chamada critérios como segue: se a cobertura de uma dada amostra para um determinado locus era inferior ao limite de cobertura (ver parágrafo seguinte ), nenhuma chamada foi feita; caso contrário, se a frequência de alelos não referência foi inferior a 10%, a chamada era “referência homozigótica;” se a frequência não referência foi superior a 90%, a chamada era “nonreference homozigótica;” se foi entre 10% e 90 %, a chamada era “heterozigoto.”

para definir o limite de cobertura para os dados exome /captura, foram comparadas as chamadas exome /captura para as chamadas de genótipos SNP6 germinativas para 41 tag SNPs localizados nessas regiões. Tratar a SNP6 chama como padrão-ouro para a exatidão, definimos a “taxa de incompatibilidade” para ser o número de chamadas para exome /capture e dados SNP6 diferem, dividido pelo número total de chamadas exome /captura feitos a essa profundidade de cobertura. Como limite de cobertura é aumentada e os dados exome /capture se torna mais confiável, as reduções das taxas de incompatibilidade, mas menos chamadas exome /captura pode ser feita. Nós variar o limiar de cobertura de 5 a 30, seleccionando o menor cobertura que produziu uma taxa de incompatibilidade menor do que 0,05. A cobertura ótima foi de 9 (com uma taxa de incompatibilidade de 0,045)

Foi considerado um local a ser informativo (ou seja, ter variação suficiente), se pelo menos 20 amostras germinativas teve uma chamada heterozigota naquele limiar de cobertura.; estes critérios produzir 29 total de SNPs informativos nas 100 regiões Kpb circundantes rs4934282 e rs1857623, mostrados na Tabela 3, que nós considerados na análise.

A análise de sobrevida

A análise de sobrevida foi realizada em R [35] utilizando o pacote de “sobrevivência” [36]. Para cada SNP representadas nos dados, riscos proporcionais de Cox de regressão foi usada para modelar a sobrevivência como uma função do genótipo. Por causa da associação significativa de palco com a sobrevivência, todos os modelos foram estratificados por etapa. chamadas de genótipos foram tratadas como variáveis ​​categóricas com 0 como o grupo de referência para evitar a imposição de linearidade no número de alelos variantes. Cada modelo produziu duas razões de risco por SNP (um para o genótipo = 1 com respeito ao genótipo = 0 e outra para o genótipo 2 = w.r.t. genótipo = 0). O significado da associação foi avaliada pelo teste de logrank (Score) [37]. Um teste de resíduos de Schoenfeld foi utilizado para verificar se a suposição de riscos proporcionais foi cumprida; apenas modelos com foram considerados válidos. 639,510 SNPs testados conheceu a perigos assunção proporcional.

Por causa do grande número de SNPs implica um grande número de hipóteses que está sendo testado, vários ajustes de testes foram feitos para os valores. Isto foi feito de duas maneiras. Relatamos tanto a taxa de falso descoberta [38] () para os valores obtidos para os testes paramétricos descritos acima. Além disso, relatamos valores de permutação obtidos utilizando 600.000 resamplings independentes dos dados. testes de permutação, enquanto computacionalmente intensivas, são considerados o controle mais forte e mais adequado das taxas de erro tipo I em estudos genômicos [39] – [41]

Para investigar a existência eo efeito de qualquer estratificação populacional. , o pacote GenABEL R [42] foi usado para examinar subestrutura população. O factor de inflação genómico foi estimada em, indicando que subestrutura população, se estiver presente, não deve ter nenhum efeito significativo sobre os resultados. Usando um conjunto seleccionado aleatoriamente de 12.000 (pairwise LD) SNPs independentes com MAF, subestrutura população foi examinada usando análise de componentes principais. parcelas emparelhados entre os quatro primeiros componentes são fornecidos no ficheiro S2. Nós ajustamos os modelos de duas maneiras: usando os quatro primeiros PCs, e usando atribuições de cluster identificados a partir do PCA usando pacote de R mclust [43]. Como esperado com base em, observou-se não há alterações significativas nos resultados do modelo de Cox (dados não mostrados). Os resultados aqui apresentados, portanto, não são ajustados para subestrutura população

análise de dados de sequenciação

Foram comparados os genótipos SNP6 no loci significativo. (Chr10: 88722456 e Chr1: 223131228) para os de whole- dados de sequenciamento de genomas de 10 amostras disponíveis; todos os 10 combinava com a SNP6 solicita que os SNPs significativas, apoiando as chamadas SNP6 genótipo.

Para os dois SNPs que mostram associação significativa com a sobrevivência nos dados SNP6, investigamos ainda mais as regiões genômicas que cercam usando combinado todo o genoma e exome /captura de dados de sequenciamento. Foram investigados 29 SNPs nas regiões genómicas vizinhas rs4934282 e rs1857623 mostrados na Tabela 3 e escolhidos tal como descrito acima. Modelos de risco proporcional de Cox-estratificada etapa foram então construídas para os genótipos da linha germinativa, como descrito acima. Deve-se notar nem rs4934282 nem rs1857623 foram incluídos devido a dados exome /captura insuficiente (rs4934282 está em uma região intrônica e, portanto, não ensaiado nos dados exome /capture; rs1857623 não tinha chamadas na maioria das amostras)

deve ser notado que nem todas as regiões genómicas que contribuem para estes dados têm sequências únicas. Para avaliar isso, foram utilizados os critérios “mapability”, conforme implementado no CGWB [44]: para cada locus em questão, que consideramos uma janela de 75 pares de bases de correr contendo que o locus e tentar combiná-lo com outras regiões no genoma; o locus único é sinalizada como se, para cada posição da janela deslizante, a sequência de mapas apenas para a localização da janela e nenhuma outra região genómica. Loci para os quais algumas (ou todas) as posições da janela deslizante conter sequências que mapeiam para várias regiões genômicas são sinalizadas com um punhal na Tabela 3, denotando que o lê contribuindo para as chamadas em que o locus pode ser inespecífica.

Previsão de substituições de aminoácidos

Foi examinada a SNPs na Tabela 3 para substituições mis-senso usando programa ANNOVAR [45] e previu seu impacto funcional em sequências de proteínas com logRE e peneirar. LogRE é o de a proporção de HMMER -Valores para o ajuste de um domínio PFAM motivo de duas sequências de aminoácidos que diferem por uma substituição de aminoácido. Uma pontuação logRE cujo valor absoluto é maior do que ou igual a 1 indica que a alteração de aminoácidos é susceptível de afectar a proteína [46]. SIFT é uma ferramenta baseada na homologia da sequência que classifica intolerante De substituições de aminoácidos tolerantes e prevê substituições de aminoácidos deletérios. Peneire valores estão previstos para ser prejudicial [47]. Dos SNPs considerados acima de cinco SNPs mis-sentido foram identificadas: três em MMRN2 (rs3750823, rs4934281, rs34587013), um em SNCG (rs9864), e um em AGAP11 (rs2641563). No entanto, não há nenhuma evidência de que estas alterações de aminoácidos têm impacto funcional sobre as proteínas (Tabela 4).

Análise de variações somáticas

Para testar a hipótese de que as alterações somáticas pode ter um ou aditivo efeito sobre a associação entre o genótipo da linha germinativa e sobrevivência do cancro do ovário moderando, foram utilizados dados TCGA derivados de amostras de tumores emparelhados para avaliar se a expressão do gene do tumor, ganho ou perda de número de cópias no tumor, ou perda de heterozigosidade foram significativamente associados com a sobrevivência. Uma descrição completa dos métodos e resultados para esta análise é dada no S1 Arquivo. Nenhum desses co-variáveis ​​adicionais foram significativas.

Informações de Apoio

arquivo S1.

Métodos e resultados da análise das variações somáticas.

doi: 10.1371 /journal.pone.0055037.s001

(PDF)

S2 Arquivo.

Métodos e resultados da análise subestrutura população.

doi: 10.1371 /journal.pone.0055037.s002

(PDF)

Deixe uma resposta