PLOS ONE: Identificação e Caracterização de Câncer Mutações em japonês Lung Adenocarcinoma sem Sequenciamento de Contrapartidas tecido normal

Abstract

Foram analisados ​​dados de sequenciação de todo o exome de 97 pacientes de adenocarcinoma de pulmão japoneses e identificaram vários genes e vias relacionadas ao câncer putativos. Em particular, observou-se que os padrões de mutação relacionada ao câncer foram significativamente diferentes entre diferentes grupos étnicos. Como relatado anteriormente, as mutações no gene de EGFR foram característicos para Japonês, enquanto que no gene KRAS foram mais frequente em Caucasianos. Além disso, durante o curso desta análise, verificou-se que mutações somáticas específicos do cancro pode ser detectado sem sequenciar homólogos de tecido normal. 64% das variantes da linha germinal pode ser excluída usando um total de 217 conjuntos de dados externos exome japoneses. Também mostram que uma abordagem semelhante pode ser usada para outros três grupos étnicos, embora o poder discriminatório depende do grupo étnico. Nós demonstramos que o gene ATM e o gene PAPPA2 puderam ser identificados como genes relacionados com prognóstico do cancro. Ignorando o sequenciamento dos homólogos de tecido normal, esta abordagem fornece um meio útil para não só reduzir o tempo e custo do sequenciamento mas também da análise de amostras de arquivo, para o qual homólogos de tecido normal não estão disponíveis.

Citation: Suzuki A, Mimaki S, Yamane Y, Kawase A, Matsushima K, Suzuki M, et al. (2013) Identificação e Caracterização de Câncer Mutações em japonês Lung Adenocarcinoma sem Sequenciamento de Contrapartidas tecido normal. PLoS ONE 8 (9): e73484. doi: 10.1371 /journal.pone.0073484

editor: H. ensolarado Sun, Instituto de Medicina Molecular, Taiwan

Recebido: 22 Março, 2013; Aceito: 19 de julho de 2013; Publicação: 12 de setembro de 2013

Direitos de autor: © 2013 Suzuki et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado por JSPS KAKENHI Grant número 24300345. Este trabalho também foi apoiado por MEXT KAKENHI Grant número 221S0002. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o advento da tecnologia de sequenciamento de próxima geração facilitou enormemente a detecção e caracterização de variações genéticas no genoma humano. Notadamente, este tipo de estudo tem impulsionado o Genomas Projeto 1000 [1,2], que tem como objetivo fornecer um mapa completo das variações genéticas humanas através de várias origens étnicas. No entanto, por causa de toda a sequenciação do genoma ainda é caro, o sequenciamento das regiões de exão inteiros, utilizando métodos de captura de hibridação (sequenciamento exome) [3-5] é amplamente utilizado para triagem de genes que estão relacionados com doenças hereditárias. Por sequenciação exomes de indivíduos saudáveis ​​e doentes e comparando-os, genes que são responsáveis ​​por muitas doenças foram identificadas [6], incluindo a síndrome de Miller [7,8] e hipertensão hipercalêmica familiar [9]. Junto com o progresso que tem sido feito na sequenciação exome, o volume de dados da linha germinativa polimorfismo de nucleotídeo único (SNP), que foi registrado em dbSNP está se expandindo rapidamente para várias populações [10].

exome sequenciamento fornece uma poderosa ferramenta para estudos de câncer também. Na verdade, uma série de artigos foram publicados descrevendo a identificação e caracterização de variantes de nucleotídeo único (SNVS) que somaticamente ocorrem em cancros e são suspeitos de serem responsáveis ​​pela carcinogênese e desenvolvimento da doença [11]. O Consórcio Internacional do Genoma do Câncer (ICGC) tem vindo a recolher dados exome para SNVS somáticas que estão presentes em mais de 50 tipos de cânceres, como parte de um esforço de colaboração internacional [12-14]. O Cancer Genome Atlas (TCGA) desenvolveu um grande conjunto de dados genómico, incluindo exomes de carcinoma do ovário de alta qualidade, que tem sido utilizado para detectar os genes mutados de forma significativa, incluindo TP53, BRCA1 e BRCA2 [15]. Eles também identificaram várias aberrações cromossômicas e vias desregulados que podem actuar como alvos terapêuticos.

Em estudos exome câncer mais em curso, homólogos de tecido normal já foram seqüenciados em paralelo com tecido de câncer [15-19]. Este é considerado necessário porque as variantes da linha germinativa deve ser excluído do conjunto completo de SNVS para detectar os SNVS somáticas que são exclusivas para cânceres. No entanto, a sequenciação de homólogos de tecidos normais aumenta o custo e o tempo de análise. Além disso, em alguns casos, é difícil a obtenção de homólogos de tecido normal. Além disso, ainda não está claro como exatamente SNVS germinativas pode ser excluída usando exomes tecido normal. Para excluir de forma conservadora SNVS germinativas, suas profundidades de seqüência e precisão pode precisar de ser maior do que aqueles que são obtidos a partir dos exomes cancerosas.

Neste estudo, foram geradas e analisadas 97 exomes cancerosas de pacientes com adenocarcinoma de pulmão japoneses. Também demonstramos que SNVS somáticos pode ser enriquecido a um nível que seja suficiente para as análises estatísticas, mesmo na ausência da sequenciação de homólogos de tecido normal. Para separar a linha germinal das SNVS somáticas, primeiro comparou os padrões de variação entre um exome cancro com exomes de tecido normal de 96 outros pacientes. Nós também tentou realizar uma comparação mútua semelhante utilizando apenas exomes cancerosas, sem a consideração de exomes de homólogos de tecido normal. É verdade que, se omitido completamente sequenciamento tecido normal, teríamos provisoriamente desrespeito de mutações somáticas que ocorre exatamente na mesma posição genómica em vários tipos de câncer. No entanto, estudos recentes elucidaram que tais SNVS compartilhados são muito raros [15,20-22]. Além disso, muitas destas mutações recursivamente foram registados nas bases de dados de mutação somática do cancro tais como Sanger CÓSMICA [23,24], e aquelas SNVS recorrentes podem ser recuperados por estudos de seguimento utilizando parcialmente os dados a partir dos tecidos normais. Para compreender a natureza única de cada um cancro, uma análise estatística dos SNVS distintas presume-se ser essencial para além da análise dos SNVS comuns.

Neste estudo, foi demonstrado que é possível identificar o primeiros candidatos para genes e vias relacionadas ao câncer, mesmo sem o sequenciamento de uma contrapartida tecido normal. Mostra-se que esta abordagem é útil não só para reduzir o custo da sequenciação, mas também para melhorar a fidelidade dos dados. Deve ser também útil para analisar amostras de arquivos antigos, para os quais homólogos de tecido normal nem sempre estão disponíveis. Aqui, descrevemos um método prático e de baixo custo para agilizar o câncer exome sequenciamento.

Resultados e Discussão

Caracterização do SNVS usando o 97 exome dataset

Em primeiro lugar, geramos e analisadas sequências de todo o exome de 97 pacientes de adenocarcinoma de pulmão japoneses. dados exome foram coletadas de ambos câncer e dos tecidos normais homólogos, separados por microdissecção de captura de laser. Nós purificado o ADN exônico (exomes) e gerou 76-base de emparelhado-end lê usando a plataforma Illumina GAIIx. Aproximadamente 30 milhões de sequências mapeadas foram obtidos a partir de cada amostra, proporcionando 74 × cobertura das regiões alvo; 93% das regiões-alvo tinha 5 × cobertura (Figura S1 no arquivo S1). Burrows-Wheeler alinhador (BWA) [25] e o Genoma Analysis Toolkit (GATK) [26,27] foram utilizados para identificar SNVS (Figura S2 em S1 Arquivo). Somente SNVS que foram detectados em tecidos de câncer e não mostraram evidência de variação em tecidos normais foram selecionados para análise posterior.

O conjunto de dados obtido foi utilizado para caracterizar os padrões de mutação específica do câncer (Tabela S3 em S1 Arquivo). Calculou-se o enriquecimento das SNVS dentro de genes específicos, domínios de proteína, categorias funcionais, e caminhos. Temos procurado por genes com SNVS somáticas significativamente enriquecidas em adenocarcinoma de pulmão japonês. Como mostrado na Tabela S4 no ficheiro S1, vários genes foram identificados como significativamente mutado. Em particular, procurou domínios que são enriquecidos com SNVS e do porto mutações relacionadas ao câncer conhecidos no banco de dados cósmica. No total, foram identificados 11 genes (P 0,02, Quadro 1). Por exemplo, a homologia de Dbl (DH) domínio do gene PREX1 [28] foi enriquecida com SNVS (

P

= 0.00071). No entanto, no gene PREX2 [29], o (HP) plecstrina domínio de homologia foi enriquecida com SNVS (

P

= 0,011) (Figura 1A e B). Tanto o PREX1 e os genes PREX2 ativar a troca do PIB para GTP para a família Rho de GTPases e os domínios DH /PH são indispensáveis ​​para a troca de nucleotídeos de GTPases e de sua regulamentação [30-32]. Além disso, foram analisados ​​os padrões desses genes utilizando um banco de dados de expressão gênica do câncer de expressão, GeneLogic (Figura S3 no arquivo S1). Os níveis de expressão de PREX1 e PREX2 não foram reforçadas no adenocarcinoma de pulmão, mas estavam aumentadas no ampla variedade de cancros, que é parcialmente indicada em estudos anteriores [33]. SNVS nos genes PREX1 e PREX2, que foram concentradas em seus domínios de sinalização fundamentais, pode reforçar as actividades nestes genes, e imita assim, funcionalmente a expressão deste gene aumentou em alguns diferentes tipos de cânceres. Os candidatos de genes relacionados ao câncer identificados a partir deste conjunto de dados estão listadas na Tabela 1.

Número de SNVs

Gene

Domain

Domain

Gene

P-value

*

EGFR

†IPR001245:Serine-threonine/tyrosine-protein kinase34374.4e-21KRAS

† IPR001806: Ras GTPase678.0e-6TNNIPR003961: Fibronectina, tipo III455.2e-5TP53

† IPR008967: p53-like factor de transcrição, DNA-binding20239.5e-5PREX1IPR000219: Dbl homologia (DH ) domain450.00071DNAH7IPR004273: Dineína pesada chain570.0025FSTL5IPR011044: Quinoprotein desidrogenase amina, beta cadeia like770.0043NRXN3IPR008985: glucanase570.0063PREX2IPR001849 Concanavalina A-como lectina /: plecstrina homology370.011FER1L6IPR008973: C2 domínio cálcio /de ligação de lípidos, CaLB360.013COL22AIPR008985: Concanavalina Um tipo lectina /glucanase360.015Table 1. Lista dos possíveis genes identificados relacionados com o cancro

*

P 0,02

† Relatado no Gene Census Cancer [11]. Note-se que os genes no topo da lista são previamente relatado para ser associado a este tipo de câncer, enquanto a maioria deles são novos genes possíveis relacionadas com o cancro. CSV Transferir CSV

SNVS na PREX1 (A) e PREX2 (B) genes estão representados nos quadros. Os domínios de proteínas em que os enriquecimentos dos SNVS foram estatisticamente significativos são representados em caixas de laranja (também ver Materiais e Método). DH-domain: Dbl homologia (DH) de domínio; PH: domínio de homologia plecstrina; D: domain DEP; P:. PDZ /DHR /GLGF

Da mesma forma, o enriquecimento via análises usando o banco de dados KEGG [34] também detectou várias vias relacionadas ao câncer putativos. As vias identificadas estão listados na Tabela 2. Curiosamente, foi detectado a via de cancro do endométrio [35] neste Análise de Enriquecimento de (

P

= 3.1e-15, Figura 2A). Esta via inclui vias principais relacionados com o cancro, por exemplo, a via de sinalização MAPK e da via PI3K /AKT. Por esta via, comparou-se os padrões de mutação entre os nossos dados japoneses e os do estudo anterior de adenocarcinoma do pulmão em caucasianos [21]. Descobrimos que os SNVS no gene EGFR foram quatro vezes mais frequente na população japonesa do que entre populações caucasianas (Figura 2B, painel esquerdo). mutações EGFR estavam ocorrendo frequentemente em não-fumante, pacientes do sexo feminino e asiáticos de adenocarcinoma de pulmão [36], que é um alvo molecular da droga anti-câncer,

gefitinib

[20,37,38]. mutações relacionadas com o cancro Por outro lado, mutações no KRAS, que também são bem conhecidas [39], foram mais de quatro vezes frequente entre os caucasianos (Figura 2B, painel de centro). No entanto, nem todos os padrões de mutações são diferentes entre as populações. Por exemplo, TP53 abrigavam mutações em ambos os conjuntos de dados com frequência semelhante (Figura 2B, painel da direita).

KEGG ID

definição Caminho

número de cancros com SNVS

P-valor

*

hsa05213Endometrial cancer723.1e-15hsa04320Dorso-ventral eixo formation484.4e-15hsa05219Bladder cancer624.9e-14hsa05223Non-pulmão de pequenas células cancer667.1e-12hsa05214Glioma706.5e-11hsa05218Melanoma701.3e-9hsa05212Pancreatic cancer686.9e-9hsa05215Prostate cancer714.3e-7hsa05216Thyroid cancer361.1e -6hsa04520Adherens junction593.7e-6hsa05210Colorectal cancer531.8e-5hsa04012ErbB sinalização pathway642.6e-5hsa05120Epithelial sinalização celular em

sinalização celular carcinoma410.0020hsa05222Small celular pathway610.0011hsa05217Basal Helicobacter pylori

infection534.8e-5hsa04540Gap junction600.00024hsa04912GnRH pulmão cancer520.0069hsa05220Chronic mielóide leukemia460.010hsa05160Hepatitis C670.012hsa05014Amyotrophic esclerose lateral (ALS) digestão 360.014hsa04977Vitamin e absorption200.015hsa05416Viral myocarditis400.028hsa04512ECM-receptor interaction470.034hsa02010ABC transporters290.035hsa04510Focal adhesion780.037hsa05412Arrhythmogenic cardiomiopatia ventricular direita (ARVC) 400.039Table 2. Lista do Câncer possível identificar vias relacionadas

*

P Art . 0,05 CSV Baixar padrões de mutação CSV

(A) na via de cancro do endométrio que foi detectada na análise de enriquecimento são mostrados. O tamanho do círculo representa a população dos cancros que albergam os SNVS no gene correspondente (percentagem também é mostrado na margem). SNVS neste estudo e o conjunto de dados externa em populações caucasianas são mostrados em círculos vermelho e azul, respectivamente. n.a .: frequências de mutação não estavam disponíveis. (B) Comparação da relação de mutação de genes de EGFR, KRAS e TP53 entre ambos os conjuntos de dados. Os valores de p foram calculados pelo teste de duas amostras para a igualdade de proporções.

A ambiguidade na identificação SNV de contrapartes normais do tecido

Na análise acima mencionada, nós discriminados germinal variantes usando o contrapartes normais dos tecidos. Um número de SNVS inicialmente identificados como somática também foram encontrados para estar presente em tecidos normais, assim, eram chamadas de falsos positivos sob as validações por inspeção visual das seqüências mapeadas e seqüenciamento Sanger. Para examinar a causa deste problema, nós inspecionamos os erros de selecionados aleatoriamente 26 tipos de câncer e seus tecidos normais. Em média, em cada câncer, vinte e cinco por cento dos candidatos SNV somáticas foram encontrados para ser falso positivo (Figura 3). Nestes casos, a cobertura e a qualidade da sequência a contrapartida normal não foram suficientes. Com efeito, as sequências que apoiam cada SNV e estas qualidades foram significativamente divergiram entre o cancro e tecidos normais. Embora aumentamos o número total de leituras nos tecidos normais, foi difícil na prática, para cobrir todas as posições genómicas (Figura S4 no ficheiro S1). Um resumo das validações SNV germinativas é mostrada na Tabela S5 em S1 Arquivo.

candidatos Somatic SNV foram identificados através de 26 exomes câncer e cada contraparte normal. SNVS somáticas corretas e falsos positivos foram mostrados em barras de rosa e azul, respectivamente. Os 26 tipos de câncer utilizados para a análise foram classificadas pelo número total crescente de SNVS (eixo-x).

No entanto, percebemos que alguns foram correctamente identificadas como SNVS germinativas em exomes de referência externos. Vinte e cinco exomes nos permitiu excluir oito chamadas falsas positivos em cada câncer. Isso levantou a possibilidade de que os SNVS dos outros pacientes podem ser usados ​​como substitutos para aumentar a profundidade e qualidade de o sequenciamento.

Excluindo SNVS germinativas considerando sobreposições mútuas de exomes de outras pessoas

para testar esta possibilidade, examinamos se análises exome câncer seria possível sem a sequenciação do homólogo de tecido normal de cada câncer. Em primeiro lugar, foi avaliada a extensão em que os SNVS da linha germinativa podem ser discriminados usando exomes externos. Para este efeito, foram utilizados os 97 conjuntos de dados exome câncer do normal emparelhados para o conjunto de dados de validação. Descobrimos que poderíamos detectar 54% dos SNVS germinativas usando os 96 exomes de tecido normal da referência externa (Figura 4A). Nós expandiu ainda mais o conjunto de dados de filtragem usando os 73 dados exome japoneses disponíveis externamente e 48 em casa conjuntos de dados exome japoneses. Ao todo, fomos capazes de remover 64% dos SNVS germinativas, usando um total de 217 conjuntos de dados exome japoneses de outros indivíduos, sem sequenciar homólogo normais de cada câncer (Figura 4A). A extrapolação do gráfico também indicaram que 1.350 e 2.000 amostras seria necessária para remover 90% e 95% dos SNVS da linha germinativa, respectivamente. Esperamos que tal tamanho da amostra estará disponível em futuro próximo, considerando a rápida expansão atual da análise exome.

(A) O poder de detectar SNVS germinativas considerando sobreposição mútua entre outros indivíduos japoneses. Sensibilidade representa a proporção de SNVS germinativas corretamente detectado. Os conjuntos de dados utilizados para excluir os SNVS da linha germinal estão apresentados no eixo x. A inserção representa a extrapolação do gráfico. ajuste de curva do gráfico também é mostrada. (B) poder discriminativo dos três grupos étnicos diferentes para os SNVS germinativas em 97 cancros japoneses. As sensibilidades de detecção SNVS da linha germinal estão apresentados pelas seguintes cores; verde: Chinês; roxo: Yoruba; laranja:. Caucasiano

Nós ainda avaliado se o mesmo filtração poderia ser feito por apenas usando exomes cancerosas. Obtivemos essencialmente os mesmos resultados (Figura S5 em Arquivo S1). ressalva óbvia dessa abordagem é que isso seria desconsiderar cerca de 3% do SNVS somáticas que ocorrem recorrentemente (Figura S5 em Arquivo S1, azul). No entanto, como já mencionado, descobrimos que essas SNVS recorrentes eram muito raros [15,19] ea maioria deles foram obtidos a partir SNVS somáticas duvidosas, que foram negligenciados nos tecidos normais. Consideramos também que a maioria dessas SNVS recorrentes, se houver, pode ser analisada separadamente pelo sequenciamento um número limitado de tecidos normais.

Filtrando SNVS germinativas considerando sobreposições mútuos para diferentes grupos étnicos e para SNPs raras

Nós examinou se SNVS em outras origens étnicas poderia ser usado como conjuntos de dados externos para a filtração. Foram obtidos dados exome de indivíduos de várias origens étnicas do Projeto Genoma 1000. Usamos esses conjuntos de dados exome para excluir os SNVS germinativas que foram identificadas nos cancros japoneses. Descobrimos que o poder discriminatório foi significativamente menor em comparação com exomes de populações japonesas. Assim, estes conjuntos de dados não eram adequadas para esse efeito (Figura 4B). Também examinou e constatou que os exomes em cada grupo étnico foram úteis para discriminar os SNVS germinativas no grupo correspondente (Figura S6, S7 e Tabela S6 em S1 arquivo).

Nós, então, examinou até que ponto variantes da linha germinal menores podem ser cobertas com esta abordagem na população japonesa. Nós avaliamos a sensibilidade do processo de filtração para os SNVS nos 97 tipos de câncer (Figura S8 em S1 Arquivo). Verificou-se que 88% dos SNVS da linha germinativa ocorrem em mais do que cinco por cento dos 97 exomes pode ser detectada usando os 73 conjuntos de dados japoneses externos. Para os SNVS que ocorrem em 1% dos 97 tipos de câncer, 19% poderiam ser excluídos.

Usando o conjunto de dados em bruto para caracterizar SNVS e vias relacionadas ao câncer

No seu conjunto, com 217 exomes japoneses usados ​​para filtração, 36% das linhas germinais permaneceram SNVS não filtrada. No entanto, consideramos que pode ser ainda possível usar o conjunto de dados SNV bruto como uma primeira aproximação para identificar e analisar genes relacionados com o cancro e os candidatos da via. Para validar esta idéia, foram comparados os resultados de enriquecimento de análises entre o conjunto de dados em bruto e refinados os conjuntos de dados SNV somáticas, que foram gerados a partir dos exomes câncer do normal emparelhados.

A maioria dos genes e vias relacionadas ao câncer putativos que foram identificados a partir do conjunto de dados refinada também estavam presentes no conjunto de dados em bruto (Tabelas S7 e S8 em S1 Arquivo). O exemplo do gene TNN, o qual foi classificado como um marcador de estroma tumoral [40-42], é mostrado na Figura S9 em S1 Ficheiro. Neste caso, mesmo com as SNVS germinativas, que estavam sem filtro no conjunto de dados em bruto (indicado pela preta na figura S9 em S1 Arquivo), o enriquecimento do SNVS somáticas neste domínio foi estatisticamente significativa. No total, nove genes qual identificadas como detendo SNVS relacionadas com o cancro do conjunto de dados refinado também foram detectados no conjunto de dados em bruto. Por outro lado, dois genes a partir do conjunto de dados de refinado não foram representadas no conjunto de dados em bruto. Na análise de caminho, que identificou 26 vias relacionadas ao câncer que foram identificados a partir do conjunto de dados refinado. Além disso, as vias 19 também foram representados no conjunto de dados em bruto, bem como o conjunto de dados de refinado. A sobreposição entre os conjuntos de dados são resumidos na Tabela 3. Note-se que as análises foram estatisticamente enriquecimento possível, mesmo na cobertura de corrente do conjunto de dados de filtro. Com o conjunto de dados externa ampliada, seria mais prático para submeter os candidatos aos resultados de Sanger validações de sequenciação, bem como a remoção de remanescentes SNVS germinativas.

Número de identificação genes/pathways

Crude

*

Refined

Overlap

Genes16119Pathways232619Table 3. A comparação dos resultados do enriquecimento de análises entre o bruto e conjunto de dados refinado.

* identificados utilizando o conjunto de dados em bruto.

† Identificado usando o conjunto de dados refinado.

‡ significativa em ambos bruto e refinado conjuntos de dados. CSV Baixar

Identificação do prognóstico em relação genes CSV usando o conjunto de dados em bruto

Como um dos objectivos mais importantes dos estudos exome câncer, nós investigamos se as mutações que afetam o prognóstico de câncer podem ser identificados usando conjunto de dados em bruto ( tabela S9 e S10 Figura em S1 Arquivo). Na análise de Kaplan-Meier, sete pacientes que realizaram SNVS no gene ATM (Figura 5A) mostrou mau prognóstico estatisticamente significativas (

P

= 9.6e-6, a Figura 5B). Três SNVS no gene ATM foram significativamente enriquecido no fosfatidilinositol 3- /4-quinase domínio catalítico (

P

= 0,014). ATM detectar danos no ADN e fosforila TP53, o qual, por sua vez, invoca diversas respostas celulares, tais como a reparação do ADN, a paragem do crescimento e apoptose, e impede a progressão do cancro em conjunto (Figura S11 no ficheiro S1) [43,44].

SNVS (a) no gene ATM. SNVS que foram identificadas na triagem inicial e aqueles que permanecem após a validação sequenciamento Sanger da contrapartida de tecido normal foram mostradas em preto e vermelho, respectivamente. TAN: manutenção Telomere de comprimento e DNA reparação de danos; PI3_PI4 quinase: fosfatidilinositol 3- /4-quinase, catalítico. (B) Análise de sobrevivência de pacientes com e sem ATM SNVS. Os conjuntos de dados antes e após a validação de sequenciação de Sanger são representadas por linhas pretas e vermelho, respectivamente. A significância estatística foi calculada usando um teste de log-rank (

P Art 0,05). Note-se que as diferenças de sobrevivência para os indivíduos com SNVS no conjunto de dados não-Sanger validados foram significativas antes da validação Sanger. (C, D) Os resultados de uma análise semelhante à que se descreveu em A e B para o gene PAPPA2. Neste caso, os pacientes com SNVS mostrou melhor prognóstico. ConA como sub: lectina Concanavalina A-like /glucanase, subgrupo; N: Notch dimain; Peptidase M43:. Peptidase M43, gravidez associada plasma-A

Nós também examinou se outros genes frequentemente mutados foram associadas com melhores ou piores prognósticos. Descobrimos que pacientes com mutações PAPPA2 mostraram tempos de sobrevivência prolongada (

P

= 0,026, Figura 5C e D). PAPPA2 proteolyzes IGFBP5 [45,46], que é um factor de inibição para os IGFs [47]. As mutações no gene PAPPA2 pode resultar na acumulação de IGFBP5, e a diminuição resultante na sinalização IGF pode prejudicar a proliferação de células cancerosas [48]. Mais uma vez, deve notar-se que, para ambos os genes ATM e PAPPA2, a significância estatística da diferença prognóstico persistiu tanto antes (linha preta) e depois (linha a vermelho) os restantes mutações da linha germinativa foram removidos, o qual foi validado por Sanger de sequenciação (Figura 5B, D e Tabela S10 em S1 Arquivo).

Conclusões

Temos identificados e caracterizados os SNVS em adenocarcinoma de pulmão na população japonesa. Outras avaliações biológicas dos SNVS descobertos será descrito em outro lugar. Em particular, a informação de transcriptoma e epigenoma deve ser importante para posteriores análises de genomas do câncer, como eles iriam lançar novas luzes sobre a biologia do câncer (Tabela S1) [49]. No presente estudo, nós também apresentada uma abordagem útil para a análise de exomes cancerosas, sem a necessidade de sequenciar o homólogo tecido normal. Acreditamos que a abordagem não só reduz as barreiras no custo, tempo e fidelidade de dados na análise exome, mas também permite a análise de amostras de arquivo exome, para os quais contrapartes dos tecidos normais nem sempre estão disponíveis.

Materiais e Métodos

Ética declaração

Todas as amostras foram coletadas, seguindo o protocolo (e consentimento informado por escrito) que foram aprovados pela Comissão de Ética no Centro Nacional do Câncer, Japão (Correspondência para: Katsuya Tsuchihara; [email protected]).

a seleção dos casos e preparação de DNA

Todos os materiais de tecido foram obtidas de pacientes de adenocarcinoma de pulmão japoneses com o consentimento informado apropriado. Foram selecionadas amostras de adenocarcinoma pulmonar primária cirurgicamente ressecados com dimensões longitudinais superiores a 3 cm. Os dados sobre os 52 pacientes que tiveram recaídas e outras informações clínicas sobre os 97 casos são apresentados na Tabela S11 em S1 Arquivo. Todos os tecidos normais e cancerosas 97 foram extraídas de amostras fixadas com metanol por microdissecação de captura a laser. a purificação do DNA foi realizada utilizando uma estação de trabalho EZ1 Avançada XL robótico com Kits de tecido de DNA EZ1 (Qiagen).

Whole-exome sequenciamento

Usando 1 mg de DNA isolado, nós preparamos bibliotecas exome-sequenciação usando alvo Sistema SureSelect Enrichment (Agilent Technologies) de acordo com o protocolo do fabricante. O DNA foi sequenciado capturado pela plataforma Illumina Genome Analyzer IIx (Illumina), produzindo 76-base de emparelhado-end lê.

detecção Somatic SNV

Os métodos que foram usados ​​para detectar o SNVS, incluindo BWA, SAMtools [50] e GATK, são mostrados na Figura S2 em S1 ficheiro. Usando dados do NCBI dbSNP construir 132 e um genoma japonês [51], foram excluídos principais SNVS germinativas. Além disso, raros SNVS germinativas foram descartados usando 97 exomes de homólogos de tecido normal, 73 exomes japoneses fornecido a partir do Projeto 1000 Genomas (os dados phase1 exome, 20.110.521) e 48 em casa exomes japoneses. Nós também validou uma parte dos conjuntos de dados SNV pelo sequenciamento Sanger de tecidos de câncer e os seus homólogos de tecido normal (Figura S12 no S1 Arquivo).

Identificação de genes altamente mutantes

Detectamos genes que foram significativamente enriquecida com SNVS calculando o número esperado de cancros com SNVS no gene. O comprimento das regiões totais CDS foi representado no

N

(cerca de 30,8 M bases). foi calculada como: Quando um paciente total de

m

SNVS, a probabilidade de que o paciente abriga SNVS no gene

t

(

n

comprimento) abrigava

P

:

P

m

,

t

,

n

=

1

(

1

m

N

)

n

The soma de

P

em 97 tipos de câncer foi representado no número esperado de cancros com SNVS no gene

t

. O P-valores do número observado foram calculados pela função de probabilidade Poisson usando R ppois.

Abordagem estatística ao enriquecimento analisa

Para examinar o enriquecimento de mutações nos domínios de proteínas funcionais, que mapeou o SNVS para domínios usando InterProScan [52] e atribuiu-os para o Catálogo do somáticas Mutações em Câncer (COSMIC). Analisamos o enriquecimento das SNVS nos mesmos domínios como as mutações que foram fornecidos pelo COSMIC. Os valores de p para as mutações observadas nestes domínios foram calculados usando suas distribuições hipergeométricas (R phyper). Resumidamente, os domínios em que as SNVS foram enriquecidas de forma estatisticamente significativa do que foram seleccionados o número esperado de SNVS no comprimento dado do domínio. Para estimar o número esperado, o número total de SNVS pertencentes ao gene foi dividida pelo comprimento do gene. Para esta análise, foram utilizados genes que abrigam cinco ou mais SNVS na região codificadora e três ou mais SNVS no domínio.

Nós atribuído SNVS para vias como descrito pela Enciclopédia Kyoto de genes e genomas (KEGG) e calculou os enriquecimentos dos SNVS nas vias. A taxa de mutação

H

representada a relação entre o número médio de genes mutados para o número total de genes (17.175) que foram utilizados no nosso estudo. O valor esperado para o número de cancros com SNVS em via de

t

foi designado

λ Comprar e calculado a partir da taxa de mutação

M

eo número de genes na via

n

como follows:

λ

t

,

n

=

{

1

(

1

M

)

n

}

×

97

The p-valor para o número observado de cancros com SNVS em via de

t

foi calculado pela função de probabilidade Poisson usando R ppois.

Estimativa de poder discriminativo para a exclusão de SNVS germinativas considerando sobreposições mútuos

Nós estimamos o poder discriminativo para a exclusão do SNVS germinativas, considerando os de outros exomes não-cancerosas. SNVS germinativas de 97 exomes tumorais normais pareados foram usados ​​como conjuntos de dados de referência. Até 217 amostras (96 exomes tecido normal de outros e 121 exomes japonesas adicionais) foram seleccionados de forma aleatória, e as suas sensibilidades e especificidades para detectar a SNVS da linha germinal foram detectadas, tomando as médias de tanto todas as combinações ou um subconjunto de cerca de 10.000 combinações . Nós também estimou o poder discriminativo com dados do Projeto 1000 Genomas para quatro grupos étnicos (73 JPT, 90 CHS, 81 YRI e 64 CEU), utilizando ensaios semelhantes. sequências de todo o exome (os dados phase1 exome, 20.110.521) foram obtidas a partir do site FTP no Projeto 1000 Genomas.

curvas de Kaplan-Meier

O método de Kaplan-Meier foi utilizado para testar a relações das mutações observadas para o tempo de sobrevivência, e os cálculos foram realizados utilizando o pacote de software R. Alterações nas taxas de sobrevivência que foram correlacionadas com SNVS foram examinados pelo teste de log-rank (R survdiff).

Acesso a dados

conjuntos de dados brutos completos serão compartilhadas com os pesquisadores, mediante solicitação. As informações de mutações somáticas nas respectivas coordenadas genômicas foi fornecido na Tabela S2.

Informações de Suporte

arquivo S1.

Figuras S1 a S12 e Quadros S3 para S11 estão incluídos.

doi: 10.1371 /journal.pone.0073484.s001

(PDF)

Tabela S1.

A comparação do nosso conjunto de dados com outro estudo diferente. Nós fornecemos a comparação de nosso conjunto de dados com os genes identificados no outro estudo diferente com dados de transcriptoma e epigenoma em cancros do pulmão

doi:. 10.1371 /journal.pone.0073484.s002

(XLSX)

Tabela S2 .

A lista de mutações somáticas identificadas a partir do conjunto de dados refinado.

Deixe uma resposta