PLOS ONE: exome Sequencing revela abrangentes Genomic Alterações em oito Cancer Cell Lines

Abstract

Está bem estabelecido que alterações genômicas desempenham um papel essencial na oncogênese, a progressão da doença, ea resposta dos tumores para intervenção terapêutica. Os avanços de tecnologias de sequenciamento de próxima geração (NGS) fornecer recursos sem precedentes para analisar genomas para mudanças, como mutações, exclusões e alterações do número de cópia cromossômica. No entanto, o custo do sequenciamento completo do genoma ainda impede a aplicação de rotina da NGS em muitas áreas. Capturar e sequenciação dos exões codificantes dos genes (o “exome”) pode ser uma abordagem eficaz para a identificação de alterações que resultam em alteração de sequências de proteínas. Aplicou-se uma tecnologia exome-sequenciação (Roche captura NimbleGen emparelhado com 454 sequenciação) para identificar variação de sequência e mutações em oito linhas celulares de cancro vulgarmente utilizados a partir de uma variedade de origens de tecidos (A2780, A549, Colo205, GTL16, NCI-H661, MDA MB468, PC3, e RD). Mostrámos que esta tecnologia pode identificar com precisão variação de sequência, proporcionando -95% de concordância com Affymetrix SNP matriz 6,0 realizada nas mesmas linhas celulares. Além disso, foram detectados 19 das 21 mutações relatadas em Sanger banco de dados COSMIC para estas linhas celulares. Identificamos uma média de 2.779 potenciais variações de sequência romance /mutações por linha de células, das quais 1.904 eram não-sinônimas. Muitas mudanças não-sinônimas foram identificados em cinases e conhecido genes relacionados com o cancro. Além disso constatou-se que a profundidade de ler dados de sequência exome pode ser utilizado para estimar as amplificações de genes de alto nível e deleções identificar homólogos. Em resumo, demonstramos que exome sequenciamento pode ser uma maneira confiável e de custo eficaz para a identificação de alterações em genomas do câncer, e geramos um catálogo abrangente de alterações genômicas em regiões de oito linhas celulares de cancro de codificação. Estas descobertas podem fornecer importantes insights sobre as vias de câncer e mecanismos de resistência a terapias anti-câncer

Citation:. Chang H, Jackson DG, Kayne PS, Ross-Macdonald PB, Ryseck RP, Siemers NÃO (2011) exome seqüenciamento revela abrangentes Genomic Alterações em oito linhas celulares de cancro. PLoS ONE 6 (6): e21097. doi: 10.1371 /journal.pone.0021097

editor: Christian Schönbach, Kyushu Institute of Technology, Japão

Recebido: 27 Abril de 2011; Aceito: 19 de maio de 2011; Publicação: 20 de junho de 2011

Direitos de autor: © 2011 Chang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pela Bristol-Myers Squibb Co. os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. os autores são funcionários atual de Bristol Myers Squibb Co. Este estudo não está relacionada a produtos em desenvolvimento na BMS ou produtos comercializados pela BMS. Isto não altera a adesão dos autores para todos os PLoS ONE políticas em dados e materiais de compartilhamento.

Introdução

Todas as células cancerosas têm mutações somáticas em seus genomas, tais como mutações de um único nucleotídeo, inserções , exclusões e ganho de copy-número ou perda. lesões genômicas em células cancerosas perturbar as funções normais e vias, como a proliferação e apoptose, e são essenciais para a gênese tumoral, crescimento e metástase. Além disso, cada tumor exerce uma combinação única de mutações no seu genoma, levando a heterogeneidade no prognóstico e respostas a intervenção terapêutica do cancro. A nossa compreensão limitada das mutações mais comuns já afetou regimes terapêuticos. Por exemplo, o tratamento com inibidores de moléculas pequenas de o receptor do factor de crescimento epidérmico (EGFR) tem sido mostrado para beneficiar principalmente doentes com cancro do pulmão que transportam certas mutações somáticas no seu gene de EGFR [1], [2]. Do mesmo modo, certas terapias de anticorpos dirigidos contra o EGFR só mostram eficácia no subgrupo de pacientes de cancro colorrectal com um gene KRAS do tipo selvagem [3], [4]. caracterização sistemática profunda de mutações somáticas em genomas do câncer promete ser uma ferramenta poderosa para ambas as vias de câncer de compreensão e desenvolver terapias direcionadas.

Durante as duas últimas décadas, estudos focados em genes candidatos levaram à identificação de mutações que ocorrem com alta frequência em genes cruciais via câncer, TP53, KRAS e PTEN [5]. Nos últimos anos, as regiões de codificação de mama, pulmão, cólon, cérebro e genomas de tumor foram analisados ​​por meio de tecnologias de sequenciação à base dos capilares. Estes esforços levaram à identificação de mutações causais em genes previamente insuspeitas como IDH1, destacando o poder ea importância de imparcial, a descoberta de mutação escala [6], [7], [8]. No entanto, as tecnologias de sequenciação à base de capilares em grande escala são demorados e caros, e, portanto, não é viável para uso mais amplo.

Next-Generation Sequencing tecnologias (NGS) têm aumentado a taxa de transferência e diminuiu o custo do sequenciamento do DNA por várias ordens de magnitude. Um número de estudos foram aplicadas tecnologias NGS para sequenciar genomas de cancro, tal como resumido em revisões recentes [9], [10]. No entanto, sequenciar todo o genoma ainda é um custo proibitivo para muitas aplicações potencialmente valiosos.

Uma alternativa aos métodos de genomas inteiros é sequenciamento exome, que captura e as sequências só de codificação exons no genoma. métodos de sequenciamento exome pode fornecer informações sequenciamento para grande parte do genoma funcionalmente relevantes no aumento da cobertura e custo reduzido. Estudos recentes têm aplicado com sucesso sequenciamento exome para identificar mutações causais de doenças mendelianas [11], [12]. Grandes iniciativas do genoma do câncer, tais como o projeto Cancer Genome Atlas também incluem sequenciamento exome como parte de sua estratégia para caracterizar genomas do câncer [13].

As proteínas quinases são a família mais ubíquo de moléculas de sinalização em células humanas e jogar essencial papéis na regulação da maioria das funções celulares [14]. Uma vez que a família de proteínas quinase é uma das famílias de genes mais frequentemente mutados em cancros [5], que tem sido sujeito a vários estudos de sequenciação genómica focadas. Bardelli et al. conduziu a primeira tela sistemática de mutações na quinase da subfamília de receptores de tirosina quinases de proteína, em amostras de cancro colorrectal [15]. Desde então, os estudos em tecidos e linhas de células primárias foram identificadas várias mutações em proteínas quinases em vários tipos de tumores [16], [17], [18]. O interesse em mutações de quinases continuou com os estudos de descoberta de mutação do genoma recentes [13], [19], [20].

modelos da linha celular de cancro humano têm desempenhado um papel crítico em nossa compreensão do câncer vias doença, identificação e validação de genes alvo câncer, e nossa capacidade de selecionar potenciais fármacos anti-cancerígenos. Estas linhas celulares carregam mutações genômicas herdados de suas células tumorais de origem, embora mutações adicionais podem ser adquiridos durante o curso do desenvolvimento da linha celular e passagem. Em geral, as comparações entre as linhas celulares revelam heterogeneidade no mutações genómicas e reflectem vias de cancro semelhantes aos encontrados em tumores primários. Por exemplo, a comparação de um painel de linhas celulares de cancro da mama com uma colecção de amostras de mama primários mostrou que a expressão genética e no número de cópias perfis em linhas de célula do espelho aqueles encontrados nos tumores primários [21]. Do mesmo modo, as mutações genómicas relatadas na base de dados cósmica por linhas de células têm um espectro semelhante àquelas em tumores primários [22]. Como grande escala resultados adicionais de sequenciação do genoma do tumor tornar-se disponíveis, há uma necessidade crescente para os modelos celulares correspondentes para determinar como variantes romance afectar a função da proteína. caracterização completa de alterações genômicas em linhas celulares de cancro irá avançar nossa compreensão da biologia do câncer, e também poderia fornecer uma base para a escolha de modelos de linhas celulares relevantes para estudar um determinado aspecto da biologia da doença do cancro, ou para o rastreio de antagonistas de certas vias de câncer.

para avaliar tecnologias NGS e caracterizar mutações genômicas em linhas celulares de cancro, analisamos a partir da Roche NimbleGen exome capturar array e Roche 454 tecnologias NGS, aplicados a oito linhas de células comumente usados ​​que representam vários tipos de câncer principais. Nós demonstramos que a sequenciação exome pode ser uma maneira confiável e de custo eficaz para a identificação de alterações genômicas em genoma do câncer, e gerou um catálogo abrangente de alterações genômicas em regiões de linhas de células de câncer de oito codificação.

Resultados

captura exome e os resultados de sequenciamento

captura exome e 454 tecnologias de sequenciamento foram aplicados a amostras de DNA de oito linhas celulares de cancro (A2780, A549, COLO205, GTL16, NCI-H661, MDA-MB468, PC3, e RD, ., como descrito em Métodos os resultados do processamento de dados inicial encontram-se resumidos na Tabela 1. para cada linha celular, cerca de 1,9 milhões de sequenciação lê-se (688 milhões de bases; 98,5% do total de sequenciação leituras) pode ser mapeado para o genoma humano NCBI36 /hg18 montagem de referência (https://www.ncbi.nlm.nih.gov). a duração média de leitura em todas as linhas celulares é 364 bases, de acordo com o comprimento de leitura de longo relatado para a tecnologia 454 sequenciamento. em média, 89,5% do circa 180.000 exons no NimbleGen 2,1 M humana exome Array (regiões-alvo) foram cobertas com pelo menos uma leitura sequenciamento, ea profundidade média sequenciamento leitura para todas as linhas de células é de 7,3 em regiões-alvo. Os resultados de captura exome e sequenciação estão dentro da faixa normal de desempenho especificados pelo fabricante e são comparáveis ​​com os resultados publicados utilizando a mesma tecnologia [23].

Detectamos na sequência média 14.340 variantes (diferenças de o genoma de referência humano) por linha celular. A maior parte destas diferenças são conhecidos polimorfismos na população humana normal (isto é registado na base de dados NCBI dbSNP, de construção 130). Em média, 2,779 variantes por linha de células não são encontradas na base de dados dbSNP, e, por conseguinte, representam novos variações de sequências e /ou mutações somáticas. Em média, 1.904 das 2.779 novas variantes não são sinónimo, ou seja, eles alteram a especificidade códon. Estas variantes são mais propensos a mudar as funções das proteínas e impacto fenótipos celulares.

Concordância com os resultados de genotipagem

Como outro meio para avaliar a precisão do sequenciamento exome, foram comparados os dados com os resultados de genotipagem em todo o oito linhas de células (Tabela 2). A matriz Affymetrix Genome-Wide SNP Human 6.0 é projetado para detectar informações do genótipo por cerca de um milhão de posições SNP conhecidos. Pode, portanto, fornecer uma verificação independente das variações observadas nos dados de sequência exome. Para cada linha de células, identificamos SNP matriz 6.0 posições com chamadas de genótipos de sucesso que também foram cobertos por pelo menos dois sequenciamento exome única lê. A sobreposição entre produziu 26,407 e 29,650 posições SNP (dependendo da linha celular) para posterior análise. Em geral, houve uma média de 91% de concordância entre as chamadas de genótipos de SNP matriz 6.0 /Alpiste e aqueles determinados por sequenciação exome. Na linha celular RD, por exemplo, 26,154 (91,5%) de 28,594 posições SNP tem a mesma chamada genótipo (isto é, AA, AB ou BB) por SNP matriz de 6,0 e por sequenciação exome (Tabela 2).

espera-se que a precisão da detecção de genótipo por sequenciação será influenciada tanto pelo sequenciamento ler profundidade e pela heterozigosidade em um determinado local genômico. Calculamos concordância de chamadas genótipo em profundidade leitura diferença sequenciamento, e separadamente para SNPs homozigotos ou heterozigotos. Como mostrado na Figura 1, a concordância é elevado para SNPs homozigóticos (média de 97%), independentemente da profundidade de sequenciação ler. Concordância para alelos heterozigóticos é menor, mas aumenta com a profundidade sequência lida, começando com 31% de concordância, a uma profundidade de leitura 3 e atingindo 90% a uma profundidade de leitura de 10 ou superior. Em teoria, sequenciar fragmentos de ADN a partir de uma região que contém um SNP heterozigótica é um processo de amostragem aleatória. Com menor profundidade sequenciamento, há uma maior chance de perder um dos dois alelos. Calculou-se a taxa teórica de detectar ambos os alelos por sequenciação em diferentes profundidades de leitura, assumindo que não há erro no sequenciamento (Figura 1, linha tracejada). Em profundidades baixas de leitura, nossas observações experimentais estão perto da taxa teórica, indicando que baixa concordância em profundidades baixas de leitura é provavelmente devido ao processo de amostragem aleatória, em vez de má qualidade dos dados de seqüência.

O gráfico mostra uma trama de concordância média de chamadas genótipos obtidos a partir da matriz Affymetrix SNP 6,0 e de sequenciação exome, como uma função de sequenciação ler profundidades. marcadores quadrados indicam concordância nas posições homozigotos, marcadores de diamante indicam concordância nas posições heterozigotos. A linha tracejada mostra a taxa teórica de detectar posições heterozigóticas através de sequenciação (como descrito nos Métodos). marcadores triângulo exibir o número médio de locais SNP heterozigotos por linha de células em função do sequenciamento ler profundidades (eixo Y à direita).

Comparação de exome sequenciação à base de dados COSMIC de mutações cancerígenas

os exons codificadores de proteínas e sequências de intrão que flanqueia imediatos de 61 genes do cancro comuns foram anteriormente determinadas de forma sistemática em cerca de 800 linhas de células com a recepção Trust Sanger Institute, utilizando sequenciamento baseado em capilar [22]. Dos oito linhas celulares neste estudo, todos, exceto um (GTL16) foram rastreados naquele projeto. Foram comparadas informações mutação somática a partir da base de dados CÓSMICA Sanger com os nossos resultados exome de sequenciação para as sete linhas celulares. Como mostrado na Tabela 3, exome sequenciação re-descobertos mais de 21 mutações relatadas na base de dados cósmica, incluindo mutações pontuais e pequenas inserção /deleções. Os dois casos em falta são devidos à falta de cobertura sequência no locus de interesse: a mutação STK11 documentado em A549 não é mensurável devido à falta de cobertura gene STK11 nas NimbleGen 2,1 M matrizes humano exome, e o gene TP53 está coberto pela matriz NimbleGen mas carece de suficiente lê na linha PC3 para verificar neste estudo (não são suficientes para lê o gene TP53 em outras linhas, como na Tabela 3).

grandes deleções, como o eliminações conhecidos do gene CDKN2A em A549 e SMAD4 em células Colo205, não pode ser observado diretamente com o seqüenciamento exome. Mas uma deleção de regiões de genes pode ser inferida onde a profundidade leitura é zero para vários exons consecutivos (veja a próxima seção para uma discussão detalhada). Todos os cinco deleções genômicas relatados no banco de dados cósmicos são identificáveis ​​de resultados exome sequenciamento (Tabela 3). Por exemplo, na linha celular A549 foi observada 14 regiões consecutivas em torno do gene CDKN2A com uma profundidade de leitura zero. Na linha de células Colo205, uma deleção 904-base comprovados no gene SMAD4 manifesta como 4 regiões-alvo consecutivos com uma profundidade de leitura de zero.

Detecção de amplificação do gene e eliminação

supressões ou amplificações de segmentos cromossômicos são alterações comuns em genomas do câncer. Em princípio, o sequenciamento ler profundidade em uma região deve ser proporcional ao seu número de cópias. No entanto, a profundidade de leitura relativamente modesto do presente estudo poderia dar um peso indevido a variações aleatórias em profundidade de leitura. Variabilidade na profundidade de leitura também pode surgir a partir de aspectos técnicos do processo exome sequenciamento. Por exemplo, a matriz exome captura pode variar em eficácia para diferentes regiões de exões, devido à composição da sequência diversificada. Para avaliar a possibilidade de estimar cópia informações de número de nossos dados exome sequenciamento, comparamos sequência média ler profundidades com dados copy-número estimado de plataforma SNP6. Como mostra a Figura 2, há uma correlação positiva entre a sequência de profundidade ler e copy-número, com coeficiente de correlação de Pearson de 0,41. A variação na profundidade de leitura torna-se um desafio para detectar com precisão de nível baixo número de cópias mudanças. Por outro lado, vemos que a detecção precisa de amplificações de genes de alto nível e deleções é possível.

sequenciamento media Leia profundidades em regiões de captura foram plotados em relação aos dados de número de cópias estimados a partir Affymetrix SNP 6,0 de dados, conforme descrito no seção de métodos. A linha azul mostra a linha de regressão linear. O coefficiency de correlação de Pearson (r = 0,41) do sequenciamento ler profundidade e copiar dados número está impresso na figura.

deleção homozigótica da região do gene SMAD4 foi relatado na linha de células MDA-MB468 ( Sanger banco de dados COSMIC) e é assim ilustrativo para comparar métodos de detecção de exclusão. O sequenciamento ler profundidades de regiões de exão no gene SMAD4 e área circundante foram determinados para MDA-MB468 e plotados de acordo com a sua localização cromossômica (Figura 3A). Dezesseis regiões de exão consecutivos no cromossomo 18 têm uma profundidade de leitura de zero na dados para MDA-MB468. As localizações genômicas das 16 regiões de exão são de 46.75 MB para 46,86 MB, que abrange o gene SMAD4. Para efeitos de comparação, foi realizada análise de número de cópias da matriz Affymetrix SNP 6,0 dados, conforme descrito na secção Métodos. Para MDA-MB468, esta análise indicou uma deleção homozigótica do genômicas região 46.76-46.86 Mb no cromossomo 18 (Figura 3B), em boa concordância com os resultados de uma análise aprofundada de leitura.

A. Parcelas de dados de profundidade de leitura em exons consecutivos ao redor região do gene SMAD4 sobre cromossômica 18. A linha azul mostra sequenciamento ler dados de profundidade para MDA-MB468, ea linha rosa mostra o sequenciamento mediana ler profundidade de todas as linhas de células oito. B. número de cópias de dados de dados do chip Affymetrix SNP6 em torno da região do gene cromossómico SMAD4 em 18. A linha preta mostra os dados do número de cópias segmentadas (relação de log2 para amostras normais) gerados pelo pacote aroma.affymetrx em R, tal como descrito no métodos de seção.

Uma profundidade de leitura de zero, poderia resultar de questões técnicas, tais como a concepção da sonda na matriz NimbleGen 2.1 M. Na verdade, foram identificados 2.513 regiões de exão que têm uma profundidade de leitura de zero para todas as linhas de 8 células (Tabela S1). No entanto, uma vez que a mediana ler profundidade em todas as linhas de células 8 é maior do que zero para todas as regiões 16 exões (Figura 3A), é improvável que a profundidade observada de zero na linha celular MDA-MB468 é devido a uma falha sistemática da captura exome. variação aleatória em profundidade de leitura é outra razão para a falta de cobertura de sequenciamento. Na linha de células MDA-MB468, existem regiões de exão 17,161 com uma profundidade de leitura de zero (de 194.706 regiões total, excluindo as regiões 2,513 mencionado acima). É altamente improvável que 16 regiões de exão consecutivos ao redor gene SMAD4 teria uma profundidade de leitura de zero devido à variação aleatória (p = 1.3e-17, calculado a partir da distribuição binomial).

Nós também foram capazes de re -identify eventos de amplificação do gene documentados anteriormente usando os dados de profundidade de leitura. Por exemplo, a amplificação de EGFR1 na linha de células MDA-MB468 foi documentada por fluorescência de hibridação in situ e PCR quantitativa por [24]. Observou-se que as 53 regiões de exão ao redor do gene EGFR no cromossomo 7 têm profundidades de leitura muito elevados nos dados MDA-MB468 (Figura 4A, os exons entre 55.58-55.73 Mb tem uma profundidade média de leitura de 107). A análise do número de cópias da matriz Affymetrix SNP 6,0 dados também indicam que a região do gene de EGFR é altamente amplificado na linha de células MDA-MB468 (Figura 4B, a região genómica 55,48-55,81 Mb).

. Parcelas de dados de profundidade de leitura em exons consecutivos em torno da região do gene EGFR no cromossômica 7. A linha azul mostra sequenciamento ler dados de profundidade para MDA-MB468, ea linha rosa mostra a profundidade sequenciamento leitura média de todas as linhas de células oito. B. número de cópias de dados de dados do chip Affymetrix SNP6 em torno da região do gene de EGFR em cromossómico 7. A linha preta mostra os dados do número de cópias segmentadas (relação de log2 para amostras normais) gerados pelo pacote aroma.affymetrx em R, tal como descrito no métodos de seção.

novas variantes não sinónimas em proteínas quinases

Uma vez que mutações em proteínas quinases têm papéis importantes na biologia do câncer, que escolhemos para analisar os dados de sequência de proteínas quinases e foco em variações não sinónimas, que produzem as substituições de aminoácidos que podem ter consequências funcionais. Como observado acima, exome sequenciação revelou cerca de 2.000 variantes não sinónimas novos em cada uma das oito linhas celulares. Depois de aplicar um filtro rigoroso (tal como descrito em Métodos), entre 199-479 genes têm variantes não sinónimas novos, dependendo da linha celular (Tabela S2). A matriz de captura de 2,1 M NimbleGen utilizado neste estudo incluiu exões para 440 das 518 proteínas cinases no genoma humano (Tabela S3) [25]. Em cada linha celular, uma média de 122 variações não sinónimas foram detectados em genes de quinase. Depois de remover as variantes da linha germinal encontradas em prováveis ​​(dbSNP) e aplicação de um filtro rigoroso descrito acima, cada linha de célula tem uma média de oito quinases com variações não sinónimos (Tabela 4). Estas variações na sequência de proteína-quinases estão listados na Tabela 5. A maioria destas variações de sequência não são relatadas na base de dados cósmica ou relatados na literatura, mas tem vários confirmação independente. Por exemplo, foram identificados EGFR A1048V variante na linha celular gástrica GTL16. A mesma variante de EGFR tem sido relatada na linha celular MKN45 gástrica [26], que é a linha celular parental de GTL16 [27]. Um segundo exemplo é a variante R796S do gene do receptor de insulina (INSR) na linha celular RD (Tabela 5). O hotel tinha anteriormente identificado esta variante na linha celular RD usando a tecnologia de seqüenciamento capilar (dados não mostrados).

Discussão

A análise dos dados de oito diferentes linhas celulares de cancro mostra que a Roche NimbleGen e 454 tecnologias exome sequenciamento pode ser aplicado com sucesso para identificar variações em regiões codificantes dos genes. A partir dos dados de sequenciação com uma média de 7,3 vezes a cobertura, as variantes do genoma de referência NCBI36 foram identificados em cerca de 8% (14.340 regiões) de todas as regiões alvo na matriz de captura exome. Embora a maioria destas variantes pode ser confirmada na base de dados dbSNP, em média, 0,16% (2779) de regiões alvo totais transportar uma nova variante.

Uma comparação das chamadas genótipo SNP de sequenciação exome com dados gerados sobre a Affymetrix Genome-Wide matriz SNP Human 6.0 mostrou que há alta concordância entre as duas plataformas tecnológicas. A concordância é de 97% para sites homozigotos, e varia de 30% a 90% em posições heterozigotos, com dependentes de sequenciamento precisão ler profundidade. A nossa análise da relação entre a profundidade de leitura e o poder de detecção sugerido que é necessário um mínimo de dez vezes a profundidade ler para detectar com fiabilidade ambos os alelos em locais heterozigotas. Estes resultados fornecem orientação para a planificação dos projectos de sequenciação do genoma futuras.

Para a sete amostras linhas celulares que também estão presentes no banco de dados COSMIC, mostramos que 19 de 21 mutações conhecidas podem ser re-descoberto por sequenciação exome. Duas mutações descritas anteriormente estavam em falta devido à falta de cobertura de sequência. Em um caso, isso foi devido à cobertura incompleta do exome humana na matriz de captura NimbleGen 2.1 M, indicando a necessidade de melhorias no design matriz.

Por bem sucedida re-identificação da amplificação EGFR e a deleção homozigótica SMAD4 na linha de células MDA-MB468, demonstramos que alterações no número de cópias pode ser inferido a partir dos dados de profundidade sequenciamento de leitura. No entanto, devido à natureza estocástica de profundidade sequenciamento de leitura e provavelmente irregularidade no processo exome captura, em geral, não é possível estimar com segurança informações copy-número de nossos dados. Aplicando a tecnologia para mais amostras ajudaria a melhorar a nossa capacidade de estimar e corrigir desvios sistemáticos na plataforma, e aumentando a profundidade de sequenciamento lê iria reduzir a variância devido à flutuação aleatória em número ler.

Para trazer contexto à variação genômica identificados neste estudo, optamos por concentrar em proteínas cinases como uma classe ilustrativo. Neste trabalho, foram identificados com alta confiança, pelo menos quatro proteínas quinases variante novos em cada linha de células. A maioria dos novos variações de sequência em proteína-quinases identificadas no presente estudo não foram previamente relatados, e provavelmente reflecte a elevada diversidade de alteração genómica no cancro. Nossos resultados expandir o conhecimento de variações de sequência em proteínas quinases e outros potenciais genes relacionados com o cancro. Essas novas variantes poderiam ser SNPs da linha germinal ainda não publicado na base de dados dbSNP, ou mutações somáticas nestas células cancerígenas. projectos de sequenciação do genoma humano várias de grande escala em curso vai expandir identificação de SNPs germinativas e ajudar a categorizar a natureza de novas variantes encontradas em tumores.

Em conclusão, mostramos que exome sequenciamento pode ser um confiável e de custo abordagem -effective para identificar alterações genômicas em linhas celulares de cancro, e sugerir formas de melhorar ainda mais as tecnologias exome-de sequenciamento para aplicações em genômica do câncer. Um catálogo abrangente de alterações genômicas nas regiões de codificação de linhas celulares de oito câncer foi gerado, o que deve contribuir não só para o nosso conhecimento destes modelos em particular, mas também para a nossa compreensão da genômica de câncer e biologia do câncer em geral.

Materiais e Métodos

Preparação DNA

A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, e RD linhas celulares foram originalmente obtidas a partir de ATCC. As linhas celulares foram crescidas em meio RPMI 1640 (Gibco) com inactivado pelo calor 10% de Soro Fetal Bovino (FBS; Cellgro) com a excepção de RD (adicional de HEPES 25 mM) e A549 (F12 de Ham (Gibco), com 10% de FBS). DNA genómico (10 ug) foi preparado por QIAamp DNA Mini Kit (Qiagen) usando protocolos de fabricantes, e fornecidos à Roche 454 Sequencing Center.

Captura exome e Next-Generation Sequencing

captura exome e sequenciamento de próxima geração foi realizada por Roche NimbleGen e Roche 454 Life Science acordo com os protocolos do fabricante. O DNA genômico foi capturado na NimbleGen seqüência de captura exome Human 2.1 M Array, que tem 197,218 regiões totais (regiões de captura), abrangendo cerca de 175.278 exons e regiões de miRNA (regiões-alvo, grande região de destino pode consistir em várias regiões de captura). Para cada linha de células, DNA capturado foi sequenciado com duas execuções da tecnologia de sequenciamento 454 GS FLX Titanium.

baseada em matriz Genotipagem e Copy-número Análise

Duas alíquotas de 250 ng de DNA genómico por amostra foram digeridos por enzimas de restrição NSPI e Styl, respectivamente. Os produtos resultantes foram ligados aos adaptadores correspondentes e amplificado por PCR. Os produtos de PCR etiquetados foram hibridadas com o Affymetrix Genome-Wide matriz SNP Humana de 6,0 de acordo com as recomendações do fabricante. O algoritmo Birdseed [28] implementado em Ferramentas Affymetrix Pacote Power (APT) Software (versão 1.10.0) foi utilizado para a determinação do genótipo. Para a análise copy-número, os arquivos Cel foram processadas utilizando o pacote aroma.affymetrix [29] para o projeto-R. Segmentação dos dados do número de cópias em bruto normalizada foi realizada com o algoritmo CBS [30] implementado no pacote aroma.affymetrix

Bioinformatics análise

O genoma humano NCBI36 /montagem de referência hg18 (http:. //www.ncbi.nlm.nih.gov/genome/guide/human/release_notes.html#b36) foi usado como o quadro para todas as análises. Sequência de processamento de dados, para mapeamento do genoma humano, e chamadas inicial de variação a partir da sequência de referência foram realizadas pela Roche Life Science 454 usando o software de GS Referência Mapper (Roche Inc.). Para qualificar como uma variante da sequência do genoma de referência, deve haver pelo menos duas independente lê que: 1) mostrar a diferença, 2) tem pelo menos 5 bases em ambos os lados da diferença, e 3) tem algumas outras diferenças isolado de sequência em a leitura. Variantes identificadas como “alta confiança” foram objecto de um filtro mais rigoroso, que exige pelo menos três independentes lê com a variante compreende pelo menos 40% de todo independente lê a cobrir a posição genômica alelo. Para identificar variantes não sinónimas, o impacto de cada variante de sequência de proteína traduzida foi avaliada pelo mapeamento suas coordenadas genômicas de volta para genes na coleta RefSeq [31] liberar 37, e identificar mudanças na especificidade códon.

Calculamos a taxa teórica de detecção nas posições heterozigotas como uma função da profundidade de leitura diferente, como segue: N sequenciação lê cobrindo uma posição heterozigótica pode ser considerado como uma amostragem aleatória dos dois alelos repetidos N vezes, portanto, deve seguir a distribuição binomial. Supondo-se que o alelo A é relatado no genoma humano e de referência B alelo é o alelo variante, que necessitam de, pelo menos, dois sequenciação lê com o alelo B para declarar a detecção do alelo B. A probabilidade de detecção de ambos os alelos A e B a uma heterozigótica posição pode ser calculado como: PAB = 1-P1-P2. P1 é a probabilidade de se encontrar 0 ou 1 de leitura com o alelo A em N lê sequenciação de acordo com a distribuição binomial, o que levaria a uma chamada de genótipo AA. P2 é a probabilidade de encontrar N lê com o alelo B em N sequenciamento lê acordo com a distribuição binomial, o que levará a uma chamada genótipo do BB.

Informações de Apoio

Tabela S1. regiões

Catpure que têm profundidade de leitura de zero em todas as linhas de células 8

doi: 10.1371. /journal.pone.0021097.s001

(XLS)

Tabela S2.

Todas as variantes não sinónimas novos em oito linhagens de células

doi:. 10.1371 /journal.pone.0021097.s002

(XLS)

Tabela S3.

440 genes da proteína quinase cobertos pela matriz de captura de 2.1 M NimbleGen

doi: 10.1371. /journal.pone.0021097.s003

(XLS)

Reconhecimentos

obrigado Charles Tilford e Jansen Lim por sua ajuda no fornecimento de coordenadas genômicos para genes no genoma humano. Agradecemos também a Roche NimbleGen e Roche 454 Life Science para a realização de captura exome, 454 GS FLX Titanium Sequencing é executada, e processamento de dados inicial.

Deixe uma resposta