PLOS ONE: alta precisão de detecção de mutações nos leucemia em um painel selecionado de Câncer Genes

Abstract

Com o advento de todo o genoma e sequenciamento de todo o exome, catálogos de genes do cancro recorrentemente mutantes de alta qualidade são cada vez disponível para muitos tipos de cancro. Aumentar o acesso à tecnologia de sequenciamento, incluindo de bancada sequenciadores, oferecem a oportunidade de re-sequence um conjunto limitado de genes do cancro através de uma coorte de pacientes com tempo de processamento limitado. Aqui, nós re-sequenciados um conjunto de genes do cancro em células T leucemia linfoblástica aguda (LLA-T) usando NimbleGen captura de sucessão juntamente com a Roche tecnologia /454. Em primeiro lugar, investigamos como uma sensibilidade máxima e especificidade de detecção de mutações pode ser alcançado através de um estudo de referência. Testamos nove combinações de diferentes mapeamento e métodos de chamada de variante, variou a variante chamando parâmetros e compararam as mutações previstas com um grande conjunto de validação independente obtido por capilar re-sequenciação. Descobrimos que a combinação de dois algoritmos de mapeamento, ou seja,

BWA-SW

e

SSAHA2

, juntamente com o algoritmo chamando variante

Atlas-SNP2

produz a mais alta sensibilidade (95 %) e a mais elevada especificidade (93%). Em seguida, aplicou-se este gasoduto análise para identificar mutações em um conjunto de 58 genes do cancro, em um painel de 18 linhas T-ALL celulares e 15 T-ALL amostras de pacientes. Nós confirmamos mutações nos conhecidos T-ALL pilotos, incluindo PHF6, NF1, FBXW7, NOTCH1, KRAS, ARN, PIK3CA e PTEN. Curiosamente, encontramos também mutações em vários genes de cancro que não tinham sido ligados a T-ALL antes, incluindo JAK3. Finalmente, nós re-sequenciados um pequeno conjunto de 39 genes candidatos e identificou mutações recorrentes em TET1, SPRY3 e SPRY4. Em conclusão, nós estabelecemos um gasoduto análise otimizado para dados Roche /454 que pode ser aplicada para detectar com precisão mutações genéticas em câncer, o que levou à identificação de várias mutações T-ALL motorista novo candidato

Citation:. Kalender atak Z, K De Keersmaecker, Gianfelici V, Geerdens E, Vandepoel R, D Pauwels, et ai. Detecção de Mutação (2012) Alta Precisão na leucemia em um painel selecionado de genes do cancro. PLoS ONE 7 (6): e38463. doi: 10.1371 /journal.pone.0038463

editor: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Alemanha |

Recebido: 28 Dezembro, 2011; Aceito: 05 de maio de 2012; Publicação: 04 de junho de 2012

Direitos de autor: © 2012 Kalender Atak et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo governo federal belga (Plano de Câncer – Translational Research), a KU Leuven (conceder GOA /11/010 de J. esfria e PV; conceder PF /10/016 SymBioSys para J. esfria e SA), a Fundação Contra câncer (concessão 2010-154 a SA), o FWO-Vlaanderen (G.0287.07, J. Cools), e do Conselho Europeu de Investigação (subvenção para J. Cools ERC-primas). KDK é um pesquisador pós-doutorado financiado pela FWO-Vlaanderen, PV é um investigador clínico sênior apoiado por FWO-Vlaanderen, DP e MP são financiados pela porta Agentschap voor Innovatie Wetenschap en Technologie. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. A filiação de WDG e HQ a Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH não altera a adesão dos autores para todos os PLoS ONE políticas sobre dados e materiais de compartilhamento.

Introdução

a próxima geração seqüenciamento tecnologias (NGS) têm melhorado significativamente nossa capacidade de sequenciação nos últimos cinco anos. Eles são agora amplamente utilizados para fins de pesquisa e estão começando a encontrar seu caminho em aplicações clínicas. Embora genoma inteiro e abordagens exome sequenciamento inteiras são implementados com sucesso para o mapeamento das paisagens genômicos de muitas doenças humanas, eles não são estratégias de rotina para a detecção de aberrações moleculares devido aos custos elevados e longos tempos de volume de negócios (correr e tempos de análise). Targeted re-sequenciação, por outro lado, é atraente em um ambiente clínico, tendo em conta os custos mais baixos de sequenciação, sequenciação de tempo mais curto e mais simples de análise de dados. Além disso, como a descoberta de genes do cancro novos por sequenciação de todo o exome irá gradualmente saturar e convergem em um conjunto de genes comumente mutado em um câncer em particular, a identificação destas mutações podem produzir informações de diagnóstico e prognóstico importante.

apesar da necessidade de vários dias para a preparação da biblioteca e enriquecimento alvo para todas as plataformas, a tecnologia Roche /454 oferece as vantagens de tempos de execução curtos e dados de tempo de análise. Além disso, a saída de dados mais restrito também é benéfico para o tempo de resposta porque menos amostras dos pacientes precisam ser coletados para preencher toda uma corrida de seqüenciamento. Com base nessas vantagens da plataforma 454 para sequenciar relativamente pequenos conjuntos de genes, investimos na otimização de bioinformática pipelines para o mapeamento de leitura e variante chamada de 454 lê, com o objectivo de aplicação da presente tanto para pesquisa, bem como para fins clínicos. Estamos focados em células T leucemia linfoblástica aguda (LLA-T), um câncer hematopoiético agressiva causada pela transformação maligna de células T em desenvolvimento [1]. Um conjunto de 97 genes foi selecionado para sequenciamento alvo. O conjunto consistiu de 58 genes do câncer [2] e 39 genes candidatos, incluindo tirosina quinase e genes codificando fosfatase, modificadores de cromatina, e vários genes pertencentes às famílias de genes motorista câncer conhecido como TET1-TET3 ou PIK3CB-PIK3CD-PIK3CG.

Para a detecção variante precisa, nós investigamos vários dutos de análise existentes e comparado o seu desempenho. Embora o gsMapper software de companheiro é amplamente utilizado na análise de 454 de dados [3], [4], [5], vários mapeamento alternativo e variantes algoritmos de chamada foram desenvolvidos, tais como [6] BWA-SW e SSAHA2 [7] , BLAT [8] para mapeamento e SAMTools [9], VarScan [10], e Atlas-SNP2 [11] para variante chamada. Li et al [6] avaliaram as longas alinhadores ler, e Shen et al [11] avaliaram as chamadas variantes, no entanto, a nosso conhecimento, nenhuma comparação foi realizada na combinação de mapeamento e variantes chamando algoritmos no contexto da descoberta de mutação .

Aqui, foram analisados ​​e comparados nove combinações diferentes de um mapeamento e a variante ligando algoritmos e particularmente investigada até que ponto as posições de cobertura de baixo pode ser incluído na variação do processo ligando para aumentar a sensibilidade de detecção de mutações. Em seguida, aplicamos o pipeline otimizado para identificar mutações em um conjunto de 58 genes do cancro e 39 genes candidatos, através de 18 linhas T-ALL celulares e 15 T-ALL amostras do paciente e identificar mutações recorrentes em ambos os pilotos conhecidos e novos.

resultados

Comparação de mapeamento e Variação Métodos de chamada para Roche /454 dados

o software companheiro Roche

gsMapper

é usado principalmente para a análise de Roche /454 dados. Este software primeiro alinha as leituras para o genoma de referência e, em seguida, enumera todas as posições que são diferentes do genoma de referência (variante de chamada). Embora

gsMapper

teve um bom desempenho em vários estudos [3], [4], [5], quisemos avaliar o seu desempenho no set nossos dados e investigar se pudéssemos alcançar uma melhor precisão e exatidão usando alinhadores alternativos e variantes chamadores. Testamos oito combinações diferentes de um alinhador long ler (BWA-SW, SSAHA2, CLAT) e um chamador variante (SAMTools, VarScan, Atlas-SNP2) e comparou seu desempenho com o

gsMapper

.

cada gasoduto foi aplicado para as leituras obtidas a partir de sete-ALL T linhas celulares e o desempenho de cada gasoduto foi avaliada por Sanger re-seqüenciamento de 210 variantes de candidatos que foram tiradas aleatoriamente de todos previu 8020 variantes (contendo tanto SNPs e mutações) de todas as tubagens. Como uma medida do desempenho de cada uma das condutas, calculou-se o coeficiente de correlação Matthews (CAM), que é uma medida da precisão da previsão que é calculada com base no número de verdadeiros positivos preditos com sucesso e verdadeiros negativos encontrados por Sanger de sequenciação (ver Materiais e Métodos). Ao usar parâmetros predefinidos (Tabela S1), o desempenho dos diferentes pipelines foi comparável, com uma MCC média de 0,62, sem gasoduto alternativo desempenho melhor do que gsMapper (MCC de 0,82) (Tabela S1).

em estudos NGS, a presença de duplicado lê (causada por um passo de amplificação de PCR durante a preparação da biblioteca) é uma fonte potencial de previsão falsa variante de nucleótido único positivo (SNV) [12]. Por isso, adicionou-se uma etapa adicional para remover duplicados lê usando Picard, resultando num aumento de 2-24% em MCC, dependendo do oleoduto, com uma média de 0,73 MCC (Tabela S1). Isso mostrou que a remoção duplicada é um passo importante para a obtenção de chamadas variantes corretos.

Em seguida, nós otimizamos ainda mais o desempenho de cada gasoduto, variando o número mínimo exigido de leituras (profundidade de cobertura, DOC) ea mínima exigida variante lê (freqüência do alelo variante, VAF). Mudanças nos limiares Doc afetou principalmente a sensibilidade, enquanto diferentes limiares VAF afetou as previsões em termos de especificidade (Figura 1 A, Tabela S2). Todos os dutos atingiu seu melhor desempenho com um limiar DoC de 3, e com um limite mínimo de 0,20 VAF (quando aplicável) (Tabela S1-S2). Em um último esforço para minimizar previsões falsos positivos, combinamos os dois melhores algoritmos de mapeamento em um gasoduto, o que aumentou ainda mais a sensibilidade de 95% e especificidade de 93%. A razão para este aumento da precisão é que certas variantes previstas que são causadas por mapeamento errada (Figura S1) são agora filtrados. Embora este gasoduto final (SSAHA2 + BWA-SW + Atlas-SNP2) executa melhor do que

gsMapper

(91,2% de sensibilidade e especificidade% 90,8), a diferença não é grande e

gsMapper

pode ser considerado como uma alternativa válida (e muitas vezes fácil de usar) (Figura 1 B).

(a) diferentes pipelines mostrar diferente sensibilidade e especificidade. Variando Doc e limiares VAF no processo variante chamada tem afetar um adicional sobre as previsões em termos de sensibilidade e especificidade, respectivamente. Cada gasoduto é representada com um símbolo diferente e o desempenho de cada pipeline (em termos de sensibilidade e especificidade) é representada sob várias Doc e limiares VAF. Note-se que o eixo dos X representa a taxa de falsos positivos (1-especificidade). Neste lote ROC, quanto mais próximo o ponto para o ponto superior esquerdo do gráfico, melhor a sensibilidade e a especificidade. Diferentes cores dos símbolos indicam o desempenho do gasoduto sob mudança limiares VAF, e as duas caixas sombreadas indicam o desempenho sob mudando limiares doc. O gráfico mostra que (i) redução do limiar DOC aumenta a sensibilidade de todas as condutas, como indicado com a linha tracejada azul; (Ii) aumento do limiar VAF aumenta a especificidade com uma ligeira diminuição na sensibilidade como indicado (no exemplo de gasoduto BLAT VarScan +) com a linha a tracejado vermelho; (Iii) o gasoduto BWA-SW + SSAHA2 + Atlas-SNP2 tem o melhor desempenho entre todas as tubagens sob doc = 3 VAF = 0,20 limiares como indicado com a seta amarela. O gasoduto Roche é indicado com uma forma de diamante negro desde há alterações de parâmetros foram realizadas sobre ele, e SSAHA2 + SAMTools e BWA-SW + SAMTools dutos eram de cor cinza desde há alterações no limiar VAF foram realizadas sobre eles. (B) O coeficiente de correlação Matthews para cada gasoduto é mostrado para o desempenho mais eficiente de que pipeline (Tabela S1). É interessante notar que o desempenho ideal de todos os dutos, excepto Roche gsMapper, foi observado para um limiar DoC de 3.

Mutações generalizados em genes de câncer em 18 linhas T-ALL celulares e 15 T-Todas as amostras de pacientes

cancro

Nós aplicamos o pipeline otimizado determinado acima, que consiste na combinação SSAHA2 + BWA-SW para o mapeamento de leitura e Atlas-SNP2 para a variação chamada, para identificar mutações em um painel de 58 ” genes “através de 18 linhas T-ALL celulares e 15 T-ALL amostras primárias paciente. Este conjunto de genes consiste em 13 T-todos os drivers (Figura 2.A.I) e 45 outros genes envolvidos em uma variedade de cancros (Figura 2.A.II). Todos esses genes estão presentes no Censo [2] banco de dados de genes de câncer, exceto para os genes recentemente descobertos câncer Atoh1 e PHF6 [13], [14]. Desde mutações PHF6 estão envolvidos em T-ALL nós adicionamos PHF6 à nossa lista de T-ALL motoristas.

mutações codificação em genes conhecidos de câncer (A) e genes candidatos (B) são indicados com códigos de cores diferentes. O painel A é subdividida em genes (I) que são conhecidos por ser motoristas em T-ALL, e (II) os genes que apresentam mutações somáticas recorrentes em vários cancros humanos. As linhas celulares estão localizados à esquerda da tabela, e as amostras dos pacientes estão localizados à direita. Genes são classificados de acordo com a frequência de mutações alterando proteínas nas amostras de pacientes.

Sequência lê foram mapeados para todo o genoma de referência e aqueles lê que mapeiam para os genes selecionados foram mantidos. Isto resultou em 36% de leituras que mapeiam para as sequências alvo, em média, com um rendimento médio de 24.2X e 16.3X de linhas celulares e amostras de pacientes, respectivamente. A análise dos dados da sequência revelou que exons com uma cobertura muito baixa teve um GC-índice significativamente maior em comparação com exons com maior cobertura (valor-p 2.2e-16), um achado consistente com um estudo publicado anteriormente [15] (Figura S2 ). Dos 1565 exões orientadas neste estudo, 18 exões não tinha cobertura nas linhas celulares ou em amostras do doente (correspondente a 8710 pb); e 15 exons teve nenhuma cobertura nas amostras de pacientes somente (correspondente a 5197 bps). Em média, 94% e 86% dos exões direccionados atingiram uma cobertura média igual ou superior a 3 para as linhas de células e as amostras dos pacientes, respectivamente.

Variação chamando resultou em 836 variantes distintas de um único nucleótido (SNVS) em genes do cancro conhecido em todo o 33 amostras. As linhas celulares tinham significativamente mais SNVS em genes de câncer do que as amostras dos doentes (valor-p 0,001); em média 153 SNVS foram detectados por linha celular e 117 por amostra do paciente. 56% dos SNVS previstos foram relatados em dbSNP (https://www.ncbi.nlm.nih.gov/projects/SNP/) ou no projecto 1,000 Genomes (https://www.1000genomes.org/) e eram excluídos da análise posterior, enquanto os 368 restantes (SNVS Tabela S3) afetou 55 dos 58 genes do cancro seqüenciados, principalmente nos exons (58,4%) e em regiões não traduzidas (23,9%). Além disso, houve 8 SNVS que afetam locais de splicing. Dos SNVS ex�icas, 14 resultado no ganho de um códon de parada (chamado “stop ganhar” SNVS), 140 não são sinônimos e os restantes 61 são variações de codificação sinônimos.

Para validar as mutações encontradas no celular linhas, comparamos os nossos resultados com mutações determinadas pelo projecto linhagem celular de câncer [16], que contém onze dos nossos 18 linhas celulares. Dos 35 mutações pontuais oncogênicos encontradas no projeto da linha de Cancer Cell (determinado pelo seqüenciamento capilar) nos genes que estão incluídos no nosso painel, 31 foram recuperados pela re-sequenciamento automatizado de Roche /454 usando o SSAHA2 + BWA-SW + Atlas gasoduto análise -SNP2, correspondendo a uma taxa de recuperação de 88,5% (Tabela S4). Note-se que se recuperou 30 gsMapper mutações de 35, o que resulta em uma taxa de recuperação de 85,7%. As mutações que foram perdidas pela Roche /454 sequenciamento são ou devido à baixa cobertura a essas posições (em duas das quatro mutações não atendidas, tanto na NOTCH1), ou baixa qualidade variante (uma mutação TP53), ou a erros de sequenciamento (um mutação NOTCH1 é coberto por 10 lê, nenhum dos quais contém o alelo variante relatado pelo projeto da linha de Cancer Cell). Com relação à especificidade, os dois pipelines um bom desempenho, por exemplo, sobre o gene FBXW7 para o qual encontramos uma mutação pontual alterando proteína em exatamente as mesmas cinco linhas celulares como o projeto da linha de Cancer Cell (das onze linhas de células comuns). Em conclusão, a re-sequenciamento automatizado usando Roche /454, quer com o gasoduto gsMapper ou o gasoduto SSAHA2 + BWA-SW + Atlas-SNP2, é em grande medida de acordo com mutações encontradas por sequenciação capilar.

Treze dos 58 genes do cancro tem sido associada especificamente a T-ALL, e nós identificada proteína alterando mutações em pelo menos um destes genes em todas as linhas celulares e em 10 amostras de pacientes (Figura 2.ai). Dos outros genes de cancro 45, 36 genes foram mutada (Figura 2.A.II), dos quais 25 foram mutados em, pelo menos, duas amostras (linha celular ou paciente). Os genes com a maioria das mutações em-tudo T linhas celulares são NOTCH1 (mutação não sinónima em 9/18 linhas celulares), TP53 (10/18), FBXW7 (7/18), e as ARN (5/18). Estes também possuem mutações em amostras de doentes, excepto TP53, sugerindo que pode ser mais fácil de obter linhagens de células a partir de amostras com mutação TP53 ou que mutações de TP53 são adquiridas durante a cultura de células [17].

Identificação de Mutações recorrentes JAK3 em T-ALL

a seguir, determinou se as mutações em genes de câncer poderiam ser identificados que anteriormente não estavam ligados a T-ALL. Encontramos várias dessas mutações em-tudo T linhas celulares (Figura 2.A.II), mas a sua ausência nas amostras de pacientes questiona a sua relevância para a patogênese da T-ALL.

Foram identificadas várias mutações em JAK2 e JAK3 em ambas as linhas celulares e amostras de pacientes. Todas as quinases JAK, excepto TYK2 (ver abaixo), são conhecidos oncogenes em leucemia e activação de mutações e translocações que afectam JAK1, JAK2 e JAK3 foram descritos em múltiplos, principalmente mielóide, malignidades hematológicas [18]. Até recentemente, JAK1 foi o único membro da família JAK em que as mutações pontuais foram descritos na LLA-T [19]. No entanto, em um artigo recente JAK3 mutações de ganho de função foram descritas em T-ALL por Elliott et al. [20]. Em nosso estudo, identificamos 3 mutações de codificação não sinónimas em 2 pacientes para JAK2 (TLE37 paciente tinha duas mutações) e 4 mutações de codificação não sinónimas em 1 paciente e 2 linhas de células (linha de células SupT1 tinha duas mutações) para JAK3. (Tabela S3). Seqüenciamento Sanger confirmou um JAK2 e todas as variações JAK3 (Tabela S5, Figura 3.A-B). Complementar sequenciação de Sanger de todos os exões dos genes de JAK2 e JAK3 de 31 adicionais T-ALL pacientes identificada uma variante JAK2 adicional e 2 JAK3 variantes adicionais (Tabela S5, Figura 3.A-B). Assim, no total, foram identificadas mutações JAK2 em 2 dos 46 (4%) T-Todas as amostras e em 0 de 18 T-ALL linhas celulares e mutações JAK3 em 2 dos 46 (4%) T-ALL amostras e, em 2 de 18 T-ALL linhas de células (Tabela S5, Figura 3.AB). Para JAK2, ambas as mutações também estavam presentes em uma amostra correspondente remissão, ao passo que todas as mutações paciente JAK3 foram adquiridos somaticamente. Curiosamente, TLE44 paciente mostrou 2 mutações somáticas no JAK3, ou seja, A572T e M511I, que foram detectados no mesmo alelo (dados não mostrados). Além disso, a mutação M511I foi detectado antes em AML e sobre-expressão desse transformadas 32D células dependentes de IL3 e mutante induzido LLA-T em ratos [21]. Considerando que a mutação A572T não foi descrita antes, JAK3 A572 aminoácidos foi encontrado mutado num V (mutação A572V) em leucemia de células T, linfoma de célula T, e AML, e este A572V mutante citocina transformado dependente células hematopoiéticas e induziu leucemia em ratinhos [21], [22], [23], [24].

(a) Sanger cromatogramas sequenciamento correspondente a variantes JAK2 /JAK3 confirmados. (B) a estrutura de domínio de proteínas JAK2 e JAK3 com a indicação do romance detectadas variantes. variantes não-somáticas são indicados com um asterisco. sequências (C) Sanger mostrando exemplos de variantes TYK2 detectar em-tudo T linhas celulares ou em amostras de pacientes com leucemia. (D) Representação esquemática da estrutura da proteína TYK2 com indicação de todas as novas variantes TYK2 detectados neste estudo. variantes não-somáticas são indicados com um asterisco.

identificação de novos oncogenes e genes supressores de tumor no T-ALL

Buscando novos T ALL-genes motorista pode ser realizada por toda sequenciamento -exome ou outras abordagens genômicos. No entanto, a plataforma Roche /454 combinada com captura de sequência pode ser útil numa abordagem do gene candidato. Em nossa abordagem re-sequenciação alvo, 39 genes foram incluídos que não foram causalmente associada ao câncer, mas foram selecionados como oncogenes candidatos ou genes supressores de tumor, por causa de sua função (por exemplo, tirosina quinases e fosfatases de tirosina) ou porque os membros da família tinha sido implicado no cancro (por exemplo, TYK2 para a família JAK, TET1 TET2 porque é um gene de cancro conhecida). Figura 2.B indica as mutações ex�icas e do site emenda observadas nesses genes e os genes foram classificados de acordo com a recorrência de variantes alterando proteínas em todo amostras de pacientes.

Curiosamente, 4 das 15 amostras sequenciadas de doentes contêm uma variação em TET1. O

TET

família de genes (

TET1

,

TET2

,

TET3

) dos reguladores epigenéticos é importante para o campo de hematologia por causa da observação de

TET2

mutações em 10-25% dos pacientes com várias doenças hematológicas mielóides [25], [26], [27]. Para melhor avaliar a frequência de mutação de

TET1

em T-ALL, realizamos suplementar sequenciamento Sanger da

TET1

em todas as linhagens celulares e amostras de pacientes e em um painel de 22 adicionais T-ALL casos . Em geral, isso resultou na identificação de

TET1

variantes em 5/37 (13,5%) dos pacientes analisados ​​e em 1/18-ALL T linhas celulares (Karpas-45) (Tabela S6 e Figura 4). O estado somático da

TET1

variantes detectadas foi confirmada para 1 caso (H1297Y), onde uma amostra remissão estava disponível. Também foram investigadas as variantes em

TET2

e

TET3

pego por 454 e realizado sequenciamento Sanger adicional para estes genes.

TET2

variantes foram detectados em 2 linhas celulares (JURKAT e KARPAS45) e um

TET3

variante foi detectado na linha celular CCRF-CEM, as amostras dos doentes não Tudo T-(0/46) abrigavam adquiridos TET2 ou TET3 mutações (Tabela S6).

(A) cromatogramas sequenciamento Sanger que representam variantes TET1 confimed. (B) Representação esquemática da estrutura da proteína TET1 com indicação de todas as novas variantes TET1 detectados neste estudo. Variantes detectados em linhas celulares são descritos acima da proteína TET1, variantes detectado em amostras de doentes de leucemia são inferiores a proteína TET1. variantes não-somáticas são indicados com um asterisco.

As mutações em genes de fosfatase de tirosina, que actuam como reguladores negativos da sinalização da tirosina, foram identificados em muitos-ALL T linhas de células e também em vários T-ALL pacientes. As mutações adicionais em genes Spry, reguladores negativos da via de Ras /MAPK, também foram detectadas. Nós identificamos uma variação homozigoto em

SPRY3

em um T-ALL amostra do paciente, e 3 mutações no

SPRY4

(2 mutações em linhagens celulares e uma mutação somática adquirido em uma T-ALL amostra do doente ). Seqüenciamento Sanger confirmou a presença destas mutações, mas não revelou quaisquer mutações adicionais de SPRY3 /SPRY4 em 22 adicionais T-ALL casos, trazendo a frequência de mutação SPRY4 a 1/37 T-ALL pacientes e 2/18-ALL T linhas celulares (Tabela S7, Figura 5).

(A) Sanger de sequenciação cromatogramas mostram variantes SPRY4 confirmados. estrutura (B) Domínio da proteína SPRY4 com a indicação do romance detectadas variantes.

Finalmente, também identificadas várias mutações no tirosina quinases (IGF1R, TYK2, TNK1 e MST1R) e proteínas de sinalização associados ( IRS2, SOCS3), mas a maioria destas mutações foram encontrados em linhas de células, enquanto que as amostras de pacientes primários mostrou uma frequência muito inferior destas mutações. O gene mais frequentemente mutado em todas as linhas celulares e amostras de pacientes foi o substrato do receptor de insulina 2 gene (IRS2), mostrando as mutações de codificação não sinónimas em 6 linhas celulares e em uma amostra do paciente. Também frequentemente mutado foi TYK2, com mutações observadas em 6 linhas de células; uma variante stop-ganho e 5 variantes de codificação não-sinônimas. Embora nenhuma das 15 amostras de pacientes realizada uma mutação em TYK2, ele pode estar presente em baixa frequência em pacientes. Para testar isso, foi realizada a sequenciação complementar de TYK2 em 93 T-ALL, 54 AML e 53 B-ALL amostras de pacientes. Apesar da alta frequência de variações TYK2 em-tudo T linhas celulares, as variantes TYK2 foram detectados apenas em 2 dos 93 T-ALL e 1 de 54 casos de LMA (Tabela S5, Figura 3.CD).

Evidência para a acumulação de mutações específicas durante in vitro Cultura do T-todas as linhas celulares

a frequência de mutação de TYK2 em-tudo T linhas celulares em comparação com T-ALL primária amostras foi substancialmente diferente, com uma alta taxa de mutação TYK2 em linhas de células, mas apenas uma baixa taxa de mutação em amostras de partida. Para determinar se esta podia ser devido à acumulação de mutações TYK2 durante a cultura das células, que sequenciado TYK2 em diferentes clones da mesma todos os t-linha celular (Tabela 1). Para a linha celular CCRF-CEM, obtivemos 5 subclones diferentes que foram coletados ao longo dos anos. Curiosamente, enquanto que a variante R1027H estava presente em todas as amostras analisadas, a variante A35V só estava presente na nossa linha e em um clone de células CCRF-CEM adicional. Na linha celular Karpas-45, a variação Q830 * estava presente em 3 clones diferentes. Em contraste, apenas a linha JURKAT continha a mutação C192Y, enquanto esta estava ausente em 2 outros clones disponíveis no DSMZ (www.dsmz.de) (Tabela 1). Estes dados sugerem que pelo menos algumas mutações TYK2 foram adquiridas durante o cultivo prolongado das células, e, assim, é pouco provável para representar um evento oncogénico importante para o desenvolvimento de leucemia

In vivo

. Além disso, a análise das propriedades de transformação destes mutantes em células Ba /F3 não conseguiu identificar as principais diferenças entre o tipo selvagem TYK2 e variantes de TYK2 detectados em linhas celulares ou amostras de doentes e que não poderia mostrar qualquer autofosforilação de TYK2 em T-ALL de células linhas contendo variantes TYK2 (dados não mostrados).

Estes dados confirmam diferenças importantes entre as linhas de células primárias e as amostras dos pacientes, o que pode reflectir a acumulação de mutações durante

in vitro

cultura de células.

Discussão

Nós demonstramos que a abordagem de sequenciação alvejado com um cenário de análise otimizada pode ser usado para identificar mutações oncogênicas. Esta abordagem pode ser de particular interesse para a detecção de mutações pontuais em um conjunto de oncogenes importantes e supressores tumorais ou outros genes relacionados com doença para o diagnóstico, prognóstico ou previsão escolha terapêutica. Essa informação poderá ser gerado em um relativamente curto espaço de tempo e com um detalhe sem precedentes. Uma das principais vantagens em relação a sequenciação de Sanger clássica é o maior rendimento de este método permitir que todos os exões do gene de um conjunto deste tamanho podem ser facilmente sequenciada. Como tal, é fornecido informação completa e variantes raros ou mutações ainda não descobertos anteriormente em um determinado gene pode ser detectada. De fato, das 160 variantes ex�icas e de local de splicing (excluindo as 61 variações sinônimas) detectados nas linhas celulares e amostras de pacientes em todo o nosso painel de genes do câncer, apenas 40 são encontrados na base de dados COSMIC [16], dos quais 24 são associados especificamente com T-ALL. Apesar de alguns genes existem pontos quentes de mutação (por exemplo, o KRAS G12, G13, Q61 mutações), a função da maioria dos genes do cancro podem ser afectadas por mutações em posições diferentes. Portanto, para a maioria dos genes do cancro da sequência de codificação inteira precisa de ser re-sequenciados, e para isso a tecnologia Roche /454 é particularmente adequado

Para detectar mutações usando a próxima geração de sequenciação -., Quer para substituir ou complementar molecular diagnóstico – padronizado pipelines de análise bioinformática com uma precisão muito elevada são necessários. Um tal percurso, composto por um algoritmo de mapeamento para alinhar a sequência lê ao genoma de referência, um algoritmo de variação ligando para identificar diferenças entre a amostra e a referência, e um algoritmo de filtragem variação.

em comparação múltiplas combinações de mapeamento e algoritmos de variação de chamar, e descobriram que a combinação de dois, nomeadamente mapeadores SSAHA-2 e BWA-SW, seguido pela Atlas-SNP2 produz os resultados de detecção de variação mais precisos. Adicionando dois algoritmos de mapeamento filtra previsões falsas variantes positivos devido ao mapeamento erronous, eo modelo de erro de Atlas-SNP2 permite a eliminação de leituras que têm múltiplas melhores partidas no genoma de referência. Nós também descobrimos que os filtros de dados adicionais sobre a profundidade da cobertura e na freqüência do alelo variante aumentou ainda mais a sensibilidade e especificidade da detecção de variação.

Encontramos várias limitações técnicas na análise dos dados. Em primeiro lugar, tivemos de remover duplicados lê introduzida por etapas de amplificação de PCR durante a preparação da amostra, uma vez notamos estes estavam causando falsos predicitons SNV positivos. Em segundo lugar, que só poderia prever SNVS, enquanto indels (pequenas inserções e deleções) teve de ser ignorado uma vez que o nosso trabalho (dados não mostrados) e os estudos anteriores indicam que 454 lê não são adequados para a detecção indel devido à grande quantidade de resultados falsos positivos [4]. Em uma configuração de diagnóstico, em que 100% de especificidade é exercida, é crítico para identificar genes ou regiões em genes que são propensas a aquisição de indels e para conceber ensaios alternativos para investigar eles. Da mesma forma, rearranjos genômicos são causas importantes de T-ALL, mas exigem tecnologias de detecção complementares.

Acreditamos que o uso de uma tecnologia de sequenciamento de longo ler, tais como Roche /454 ou o mais recente Pacific Bioscience, proporciona vantagens particulares no que diz respeito a sensibilidade e especificidade da detecção variação. Em primeiro lugar, o alinhamento leitura longa permite uma melhor distinção entre genes altamente semelhantes no genoma. Por exemplo, um dos genes que re-sequenciados foi NOTCH1, um gene com vários homólogos (ou seja NOTCH2, NOTCH2Nl, NOTCH3 e NOTCH4). No entanto, não observamos lê mapeamento para qualquer um destes homólogos, mesmo que mapeou o lê para todo o genoma. Isto indica que tanto a captura e a sequência de mapeamento eram específicos. Por outro lado, também encontrado um exemplo em que a sequência de captura não era específico. Nomeadamente, o gene PMS2 é um dos genes alvo do nosso estudo, observou-se ainda lê mapeamento para o pseudogene PMS2, PMS2CL, que contém os primeiros seis exons do gene PMS2. Graças à utilização de longo lê, este não causa quaisquer problemas para a detecção de variação, porque para cada gene respectivo lê mapeado

exclusivamente com o gene correcto, quer PMS2 ou PMS2CL. Note-se que a tecnologia de captura fornece pistas adicionais para conseguir uma especificidade mais elevada, não só porque os exões estão abrangidos na captura, mas também as regiões intrónicas flanqueantes.

Deixe uma resposta