PLOS ONE: Um método simplificado para a detecção de variantes estruturais em Câncer Genomas por Short Leia emparelhados-End Sequencing

Abstract

Definir a arquitetura de um genoma do câncer específica, incluindo suas variantes estruturais, é essencial para a compreensão da biologia do tumor , mecanismos de oncogénese, e para a concepção de terapias eficazes personalizados. Leitura curta-end emparelhado seqüenciamento é atualmente o método mais sensível para a detecção de mutações somáticas que surgem durante o desenvolvimento do tumor. Contudo, o mapeamento de variantes estruturais utilizando este método conduz a um grande número de chamadas de falsos positivos, principalmente devido à natureza repetitiva do genoma e a dificuldade de atribuição de posições correctas para mapeamento curto lê. Este estudo descreve um método para identificar de forma eficiente grandes específicas do tumor deleções, inversões, duplicações e translocações de dados com baixa cobertura usando SVDetect ou software BREAKDANCER e um conjunto de novos procedimentos de filtragem, concebidas para reduzir as chamadas de falsos positivos. Aplicando o nosso método a um linfoma de células T espontâneo provenientes de um rato núcleo RAG2 /p53 com deficiência, identificamos 40 rearranjos estruturais específicas do tumor validados apoiado por tão poucos como 2 pares de leitura independentes

Citation:. Mijuskovic M, Brown SM, Tang Z, CR Lindsay, Efstathiadis E, Deriano L, et ai. (2012) Um método simplificado para a detecção de variantes estruturais em Cancer Genomas por Short Leia Sequencing-End emparelhados. PLoS ONE 7 (10): e48314. doi: 10.1371 /journal.pone.0048314

editor: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapura

Recebido: 16 de julho de 2012; Aceito: 24 de setembro de 2012; Publicado: October 29, 2012 |

Direitos de autor: © 2012 Mijuskovic et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo PN1EY018244 concessão do National Institutes of Health Initiative Roteiro em Nanomedicina (prêmio Nanomedicine Centro de Desenvolvimento) e os Institutos Nacionais de Saúde concede R01CA104588 para DBR. SMB e ZT são parcialmente suportados pelo National Institutes of Health Center /Nacional de Pesquisa de Recursos U54 concessão RR024386-01A1 (Prêmio de Tradução Clinical Science) para New York University Medical Center. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

variantes somáticas estruturais (SVS), incluindo grandes deleções, inserções, inversões, duplicações e translocações são características importantes de genomas do câncer, responsáveis ​​pela criação de genes de fusão, número de cópias e mudanças regulatórias que conduz à activação ou superexpressão de oncogenes e inactivação de genes supressores de tumor [1], [2], [3], [4], [5], [6]. Definir a arquitetura de um genoma do câncer específico é, portanto, essencial não apenas como um primeiro passo para a compreensão da biologia do tumor e mecanismos de oncogênese, mas também clinicamente no sentido de projetar terapias personalizadas eficazes [7], [8].

Os recentes avanços na tecnologia de alta taxa de transferência de sequenciação [9], [10], foi possível estudar genomas inteiros em alta resolução sem precedentes e custo relativamente baixo. No entanto, as actuais tecnologias de sequenciamento-end emparelhado curta leitura levar muitos desafios, especialmente evidente quando se tenta estudar SVs no câncer. Em primeiro lugar, a complexidade inerente do tecido tumoral, [11], [12], [13] é um desafio em si mesmo, uma vez que os tumores são raramente monoclonais e são muitas vezes misturados com o tecido normal, de modo que a cobertura de sequenciação devem ser mais profunda do que para a detecção SV em a linha germinal. Em segundo lugar, lê curto geradas por sequenciação-fim emparelhado (tipicamente, 50-100 pb a partir de cada extremidade do fragmento de ADN de 300-400 pb) revelar-se difícil para mapear correctamente volta para o genoma de referência devido à elevada percentagem de sequências genómicas repetitivas [14], [15], [16], [17]. Tudo isto conduz a um grande número de chamadas de falsos positivos, gerando níveis inaceitáveis ​​de ruído. atividade retrotransposon, comum em genomas humano e do rato [18], [19], adicionalmente, complica a análise de dados levando a certos tipos de chamadas de falsos positivos. Finalmente, artefatos de preparação de bibliotecas de DNA resultantes da amplificação por PCR combinada com erros de sequenciamento adicionar outro nível de complexidade

Este trabalho descreve um genoma inteiro sequenciamento abordagem para identificar 4 tipos de SVs:. Grandes deleções, inversões, duplicações e translocações . Usamos SVDetect [20] e BREAKDANCER [21] para chamar SVs num genoma de linfoma de rato a partir de um conjunto de emparelhado-end leituras obtidas na plataforma HiSeq da Illumina. A fim de reduzir o elevado número de chamadas de falsos positivos, foi desenvolvido um processo de filtragem que permite a detecção de eventos específicos de tumor a relativamente baixa cobertura (17x). Em primeiro lugar, verificou-se essencial para comparar o conjunto de dados do tumor para uma amostra da linha germinativa obtida do mesmo animal, para remover um grande número de VV da linha germinal (principalmente decorrentes de retrotransposões) detectados no animal experimental, quando comparada com o genoma de referência. Em segundo lugar, desenvolvemos métodos para remover pares de leitura marcado como discordantes devido a erros de alinhamento, bem como duplicados PCR imperfeitos resultantes da preparação da biblioteca e a sequenciação de ADN erros. Em terceiro lugar, foi aplicado vários filtros sobre os resultados produzidos pelos programas chamada SV, como sobreposições com repetições simples anotados e regiões baixas mappability, a fim de identificar alta confiança candidatos SV. Mostramos validação sequenciação Sanger PCR e de 40 VV específicos de tumores em um único genoma do tumor suportado por tão poucos como dois pares de leitura independentes.

Em resumo, o método aqui apresentado, simplifica a análise, aumentando o rendimento da amostra. Ele também fornece alta sensibilidade, permitindo a detecção de clones de variantes raras em misturas complexas que podem ter consequências de prognóstico ou terapêutica importante.

Resultados e Discussão

O estabelecimento de parâmetros de análise inicial Isso

usado emparelhado-end (PE) simulações de sequenciamento como uma ferramenta para estabelecer os parâmetros de análise iniciais, para quantificar o efeito de profundidade sequenciamento na detecção de SVs conhecidos, e estudar relacionado alinhamento falsos positivos. Foram simulados um genoma rearranjada com base na referência /ratinho C57BL 6J (MM9), introduzindo 10 translocações intercromossômicas e 10 grandes deleções em áreas de diferentes mappability (Tabela 1). Leia comprimento, tamanho médio de inserção e desvio padrão do tamanho de inserção foram escolhidos para ser representativa dos nossos dados experimentais (50, 315, 44, respectivamente). Usando três conjuntos de dados independentes simulados com 10, 20, 40, 80 e 160 milhões de pares de leitura, foram avaliados o número de positivos reais e falsos detectados, bem como a probabilidade de detecção em função do mappability local.

sequenciamento PE provou ser um método eficiente para a detecção SV em níveis de cobertura correspondente a 80 ou mais milhões de pares de leitura. 90% dos eventos em nosso genoma reorganizados simulados foram detectados com 160 milhões de pares de leitura, sobre o mínimo atualmente obtida a partir de uma única pista usando a plataforma Illumina HiSeq (Fig. 1A). Como esperado, a detectabilidade de um certo rearranjo dependeu fortemente do microambiente do ponto de interrupção, com mais cobertura necessária para detectar eventos em regiões de baixa mappability (Fig. 1B). Ao avaliar falsos positivos, descobrimos que 97% do total de chamadas SV foram atribuídos a lê com mais de uma posição de mapeamento igualmente válidas. Estas leituras são originários a partir de várias regiões genómicas repetitivos (tais como sequências centroméricos satélite, retroelementos, genes de ARN, etc.) e teve de ser removida a partir da análise. Depois de examinar BWA dezenas de leituras contribuindo para positivos reais e falsos qualidade de mapeamento, nós escolhemos um ponto de corte de 23 para a nossa análise (para uma discussão mais aprofundada, veja “Falsos positivos decorrentes de erros de alinhamento BWA

). Deve notar-se que é escolhido de corte com base na relação desejada de positivos verdadeiros e falsos, com corte inferior aumentando a sensibilidade à custa da especificidade. Após a aplicação do BWA cutoff qualidade de mapeamento para nossos conjuntos de dados simulados, não observamos mais falsos positivos relacionados a erros de leitura de mapas. No entanto, percebemos relacionados com o tamanho falsos positivos que surgiram com o aumento da cobertura. Esses falsos positivos foram pequenas deleções provenientes de extremidade superior e duplicações originários a partir da extremidade inferior da distribuição normal de tamanho de fragmentos de ADN da biblioteca. Para corrigir falsos positivos tamanho de inserção relacionados, usamos um corte tamanho de 8 desvios padrão e aplicá-lo para a nossa análise. Este parâmetro deve ser determinada individualmente para cada biblioteca, em função da sensibilidade desejada: aumentando o ponto de corte desvio-padrão irá conduzir a um aumento da eliminação e duplicação tamanho mínimo detectável. Dependendo das necessidades de análise, pode ser benéfico utilizar mais baixos pontos de corte de desvio padrão em conjunto com uma avaliação do número de pares de suporte de leitura, como VV com um maior número de suportar ler pares pode indicar um evento real. No entanto, esta abordagem deve ser usado com cautela ao analisar amostras de tumores onde a perda ou ganho de número de cópias pode levar a falsas conclusões.

A) Detecção de VV em função da cobertura, B) Número de apoiar lê como uma função de mappability.

Simulações de sequenciamento PE provou ser uma ferramenta útil no desenvolvimento da estratégia de filtragem de dados. Depois da optimização dos parâmetros iniciais acima descritos e remover todas as chamadas de falsos positivos a partir de conjuntos de dados simulados, SV chama no conjunto de dados experimentais poderia ser atribuído à amostra e o procedimento experimental em si, em vez de artefactos de análise. Simulações também eram úteis como um meio para prever a cobertura necessária para a detecção de determinados tipos de eventos. Importante, quando se relaciona simulações para a análise de dados experimentais, tem que ser tomado em consideração que o esperado frequência de rearranjos, e, portanto, a cobertura necessária, será normalmente de 50%, devido à natureza diplóide do genoma. No caso de amostras heteroclonal ou impuros (o caso usual quando se lida com amostras de tumor), essa frequência deverá ser ainda menor.

Filtrando dados

Como o nosso conjunto de dados experimental, escolhemos um uncharacterized linfoma tímico obtido a partir de um RAG2

c /cp53

– /- mouse. linfomas resultantes tímicos espontaneamente neste modelo de ratinho abrigar um grande número de rearranjos estruturais, tais como translocações, deleções e grandes amplificações [22]. sequenciamento-end pareado de Illumina foi escolhido em detrimento da estratégia companheiro par, que abandonou no curso início deste trabalho devido a dificuldades na preparação da biblioteca DNA. Nós sequenciadas duas bibliotecas genómicas, uma obtida a partir do tecido de tumor sólido e a outra a partir do fígado do mesmo animal (controlo da linha germinativa). Encontramos a biblioteca de controle a ser essencial devido a um grande número de SVs germinativas provenientes de restos de uma cepa de fundo 129 (o rato foi criado inicialmente como um híbrido 129SvEv /C57BL6). A biblioteca de tumor de controlo e foram sequenciados para 17x e cobertura física 9x, respectivamente (Tabela 2, Fig. 2).

A) Tumor conjunto de dados, B) do conjunto de dados de controlo. Tumor conjunto de dados mostra a distribuição relativa diferencial da cobertura, devido à instabilidade genômica. alterações número de cromossomos são evidentes para Chr1, chr2, chr15 (~ 3 cópias), CHR4 e CHR14 (~ 4 cópias), CHR8 (-2,5 cópias).

Nós usamos SVDetect (Fig . 3A) e BREAKDANCER (Fig. 3B) para chamar SVs iniciais, uma vez que estes são os dois mais utilizados programas de detecção de variantes estruturais grandes aplicáveis ​​aos 50 dados PE pb ler. Geralmente, a análise usando o BREAKDANCER inicialmente produzido mais intracromossómica e menos chamadas intercromossômicas SV em comparação com SVDetect, talvez devido a diferenças na estratégia de agrupamento. O mesmo procedimento parâmetros de análise e filtragem foi aplicada a ambos os programas, produzindo resultados semelhantes no final.

Gráfico mostra o número total de SV chama pelo SVDetect (A) ou BREAKDANCER (B), como passos de filtragem consecutivos são aplicados . NO FILT- Sem filtragem (exceto a remoção de duplicatas PCR perfeitos e lê com zero de BWA qualidade de mapeamento), M lidade Removendo lê com 23 BWA qualidade de mapeamento, eu DUPL- Removendo lê na categoria de “duplicatas imperfeitos”, CONTROLE comparando dataset tumor ao controle, LOW MAP Post-SV filtragem detecção de chamadas sobreposição regiões de baixa mappability, SIMP tantes Post-SV filtragem detecção de chamadas sobrepostas repetições simples, filtragem custom- personalizada do restante chamadas com base no tipo de rearranjo (veja texto para detalhes).

Em contraste com simulações, análise de dados experimentais levou a um grande número de chamadas de falsos positivos após a aplicação de parâmetros de análise estabelecidos inicialmente descritos acima. Nós definimos estes falsos positivos como eventos suportados por lê mapeamento de regiões genómicas repetitivas, bem como aqueles que abrangem regiões com actividade retroelemento. O número de falsos positivos foi especialmente grande entre os SVs intercromossômicas, explicado pela maior probabilidade de uma leitura repetitiva a ser desalinhado a um cromossomo diferente de seu companheiro. A fim de encontrar e validar variantes específicos de tumores reais, era necessário analisar a fonte destas chamadas e reduzi-los a um número manejável. Foram identificados 3 tipos principais de chamadas positivas falsas, dependendo da sua fonte: 1) falsos positivos relacionados com a variação entre as estirpes de ratinho, 2) de falsos positivos resultantes de erros de alinhamento, e 3) falsos positivos relacionados com a PCR duplicados provenientes de preparação da amostra combinada com erros de sequenciamento. Desenvolvemos diferentes pré e procedimentos de filtragem pós-detecção, a fim de contornar esses desafios.

Falsos Positivos relacionado à variação estrutural entre Laboratory mouse Cepas

variação estrutural entre linhagens de camundongos de laboratório comumente usados, semelhante a variação estrutural entre os seres humanos individuais, já foi documentada em grande detalhe [23], [24], [25]. Mais knock-in ratinhos, incluindo o utilizado neste estudo, pode ser classificada como estirpes híbridas, mesmo se os animais foram retrocruzados um número de vezes para o genoma estirpe de referência (C57BL /6J). Observado SVs pode ser maioritariamente atribuída à atividade retroelemento germinal, e se manifestam como inserções de SINE, linha e elementos de LTR, bem como genes intrões transcrita-inversa (retrogenes). Quando um conjunto de dados experimentais é comparado com o genoma de referência C57BL /6J, vários tipos de variantes estruturais são chamados. Mais comumente, inserções retroelemento presentes na referência, mas falta na estirpe de amostra, será chamado como deleções, enquanto os presentes na estirpe amostra, mas falta na referência, será chamado como translocações equilibradas. As inserções de retrogenes pode ser reconhecido como uma série de deleções que abrangem intrões, acompanhada por uma chamada translocação do cromossoma de origem para o cromossoma receptor (Fig. 4).

a) Inserção de retrotransposões num cromossoma diferente levando a uma chamada falsa translocação, B) de inserção retrotransposon ao mesmo cromossomo que o original que conduz a uma chamada falsa exclusão, C) Reverso gene intrões transcrito (retrogene) de inserção para um cromossomo diferente levando a pedidos de translocação e eliminação falsos.

para filtrar SVs germinativas descritos acima, descobrimos que é necessário para obter um conjunto de dados de controle por sequenciação tecido normal originários do mesmo animal. Neste estudo, um conjunto de dados de controlo foi preparada usando o tecido do fígado e em comparação com o conjunto de dados do tumor. Usando esta estratégia, fomos capazes de remover SVs mais germinativas. No entanto, certas VV não conseguiu ser detectado como da linha germinal, devido à falta de sobreposição entre o apoio pares de leitura. Portanto, achamos que é necessário examinar cada SV manualmente para sobreposição potencialmente perdeu com o controle. Mesmo após a aplicação do procedimento de comparação, uma série de eventos que identificou candidatos como de alta qualidade foram validados como da linha germinal (30% de intracromossómica e 50% de VV intercromossômicas). Este resultado pode ser atribuído a diminuir a cobertura no nosso conjunto de dados de controlo, que conduz à diminuição da sensibilidade de detecção de linha germinal SV. Aneuploidia do tecido tumoral (cópias adicionais de alguns cromossomos ou perda de outros) cria diferenças locais de cobertura entre o conjunto de dados do tumor e controle, o que aumenta a complexidade da análise (Fig. 2).

falsos positivos Decorrente da BWA erros de alinhamento

para remover falsos positivos relacionados com erros de alinhamento, testamos o efeito de BWA filtragem baseada pontuação de qualidade de mapeamento do número de chamadas resultante SV. Embora designar BWA autores lê com 0-10 qualidade de mapeamento como “unreliably mapeado” [26], encontramos a melhor gama de corte para o índice de qualidade de mapeamento em nosso experimento a ser 0-22 (Fig. 5). Para parcialmente correta para a remoção indesejada de candidatos reais SV em regiões genômicas menos exclusivas, chamadas com um grande número de pares de suporte de leitura foram examinados manualmente. No entanto, nenhum dos VV removidos examinados poderia ser designado como candidatos de elevada qualidade, uma vez que todas as regiões genómicas envolvidos de baixo mappability. Depois de aplicar esta ler mapeamento filtro de qualidade antes de qualquer outra filtragem é aplicada, o número de chamada SVs foi reduzida para 85% para intracromossómica e 36-39% para eventos intercromossômicas (Fig. 3).

Discordant lê com mapeamento qualidades acima de 22 são utilizados para esta análise (box).

para reduzir ainda mais o número de SV chama resultante do desalinhamento de leituras provenientes de regiões repetitivas, foi testada a estratégia de remoção de SVs com sobreposição com a RepeatMasker [27] e as repetições simples o controle do navegador UCSC Genome. Descobrimos que a estratégia RepeatMasker reduz o número de chamadas falsas positivas significativamente, mas filtra 12% dos rearranjos previamente validados, incluindo alguns com potencial importância biológica (por exemplo. Deleção Pten). Importante, lê vindo de regiões RepeatMasker anotada não são necessariamente difíceis de mapear, uma vez que esta faixa contém muitos elementos repetidos antigos que significativamente divergiram através da evolução. estratégia de filtragem RepeatMasker foi finalmente usado apenas para identificar candidatos elevados de confiança entre eventos intercromossômicas com baixos números de apoio pares de leitura. Em contraste com o RepeatMasker, sobreposição com repetições simples faixa foi encontrada para ser bem sucedido na filtragem de erro de alinhamento relacionada falsos positivos única.

Como uma outra estratégia de lidar com repetitivas relacionadas com elementos falsos positivos, testou-se a eficiência de SVs de filtragem contra as regiões mappability baixas, calculadas com base nos dados mappability do navegador UCSC Genome (ver Materiais e Métodos). Esta estratégia provou muito bem sucedido, removendo um número significativo de chamadas de falsos positivos, especialmente eficiente no caso de SVs intercromossômicas (Fig. 3).

Falsos Positivos relacionadas a erros na Duplicate Chamando

o curso da nossa análise, observamos falsos positivos chamados de pequenos grupos de 2 ou 3 pares de leitura, com ambas as leituras mapeamento nas posições 0-2 pb longe um do outro (Fig. 6). Como já foi discutido por outros no campo [28], a maioria destes “duplicados imperfeitas” provavelmente originado a partir de um fragmento de ADN e divergido quer durante a amplificação por PCR, talvez devido a cadeia molde deslizar, ou sequenciação de erros no início ou no final do ler durante o processo de seqüenciamento. Essas duplicatas de boa fé não pode ser removido usando ferramentas existentes, tais como MarkDuplicates de Picard já que eles não têm posições de mapeamento idênticos. Percentual de duplicatas imperfeitos parece estar correlacionada com o percentual de duplicatas PCR perfeitos: conjuntos de dados específicos com elevada percentagem duplicado perfeita irá mostrar maior percentual de duplicatas imperfeitos (M. Mijuskovic, não resulta parte deste estudo)

Três. leia pares, provavelmente proveniente de um fragmento de DNA, mostrando 1-2 deslocamento em coordenadas genômicas pb.

Foi definido duplicatas imperfeitos como pares com a mesma posição mapeamento de ambas as leituras com a possível diferença de até 2 pb. A detecção dessas duplicatas foi feito durante o agrupamento de pares de leitura discordantes por SVDetect ou BREAKDANCER, utilizando diferentes estratégias (ver Materiais e Métodos). Depois de aplicar este filtro, o número de intrachromosomal e intercromossômicas VV foi reduzida por 0,3-1,7% e 3,9-19,5%, respectivamente (Figura 3). É importante ressaltar que esses números podem subestimar a percentagem duplicado imperfeita total desde neste caso, eles foram detectados após a remoção de baixa qualidade mapeamento lê.

Validação Estrutural Variantes

Nós criamos a lista final de 61 SVs confiança em alta (ver Materiais e Métodos) após exame manual de 381 intracromossómica e 130 SVs intercromossômicas detectados pelo SVDetect e 328 intracromossómica e 64 SVs intercromossômicas detectados pelo BREAKDANCER obtido após a aplicação de nosso processo de filtragem. A maioria dessas chamadas, chamada por ambos os programas, foram encontrados para ser um resultado de erros de alinhamento relacionadas com repetições (59%), ou previamente SVS germinativas não identificados como retroelemento ou retrogene inserções (23%). BREAKDANCER detectado apenas um subconjunto de SVs elevados de confiança encontrados por SVDetect (47 de 61), antes mesmo de qualquer filtragem foi aplicada, talvez devido a diferenças no algoritmo de agrupamento.

Foi utilizado PCR para testar 57 intracromossómica e 4 SVs alta confiança intercromossômicas encontrados pelo BREAKDANCER e /ou SVDetect (Tabela S1). A partir deste conjunto, é validada 23 grandes deleções (1-539), 10 kb inversões, duplicações e 2 5 translocações que são específicos de tumor, e a especificidade dos produtos de PCR foi confirmada por sequenciação de Sanger (Tabela 3). Assim, 40 dos 61 SVs elevados de confiança identificados pelo nosso método, foram validados como SVs específicos de tumores. Os outros eventos 19 intrachromosomal e 2 intercromossômicas foram PCR validado como SVs germinativas. 16 dos 21 desses SVs tinham pelo menos um suporte par ler no conjunto de dados de controle original e não conseguiu ser detectada devido à nossa 2 apoio de corte ler. Esses falsos positivos podem ser evitados tanto por sequenciação do conjunto de dados de controle para maior cobertura, quando possível, ou examinar o conjunto de dados de controle usando o 1 de leitura par de corte.

Entre SVs específicas do tumor validados, encontramos vários inactivação de genes supressores de tumores, assim como alguns rearranjos do gene do receptor de antigénios esperados canónica (Tabela 3). Notavelmente, dois translocações específicas do tumor, duas inversões e um validados específicos de tumores duplicação mostram sinais de um rearranjo complexo [29].

Conclusões

Em primeiro lugar, nosso trabalho mostra que simula emparelhado-end sequenciamento pode ser uma forma eficaz de desenvolver a estratégia de análise, prever a cobertura necessária para detectar pontos de interrupção de DNA em ambientes genômicas diferentes e para separar as fontes de chamadas de falsos positivos em amostras relacionadas e aqueles que surgem devido a artefactos de análise.

em segundo lugar , verificou-se que um conjunto de dados de controle obtidos a partir do mesmo animal é essencial para reduzir um grande número de VV da linha germinativa que existem entre as estirpes de ratinho de laboratório vulgarmente usados, mesmo nos casos em que os animais são retrocruzados um número de vezes com a estirpe genoma de referência.

em terceiro lugar, nós definimos dois tipos de duplicada lê levando a previsão SV falsa, ambos resultantes de PCR excesso de amplificação durante a preparação da amostra: duplicatas perfeitas, com correspondência coordenadas genômicas, e aqueles com 1-2 pb coordenada compensado que não são detectados, utilizando as ferramentas existentes. Nós apresentamos um método para remover SVs decorrentes destes lê usando SVDetect ou BREAKDANCER.

Em quarto lugar, descobrimos que a remoção lê com baixa qualidade de mapeamento BWA, bem como chamadas SV que se sobrepõem com regiões genômicas de baixa mappability, é uma maneira muito eficiente para filtrar nossos grandes números de falsos positivos que surgem devido a erros de alinhamento.

Finalmente, usando este método, nós validamos um número bastante grande de verdadeiros SVs específicas do tumor a partir de um pequeno conjunto de dados. Começando com um grande número de eventos candidatos, fomos capazes de se desfazer rapidamente maioria dos falsos positivos e se concentrar em um número manejável de candidatos para análise manual (~ 5% do número inicial de chamadas a partir deste conjunto de dados). Nós validado o nosso método de filtragem com dois programas de detecção SV amplamente usados, SVDetect e BREAKDANCER, mostrando que é universalmente aplicável, ao invés de ser restrito a um único programa e suas possíveis falhas. O número final de candidatos acontecimentos, bem como o número de falsos negativos, é uma função de cobertura e o rigor de parâmetros de filtragem. Dependendo das necessidades da experiência, estes parâmetros podem ser ajustados para um nível desejado, a fim de atingir um número aceitável de falsos positivos contra falsos negativos.

O método deve ser aplicável para trabalhos futuros em organismos-modelo como bem como em tumores humanos. No contexto clínico, uma maior cobertura seria necessário para reduzir o número de SVs germinativas não detectados, bem como para melhorar a detecção de SVs somáticas baixa frequência.

Materiais e Métodos

Simulação Sequencing PE dados

conjuntos de dados de sequenciamento simulado PE foram criados com base em um genoma de referência rato mutante (MM9) contendo 10 translocações e 10 grandes deleções introduzidas utilizando as ferramentas grava (https://emboss.sourceforge.net). arquivos de formato Illumina fastq foram escritos utilizando o nosso programa PE.pl (https://sourceforge.net/projects/svdetection) que seleciona posições aleatórias no genoma fornecido pelo usuário, normalizados para diferentes comprimentos de cromossomos. parâmetros definidos pelo usuário incluem o número de pares de leitura, leia comprimento, tamanho médio de inserção e desvio padrão.

A obtenção de dados experimentais

Thymoma e fígado tecido (controle) foram colhidas a partir de um RAG2

c /cp53

– /- rato [22], uma cepa híbrida 129SvEv /C57BL6 e DNA genômico foi purificado usando Blood Cultura Celular DNA Maxi Kit (Qiagen, # 13362). bibliotecas de gama emparelhado foram gerados a partir de 1 ug de material de partida genómico a partir de ambos os tecidos utilizando TruSeq ADN Amostra V2 Prep Kit (Ilumina, # FC-121-2001) de acordo com as recomendações do fabricante. A amplificação por PCR de DNA ligado óptima-adaptador foi determinada utilizando um sistema de DNA FlashGel (Lonza, # 57026). As bibliotecas foram analisados ​​quanto à distribuição de tamanho usando Agilent Bioanalyzer 2100 (Agilent Technologies, # 5067-4626) e a concentração de ADN foi determinada utilizando Qubit dsDNA HS Assay Kit (Life Technologies, # Q32851). As amostras foram sequenciados na Illumina HiSeq 2000 utilizando TruSeq PE Kit Cluster v3 (Illumina, # PE-401-3001) e TruSeq SBS Kit v3 (Illumina, # FC-401-3002), de acordo com as recomendações do fabricante. Duas pistas foram usadas para sequenciar o tumor e uma pista para a biblioteca de ADN de controlo (SRA número de acesso: SRA055958).

PE Leia Alinhamento e Qualidade de filtragem

arquivos Fastq foram gerados usando Casava 1.8 ( Illumina) e lê foram alinhadas usando BWA [26]. Arquivos de saída foram manipulados por Samtools como necessário [30]. duplicatas PCR perfeitos foram removidos usando a ferramenta MarkDuplicates de Picard (https://sourceforge.net/apps/mediawiki/picard). BWA-designado pares de leitura concordantes e ler pares com índices de qualidade de mapeamento baixos BWA foram removidos usando o nosso próprio software (https://sourceforge.net/projects/svdetection), conforme necessário.

Chamando estrutural Variantes e removendo Imperfect duplicatas

SVDetect [20] ou BREAKDANCER [21] foram usadas para chamar intracromossómica e rearranjos intercromossômicas de discordante, qualidade de pré-filtrada ler pares. O tamanho médio de inserção e desvio padrão utilizado nesta análise foram obtidos pela ferramenta InsertSizeMetrics de Picard (https://sourceforge.net/apps/mediawiki/picard). SVDetect e BREAKDANCER foram configurados para detectar rearranjos com 2 ou mais de apoio de pares lidos usando 8 vezes o desvio padrão como limiar para ambas as deleções e duplicações. função SVDetect built-in “comparar” foi usado para comparação dos conjuntos de dados de tumor e controle. Ao comparar as chamadas, a opção para comparar apenas o mesmo tipo SV foi desligada. Para a detecção de SV com BREAKDANCER, tumor de comparação normal foi feito usando BEDTools [31].

Para remover duplicatas de PCR com 1-2 deslocamento em coordenadas ( “duplicatas imperfeitas”) bp, nós manipulamos o arquivo de saída criado pelo o SVDetect função “ligar” utilizando o nosso próprio software (https://sourceforge.net/projects/svdetection). Este arquivo lista os conjuntos de pares de leitura que apoiam o mesmo rearranjo e contém coordenadas do indivíduo de apoio lê. Pares, onde ambas as leituras são posicionados 0, 1 ou 2 pares de bases de distância um do outro, na mesma orientação, foram removidos como duplicados imperfeitos. Na análise SV baseado em BREAKDANCER, nós mudamos o SV mínimo ancoragem definição da região a 3, a fim de evitar SVs sendo chamado de aglomerados de duplicatas PCR imperfeitos. Também examinamos lê apoio chamadas SV em arquivos de cama BREAKDANCER produzidos e usados ​​nosso próprio software para remover todos os SVs resultantes de duplicatas imperfeitos (https://sourceforge.net/projects/svdetection).

Definir alta confiança SV os candidatos

variantes estruturais chamados por SVDetect foram adicionalmente filtrados com base na sobreposição com as zonas de baixa mappability, repetições simples e dados RepeatMasker extraídos da Tabela navegador UCSC [32]. Sobreposição entre estas regiões e links SVDetect foi avaliada usando ferramentas Galaxy [33], [34], [35]. regiões de baixo mappability foram montados como intervalos adjacentes de 50 pb com Duke ENCODE pontuações singularidade inferior a 0,5 (a sequência de 50 pb ocorre mais de 2 vezes no genoma). SVs com ligações sobrepostas estas regiões foram removidos, com o ponto de corte em 85% e 50% de sobreposição para eventos intrachromosomal e intercromossômicas, respectivamente. Para sobreposição com regiões de repetição simples, o corte foi de 50% ou superior. RepeatMasker sobreposição foi utilizado como um filtro apenas para eventos intercromossômicas suportados por 2 ou 3 pares de leitura, com o ponto de corte definido para 80%. Para eventos intrachromosomal, a filtragem personalizado adicional foi aplicado para remover VV chamados a partir de pares de leitura que derivam de fragmentos de ADN que diferem da gama de tamanho de biblioteca inserto esperado que não foram removidas pelo nosso corte desvio padrão. Para dar conta disso, corte o tamanho exclusão foi definido para 600 pb e duplicação de 300 pb.

SVs específicos do tumor chamado por SVDetect e BREAKDANCER foram finalmente examinou manualmente para gerar a lista de candidatos de alta confiança. SVs provenientes de erros de alinhamento (relacionado a regiões genômicas repetitivos), falhou-tumor controle de filtragem de comparação, bem como SVs germinativas (retroelemento e retrogene inserções) foram retirados da lista ou designados candidatos tão baixos de confiança.

Validação

Deixe uma resposta