PLOS ONE: Mutação Descoberta em regiões de segmentar Cancer Genome amplificações com Conan-SNV: Um modelo de mistura for Next Generation Sequencing de Tumors

Abstract

A próxima geração seqüenciamento agora tem permitido uma enumeração rentável do total complemento mutacional de um genoma-in particulares variantes de nucleotídeo único (SNVS) tumor. A maioria dos modelos computacionais e estatísticos existentes para análise de dados de próxima geração seqüenciamento, no entanto, não levam em conta as propriedades biológicas específicas do cancro, incluindo alterações no número de cópias segmentar somática (CNAs) -que requerem tratamento especial dos dados. Aqui nós apresentamos Conan-SNV (Copie Número Annotated SNV): um novo algoritmo para a inferência de variantes de nucleotídeo único (SNVS) que se sobrepõem alterações no número de cópias. O método baseia-se na modelação da noção de que as regiões genómicas de duplicação segmentar e amplificação induzir um espaço alargado genótipo em que um subconjunto de genótipos irá apresentar distribuições alélicas fortemente distorcidos em SNVS (e, por conseguinte, torná-los não detectável por métodos que assumem diploidia). Nós introduzimos o conceito de modelar contagens alélicas a partir de dados de sequenciação utilizando um painel de modelos de mistura binomial onde o número de misturas para um dado locus do genoma é informado por um discreto estado do número de cópias dado como entrada. Nós aplicamos Conan-SNV a um conjunto de dados espingarda todo genoma publicado anteriormente obtido a partir de um cancro da mama lobular e mostrar que é capaz de descobrir 21 experimentalmente revalidadas mutações não sinónimas somáticas num genoma do cancro da mama lobular que não foram detectados utilizando número de cópias insensível SNV algoritmos de detecção. Mais importante, a análise ROC mostra que o aumento da sensibilidade de Conan-SNV não resulta em perda de especificidade desproporcionada. Este foi também apoiada pela análise de um genoma linfoma recentemente publicado com um cariótipo relativamente quieta, onde Conan-SNV mostrou resultados semelhantes a outros chamadores, exceto em regiões de cópia ganho número onde o aumento da sensibilidade foi conferido. Nossos resultados indicam que em tumores genomically instáveis, número de cópias de anotações para a detecção SNV será fundamental para caracterizar completamente a paisagem mutacional de genomas do câncer

Citation:. Crisan A, Goya R, Ha G, Ding J, Prentice LM , Oloumi A, et al. (2012) Mutação Descoberta em regiões de segmentar Cancer Genome amplificações com Conan-SNV: Um modelo de mistura for Next Generation Sequencing de tumores. PLoS ONE 7 (8): e41551. doi: 10.1371 /journal.pone.0041551

editor: Chad Creighton, Baylor College of Medicine, Estados Unidos da América

Recebido: 30 de Junho de 2011; Aceito: 27 de junho de 2012; Publicado: 16 Agosto 2012 |

Direitos de autor: © Crisan et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi financiado pela Fundação do Câncer (bolsa para SPS) Canadian Breast, e os Institutos canadenses de Pesquisa em Saúde da Universidade de programa de treinamento British Columbia /Simon Fraser University Bioinformática (bolsa de estudos para AC). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

os recentes avanços no genoma métodos de sequenciamento de curto ler massivamente paralelos (os chamados próxima geração seqüenciamento (NGS)) têm colocado a meta de delimitação completa das paisagens do genoma do câncer até a resolução de nucleotídeo único ao alcance prático. Novos métodos para a análise de dados de sequências curtas de leitura são necessárias, no entanto, em particular, aqueles que são capazes de lidar com as paisagens genómicas complexos de tumores. genomas do câncer submetidos a diversas formas de aberração somática, incluindo mutações de nucleotídeo único, translocações, fusões de genes, deleções, inversões e alterações no número de cópias segmentar genoma (CNAs). Vários tipos de aberração somática foram relatados para ocorrer em conjunto: por exemplo, Kadota et al. [1] observaram mutações recorrentes em

PIK3CA

no cancro da mama com o alelo amplificações específicas do alelo mutante nos mesmos tumores e sugeriu que

PIK3CA

mutações pontuais com a amplificação concomitante CNA resultou em efeitos sinérgicos oncogênicos . Da mesma forma, LaFramboise et ai. [2] apresentaram amplificação alelo específico de

EGFR

alelos mutantes em uma linha de células de câncer de pulmão; exemplos de amplificação co-ocorrendo com mutações somáticas no

MYC

[3],

HRAS

[4], e

TEM

[5] também foram observadas. A co-ocorrência de variantes de um único nucleotídeo nas regiões de amplificação do número de cópias segmentar coloca problemas especiais, porque misturas desconhecidas de abundâncias de alelos poderiam resultar do processo de amplificação de segmentar e /ou posterior seleção, em alguns casos de confusão de interpretação. Isto é porque as misturas de alelos em qualquer uma posição pode ser enviesada, resultando em um desvio da frequência teórica (0,5) para as variantes heterozigotos esperados em genomas diplóides. A Figura 1 mostra um exemplo do cromossoma 19 de um genoma de carcinoma de mama lobular relatado em Shah et ai. [6] e ilustra uma distorção na frequência alélica longe de heterozigosidade devido a uma amplificação do número de cópias específica de alelo em 19q. Tanto a análise de frequência B-alelo na matriz de dados e análise proporção alélica nos dados NGS apoiar uma amplificação mono-alélica em 19q nesse genoma. Nós relatamos neste papel que este evento abriga 7 mutações somáticas co-existentes (ver resultados) em genes (anotados na karyogram) que são indetectáveis ​​pelos métodos analíticos que assumem diploidia. métodos variantes chamando precisos e sensíveis podem, portanto, requerem a inclusão conceitual de número de cópias segmentar co-existente variantes (somática ou germinal) na interpretação das freqüências alélicas medidos a partir de dados NGS. matrizes de genotipagem de alta densidade têm permitido para quantificação de CNAs específica de alelo, incorporando número de cópias com o genótipo alélicas. Algoritmos como [7] QuantiSNP, Vanilla Ice [8], Birdsuite [9], PennCNV [10] e piquenique alelo-específico [11] modelo de CNAs, alargando o espaço de estado genótipo dos três genótipos diplóides convencionais: aa (homozigotos para grande alelo), ab (heterozigotos) e bb (homozigoto para menor alelo). Para as regiões amplificadas número possível expandir genótipos naturalmente, por exemplo, um ganho de cromossoma triplóides ou segmentar pode ter os seguintes genótipos:. Apesar dos conhecimentos adquiridos através desses métodos, todos são, em última análise limitada pela resolução e escopo do projeto matriz. Mais importante ainda, a descoberta de novas mutações pontuais somáticas não é geralmente possível com as plataformas de matriz. geração de sequenciamento próxima supera estas limitações desde o seqüenciamento do genoma inteiro shotgun (WGSS) pode interrogar o genoma inteiro e revelar mutações somáticas no loci não abrangidos por matrizes. Além disso, a frequência de alelos em uma dada amostra é um exercício de contagem digital de cuja amplitude dinâmica não é restrito por hibridação e de intensidade de fluorescência de saturação e de sensibilidade restrições.

A amplificação de alto nível somática do braço 19q é confirmado em NGS, bem como dados SNP6.0 Affymetrix. variantes somáticas novos que eram indetectáveis ​​pelo chamador variante samtools ou SNVMix são destacadas na karyogram. A) e B) indicar o número de registo cru cópia e intensidade b alelo, respectivamente, para DNA normal (do mesmo paciente) sobre Affymetrix SNP matriz 6.0. A cor azul indica diplóide estado número (neutro) cópia; mais brilhante a cor de vermelho quanto maior o nível de amplificação. As três bandas distintas em (B) indicam a presença de alelos que abrigam um dos três genótipos diplóides: AA, AB e BB. C) e D) mostra o número de cópia do tumor metastático e b intensidade alelo respectivamente. A amplificação de alto nível no braço 19q é acompanhado por intensidades de alelos B que mostram a ausência da banda AB heterozigotos (meio) que estava presente no normal. E) mostra contagens alélicas de próxima geração seqüenciamento para as posições representadas na matriz como uma proporção de profundidade; a proporção alélica é calculado pela soma do número total de leituras contendo uma variante em cada posição dividida pela profundidade total nessa posição. F) mostra a cópia em bruto a partir dos dados NGS anotados com as informações amplificação e indica os mesmos locais de amplificação reveladas pela plataforma de matriz ortogonal.

Vários genomas do câncer foram agora profundamente sequenciado com NGS e analisadas para CNAs e SNVS usando independentemente abordagens de bioinformática seguido de validação alvo para confirmar alterações somáticas. Estes estudos têm revelado novas mutações pontuais somáticas em leucemia mielóide aguda [12], [13], o cancro da mama [6], [14], câncer de ovário [15], melanoma [16], linfoma [17] e câncer de pulmão [18 ]. Trabalho por Pleasance et al. [16], Chiang et ai. [19] e nosso próprio trabalho [6] sugerem que CNAs pode ser inferida a partir de dados de sequência, no entanto nenhum desses estudos usaram algoritmos que integram explicitamente CNAs para informar a inferência de SNVS. Aqui demonstramos como a incorporação de informações CNA na descoberta SNV em rendimentos de dados de sequências do genoma do câncer novas mutações somáticas adicionais que eram indetectáveis ​​usando algoritmos de previsão SNV convencionais concebidos para genomas diplóides normais.

Estudos como Ding et al. [14] e nossa própria [6] usaram ultra-sequenciação amplicon profunda direcionados para estimar a frequência de mutações na população de células tumorais, a fim de detectar as populações de células clonais sub-dominantes ou raras. Aqui nós mostramos que os rácios de alelos não-diplóides também pode surgir a partir de regiões do número de cópias perturbações associadas de abundância alélicas. Conclui-se que a consideração de os resultados das cópias número no aumento da sensibilidade para detectar tanto da linha germinativa e variantes somáticas em regiões não-diplóides de genomas do câncer.

Resultados

O modelo Conan-SNV

para resolver o problema dos estados alélicas em regiões de número de cópias aberração, foi desenvolvido um novo modelo, Conan-SNV, projetado para incorporar o conhecimento de cópia estado número nas posições individuais. Representado esquematicamente na Figura 2A, e como um modelo gráfico probabilística generativo na Figura 2B, o modelo utiliza um Bayes hierárquica [20] quadro independência condicional para estimativa de parâmetros e de inferência. Conan-SNV relaciona-se com o modelo descrito na SNVMix1 Goya et ai. [21], mas com diferenças importantes; ou seja, que não SNVMix1 não codificar o número da cópia altera comumente encontrados em genomas de cancro (tal como a amplificação de 19q mostrado na Figura 1). Para superar essa limitação, Conan-SNV insere um conjunto de contagens alélicas e um estado do número de cópias discreta para cada posição nos dados. Um exemplo das entradas e de saída é mostrado na Figura 2C. O objetivo é de prever que, a partir de um número fixo de genótipos (informado pelo Estado de número de cópias), seria mais provável que deram origem aos condes alélicas observadas em uma determinada posição. As contagens alélicas são representadas como o número de leituras em cada posição que corresponde à referência, onde

T

é o número total de posições na entrada. Deixamos que representam o número total de leituras alinhados à posição

i

(ou a profundidade) na entrada. Nós introduzir-se como o estado do número de cópias na posição

i

, e assumimos é conhecido em tempo de execução. Teoricamente, todo o espaço de estados alelo pode ser inferida com o conhecimento do número de cópia absoluta, no entanto métodos para a determinação do número de cópia absoluta a partir de dados aCGH continua a ser problemático e, na prática, é improvável que todos os estados poderiam ser resolvidos mesmo com as profundidades de amostragem actuais de NGS (ver discussão). estado do número de cópias, por conseguinte, numa primeira aproximação, nós definimos,, onde a perda corresponde a uma deleção, NEUT é número de cópias neutro, ganho aproxima a uma duplicação do nível baixo, AMP aproxima-se de amplificação de baixa intermédia e HLAMP é um número de cópias alto nível amplificação. Aqui usamos o método baseado em HMM descrito por [6]. Eles intuição fundamental do modelo Conan-SNV é que informa o espaço de estado de possíveis genótipos na posição

i

da seguinte forma: (1) segmentos perdas são analisados ​​com um estado-espaço neutro, pois apresentam desafios que exigem considerações que são separadas das amplificações e na verdade pode até mesmo exigir um genoma normal de cortesia. Resulta em ganhos de número de cópias é especialmente importante quando tais alterações são alelo específico, e quando o alelo que é amplificado é o alelo de referência. Por exemplo, considerar o caso em que, este irá induzir um espaço de estado de genótipo. Nosso modelo é, portanto, teoricamente capaz de detectar variantes com distribuições alélicas inclinado longe de heterozigosidade (isto é,

AAAAB

ou

abbbb

). Nós vamos representar o parâmetro da distribuição binomial que codifica a proporção esperada de leituras correspondentes na sequência de referência, para um estado determinado número de cópia e estado genótipo. Podemos, portanto, expressar a probabilidade de observar o número de referência lê dada a profundidade, o estado do número de cópias, o genótipo e os parâmetros do modelo da seguinte forma: (2) assumindo assim que é distribuído de acordo com a distribuição binomial estado-específicos indexados pelo genótipo

e

número de cópias. Nós também codificam uma cópia-número específico antes sobre genótipos, assumindo que os genótipos para número de cópias do estado c são distribuídos de acordo com uma distribuição Multinomial com o parâmetro para todos, onde é o número total de posições com o estado do número de cópias. Nós usamos a regra de Bayes para calcular a probabilidade posterior que o genótipo

k

deu origem aos dados observados com a codificação explícita de estado do número de cópias: (3) onde é o número de possíveis genótipos para o estado do número de cópias

c

(ver Equação (1)). Dado, que pode então escolher para calcular: onde representa qualquer estado genótipo variante (ou seja, qualquer estado que não é

aa,

aaa

,

aaaa

, etc. como o caso) para representar um único probabilidade de que uma posição codifica uma SNV.

a) a expansão de espaço de estados genótipo Conan-SNV mostrado esquematicamente. Como os níveis mais elevados de amplificação são encontrados, um estado-maior espaço genótipo é necessário para acomodar os diferentes eventos que podem surgir devido a amplificações (exemplos na figura S1). B) Conan-SNV generativa modelo gráfico probabilística. Os círculos representam variáveis ​​aleatórias, e quadrados arredondados representam constantes fixas. nós sombreadas indicam dados observados, tais como a contagem alélicas, enquanto os nós brancas indicam quantidades que são deduzidas durante o treinamento embora maximização expectativa. (. Definido pelo HMM descrever em Shah et ai, [6]) representa os estados CNA de um segmento que se estende das posições

i

; representa o genótipo, que varia dependendo do estado CNA; é o número de leituras e é o número de referência lê; é anterior existente ao longo dos genótipos e se estende para acomodar CNA afirma; e é o parâmetro binomial específicas de genótipo para genótipo k no estado CNA Ci. C) Exemplo de entrada e saída Conan-SNV. Conan-SNV toma conta alélicas e assim é segmentar dados CNA como entrada, enquanto SNVMix requer apenas contagens alélicas. As mesmas posições e as contagens são fornecidos para ambos os algoritmos, com resultados diferentes. Em alguns casos Conan-SNV vai chamar uma variante com um

AAAAB

ou

aaab

genótipo, que de outra forma seria perdida por SNVMix; também, no entanto, Conan-SNV também genótipo A posição com

abbbb

em vez de

bb

(como SNVMix [21] faria), o que permite uma melhor interpretação dos eventos.

Hyperpriors e hiperparâmetros.

Nós assumimos é distribuído de acordo com uma distribuição Dirichlet conjugado com parâmetros. Este é um parâmetro definido pelo usuário. Em nosso estudo, definido de modo a favorecer os estados não variantes desde a maioria das posições no genoma será homozigoto para a sequência de referência (ou seja, do tipo selvagem). Assumimos é distribuído de acordo com uma distribuição conjugada Beta com os parâmetros. Nós definimos usando a intuição biológica que posições de referência homozigotos será quase “pura”, com a diminuição da proporção para posições variantes homozigotos. Todas as configurações hiperparâmetro são apresentados na Tabela S1.

Modelo montagem e de estimativa de parâmetros.

Tendo em conta os parâmetros do modelo livres, podemos mostrou como usar as equações (3) e (4) para inferir para todas

i

nos dados de entrada. Tal como demonstrámos em [21], é vantajoso ajustar o modelo para os dados utilizando maximização expectativa (EM) para aprender. Para Conan-SNV, nós tratamos os dados em cada estado do número de cópias separadamente e executar EM para cada conjunto de dados de forma independente (ver Métodos). Nós descrevê-lo brevemente aqui. Vamos representar o conjunto completo de posições nos dados de entrada anotados com o estado do número de cópias

c

. Iteração sobre os estados de número de cópias, o E-passo consiste no cálculo usando a Equação (3) para cada posição, e as estimativas atuais de. Os M-passo re-estimativas com atualização conjugado padrão: (5) (6) O algoritmo continua até registrar os dados completos posteriores aumentos já não ou um número máximo de iterações foi atingido

Conan-SNV desempenho. em dados simulados.

Foram simulados cerca de 1000 posições para cada estado do número de cópias para treinar o modelo e, em seguida, avaliou o desempenho em 100 conjuntos de testes simulados, que também contou com 1000 posições por estado do número de cópias. Posições foram simuladas de acordo com uma distribuição binomial, onde foi derivada dos hiperparâmetros descritos na Tabela S1, com profundidade simulados a partir de uma distribuição de Poisson. A distribuição dos genótipos em cada um dos estados de número de cópias simulados foram amostrados aleatoriamente de acordo com (também calculado a partir dos hiperparâmetros). Os intervalos médios de AUC e 95% de confiança, ao longo com a sensibilidade em três diferentes valores falsos positivos de taxa (0.01,0.05 e 0,1) foram calculados para cada CNA de estado e são mostrados na Tabela S2. Conan-SNV e SNVMix teve desempenho quase idêntico nos diferentes estados de número de cópias, no entanto Conan-SNV tinha melhorado sensibilidade no mais alto estado de CN. Para o estado CN 5, a valores de taxa de falsos positivos de 0,01, 0,05 e 0,1, Conan teve uma sensibilidade média de 0,77, 0,84 e 0,88 enquanto SNVMix teve sensibilidade de 0,72, 0,78 e 0,82. Estes resultados não foram estatisticamente significativos, mas eles estabelecem a melhoria marginal de Conan-SNV sobre SNVMix sem qualquer perda de especificidade.

Validação experimental do modelo de Conan-SNV

Para determinar a sensibilidade e especificidade of Conan-SNV em dados tumorais reais, aplicou-se o modelo para o carcinoma lobular metastático publicado anteriormente em [6] e, posteriormente, re-sequenciaram todos os novos previsões feitas pelo modelo para estabelecer a sua precisão. O genoma foi dividido em segmentos discretos CNA usando um modelo de Markov oculto, tal como descrito em [6] e exibiu uma paisagem variável CNA. Como relatado anteriormente, 30,2% do genoma foi previsto como perda /ganho neutro, foi 44,5%, 19,1% de amplificação e a amplificação de alto nível de 4,2% (ver Tabela S3). O perfil de número de cópia foi consistente com os dados de que derivados a partir da matriz de genotipagem Affymetrix SNP6 (Figura 1) confirmar que as regiões previstos de variações no número de cópias não foram induzidos pela plataforma Illumina sequenciação. A Figura 1 mostra cromossoma 19 e destaca um exemplo de um alto nível de amplificação somática no braço 19q que também demonstra uma distorção na frequência alélica, longe de heterozigosidade, devido a uma amplificação do número de cópias específico de alelo. Tanto a análise de frequência B-alelo na matriz de dados e análise proporção alélica nos dados NGS apoiar uma amplificação mono-alélica em 19q nesse genoma. A re-análise do genoma com Conan-SNV fizeram um total de 61.643 SNV chama em regiões ex�icas do genoma (NCBI construir 36,1, anotações V51 ENSEMBL); comparado com 58,518 previsões por SNVMix [21] e 51.085 com os samtools mpileup chamador variante [22]. A Figura 3 mostra sobreposição entre Conan-SNV, samtools e previsões SNVMix. Um total de 49,966 previsões eram comuns a todos os três métodos sugerindo acordo global razoável. No entanto, 2.857 previsões eram específicos de Conan. Em contraste, apenas 781 posições eram específicos para samtools e 64 eram específicos para SNVMix. A Figura 3A mostra as sobreposições entre Conan-SNV, samtools e SNVMix. regiões neutras abrigava previsões específicas Conan-191, enquanto Gain, amplificação e alto nível amplificações abrigava 977, 5

Deixe uma resposta