PLOS ONE: determinação de padrões freqüentes do número de cópias Alterações em Câncer

progressão Cancer Abstract

é muitas vezes impulsionado por uma acumulação de alterações genéticas, mas também acompanhada por aumento da instabilidade genômica. Estes processos levam a uma paisagem complicada de alterações no número de cópias (CNAs) dentro de tumores individuais e grande diversidade em toda amostras de tumor. Alta resolução de matriz à base de hibridização genômica comparativa (aCGH) está sendo usado para o perfil CNAs de coleções tumorais cada vez maiores, e melhores métodos computacionais para o processamento desses conjuntos de dados e identificação de CNAs motorista potenciais são necessários. estudos típicos de conjuntos de dados aCGH ter uma abordagem gasoduto, começando com a segmentação de perfis, as chamadas de ganhos e perdas e, finalmente, a determinação de CNAs frequente em toda amostras. Uma desvantagem de gasodutos é que as escolhas em cada etapa podem produzir resultados diferentes e preconceitos são propagadas para a frente. Nós apresentamos um novo método matematicamente robusta que explora as correlações de nível sonda em dados aCGH para descobrir subconjuntos de amostras que exibem CNAs comum. Nosso algoritmo está relacionada com trabalhos recentes sobre agrupamento máxima margem de lucro. Ele não necessita de pré-segmentação dos dados e fornece também agrupamento de CNA recorrente em aglomerados. Nós testamos a nossa abordagem em uma grande coorte de amostras aCGH glioblastoma do The Cancer Genome Atlas e recuperou quase todo CNAs relatados no estudo inicial. Encontramos também CNAs adicional significativo perdeu pela análise original, mas apoiada por estudos anteriores, e identificamos correlações significativas entre CNAs

Citação:. Rapaport F, Leslie C (2010) determinação dos padrões freqüentes do número de cópias Alterações na Cancer . PLoS ONE 5 (8): e12028. doi: 10.1371 /journal.pone.0012028

editor: Jean Peccoud, Virginia Tech, Estados Unidos da América

Recebido: 27 Abril de 2010; Aceito: 02 de julho de 2010; Publicação: 12 de agosto de 2010

Direitos de autor: © 2010 Rapaport, Leslie. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada pela National Science Foundation subvenção IIS-0705580 e National Institutes of Health conceder 1-U24-CA143840. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Os cânceres são um conjunto complexo de doenças de proliferação cuja progressão, na maioria dos casos, é impulsionado em parte por uma acumulação de alterações genéticas, incluindo as aberrações do número de cópia (CNAs) de regiões genômicas grandes ou pequenos [1], [ ,,,0],2], [3], que podem por exemplo conduzir a amplificação de oncogenes ou perda de genes supressores de tumores. No entanto, a progressão do câncer também é frequentemente caracterizada pelo aumento da instabilidade genômica, potencialmente gerando muitas CNAs “passageiro” que não conferem vantagem de crescimento clonal. Estes processos dão origem a uma paisagem complicada de alterações genômicas dentro de um tumor individual e grande diversidade destes CNAs em todo amostras de tumores, o que torna difícil identificar mutações driver associado com a progressão do câncer.

Nos últimos anos, array-based hibridação genómica comparativa (aCGH) [4], [5] e polimorfismo de um único nucleótido (SNP) matrizes [6] foram usados ​​para analisar a CNA de amostras de tumor a uma escala genómico e em resoluções progressivamente maiores. Além disso, estudos de perfis numerosos tumores em larga escala têm gerado conjuntos de dados de número de cópias para grandes grupos de tumores [7], [8]. Estes grandes e complexos “do genoma do câncer” conjuntos de dados estatísticos apresentam desafios difíceis [9]. ANC indivíduo pode ser tão pequeno como alguns sondas adjacentes ou tão grande como um todo cromossomas e pode ser difícil de detectar acima do ruído de nível de sonda; Além disso, não está claro como fazer sentido fora de diversa CNAs de centenas de tumores

Normalmente, dois tipos de análises foram realizadas em conjuntos de dados de número de cópias:.

agrupamento de amostras por sua CNAs, para determinar possíveis subtipos de tumores caracterizados por um padrão comum de amplificações e exclusões;

determinar as aberrações genéticas significativas, quer ganhos ou perdas, que ocorrem com freqüência no conjunto de dados, uma vez que estes podem representar mutações importante motor de a progressão do tumor

Quase sempre, estes problemas são enfrentados com uma abordagem de pipeline, onde os perfis aCGH de cromossomos para amostras individuais são primeiro processados ​​por um algoritmo de segmentação.; segmentos individuais (regiões genômicas) são “chamados” como ganhos ou perdas, com base na sua amplitude, usando uma escolha de procedimento estatístico e o limiar de significância; e, finalmente, os chamados segmentos são usados ​​como entrada para um algoritmo de agrupamento [1], [10], [11] ou o método de pontuação baseada para determinar aberrações comuns significativos [12], [13], [14]. A desvantagem de abordagens de dutos, no entanto, é que as escolhas de algoritmos e parâmetros de ajuste em cada etapa podem produzir resultados muito diferentes, e os erros ou desvios são propagadas para a frente.

Para a primeira etapa, existem inúmeros algoritmos de segmentação [15 ], [16], [17], [18] que produzem significativamente diferentes limites do segmento [19], levando a diferentes chamadas de ganhos e perdas. A etapa final da análise CNAs através amostras depende criticamente sobre as escolhas feitas anteriormente. Como um exemplo, o método GISTIC amplamente utilizada para determinar as aberrações frequentes [12] usa como estatística de teste, em cada locus, o número de amostras em que um ganho (ou perda) está presente multiplicado pela amplitude média do ganho ( perda). No entanto, tanto a contagem e a amplitude média dependem de escolhas anteriores no oleoduto.

Neste estudo, propomos um método novo e matematicamente robusta para encontrar padrões significativos de CNAs em um grande número de cópias de dados criados diretamente do os dados de nível de sonda. Ao evitar uma abordagem de pipeline envolvendo um passo de segmentação, nosso algoritmo explora as correlações de nível sonda em dados aCGH para descobrir subconjuntos de amostras que exibem CNAs comum. Ao aplicar a abordagem de uma forma hierárquica para dividir de forma iterativa do conjunto de dados, descobrimos dois eventos de grande e pequena escala e pode detectar CNAs estatisticamente significativas ocorrendo em 5% das amostras. Desta maneira, o algoritmo trata tanto o problema de agrupamento e o problema frequente aberração ao mesmo tempo. Algoritmos, a nossa abordagem está relacionada com o trabalho recente na máxima margem de agrupamento [20], [21], [22], [23], que se estende a otimização da máquina-like de vetores de suporte abordagens para o problema de aglomeração sem supervisão. Isto é, cada partição do conjunto de dados é conseguida através da aprendizagem um classificador linear da sonda de nível aCGH perfis que atribui amostras para um grupo ou outro. Nós também construir sobre as idéias desenvolvidas para classificação supervisionada de amostras aCGH [24], [25], [26], [27], em particular, o uso de constante peça-sábio e lasso [17], [26], [28 ] termos de regularização do problema de otimização, que incentiva o classificador para tomar decisões usando apenas um pequeno número de sondas em regiões contíguas informativos.

Nós testamos a nossa abordagem em uma grande coorte de amostras aCGH glioblastoma recentemente gerado pelo câncer Projeto genoma Atlas (TCGA) [7]. Descobrimos que os principais CNAs detectados pelo nosso algoritmo são razoavelmente consistentes com o estudo original TCGA, em que quase todos os CNAs relatado anteriormente também foram em nossos resultados. No entanto, encontramos CNAs adicionais significativas não atendidas pela análise TCGA mas apoiadas por estudos anteriores análises e /ou expressão. Além disso, a abordagem de particionamento hierárquico resume os relacionamentos estabelecidos e dependências entre diferentes CNAs, que pode ser útil para gerar hipóteses sobre a seqüência de CNAs na progressão tumoral.

Resultados

Visão geral Algoritmo

O nosso algoritmo de forma iterativa partições de um conjunto de dados de perfis de tumor aCGH para um determinado cromossomo para descobrir subconjuntos de tumores com CNAs similar. Em vez de utilizar técnicas de pré-processamento padrão, como algoritmos de segmentação, usamos diretamente os dados de nível de sonda e incorporar conhecimento prévio sobre a natureza desses dados, a saber: (1) sondas sucessivas são correlacionados, ou seja, é provável que representam os mesmos números de cópias; e (2) um cromossomo normalmente (embora nem sempre) abriga alguns CNAs. Em cada passo de particionamento, aprendemos um separador linear que atribui perfis aCGH a uma das duas classes, representado geometricamente pelas duas meias-espaços (ou seja, e) em ambos os lados do hiperplà definida pelo termo vector e polarização normal (Figura 1) . Aqui, os perfis de cromossoma e o vector de ponderação são os vectores de valor real com dimensão igual ao número de sondas para o cromossoma, e é determinada através da resolução de um problema de optimização (ver Métodos), onde ele é obrigado a ser constante seccionalmente (sondas sucessivas tendem a ter os mesmos pesos) e escassas (poucas sondas têm pesos diferentes de zero). A nossa abordagem baseia-se em um algoritmo margem de agrupamento máxima recentemente proposto [21], [22], que traz idéias de-larga margem supervisionado aprender técnicas como classificação máquina de suporte de vector e vector de regressão apoio ao problema de agrupamento não supervisionado; a escolha de restrições foi motivada por trabalhos recentes sobre a regressão fundido lasso [28] (ver Métodos).

O algoritmo encontra uma função linear que é capaz de dividir as amostras aCGH em dois grupos. Ao resolver um problema de optimização, o algoritmo determina o vector, o que representa geometricamente o vector normal de um hiperplà (mostrado em vermelho) que separa as amostras, juntamente com o termo de polarização, e a atribuição de amostras para os grupos. No exemplo mostrado brinquedo, o hiperplano separa as amostras que apresentam uma deleção no braço q (acima do hiperplano) de aqueles que não o fazem (abaixo do hiperplano).

Uma vez que cada resultados separadoras lineares em uma partição binária das amostras, aplica-se o processo de forma iterativa para separar cada grupo de amostras em dois novos grupos, de tal maneira que o novo separador linear é ortogonal aos previamente determinados. Portanto, cada passo será encontrar um novo sentido da variação nos dados aCGH (semelhante a análise de componentes principais [29]), eo procedimento geral resulta em uma divisão hierárquica do conjunto de dados (ver Métodos).

larga margem de particionamento revela hierarquia de número de cópias muda

Foram coletadas nossos definidos a partir do portal de dados Cancer Genome Atlas (TCGA) de dados [7]. Ele contém 345 amostras de tumores glioblastoma com alterações no número de cópias perfilados em matrizes Agilent 244K (228K sondas). Este conjunto de dados foi previamente analisado para determinar os principais eventos de amplificação e de supressão usando o RAE [13] e GISTIC [12] algoritmos [7].

Foi utilizado o Nível 2 de dados já produzidos pela análise anterior [7 ]. Estes dados são já foi normalizado através da aplicação de um algoritmo de LOWESS sobre a relação dos dados de registo, e as sondas marcadas como de baixa qualidade (saturado, não uniforme ou fraco) estão excluídos. Qualidade das matrizes também foi medida através da proporção de sondas excluídos e a consistência dos valores associados com sondas sucessivas, e matrizes de baixa qualidade foram removidos do conjunto de dados.

Corremos o nosso algoritmo separadamente em cada cromossomo, com um coeficiente de escassez e um coeficiente de piecewise-constantness (ver Métodos). Empiricamente, verificou-se o seguinte dependência da escolha destes coeficientes: se os coeficientes foram escolhidas para ser demasiado pequena, isto iria resultar em um agrupamento trivial, com todas as amostras atribuídos ao mesmo grupo; Se os parâmetros foram também permissiva, a aglomeração obtida seria o mesmo que -means padrão (). No entanto, entre estes dois extremos, os resultados de agrupamento não eram excessivamente sensíveis à escolha do parâmetro. Esperamos que a gama adequada de parâmetros depender da plataforma de matriz, bem como propriedades estatísticas dos perfis de matriz num dado conjunto de dados. portanto, sugerimos realizar uma pesquisa de grade em um subconjunto das amostras e selecionando os menores possíveis parâmetros que dão um agrupamento não-trivial em cada cromossomo

.

A fim de avaliar a importância dos nossos resultados, foi utilizado um aleatório modelo em que as sondas de embaralhadas nosso conjunto de dados e comparação com a distância entre as amostras medianos dos nossos dois grupos para a distribuição de distâncias de 1000 amostras mediana de dois grupos de amostras aleatórias separadas com o mesmo classificador. Verificou-se que a distribuição de distâncias randomizado segue uma distribuição normal, e calculamos a -valor para a distância entre as amostras medianos correspondentes à cauda desta distribuição normal.

para cada cromossoma, construiu-se uma “árvore de agrupamento “por iterativa dividindo cada grupo em dois, se respeitados três critérios. O primeiro critério é que ele deve conter mais do que cinco amostras (1,5% do conjunto de dados), uma vez que seria difícil de alcançar uma partição estatisticamente significativa de muito pequenos subconjuntos. O segundo critério foi que dividir este grupo não faria a profundidade de nossa árvore maior do que 3. A profundidade máxima foi escolhida heuristically: depois de três iterações, nós empiricamente descobriu que os grupos eram muito pequeno ou a separação não era mais significativo. O último critério foi que a partição gerando este grupo deve satisfazer um limiar de significância de. Enquanto esta -valor pode parecer muito permissivas, é importante compreender que a nossa estimativa de (a distância centróide) não está directamente optimizado pelo algoritmo; portanto, os -Valores empíricos gerados são bastante conservador.

Figura 2 dá um exemplo de uma “árvore de agrupamento”, produzido por nosso algoritmo para o cromossomo 19. A primeira iteração separa as amostras em dois grupos, um com 17 amostras que apresenta uma deleção de uma região do braço Q e um de 326 amostras, com. O centróide de cada cluster é mostrado em verde (Figura 2, coluna mais à esquerda); Além disso, uma segmentação de cada centróide aglomerado usando um instrumento normalizado (circular segmentação binário [30]) é mostrado para ajudar a visualização das diferenças no número de cópias entre os dois grupos. Quanto a esta separação e cada cluster é maior do que 5 amostras, dividimos cada um desses subconjuntos em dois novos grupos. A cisão do grupo de 17 amostras é não está associada a uma separação mediana bastante significativa () e, portanto, não é dividida outra vez. Por outro lado, a partição do grupo de 326 amostras produz um grupo de 250 amostras sem qualquer aparente significativa CNA e um grupo de 76 amostras cujo centróide mostra uma amplificação de todo o cromossoma. Esta separação tem um significado forte (), e, por conseguinte, ambos os grupos são divididos novamente. A partição do grupo de 250 amostras não atingiu significância (), e nenhum dos aglomerados resultantes mostram qualquer CNAs significativo. O grupo de 76 amostras é dividido em dois novos grupos de 37 e 39 amostras (). Cada um destes grupos mostra uma amplificação de todo o cromossoma, mas com o grupo de 39 amostras parece ter uma amplificação inferior do braço q do que o braço de p enquanto que o outro não. À medida que nos limitamos a árvores de profundidade 3, não particionar qualquer um destes grupos mais longe.

A cada iteração do algoritmo, cada grupo previamente identificado de amostras são divididas em dois novos conjuntos usou um maximum- técnica de agrupamento margem que explora as correlações em perfis aCGH (ver Métodos). O processo de particionamento pára quando (i) um grupo tem menos de 5 amostras; (Ii) a partição de gerar o grupo não consegue atingir um limiar de significado estatístico; ou (iii) a árvore já está na profundidade máxima de 3. Na figura acima, cada grupo é representado por sua centróide, isto é, o seu perfil de mediana, em verde. Para fins de visualização, a segmentação do baricentro, produzido pela segmentação binário circular [30], é mostrado em vermelho.

Análise de glioblastoma dados aCGH recupera conhecido CNAs sem segmentar amostras

aplicou-se o procedimento iterativo para cada cromossoma de forma independente, como descrito na secção anterior. Para chamar característica CNAs de cada cluster, aplicou-se a segmentação binário circular [30] usando parâmetros padrão em seu centróide, ou seja, o perfil médio do cluster, e associado do CNA característica (s) deste centróide ao cluster. Deve-se entender que as aberrações do perfil centróide não pode ser partilhada por cada um das amostras de cluster, mas que dá uma boa estimativa desses eventos. Nós também alertam que o tamanho da partição dá uma boa ideia da penetrância, mas não é totalmente equivalente.

A primeira iteração do nosso algoritmo encontrada uma amplificação de todo o cromossomo 1, de todo o cromossomo 7 e de todo o cromossoma 20. o estudo identificou também a eliminação de todo o braço 9p, bem como uma grande parte de 19q, todo o cromossoma 10, todo o cromossoma 13, todo o cromossoma 14 e todo o cromossoma 22. a segunda iteração do algoritmo encontrada a perda de braço 6q, eliminação de todo o cromossoma 15, de todo o cromossoma 16 e uma amplificação de todo o cromossoma 19. É também demonstrado que algumas amostras que apresentam uma amplificação do cromossoma 7 também conter um focal e amplificação muito forte evento no braço 7P. A terceira iteração do algoritmo de eventos de amplificação focais identificados no cromossoma 3 e no cromossoma 4. É também mostrou uma perda de todo os cromossomas 9 e 21. Estes resultados encontram-se resumidos na Tabela 1, juntamente com o tamanho da partição em que cada CNA foi identificado em termos de número de amostras ea porcentagem do conjunto de dados completo.

Uma análise do mesmo conjunto de dados usando tanto RAE [13] e GISTIC [12] algoritmos já foi publicada [7 ]. Ambos os métodos concordaram em eventos de amplificação de grande escala significativos para toda a cromossomos 7, 19 e 20 e de amplificação focal eventos no cromossomo 1 e 12; eventos significativos em larga escala de exclusão sobre cromossômica 6q braços, 9p, 15q, sobre os cromossomas completos 10, 13, 14 e 22; e eventos de deleção focais no cromossomo 1. Além disso, RAE encontrados eventos significativos focais de amplificação no cromossomo 14, bem como eventos de deleção focais significativas no cromossomo 11. Em contrapartida, GISTIC encontraram diferentes eventos de amplificação focais adicionais nos cromossomos 3 e 4. Figura 3 inclui um resumo dos resultados, bem como uma comparação com os eventos de amplificação e de deleção encontrados por esses dois análise.

as faixas horizontais mostram a CNA identificado por primeiros três iterações do nosso método, em comparação com os encontrados por GISTIC e RAE. A faixa do meio representa os cromossomas, com números de cromossomos até anotados. Os ganhos são indicados a vermelho e as perdas em azul.

Como se mostra na Figura 3, a maioria dos eventos encontrado em ambos Rae e análises GISTIC são encontrados pelos dois primeiros iterações do nosso método, incluindo todos os grandes evento -scale identificadas por estes métodos. As exceções incluem um evento de amplificação pequena no cromossomo 12, os eventos no cromossomo 1 (onde o nosso método não concorda com a constatação da RAE e GISTIC) e um evento de amplificação no cromossomo 4, que é encontrado em nosso terceira iteração.

particionamento iterativa revela romance CNAs apoiada por estudos de glioblastoma independentes

Além de recuperar quase todo o CNAs identificado por métodos como a RAE e GISTIC, o nosso algoritmo de partição iterativo encontrados uma série de eventos significativos que não foram descobertos por análises anteriores deste conjunto de dados . Estes eventos incluem uma amplificação de todo o cromossoma 1, um evento de deleção no conjunto, os cromossomas 9, 15, 16 e 21, bem como uma deleção do braço 19q.

Alguns destes eventos foram documentados em estudos de conjuntos de dados de número de cópias independentes, tais como a eliminação do braço em 19q [31], [32] e do cromossoma 16 [33]. A eliminação do cromossoma 21, foi associado anteriormente com glioblastoma [34], e tem sido proposto que a baixa incidência de glioblastoma em doentes com síndroma de Down é ligada ao cromossoma trissomia 21 que caracteriza esta doença genética [35]. Aqui, encontramos a eliminação do cromossomo associado com um pequeno cluster (6 amostras) e a baixa frequência, presumivelmente, explica por que esta aberração foi perdida por análises anteriores. A deleção do cromossomo 15, na verdade, inclui a eliminação no braço 15q encontrados nas análises anteriores. A forma do centróide para esta partição mostra que a amplitude da deleção é menor sobre o resto do braço Q e no braço p, e é possível que a plena cromossoma deleção não foi encontrado por RAE ou GISTIC devido à menor amplitude .

Para identificar genes que estão bem correlacionados com o CNAs, foi realizada uma análise de significância de microarray (SAM) usando o pacote SAMR. Para cada grupo, marcado cada amostra de acordo com seu rótulo (dentro ou fora do cluster de interesse) e olhou para o número de genes da região do CNA que foram significativamente diferencialmente underexpressed no caso de uma eliminação, ou significativamente sobre-expressos em no caso de uma amplificação. Os cálculos foram feitos usando a estatística t, 100 permutações e o método Tusher [36].

Os resultados, resumidos na Tabela 1, mostram que, na maioria dos casos, um grande número de genes tinham níveis de expressão que estão significativamente correlacionados com a atribuição de amostras para o cluster abrigar o CNA. Deve notar-se que a relação entre a expressão e do número de cópias é complexo, e que a ausência de correlações significativas não exclui a presença do CNA, especialmente nos casos em que a baixa contagem de genes ou de amostras faz com que essa correlação estatisticamente difícil provar.

O romance CNAs descoberto por nossa análise estão correlacionados com vários genes importantes. Por exemplo, a eliminação do cromossoma 16, as regiões 19q13.2-19q13.43, e o cromossoma 21 estão significativamente correlacionados com subexpressão de genes supressores de cancro-candidato, respectivamente CBFB [37], [38] ou CDH11 [39] , tfpt [40] e DSCR1 [35], dando provas adicionais em apoio a esses eventos.

Vários conjuntos de aberrações cromossômicas freqüentes mostram alta correlação

Uma das vantagens do nosso método em comparação com Scorecard abordagens baseadas tais como RAE e GISTIC é que dá uma atribuição de amostras a grupos – ou, mais precisamente, identifica CNAs, encontrando ao mesmo tempo os grupos de amostras que os abrigam – o que torna mais fácil identificar quais as amostras são afetados por que freqüentam CNAs . Associamos cada amostra a um conjunto de CNAs frequente com base em suas atribuições de fragmentação no processo de particionamento iterativa baseada no cromossomo. Descobrimos que as co-ocorrências de CNAs frequentes dentro de uma amostra eram comuns; na verdade, a maioria das amostras (249 de 345) continham 2 ou mais dos CNAs frequentes listadas na Tabela 1.

Nós ainda examinados co-ocorrências de pares de CNAs frequentes, e descobrimos que 31 pares pode ser considerado correlacionados (ou seja, com um cruzamento de atribuição de exemplo melhor do que o esperado por frequências de fundo) com pelo teste exato de Fisher (ver Figura suplementar S1).

uma simples análise destes pares significativos revelou que estes CNAs correlacionada pode realmente ser visto como três grupos de colegas de ocorrências:

a amplificação do cromossomo 7 e seu evento de amplificação focal associado, a exclusão em 9p, a eliminação dos cromossomos 10, 13 e 14, bem como as amplificações nos cromossomos 19 e 20 são todos altamente correlacionadas.

a supressão de 6q está bem correlacionada com o evento de amplificação focal no cromossoma 7, bem como com a exclusão em 9p.

a deleção no cromossoma 22 é bem correlacionada com a amplificação do cromossomo 7 (mas não com o evento focal associada), a eliminação do cromossomo 10 e a eliminação do cromossomo 14.

Discussão

Recuperação de CNAs perdida por estatísticas de resumo

Alguns dos novos CNAs glioblastoma que encontramos são bons exemplos de como o nosso método melhora na estatística sumária abordagens, como a RAE e GISTIC. Por exemplo, a eliminação do cromossomo 15 só foi descoberto no braço q por RAE e GISTIC. Quando examinámos o perfil do centroide de um cluster identificado pelo nosso método, vimos uma deleção menor amplitude sobre o braço p bem. Devido a essa baixa amplitude, cada sonda por si só não teria uma supressão média significativa em todo o conjunto de dados e que, portanto, ser perdida por uma estatística resumo. No entanto, porque todas as sondas para o cromossoma são afectados, a deleção deve ser considerado um CNA significativa e é facilmente identificado por abordagem.

Como um segundo exemplo, a supressão da região tem 19q2-19q13.3 não foi encontrada por outros métodos aplicados ao conjunto de dados TCGA, mesmo que tenha sido confirmada como um evento de deleção por estudos anteriores. Aqui, o problema parece ser o facto de a mesma região está também presente como um evento de amplificação em um maior número de amostras, que confunde a detecção desta supressão por um teste estatístico de resumo. Finalmente, a eliminação de todo o cromossoma 21 está presumivelmente perdido por outros métodos porque é presentes em apenas um pequeno número de amostras (6 amostras ou 2%). No entanto, uma vez que este evento é uma deleção de todo o cromossomo e, portanto, suportada em muitas sondas, intuitivamente que deveria ser muito mais significativa que um evento menor, mas semelhante frequentes. Com efeito, a importância desta CNA é confirmado por estudos anteriores que ligam trissomia 21 na síndrome de Down a prevalência mais baixa do glioblastoma, bem como pela correlação com a sub-expressão de um candidato tumor-supressor gene presente nesta região.

Recuperação de eventos focais

a Figura 3 mostra que, embora a primeira iteração do nosso algoritmo parece se concentrar em grandes aberrações, os seguintes iterações são capazes de encontrar eventos focais como as nos cromossomos 3 e 4, e que o nosso algoritmo é, portanto, capaz de encontrar eventos focais, bem como as grandes. O único evento focal cuja presença é acordado por ambas as RAE e GISTIC e que o nosso método não é capaz de encontrar é a única no cromossoma 12. Olhando para os dados em bruto nos mostra que este evento é compartilhada por cerca de 40 amostras, mas só afeta 2 sondas, o que torna um sinal difícil de encontrar quando se olha de várias sondas. No entanto, ao limitar nossa análise a um pequeno intervalo centrado no evento (300kbp ou 40 sondas), fomos capazes de identificar o evento comum, usando o nosso algoritmo de agrupamento máxima margem de lucro (ver Suplementar Figura S2), sugerindo que o nosso método poderia, talvez, ser usado em conjunto com uma janela deslizante para melhorar a detecção de pequenos eventos.

Análise de amostras com elevado ruído e a instabilidade genómica

Os perfis no número de cópias do glioblastoma que aqui analisados ​​têm relativamente poucos eventos CNA e, portanto, fornecer um caso de teste favorável para análise computacional. Copiar conjuntos de dados número de outros tipos de câncer têm se mostrado muito mais problemática. Por exemplo, um estudo recente do número de cópias de adenocarcinoma de pulmão [8] compilou uma muito grande (400 amostras), mas desafiador conjunto de dados, onde o sinal ao ruído variou consideravelmente ao longo amostras – potencialmente devido à contaminação do estroma – e uma fração considerável de amostras exibido inúmeros eventos. Os autores curadoria as amostras em três níveis com base na qualidade do sinal e análise restrita ao melhor nível. Apesar do grande número médio de ocorrências por amostras, o estudo identificou apenas algumas regiões alterados em um número significativo de amostras, com o mais comum CNA (amplificação do cromossoma 14q13.3) só está presente em 12% dos melhores terceiro (camada de topo ) das suas amostras. Nós aplicamos o nosso método para este pulmão adenocarcinoma conjunto de dados para ver como ele iria realizar em um ambiente com ruído elevado. Uma vez que a atribuição original de amostras a níveis não estava prontamente disponível, fizemos uma primeira análise passe de todo o conjunto de dados – sem tentar reduzir as amostras mais limpas – usando os mesmos parâmetros que usamos no conjunto de dados TCGA. Curiosamente, a primeira iteração do algoritmo particionado cada cromossoma em dois grupos, contendo exactamente as mesmas amostras com (), com um grupo que consiste de amostras com um sinal forte mas muito barulhento e as outras amostras contendo com um sinal fraco. Este resultado sugere que o nosso método pode ser capaz de distinguir automaticamente a qualidade do sinal.

A escolha inicial de parâmetros não encontrou quaisquer aberrações significativas no ponto de corte -valor de 0,05, possivelmente devido à plataforma de matriz diferente, bem como as diferentes propriedades estatísticas dos perfis do número de cópia (veja suplementar Figura S3 e suplementar Tabela S1). No entanto, usando o nosso algoritmo com um conjunto diferente de parâmetros (e) no cromossomo 14 permitiu-nos encontrar a amplificação de 14q13.3, embora apenas em 6 amostras (2% da contagem total de amostras) e com um -valor fraco () . Aqui, a presença de um grande grupo de amostras muito ruidosos no conjunto de dados pode ser responsável pela degradação do -valor. Enquanto não fomos capazes de comparar diretamente para a análise original sobre as amostras de primeira linha, esta análise rápida sobre o conjunto de dados completo é bastante encorajador, na medida em que fomos capazes de recuperar o resultado principal sem um

ad hoc

curadoria de amostras.

extensões de algoritmos possíveis

a análise acima também ressalta o impacto da escolha dos dois parâmetros de restrição, e (ver Métodos), que determinam o grau de escassez e piecewise- constantness, respectivamente, dos nossos classificadores lineares. Nós escolhemos os parâmetros para o estudo glioblastoma através de heurísticas e recuperou eventos mais conhecidos, bem como vários romance e plausível CNAs. No entanto, a exploração completa deste espaço de parâmetros poderia produzir resultados adicionais; por exemplo, para predispor o algoritmo para encontrar eventos focais, pode-se tentar fazer com que a restrição sparsity mais rigorosas. Várias estratégias pode ser usada para optimizar a escolha dos parâmetros, incluindo a utilização de um circuito de validação cruzada. Para implementar esta abordagem, teria que escolher um método adequado para estimar a qualidade dos clusters: estimadores padrão estão intimamente ligados às funções objetivo otimizados por algoritmos de agrupamento tradicionais (como -means), que não levam em conta as propriedades de copiar perfis número (ou seja, correlações espaciais, dispersão de eventos deleção /amplificação). No entanto, um tal circuito de validação cruzada também implicaria longas vezes computacionais. Este custo pode ser muito reduzido se fomos capazes de calcular todo o caminho do regularização do fundido lasso em uma única passagem, como os outros foram capazes de fazer com o laço original [41] e SVM [42] problemas de otimização.

<

Deixe uma resposta