PLOS ONE: regiões genômicas específicas diferencialmente são afetados por número de cópias em todo Alterações tipos de câncer distintas, no agregado citogenética de dados

Abstract

Fundo

alterações no número de cópias genômicas Regionais (CNA) são observados na grande maioria dos casos de câncer. Além visando especificamente conhecidos, oncogenes canônicas, CNAs também podem desempenhar papéis mais sutis em termos de modulação potencial e amplas padrões de expressão gênica genéticas de tumores em desenvolvimento. Quaisquer diferenças significativas nos padrões gerais CNA entre os diferentes tipos de câncer podem, assim, apontam para os mecanismos biológicos específicos que atuam nesses cancros. Além disso, as diferenças entre os perfis CNA pode revelar-se valiosa para as classificações de câncer além dos sistemas de anotação existente.

principais conclusões

Analisamos dados moleculares-citogenética de 25579 amostras de tumores, que foram classificados em 160 o cancro tipos de acordo com a Classificação Internacional de Doenças (CID) sistema de codificação. Ao corrigir as diferenças nas freqüências gerais CNA entre os tipos de câncer, cancros relacionados foram encontrados frequentemente a se agrupar de acordo com semelhanças em seus perfis CNA. Com base em uma abordagem de randomização, as medidas de distância do dendrogramas de fragmentação foram usadas para identificar as regiões genômicas específicas que contribuíram significativamente para este sinal. Esta abordagem identificou 43 regiões genômicas não neutras cuja propensão para a ocorrência de alterações no número de cópias variou com o tipo de câncer na mão. Apenas um subconjunto destes loci identificados sobreposto com implícitas anteriormente (hot-spot) regiões desequilíbrio, altamente recorrentes citogenéticas.

Conclusões

Assim, para muitas regiões genômicas, um nulo simples hipótese de independência entre o tipo de câncer e frequência relativa a alteração do número de cópias pode ser rejeitada. Desde um subconjunto destas regiões exibir relativamente baixas freqüências gerais CNA, eles podem apontar para alvos genômicos de segunda linha que são adaptativa relevante, mas não necessariamente essencial para o desenvolvimento do câncer

Citation:. Kumar N, Cai H, von Mering C, Baudis M (2012) regiões genômicas específicas são diferentemente afectados por número de cópias em todo Alterações tipos de câncer distintas, no agregado citogenética dados. PLoS ONE 7 (8): e43689. doi: 10.1371 /journal.pone.0043689

editor: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapura

Recebido: 30 de abril de 2012; Aceite: 23 de julho de 2012; Publicação: 24 de agosto de 2012

Direitos de autor: © Kumar et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Os autores não têm financiamento ou apoio ao relatório

Conflito de interesses:.. Os autores declararam que não existem interesses conflitantes

Introdução

As mudanças genéticas, tais como mutações pontuais, número de cópias regionais alterações /aberrações (CNA) e mudanças estruturais (eventos por exemplo, fusão de genes) são todas as características de câncer. ANC surgir como alterações somáticas no genoma da célula tumoral através de uma variedade de mecanismos e pode ser observada em praticamente todos os tipos de cancro, em grau variável. técnicas Até agora, os métodos mais utilizados para a detecção de CNAs foram cromossômicas e com base na matriz de Hibridização Genômica Comparativa (CGH) [1] – [4]. Localizada, ANC (hot-spots) recorrentes foram mostrados para segmentar oncogenes canónicos (por exemplo duplicações /amplificações de MYC, MYCN, REL loci) ou genes supressores de tumores (por exemplo, deleções do CDKN2A /B, TP53, ATM loci). Alguns regionais CNAs tais como ganhos em 8q e perdas em 3p estão presentes em vários tipos de câncer, enquanto outros desequilíbrios podem ser em grande parte restrita a um número limitado de entidades de cancro [5].

Os conjuntos de dados integrados em vários tipos de câncer têm previamente analisadas, para relatar “hot-spots” regionais de CNAs frequentes [5], [6]. Em um determinado conjunto de amostras de tumores individuais, o número ea distribuição dos CNAs varia consideravelmente [5] e essa heterogeneidade genética tem sido usado para detectar e relatar CNAs co-ocorrência de [7].

Em princípio, padrões específicos e semelhanças nos perfis individuais e /ou doença específica CNA pode apontar para mecanismos oncogenomic distintas que atuam em diferentes tipos e espécimes de cancro, dado um número suficientemente grande de pontos de dados. Com efeito, o agrupamento de padrões CNA foi usado para identificar as semelhanças oncogenomic [5], [8] – [11]. A adaptação das técnicas de agrupamento para a análise dos padrões CNA tem sido objecto de estudos anteriores [12] – [14]. Com algumas excepções [5], [14], no entanto, o agrupamento baseada em amostras tem sido o foco principal de tais estudos até agora. Em contraste, nós aqui explorar o agrupamento de tipos de câncer, não de amostras de câncer individuais.

análises descritivas e à base de clustering de CNA em vários tipos de cancro sofrem de um viés para os eventos que ocorrem com mais frequência. Devido à heterogeneidade do sinal global CNA, com muito diferentes frequências médias de ANC por tipo de cancro (Figura 1a), os resultados de agrupamento pode ser distorcida, dependendo das entidades de doença analisados. Esta variação na freqüências gerais de ocorrência CNA em todos os tipos de câncer podem ser simplesmente devido a diferenças nos pontos de tempo médio de detecção clínica ou em diferentes características de progressão, e deve ser corrigido para antes da análise de agrupamento. Para o melhor de nosso conhecimento, até agora nenhuma aplicação foi relatado para uma análise de agrupamento abrangente, em escala muito grande de perfis de câncer CNA frequência normalizada.

Boxplots mostram as distribuições de freqüência CNA entre amostras de tumores em 10 aleatoriamente tipos de câncer selecionados. As delimitações boxplots marcar os percentis 5%, 25%, 75% e 95%. As linhas vermelhas indicam a frequência média para cada tipo de câncer, enquanto a linha azul representa a frequência média geral em todos os 160 tipos de câncer analisados ​​aqui. Valores de frequência são definidos como a razão entre o número de amostras que apresentam um CNA para uma região genómica (isto é, bandas de citogenética) sobre o número total de amostras em que o tipo de cancro. a) Antes de normalização b) Após a normalização. Em b) a distribuição de frequência nominal para cada tipo de câncer é re-dimensionada de modo a que a sua média corresponde à média geral em todos os tipos de câncer. (NOS – “não especificada”: as classificações de alta ordem, que não serão posteriormente atribuído a níveis mais detalhados)

Aqui, vamos nos concentrar na identificação de regiões genômicas que contribuem significativamente para o agrupamento de câncer. tipos. Doravante vamos nos referir àqueles como regiões “não neutras”. À medida que o ponto de partida da nossa análise, usamos agrupamento hierárquico para providenciar tipos de cancro, com base em seus perfis de frequência CNA. Em seguida, utilizam uma abordagem de permutação para estimar a contribuição relativa das regiões genómicas individuais para a qualidade do agrupamento e à árvore relação derivada. A qualidade agrupamento é inferida a partir de uma medida intrínseca (comprimentos dos ramos somados: estatísticas altura das árvores), e regiões genômicas que rejeitar a hipótese nula são chamados de não-neutro. regiões identificadas são comparados com canônicos hot-spots CNA (ou seja, aqueles que ocorrem com mais frequência em todo o conjunto de dados).

A nossa análise atual é baseada em dados de um total de 25579 amostras, que são classificados em 160 diferentes de câncer entidades (tabela S1) de acordo com a Classificação Internacional de Doenças em Oncologia (CID-o 3). A nossa abordagem é único na medida em que a) concentra-se menos sobre a aglomeração como tal, mas mais para as regiões genómicas individuais que melhor suportam o agrupamento, b) utiliza uma medida de qualidade intrínseca acoplado a uma estratégia de permutação para validação, c) realiza CNA normalização frequência antes da análise, e d) baseia-se num conjunto muito grande de dados, processados ​​em uma configuração normalizada. Temos como objectivo para a identificação de potenciais regiões motorista /moduladores específicos de câncer, que podem não ter sido detectados mais cedo, abordagens em grande parte hot-spot-focados. Todos os dados de câncer subjacente está disponível através do nosso repositório Progenetix (www.progenetix.org; [15]).

Resultados

A frequência global média de CNAs em todo o genoma varia entre as diferentes tipos de cancro (Figura 1a). Uma vez que o peso relativo dos CNAs em regiões genômicas individuais em um determinado tipo de câncer depende da frequência do genoma global observada, nós agregadas todas as amostras dos pacientes por tipo de câncer e normalizou as frequências de CNAs para cada tipo de câncer para a média global observada em todo o todo o conjunto de dados (Figura 1b, a figura S1). Os perfis normalizados de frequência CNA foram então agrupadas usando agrupamento hierárquico.

Para avaliar a qualidade eo sinal biológico no agrupamento, nós rotulados cada tipo de câncer com o seu tipo de célula “root” (isto é, um tipo de células indiferenciadas de que o tumor provavelmente originado). Esperávamos cancros do mesmo tipo de célula raiz a se agrupar; este foi usado como um proxy externo para as relações biológicas esperadas entre entidades cancerosas. O Índice Aleatório [16] foi usada para calcular a medida da qualidade do cluster externo. Os tumores do mesmo tipo celular, de facto, muitas vezes agrupados juntos, normalmente em 2-3 pequenos grupos (Figura 2). A consistência deste agrupamento foi significativamente maior do que o esperado ao acaso, apontando para diferenças biologicamente significativas nos perfis CNA entre tumores de origens distintas. Cortando a árvore em várias alturas sempre conduzido a uma qualidade observada do agrupamento que foi melhor do que o valor aleatório esperado (Figura 2), excepto para o corte no nível mais elevado, o que resultou em apenas três grupos. Este argumenta fortemente contra um padrão de ocorrência completamente neutro de CNAs no genoma, e suporta uma correlação entre grupos biologicamente significativas de entidades de câncer e seus perfis CNA.

a) exemplos de segmentos de cromossomos individuais, mostrando as suas frequências CNA observados estratificada por tipo de célula. Cada ponto resume todas as amostras classificadas em um tipo ICD particular, codificados por cores por tipo de célula raiz. No painel à esquerda, três segmentos cromossômicos são mostrados que apresentam fortes diferenças entre os tipos de células; à direita, três exemplos negativos sem um tal sinal. Todos os valores de p foram corrigidos para testes múltiplos de acordo com Benjamini-Hochberg. b) o dendrograma (árvore) foi obtido utilizando agrupamento hierárquico Ward sobre os perfis CNA frequência normalizada globais em todas as regiões genômicas 160. tipos de cancro são mais uma vez um código de cores de acordo com o tipo de célula de origem, com a mesma legenda que em a). Particionar a árvore cortando em diferentes alturas produz vários clusters; validação desses clusters baseados sobre a origem do câncer (métrica: Índice Random) mostra que o agrupamento funciona significativamente melhor do que o esperado ao acaso

aleatorizações de toda a liderança matriz de frequência para uma perda completa do sinal. presente na árvore de agrupamento (Figura S2), e também reduziu fortemente a comprimentos dos ramos de árvore altura estatística somados.

não-neutro CNAs

a matriz de frequência normalizada e agrupados abrangendo 160 em larga escala regiões genômicas e 160 tipos de câncer é mostrado na Figura 3. para determinar quanto cada região genômica indivíduo contribui para o sinal no geral, nós individualmente randomizados seu perfil em todos os tipos de câncer, mantendo o resto dos dados inalterados. Em seguida, examinaram a concomitante redução nas estatísticas de comprimento árvore (TLS) do dendrograma de agrupamento, mediante 100000 aleatorizações independentes, para determinar a significância estatística de que a contribuição da região. As regiões CNA-divergentes câncer resultantes são importantes, pois não pode ser totalmente neutra e têm o potencial para definir as relações entre os tipos de câncer. De facto, 43 para fora das regiões genómicas 160 (Tabela S1) foram observados para ter uma contribuição não-neutro (p-valor de Bonferroni-corrigido) nos dados do cancro CNA agregados. Note que os eventos de ganho e de perda foram tratados de forma independente, e não foi observada viés preferencial para com os ganhos ou perdas entre as regiões não neutras detectados (22 ganhos e 21 derrotas). As frequências de ocorrência CNA das regiões genómicas não-neutros espalhar completa de todo o espectro de frequência (Figura 4). Apenas 13 (8 ganhos e 5 derrotas) das regiões não neutras foram encontrados alterados global com mais frequência do que a média (Figura 5, intersecção de retângulo preto e cinza), indicando que subconjunto de regiões hotspot frequentemente alterados transportar um sinal detectável para distinguir o cancro tipos (o número de regiões frequentemente alterados é de 59; p-valor, a tabela S1 Bonferroni-corrigida). Esta observação enfatiza nosso ponto chave que não só as regiões CNA frequentes devem ser usados ​​para agrupar e anotar tipos de câncer.

a) Heatmap de perfis CNA em regiões genômicas (o mesmo agrupamento como na Figura 2). localizações genômicas são representados com a cor laranja quando se considera duplicações /ganhos, e em azul quando se considera eliminações /perdas. A intensidade da cor mostra frequências relativas CNA; a região mais afectada em cada linha é definida arbitrariamente a cor a mais brilhante (1,0) para fins de exibição. b) As pequenas regiões (rectângulos pretos no mapa de calor) são ampliada para mostrar como CNAs não neutra pode diferenciar entre os tipos de câncer. O exemplo mostra que 7q é preferencialmente adquirida com tumores cerebrais (etiquetas vermelhas) Considerando que é preferencialmente perdidos em células germinativas (etiquetas pretas), mielóide e tipos de câncer mieloproliferativas (etiquetas azuis). c) As pequenas regiões (retângulos vermelhos no mapa de calor) são ampliada para mostrar como 8q é preferencialmente perdido em medullublastomas (etiquetas verdes) e é preferencialmente adquirida em tumores epiteliais (etiquetas rosa). Alguns cromossomos consistem inteiramente de regiões não neutras (como cromossomos 18 e 7). Note-se que a resolução espacial dos dados CNA no cromossomo é limitada (que correspondem aproximadamente a resolução banda citogenética).

regiões genômicas (bandas) são classificadas de acordo com sua frequência global de CNAs observado. As regiões que são informativos no que respeita ao tipo de cancro agrupamento estão marcados com setas. a) Considerando duplicações (ganhos) b) Considerando deleções (perdas).

regiões genômicas afetadas por CNAs, ou com mais frequência do que a média (retângulo preto), ou não-neutra no que diz respeito ao câncer do tipo classificações (retângulo cinza). A intersecção define regiões que são afetadas tanto com frequência e não neutra. As mudanças são codificadas por cores (ganhos em laranja e perdas em azul).

22 intervalos genômicas por 12 cromossomos foram encontrados para ser informativo quando se considera especificamente duplicações /ganhos única (Tabela 1 e Figura 5). Todos os três segmentos genômicos do cromossomo 18 (18p1, 18p2, 18q2) exibiu um sinal. Para outros cromossomos, como cromossomo 1 (1q2,1q3,1q4,1p2), cromossomo 3 (3q1, 3q2, 3P1), cromossomo 12 (12q1,12q2) e cromossomo 21 (21p1, 21q1) mais de 50% de regiões genômicas foram informativa como ganhos, sugerindo o envolvimento simultâneo de múltiplos loci a partir destes cromossomos. Alterações no cromossomo 1 (1P2), cromossomo 3 (3P1, 3q1), cromossomo 5 (5q2, 5q3), cromossoma 9 (9p1), cromossoma 11 (11p1), cromossomo 12 (12q1, 12q2), cromossomo 18 (18p1, 18q1 , 18q2) e cromossomo 21 (21p1, 21q1) foram seletivamente informativo apenas como ganhos. Em termos de exclusões /perdas, 10 cromossomos abrangendo 21 regiões genômicas foram encontrados para ser não-neutro. Como para o cromossomo 18 ganhos, o cromossomo completa 7 (7p1, 7p2, 7q1, 7q2, 7q3) foi encontrado para ser informativo, quando perdeu (Tabela 1). regiões informativas no cromossomo 1 (1p1,1q1, 1q2, 1q3, 1q4) e cromossomo 9 (9q1, 9q3, 9p2) cobriu mais de 50% dos segmentos genômicos presentes nesses cromossomos. perdas seletivas foram observados no cromossomo 1 (1P1, 1q1), cromossomo 6 (6q2), 7 (7q1, 7q2, 7q3, 7p2), 8 (8q1, 8q2), 9 (9p2, 9q1, 9q3), 12 (12p1) , 16 (16q1). CNAs envolvendo o cromossomo 1 (1q2, 1q3, 1q4), cromossomo 3 (3q2), cromossomo 7 (7p1), cromossoma 19 (19p1) e cromossomo 22 (22q1) foram informada tanto como eventos ganho e perda. Isto representa uma pequena percentagem (16%) de não-neutro CNA. Envolvimento de uma região tanto como ganho e perda podem apontar para loci múltiplos adaptativa relevante, e /ou para uma natureza geralmente instável destas regiões.

Cancro Divergente Nature of Non-neutral CNA

para fornecer alguns exemplos de câncer de classificar o comportamento de mudanças não neutras, selecionamos algumas das mudanças enriquecido e analisá-los para a sua ocorrência específica em diferentes tipos de câncer. Um exemplo incluir entidades câncer mostrando perdas predominantes contra ganhos em 7q. perdas preferenciais envolvem 7q foram observados em células germinativas, tumores mielóides e mieloproliferativas (Figura 3), enquanto que os tumores cerebrais gliais (entre outras entidades) preferencialmente apresentado ganhos em 7q. As perdas que envolvem 7q são comuns em tumores mielóides e mieloproliferativas [17] – [20] e está associada com a idade avançada e resistência a terapias de [21], [22]. No entanto, aqui vamos mostrar que as perdas 7q são bastante específicas para tumores mielóides e promover a sua divergência seletiva de outros tipos de câncer. 7q perdas em tumores de células germinativas não havia sido explorado em detalhe [23], [24]. Com a acumulação de perdas 7q praticamente restritos a neoplasias mieloproliferativas /mielóides e tumores de células germinativas e em contraste com o cromossoma 7 (Q) ganhos observada em e.g. tumores cerebrais gliais, é tentador para propor o envolvimento de pelo menos um mecanismo de oncogenetic comum agindo nessas doenças malignas clinicamente não relacionados.

Chromosome ganhos 8Q pode ser observada na maioria das entidades de cancro [5], [6]. No entanto, em nossas perdas 8Q análise foram enriquecidos como eventos não-neutras. perdas preferenciais envolvem 8q estavam presentes em alguns tumores cerebrais (por exemplo, meduloblastoma, Figura 3), separando-os de outros tumores epiteliais. Diferenças em perdas preferenciais envolvendo 8q separados tumores neuroepiteliais em duas categorias com ambos tendo ganhos em 7q mas apenas um (principalmente meduloblastomas) com perdas preferenciais sobre 8q (Figura S3). Perdas envolvendo 8q cromossomo através meduloblastomas, têm sido relatados por alguns [25] estudos antes. Nossa análise mostra que as perdas 8Q são selecionados para em alguns meduloblastomas e, portanto, pode ser importante para o câncer de desenvolvimento /progressão. perdas preferenciais de 8q também foram observados em tumores de células germinativas separá-los de outras neoplasias epiteliais (Figura S4).

Como outro exemplo de tipos restritas CNA também olharam para os cancros que mostram ganhos envolvendo o cromossomo 18. folicular linfomas exibiu específica ganhos no cromossomo 18 onde, como tumores epiteliais preferido ao cromossomo solta 18 (Figura S4). Cromossomo 18 ganhos são muito comuns em linfomas foliculares e é suposto para fornecer um mecanismo alternativo para a ativação BCL2 [26], [27]. No entanto, aqui vamos mostrar que este evento CNA estatisticamente os separa de outros tipos de câncer.

Discussão

Nosso estudo representa a maior análise realizada até à data em dados CNA cancerosas, com o objectivo de detectar características oncogenomic que podem ser especificamente associados ou enriquecidas em certos subconjuntos de entidades de câncer. Em contraste com as abordagens de genes-centric, a nossa análise avalia o espaço de informação completa de genômicas desequilíbrios no número de cópias de experimentos de perfis todo genoma.

No geral, a frequência de CNAs através intervalos genômicas variaram entre entre 0,01% a 23% ( A Figura 4). Clustering de tipos de cancro, com base nos seus perfis de frequência ajudaram a identificar uma classe de sinais moleculares subjacentes que é ortogonal ao classificações histológicas ou categorias clínicos (estes últimos são predominantemente dirigido pelo órgão afectado /tecido). tipos de cancro variam entre si na sua abundância CNA, CNA espectro de tamanho e do grau de instabilidade do genoma. No que diz respeito à cobertura genômica, grandes CNAs são geralmente frequente no cancro [6] e não devem ser excluídos da análise estatística dos padrões do genoma do câncer. Ao se comparar perfis CNA de tipos de cancro, a sua complexidade e a variação de frequência tem que ser considerada. Ao corrigir para estes parâmetros, CNAs regionais que definem a divergência dos perfis globais pode ser delineada.

Foi realizada uma análise de um câncer CNA conjunto de dados global, identificando 43 regiões genômicas em 15 cromossomos como significativas para a CNA perfil divergência de tipos de câncer. Obviamente, essas mudanças não cobrem todo o espectro de eventos CNA em câncer, mas definir um subconjunto de regiões genômicas que podem ter um link possivelmente adaptativa à distinta biologia de vários tipos de câncer. Estas regiões se sobrepõem bastante mal com as regiões hot-spot observados em muitos tipos de câncer. Isto sugere que as regiões hot-spot, embora frequentemente associada com oncogenes canônicos, nem sempre pode ser muito útil em ajudar a avaliação de data-driven de câncer tipos (sub).

Estudos específicos

Doença têm o potencial para detectar uma espectro representativo de aberrações oncogenomic nas entidades dadas. Pode esperar-se que o tipo de cancro regiões específicas realçado com a nossa abordagem foi discutida no contexto das respectivas publicações. No entanto, com o nosso estudo, nosso objetivo é oferecer uma nova abordagem generalizada na identificação de elementos genômicos relevantes na gênese de entidades cancerosas individuais. Embora aqui apresentando uma abordagem “global” sem entidade pré-selecção, a nossa metodologia pode ser valiosa quando o direcionamento separadores genômicas relevantes, conjuntos de entidades limitadas biologicamente relacionados.

Uma vez que a presente análise baseia-se principalmente em dados molecular-citogenética a partir de experiências cromossómicas CGH com uma resolução espacial de várias megabases, só podia ser obtida informação sobre os inferida genes causais presentes nas regiões não-neutros. Com próximo matriz genômica de alta resolução e /ou dados de sequenciamento, análises semelhantes irá definir mais especificamente as CNAs não neutras e podem ser valiosos pontos de partida para uma integração dos resultados com estruturas funcionais da via. Nós anunciaram recentemente a criação e disponibilização ao público de um recurso de referência para os dados de matriz oncogenomic (www.arraymap.org [28]), que servirá como ponto de partida para tais abordagens, tanto do nosso lado, bem como de membros interessados ​​da pesquisa comunidade. Além disso, embora temos focado nossa análise atual unicamente em um conjunto de dados CNA, nossa metodologia deve ser particularmente valiosa quando combinada com outros conjuntos de diagnósticos relacionados (por exemplo, dados de mutação de ponto), através do qual a atribuição de possíveis genes motorista nas regiões não neutras pode tornar-se viável.

Materiais e Métodos

dados

o nosso estudo é baseado em câncer bem anotado CNA dados do projeto Progenetix [5], incluindo um total de 25579 amostras analisados ​​por cromossômica (cCGH; 18708) e matriz CGH (aCGH; 6871) experimentos. As amostras clínicas foram classificadas em 160 entidades câncer distintos de acordo com a Classificação Internacional de códigos de Doenças (CID). No momento da escrita, a coleção Progenetix representa o maior recurso para anotada, toda genoma CNA profiling de dados no câncer.

Para nossa análise, informação regional CNA em todos os tipos de câncer foi reduzido para 80 intervalos genômicas que cobrem a toda do genoma com excepção dos cromossomas sexuais. eventos ganho e perda foram considerados separadamente para a análise, resultando numa matriz de dimensões, em que é o número de amostras e é o número de intervalos genómicas (

ie

160).

Cancro Clustering

a frequência de alterações CNA em todos os intervalos genômicas foi calculado para cada tipo de ICD, ea matriz de frequência inteira foi então normalizado (figura S1). A matriz de frequência foi encomendado utilizando agrupamento hierárquico Ward. A distância de separação agregada entre entidades câncer obtidos utilizando agrupamento hierárquico pode ser analisado por análise da árvore de agrupamento (dendrograma). A árvore representa o parentesco entre os grupos presentes no mesmo clado (semelhantes a árvores filogenéticas). dados randomizado perturba a árvore completamente (Figura S2) e a estatística geral altura da árvore é reduzida de 3 vezes, refletindo a perda completa de informações sobre pedidos de presente na árvore original.

método para comparar Árvore Altura

Usamos a altura da árvore como uma medida intrínseca para comparar as associações de câncer obtidos utilizando clustering e para avaliar as informações presentes na árvore; este foi utilizado para definir não neutra CNAs. Isto tem vantagens sobre as técnicas de avaliação agrupamento tradicionais, uma vez que a) não necessitam de informações padrão de ouro externa, e b) não exige o corte da árvore a uma distância arbitrária. A altura total da árvore é definido como a soma de todos os pais e filhos comprimentos de trajeto relação direta na árvore. distâncias de árvores (comprimentos dos ramos) geralmente refletem as discrepâncias perfil CNA entre dois tipos de câncer (ou grupos de cânceres). Para qualquer nó, a altura da árvore entre este nó e seu pai imediato pode ser medido como. A altura total da árvore de uma árvore com nós é que o obtido como = (figura S3).

comprimento Árvore estatísticas (TLS).

Para identificar regiões genômicas que são não-neutra afetada pela CNA nós desenvolvemos a seguinte estratégia de permutação:

frequências normalizadas da CNA em todos os intervalos genômicas são calculados em todos os tipos de câncer

a árvore de classificação câncer é obtida utilizando agrupamento hierárquico Ward

O observada ao longo de toda a altura da árvore () é calculado conforme mencionado acima (Figura S5).

Um contador é definido como zero para cada intervalo de genômica em consideração.

para qualquer intervalo genômico, seus valores de status são embaralhadas entre todas as amostras mantendo a sua sobre toda frequência a mesma ().

a frequência da CNA no intervalo genômico é recalculado após a randomização em todos os tipos de câncer. O embaralhamento na etapa anterior muda a freqüência de intervalo em todos os tipos de câncer, mantendo a distribuição de frequência normalizada de todos os outros intervalos genômicos.

As frequências de intervalo na matriz de frequência normalizada de um passo são substituídos com frequência permutados para este intervalo eo heigh árvore geral permutada () é calculado.

Se, C é incrementado como C = C + 1.

p-valor para localização genómica, no final de N ( 100’000) permutações é calculado como.

p-valores em todas as bandas são corrigidos por taxa de detecção falsa usando a correção de Bonferroni.

Frequency Enriquecimento Baseado (FBE)

regiões CNA frequentemente observada ( “hot-spots”) são alterações genômicas que ocorrem com mais frequência do que o esperado sob um modelo nulo totalmente aleatória. Tais CNAs hot-spot podem ser identificados usando a função de probabilidade binomial [29]. Vamos supor intervalo genômico mostra uma CNA através de amostras de amostras. A CNA frequência fundo () pode ser representado como a mudança de frequência média em todos os intervalos. O valor p que a frequência do CNA, é mais do que qualquer frequência () é obtida usando a função de probabilidade binomial.

intervalos Genomic mostrando um grande desvio da média serão atribuídos valores p baixos. Todos os valores de p são corrigidos por taxa de detecção falsa usando a correção de Bonferroni.

Informações de Apoio

Figura S1.

Método para a CNA normalização frequência em todos os tipos de câncer. Todas as frequências entre os tipos de câncer foram normalizados para a frequência média de alterações do outro lado entre os tipos de câncer 160. Esta normalização foi obtido multiplicando-as frequências específicas do câncer do tipo, com um índice, cujo valor foi calculado conforme demonstrado

doi:. 10.1371 /journal.pone.0043689.s001

(PNG)

Figura S2.

Dendrograma de uma matriz de frequência permutada. Para este agrupamento, as frequências entre os tipos de câncer foram permutados e depois normalizada. agrupamento Ward Hierarchial foi então realizada e foi obtido a árvore dendrograma mostrado. A altura da árvore é gravemente afectado pela permutação. Neste agrupamento randomizado, tipos de câncer semelhantes não agrupadas

doi:. 10.1371 /journal.pone.0043689.s002

(PDF)

Figura S3.

pequenas regiões de heatmap em principal Figura 3 são mostrados aqui. Estas regiões representam ganhos e perdas em 7q e 8q. mudanças 8Q diferença entre duas categorias de tumores cerebrais, com um subconjunto mostrando perdas preferenciais sobre 8q (etiquetas verdes) e outros raramente mostrando envolvimento do lócus 8q (etiqueta vermelha). Assim, dependendo de envolvimento 8q tumores neuroepiteliais pode ser dividida em duas categorias diferentes. Ambos mostram ganhos 7q

doi:. 10.1371 /journal.pone.0043689.s003

(PDF)

Figura S4.

Exemplos de regiões CNA não neutras. a) Heatmap de perfis CNA em regiões genómicas (o mesmo que na Figura 3). b) As pequenas regiões (retângulos vermelhos no mapa de calor) são ampliada para mostrar como 8q é preferencialmente perdido em em etiquetas pretas) tumores (células germinativas e é preferencialmente adquirida nos tipos de cancro epitelial (etiquetas rosa). c) As pequenas regiões (rectângulos pretos no mapa de calor) são ampliada para mostrar como 18q é preferencialmente adquirida na medullublastomas (etiquetas marrom) e é preferencialmente perdido em tumores epiteliais (etiquetas rosa). Os exemplos aqui mostram que a forma como duas mudanças diferentes não neutras tumores epiteliais diferenciais de tumores de células germinativas e linfomas foliculares

doi: 10.1371. /Journal.pone.0043689.s004

(PDF)

Figura S5.

Cálculo de mais de toda a altura da árvore. Representação esquemática do comprimento ramo Estatística de altura da árvore somados. altura total da árvore é calculado somando-se a distância entre todos os pais e nós filho. Note-se que os comprimentos dos ramos de ramos terminais ( “folhas”) não são considerados. . Altura total da árvore =

doi: 10.1371 /journal.pone.0043689.s005

(PDF)

Tabela S1.

tabela com informações sobre os tipos de câncer utilizados na análise, valores de p hot-spot não neutra e. A tabela a dar detalhes sobre todos os tipos de câncer utilizados nesta análise com os números correspondentes de amostras neles e do tipo de célula raiz de cada câncer. A tabela também tem informações sobre os valores de p não neutras e hot-spot obtidos para todas as bandas genómicas em análise

doi:. 10.1371 /journal.pone.0043689.s006

(ODS)

Deixe uma resposta