PLoS ONE: detecção de câncer Gene Networks caracterizados pela recorrente Genomic Alterações em um Population

Abstract

De alta resolução, caracterizações de todo o sistema demonstraram a capacidade para identificar regiões genômicas que sofrem aberrações cromossômicas. Tais esforços de pesquisa visam muitas vezes a associar essas regiões com a etiologia da doença e resultado. Identificar os processos biológicos correspondentes que são responsáveis ​​pela doença e seu resultado permanece um desafio. Usando novos métodos analíticos que utilizam a estrutura de redes biológicos, que são capazes de identificar as redes específicas que são altamente significativamente, alteradas pela nonrandomly regiões de amplificação do número de cópias observado em análise de sistemas de largura. Demonstramos este método no cancro da mama, onde o estado de um subconjunto das vias identificadas através destas regiões é mostrado para ser altamente associados à sobrevida e recorrência da doença

Citation:. Efroni S, Ben-Hamo R, Edmonson M, Greenblum S, Schaefer CF, Buetow KH (2011) detecção de câncer Gene Networks caracterizados pela recorrente Genomic Alterações na população. PLoS ONE 6 (1): e14437. doi: 10.1371 /journal.pone.0014437

editor: Toshi Shioda, Hospital Geral de Massachusetts, Estados Unidos da América

Recebido: 17 de junho de 2010; Aceito: 08 de outubro de 2010; Publicado: 4 Janeiro, 2011 |

Este é um artigo de acesso aberto distribuído sob os termos da declaração Creative Commons Public Domain que estipula que, uma vez colocado no domínio público, este trabalho pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita

Financiamento:. sE é financiado pela União Europeia através do seu programa de reintegração internacionais Grants (IRG). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução fenótipos

biológicos surgem como consequência de genes que interagem através de redes complexas. Oncogénese foi mostrado para ser dependente de redes biológicas que controlam os processos tais como a apoptose, senescência, proliferação, e a angiogénese [1], [2]. No entanto, é claro que o conhecimento actual do que processos influenciam diversos fenótipos de cancro é incompleta. Isto é especialmente verdadeiro quando se trata de compreender os processos associados com a evolução da doença.

Um conjunto complexo de alterações genômicas ocorrer durante a evolução de células tumorais, incluindo mutações, translocações e copiar alterações numéricas. Por exemplo, a análise de todo o genoma dos tumores de mama por numerosas técnicas têm reproducibly demonstrado padrões recorrentes de número de cópias alteração (CNA) [3], [4], [5], [6], [7], [8], [ ,,,0],9], [10], [11]. A expressão de genes dentro destes segmentos alterados tem sido demonstrada estar correlacionada com o estado do número de cópias da região [3], [9], [12], [13], [14], [15], [16], [17], [18], [19]. No entanto, não está claro se esses padrões recorrentes representam o mais importante conjunto de CNAs ou representam apenas um subconjunto de regiões-chave.

Padrões de número de cópias alteração provaram valioso na classificação dos subtipos de câncer e pode servir como preditores de o resultado do paciente [19]. Estas alterações como alvo os genes que influenciam a redes que proporcionam os tumores com uma vantagem selectiva sobre as células de composição normal. Dada a sua associação com o resultado, é provável que eles também influenciam processos que impulsionam fenótipos clínicos e resposta a intervenções.

Identificar os processos visados ​​pelas regiões identificadas através da análise de todo o sistema é complexo. Por exemplo, copie regiões alterou-número contêm um grande número de genes. Há também um enorme grau de entre-individual heterogeneidade no inventário das regiões encontrado para ser alterada.

Variantes

O trabalho de outros para identificar os processos que sustentam traços complexos combinou herdadas e análise de rede para mapear multifatorial, fenótipos da doença heterogêneos [20]. Neste trabalho, os autores estender as abordagens tradicionais de mapeamento de gene por incluindo interações entre genes putativos para tratar a heterogeneidade. Outros conjuntos de dados foram analisados ​​multidimensionais que incluem diferentes medições de escala genoma simultaneamente no contexto das vias [21], [22], [23] .. Eles aplicar o método estatístico para medir o enriquecimento via e utilizar os dados de expressão genética para avaliar a variação de actividade da via. Através dessa análise que a hipótese de novas funções celulares.

No trabalho aqui apresentado, que complementam e estendem estas abordagens para analisar sistematicamente somática CNAs para identificar redes biológicos subjacentes fenótipos cancerosas. Nós demonstrar o método usando o conjunto de dados do cancro da mama de Chin et al [24]. Nós identificamos vias alteradas diferencialmente alvo de aberrações no número de cópias.

Semelhante a abordagens anteriores, addresse a heterogeneidade dos padrões, reconhecendo que diferentes padrões de CNA pode representar rotas alternativas que as células cancerosas podem tomar para alterar o mesmo conjunto básico de processos biológicos comuns. A heterogeneidade aparente no mapa de localização associados com o CNA pode simplesmente reflectir o facto de que os genes que compreendem uma determinada rede são distribuídos ao longo do genoma. Por isso, testar se as vias canônicas individuais são alvo em todas as regiões alterar o número de cópias não-aleatoriamente. Em contraste com as abordagens anteriores, alavancar a estrutura de rede existente, em oposição a de novo a criação de redes. A estrutura de interação da rede para essas redes canônicos é então aproveitado para fenótipos de mapeamento. métodos que utilizam previamente descritos [25] para determinar se estado alterado de forma não aleatória processos alterados podem prever o resultado paciente.

Resultados

Chin et al. relataram anteriormente número de cópias do genoma e a análise de 145 tumores de cancro da mama primário [19] a expressão do gene. Estas alterações foram determinadas usando matriz genoma BAC CGH [26], [27], [28], [29] constituído por 2464 BAC seleccionados em intervalos de base aproximadamente de mega ao longo do genoma, tal como descrito anteriormente [26], [28]. Utilizando este conjunto de dados e o processo descrito em Materiais e Métodos, o conteúdo de cada segmento do gene descrito em Chin et al. foi identificado. conteúdo

rede biológica Canonical informações estrutura e gene foi obtido a partir de fontes públicas [30], [31], foram examinadas [32] .Um total de 565 vias canônicas. Estas vias representam coleções de interações que são subconjuntos de redes biológicas maiores curadoria para capturar funções específicas. Portanto, o seu conteúdo genético não é única. O conteúdo genético destas vias varia drasticamente. Por exemplo, como a via de “degradação do RAR e RXR pelo proteassoma [33]) contém apenas dois genes enquanto IL12 via de sinalização” [34], [35], [36]) contém 80.

para ter em conta a heterogeneidade de envolvimento do gene em que a análise é realizada utilizando um modelo de rede que definem uma nova medida estatística (descrito nas equações (2.5) e (2.6) em Materiais e Métodos). A significância para cada percurso entre amostras foi avaliada utilizando o Omnibus de Fisher [49] e ajustadas para comparações múltiplas utilizando o método de Bonferoni.

A aplicação dos métodos para os dados fornecidos por Chin et al., Identificamos vias em que as genes alterados por CNAs são altamente sobre-representados quando comparado com expectativas aleatórias (Tabela S1) significativamente.

para ilustrar os diversos padrões sobre-representação de uma determinada rede, apresentamos os eventos CNA associados à via “CDC25 e CHK1 “[37] (Figura 1). Na figura, a amplificação do gene é indicado através de um quadrado e deleção do gene roxo através de quadrados pretos.

retângulos roxo significa amplificação do gene e quadrados pretos significam eliminação. Cada coluna representa um assunto escolhido aleatoriamente com um total de 18 indivíduos. Cada linha representa um gene diferente dos genes de vias. Diferentes temas como alvo o “CDC25 e CHK1” caminho através alternando estratégias genômicos. A via como uma unidade, no entanto, é alvo toda a população.

Como a Figura 1 mostra, nenhum gene na via parece ser o alvo diferencial da CNA através das amostras de câncer de mama 18 mostrado … ou quando examinada através dos restantes 127 indivíduos no estudo.

por outro lado, podemos ver que o caminho, como uma unidade, é alvejado em quase todos os assuntos no painel (todo o painel de assuntos para esta via está incluído na Tabela S2). Note-se, a métrica (ver Materiais e Métodos) compensa tamanho via. Como tal, para obter um valor p significativo, percursos maiores precisam de acumular um maior número de amplificações de genes ou exclusões.

A seguir, avaliou se as redes identificadas pela sobre-representação da CNA estão associados com a evolução da doença. Usando atividade da via e as pontuações via consistência [26], nós agrupados os indivíduos de acordo com as suas métricas de percurso e realizada análise de sobrevivência. Quando estratificar os pacientes em dois grupos, podemos tirar as curvas de sobrevivência e verificar para ver se eles se separam a população de uma forma significativa (Figura 2).

Esta via, que tem sido destacada por meio de sua altamente significativa p-valor como alvo de alterações genômicas, é altamente significativo na sua capacidade de estratificar o prognóstico dos pacientes. A figura demonstra como significativo alterações genômicas indicam significância de um percurso como uma ferramenta de estratificação

iteração sobre a coleção de centenas de vias, encontramos 29 vias que atendam a critérios de significância de p . 0,05 (Tabela S3) . No entanto, quando o ajuste para múltiplos testes utilizando o método de Bonferroni apenas dois caminhos significativamente alvo de alterações genômicas também são altamente associados com a sobrevivência “,” hipóxica e homeostase oxigênio regulação do HIF-1-alfa “[38], [39], [40] e glicosaminoglicanos [refs] degradação.

Uma abordagem alternativa para o ajuste para comparações múltiplas para avaliar a significância é validar os resultados destes dois caminhos que mostram significância marginal entre os conjuntos de dados. Dois conjuntos de dados públicos com dados de expressão e evolução da doença foram selecionados do banco de dados Omnibus Gene Expression (https://www.ncbi.nlm.nih.gov/geo) [41] O primeiro conjunto de dados (GSE2990) [42] continha 189 indivíduos. O segundo (GSE3494) [43] continha 251 indivíduos. a expressão do gene em ambos os conjuntos de dados utilizada a plataforma Affymetrix para determinar o estado de expressão gênica. Dos originais 29 vias observados a ser significativamente associada com a sobrevivência em Chin et al. [19], 8 foram observados como sendo significativa na GSE2990 e 8 foram observados como sendo significativa na GSE3494. Um total de 4 vias foram observadas como sendo significativa em todos os três conjuntos de dados. Concordância entre os conjuntos de dados é mais do que seria esperado apenas pelo acaso.

Discussão

Os resultados acima sugerem que os genes em CNA alvo de forma não aleatória processos importantes para o estado oncogênico. No trabalho aqui apresentado, é proporcionado um meio para identificar objectivamente os processos biológicos que podem ser o alvo de tais alterações. Além disso, as vias de sobre-representadas nesses segmentos mostram diferenças na atividade e consistência que está relacionado ao resultado câncer.

O número total de vias identificadas como não-aleatoriamente alvo é impressionante. Uma possível explicação é a falta de independência do conteúdo gene associado a cada via. agrupamento hierárquico das vias utilizando o valor p associado à segmentação não aleatória (Tabela S4) confirma que as vias com nomes relacionados comumente cluster com alta correlação (r 0,5, dados não mostrados). A inspeção dos valores p pathway entre os indivíduos mostra tremenda variabilidade (Tabela S4). Isto sugere diversos mecanismos moleculares subjacentes oncogênese condução. Infelizmente, nenhum padrão óbvio de agrupamento de indivíduos emerge da análise da variabilidade específico do percurso.

CNA tenham sido previamente demonstrado para mostrar associação com o desfecho do paciente [44], [45], [46], [47] ). No Chin et al. [19] copiar o número de segmentos alterados individuais mostraram associação com a sobrevivência e recorrência da doença, mas realizado de forma irregular. Quando tomado como um conjunto, eles descobriram que a alteração de qualquer um que eles identificados como “amplicons recorrentes” foi associada com duração reduzida de sobrevivência (p 0,04) e recorrência à distância (p 0,01).

Os resultados obtidos de análise baseada em via do mesmo conjunto de dados produzir uma melhoria marcante e sugerem que as vias pode representar uma melhor maneira de avaliar as alterações recorrentes. Duas vias mostram uma associação altamente significativa dentro Chin et al. sozinho e 4 vias mostrou significância entre vários conjuntos de dados de expressão de dados. Devido à elevada dimensionalidade de dados dos sistemas à escala, há sempre um risco de mais de encaixe. Como tal, resulta de um estudo individual deve ser visto com ceticismo. No entanto, a concordância significativa em todo múltipla fornece validação independente.

O aumento da reprodutibilidade e magnitude do efeito associado com o estado via comparada com a observada no exame direto das regiões “recorrentes” pode ser atribuída a vários fatores. A um nível mecânico, análise de dados no nível de percurso permite que a informação a partir de diferentes regiões para ser integrado através da rede. O facto de qualquer região de repetição é amplificado já não é o preditor crítica. O que emerge em vez disso é a importância de conjuntos de regiões alteradas cujos membros individuais atingir diferentes partes de um caminho de destino. Pathways pré-agregar os efeitos de múltiplos genes. Como tal, é possível detectar interações multigênicas que influenciam os fenótipos cancerosas, mas que, se não agregados em uma via, pode deixar de atender o teste de significância estatística em um pequeno conjunto de dados.

CNA é apenas um fator que pode ser a condução comprometimento das vias em fenótipos. Muitos outros mecanismos genómicas (por exemplo, mutações de genes individuais, epigenética activação /silenciadores) podem influenciar o estado da via. Como tal, as vias identificadas aqui representam um subconjunto daqueles provavelmente envolvidos.

Conceptualmente, é provável que, porque a via é a unidade subjacente do fenótipo, concentrando-se em vias de sinal aumenta e reduz o ruído. alterações genômicas que se acumulam durante a oncogênese e progressão da doença ocorrem ao acaso. A coerência observada provável surge porque certos processos deve ser alterada para chegar ao fenótipo determinado. heterogeneidade genômica aparente, o “ruído”, surge porque existem várias maneiras de um caminho pode ser alterado. Todas estas formas são “sinal” a partir da perspectiva de uma via.

É possível especular que a análise semelhante para os realizados por alteração do número de cópias com a via (acima) pode ser útil para outras análises genoma, tais como telas de mutação ou estudos de associação ampla de genoma. Por exemplo, os complexos padrões de mutações observadas nos 1672 genes caracterizados no cancro humano e da mama [48] são observadas para mutar genes em uma ou mais das seis estado vias canónica identificados a partir de dados de expressão de genes que diferencia universalmente tumor do normal [25] . Da mesma forma, complexas, baixos padrões de rácios estranhas associações de haplótipos podem refletir rotas heterogêneos para alterar vias comuns. As observações acima tem várias implicações práticas em considerar as estratégias de intervenção de próxima geração. Em primeiro lugar, as redes de proporcionar uma base para a concepção de terapias combinatórias. O exame das redes, e seus estados de actividade, proporciona um meio racional de determinar qual a combinação de genes precisam ser orientados a fim de alterar o estado dos pontos críticos. É também interessante notar que nem todas as alterações nas vias estados resultado influência. Esta diferença observada no efeito sobre o resultado, que pode refletir o resultado de experimentos naturais pelo tumor, também pode revelar-se importante para priorizar quais genes e interações pode ser mais produtiva orientada para melhorar o resultado.

Materiais e Métodos

Mapeamento Entrez Gene para Caminho dourado

banco de dados Gene Entrez do NCBI contém 36470 registros humanos, 25.441 deles anotados como proteína codificante. Para cada gene neste conjunto usamos uma variedade de métodos para encontrar a sua localização sequência do genoma de Ouro Path. Version (hg18) da base de dados do genoma contém extensas anotações que temos utilizado sempre que possível. Em alguns casos, usamos BLAT para encontrar localizações genômicas.

As posições de aproximadamente 18.342 (~54%) genes foram anotados diretamente nas tabelas refLink e refGene do caminho dourado. Embora esta seja a referência mais simples, ele deixa 18,128 genes não mapeados, 6.757 (~18.5%) deles proteína codificante.

Nos casos em que uma anotação de genes directa não estava disponível, buscamos anotações do caminho dourado para a locais de sequências associadas de uma variedade de fontes, listados abaixo em ordem de preferência:

adesões de mRNA da tabela “gene2accession” do Entrez Gene

adesões com referências cruzadas do banco de dados HUGO

adesões com referências cruzadas do banco de dados uniSTS

sequência principal representante do agrupamento UniGene associado

sequências de mRNA de aglomerado UniGene associado

ESTs de UniGene associado aglomerado

As adesões foram recolhidas a partir de cada uma dessas fontes, por sua vez, em seguida, olhou para cima em várias mesas de Ouro Caminho de anotação (all_mrna, stsMap, clonePos e all_est). Um banco de dados feito localmente, do RNAm e os resultados RefSeq CLAT (montado por Robert Clifford) também foi procurado, oferecendo alguns jogos adicionais. As localizações genômicas resultantes das sequências de busca foram agregados, e aceito como a posição do gene se os locais caiu dentro de uma região 3 mb (3 mb ser um corte um pouco arbitrária com base no maior mapeamento genético baseado em refLink observado de cerca de 2,3 mb). Se uma anotação cromossomo estava disponível a partir Gene Entrez, HUGO, ou uniSTS, posições genômicas só foram incluídos se eles estavam no mesmo cromossomo. Uma anotação cromossomo conhecido era necessária no caso de mRNA UniGene e pesquisas sequência EST.

Nos casos em que as anotações de adesão estavam disponíveis, mas as posições não foram encontrados, realizamos nossas próprias pesquisas da CLAT. Isso foi necessário para certas classes de adesões que não aparecem no banco de dados Caminho Dourado (por exemplo, a série “XM_” de refseqs previstos). Se uma anotação cromossomo estava disponível para o gene, uma pesquisa da CLAT foi executado apenas contra esse cromossomo, caso contrário, todos os cromossomos foram pesquisados. Os resultados foram agregados e aceito como a posição do gene se caiu dentro de 10 mb ou região menor. Este é um requisito menos rigorosos do que usado no sistema de mapeamento baseado em adesão, mas pode fornecer pelo menos uma posição geral, muito mais específico do que a citogenética à base de coordenadas (a única informação de mapeamento disponível para algumas entradas Entrez Gene). Se partidas plausíveis foram encontrados em vários cromossomos, o mapeamento genético foi rejeitado como ambíguo.

Resultados da CLAT são anotados com uma das quatro categorias de tipos de correspondência, assim que as anotações podem ser excluídos mais tarde, se eles são considerados demasiado ampla. As quatro categorias são:

Uma combinação perfeita único para a sequência de consulta foi encontrado. O resultado do mapeamento ideal.

Mais do que uma combinação perfeita para a seqüência de consulta foi encontrado.

Um jogo quase perfeito (pelo menos 95%, mas menos de 100% de identidade) foi encontrado.

Várias partidas quase perfeitas foram encontrados

o tratamento preferencial foi dado a perfeita RefSeq corresponde nos resultados -. ou seja, um jogo BLAT perfeito para um RefSeq foi considerado posição genômica do gene, independentemente da presença de outras partidas quase perfeitas nos resultados

Se o mapeamento falhou por qualquer um dos métodos acima alguns métodos rudimentares de último recurso foram tentados:.

Se um gene foi posicionado em um NCBI seqüência genômica contig (NC_ * adesão série, através da tabela “gene2refseq” de EG), e um gene vizinho no mesmo cromossomo, braço,

e banda poderia ser encontrada no Caminho dourado, o

relativa

distância entre os dois genes na sequência NCBI

foi aplicada ao Caminho dourado coordenadas para aproximar

a sua posição.

Se um gene tinha apenas uma localização citogenética disponíveis, coordenadas dos genes de Ouro mapeado-caminho com o mesmo local citogenética foram agregados e uma união de sua posição gerada. Os mapeamentos resultantes são extremamente amplo, mas, pelo menos, apontam para uma região molecular geral, que ainda pode ser útil em algumas circunstâncias.

BACs Mapeamento para Caminho Dourado

O segundo conjunto de dados a ser mapeado a Caminho dourado consistia no conjunto de BACs utilizados nas matrizes CGH de Chin et al [24]. Tal como acontece com o processo de mapeamento Gene Entrez, o banco de dados Caminho anotação de Ouro contém uma tabela ideal para nossos propósitos “, bacEndPairs”, mantendo as posições genômicas de BACs cujas sequências finais ambos foram mapeados. No entanto, apenas cerca de 39% dos BACs em nosso conjunto de conter uma entrada nesta tabela. A tabela “fishClones” desde mapeamentos para um adicional de 6% dos BACs. Para o restante foi utilizado anotações relacionadas com a BAC como base para o mapeamento.

O registro clone NCBI fornecida uma importante fonte de anotações BAC. A partir dele, foram extraídas adesão relacionados com o BAC, sequência final, STS e informações cromossomo. O registro também forneceu conexões cruzadas para uniSTS, das quais se reuniram adesões adicionais relacionados. Nós procurado para as seqüências resultantes em all_mrna do Caminho Dourado, clonePos, stsMap e all_ests tabelas. Também tomamos nota especial de quaisquer jogos para as sequências finais BAC. Além do registro de clone, nós também usou anotações das matrizes UCSF 2.0 (dados de https://cancer.ucsf.edu/array/analysis/), bem como registros GenBank referência a nomes de alcoolemia no bloco de título. mapeamentos do genoma foram aceites para as BACs se eles não eram mais de 500 kb de comprimento, e mapeamentos para cromossomas ambíguas foram rejeitadas.

Para BACs que não puderam ser encontrados usando registro clone NCBI ou matriz UCSF anotações, buscou uma abordagem de mapeamento baseado substituto. Chin et als [1] anotações matriz CGH fornecida posições genômicas em bruto (em megabases) cujas coordenadas alinhado mais de perto com uma compilação do genoma mais velho, HG16. Para cada BAC, foram extraídas IDs de sequência de HG16 que foram anotados como sendo perto desta posição. Os conjuntos de sequências foram extraídos a partir de cada um dos all_mrna, stsMap, e all_est tabelas de anotação. Para mRNAs e STSs, usamos sequências localizadas dentro de mais ou menos 5 kb do local de destino. Para ESTs, tomamos sequências dentro de mais ou menos 1 kb da posição de destino. Estas sequências extraídos foram usados ​​como substitutos para os BACs, e olhou para cima em hg18, procurando (em ordem de preferência) mRNAs, STSs e ESTs. Esta abordagem foi utilizada para gerar posições hg18 para aproximadamente 8,7% dos BACs.

Para BACs que não poderiam ser mapeados para hg18 usando qualquer um dos métodos acima, um segundo passo foi realizado para localizar as posições gerar aproximados baseados interpolados locais BAC vizinhos. Para cada BAC, tentámos encontrar flanqueando BACs com mapeamentos hg18. Em seguida, aplicado deslocamentos relativos às posições hg18 com base nos espaçamentos nas posições HG16. Isto só foi necessária para cerca de 1,4% dos BACs.

BAC pré-processamento.

Dois conjuntos de posições genômicas modificados são gerados para cada BAC, ao qual nos referimos como coordenadas expandida e estendida.

coordenadas expandidas são uma tentativa de compensar os muitos casos em que o mapeamento BAC e seqüência-end informação está incompleta. Eles destinam-se a garantir que todos os BACs cobrir um montante mínimo do genoma, e que os BACs totalmente mapeadas não multidão out BACs com anotações de mapeamento menos completos. Este BAC envolve a expansão de mapeada coordena até cerca de 165kb, que é a nossa observação do tamanho médio de BACs, onde ambas as sequências finais foram mapeados. Coordenadas não são expandidos nos casos em que ambas as sequências finais foram mapeados, ou se as informações de mapeamento existente abrange 100kb ou mais. Se uma única sequência de mapeamento final é conhecida, a expansão é feita para longe da extremidade ancorada, caso contrário, as coordenadas são expandidos igualmente em um ou outro sentido. As colisões durante a expansão entre os BACs estreitamente-mapeadas são detectados e resolvidos por um processo multi-passo, onde o espaço intermédio disponível é atribuído igualmente entre BACs. Se a expansão em uma direção faz com que uma colisão com um BAC vizinha, a expansão compensatória adequada é tentada no outro sentido, a menos que esse efeito é fixada pela presença de uma sequência final conhecido

.

coordenadas estendida construir sobre os mapeamentos expandidas dividindo regiões do genoma não atribuídos entre BACs vizinhos. Isto proporciona uma cobertura pseudo-ladrilhos do genoma, permitindo que qualquer região a ser associada com o BAC mais adequado no conjunto. Gerando coordenadas alargada requer coordenadas expandido a ser calculado em primeiro lugar, para permitir que a tarefa mais equitativa das regiões intervenientes

.

coordenadas expandida e estendida são computados dinamicamente com base na filiação BAC da matriz CGH sendo trabalhado. Enquanto as matrizes CGH-base HG16 foram destinados a provar o genoma em intervalos regulares, as suas posições calculadas em hg18 não são tão bem espaçadas. Para estes fins, os BACs foram dispostos como observamos-los em hg18.

Há casos em que coordena BAC sobreposição. Nos casos em que a BAC é calculado para se encontrar inteiramente dentro de um BAC maior, o BAC menor recebe as mesmas coordenadas finais como o BAC maior (que é considerada essencialmente uma duplicata). Nos casos em que a BAC se sobrepõe parcialmente com o outro, as coordenadas da região de sobreposição são deixados inalterados, e nenhuma expansão ou extensão é realizada no fim com a sobreposição.

Associando BACs com genes

Existem três tipos básicos de intersecções entre gene e coordena BAC:

mapeamento do gene é inteiramente abrangido mapeamento do BAC

mapeamento do gene encontra-se parcialmente no mapeamento do BAC e parcialmente fora

mapeamento do gene é maior do que o mapeamento do BAC. Isso pode acontecer por genes com mapeamentos de genes citogeneticamente derivadas muito amplos.

Gene-to-BAC associações do primeiro tipo são triviais para calcular. Os dois últimos casos requerem alguns passos adicionais para determinar se um gene deve ser associado a um BAC ou não. As associações são geralmente rejeitadas, se o comprimento do mapeamento BAC é inferior a um terço do comprimento do mapeamento genético. Isto impede que as associações de ser formadas com base em sobreposições não substanciais. Se o conjunto estendido de BAC coordenadas está sendo usado, uma associação é rejeitada, a menos que pelo menos 50% de coordenadas do gene se encontram dentro de coordenadas do BAC. Uma vez que em extensas telha BACs modo o genoma completamente, este passo garante que os genes das regiões fronteiriças vai ser atribuído a um BAC exclusivamente. associações específicas de BACs e seus genes foi anteriormente descrita na Chin et al. [24].

identificação de genes em número Altered Regiões de cópia. A fim de identificar os genes das regiões número cópia alterada era necessário para traduzir BACs de coordenadas utilizado na hibridação genómica comparativa (CGH) ensaios em coordenadas do genoma. Este mapeamento envolveu o banco de dados Entrez Gene e os BACs CGH a um comum espaço de coordenadas (dourado Path genoma humano compilação hg18), e em seguida, sobrepondo os resultados. Estes processos são descritos no material suplementar [19].

Genes mapeamento para Pathways

Nós determinamos a lista de genes utilizados em cada percurso dentro por consulta da via interação com o banco [49].

p-valor para alterações genômicas de uma via em uma amostra

específica

Cada rede via tem sido tomado como um conjunto de genes. Ou seja, para cada via, e de acordo com (2.4), listamos os genes que são membros da via.

Para determinar a probabilidade de que um caminho é para ser atingido por exatamente sucessos k, primeiro calculamos a probabilidade de que o caminho é atingido aleatoriamente vezes. Com genes G quantificado numa dada plataforma (por exemplo, uma plataforma que cobre todo o genoma vai cobrir mais ou menos L = 24,000), e N

sub genes numa via i (N

i é geralmente entre 10-70 genes) temos: (2.4) a probabilidade de acertar aleatoriamente zero a

k

i

,

j

genes, dado que

M

j

genes são alterados na amostra

j

é o hypergeometric função cumulativa de distribuição: (2.5) o p-valor associado é, portanto, definida como: (2.6)

p-valor para um caminho mundial segmentação em toda uma população

para ser capaz de quantificar estatisticamente segmentação genômico de um caminho através de uma população de indivíduos que precisamos para fazer uma iteração através dos valores de p definidas em (2.5). Este é na verdade uma combinação de um teste binomial lados. Isto foi resolvido por meio de técnicas diferentes, incluindo de Fisher Omnibus [50], a qual estamos a usar aqui. Esta estatística de teste para pathway

i

é expresso aqui como: (2.7) eo p-valor correspondente é: (2.8) onde é a função de distribuição cumulativa de Qui-quadrado e

d Quais são os número de graus de liberdade (número de amostras).

Informações de Apoio

Tabela S1.

correcção de Bonferroni foi aplicada sobre os valores de p calculados utilizando o teste de Fisher Omnibus, a fim de resolver o problema de comparações múltiplas. O valor de significância foi atribuir a ser 8,834 × 10

-5, que é de 0,05 /566 (quando o 566 é o número de vias). Tabela S1 mostra todos os 566 percursos calculados a partir do conjunto de dados do queixo com o valor p calculado pelo teste Fisher Omnibus. Além disso, todos os p-valor foi ajustado e via de significância foi transferido

doi:. 10.1371 /journal.pone.0014437.s001

(0,65 MB DOC)

Tabela S2.

Tabela S2 mostra todo o painel dos assuntos para o seguinte caminho “cdc25 e via reguladora de Chk1 em resposta a danos no DNA”. Esta via é composta de 9 genes. Esta tabela mostra as alterações no número de cópias em todo paciente com câncer de mama 145: -1 indica exclusão, 1 indica amplificação e 0 indica de nenhuma mudança significativa

doi:. 10.1371 /journal.pone.0014437.s002

(0,19 MB DOC )

Tabela S3.

Tabela S3, aqui apresentado, mostra todos os caminhos que encontramos a ser significativa utilizando análise de sobrevivência de Kaplan-Meier. Todos os percursos aqui apresentados foram encontrados para ser significativamente alvo através do número de cópias alteração utilizando o teste de Fisher Omnibus (após a correção). Todos os 29 percursos foram testados em dois conjuntos de dados mais públicas obter do GEO (https://www.ncbi.nlm.nih.gov/geo). . A – atividade, C – consistência

doi: 10.1371 /journal.pone.0014437.s003

(0.05 MB DOC)

Tabela S4.

A tabela Detalhes do valor Omnibus de Fisher para cada percurso.

Deixe uma resposta