PLOS ONE: Caminho personalizado Enriquecimento Mapa de genes do cancro putativo de Next Generation Sequencing Dados

Abstract

Fundo

análise de caminho de um conjunto de genes representa uma área importante em grande escala

ómicos

análise de dados. No entanto, a aplicação de métodos de enriquecimento via tradicionais para sequenciamento de próxima geração (NGS) de dados é propenso a vários vieses potenciais, incluindo fatores genômicos /genética (por exemplo, a doença e comprimento determinado gene) e factores ambientais (por exemplo, estilo de vida pessoal e frequência e dosagem de exposição aos agentes mutagénicos). Portanto, são urgentemente necessários novos métodos para estes novos tipos de dados, especialmente para dados do genoma específicos individual.

Metodologia

Neste estudo, propusemos um novo método para a análise de caminho de mutação NGS dados tomando expressamente em conta a taxa de mutação do gene-wise. Estimou-se a taxa de mutação do gene-sábio com base na taxa de mutação de fundo específico do indivíduo, juntamente com o comprimento do gene. Tomando a taxa de mutação como um peso para cada gene, a nossa estratégia resampling ponderada constrói a distribuição nulo para cada via, enquanto combinando os padrões de comprimento gene. O

valor P

empírica obtida em seguida, fornece uma avaliação estatística ajustada.

PRINCIPAIS CONCLUSÕES /Conclusões

Nós demonstramos o nosso método de reamostragem ponderada a um conjunto de dados adenocarcinomas de pulmão e um conjunto de dados glioblastoma, e comparou-a com outros métodos amplamente aplicadas. Ao ajustar explicitamente gene de comprimento, o método de reamostragem ponderada funciona tão bem como os métodos padrão para vias significativas com evidência forte. É importante ressaltar que o nosso método pode efetivamente rejeitar muitas vias marginalmente significativos detectados por métodos padrão, incluindo vários percursos baseados em longo gene, cancro-relacionado. Demonstramos ainda que, ao reduzir tais preconceitos, crosstalk via para cada mapa co-mutação individual e via em vários indivíduos podem ser objetivamente explorado e avaliado. Esse método realiza análise de caminho de forma centrada na amostra, e fornece uma forma alternativa para análise precisa dos genomas personalizado de câncer. Ele pode ser estendido a outros tipos de dados genômicos (genotipagem e metilação) que têm problemas de viés semelhantes

Citation:. Jia P, Zhao Z (2012) personalizado Caminho Enriquecimento Mapa de genes do cancro putativo de Next Generation Sequencing Dados . PLoS ONE 7 (5): e37595. doi: 10.1371 /journal.pone.0037595

editor: Steve Horvath, da Universidade da Califórnia em Los Angeles, Estados Unidos da América

Recebido: 21 Dezembro, 2011; Aceite: 25 de abril de 2012; Publicado em: 18 de maio de 2012

Direitos de autor: © 2012 Jia, Zhao. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi parcialmente apoiado por bolsas de Institutos Nacionais de Saúde, o NARSAD Maltz Award 2009 Investigator para ZZ, eo Investigator Award 2010 NARSAD Young para PJ. Nenhum financiamento externo adicional foi recebida para este estudo. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. Os autores leram a política da revista e tem as seguintes conflitos: Dr. Zhongming Zhao Atualmente serve como um editor para PLoS ONE. Isto não altera a adesão dos autores para todos os PLoS ONE políticas em dados e materiais de compartilhamento.

Introdução

Em estudos de sequenciamento em larga escala de genomas do câncer, um dos desafios centrais é distinguir mutações causadoras de doenças “driver” de mutações “passageiro”, e permitir o desenvolvimento de terapia-alvo e medicação. Enquanto os métodos estatísticos foram em desenvolvimento activo para testar eventos de mutação ao nível do gene, a ocorrência combinatória de muitos genes mostra padrões distintos. Alguns exemplos bem estudados incluem mutações mutuamente exclusivos, como

EGFR

e

KRAS

no cancro do pulmão [1], e

TP53

e

MDM2

em glioblastoma. A maioria destas mutações foram frequentemente observada em certos caminhos focados, por exemplo, quatro genes da via de sinalização de EGFR-RAS-RAF,

EGFR

,

KRAS

,

HER2

, e

BRAF

, comportar-se de forma exclusiva mútuo em câncer de pulmão [1], [2]. Além disso, as descobertas mais recentes do The Cancer Genome Atlas (TCGA) projectos sugerem fortemente a convergência de mutações no nível via (por exemplo, três caminhos principais em glioblastoma, [3]). Estas observações promovido um consenso emergente de que os genes motorista poderia ser analisado ao nível via e induzir a interpretação funcional mais simples.

o rápido avanço em tecnologias de próxima geração de sequenciamento (NGS) tornou possível sequenciar genomas individuais de uma forma atempada e eficiente. Por exemplo, toda a sequenciação do genoma pode fornecer um espectro completo das mutações genéticas, incluindo variantes de nucleotídeo único (SNVS), inserções curtas /deleções (Indels), as variações no número de cópias (CNVs), e variantes de estrutura. Até agora, muitos genomas do câncer individuais foram sequenciados com sucesso [4], [5], [6], e ainda mais são esperados no futuro próximo. Esses aplicativos fornecem dados de sequenciamento valiosos para os genomas individuais e torná-lo possível realizar a análise de uma maneira centrada na amostra, acelerando significativamente os nossos passos no sentido de diagnóstico personalizado e medicação.

Neste trabalho, o objetivo foi realizar uma à via teste de enriquecimento de um grupo de genes do cancro putativas detectadas nos pacientes individuais. Em contraste com a maioria dos tipos de dados tradicionais, os dados de sequenciamento personalizado é normalmente complicada pelas seguintes características: (1) os genes mutantes estão relacionados com um indivíduo e, provavelmente, diferem entre os vários indivíduos; (2) os genes mutados ocorre a uma taxa de mutação de fundo específica individual, que pode ser sujeito a estilo de vida pessoal, a frequência e a dose de exposição a agentes mutagénicos, e a doença em particular; e (3) os genes mutados são atribuídos ao comprimento gene sob o pressuposto de que as mutações ocorrem de maneira uniforme ao longo de todo o genoma. Devido a estes desafios, os métodos que têm sido bem estudado e amplamente aplicados em análises standard conjunto de genes não são directamente aplicáveis. Por exemplo, um teste de enriquecimento funcional é uma forma importante para explorar as funções biológicas para uma lista de genes de interesse. Tradicionalmente, os genes de interesse são derivados através de estudos de um grupo de amostras, por exemplo, diferencialmente expressos (DE) genes derivados de design de caso /controle, e testes estatísticos padrão, tais como o teste hypergeometric ou teste exato de Fisher pode ser realizado para testar se um conjunto de genes (por exemplo, caminho ou grupo funcional) é significativamente enriquecida com genes dE. Notavelmente, uma suposição comum subjacente a estes testes é que todos os genes (correspondentes às bolas em uma urna) têm uma chance igual de ser selecionada. No entanto, quando aplicados a dados de NGS, a unidade de mutação é de ADN genómico, por exemplo, SNVS ou pequenas inserções /eliminações (indels), e supõe-se que ocorre de forma uniforme em todo o genoma. Em contraste, a unidade de análise de um teste de enriquecimento é via gene. Uma tendência frequentemente observado no processo de correlação SNVS ou indels a genes é que os genes longos tendem a abrigar mais mutações, uma vez que ocupam grandes partes do genoma e, por conseguinte, os genes longos tendem a ter maior oportunidade de ser mutado. Portanto, o teste hypergeometric padrão ou teste exato de Fisher não é mais aplicável a esses tipos de dados.

O efeito gene tem sido reconhecida em dados de mutação NGS. No recente trabalho de Wendl et al. [7], para estimar a probabilidade de um caminho a ser enriquecida com genes mutados, uma forma de força bruta de calcular o exato

P valores

foi descrito, e uma estratégia de aproximação à base de convolução foi proposto com o objetivo de reduzir o computacional fardo. A polarização comprimento gene também tem sido reconhecido nos dados de sequenciação de ARN, em que longos transcritos tendem a ter mais leituras mapeado para eles. No trabalho de Young et al. [8], os autores propuseram para caber uma função de probabilidade de ponderação e estimar quantitativamente a probabilidade de um transcrito a ser seleccionado como DE, em função do seu comprimento transcrição. O teste de enriquecimento Gene ontologia (GO), em seguida, é realizada com base na probabilidade estimada para cada transcrito /gene. Notavelmente, a polarização comprimento gene aparece em muitos aspectos da análise relacionado da via, tais como a via de diafonia no interior de cada amostra e via de perfil de co-mutação através de múltiplas amostras de [9]. ajustamento adequado poderia garante a precisão dessas análises.

Neste estudo, propôs uma estratégia de redução de viés para o teste de enriquecimento via tomando o fundo das taxas de mutação específica do gene. Esta estratégia, a saber, o método de reamostragem ponderada, leva em conta o comprimento do gene para estimar a via

P valores

e provou ser eficiente computacionalmente. No âmbito do quadro resampling ponderada, crosstalk percurso personalizado poderia posteriormente ser explorado, revelando a complexa interação no nível percurso. Além disso, mostramos que a redução efectiva da polarização comprimento do gene, um mapa via mais funcionalmente relevantes co-mutada podia ser derivado. O trabalho que aqui proposta vai encontrar amplas aplicações no futuro próximo, espera-se que os dados de sequenciamento mais personalizados para estar disponível.

Materiais e Métodos

Os conjuntos de dados

coleção Pathway.

foram coletados todos os caminhos de KEGG [10] utilizando o pacote de R ‘org.Hs.eg.db’ (versão 2.5.0), em que as vias de KEGG foram baixadas a partir de 15 de março de 2011. a total de 229 vias e 5891 genes estavam envolvidos nesta versão. Para evitar percursos definidos para os processos biológicos muito específicos ou muito gerais, foram selecionados aqueles com pelo menos 10 e no máximo 500 genes, resultando em 213 percursos válidos para a nossa análise posterior.

pulmão adenocarcinomas de dados.

O conjunto de dados de câncer de pulmão foi inicialmente relatada em Ding et al. [11], em que um total de 188 amostras de adenocarcinomas do pulmão foram sequenciados para 623 genes. Em resumo, as amostras de 163 foram observados para ter mutações em pelo menos um gene, e 356 genes foram observados para ter mutação (s) em, pelo menos, uma amostra. Para garantir o poder estatístico, incluímos apenas as amostras com pelo menos 10 genes mutantes (Figura S1). Esta regra de filtragem resultou em 33 amostras com 277 genes envolvidos, e eles foram posteriormente utilizados como nosso conjunto de dados de trabalho. A taxa de mutação de fundo foi definido como 2,7 × 10

-6 para estas amostras, conforme indicado na obra original [11].

dados Glioblastoma.

Os dados de glioblastoma detectados 223 genes com mutação somática, pelo menos, um não silenciosa em uma ou mais amostras com validação experimental [3]. Um total de 91 amostras foram examinadas, incluindo 72 casos não tratados e 19 casos tratados. Para assegurar poder estatístico, o que é necessário que uma amostra seria incluído para o nosso seguimento análise se tiver ≥5 genes mutados. O hotel selecionado este corte menos rigorosas aqui em comparação com amostras de pulmão devido a características específicas da amostra. Como mostrado na Figura S1, haveria apenas algumas amostras restantes, se aplicada em 10 os dados de glioblastoma. Assim, utilizando-se 5 como o valor de corte, 18 amostras permaneceu adequado para a análise de caminho seguinte.

Como identificado no trabalho original [3], existem sete hipermutada amostras de glioblastoma com uma alta taxa de mutação somática, todos que pertencem a amostras tratadas. Estas amostras resultou em uma taxa de mutação fundo desigual para as amostras tratadas e não tratadas. Assim, vamos definir a taxa de mutação para ser 3,7 × 10

-6 para amostras não tratadas e 6.4 × 10

-6 para amostras tratadas (https://tcga-data.nci.nih.gov/docs/publications/gbm_2008/TCGA_GBM_Level4_Significant_Genes_by_Mutations_DataFreeze2.xls).

Weighted resampling teste via enriquecimento com base em amostra única

O pressuposto subjacente do teste hypergeometric padrão em gene definido análise de enriquecimento é que todos os genes no genoma tem uma chance igual de ser selecionada. Este pressuposto não é mais válido quando a unidade de análise é transferido de mutações de genes, porque os genes mais longos tendem a ter mais chances de abrigar mutações, assumindo que as mutações ocorrem de maneira uniforme em todo o genoma. Assim, o teste padrão hipergeométrico não é aplicável em tais casos. Para este fim, propusemos uma estratégia ponderada resampling para construir a distribuição nula, e compararam os genes mutantes observadas em cada via com a distribuição nula estimado.

Vamos

μ

ser a taxa de mutação de fundo uma amostra para o cancro. Estudos anteriores demonstraram que

μ

é da ordem de 10

-6 /nt [12] e varia muito em diferentes doenças [11], [12]. Aqui, NT indica nucleótidos. Vamos

l

ser o comprimento do gene e

l

i

para o

i

th gene, e

G

= {

g

i

;

i

= 1, …,

n

} o conjunto de todos os genes para um total de

n

genes no genoma. Assumindo um local genómico (por exemplo, posição de nucleótido) no genoma possui dois estados, mutado ou não, a probabilidade de o

i

th gene,

g

i

, não sendo mutante poderia ser formulado como

exp

(-

μ × l

i

) de acordo com a probabilidade de Bernoulli, em que

exp

é a função exponencial. Por conseguinte, a sua taxa de mutação é

m

i

= 1-

exp

(-

μ × l

i

). Observamos que a estimativa da taxa de mutação do gene-wise poderia ser mais complexo do que simplesmente respondendo a duração gene. Aqui, nós ajustado especificamente o viés comprimento gene [7], enquanto um teorema mais detalhada pode ser encontrada na literatura [12], [13], [14], [15].

Suponha que em um genoma individual , um total de

N

genes foram detectados como mutado entre

g

= {

g

i

;

i

= 1, …,

n

}, e nós denotar-los como “MutGene (s)”, onde. Nós atribuímos um rótulo para cada gene para indicar o seu estado de mutação: (Figura 1). Dado um caminho

S

com

k

MutGenes, o nosso objectivo é fornecer um teste estatístico para examinar se

S

é significativamente enriquecida com MutGenes. Para fazer isso, podemos construir uma distribuição nula dos MutGenes randomizando etiquetas gene (Figura 1). Normalmente, o processo de randomização não ponderada assume cada gene tem a mesma chance de ser selecionado como MutGenes. Por exemplo, para os

n

genes em

G

, um número aleatório é gerado para cada um deles, isto é, onde e

i

= 1, …,

n

. Assim, ordenando genes de acordo com a sua

r

i

valores, símbolos de genes são randomizados, enquanto rótulo MutGene,

y

i

, é fixo (Figura 1b). Repetindo esta forma de permutando etiquetas de genes para muitas vezes (por exemplo, 10000), a distribuição de fundo MutGenes para cada percurso pode ser calculado e o significado da via pode subsequentemente ser estimada. Este método baseado resamping de estimar o enriquecimento via é complementar ao teste hypergeometric, ambos os quais construir no pressuposto de que todos os genes têm uma chance igual de ser selecionada.

Para uma determinada amostra, suponha que há um total de

n

genes no genoma,

g

= {

g

i

;

i

= 1, …,

n

}, e

N

deles são genes de mutação (MutGenes). MutGenes são rotulados como 1, enquanto os outros são rotulados como 0. teste (a) Hypergeometric. (B) resampling Regular. (C) resampling ponderada. (D) Os três cenários de análise que realizamos.

Em contraste, propusemos a estratégia resampling ponderada que visa construir a distribuição nula, projetando cada distribuição com o mesmo padrão de viés comprimento gene (Figura 1c ). Especificamente, em cada reamostragem ponderada, é gerado da mesma forma como no método de reamostragem regular. No entanto, é ajustado para cada gene de acordo com a taxa de mutação específica do gene, ou seja, um novo número aleatório, é gerada, onde está números aleatórios e

m

i

é a taxa de mutação do gene-wise . Genes de

G

são, então, ordenados de acordo com. O topo

N

genes da lista de genes ordenados são então atribuído como MutGenes para o resample. Note-se que por mais genes com grandes valores de

m

i

, e por genes mais curtas com pequenos valores de

m

i

,. Portanto, para cada Reamostrar, genes longas são mais susceptíveis de ser seleccionado como MutGenes, e estes conjuntos aleatórios irá ter o mesmo padrão de comprimento do gene como na amostra real. Finalmente, para cada via, uma empírica

valor P

é calculado usando, onde

k

é o número de MutGenes no caso observado e

K

é o número de ” MutGenes “em uma resample.

pathway crosstalk

Nós propôs a crosstalk via nó de base usando o

coeficiente de Jaccard (JC)

medição, que tem sido amplamente aplicada em conjunto análise baseada [16], [17]. Vamos

U

indicar o conjunto de genes na via A e

V

indicar o conjunto de genes na via B, o nativo

JC

é calculado da seguinte forma:.

para explicar a presença de viés de comprimento, também calculado

JC

em cada resample ponderada e calculado um

P valor

empírica para cada par de vias da seguinte forma:, onde

JC (π)

é o

JC

valor no

π

th resampling.

Co-mutado mapa via

Pathways que são freqüentemente co-mutado em várias amostras pode implicar funções coordenadas a nível dos sistemas. Para investigar eventos co-mutação, primeiro construído um perfil de mutação caminho através amostras relacionadas. Tal como mostrado na Figura 1D, para cada percurso, o seu estado de mutação é definida por um indicador de binário, isto é, uma via está indicado como um se for significativamente enriquecida pela estratégia de reamostragem ponderada; caso contrário, 0. Para um par de percursos indicados por

A

e

B

, foram propostas quatro categorias para descrever o padrão de combinação de seus status de mutação, ou seja, (a) tanto via A e b são significativamente enriquecida, e, assim, abrigar MutGenes, na mesma amostra, (b), via a foi significativamente enriquecida, mas via de b não era, (c), via b foi significativamente enriquecida, mas via a não era, e (d) nem via A via B nem foi significativamente enriquecida. A tabela de contingência 2 x 2 foi posteriormente formulada, eo teste exato de Fisher foi realizado para indicar se os perfis de mutação das duas vias foram correlacionados. De nota, ao contrário dos estudos anteriores, que normalmente contadas todas as vias que estavam envolvidos [9], aqui nós só incluiu os caminhos significativamente enriquecidos identificado por nosso método de reamostragem ponderado, tal como os eventos de mutação em outros caminhos poderiam ser levantados por acaso.

resultados

estudo de caso 1:. adenocarcinomas pulmonares

teste de enriquecimento pathway

para os adenocarcinomas amostras de 33 pulmonares aplicáveis ​​para o teste de enriquecimento caminho, o número de MutGenes variou entre 10 e 49, ea maioria (24/33 = 72,72%) eram não mais do que 20 (Figura S1). Usando a estratégia de reamostragem ponderada, 26 amostras foram identificados como apresentando pelo menos uma via significativamente enriquecida (

P

Bonferroni 0,05). Como mostrado na Figura 2, o número de vias significativas entre as amostras variou grandemente. O maior número de vias significativas foram observadas na amostra 16668, com 34 vias enriquecidas significativamente entre 38 MutGenes (Tabela 1), seguida pela amostra 17210, com 22 vias significativas entre 49 MutGenes (dados não mostrados na Figura 2, devido à limitação de espaço ). Três amostras (amostras de 17174, 16953 e 16660) no seguinte têm 17, 14 e 14 vias importantes, cada um dos quais tem 13, 16 e 36 MutGenes respectivamente (Figura 2). Por outro lado, existem cinco amostras que têm apenas uma vias significativas com base no método de reamostragem ponderada, enquanto os seus MutGenes variam entre 10 e 30, indicando que o número de MutGenes tem menor influência sobre o número de vias significativamente enriquecidos em cada amostra.

Acesso são representados como retângulos e organizado por amostras. Para cada amostra, o ID de amostra é apresentado do lado esquerdo e as três filas à direita correspondem aos resultados do método ponderada reamostragem (linha superior), o método de reamostragem normal (linha do meio), e teste hipergeométrico (linha de fundo), respectivamente . Para cada método, as vias foram colocadas da esquerda para a direita de acordo com os seus

valores P

com menor

valores P

à esquerda, e, quando vários caminhos têm o mesmo

P

valores, eles foram ordenados por seu ID KEGG. Para visualizar a comparação entre métodos, cada via foi atribuído apenas uma cor proporcional à sua classificação nos resultados de reamostragem ponderada, com vermelho mais escuro implicando menores

valores P

. Caminhos que são identificados por reamostragem regular ou teste hypergeometric mas não pela reamostragem ponderada são notados em branco. Assim, a cor da via implica a sua classificação no método de reamostragem ponderada, e a discordância nas outras duas linhas para uma amostra mostra o ranking diferente usando os outros dois métodos. Note-se que duas amostras com o maior número de caminhos significativamente enriquecidas não foram apresentados nesta figura, devido a limitações de espaço. Eles são a amostra 16668 com 34 vias significativas e a amostra 17210 com 22 vias significativas

As vias mais frequentemente mutado que ocorreram em mais de 10 amostras são hsa05220: leucemia mielóide crónica (13. /26 amostras), hsa05212: cancro do pâncreas (12/26 amostras), hsa05214: glioma (12/26 amostras), hsa05213: cancro do endométrio (11/26 amostras), hsa05218: melanoma (11/26 amostras) e hsa05223: cancro do pulmão de células não pequenas (11/26 amostras). A outra via câncer de pulmão relacionados, hsa05222: câncer de pulmão de pequenas células, ocorreu em 3 amostras. Tabela S1 listados os MutGenes que são contributable para o enriquecimento destas vias em cada uma das amostras correspondentes.

Comparação de métodos de enriquecimento da via.

A título de comparação, também implementado o teste padrão hypergeometric ea estratégia resampling regular, ambos os quais construir no pressuposto de que todos os genes têm a mesma chance de abrigar mutações. Para o teste hypergeometric,

valores P Compra de cada via foram ajustados por Bonferroni correção de múltiplos testes. Para o método de reamostragem regular, o

valor P

empírica para cada via também foi ajustado pela correção de Bonferroni. Em todos os três métodos, as vias significativas foram selecionados como aqueles com

P

Bonferroni 0,05

Foram comparados os resultados dos diferentes métodos de duas formas:. As vias sobrepostas e a classificação das vias sobrepostas. Como mostrado na Figura 2 e Figura S3, cerca de dois terços (17 em 26) de amostras de adenocarcinomas do pulmão com ≥1 vias significativas têm mais percursos sobreposição entre o método de reamostragem regular e teste hipergeométrico do que entre os métodos de reamostragem regulares e ponderados ou aqueles entre teste hypergeometric e método de reamostragem ponderada. Na maior parte das amostras, as vias identificadas pela estratégia de reamostragem ponderada são menos do que as de reamostragem regular e teste hipergeométrico padrão (Tabela 1, Figura S3). Em seguida, examinamos a ordem de classificação dos resultados utilizando esses métodos e descobriu que os dois métodos baseados reamostragem mostrou classificação semelhante para as vias, enquanto a ordem de classificação das vias recolhidos a partir do teste hypergeometric difere dos outros dois métodos. Isto é mostrado pela inconsistência de cores na Figura 2.

Dada a diferença de a sobreposição e a patente, observou-se que a dissimilaridade normalmente ocorreu no final da lista de percurso, enquanto os três métodos diferem apenas ligeiramente Entre as vias mais significativos. Este resultado indica que a estratégia de reamostragem ponderada afecta principalmente as vias marginalmente significativos, enquanto que as vias com uma forte evidência de sinais de enriquecimento foram robustos para a polarização comprimento do gene. Isto é consistente com um trabalho anterior por Wendl et ai. [7], que também descobriu que a maioria das vias identificadas pelo teste hypergeometric norma não substancialmente afastar aqueles identificados através de métodos imparciais, especialmente para aqueles no topo do ranking das listas. No entanto, as vias na parte inferior das listas de enriquecimento tendem a ser falsos positivos, e só podiam ser distinguidos ao ajustar explicitamente as tendências potenciais.

As vias que são mais frequentemente identificado pelo teste hipergeométrico mas não por reamostragem ponderada incluem hsa04360: orientação axônio (6/26 amostras) e hsa05216: cancro de tiróide (5/26 amostras), seguido por hsa04010: MAPK via de sinalização e hsa04012: ErbB via de sinalização em 4 amostras, e todos os outros em menos de 4 amostras. Não é surpreendente ver a via axon orientação, porque tem uma grande proporção de genes de comprimento, e o comprimento médio de genes desta via cai na região superior de toda a distribuição (Figura S2). Da mesma forma, os caminhos que são mais frequentemente identificadas por reamostragem padrão, mas não por reamostragem ponderada incluem hsa04360: orientação axônio em 5 amostras, hsa04010: via de sinalização MAPK em 4 amostras, hsa04012: via de sinalização ErbB em 4 amostras, e outros em menos de 4 .. amostras

pathway crosstalk

Um total de 18 amostras foram observados para ter pelo menos 2 eventos via crosstalk (

P

emp 0,05). Foi realizada correção de testes múltiplos mas não encontrou nenhum evento teve

P

Bonferroni 0,05. Assim, foram selecionados eventos crosstalk com base em suas nominais

P valores

, ou seja, aqueles com

P

emp 0,05. Como mostrado na Figura 3, os mapas de diafonia destas 18 amostras caíram em dois grandes grupos: um grupo com bordas intensivos e fortes entre as vias significativas (Figura 3A-3F, 3H, e 3l-3o) e outra com as redes de baixa densidade ligados. A maioria das amostras do primeiro grupo formado cliques ou unidades topológicas fim-de-clique. Aqui uma panelinha significa um gráfico totalmente conectado em que quaisquer dois nós são conectados por uma aresta sem direção. Além disso, as nominais

valores P

destes eventos crosstalk baseado na reamostragem ponderada, como indicado pela escuridão das bordas, são tipicamente menor do que o grupo mais tarde. As vias que são frequentemente envolvidos neste grupo estão principalmente relacionados ao câncer, tais como aqueles com o seu ID KEGG começando com hsa052XX (X denota qualquer dígito) pertencentes às “doenças humanas → cancros” categoria em KEGG mapa [10]. Este resultado não é surpreendente, porque na definição original de vias na base de dados KEGG, estas vias de cancro partilham uma grande proporção de genes de componentes. Uma análise mais aprofundada dos genes mutantes mostrou que crosstalk baseado em camarilha foi normalmente acionada por vários MutGenes “quentes” que participam de múltiplas vias relacionadas ao câncer. Por exemplo, os genes

TP53

e

KRAS

co-ocorrem em 11 mapas crosstalk baseado em camarilha (Figura 3a-3c, 3e, 3f, 3h, 3l-3o), assim como outros genes tais como

RB1 ​​

,

PIK3CD

, e

PDGFRA

.

Para cada amostra, o painel superior mostra o mapa via crosstalk, e no fundo painel mostra os genes que contribuem para a diafonia. No painel de topo, cada nó representa uma via com o nó cor proporcional ao enriquecimento via

P

valor. A borda representa evento crosstalk entre os nós conectados (percursos), com largura de borda proporcional à MutGenes compartilhados e cor da borda proporcional ao

valor P

do evento crosstalk. No painel inferior, uma matriz mostra o perfil de genes nas vias significativas, com linhas e colunas para MutGenes para vias. Quando um MutGene é observada em um caminho, a caixa correspondente está no vermelho.

Cinco amostras formado escassamente conectado mapa crosstalk um (Figura 3 g, 3i, 3j, 3k, e 3p). Embora as vias relacionadas ao câncer ainda são os principais participantes funcionais neste tipo de mapa, existem vias adicionais envolvidos, tais como hsa04210: apoptose e hsa04620: receptor toll-like via de sinalização. Investigação das MutGenes neste tipo não mostrou uma forte tendência para qualquer gene (s) substancialmente contribuindo para os eventos de diafonia como observadas no grupo-facção. Finalmente, duas amostras exibidos os eventos mais raros crosstalk (Figura 3q e 3R), sendo que ambos são dominados pelos genes

APC

e

TP53

.

Pathway co-mutação perfil.

para explorar os eventos co-mutação que ocorrem entre os caminhos, começamos com uma lista de caminhos significativamente enriquecido para cada amostra (ver acima). Para garantir a alta qualidade, caminhos que abrigavam MutGenes mas não foram significativos em uma amostra não foram incluídos para esta amostra na análise co-mutação. Como resultado, um total de 49 vias e 26 amostras estavam envolvidos.

Foram selecionados caminhos que foram co-mutado em 2 ou mais amostras, e tinha um co-ocorrência

valor P

que era nominalmente significativa. Como mostrado na Figura 4, dois grupos foram auto-agrupado, um dos quais contém várias vias relacionadas com o cancro, e a outra contém várias vias imuno-relacionada. No cluster relacionada ao câncer, observamos hsa05214: glioma, hsa05218: melanoma, hsa05219: cancro de bexiga, hsa05220: leucemia mielóide crônica, e hsa05212: cancro do pâncreas. Curiosamente, observamos várias vias relacionadas ao sistema imunológico do outro cluster, como hsa04650: natural citotoxicidade mediada por células assassino, hsa04660: receptor de células T via de sinalização, hsa04662: via de sinalização do receptor de células B, e hsa04210:. Apoptose

nó representa percursos que foram identificados como significativa em pelo menos uma amostra. Uma aresta entre vias indica um evento significativo co-mutação, com largura da aresta proporcional ao número de amostras que ocorrem do evento co-mutação e cor borda representando os valores

P

do evento. borda mais escura indica inferiores

P valores

Estudo de Caso 2:. glioblastoma

Para os MutGenes glioblastoma, havia um total de 18 amostras elegíveis para o enriquecimento via teste (Figura S1), cada um dos quais foi obrigado a ter, pelo menos, 5 MutGenes. Aplicando todos os três métodos, ou seja, reamostragem ponderada, reamostragem regulares, e o teste hipergeométrico, descobrimos 15 amostras foram enriquecidas com pelo menos uma via de pelos métodos de reamostragem ponderadas, e estas amostras foram utilizadas para a análise subsequente.

como se mostra na Figura 5, a tendência semelhante de sobreposição via ordem de classificação e tem sido observada em amostras de GBM como nas amostras de adenocarcinomas do pulmão. A ordem de classificação entre os dois métodos de reamostragem estão mais próximos uns dos outros, e em todas as amostras de 15 GBM as vias sobrepostas são encontrados com mais frequência no método de reamostragem regular e teste hypergeometric do que nos resultados de reamostragem ponderadas (Figura S4). As vias mais frequentemente enriquecidos são hsa05200: caminhos em câncer (11/15 amostras), seguido por hsa05214: glioma (9/15 amostras), hsa05218:. Melanoma (9/15 amostras), e assim por diante (Figura 5)

Acesso são representados como retângulos e organizado por amostras.

Deixe uma resposta