PLOS ONE: Gene definido com base Análise de Dados Integrado revela diferenças fenotípicas em um cancro cerebral da Model

Abstract

Um dos principais desafios na análise dos dados de experimentos de alto rendimento biológicos é lidar com o muitas vezes de baixo número de amostras em as experiências em comparação com o número de biomoléculas que são medidos simultaneamente. Combinando dados experimentais utilizando tecnologias independentes para iluminar as mesmas tendências biológicas, bem como complementando uns aos outros em uma perspectiva mais ampla, é um caminho natural para superar este desafio. Neste trabalho, investigamos se integrar proteômica e dados transcriptômica a partir de um modelo animal do cancro cerebral usando metodologia de análise conjunto de genes com base, poderão aumentar a interpretação biológica da relação de dados para análise mais tradicional dos dois conjuntos de dados individualmente. O modelo de cancro do cérebro utilizada é baseada em passagens em série de material de tumor cerebral humano transplantado (glioblastoma – GBM) através de várias gerações em ratos. Estes transplantes de série conduzir ao longo do tempo para genotípicas e fenotípicas mudanças nos tumores e representam um modelo clinicamente relevante com um raro acesso a amostras e onde consequentes análises de conjuntos de dados individuais revelaram relativamente poucos resultados significativos por conta própria. Descobrimos que a análise integrada ambos tiveram melhor desempenho em termos de medida de significância de suas conclusões em relação a análises individuais, bem como fornecer uma verificação independente dos resultados individuais. Assim, um melhor contexto para a interpretação biológica global dos dados podem ser alcançados

Citation:. Petersen K, Rajcevic U, Abdul Rahim SA, Jonassen I, Kalland K-H, Jimenez CR, et al. (2013) Set Gene integrada baseada Análise de Dados revela diferenças fenotípicas em um modelo de cancro cerebral. PLoS ONE 8 (7): e68288. doi: 10.1371 /journal.pone.0068288

editor: Ying Xu, Universidade da Geórgia, Estados Unidos da América

Recebido: 28 de fevereiro, 2013; Aceito: 28 de maio de 2013; Publicação: 09 de julho de 2013

Direitos de autor: © 2013 Petersen et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada pela Sociedade norueguesa Câncer, o Conselho de Pesquisa da Noruega, Innovest aS, Helse-Vest, Hospital Universitário Haukeland, o Programa de Pesquisa Bergen Translational, o Centro de Recherche de Public Santé Luxemburgo, a Comissão Europeia 6º Programa-Quadro Contrato 504.743 ea genómica funcional programa (FUGE) na Noruega financiamento da plataforma nacional de Bioinformática. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o rápido progresso no desenvolvimento de tecnologia para avaliar informações de vários ângulos sobre genes, proteínas e metabolitos, resultou em uma expectativa crescente de um grande potencial para novas descobertas na compreensão das actividades moleculares celulares. tecnologias de controlo individuais foram comercializados para revelar uma imagem global através da captura de informação sobre a maioria das entidades de um tipo, como, por exemplo, todos os genes transcritos codificados no genoma ou um grande número de proteínas presentes numa amostra preparada. Obviamente, uma extensão natural é a combinação de vários tipos de dados para revelar mais informações sobre os processos biológicos a nível molecular. Para colher a partir deste potencial esperado de descobertas, vários desafios fundamentais têm de ser enfrentados. conjuntos de dados de alto rendimento têm, por natureza, um grande desequilíbrio entre o número de amostragens e número de variáveis ​​medidas, levando a desafios em matéria de estimativas de interpretação e de confiança dos resultados da análise. E a interpretação de vários conjuntos de dados que avaliam amostras de diferentes ângulos em combinação exige um novo modelo teórico que possa avaliar questões biológicas e significado de respostas previsíveis. Um modelo integrado de sucesso deve avaliar questões biológicas relevantes com maior confiança nas respostas previsíveis em comparação com os métodos de tipos de conjuntos de dados individuais, apesar do aumento da complexidade do modelo. Neste trabalho, apresentamos uma abordagem de análise combinada para interpretar alta microarray rendimento e proteómica conjuntos de dados em dois fenótipos tumorais diferentes obtidos por transplantes de série de GBMs humanos no SNC de ratos [1], [2].

GBM representa um grupo heterogéneo de tumores cerebrais malignos [3] e é uma das formas mais mortais de cancro em seres humanos. A sobrevivência média de pacientes afetados única melhorou de uma média de 12 meses para 14,5 meses após o diagnóstico nos últimos 5 anos devido a melhorias no padrão de atendimento [4]. Para abordar a questão complexa no fundo molecular de GBMs humanos, um modelo GBM humano foi desenvolvido em ratos imunodeficientes [1], [2], [5], que separa parcialmente duas principais características fenotípicas e marcos deste tumor,

ou seja

invasão e angiogênese. Estas duas características tornam GBM difícil de tratar por terapias disponíveis. O modelo baseia-se na série de xenotransplantes esferóides GBM humanas no cérebro de ratos imunodeficientes, onde eles iniciam o crescimento da GBMs primárias. O fenótipo da primeira geração do tumor mostra uma natureza altamente invasiva no cérebro de rato enquanto que por passagens em série nos animais, o tumor evolui para um tumor angiogénico de crescimento mais rápido, com vasculatura abundante e menos invasão. Os fenótipos de tecidos cerebrais modelo e estão ilustrados na Figura 1.

Uma representação esquemática do modelo de tumor e os fenótipos obtidos após o transplante em ratos nus. O primeiro transplante em ratos nus muitas vezes resultou num fenótipo invasivo, enquanto o transplante em série dos tumores resultou no fenótipo angiogénico após várias gerações.

Tal como já foi mencionado, a análise de dados e interpretação biológica da tecnologia de alto rendimento conjuntos de dados gerados na escala de genoma e proteoma é um desafio em geral, devido ao grande desequilíbrio entre o número de amostras e o número de moléculas a ser testado. Para identificar uma alteração estatisticamente significativa no nível de expressão de um único gene no nível de mudança que é interessante para a interpretação biológica, muitas repetições independentes são necessárias no experimento. A natureza complexa do modelo de rato passagem em série GBM xenotransplante, ea disponibilidade naturalmente limitado de tumor doadores materiais, resultaram em um conjunto limitado de pares de amostras combinadas com o fenótipo invasivo e angiogênico para ser rastreada por microarrays e proteómica. Além disso, um elevado nível de variação individual entre as amostras é esperado e foi observada quando o conjunto de dados de endereçamento transcriptómica no trabalho anteriormente [1], [6]. O fundo molecular do interruptor fenótipo foi abordada nos níveis de expressão diferencial de RNA [1] e proteínas [7] – [9], onde a validação extensa, incluindo um grande número de pacientes com GBM e análises funcionais levou a novos biomarcadores candidatos de um determinado fenótipo [7] – [9]. O desafio, no entanto continua a identificar caminhos moleculares designadamente por um enriquecimento de determinados conjuntos de genes, o que levaria a uma melhor compreensão biológica da patologia subjacente.

Duas estratégias gerais para combater pesar os desafios dimensionalidade de dados de alto rendimento análise são (i) analisar conjuntos de

a priori

moléculas biologicamente relacionados definidos no tempo, em vez de moléculas individuais e (ii) integrar resultados de várias análises independentes, possivelmente, de diferentes experiências de alto rendimento, para encontrar tanto do suporte das mesmas tendências biológicas e para complementar um ao outro por uma interpretação mais rica. A análise conjunta dos termos ontologia gênica sobre-representadas em uma lista de genes diferencialmente expressos em relação ao conjunto completo de dados é um dos primeiros exemplos da estratégia de (i), enquanto o Gene Set Análise de Enriquecimento – GSEA [10] e do grande número de variantes de enriquecimento métodos baseados [11], [12] representa desenvolvimentos posteriores. Vários métodos de meta-análise de experimentos independentes sobre as mesmas amostras de existir, a partir Posto simples produto à base de combinação de resultados da lista individuais [13] para mais complexa análise multi-variada métodos para identificar tendências semelhantes entre os conjuntos de dados, tais como Co-inércia base análise (CIA) [14], [15]. métodos de análise de múltiplas variáveis ​​requerem um número mínimo de amostras em um conjunto de dados e CIA exige as mesmas amostras exatas para estar presente entre os conjuntos de dados, muitas vezes tornando-os impróprios, na prática, como no nosso caso GBM. Subramanian et al demonstrou a flexibilidade de GSEA como uma ferramenta para co-análise de vários experimentos micorarray independentes sobre amostras biologicamente relacionados. Aqui nós estender essa linha de pensamento de atravessar a barreira entre as diferentes tecnologias de alto rendimento.

Neste trabalho foi aplicado o método de análise de Gene Set para co-interpretam os dois conjuntos de dados no contexto do outro. A anotação dos genes e proteínas identificadas são interpretados em relação aos fenótipos invasivos e angiogénicas, e comparados com os resultados de análise do gene regulares ontologia do conjuntos de dados individuais. Esta abordagem destaca como eles apoiar e reforçar-se mutuamente em nossa interpretação combinada, bem como complementar uns aos outros em uma melhor imagem detalhada das diferenças fenotípicas em fases invasivos e angiogênicos do modelo câncer no cérebro. Os resultados mostram uma forte apoio estatística entre os proteômica e resultados de microarray, o que se reflecte também na interpretação biológica dos dados através de uma alta concordância com os resultados da análise individuais. Para demonstrar ainda mais a validade da abordagem sugerida, os resultados são contrastados com Posto Produto meta-análise dos mesmos dois conjuntos de dados. Nós também aplicado o método a uma par independente anteriormente publicada de conjuntos de microarray e proteómica de dados, redescobrindo com sucesso as principais conclusões a partir da publicação original.

Materiais e Métodos

Experiment Design by

cinco pares de amostras correspondentes invasivos e angiogénicos a partir dos modelos de xenoenxerto, originando a partir de cinco pacientes individuais, foram utilizados no total nas experiências de microarray e proteomics. Quatro pares de amostras foram preparadas para análise de micro-arranjo e foram hibridadas com oito Applied Biosystems genoma humano levantamento Microarrays v.2.0 (Array adesão expressar um-MEXP-503) em um prazo de hibridação, como descrito em [6]. Dois pares de amostras foram preparadas para análise proteómica e processado em três experiências iTRAQ como descrito em [9]. Um par de amostra sobreposta entre as duas tecnologias

Pré-processamento e Normalização

Os dados de microarranjos foram importados para os dados suíte análise J-Express 2012 [16] (http:. //jexpress.bioinfo. não), para pré-processamento e normalização. As intensidades dos sinais brutos foram extraídos, controlos filtrados, e os dados normalizados quantil [17]. Além disso, os dados foram transformados log2 e cada par amostra foi combinada para uma única coluna de log-razão. Os dados pré-processados ​​a partir de proteómica foram dados não processados ​​para péptidos quantificados como descrito em [9], incluindo anotação na origem do péptido a partir de células hospedeiras, as células tumorais ou de origem desconhecida, com base na homologia da sequência de rato e as bases de dados humanos. Neste trabalho utilizamos a proteômica completo conjunto de dados de 3359 perfis de proteínas.

expressão diferencial Estatísticas

O ranking Produto (PR) estatísticas [13] foi utilizado tanto para os transcriptômica e proteómica conjuntos de dados para genes de classificação e proteínas de acordo com a expressão diferencial entre as amostras invasivas e angiogênicos. RP foi também utilizado nos conjuntos de dados contendo apenas reduzidas as transcrições exclusivamente de mapeamento e proteínas usadas para a análise integrada dos dados das duas tecnologias. RP foi implementado no J-Express Suite análise de 2012.

Gene Ontology sobre-representação Análise

J-Express utiliza o teste exato de um Fischer para avaliar sobre-representação estatística dos genes anotados com um determinado Ontologia Gene (GO) prazo (www.geneontology.org, [18]) em uma lista menor de juros em relação a um conjunto de dados de referência. Neste trabalho foram comparadas as listas superiores da análise da expressão diferencial RP em um dado nível de significância (valor-Q) contra o conjunto completo de dados a análise RP foi realizada em. p-valores indicados para os termos GO na tabela de resultados são nominais,

i. Não

ajustados para testes múltiplos, e deve ser avaliado com isso em mente. arquivo de Gene Ontology OBO utilizado foi datado de 2010 03 de dezembro, filtrada arquivo de mapeamento Homo sapiens Gene Ontology utilizado foi datado de 2011 29 de novembro. Apenas GO termos presentes no arquivo OBO estão incluídos na análise.

Gene Set Enriquecimento Análise

Como uma alternativa para a análise sobre-representação GO, o Gene Set Enriquecimento Análise (GSEA) [10] também foi aplicado para avaliar e classificar GO termos anotando a dois conjuntos de dados. Em contraste com a análise sobre-representação, GSEA e abordagens relacionadas não operam com uma lista limitada de interesse fixa para avaliar. Em vez disso, avaliar a distribuição de genes anotados com um determinado termo GO em todo o conjunto de dados de referência. Em GSEA a distribuição é usado para definir um subconjunto natural dos genes anotados chamados a extremidade principal (LE) que contribui para a pontuação do conjunto de genes (GO prazo, neste caso), e que podem ser acompanhados por uma interpretação mais perto biológica . As análises foram realizadas com a implementação GSEA em J-Express 2012. Como a métrica Posto produto é intrinsecamente incompatível com o sistema de pontuação ponderada padrão de GSEA, optamos por uma métrica de pontuação log vezes para avaliar gene conjuntos em nossas amostras pareadas. Esta é a métrica mais comparável ao utilizado pelo método Produto Posto ao classificar logratios de amostras pareadas antes de combiná-los em um ranking de Produto. Outros parâmetros foram utilizados com configurações padrão: Método de permutação: genes, Número mínimo de membros: 10, número máximo de membros: 500.

Descrições de tendência baseadas em Gene Ontology

Cada conjunto de dados foi analisado de forma independente pela Rank produto, acesse análise sobre-representação e GSEA. O mesmo procedimento foi realizado pela primeira vez com foco na regulação positiva em amostras invasivas e sobre as amostras angiogénicos, em seguida, com foco na regulação positiva em amostras angiogénicos mais amostras invasivas. Os Termos GO e anotações de genes das listas superiores foram selecionados manualmente para termos funcionalmente relevantes para a angiogênese e invasão, ea lista principais tendências resumidos a partir deste.

Mapeamento de Transcrição e Proteína identificadores entre conjuntos de dados

o ID Entrez Gene humano para os genes alvo no microarray ABI foi usado como identificador comum entre as transcriptomics e conjuntos de dados de proteômica. Usando o serviço conversor de ID online em Biomart Portal Central (https://central.biomart.org), a proteína identificada SwissProt IDs do conjunto de dados de proteômica foi mapeada primeiro a sua humana correspondente ou rato Entrez Gene IDs. O rato Entrez Gene IDs para as proteínas identificadas como de origem acolhimento, foram ainda mapeado para o Entrez Gene humano IDs para os seus genes homólogos usando o serviço de recuperação de gene de Biomart, com IDs de transcrição ENSEMBL como o identificador de vinculação.

Depois de completar o mapeamento, foi então possível analisar os transcritos correspondentes ao topo proteínas diferencialmente expressas como um gene definido nos dados transcriptômica, como ilustrado na Figura 2B. As barras horizontais azuis representam transcrições proteína correspondente e como eles distribuem nos dados de microarranjos. A mesma análise é feita na ordem inversa de transcrição de proteínas nos dados de proteômica correspondente

A:. Os conjuntos de dados foram analisadas para expressão diferencial de forma independente usando Posto de Produto, Gene Ontology sobre-representação (GO ORA) e GSEA. Os métodos de avaliar diferentes frações dos conjuntos de dados como biologicamente relevante quando classificadas para expressão diferencial, conforme ilustrado para o conjunto de dados transcriptomics (TR). RP e GO ORA no nosso caso, só identificou o top ~ 1% da lista gene classificada no geral como relevantes, tanto para a análise transcriptomics e proteómica. GSEA por outro lado identificado Leading Edge (LE) subconjuntos que medem ~ 20% de A lista geral de genes. B: GSEA abordagem para integrar proteômica parcialmente sobrepostas e conjuntos de dados transcriptomics. As principais entidades diferencialmente expressos de um conjunto de dados é mapeado em entidades correspondentes do outro conjunto de dados e avaliada como um gene situado no GSEA. PR: conjunto de dados Proteomics, TR:. Transcriptómica dataset

divulgação pública de dados

Os dados de microarranjos foram anotadas de acordo com Miame [19] e são depositados em ArrayExpress (http: //www.ebi.ac.uk/arrayexpress), acesso nO E-MTAB-1185. A matriz de dados normalizado para os dados de proteômica quantitativa está disponível em S2 Arquivo.

Posto Produto Meta-análise

Os subconjuntos correspondentes de proteínas e transcrições dos microarrays e proteómica conjuntos de dados foram identificadas pela primeira vez. Em seguida, eles foram classificados individualmente de acordo com a expressão diferencial entre as amostras invasivas e angiogénicos utilizando as estatísticas de Posição do Produto (RP) [13]. As fileiras resultantes foram então usados ​​como entrada para RP em uma segunda etapa meta-análise para identificar pares de proteína de transcrição altamente classificados em ambas as análises individuais.

Independent Microarray e Proteomics Dataset Análise Validação

a abordagem CIA [15] discutiu o desempenho do seu método no mixorarray dados publicados e proteómica disponível para o ciclo de vida de

Plasmodium falciparum,

um parazyte malária [20]. Foram utilizados os mesmos conjuntos de dados publicados, disponível como Tabelas S1 e S2 em S1 Arquivo partir da sua publicação, e LOG2 transformou os valores de expressão lineares para ambos os conjuntos de dados antes de prosseguir com a análise GSEA. Os conjuntos de dados contêm 4 consecutivos lifestages assexuadas: merozoítos, anel, Trofozoíto e schizout. Fizemos uma definição grosseira de transcritos expressos em um estádio de vida como os transcritos possuindo um valor mínimo de expressão 1000, obtendo-se conjuntos de genes na gama de tamanhos de 97-203 e para as proteínas, um valor mínimo de expressão de 50, obtendo-se conjuntos de genes no faixa de tamanho de 10-77 (conjuntos de genes são listados na S3 Arquivo). Os conjuntos de genes transcritos foram analisados ​​com base no enriquecimento, em todas as 4 fases da vida nos dados proteómica usando GSEA em J-Express (classe única de pontuação ponderada logfold), e o gene da proteína com base fixa de modo semelhante nos dados de microarray.

resultados

análise de resultados em dados individuais Define

Tabela 1 resumos os resultados da análise individual, elucidar as tendências que podem ser encontrados na proteômica e transcriptomics modelo de dados câncer no cérebro conjuntos utilizando individualmente tradicional métodos de análise em combinação com a Gene Ontology (www.geneontology.org, [18]). Figura 2A ilustra as proporções das listas totais de genes que os diferentes métodos de reportar os resultados a partir.

Apesar de haver vários termos GO /tendências encontradas sobreposição entre os proteômica individuais e transcriptômica resultados, eles parecem estar destacando alguns termos gerais para os tumores angiogênicos. Para o fenótipo invasivo há mais consistência em termos GO sobreposição entre proteômica e resultados de microarray e as tendências de consenso destacadas da Tabela 1, do que para o tipo angiogênico.

Set Gene Com base Abordagem de Análise de Dados Integrado

Nós sugerimos uma nova abordagem de análise integrada para a co-análise de conjuntos de dados com apenas um conjunto parcial de entidades correspondentes. Ao mapear as transcrições para as proteínas correspondentes (veja M M), podemos avaliar como os principais transcritos diferencialmente expressos distribuir como um conjunto de proteínas nos dados de proteômica, e como as principais proteínas diferencialmente expressos distribuir como um conjunto de transcritos no microarray dados. Ver Figura 2B. Em primeiro lugar, identificar o top-regulada proteínas utilizando RP sobre o conjunto de proteínas mapeados em um determinado nível de significância, tanto regulada no invasiva (I) e angiogênico (A), ea tela de conjuntos correspondentes de transcrições usando GSEA nos dados microarray completa conjunto. Da mesma forma, identificar o top-regulada transcrições usando RP sobre o conjunto de transcritos mapeados em um determinado nível de significância, tanto em amostras invasivas e angiogênicos, ea tela de conjuntos correspondentes de proteínas utilizando GSEA nas proteômica conjunto completo de dados.

Microarray resultados RP proteómica de suporte de dados em amostras invasivos.

Como se pode ver na Figura 3A, painel esquerdo, há um enriquecimento significativo nos dados proteómica das proteínas correspondentes aos transcritos expressos diferencialmente regulada para cima no dados de microarranjos. O enriquecimento em amostras invasivas é consistente com a regulação da transcrição em amostras invasivos nos dados de microarray. O painel da direita mostra para comparação, que não existe tal tendência significativa para as proteínas correspondentes às transcrições-regulada nas amostras angiogénicos

A:. À esquerda – transcrição proteínas enriquecidas em amostras invasivas correspondente, certo – transcrito correspondente proteínas enriquecidas em amostras angiogénicos. B: esquerda – transcrições proteína correspondente enriquecido nas amostras invasivas, direita – proteína proteínas enriquecidas em amostras angiogénicos correspondente

A ponta consistindo de combinações de 47 transcrição /proteína a partir deste conjunto de genes é apresentada na Tabela 2. e representa o ponto de interpretação biológica do referido co-análise integrada de partida.

Proteomics RP dados de microarranjos resultados de apoio em amostras angiogénicos.

Figura 3B, painel direito, mostra a significativa enriquecimento nos dados de microarray dos transcritos correspondentes ao expresso diferencialmente proteínas nos dados proteomics. O enriquecimento em amostras angiogénicos é consistente com a regulação positiva de proteínas angiogénicas em amostras nos dados proteomics. O painel esquerdo mostra para comparação que não há tendência significativa para transcritos correspondentes a proteínas regulado para cima nas amostras invasivos.

O bordo de ataque 43 que consiste de transcritos apoiados por dados de proteínas, é apresentado na Tabela 3, e inspeção planície da lista revela muitos genes previamente encontrados relacionadas com a angiogénese.

a comparação com o Método padrão e independente de validação de dados

Uma meta-análise direta do modelo de cancro do cérebro microarray e conjuntos de dados de proteômica não revelou transcrição e proteínas pares correspondentes significativas sendo diferencialmente expressos entre amostras invasivas e angiogênicos. (Invasiva vs angiogénicos top 20 pares,

q

= 83,9%, angiogênico vs invasivos top 20 pares,

q

= 78,1%, consulte S4 Arquivo).

O GSEA resultados de avaliação das principais proteínas expressas nas diferentes fases do ciclo de vida de

Plasmodium falciparum

contra os conjuntos de dados transcriptômica para os mesmos estágios do ciclo de vida são recolhidos e apresentados na S3 Arquivo. Da mesma forma estão os resultados para os melhores expressa transcrições analisados ​​contra os proteômica conjuntos de dados das diferentes fases. Estes são contrastados com os resultados na Tabela 2 da obra original [20].

Discussão

Gene-set métodos baseados muitas vezes iludir mais de Análise da expressão diferencial de genes-a-gene simples, e receberam algum foco nos últimos anos. Outra alternativa para fortalecer o poder estatístico dentro de uma experiência; dizer um experimento de microarray, através da adição de mais amostras (réplicas) para o teste estatístico para calcular a partir, é combinar os resultados de vários experimentos independentes, que, juntos, exibir uma tendência tão significativo. Às vezes isso é referido como uma meta-análise, dependendo do nível de abstração a partir dos dados original, e às vezes como uma abordagem integrada. Comum a ambos é a necessidade para mapear entidades de diferentes conjuntos de dados uns com os outros e a utilização de um teste estatístico adequado para avaliar o modelo combinado. Como demonstrado para os conjuntos de dados modelo câncer no cérebro, um Posto Produto meta-análise regular falha, neste caso, para identificar um apoio significativo entre os conjuntos de dados e formas alternativas de relacionar os conjuntos de dados em uma abordagem integrada é chamado para.

Como visto na Tabela 1, a análise tradicional diferentes abordagens têm dificuldade em encontrar resultados verdadeiramente estatisticamente significativas por conta própria. As tendências descobertas são significativas em termos de diferença geral entre o fenótipo invasivo e angiogênico, mas não são nem muito específico, nem associados com os níveis de confiança convincentes.

Com base nos resultados de análises manuais (retomada na Tabela 1) que pode-se concluir que o tipo invasivo dos tumores experimentais está conectado com termos Gene Ontologia indicando conjuntos de genes envolvidos no desenvolvimento do sistema nervoso central, que é processos e regulamentação, como avaliado pela GO análise sobre-representação nos dados transcriptômica e pela abordagem GSEA em ambos os proteômica e dados transcriptômica. Isto está de acordo com a aparência fenotípica e comportamento de tumores invasivos, que se assemelham a células estaminais-como mais imaturas, capazes de se infiltrar estruturas vizinhas, muito parecido com células-tronco neurais fazer no cérebro em desenvolvimento. O fenótipo angiogénico no entanto, está ligado com os genes relacionados com a angiogénese tal como avaliado por análise de RP, GO análise sobre-representação em proteómica, bem como GSEA em transcriptómica que incluiu também a representação de termos associados ao ciclo celular, o crescimento e proliferação.

em contraste com as análises dos conjuntos de dados individuais, a análise integrada mostra duas importantes tendências estatisticamente significativas: 1)-regulada transcritos no fenótipo invasivo avaliadas em conjunto é encontrado como um conjunto de proteínas significativamente sobre-regulada em conjunto no fenótipo invasivo, 2) sobre-regulada proteínas no fenótipo angiogénico avaliadas em conjunto é encontrado como um conjunto de transcritos significativamente regulada para cima em conjunto no fenótipo angiogénico. Como mostra a Figura 3, as bordas destes conjuntos são abrangendo cerca de 20% da lista de fundo cheio. Daí a nossa abordagem co-análise identifica conjuntos de genes significativos nas mesmas listas de genes fundo analisa todos o indivíduo na Tabela 1 foram avaliar.

Um forte coerência entre os resultados de análises integradas na Tabela 2 e os mais fracos resultados das análises individuais de a tabela 1 é confirmada por inspecção simples dos nomes de proteína na tabela 2 e o domínio do desenvolvimento neuronal e descrições de actividades relacionadas. Além disso, temos listados os termos Gene Ontologia mais relevantes as 47 proteínas na Tabela 2 são anotados com, e estes são claramente combinando o alcance dos conceitos identificados por análises individuais (em particular Tabela S9 em S1 Arquivo). No caso do fenótipo invasivo do presente modelo de GBM experimental da célula tumoral (humano) a infiltração do tecido do cérebro hospedeiro (rato) é tão grande que é praticamente impossível para isolar ou remover cirurgicamente o tumor puro por meio cirúrgico, que é igualmente um dos principais problemas no pobre sucesso do tratamento cirúrgico exclusivo para GBMs humanos. Por conseguinte, as amostras de tecido tumoral deste fenótipo são “contaminado”, em grande medida pelo tecido hospedeiro (rato) do cérebro. As proteínas identificadas pela análise integrada como diferencialmente expressos como um conjunto, regulada no fenótipo invasivo, bem como os resultados de GSEA da proteômica (Tabela S9 em S1 Arquivo), e as comparações cruzadas manuais usando a Análise de Caminho Engenho e proteína humana Atlas confirmou esta situação ao nível das proteínas. Quase metade (17 de 36 proteínas únicas – Tabela 2) estão em proteínas de fatos ligados à localização celular do cérebro (componente celular) e são uma das neural (a sinapse, junção neuromuscular, a densidade pós-sináptico, Synaptic vesícula, membrana da vesícula pré-sináptica, zona activa pré-sináptica , neuronal corpo celular etc.) ou de origem glial (bainha de mielina, a mielina Compact, etc.) e principalmente hospedar proteínas ou partilha homologia de sequência de proteína com o anfitrião.

Além disso, tanto o GO sobre-representação de análise (Tabela S7 em S1 Arquivo) e GSEA (Tabela S11 no arquivo S1) dos transcriptomics dados são fortemente dominadas por termos relacionados cérebro indicando a origem do host em vez de células tumorais.

a Tabela 3 lista o conjunto regulado para cima de transcritos em as amostras angiogénicos que são suportadas pelos dados de proteômica, a tendência mais dominante sobreposição com os resultados da análise individuais são processo de desenvolvimento e formação de vasos sanguíneos. Em particular, a presença da angiogénese betão termo anotando três genes (vav3, anxa2 e anxa2p2) na Tabela 3 é muito interessante. Esta é a primeira vez que por ensaios de nível molecular foram capazes de indicar o termo reflectindo

de facto

angiogénese em tumores tardios geração (Figura 1), como sendo uma das características fenotípicas mais importantes do glioma animais tarde geração modelo, bem como uma das marcas do glioma de alto grau no paciente. Além disso, a expressão de anxa2 foi completamente validado no nível de imuno-histoquímica em amostras de tecidos adicionais de modelos de xenoenxerto de GBM, bem como em grande número de mais de 200 amostras de gliomas clínicos de vários graus sob a forma de uma micromatriz de tecido, como mostrado na nossa pesquisa anterior . Com efeito constatou-se um forte aumento da regulação do Anxa2 em xenoenxertos angiogénicos em comparação com os invasivos, bem como um aumento significativo na expressão Anxa2 em gliomas de alto grau (grau III e IV), em comparação com os tipos de baixo (grau I e II) [9] .

a sobre-representação das proteínas da membrana localizada (membrana plasmática, ER, GA e, em alguns casos, o Mt) visto na Tabela 3, pode ser explicado pela configuração experimental do experimento proteômica que incluiu uma etapa de enriquecimento para proteínas de membrana. Por isso, a análise integrada também terá uma tendência para as transcrições com produtos dos genes nestes compartimentos celulares. Isso também pode explicar o fato de que nós não vemos o suporte para a assinatura do ciclo celular, crescimento e proliferação que foi visto como uma grande tendência nas análises individuais (Tabela S12 no arquivo S1 em particular). Após uma análise mais perto da localização celular das transcrições subjacentes para a tendência na Tabela S12 S1 do ficheiro, a maioria das quais foram anotados como localizado no núcleo e as proteínas correspondentes, assim, menos provável ser apanhado na fracção alvo de membrana na experimento proteómica.

analisa individual apontando para termos de adesão celular (Tabela S11 no arquivo S1) são suportados pela abordagem integrada (Tabela 3, MSN) e estão em conformidade com o fenótipo invasivo, onde a adesão celular parece pode ser

Deixe uma resposta