PLOS ONE: Meta-análise de assinaturas de Expressão Gênica Definindo o epitelial para mesenquimal de transição durante o cancro progressão

Abstract

O epitelial para mesenquimal (EMT) representa um evento crucial durante a progressão e disseminação do câncer. EMT é a conversão de células de carcinoma epitelial de um para um fenótipo mesenquimal que se associa com uma motilidade celular mais elevada, bem como uma melhor e quimiorresistência stemness cancro. Notavelmente, EMT tem sido cada vez mais reconhecida como um evento precoce de metástases. Numerosos estudos de expressão de genes (BEE) foram conduzidas para obter assinaturas transcriptoma e genes marcadores para compreender os mecanismos subjacentes reguladoras EMT. No entanto, nenhuma meta-análise, considerando o grande número de GES de EMT foi realizada de forma abrangente para elaborar os genes fundamentais neste processo. Aqui relatamos o meta-análise de 18 GES independentes e publicados de EMT que incidiu sobre diferentes tipos de células e modalidades de tratamento. A análise computacional de agrupamento revelado GES de acordo com o tipo de tratamento, em vez de com o tipo de célula. GES de EMT induzidas através de factor de crescimento transformante-β e factor de necrose tumoral-α tratamento rendeu aglomerados uniformemente definida enquanto GES de modelos com indução EMT alternativa agrupados de uma forma mais complexa. Além disso, foram identificados os genes cima e reprimidos que foram compartilhados entre a multidão de GES. Esta lista gene núcleo inclui marcadores bem conhecidos EMT, bem como novos genes até agora não descritos neste processo. Além disso, vários genes da lista de genes EMT-core significativamente correlacionada com a resposta patológica completa prejudicada em pacientes com câncer de mama. Em conclusão, esta meta-análise fornece uma pesquisa abrangente de assinaturas de expressão EMT disponíveis e mostra conhecimentos fundamentais sobre os mecanismos que estão regem a progressão do carcinoma

Citation:. Gröger CJ, Grubinger M, Waldhör T, Vierlinger K, Mikulits W (2012) Meta-análise de assinaturas Gene expressão que define o epitelial para mesenquimal de transição durante o cancro progressão. PLoS ONE 7 (12): e51136. doi: 10.1371 /journal.pone.0051136

editor: Olivier de Wever, Universidade de Ghent, Bélgica

Recebido: 28 de junho de 2012; Aceito: 29 de outubro de 2012; Publicação: 10 de dezembro de 2012

Direitos de autor: © 2012 Gröger et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada pela União Europeia, FP7 Pesquisa em Saúde, projeto número HEALTH-F4-2008-202047. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O epitelial para mesenquimal (EMT) foi originalmente descrita como um processo essencial da embriogênese metazoan [1]. Na década passada, EMT foi realizado como um acontecimento crítico na progressão do carcinoma de células tumorais epiteliais adquirir um fenótipo mesenquimal, que lhes permite separar do tumor primário e a invadir o tecido local [2]. Em geral, as células epiteliais polarizadas são organizadas por junções célula-célula e célula-complexos de ancoragem para formar superfícies basolaterais e apicais. Em contraste, as células mesenquimais formam estruturas de forma irregular na ausência de aderências apertados para as células vizinhas e reduzida contacto das células ao substrato. As células mesenquimais tem uma forma alongada em relação ao epitélio e exibir uma polaridade anterior-posterior que permite a migração melhorada através de forças de adesão reduzidas. Enquanto as células epiteliais invadir coletivamente em grupos, células mesenquimais mostrar o movimento célula individual que lhes permite divulgar a partir de células granel [3]. Além disso, um EMT parcial exibindo diferentes níveis de expressão de E-caderina tem sido observado que ainda possam conduzir à invasão de células colectiva [4].

EMT tem sido classificados em três subtipos [5]. Tipo 1 EMT é necessário para a embriogênese para fornecer a gastrulação e formação de células da crista neural que se diferenciam em vários tipos de células, sem propagação sistêmica. Tipo 2 EMT está envolvida na regeneração de tecidos e fibrose de diferentes órgãos, como o rim, fígado, pulmão e intestino conduzindo à acumulação de tecido conjuntivo. Tipo 3 associados EMT com um ganho de malignidade de células de carcinoma. células epiteliais neoplásicas induzidas a sofrer EMT são frequentemente localizadas na frente invasiva do tumor primário e iniciar a cascata de disseminação de células de tumor por invasão local de célula que é seguido pela introdução na vasculatura. Notavelmente, EMT representa um processo transiente reversível e que pode levar a uma mesenquimais para epiteliais de transição (TEM) sobre a colonização metastático [5],. Ciclos de EMT e MET são assumidos para ser envolvido na formação de metástases em locais distantes [3]. No entanto, a base molecular para as mudanças na plasticidade epitelial por EMT e MET é ainda uma questão em aberto e seu papel em pacientes com câncer é uma questão de debate. Moléculas de sinalização e indutores do tipo 3 EMT conferir a resistência das células cancerosas a apoptose e senescência induzida pelo oncogene, bem como quimiorresistência [6]. Dados recentes indicam que a EMT fornece células mesenquimais com características de células-tronco que permitem que células de carcinoma de gerar metástases em locais secundários [3]. Essas células-tronco do câncer, também denominado câncer de células, a quota de características fenotípicas e funcionais com células embrionárias migratórias que exibem um fenótipo mesenquimal iniciar [6].

Profiling do transcriptoma usando microarrays tem sido amplamente utilizada para elucidar os padrões de expressão durante EMT em condições diferentes que revelaram novos biomarcadores e mecanismos moleculares de estudos individuais. Uma meta-análise geralmente descreve a combinação de um grande número de estudos de diferentes amostras de tecidos e ou a comparação dos dados próprios com os dados publicados [7], [8]. O progresso recente na criação de conjuntos de dados de expressão de genes permite identificar novos marcadores e mecanismos relevantes que foram subestimados em estudos individuais, mas surgiram a partir de uma meta-análise. Até agora, uma pletora de estudos de expressão de genes (GES) cobrindo uma grande variedade de tipos de células de EMT submetidos em conjunto com vários modos de indução estão disponíveis. No entanto, para o nosso conhecimento, nenhuma meta-análise de lidar com esses estudos EMT tem sido realizada até agora.

mudanças em um sistema biológico exigir uma alteração concertada de conjuntos de expressão gênica. ferramentas de análise de enriquecimento de bioinformática investigar conjuntos de expressão gênica para tais mudanças. Estas ferramentas examinar a representação de conjuntos de genes em comparação com todo o genoma, mapear uma lista de entrada de genes para as categorias biológicas em bases de dados online e estatisticamente avaliar a super-representação de genes para cada categoria biológica ou anotação, como Kyoto Encyclopedia of Genes e Genomas (KEGG ) vias e ontologia gênica (GO) termos [9]. O uso de várias ferramentas de enriquecimento individuais para a mesma lista de entrada e a consideração de categorias só constantemente enriquecidos foram relatados para ser uma estratégia muito promissora [10], [11].

Nós reuniram dados de 18 publicados e GES independentes de EMT e listas de genes extraídos de genes significativamente cima e reprimidos para análise de cluster. Esta abordagem revelou agrupamentos de genes de acordo com as modalidades de tratamento em vez de tipo de célula. Nós posteriormente extraída uma lista EMT-core que consiste de 130 genes com símbolos de genes oficiais e nomes que foi investigada por análise de enriquecimento com várias ferramentas de enriquecimento individuais. Notavelmente, os genes selecionados da lista EMT-core significativamente correlacionada com deficiente resposta patológica completa (PCR) em pacientes com câncer de mama. Esta análise sugere que o gene da lista EMT-núcleo é relevante para o reconhecimento dos mecanismos moleculares de EMT. Além disso, a análise de cluster mostra novos insights sobre as relações de processos EMT em diferentes tipos de células e modos de indução.

Resultados

A coleta de dados de estudos de expressão gênica (GES)

Para avaliar as semelhanças entre GES publicados e definir uma lista gene núcleo da EMT humana, foram analisados ​​18 GES independentes de EMT. Estes 18 GES independentes e publicados consistiu de 24 conjuntos de dados no total (Tabela 1). Vários autores relataram cinética EMT de diferentes tipos de células ou efeitos dependentes da dose de indutores EMT dentro estudos individuais. No entanto, apenas o ponto de ensaio especial mostrando o efeito mais forte ou EMT fenótipo, conforme relatado pelos autores, foi selecionado. Takahashi

et al.

Publicou dois GES relacionados, um dos quais consistia em dois conjuntos de dados, resultando em três conjuntos de dados de um estudo independente [12]. Taube

et al.

Relatou 5 conjuntos de dados publicados no prazo de um GES com padrões de expressão semelhantes e diferentes modos de indução EMT [13]. dados processados ​​(dados normalizados e geralmente logarithmized) foram baixados da expressão Gene Omnibus (GEO) e bases de dados ArrayExpress (AE) e anotado com BioConductor e NetAffx. Numerosos GES, disponíveis no GEO e AE, foram excluídos por tanto, não apresentou dados processados ​​ou não contêm repetições ou não foram publicados. Devido à variedade de formatos microarray, bem como diferentes métodos de normalização e de filtragem utilizada na literatura, utilizou processada, em vez de dados em bruto, a fim de manter os critérios de qualidade aplicados pelos autores durante o pré-processamento de dados. Bicaudal de Student

t

-test foi usado para calcular os valores de p. Significativamente foram selecionados genes cima e reprimidos para atender uma mudança vezes maior do que 2 ou menor do que 0,5 e um valor-p inferior a 0,05.

análise de cluster GES

gerou uma matriz contendo símbolos de genes entre os GES analisados ​​(n = 14,113) que são relatados todos única. Significativamente genes cima e reprimidos de cada GES foram transferidos para a matriz de acordo com seu tipo de regulação. genes regulados positivamente foram marcadas com 1, reprimidos genes com genes diferencialmente regulados -1 e não com 0 (Tabela S1). Esta distribuição de dados consistiu em 88,22% genes não regulados diferencialmente e 11,78% para cima ou genes regulados negativamente e é significativamente diferente de uma distribuição binomial com os parâmetros (p 0,0001). A fim de determinar um ponto de corte para o número de GES partilha um gene particular utilizado para análise de agrupamento, a função de distribuição binomial fornecida por R, bem como os resultados preliminares hierárquicos de cada opção de corte foram analisadas (dados não mostrados). Deste nós decidimos investigar o agrupamento de genes comuns entre os conjuntos de dados, pelo menos, 10 (n = 365; p 0,0001; Figura 1). Além disso, esta análise revelou aglomerados de GES de acordo com o modo de EMT estímulo, em vez de com o tipo celular (Figura 2A). Curiosamente, um agrupamento mais rigorosa de genes partilhados entre, pelo menos, 14 dos conjuntos de dados GES analisados ​​desde agrupamentos similares, apesar do fato de que esta lista contém apenas 41 genes (Figura 2B e Figura S1).

Os genes compartilhados entre pelo menos 10 dos 24 conjuntos de dados foram utilizados para Manhattan agrupamento hierárquico. O tipo de regulação dentro de um determinado estudo foi visualizado através heatmap. Colunas: genes partilhada entre, pelo menos, 10 bases de dados (n = 365); linhas: GES analisados ​​(24 conjuntos de dados no total); verde: reprimidos genes; vermelho: regulados positivamente genes; preto: genes não regulamentada. GSE: Gene expressão omnibus (GEO) recorde da série; E.TABM: ArrayExpress (AE) recorde da série; TGF, factor de transformação de crescimento; TNF, fator de necrose tumoral.

O tipo de célula e modalidade de tratamento de EMT foi anotada e revelou agrupamento de acordo com o modo de indução de EMT. A aglomeração persistiu quando os genes comuns entre, pelo menos, 14 GES conjuntos de dados foram utilizados para a análise. (A) de agrupamento hierárquico de 365 genes compartilhados entre, pelo menos, 10 conjuntos de dados. (B) de agrupamento hierárquico de 41 genes partilhados entre pelo menos 14 conjuntos de dados. A lenda indica tipo de célula e modalidade de tratamento (painel direito). *, vetores fator de transcrição: Runx2, Six1, Caracol, Twist and Goosecoid. GSE: Gene expressão omnibus (GEO) recorde da série; E.TABM: ArrayExpress (AE) recorde da série; TGF, factor de transformação de crescimento; TNF, fator de necrose tumoral.

Geração do EMT-core lista gene

Com base na análise de cluster do GES, que teve como objetivo definir uma lista gene significativa EMT-core que descreve a maioria dos genes envolvidos em todo o GES analisados. A análise de agrupamento dos genes compartilhados entre pelo menos 10 conjuntos de dados continha 365 genes (Tabela S2). No entanto, ele não permite determinar se um gene é para cima ou regulados negativamente em diferentes GES. Por conseguinte, a lista foi filtrada para manter apenas genes que eram ou para cima ou regulados negativamente em, pelo menos, 10 dos conjuntos de dados GES. A lista resultante continha 130 genes, dos quais 67 para cima e 63 são reprimidos (Tabela 2 e Tabela S3). Esta selecção de genes podem ser classificados em cinco categorias ((i), adesão celular e migração, (ii) o desenvolvimento, diferenciação e proliferação celular, (iii) a angiogénese e a cicatrização de feridas, (iv) o metabolismo, (v) outros ou não classificados) de acordo com a análise única de enriquecimento tal como descrito abaixo. Vários genes também estavam presentes em mais de uma dessas categorias (Tabela S3). Em conclusão, esta lista gene EMT-core resultante contém 130 genes que foram derivadas de uma infinidade de tipos de células e métodos de iniciação EMT. Análise termo

Consistentemente enriquecido via de KEGG e GO do gene EMT-core lista

Para analisar ainda mais a lista EMT-core que consiste de 130 genes, foi realizada uma análise de enriquecimento única rigorosa combinado com rigorosos critérios de selecção. Primeiro, uma enriquecida KEGG caminho ou GO prazo teve que conter pelo menos 5 genes da lista de entrada e um valor-p inferior a 0,05 para ser considerado significativo. Uma enumeração de termos e vias significativamente enriquecido é mostrada na Tabela 3. Em segundo lugar, uma via de KEGG significativamente enriquecido ou GO prazo teve de ser observada em, pelo menos, em 4 de 5 ferramentas de bioinformática utilizados. Em terceiro lugar, uma via de KEGG consistentemente enriquecido ou GO prazo teve que ser identificado tanto na lista gene EMT-core ea lista gene 365. Usando esses critérios, obtivemos 6 vias KEGG, 20, vêm os processos biológicos e 15 GO funções moleculares constantemente enriquecidos em ambas as listas (Tabela 4). As vias KEGG consistiu na MAPK caminho, a orientação do axônio, a adesão focal, a interação do receptor de ECM, a regulação do citoesqueleto de actina e os caminhos no câncer de sinalização. Os processos biológicos GO poderiam ser agrupadas em processos envolvidos no desenvolvimento do tecido, cicatrização de feridas, a migração de células ou proliferação celular. As funções moleculares GO consistiu de ECM e componentes do citoesqueleto, inibidores de peptidase e a ligação do colagénio, factores de crescimento, integrina e heparina. Como esperado, a lista com 365 genes compreendidas todas as vias significativamente enriquecido e ir termos da lista de 130 genes EMT-core, exceto para 2 GO processos biológicos (organização ECM e desenvolvimento de pulmão). Várias outras vias KEGG, GO processos biológicos e funções moleculares poderiam ser identificados na lista com 365 genes (Tabela 3 e 4). Todas essas vias, processos biológicos e funções moleculares são bem conhecidas por estarem envolvidas em EMT [5], [14] – [16], e confirmam assim a integridade da nossa lista gene EMT-núcleo. Além disso, tanto a lista EMT-core ea lista com 365 genes apresentar rácios de enriquecimento comparáveis ​​de vias KEGG e GO processos biológicos (Figura 3), bem como funções moleculares GO (Figura S2). Por conseguinte, a lista contendo 365 genes pode ser considerado como uma melhoria da lista EMT-núcleo por conter genes adicionais que podem ter um papel na ambígua EMT. Em resumo, a nossa lista EMT-núcleo de 130 genes e sua melhoria contendo 365 genes apresentam forte enriquecimento de processos EMT-relevantes.

O rácio de enriquecimento é o número de genes observadas, dividido pelo número de genes esperadas para uma determinado termo ou caminho. rácios de enriquecimento foram obtidos a partir de WebGestalt ou calculados com dados de Fatigo. GO, ontologia gênica; BP, processo biológico; KEGG, enciclopédia Kyoto de genes e genomas.

relevância clínica da EMT-core lista gene

A lista gene EMT-core contém vários genes com contudo papéis não identificados na progressão e /ou EMT câncer. Nosso objetivo foi investigar a relevância clínica desta seleção de genes. Portanto, correlacionados a sua expressão com a sobrevida global dos pacientes que sofrem de carcinomas do pulmão de células escamosas (SCC) [17] e resposta patológica completa (PCR) de pacientes com câncer de mama [18]. A partir dos genes reprimidos da lista gene EMT-core, baixa expressão FXYD3 mostrou uma tendência à má sobrevida global dos pacientes SCC (p = 0,17) e baixa expressão de LAd1 (p = 0,00074), SLC7A5 (p = 0,0093) e SLPI ( p = 0,043) significativamente correlacionada ao pior de pCR de pacientes com câncer de mama. A partir dos genes regulados positivamente da lista gene EMT-núcleo, de expressão elevada de PTX3 tende a fraca sobrevivência global dos doentes SCC (p = 0,16) e elevada expressão de NID2 (p = 0,0091), SPOCK1 (p = 0,038) e SULF1 (P = 0,00029) significativamente correlacionada com a pCR prejudicada de pacientes com câncer de mama. Estas correlações demonstram que a comparação de diferentes conjuntos de dados é uma ferramenta poderosa para identificar novos genes-alvo relevantes que não surgem a partir de estudos individuais.

Discussão

Ao longo da última década, um número considerável de GES que lidam com EMT foram acumulando na literatura. Estes abrangem uma variedade de tipos de células que exibem EMT e incluem diferentes modos de indução EMT. Até agora, esses recursos só foram parcialmente utilizados para comparar resultados individuais com os da literatura [8], [19], [20]. Para o nosso conhecimento, nenhuma tentativa foi feita para investigar a maioria dos GES independentes de EMT para as suas relações uns com os outros. Embora estejamos conscientes de que os dados de EMT de expressão de genes não estão completos, analisamos o GES atualmente disponível para gerar uma lista de EMT-core de genes alterados mais frequentemente durante o processo de EMT, como representado no fluxograma (Figura S3).

a análise de agrupamento dos genes compartilhados entre pelo menos 10 GES conjuntos de dados revelou aglomerados de GES com o mesmo ou um tipo de tratamento semelhante. O GES EMT em que foi induzida pelo TNF-α quer isoladamente ou em combinação com TGF-β, por TGF-β sozinho ou por diferentes factores de transcrição consistentemente agrupadas. Estes aglomerados persistiu quando os genes compartilhados entre pelo menos 14 conjuntos de dados foram utilizados para a análise de cluster. Um agrupamento clara de diferentes tipos de indução EMT, no entanto, só seria possível se um número adequado de GES em cada um destes métodos de iniciação EMT existia. Desde várias modalidades de tratamento são representados apenas uma vez na literatura, tal conjunto GES ao seu tipo de tratamento mais relacionado.

Um conjunto predominantemente emergiu GES da EMT induzida por TGF-β que consistia de 13 conjuntos de dados. Curiosamente, o conjunto inclui a expressão exógena de Six1 (Micalizzi

et ai

; GSE23655; [20]), que foi mostrado para melhorar a sinalização de TGF-β indutor de tumores, e Runx2 (Baniwal

et ai

; GSE24261; [21]), que actua a jusante de sinalização de TGF-β [22] – [25]. Assim, este apoia a aglomeração desses estudos em conjunto com outras pessoas usando TGF-β como EMT iniciador. O estudo de van Zijl

et ai

(GSE26391; [26]). Descreveu a análise de células epiteliais de carcinoma hepatocelular e mesenquimais derivadas do mesmo paciente do tumor. O agrupamento do presente estudo, juntamente com outros estudos com EMT induzida por TGF-β sugere um envolvimento de sinalização de TGF-β durante o estabelecimento da linha de células mesenquimais.

O aglomerado de GES com TNF-α como indutor EMT continha o estudo por Takahashi

et ai.

que analisou a linha celular ARPE19 tratadas com TNF-α sozinho (GSE15205_TNFa), TNF-a em conjunto com o TGF-β (GSE12548) ou TGF-β sozinho (GSE15205_TGFb) de modo a induzir EMT [12]. Os dois conjuntos de dados com tratamento TNF-α formado um conjunto consistente. No entanto, o terceiro conjunto de dados, que foi obtido a partir do tratamento exclusivo com TGF-β agrupado com outros GES descrevem iniciação EMT por TGF-β. . Assim, estes dados sugerem um impacto mais forte do estímulo EMT no agrupamento em vez do tipo de célula

Um conjunto consistiu principalmente nos conjuntos de dados de Taube

et al

(GSE24202;. [13 ]), que relatou a indução de células de EMT em HMLE utilizando sobre-expressão de torção, Snail, Goosecoid e TGF-β, assim como o knockdown da e-caderina. Consistente com os dados relatados por Taube

et al

, os conjuntos de dados de Snail- e induzida por torção EMT foram os mais similares dentro deste cluster. Este achado é concordante com o fato de que a torção é um alvo direto de caracol [27]. O elevado número de conjuntos de dados deste estudo pode levar a uma sobre-representação dentro da análise de agrupamento. Além disso, a utilização da mesma linha de células, bem como factores de transcrição com objectivos semelhantes, tais como torção e caracol pode levar a um nível elevado de semelhança dentro dos conjuntos de dados deste estudo em particular.

O aglomerado compreendendo de Ke

et al

(e-TABM-949; [28])., que utilizaram cultura de alta densidade celular de células EPT2 e Ohashi

et al

(GSE27424; [29]). que descreveu um NOTCH3 knock-down em células EPC2 apresenta um baixo nível de relação com outros grupos, devido aos tipos originais de indução EMT. Parece provável que, por um lado, estes GES formar um aglomerado devido à falta de relação com os outros grupos. Por outro lado, também poderia sugerir uma relação de seus tipos de EMT iniciação bem.

Nós encontramos uma variedade de marcadores conhecidos de EMT regulados positivamente na nossa lista gene EMT-core, como CDH2, CDH11 , COL1A1, COL3A1, FBLN5, FN1, HAS2, LOX, MMP2, PLAT, SERPINE1, VIM, genes WNT5A e ZEB1 [15], [30], [31]. genes Além disso, detectamos subregulado relatados a ser reduzida em EMT como ANK3, CDH1, CXADR, PRSS8 e SYK [15], [32] – [34], vários marcadores de células epiteliais reprimidos como EPCAM, JUP, KRT15, ​​KRT17, OCLN, pKP2 e PPL [5], [15] e uma série de supressores de tumor, tais como downregulated KLK10, MTUS1, OAS1 e SERPINB1 [35] – [38]. Juntos, estes genes fornecer uma verificação contínua da nossa lista gene EMT-núcleo. Além desses genes confirmando a integridade da nossa lista gene, no entanto, os genes com funções desconhecidas, bem como uma relação desconhecida ou pouco claras ao câncer e /ou EMT emergiu que são novos candidatos para uma investigação mais aprofundada. genes regulados positivamente incluem MAP1B, NID2, PTX3, SPOCK1, SULF1, TAGLN e TMEM158 enquanto os genes reprimidos composta ABLIM1, LAd1, FAM169A, FXYD3, SLC7A5, SLPI, TMEM30B e TPD52L1.

Duas meta-análises de EMT na mama cancro considerando diferentes linhas celulares ou tipos de indução EMT têm sido relatados. Estes foram identificados listas de genes EMT-core com 200 e 251 genes [13], [39], no entanto, a sobreposição com cerca de 10% somente. Nossa lista EMT-core contendo 130 genes mostra um pobre sobreposição de 7% com a lista de Choi

et al.

[39], mas uma sobreposição de 55% com Taube

et al.

[ ,,,0],13]. Ambas as listas por Choi

et al.

E Taube

et al.

Conter identificadores não mapeados (IDS), tais como IDs de matriz, etiquetas de seqüências expressas e IDs de locus. Utilizou-se análise de caminho de forma consistente enriquecido para investigar estas listas de genes. Notavelmente, nossa lista EMT-core exibido vias KEGG mais enriquecidos e GO termos do que as listas de genes de Choi

et al.

E Taube

et al.

(Tabela 3 e 4). Após a redução do rigor da análise a dois genes dentro de uma categoria enriquecido, o enriquecimento para a lista de Choi

et al.

Não melhorou ao passo que quase todas as vias KEGG e GO termos enriquecidos em nossa lista EMT-core pode ser observado na lista de Taube

et ai.

(dados não mostrados, Tabela 4).

a lista de EMT-núcleo contém vários genes com funções e relações para o cancro e /ou EMT desconhecidos. Fomos capazes de mostrar que a expressão FXYD3 e PTX3 está associado com pior sobrevida do paciente global em pacientes SCC e LAd1, SLC7A5, SLPI, NID2, SPOCK1 e SULF1 correlacionados significativamente com a PCR prejudicada em pacientes com câncer de mama. FXYD3 tem sido mostrado para ser envolvidos na proliferação de células tumorais e para ser regulada negativamente por TGF-β sinalização [40], [41]. A PTX3 foi relatado para ser um biomarcador cancro do pulmão [42]. NID2 tem sido mostrado para ser elevada durante forbol 12-miristato de invasão induzida por 13-acetato de várias linhas celulares de tumores humanos e como um biomarcador potencial de tumores [43], [44]. SPOCK1 tem sido referida como estando envolvida na ligação e activação neuronal metaloproteinase da matriz [45], [46]. SULF1 foi demonstrado ser um biomarcador potencial de cancro gástrico, que pode ser induzida por TGF-β1 [47], [48]. LAd1 é uma proteína envolvida no adaptador ERK5 e JNK vias [49]. SLPI foi reportado para agir anti-tumorigénica para certos tumores, bem como para promover a migração e a invasão de outros [50] – [52]. Por isso, estes genes parecem ser candidatos promissores para uma investigação mais aprofundada. Tomados em conjunto, propomos que a lista EMT-core de 130 genes é altamente relevante para EMT e a análise de agrupamento representa uma visão global sobre as relações de GES atualmente disponível de EMT.

Materiais e Métodos

recolha e anotação de dados

dados de microarranjos processados ​​foram baixadas a partir de sites de GEO (disponível: https://www.ncbi.nlm.nih.gov/geo/) e AE (disponível: http: //www.ebi.ac.uk/arrayexpress/) usando “EMT” como palavra-chave para GES publicados até fevereiro de 2012. Os GES baixado foram anotados para recuperar símbolos oficiais de genes, EntrezID e nomes de genes utilizando BioConductor 2.9 (disponível: http: //www.bioconductor.org/; acessados: 2012 Jan 02) [53] e a ferramenta on-line NetAffx (disponível: https://www.affymetrix.com/analysis/index.affx; acessada: 2012 25 de junho). BioConductor foi usado no ambiente de R [54]. dados anotados foi importado para o MS-Excel 2010 e LOG2 transformado. Posteriormente, dobre as mudanças e os valores-P utilizando

t

-test foram calculados de Student dos dois lados. Significativamente genes de cima e regulados negativamente foram seleccionados e separados um do outro quando mostrando uma mudança vezes maior do que 2 ou menor que 0,5 e um valor p inferior a 0,05. genes regulados positivamente foram ordenados do maior para o menor variação vezes. Vice-versa, os genes reprimidos foram arranjados menor para o maior mudança vezes. Os duplicados foram removidas posteriormente. símbolos de genes têm sido utilizados para uma análise mais aprofundada e serão referidos como genes.

A análise de agrupamento

Os genes cima e reprimidos de cada estudo foram resumidos, ordenada e duplicatas foram removidos para obter um lista de todos os genes relatados exclusivamente em todos os estudos. genes regulados positivamente foram marcadas com um e genes regulados negativamente foram marcadas com -1. Os genes que não foram significativamente desregulados dentro de um GES e genes que se verificou serem ambos para cima e regulados negativamente dentro de um estudo foram marcadas com 0. A distribuição do número observado de genes a montante e a downregulated foi testada contra uma distribuição binomial com o parâmetro P = 11,78% por meio de um teste qui-quadrado. Foram calculadas as possibilidades de desenho cada opção de corte para análise de cluster ( 1, 2, 3, e assim por diante) por acaso, com a função de distribuição binomial fornecido por R (probabilidade = 11,78%). As possibilidades para desenhar cada opção de corte por acaso foram comparados com análises aglomerado preliminar de cada opção de corte, a fim de determinar um ponto de corte adequado. O agrupamento foi realizada em BioConductor 2,9 incorporado em R 2.14.1 (64 bits) com o gdata pacotes [55], gplots [56] e heatmap.plus [57] usando cluster heatmap hierárquica com função de Manhattan distância.

Consistentemente enriquecimento de vias KEGG e ir termos

As listas de genes foram analisados ​​utilizando-se cinco diferentes ferramentas de enriquecimento de bioinformática. Uma visão global das ferramentas utilizadas e as suas características são apresentadas na Tabela S4. As ferramentas Fatigo e GeneCodis foram usados ​​na plataforma Babelomics 4 [58], o que proporcionou o acesso a ambos os programas ao mesmo tempo. Os critérios de selecção para as vias significativamente enriquecidos foram um valor-p ou FDR abaixo de 0,05 e um mínimo de 5 genes da lista de entrada dentro de uma categoria enriquecida. Além disso, os termos GO consistentemente enriquecidos e vias KEGG foram identificados em pelo menos 4 dos 5 programas, tanto na lista gene EMT-core ea lista gene 365. rácios de enriquecimento (número de genes observadas, dividido pelo número de genes esperadas para uma categoria ou GO KEGG) foram obtidos por WebGestalt, ou alternativamente, ter sido calculado tal como descrito por Zhang

et ai.

com os dados a partir de Fatigo [59].

Correlação da lista EMT-core com os dados clínicos

Microarray e dados clínicos para pacientes com carcinomas de pulmão de células escamosas (n = 130) relatados por Raponi

et al.

[17], com a adesão GDS2373 foram baixados do GEO. . Microarray e clínicas de dados para pacientes com câncer de mama (n = 133) relatados por Hess

et al

[18] foram baixados do site da MD Anderson Cancer Center (disponível: https://bioinformatics.mdanderson.org/pubdata.html; acessada 2012 07 de setembro). Os pacientes foram divididos em grupos que expressam altos e baixos para genes selecionados dentro da lista EMT-core. Os valores de p foram computados utilizando Student dos dois lados

t

-teste. A análise de sobrevida para os dados por Raponi

et al.

foi realizada com o teste do qui-quadrado de igualdade usando o pacote de sobrevivência em R [60]. Os valores de p menores que 0,05 foram considerados significativos.

Informações de Apoio

Figura S1. A análise de agrupamento

dos genes compartilhados entre pelo menos 14 GES conjuntos de dados mostra aglomerados persistentes e distintos.

doi: 10.1371 /journal.pone.0051136.s001

(PDF)

Figura S2.

O 130 genes lista EMT-core e os 365 genes listar apresentam rácios de enriquecimento comparáveis ​​de funções moleculares ir.

doi: 10.1371 /journal.pone.0051136.s002

(PDF)

Figura S3.

fluxograma que representa a geração da lista de gene EMT-núcleo.

doi: 10.1371 /journal.pone.0051136.s003

(PDF)

Tabela S1.

Matrix contendo genes significativamente cima e reprimidos através dos conjuntos de dados GES analisados ​​

doi:. 10.1371 /journal.pone.0051136.s004

(XLS)

Tabela S2. : Lista de 365 genes significativamente regulada em pelo menos 10 GES conjuntos de dados

doi:. 10.1371 /journal.pone.0051136.s005

(DOC)

Tabela S3.

lista gene EMT-core de 130 para cima ou reprimidos genes compartilhados entre pelo menos 10 GES conjuntos de dados

doi:. 10.1371 /journal.pone.0051136.s006

(DOC)

Tabela S4. ferramentas

de enriquecimento utilizado neste estudo e suas propriedades

doi: 10.1371. /journal.pone.0051136.s007

(DOC)

Deixe uma resposta