PLoS ONE: Consenso Pathways implicado em prognóstico do câncer colorretal identificados através de sistemática Análise de Enriquecimento de Gene Expression Profiling Studies

Abstract

Fundo

Um grande número de perfil de expressão gênica estudos (GEP) na prognóstico de cancro colo-rectal (CRC) foi realizado, mas nenhum gene assinatura fiável para a previsão do prognóstico CRC foi encontrado. ferramentas de enriquecimento de bioinformática é uma abordagem poderosa para identificar processos biológicos na análise de dados de alto rendimento.

principais conclusões

Temos pela primeira vez recolhidos os resultados do 23 até agora publicados estudos independentes GEP em CRC prognóstico. Nestes 23 estudos, foram identificadas 1475 original, genes mapeados, a partir dos quais 124 (8,4%) foram relatados em pelo menos dois estudos, com 54 delas mostrando que consiste em direcção a mudança de expressão entre os estudos individuais. Usando esses dados, nós tentativa de superar a falta de reprodutibilidade observada nos genes relatados em estudos individuais GEP através da realização de uma análise de enriquecimento à base de via. Usamos até dez ferramentas para análise de sobre-representação de Gene Ontology (GO) categorias ou Enciclopédia Kyoto de genes e vias Genomas (KEGG) em cada uma das três listas de genes (1475, 124 e 54 genes). Esta estratégia, com base em testes de ferramentas múltiplas, nos permitiu identificar a cadeia de fosforilação oxidativa, e as categorias de interacção do receptor de matriz extracelular, bem como uma categoria geral relacionada com a proliferação celular e apoptose, como as vias única significativa e consistentemente sobre-representadas em três genes listas, que foram relatadas por várias ferramentas de enriquecimento.

Conclusões

a nossa análise de enriquecimento com base em via de estudos de perfil de expressão gênica 23 independente no prognóstico da CRC identificados categorias prognósticos significativamente e consistentemente sobre-representadas em CRC. Estas categorias sobre-representadas foram funcionalmente claramente relacionada com a progressão do câncer, e merecem uma investigação mais aprofundada

Citation:. Lascorz J, Chen B, Hemmmki K, Försti A (2011) Consenso Pathways Implicado no prognóstico do câncer colorretal identificados através Sistemática Análise enriquecimento da Expressão gênica Estudos de perfil. PLoS ONE 6 (4): e18867. doi: 10.1371 /journal.pone.0018867

editor: Chad Creighton, Baylor College of Medicine, Estados Unidos da América

Recebido: 01 de dezembro de 2010; Aceito: 15 de março de 2011; Publicação: 25 de abril de 2011

Direitos de autor: © 2011 Lascorz et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo National Genome Rede alemã de Pesquisa (NGFN-Plus) (01GS08181), o Deutsche Krebshilfe (German Cancer AID) (107.318) e da União Europeia (UE) (HEALTH-F4-2007-200767). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o câncer colorretal (CRC) é o terceiro câncer mais comum ea quarta maior causa de morte por câncer em todo o mundo, com um risco de vida em populações européias e norte-americanas ocidentais em torno de 5% [1].

Muitos perfis de expressão de gene (GEP) estudos sobre CRC foram realizados na última década usando a tecnologia de microarray. De acordo com suas aplicações clínicas potenciais, eles podem ser classificados em três grupos [2]: estudos sobre o processo de carcinogênese, estudos sobre previsão de prognóstico, e estudos sobre previsão de resposta ao tratamento. Eles mostram pouca sobreposição nos genes identificados, e nenhuma assinatura fiável útil na prática clínica tem sido encontrado. Atualmente, a União Internacional Contra o Câncer (UICC) classificação TNM de tumores malignos com base no estadiamento clínico-patológico continua a ser o padrão para CRC prognostication [3].

Estamos focados em estudos sobre previsão de prognóstico, que compreendem um grupo heterogêneo de estudos GEP. Eles visam identificar um perfil de expressão do gene para discriminar mais agressivo da CRC menos agressivos, com base em diferentes características relacionadas com a progressão da doença, tais como a existência de recorrência, a presença de metástases, ou os dados de sobrevivência. Até à data, apenas uma meta-análise de dez estudos GEP relatou uma lista de 13 genes diferencialmente expressos no CRC com o bem contra o mau prognóstico, relatada por pelo menos dois estudos independentes [4].

Várias razões foram propostas para explicar esta falta de reprodutibilidade nos estudos GEP no CRC, tais como estudos de fraca potência, falta de validação dos resultados, diferenças no protocolo experimental e armadilhas estatísticos na análise de dados de expressão de microarray para o resultado câncer [3]. Alterações nas características biológicas requerem variação na expressão de conjuntos de genes que regulam a actividade biológica coordenado, e esta informação pode ser dificilmente extraída a partir de alterações na expressão de genes individuais quando sobreposição entre os estudos é tão baixo [5]. ferramentas de análise de enriquecimento, que estimam sobre-representação de determinadas categorias de genes ou vias em uma lista de genes, é uma estratégia promissora para identificar categorias biológicas implicados no processo investigado [6].

Uma análise abrangente de ferramentas de enriquecimento de bioinformática disponíveis tem recentemente, foi publicada [6]. Com base no algoritmo aplicado, as ferramentas de enriquecimento podem ser classificados em três categorias: Análise de Enriquecimento de singular (MAR ou de classe I); análise de conjunto de enriquecimento de gene (GSEA ou classe II); e análise de enriquecimento modular (MEA ou classe III). Em todas as ferramentas, a lista de entrada de genes é mapeado para os termos biológicos em bancos de dados, e em seguida a análise estatística examina o enriquecimento de membros de genes para cada um dos termos de anotação e corrige para testes múltiplos [6]. Foram aplicados vários instrumentos das AAE para as listas de genes de entrada mesmos, e apenas categorias enriquecidos obtidos com várias ferramentas foram considerados indicativos de previsão genuína. Esta estratégia, baseada em testes de múltiplas ferramentas, é recomendada a fim de obter resultados mais satisfatórios [7].

Gene Ontology (GO) [8] e Enciclopédia Kyoto de genes e genomas (KEGG) [9] são os dois principais bancos de dados de anotação coleta conhecimento biológico de genes, que os tornam muito adequado para bioinformática de varredura para análise de enriquecimento [6]. Atualmente, GO contém informações para 18261 produtos de genes humanos, enquanto KEGG mapeia 373 vias diferentes. Nosso objetivo foi identificar as categorias funcionais (GO termos e vias KEGG) que são consistentemente sobre-representadas de forma estatisticamente significativa na lista de genes diferencialmente expressos inferido a partir dos estudos GEP no CRC prognóstico. Em primeiro lugar, a partir de dados recolhidos os estudos publicados 23 GEP independentes sobre prognóstico de CRC para extrair os genes relatados em pelo menos dois deles, e, em seguida, estes genes foram utilizados para a análise sistemática de enriquecimento com várias ferramentas independentes MAR. Desta forma, superou a falta de reprodutibilidade observada em ambos os genes foi relatado nos estudos GEP individuais e as categorias sobre-representados relatados por ferramentas de análise de enriquecimento, e pode identificar categorias consistentemente enriquecidos.

Resultados

Meta -a análise dos estudos GEP

foram relatados Um total de 1897 identificadores de genes diferentes (IDS) para ser diferencialmente expressos nos 23 estudos GEP independentes sobre o prognóstico da CRC (Tabela 1). A partir deles, o número de genes únicos, mapeados era 1475, de que 603 genes foram supra-regulados e 794 sub-regulada em amostras de mau prognóstico, enquanto que 78 tinha um sentido oposto em mudança expressão entre os estudos individuais. Dos 1475 genes, foram relatados 124 genes (8,4%) em mais de um estudo GEP (115 em dois, e nove em cada três estudos), 19 deles (15,3%) foram regulados positivamente em amostras de mau prognóstico em dois estudos, 35 regulada para baixo (28,2%) e 70 com contrastantes direção na mudança de expressão entre os dois estudos. Assim, 54 out dos 124 genes (43,5%) relataram o mesmo sentido na mudança de expressão gênica em dois estudos GEP diferentes. Dos nove genes relatados em três estudos (ATP5C1, CA2, CYP51A1, FN1, HSP90AB1, IQGAP1, RPS5, SPP1, e TXN), Só e CYP51A1 SPP1 mostrou a mesma direcção em mudança de expressão em todos os três estudos (Tabela S1). Todas estas nove genes foram incluídos na lista de 54 genes. Não houve tendência dos genes relatados por dois estudos para chegar com mais frequência a partir de dois estudos GEP que investigam a mesma característica relacionada com o prognóstico da doença (existência de reincidência, a presença de metástases ou sobrevivência) do que de quaisquer dois estudos. Os sete estudos que investigam recorrência relatados 541 genes únicos, 15 deles (2,8%) em dois estudos. Os 13 estudos relacionados à metástase relatado 934 genes únicos, com 50 deles (5,3%) em dois estudos. Finalmente, os dois estudos relacionados com a sobrevivência relatados 34 genes únicos, nenhum deles comum para ambos os estudos.

Veja a Tabela S1 e S2 tabela para uma lista completa dos genes.

Enriquecimento as análises

Três listas de genes foram utilizados para o enriquecimento de análises: todos os genes 1475 relatados nos estudos GEP 23 independentes, os 124 genes relatados em pelo menos dois estudos GEP (independentemente de consistência na mudança de expressão entre os estudos), e os 54 genes relatados em pelo menos dois estudos GEP com direção consistente na mudança de expressão gênica entre as amostras com o prognóstico pobre e bom. Dez ferramentas de enriquecimento foram usados ​​para obter Processo GO Biológica significativamente sobre-representados, GO categorias função molecular e KEGG vias (Tabelas S3, S4, S5).

O número de categorias enriquecidos relatados mostraram uma considerável variabilidade entre os diferentes instrumentos utilizado (Tabela 2), embora o mesmo limiar de significância (valor de P 0,05, após correcção para o teste múltiplo) e as condições de análise (genoma inteiro como o fundo de referência e pelo menos dois genes a partir da lista de entrada na categoria enriquecido) foram aplicadas em todas as análises . Os valores de P resultaram para o enriquecimento de um único GO ou termo KEGG geral variaram várias ordens de magnitude entre as diferentes ferramentas (Tabelas S3, S4, S5). Em geral, os GeneCodis ferramentas [10] e WebGestalt [11] relatou categorias mais enriquecidos do que as outras ferramentas, e muitas das categorias enriquecidos foram relatados apenas por GeneCodis (Tabelas S3, S4, S5). GeneCodis também classificou um número significativamente menor de genes a partir da lista de entrada nas categorias GO enriquecidos relatados. Por outro lado, a ferramenta recolhe [12] relataram categorias menos enriquecidos que as outras ferramentas (Tabela 2).

Identificação das categorias consistentemente enriquecidas

Apesar da variação do número de categorias sobre-representados relatados pelos diferentes ferramentas de enriquecimento, várias categorias foram relatados por muitas das ferramentas utilizadas. Para evitar falsos positivos, foram aplicados dois limiares de selecção rigorosos antes considerada uma categoria de forma tão consistente enriquecido. Em primeiro lugar, apenas as categorias relatadas para ser enriquecido por várias ferramentas em uma lista de genes foram selecionados (Tabela S6). A partir deles, apenas as categorias comuns em pelo menos duas das três listas de genes foram consideradas como sendo consistente enriquecido. Usando estes dois critérios de selecção, seis categorias gerais de processo GO Biológicas (proliferação celular, regulação positiva do processo biológico, regulação positiva do processo celular, regulação da apoptose, regulação da proliferação celular e resposta a estímulo químico), cinco GO Molecular categorias de função ( actividade hidrogénio iónica transmembranar transportador, actividade transportador catião transmembranar inorgânico, inorgânico actividade transportador catião transmembranar monovalente, proteína de ligação, e desdobrado ligação de proteína), e sete vias KEGG (interacção do receptor de matriz extracelular, adesão focal, doença de Huntington, fosforilação oxidativa, vias no cancro , doença de Parkinson, e cancro do pulmão de células pequenas) foram consistentemente sobre-representados nos estudos GEP no prognóstico de CRC (Tabela 3). A proporção de genes para cima e para baixo-regulados foi semelhante em cada uma das GO consistentemente enriquecido e categorias KEGG, como na lista de 124 genes (dados não mostrados). A proporção de enriquecimento foi maior para as vias KEGG mais específicos e bem definidos do que para as grandes categorias GO (Figura 1). Uma alta sobreposição dos genes individuais entre estes 18 categorias foi também observada (Tabela 4). Com base nesta sobreposição, três grupos de categorias individuais biologicamente significativas foram finalmente obtidos:

Um grande grupo, incluindo as seis categorias gerais GO Biológicas processo (proliferação celular, a regulação positiva do processo biológico, a regulação positiva do processo celular, a regulação da apoptose, regulação da proliferação celular e resposta a estímulo químico), em conjunto com a ligação da proteína duas categorias de função GO Molecular e ligação às proteínas desdobrado. As vias categoria KEGG no cancro também se sobrepõem com estes GO categorias.

Os três KEGG vias de fosforilação oxidativa, doença de Huntington e doença de Parkinson, juntamente com três categorias de função GO moleculares (atividade transmembrana transportador de iões de hidrogénio, catião inorgânico transmembrana transporter actividade, e a actividade do transportador inorgânico catião monovalente transmembranar), que incluem quatro a seis genes comuns.

a KEGG duas vias interacção receptor de matriz extracelular e de adesão focal, com todos os seis genes nestas duas categorias KEGG também incluídos na grande proteína categoria Função GO Molecular vinculativo.

Rácio de enriquecimento = número de observadas eo número de genes esperados de cada GO ou categoria KEGG na lista gene (de acordo com WebGestalt ou, alternativamente, DAVID ou ferramentas GoTM). GO Processo BP, Gene Ontology Biológica; GO MF, a função do gene Ontologia Molecular; KEGG, Enciclopédia Kyoto de genes e genomas.

Análise de Enriquecimento usando o software Ingenuity confirmou os resultados obtidos com os bancos de dados ir e KEGG. A única via canonical sobre-representados na lista de 124 genes era fosforilação oxidativa (P

corrigido = 2,7 × 10

-2), enquanto que esta categoria era a terceira via mais significativa (P

corrigido = 1,0 × 10

-5) entre as 159 vias canônicas enriquecido no conjunto de 1475 genes. Os resultados para as categorias de funções Bio eram muito não específico, devido ao grande número de categorias enriquecidos reportados para cada uma das três listas de genes (61 a 77 Da enriquecido) (Tabela 2). No entanto, a morte celular geral Categorias, câncer e crescimento e proliferação celular estavam entre os quatro primeiros termos enriquecido nos três listas de genes, com valores P corrigidas entre 10

-4 e 10

-20 (dados não mostrados) .

análise de enriquecimento com todas as ferramentas de enriquecimento também foi realizada individualmente para os quatro únicos estudos GEP relatando mais de 100 genes mapeados únicas [13] – [16] (Tabela S7). A partir dos 18 termos GO /KEGG, as categorias gerais GO foram relatados apenas por alguns dos quatro estudos individuais GEP, enquanto as vias KEGG mais específicos parecem ser mais comumente relatados. No estudo de GEP Bertucci et ai. [14] quase todas as 18 categorias saiu como sobre-representados na lista gene.

Discussão

O grande número de estudos publicados sobre microarray prognóstico da CRC, mostrando uma sobreposição muito baixo no resultado, tem desde que nenhum perfil de expressão gênica geralmente aceite para predição de CRC prognóstico. Além disso, há estudos de associação do genoma de resultado em CRC foram publicados, mas estão agora em curso [3]. A heterogeneidade no desenho do estudo GEP sobre as características relacionadas com a progressão da doença faz uma comparação consistente de resultados entre os estudos individuais muito difíceis [17]. Aqui, nós relatamos os resultados da nossa abordagem, em que foi utilizada a maior coleção de estudos GEP no CRC prognóstico até agora, e pela primeira vez aplicados e comparados várias ferramentas de enriquecimento às listas de genes extraídos. Esta estratégia permitiu-nos a identificar a cadeia de fosforilação oxidativa, e as categorias de interacção do receptor de matriz extracelular, bem como uma categoria geral relacionada com a proliferação celular e apoptose, como as vias única significativa e consistentemente sobre-representados envolvido em progressão CRC.

na primeira parte do estudo, tentamos superar a falta de reprodutibilidade nos estudos GEP no CRC prognóstico, selecionando os genes relatados em mais de um estudo, em uma tentativa de reduzir os resultados falsos positivos. De um total de 1475 únicos genes, anotados identificados em 23 estudos independentes GEP, 124 genes (8,4%) foram relatados em pelo menos dois estudos, e apenas 9 deles (0,6%) em três estudos, que nos dão uma ideia clara do a falta de reprodutibilidade a nível individual do gene. Esta falta de reprodutibilidade não parece ser causado pelas diferentes características investigadas relacionados com prognóstico do cancro, uma vez que a proporção de genes relatado por dois estudos da mesma classe (2,8% de recorrência, 5,3% para estudos de metástase, e 0% de sobrevivência estudos) foi ainda menor do que para todos os estudos em conjunto (8,4%). Inesperadamente, 70 para fora destes 124 genes (56,5%) apresentaram contraste direcção em mudança expressão entre dois estudos individuais, enquanto que para o outro 54 (43,5%) a mudança de expressão estava na mesma direcção, em 19 de sobre-regulada (15,3%) e 35 regulada para baixo (28,2%). A proporção de genes para cima e para baixo -regulated foi aproximadamente o mesmo também dentro de cada um dos GO consistentemente enriquecido e categorias KEGG. As inconsistências na direcção da expressão diferencial pode ser atribuído a vários factores: por um lado, o grande número de falsos positivos observados em estudos de expressão de genes de microarranjos [18]; segundo, generalização de comparações em meta-análises, especialmente relacionados com o design experimental e referência de fundo para expressão; Em terceiro lugar, a heterogeneidade nas amostras de tecidos utilizados em cada estudo; e quarto, resultados imprecisos devido ao desenho do estudo pobres [19]. No entanto, uma explicação clara para estas discrepâncias está faltando. Apenas uma anterior meta-análise de dez estudos GEP relatou uma lista de 13 genes diferencialmente expressos em CRC com bom contra o mau prognóstico, relatado por, pelo menos, de dois estudos independentes [4]. Uma comparação com os nossos resultados mostraram que oito dos genes também estão presentes na nossa lista gene 124, com o mesmo sentido na mudança de expressão (IGF2, IQGAP1, YWHAH, DEK, TP53, OAS1, RARB e PDCD10), três deles ( IGF2, TP53 e RaRb) pertencente ao grupo de grandes categorias relacionadas com a proliferação celular e a apoptose. Os outros cinco genes relatados por Cardoso et al. eram, na verdade, não está presente em um dos dois estudos GEP mencionados na meta-análise.

A segunda parte da nossa análise utilização de ferramentas de enriquecimento livremente disponíveis para detectar qual GO categorias ou vias KEGG foram significativamente sobre-representados na três conjuntos de genes obtidos a partir da expressão profiling estudos 23 genes (1475, 124 ou 54 da lista de genes). Aqui, nós tentativa de superar as diferenças conhecidas nos resultados de análises sobre-representação utilizando até dez diferentes análises singular de enriquecimento (SEA ou classe I) ferramentas de enriquecimento. Nós selecionamos apenas as categorias que foram relatados a ser sobre-representados por vários instrumentos e, em pelo menos duas das três listas de genes como categorias consistentemente enriquecidos. Jogo de ferramentas de análise de enriquecimento Gene (GSEA ou de classe II) não foram considerados, uma vez que exigem uma resumidos valor biológico (por exemplo mudança dobra expressão) para cada um dos genes na entrada, o que não estava disponível para a maioria dos estudos. ferramentas de análise de enriquecimento modular recentemente desenvolvidas (MEA ou classe III) considerar as inter-relações de termos GO, mas eles exigem listas de entrada gene relativamente grandes para uma análise biologicamente significativa [6], e este não era o caso em nosso estudo.

ferramentas de enriquecimento sofrem de várias limitações, que foram descritos em pormenor noutro documento [6], [7], e é recomendado para testar múltiplas ferramentas, mesmo se eles têm capacidades e funções similares [7]. Por exemplo, tem sido observado que, para os mesmos dados de entrada, dez programas de análise ontológicas diferentes resultou em valores de P que varia várias ordens de grandeza para alguns termos GO [7]; Observou-se o mesmo efeito em nosso estudo. vias KEGG representam relativamente vias biológicas conhecidas bem definidas, em vez dos mais amplas categorias GO. O uso de ferramentas de classificação via não é de qualquer maneira isenta de dificuldades [20]. Uma análise sobre-representação recente de vias de dados do estudo de associação do genoma também relatou diferenças nos resultados entre os três das ferramentas de enriquecimento caminho que usamos (DAVID, reunir e WebGestalt) [20]. Fatores que podem causar essas diferenças nos resultados incluem: as fontes e versões de arquivos de anotação; o modelo estatístico aplicado para a análise de enriquecimento; o conjunto de genes de referência contra a qual são calculados os valores de P para cada termo nos resultados; e o método de correção para vários experimentos [21]. Na nossa análise, todo o genoma foi utilizado como um quadro de referência, e um limite de significância de P 0,05 foi utilizado em todas as análises. Apesar dessa uniformidade nas condições utilizadas, também observamos uma variabilidade considerável no número de categorias enriquecidos relatados e nos valores de P. Assim, essa variabilidade pode ser atribuído ao modelo estatístico aplicado para a análise de enriquecimento, para o método de correcção para o teste múltiplo, e a diferenças nas versões de movimento e as fontes de dados usadas KEGG. No entanto, e apesar dessa variação aparente, a maioria das categorias enriquecidas relatados pelas ferramentas mais severas foram incluídos em os relatados por essas ferramentas de relatórios um maior número de termos, demonstrando a utilidade da nossa estratégia estudo. Assim, as ferramentas de enriquecimento de bioinformática são uma abordagem poderosa para identificar processos biológicos na análise de dados de alto rendimento, mas a selecção de categorias enriquecidos com base em apenas uma ferramenta de enriquecimento parece ser bastante arbitrária.

Finalmente, depois da aplicação da selecção rigorosa critério, um total de 18 categorias (11 GO termos e sete vias KEGG) foram consistentemente consideradas como sobre-representados nas listas de genes extraídos a partir das 23 diferentes estudos sobre GEP CRC prognóstico. Na lista do gene 124, foi observada uma muito alta sobreposição de genes entre as 18 categorias, reduzindo o número de categorias com significado biológico a três grupos claramente diferentes. Em primeiro lugar, um grupo muito geral relacionada com a proliferação celular, apoptose e de ligação da proteína, que inclui uma percentagem elevada dos genes a partir de cada um dos três conjuntos de genes. Em segundo lugar, e mais interessante, a cadeia de fosforilação oxidativa, incluindo sete genes (ATP5C1, ATP6AP1, ATP6V1H, COX5B, COX6B1, NDUFA1, e UQCRC1) (Figura S1), cinco delas partilhada com a doença de Huntington e doença de Parkinson KEGG categorias. Já há várias décadas, sugeriu-se que o metabolismo oxidativo prejudicada pode causar tumor maligno [22]. Esta hipótese, conhecida como a hipótese de Warburg, foi redescoberto por uma ampla gama de abordagens experimentais que mostram a interação do metabolismo mitocondrial e crescimento do tumor [23], [24]. Adicionado a isso, mutações germinativas no desidrogenase mitocondrial succinato (complexo II da cadeia de fosforilação oxidativa) subunidades SDHD, SDHC e SDHB são uma causa frequente de paragangliomas da cabeça e pescoço e de feocromocitoma [25]. Também a doença de Parkinson, as outras duas vias KEGG enriquecido com genes de cadeia a fosforilação oxidativa e de Huntington, estão associados com disfunção mitocondrial [26]. Em terceiro lugar, termos tanto KEGG interacção receptor matriz extracelular e adesão focal incluiu quatro genes comuns (COL5A1, FN1, SPP1 e TNXB) (Figura S2). interacções específicas das moléculas da matriz extracelular controlar as actividades celulares tais como a adesão, diferenciação, proliferação e apoptose [27]. Assim, e com base nas classes funcionais dos genes, eles parecem promissores para estudos destinados a investigar sua possível influência sobre o prognóstico do CRC. Especialmente, o KEGG vias de fosforilação oxidativa, a interação do receptor de matriz extracelular e adesão focal pode fornecer novos alvos para o desenvolvimento de drogas. Seis dos 23 estudos GEP independentes realizaram uma análise de enriquecimento de ir e /ou KEGG categorias com a sua lista de genes diferencialmente expressos, em todos os casos usando apenas uma ferramenta de enriquecimento. Apenas o estudo de GEP Jorissen et ai. [16] relataram duas vias KEGG também relatados em nossa análise (interação do receptor de ECM e adesão focal). Quando procurou categorias sobre-representadas em estudos individuais GEP, não foram observadas diferenças claras entre os estudos. Apesar de termos de KEGG específica vias fosforilação oxidativa e moléculas da matriz extracelular foram comumente relatados, os termos GO gerais relatados em nossa abordagem global foram identificados apenas por alguns dos estudos. Estes resultados mostram que a abordagem de combinar os dados de 23 estudos individuais PEG não só é capaz de identificar as vias comuns relatadas por grandes estudos individuais, mas também é capaz de denunciar novas vias consistentemente sobre-representadas, as quais podem ser perdidas em pequenos estudos.

em conclusão, a nossa análise enriquecimento à base de via de 23 expressão de genes independentes profiling estudos sobre prognóstico da CRC indicou a cadeia de fosforilação oxidativa, a matriz extracelular categoria interacção receptor, e uma categoria geral relacionada com a proliferação celular e apoptose como significativamente e consistentemente sobre-representados categorias prognósticos para CRC. Estas categorias foram funcionalmente claramente relacionada com a progressão do câncer, e merecem uma investigação mais aprofundada. Seria de interesse especial, se estudos futuros GEP realizada em grandes coortes de amostras poderia validar os nossos resultados e identificar essas categorias como classificadores de mau prognóstico.

Materiais e Métodos

Gene perfil de expressão (GEP) estudos

Um total de 27 estudos GEP para predição prognóstico do CRC foram incluídos na análise (Tabela 1): os estudos do 16 GEP nomeados em duas revisões recentes [2], [3], três estudos adicionais incluídas na uma meta-análise [4], e oito estudos mais recentes (de busca PubMed a partir de Janeiro de 2009 até Março 2010) não incluídos no comentários anteriores /meta-análise. Quatro dos 27 estudos de amostras que se sobrepõem parcialmente utilizados [28] – [31], e um outro estudo [32] era na verdade um follow-up de uma anterior [33], reduzindo o número total de estudos independentes para 23. De acordo com o recurso investigado relacionada com a progressão da doença, sete dos estudos foram baseados na existência de reincidência, treze com a presença de metástase, dois em dados de sobrevivência, e um em uma combinação de dados de sobrevida e recorrência. Devido à heterogeneidade dos dados disponíveis, nenhuma tentativa foi feita para executar meta-análises quantitativas.

set Gene coleção

Tem sido relatado que o tipo de identificador gene usado para especificar o diferencialmente genes regulados pode potencialmente afectar os resultados da análise posterior [21]. Foi utilizado o símbolo oficial do gene HUGO como um identificador consistente para os genes relatados. Se o símbolo do gene não foi relatada no estudo GEP, foram utilizadas as seguintes ferramentas para converter os identificadores relatados no símbolo do gene: NetAffx de Affymetrix (www.affymetrix.com), EntrezGene do NCBI (www.ncbi.nlm.nih. gov /gene /), ea ferramenta de conversão gene ID a partir dos recursos de bioinformática DAVID [34]. Em muitos casos, o número de identificadores de genes (IDs) relatado pelo estudo GEP realmente não correspondem aos genes anotados, mas para sondas sobre a matriz ou expressão GenBankIDs. Adicionado a isso, vários estudos contado alguns genes mais de uma vez. Portanto, o número actual de genes anotados finalmente utilizada foi menor do que o relatado por a maioria dos estudos de PEG (Tabela 1).

listas Gene

As listas de genes anotados relatados por cada dos 23 estudos independentes GEP para prognóstico de CRC incluídos na análise foram combinadas a fim de identificar esses genes relatados em dois ou mais estudos. Três listas de genes diferentes foram considerados para a análise de enriquecimento posterior: todos, genes anotados únicas relatado (1475 genes) (Tabela S2); esses genes relatados em pelo menos dois estudos GEP (124 genes) (Tabela S1); e aqueles que mostraram, adicionalmente, a mesma direção na mudança a expressão do gene, seja para cima ou para baixo-regulação, em dois estudos GEP (54 genes) (Tabela S1).

Análise de Enriquecimento

enriquecimento realizadas análises utilizando as bases de dados IR (Processo Biológico e Função Molecular) e as vias KEGG. Para todas as ferramentas de enriquecimento, o conjunto de genes de entrada consistiu na lista gene 1475, a lista de 124 genes, ou a lista de 54 genes, respectivamente.

Dez ferramentas de software de enriquecimento (ver URLs) foram selecionados com base em sua disponibilidade gratuito , sua aparência freqüente em publicações recentes e sua aplicação user-friendly. As opções padrão foram aplicados em todas as ferramentas, com um limite de significância de 0,05 para o valor P ajustado, pelo menos dois genes a partir da lista de entrada na categoria enriquecido, e todo o genoma como um fundo de referência. Para REUNIR, o ln recomendado (fator de Bayes) 6 foi usado como limite de significância. O software Ingenuity faz uso de suas próprias duas bases de dados, função Top Bio e Top Canonical Pathways, que no entanto são comparáveis ​​com o GO e os bancos de dados KEGG, respectivamente, utilizados pelas outras ferramentas de enriquecimento. métodos de correção de testes estatísticos e várias chaves usadas por cada ferramenta são apresentados na Tabela S8.

categorias Consistentemente enriquecidos

Apenas o GO ou categorias KEGG relatados a ser significativamente enriquecida por várias ferramentas de enriquecimento em um gene lista foram considerados como consistentemente sobre-representados. Em uma tentativa para selecionar únicas categorias top-classificado, que levou em conta as diferenças de tamanho entre ir e KEGG categorias, bem como as diferenças no número de categorias relatadas por cada ferramenta. O número de ferramentas estabelecidos como um limiar foi, para cada lista gene e GO ou KEGG bancos de dados, relatando a um, pelo menos cinco categorias enriquecidos comuns para esse número de ferramentas (Tabela S6). Para tanto a 54 ea lista de 124 genes, o limite era de três ferramentas de enriquecimento para o Processo GO Biológica e função molecular e duas ferramentas de enriquecimento para vias KEGG. Para a lista gene 1475, o limite era de cinco ferramentas de enriquecimento para o Processo GO Biológica e função molecular e quatro ferramentas de enriquecimento para vias KEGG (Tabela S6).

Deixe uma resposta