PLOS ONE: A análise comparativa dos dados Gene-expressão de múltiplos Cancer Types

Abstract

Um estudo comparativo dos dados de expressão genética pública de sete tipos de cânceres (mama, cólon, rim, pulmão, pâncreas, cancros da próstata e estômago) foi realizado com o objectivo de genes marcadores resultantes, juntamente com vias associados, que são comuns a ambos os vários tipos de cancros ou específica para cancros individuais. Os resultados da análise indicam que (a) cada um dos sete tipos de cancro pode ser distinguido do seu correspondente tecido de controlo com base nos padrões de um pequeno número de genes, por exemplo expressão, 2, 3 ou 4; (B) os padrões de expressão de alguns genes pode distinguir vários tipos de cancro a partir de seus tecidos de controlo correspondentes, potencialmente servir como marcadores gerais para todos ou alguns dos grupos de cancros; (C) as proteínas codificadas por alguns destes genes é previsível que sejam secretora sangue, proporcionando assim potenciais marcadores de cancro no sangue; (D) o número de genes diferencialmente expressos em diferentes tipos de câncer, em comparação com os seus tecidos de controle correlacionam-se bem com as taxas de sobrevivência de cinco anos associados aos cânceres individuais; e (e) alguns processos metabólicos e de sinalização são anormalmente ativada ou desativada em todos os tipos de câncer, enquanto que outros caminhos são mais específicas para determinados tipos de cancro ou grupos de cânceres. As novas descobertas deste estudo oferecem uma visão considerável para esses sete tipos de câncer e têm o potencial para fornecer excitantes novas direções para o desenvolvimento de diagnóstico e terapêutica

Citation:. Xu K, Cui J, Olman V, Yang Q, Puett D, Xu Y (2010) Uma análise comparativa da Gene-dados de expressão de vários tipos de câncer. PLoS ONE 5 (10): e13696. doi: 10.1371 /journal.pone.0013696

editor: Vladimir Brusic, Instituto de Câncer Dana-Farber, Estados Unidos da América

Recebido: 22 de julho de 2010; Aceito: 04 de outubro de 2010; Publicação: 27 de outubro de 2010

Direitos de autor: © 2010 Xu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo foi apoiado em parte pela National Science Foundation (DBI-0354771, ITR-IIS-0407204, CCF-0621700, DBI-0542119), os Institutos Nacionais de Saúde (1R01GM075331), uma concessão “Distinguished Scholar” da Geórgia Cancer Coalition, e financiamento de sementes da Universidade da Geórgia. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o cancro é uma das principais ameaças à saúde e à vida das pessoas, representando ~13% de todas as mortes que causam doenças no mundo [1]. Em 2007, 7,6 milhões de pessoas morreram de world-wide câncer. Na U.S, mais de 1,4 milhões de novos casos de câncer foram relatados a cada ano nos últimos anos, e câncer torna-se a segunda principal causa de morte na sequência de doença cardíaca. As estatísticas dos relatórios SEER indicam que a taxa de mortalidade em todos os tipos de câncer em os EUA passou de 195,4 por 100.000 casos em 1950, continuou uma tendência ascendente até 1978 atingindo 204,4, e em seguida diminuído de forma constante para 184,0 em 2005 [2]. Esta tendência decrescente foi principalmente devido às técnicas de diagnóstico melhorados para detectar o estágio inicial de câncer. estatísticas de sobrevivência geral de câncer indicam que a detecção e tratamento precoces são a chave para a maior sobrevida em todos os tipos de câncer.

Desafios na detecção precoce do câncer surgem principalmente a partir da realidade que a maioria dos pacientes é assintomática nas fases iniciais do câncer, e apenas alguns testes eficazes de rastreio do cancro são clinicamente disponível. Embora alguns testes provaram ser eficazes na detecção de cancro no seu estádio precoce, eles são frequentemente demasiado invasiva, tais como colonoscopia, para ser utilizada rotineiramente durante exames regulares e estão actualmente limitadas a um pequeno número de tipos de cancro. Muitas vezes, um câncer já está em um estágio avançado no momento do diagnóstico; Claramente, são necessárias técnicas mais eficazes para a detecção precoce do câncer.

Uma série de marcadores genéticos têm sido propostos para vários tipos de câncer, como o BRCA1 e BRCA2 para câncer de mama e CDH1 para o câncer gástrico. Além disso, um número de marcadores séricos promissores para o cancro ter sido usado clinicamente. Entre eles, o PSA (antigénio específico da próstata) é o mais bem conhecido e tem sido amplamente utilizado para o diagnóstico de cancro da próstata através de análises ao sangue [3]. No entanto, a sua eficácia de detecção está longe de ser adequada, considerado como tendo uma taxa de falsos positivos que é demasiado elevado para ser um indicador fiável-cancro [4]. Observações semelhantes foram feitas sobre outros marcadores sorológicos tais como CA125 para câncer de ovário [5].

Aqui, apresentamos um estudo computacional na previsão de ambos os marcadores genéticos e soro para sete tipos de câncer, baseado em gene- microarray pública dados de expressão e um programa de computador para a previsão de proteínas pelo sangue secretora [6]. Em comparação com estudos anteriores sobre a identificação marcador de câncer, incluindo meta-análises sobre multi-tipos de cânceres [7], o presente estudo tem as seguintes características únicas: (i) um foco na identificação de marcadores multi-gene através da análise exaustiva de todos os possíveis combinações de genes, aproveitando ao máximo o poder de alto nível de computação disponíveis, ao invés de usar abordagens heurísticas que podem não necessariamente encontrar os marcadores ideais; (Ii) uma tentativa para encontrar marcadores para grupos de cancros em adição àqueles para os cancros individuais; (Iii) uma tentativa de vincular as informações derivadas de dados transcriptomic de tecidos a previsão marcador no soro utilizando o romance programa de previsão [6]; e (iv) a identificação de vias que são anormalmente regulamentados, quer comuns em vários tipos de câncer ou específicas a tipos de câncer individuais. Acreditamos que estes dados novos vai ser altamente valiosa para elucidar as alterações genéticas em vários tipos de câncer, bem como oferecer potenciais indicações para novas abordagens no diagnóstico e terapêutica.

Materiais e Métodos

1. Microarray de dados de expressão de genes de cânceres humanos

dados de expressão gênica por microarrays foram baixadas por sete tipos de câncer, ou seja, mama, cólon, rim, pulmão, pâncreas, próstata e câncer de estômago do banco de dados GEO de NCBI [8]. Para garantir que os nossos resultados de previsão podem ser generalizados para diferentes conjuntos de dados, dois conjuntos de testes independentes foram utilizados para avaliar a robustez dos marcadores genéticos previstos obtidos a partir do conjunto de treinamento. Informações detalhadas dos dados é apresentado na Tabela S1. No presente estudo, nós escolhemos maiores conjuntos de dados de microarray disponíveis a partir de cada um dos sete tipos de cancro, em que cada conjunto de dados inclui os (normalizados) níveis de cada gene de expressão de genes em ambos e controlo do cancro tecidos de cada paciente, juntamente com a informação de fase para a maioria das amostras de câncer (alguns dados não tem essa informação). Note-se que todos os conjuntos de dados de microarray utilizados são normalizados utilizando RMA, o que tem sido relatado para ser mais precisamente reflectora de alterações biológicas, em comparação com outros métodos, como MAS5 (Affymetrix). As distribuições da dobra-changes (FC) de genes individuais em todos os genes entre o câncer e os tecidos de controle correspondentes para os sete tipos de cânceres foram verificados e considerados altamente semelhantes. Figura S1 mostra uma tal comparação das distribuições FC entre o cancro da mama e cancro do pulmão; portanto, acreditamos que as comparações de dobra-mudanças em diferentes conjuntos de dados de câncer em nosso estudo são significativos.

2. Identificação de genes diferencialmente expressos

Para conjuntos de dados com amostras de câncer e de controlo desemparelhados dos mesmos pacientes, foi aplicado o teste de Mann-Whitney para identificar genes que são diferencialmente expressos em câncer de

contra

amostras de controlo. Para os conjuntos de dados com informações emparelhados do teste é o seguinte: Tendo em conta a hipótese de que um gene particular não é expresso diferencialmente no cancro

relação

o grupo de controlo, a rejeição da hipótese de este significa que o gene é expresso diferencialmente no cancro . Let E, se os níveis de expressão do gene no controle e câncer de tecidos de

i

paciente -ésimo,

i = 1 … m

, e

m

ser o número de pacientes . É óbvio que, se a hipótese for verdadeira, então a probabilidade = = 0,5, assumindo que a expressão do gene é uma variável aleatória contínua. Vamos

K

ser o número de pacientes com, então a variável aleatória

K /m

segue aproximadamente uma distribuição normal (de acordo com o Teorema do Limite Central ou de Moivre-Laplace Teorema) com a sua média = 0,5 e uma variação padrão =, ou segue uma distribuição normal

N

(0,1). Assim, o

p

-valor pode ser estimado como

P

(

X Restaurant ), onde é o número de pacientes satisfazendo. Em geral, considera-se um gene a ser diferencialmente expressos se a significância estatística,

p

-valor, é inferior a 0,05 e sua fold-change é de pelo menos 2.

3. Previsão de proteínas do sangue secretada

Todos os genes previstos para ser diferencialmente expressos entre o cancro e as amostras de controlo correspondentes foram analisados ​​para se prever as suas proteínas são secretora de sangue, usando um programa que o nosso grupo desenvolveu recentemente [6]. A ideia básica do algoritmo é a formação de uma máquina de vetor de suporte (SVM) classificador baseado fazer a distinção entre as proteínas e as proteínas de sangue secretora que não são segregadas, utilizando várias características baseada na sequência de sinal, tais como péptidos, domínios transmembranares, locais de glicosilação e as medidas de polaridade. Em um grande conjunto de testes independente contendo 105 proteínas secretoras e 7.258 proteínas não-secretores de seres humanos, o classificador alcançado ~94% de sensibilidade previsão e ~98% de especificidade previsão.

4. Predição de genes marcadores para cada tipo de câncer

Para cada

k

gene-combinação de genes diferencialmente expressos definidos na seção acima, um classificador baseado em SVM foi treinado para alcançar o mais alto possível a precisão da classificação aswhere definido

TP Comprar e

NP Quais são os números de verdadeiros positivos e negativos, respectivamente, e

N

é o número total de amostras. A função do kernel linear foi utilizado para a formação através LIBSVM [9]. Para cada tipo de câncer, todos os marcadores foram classificados de acordo com a 5 vezes o desempenho de validação cruzada no conjunto de dados de treinamento. A fim de encontrar marcadores que estão bem generalizadas para outros conjuntos de dados, testamos os marcadores genéticos preditos em dois conjuntos de dados de testes independentes.

5. Previsão de marcadores para vários tipos de câncer

Para identificar

k

discriminadores -Gene para vários tipos de câncer, todos os genes que consistentemente apresentam expressões diferenciais em pelo menos dois tipos de câncer foram considerados. Para cada

k

gene-combinação entre esses genes, foi calculada a sua precisão de classificação entre cada tipo de câncer e os tecidos de controle correspondentes. Em seguida, o

k

foram determinadas combinações -Gene expositoras poder discernir entre vários tipos de câncer. Os principais discriminadores para tipos de multi-cancerosas foram selecionados por meio de um corte fixo em precisões de classificação. Durante todo o restante deste artigo,

k

grupos -Gene referem-se a combinações de

k

-genes para k = 1, 2, 3, 4, salvo indicação contrária.

6. Análise de Enriquecimento de Caminho de genes diferencialmente expressos

Análise funcional e Análise de Enriquecimento de percurso foram conduzidos utilizando DAVID [10], em que a informação via é baseada na anotação de KEGG, BBID e BioCarta. A

p

-valor 0,05 foi utilizado para garantir o nível de significância de uma via enriquecido

Resultados

Este estudo é focado em sete dos tipos de câncer mais prevalentes no. o mundo, que também têm grandes conjuntos de dados de microarray de expressão genética disponíveis no domínio público, recolhidos a uma escala genoma a partir de tecidos de cada tipo de cancro, bem como de seu tecidos não cancerosos de controle correspondente. Ao trabalhar em vários tipos de câncer, simultaneamente, podemos derivar potenciais marcadores quer específicas para os tipos de câncer individuais ou gerais a todos ou grupos de tipos de câncer, bem como para identificar as vias anormalmente ativada ou desativada.

1. genes marcadores previstos para tipos de câncer individuais

Temos procurado genes individuais e combinações de genes cujos padrões de expressão pode melhor distinguir entre câncer e tecidos de controlo associados para cada tipos de câncer. Especificamente, todas as combinações 1-, 2-, 3- e 4-gene codificados no genoma humano foram classificados em termos da sua potência exigentes em distinguir as amostras de cancro a partir das amostras de controlo correspondentes para cada tipo de cancro. Além disso, temos também classificou

k

combinações -Gene, com base no seu poder de distinção entre as amostras cancerosas precoces e amostras de controlo se estão disponíveis e suficientemente grande de dados relevantes.

A. O câncer de mama.

A análise foi feita em um conjunto de dados gene-expressão que consiste de 43 cancro da mama e adjacentes tecidos de controlo correspondentes dos mesmos pacientes [11]. Das 43 amostras, 32 foram cânceres em estágio inicial (estágios I e II). 294 genes foram encontrados para ser consistente e anormalmente expresso com, pelo menos, uma alteração de 2 vezes na sua expressão em todo o cancro e os tecidos de controlo, 81 dos quais foram supra-regulados e 213 foram regulados negativamente nos tecidos de cancro. Entre os genes diferencialmente expressos, 69 das suas proteínas codificadas são previstos para ser secretora sangue pelo nosso programa de previsão [6], e poderia, assim, servir marcadores biológicos como potenciais (Suplementar S1 informações do arquivo).

análise de classificação foi, então, realizado (ver Materiais e Métodos), com o objetivo de identificar

k

combinações -Gene cujos padrões de expressão pode distinguir com precisão entre o câncer e as amostras de controlo. Figura 1 (A) e (D) mostram as precisões de classificação dos 100 melhores

k

combinações -Gene sobre todo o conjunto de treinamento e sobre o conjunto de treinamento contendo apenas as amostras da fase inicial, respectivamente. Dois conjuntos independentes de avaliação são usados ​​para avaliar a generalidade dos marcadores de genes identificados, que consistem de 31 e 68 com cancro da mama, e 27 e 61 amostras de controlo [12], respectivamente. A Figura 1 (B) e (C) mostram o desempenho de classificação por os classificadores formados sobre os dois conjuntos de avaliação. A lista detalhada destes 100

k

combinações -Gene é dada em Suppplementary Informação S1

Para cada painel, o eixo-x é a lista de 100

k

. – marcadores de genes ordenados por seu desempenho de classificação sobre os conjuntos de dados de treinamento, eo eixo y representa a precisão da classificação. (A) a exatidão da classificação por parte do top 100

k

combinações -Gene entre câncer de mama e amostras de referência no conjunto de treino, e (B) e (C) sobre os dois conjuntos de teste; (D) a exatidão da classificação de top 100

k

combinações -Gene entre precoce do câncer de mama e amostras de referência correspondentes no conjunto de treino e (E) no conjunto de teste.

Como mostrado na Figura 1, a maioria dos top

k

combinações -Gene, particularmente para

k Art 1, um bom desempenho em ambos os conjuntos de testes independentes com precisão global melhor do que 85% da formação e embora a sua classificação ordens sobre os dois conjuntos de dados pode não ser bem preservada. As flutuações nos seus precisões de classificação são acreditados para ser devido ao pequeno tamanho dos dados de formação. Observações semelhantes foram feitas em todos os marcadores de topo previstos nos sete tipos de câncer.

Os três melhores discriminadores de um único gene são PCOLCE2, ANGPTL4 e LEP, tendo 88,4%, 88,4% e precisão da classificação de 87,2% em relação ao conjunto de treinamento e 94,8% e 84,1%, 84,5% e 79. 5% e 96,6% e 96,1% nos dois conjuntos de teste, respectivamente. Os três maiores de 2, 3 e 4 do gene combinações são {TACSTD2 + CHRDL1, TACSTD2 + CAV1, PPARG + TMEM97}, {RRM2 + COL1A1 + PPARG, RRM2 + COL1A1 + PCOLCE2, RRM2 + GPR109B + SPINT2} e { RRM2 + COL1A1 + GPR109B + SPINT2, RRM2 + GPR109B + INHBA + SPINT2, TACSTD2 + IGFBP6 + IGF1 + TF}, respectivamente. Da mesma forma, para o câncer de mama precoce, a melhor de três

k

discriminadores -Gene são {GPR109B, PCOLCE2, PCSK5}, {PCSK5 + COL10A1, FERMT2 + SPINT2, MAOA + IGJ}, {COL1A1 + PCSK5 + TF, GPx3 + COL1A1 + SPINT2, GPx3 + FAP + TMEM97} e {RRM2 + COL1A1 + GPR109B + IGJ, RRM2 + COL1A1 + GPR109B + IGJ, RRM2 + COL1A1 + GPR109B + SPINT2}, respectivamente.

Embora o três melhores discriminadores representam novas descobertas, notamos alguns genes de classificação mais baixa têm sido considerados como possíveis marcadores de cancro da mama por estudos anteriores. Por exemplo, ADIPOQ (adiponectina) é encontrado para ser estreitamente associado a um risco do cancro da mama [13]. O SPINT2, um inibidor do ativador do HGF, foi relatado para ter maiores níveis de expressão no câncer de mama em estágio inicial e associada a um prognóstico pobre [14], de acordo com os nossos achados. Alguns outros estão envolvidos nas atividades de células cancerosas em geral. Por exemplo, CAV1, sub-regulada nas amostras cancerosas, foi encontrada para inibir o crescimento e metástase [15] do cancro da mama; a regulação da PPARG está associada a recorrência local e metástases no cancro da mama [16]; e ANGPTL4 pode actuar como um regulador da angiogénese [17]. Para o melhor nosso conhecimento, todos os 2, 3 e 4 do gene discriminadores representam novas descobertas.

Análises semelhantes foram realizadas em seis outros tipos de câncer. As principais conclusões sobre cada um destes seis tipos de câncer são destacadas a seguir, com o resumo dado na Tabela S2 e nomes de genes listados na Suplementar S1 informações do arquivo. Além disso, Supplementary Information Arquivo S2 mostram as precisões de classificação pelos melhores 100

k

discriminadores -Gene tanto no treinamento e os conjuntos de testes para cada tipo de câncer, respectivamente.

B. O cancro do cólon.

A nossa análise foi feita em um conjunto de dados microarray consistindo de 53 cancro do cólon e 28 tecidos de controle de câncer ao lado dos mesmos pacientes (algumas das amostras de câncer não têm amostras de referência) [18]. 247 genes foram encontrados para ser consistente e anormalmente expresso com, pelo menos, uma alteração de 2 vezes na sua expressão em todo o cancro e os tecidos de controlo nos nossos dados de treino, 56 dos quais são supra-regulados e 191 são regulados negativamente em tecidos de cancro do cólon . Dois conjuntos de testes independentes, que consistem em 24 e 22 do cancro do cólon e 24 e 20 amostras de controlo cancerosas adjacentes dos mesmos pacientes [19], respectivamente, foram utilizados para avaliar a generalidade dos marcadores preditos.

Encontrámos os três melhores discriminadores de um único gene para o câncer de cólon são MMP7, DPT e MMP1 tendo 97,5%, 96,3% e 95,1 precisão da classificação% sobre o conjunto de treinamento, e 97,9% e 90,9%, 97,9% e 74,6%, e 91,7% e 84,1 % sobre os dois conjuntos de testes, respectivamente. As três principais discriminadores de 2 genes são SLIT3 + MMP7, MATN2 + MMP7 e MMP7 + COX-1. Alguns dos nossos melhores discriminadores ter sido previamente estudada no contexto do câncer colorretal. Por exemplo, MMP1 é um factor de promoção da invasão, e a sua sobre-regulação, como observado nos nossos dados, está associada com a capacidade de invasão do cancro [20]. MMP7 é conhecida por desempenhar um papel importante no crescimento do câncer, e cabe-regulação pode constituir um mecanismo-chave para a fuga células cancerosas ‘do vigilância imune [21].

C. O cancro do rim.

A análise foi realizada em um conjunto de dados microarray gene-expressão constituída por 49 cancro do rim e 23 amostras de tecido de controlo do cancro adjacentes dos mesmos pacientes [22]. 231 genes foram encontrados para ser consistente e anormalmente expressa com, pelo menos, uma mudança de 2 vezes na sua expressão através dos tecidos e controlo do cancro na nossa dados de treinamento, 129 dos quais são up-regulada e 102 são regulados negativamente em câncer. Dois conjuntos de avaliação independentes, que consistem de 35 e 36 amostras de cancro do rim e 12 e 9 amostras de controlo cancerosas adjacentes dos mesmos pacientes, respectivamente, foram utilizados para avaliar a generalidade dos marcadores preditos [23], [24]. Os três melhores discriminadores de um único gene são encontrados para ser UMOD, ACPP e CCL18 para o câncer renal, tendo a mesma precisão da classificação, 98,6% no conjunto de treinamento e 100% e 94,4%, 95,7% e 86,11% e 89,4% e 68,1% em os dois conjuntos de testes, respectivamente. As três principais combinações de 2 genes são EGF + ALB, ACPP + UMOD e UMOD + ALB. Entre os melhores discriminadores, UMOD foi relatado para ser relacionado com a doença de rim [25]. SERPINA5, regulada no câncer, regula o potencial invasivo de crescimento do câncer renal e invasão. Outros discriminadores superiores representam novas descobertas. Por exemplo, a AFM não foi reportado para ser relacionada com o cancro, e não C6orf155 não têm uma função caracterizado.

D. O câncer de pulmão.

A análise foi feita em um conjunto de dados microarray que consiste em tecido de cancro do pulmão 58 e 49 amostras de tecido de controlo do cancro adjacentes dos mesmos pacientes [26]. 683 genes foram encontrados para ser consistente e anormalmente expressa com, pelo menos, uma mudança de 2 vezes na sua expressão através dos tecidos e controlo do cancro na nossa dados de treinamento, 255 dos quais são up-regulada e 428 são regulados negativamente em tecidos de câncer de pulmão. Dois conjuntos independentes, que consistem em 27 e 20 do cancro do pulmão e 27 e 19 amostras de controlo cancerosas adjacentes dos mesmos pacientes [27], foi utilizado para avaliar a generalidade dos marcadores preditos.

O melhor gene único três discriminadores são CAV1, SFTPC e VWF para câncer de pulmão, tendo a mesma precisão da classificação, 99,1% no conjunto de treinamento e 98,2% e 100%, 96,3% e 82,5%, e 88,9% e 100% sobre os dois conjuntos de teste, respectivamente. As três principais combinações de 2 genes são FERMT2 + GREM1, TEK + NFASC, CAV1 + MMP1. Entre os melhores discriminadores, CAV1 foi encontrado para ser sub-regulada no cancro da mama [28], e tem sido relatada a ser associado com a metástase do cancro do pulmão [29]. SFTPC foi relatado para ser associado com doença intersticial pulmonar [30]. FAM107A, o que suprime o crescimento de células, pode desempenhar um papel no desenvolvimento do cancro [31]. Outros discriminadores superiores representam novas observações. Para exemplos, TNXB, SPP1 e EMCN não foram previamente relatada como relacionada ao câncer.

E. O câncer de pâncreas.

A análise foi feita em um conjunto de dados microarray que consiste em 39 emparelhado câncer de pâncreas e amostras de tecido de controlo do cancro adjacentes dos mesmos pacientes [32]. 885 genes foram encontrados para ser consistente e anormalmente expressa com, pelo menos, uma mudança de 2 vezes na sua expressão através dos tecidos de câncer e de controlo nos dados de treinamento, 616 dos quais são up-regulamentados e 269 são regulados negativamente em câncer pancreático. Dois conjuntos independentes, que consistem de 36 e 29 amostras de cancro do pâncreas e 16 e as amostras de controlo 5-cancerosas adjacentes, do mesmos pacientes [33], foi utilizado para avaliar a generalidade dos marcadores preditos.

O melhor três única discriminadores -Gene são KRT17, COL10A1 e CTHRC1 para câncer de pâncreas, tendo a mesma precisão da classificação, 93,6% no conjunto de treinamento e 88,5% e 80,4%, 84,6% e 73,2% e 84,6% e 85,7% sobre os dois conjuntos de teste, respectivamente. Os três de 2 e 3 de genes principais discriminadores são {MMP7 + AZGP1; MMP7 + FGL1; MMP7 + PLA2G1B} e {CTHRC1 + SGPP2 + CCL18; TNFRSF21 + EGFL6 + CTHRC1; COL10A1 S100A6 + + RSAD2}, respectivamente. Entre os melhores discriminadores, KRT17 é conhecida por estar envolvida na reparação dos tecidos [34]. AZGP1 tem sido relatada a extensa causar perda de gordura, muitas vezes associada com cancros avançados [35]. Outros discriminadores superiores representam novas descobertas. Para exemplos, RSAD2, envolvidos na defesa antiviral, não tem sido relatada como estando relacionado com o cancro, bem como SGPP2, conhecido por estar envolvido na sinalização pró-inflamatória [36], e CST4.

F. O câncer de próstata.

A análise foi feita em um conjunto de dados microarray consistindo de 65 cancro da próstata e 63 amostras de tecido de controlo do cancro adjacentes dos mesmos pacientes [37]. 118 genes foram encontrados para ser consistente e anormalmente expressa com, pelo menos, uma mudança de 2 vezes na sua expressão através dos tecidos e controlo do cancro na nossa dados de treinamento, dos quais 23 são sobre-regulada e 95 são regulados negativamente em tecidos de câncer de pulmão. Dois conjuntos independentes, consistindo de 62 e 53 amostras de cancro da próstata e 47 e 14 amostras de controlo câncer ao lado dos mesmos pacientes [38], foi utilizado para avaliar a generalidade dos marcadores previstos.

O melhor três única discriminadores genes são mylk, PALLD e CAV1 para câncer de próstata, com 73,4%, 71,9% e 71,1 precisão da classificação% sobre o conjunto de treinamento e 83,5% e 62,3%, 69,6% e 72,6% e 94,2% e 75,5% sobre os dois testes define, respectivamente. Os três de 2 e 3 de genes principais discriminadores são {LTF + IGF1; LTF + SPARCL1; SMTN + CCK}, {SMTN + CCK + CCL2; SMTN + CCK + COMP; SMTN CCK + + PLA2G7}, respectivamente. Entre os melhores discriminadores, LTF é conhecido por inibir o crescimento de tumores [39]. IGF1, um factor de crescimento, desempenha um papel no desenvolvimento do cancro da próstata [40] e foi classificado como um indicador de cancro da próstata avançado [41]. Outros discriminadores superiores representam novas descobertas. Por exemplo, CHRDL1 pode desempenhar um papel na regulação da angiogénese [42], mas não foi relatado estar relacionada com o cancro. O mesmo é com SMTN.

G. O câncer de estômago.

A análise foi feita em um conjunto de dados microarray consistindo de 89 câncer de estômago e 23 tecidos de controle de câncer ao lado dos mesmos pacientes [43]. Fora das amostras de tecido de câncer de 89, 31 são cânceres em estágio inicial. 311 genes foram encontrados para ser consistente e anormalmente expressa com, pelo menos, uma mudança de 2 vezes na sua expressão através dos tecidos e controlo do cancro na nossa dados de treinamento, 166 dos quais são up-regulada e 145 são regulados negativamente em tecidos de câncer de pulmão. Dois conjuntos independentes, que consistem de 38 e 16 amostras de cancro do estômago e 31 e 13 amostras de controlo cancerosas adjacentes dos mesmos pacientes [44], [45] foi usado para avaliar a generalidade dos marcadores previstos, dos quais 12 são amostras da fase inicial parcialmente emparelhado com 10 amostras de controlo.

os três melhores discriminadores de um único gene são SERPINH1, BGN e COL12A1 para câncer de estômago, com 99,1%, 98,2% e precisão da classificação de 98,2% em relação ao conjunto de treinamento e 94,2% e 96,7 %, 88,4% e 93,3%, e 84,1% e 75,8% nos dois conjuntos de teste, respectivamente. As três principais combinações de 2 genes são CHGA + SERPINH1, TGFBI + CHGA e PGC + SERPINH1, respectivamente. Para o câncer de estômago no início, os três melhores

1 | discriminadores -Gene também são SERPINH1, BGN e COL12A1, respectivamente. Entre os melhores discriminadores, BGN é conhecida por ter um papel no controle do crescimento de células no cancro [46]. A expressão anormal de CTHRC1, um regulador de deposição de matriz, tem sido amplamente encontradas em diferentes tumores sólidos e é considerado para ser associado com a invasão e metástase [34] do cancro. De particular interesse é a PGC que tem sido proposta como um indicador do cancro gástrico [47], e o nível sérico de PGC foi utilizada como um biomarcador para a lesões pré-cancerosas do estômago [48]. Outros discriminadores superiores representam novas descobertas. Por exemplo, ABCA5, ADAMTS12 e CLEC3B não foram relatados para ser relacionada com o cancro.

Curiosamente, o número de genes diferencialmente expressos em diferentes tipos de câncer tem uma ampla disseminação, variando de 118 (próstata), 231 (rim ), 247 (cólon), 294 (mama), 311 (estômago) para 683 (pulmão) e 885 (pâncreas). Uma possível explicação é que esses números podem reflectir a agressividade dos cancros correspondentes. Fizemos notar que existe uma forte correlação entre o número de genes diferencialmente expressos em um determinado tipo de câncer ea taxa de sobrevivência de cinco anos de pacientes com que o câncer [49] (Figura 2). As estatísticas detalhadas é dada na Tabela S3. Uma outra observação interessante é que, enquanto que a maioria dos genes expressos diferencialmente com pelo menos uma alteração de 2 vezes em cinco tipos de cancro (mama, cólon, pulmão, próstata, estômago) está regulada para baixo, em cancros do rim e pâncreas, a maioria de tais genes são regulados positivamente, possivelmente sugerindo características únicas destes dois tipos de câncer.

2. Marcadores para vários tipos de câncer

Temos também procurou identificar genes que poderiam ser usados ​​como indicadores para o câncer em geral ou para um grupo de cânceres. É possível encontrar “marcadores” de genes comuns entre os diferentes tipos de câncer por causa da observação de que a maioria dos cancros, se não todos, se submetem a um conjunto comum de alterações [50] durante oncogênese, como a auto-suficiência em sinais de crescimento, insensibilidade aos sinais anticrescimento, evasão de apoptose e invasão de tecidos e metástases. Alguns destes processos biológicos podem ser executadas pelos mesmos grupos de proteínas durante a formação e progressão de cancros diferentes, daí, possivelmente, dar origem a marcadores comuns para diferentes tipos de cancro.

a. Identificação de genes diferencialmente expressos em vários tipos de câncer.

Temos analisado genes diferencialmente expressos com as mudanças, pelo menos, 2 vezes entre câncer e correspondentes tecidos controlo de todos sete tipos de câncer e tentou encontrar os genes comuns ao câncer múltipla tipos. Os resultados chave estão sumariados na Tabela 1.

85 genes são encontrados para ser diferencialmente expressos entre, pelo menos, três tipos de cancro (Tabela S4), entre os quais 19 genes estão do outro lado, pelo menos, quatro tipos de cancro, e cinco genes (ABCA8, DPT, FHL, CDC2 e TOP2A) em cinco tipos de câncer. As diferenças na expressão de genes em diferentes tipos de cancro podem indicar tanto uma relevância geral ou específico do gene aos cancros correspondente, o qual foi parcialmente confirmada pela análise funcional e uma extensa pesquisa na literatura. A função molecular detalhada destes genes está resumida na Tabela S4. 63 dos 85 genes foram relatados para ser cancro associado por estudos anteriores. Por exemplo, CDC2, sobre-regulada em cinco dos sete cancros estudados, foi relatado como estando relacionado a cólon, próstata e cancro do estômago, o que não é surpreendente tendo em vista o seu papel na regulação do ciclo celular, v.g. entrada de G

1 a S; TOP2A, novamente sobre-regulada em cinco dos sete cancros, tem sido relatado para ser associado com gástrica [51], da mama [52] e do ovário [53], consistente com a sua função na regulação da cadeia de ADN; Ambos estes dois genes têm sido considerados como marcadores de cancro multi-tipo por uma meta-análise de dados anterior microarray cancro [7]. RRM2, supra-regulados em quatro dos sete cancros, tem sido sugerido para ser relacionada com esofágica e cancros gástricos e do cancro da próstata, consistente com o seu papel essencial na síntese de DNA, que deve ser mantido em células que se dividem rapidamente. Além disso, 49 genes foram relatados para ser relevante para as doenças imunitárias, tais como CXCL12, COL1A1, MMP9 e CD36 [54], [55], [56], [57], provavelmente reflectindo uma resposta de tipo inflamatório associado frequentemente com câncer. Entre eles, MMP9, importante na degradação da matriz extracelular, é sobre-regulada em três dos sete cancros, e CD36, que pode funcionar na adesão celular, é regulada negativamente em três dos sete cancros;

Deixe uma resposta