PLOS ONE: identificação de genes Colorectal Cancer relacionados com mrmr e Shortest Path em proteína-proteína interação da rede

Sumário

Um dos problemas mais importantes e difíceis em biomedicina e da genómica é a forma de identificar os genes de doenças. Neste estudo, foi desenvolvido um método computacional para identificar genes relacionados com o cancro colorectal com base em (i) os perfis de expressão gênica, e (ii) a análise do caminho mais curto de redes de associação de proteínas funcionais. A primeira tem sido utilizada para seleccionar os genes expressos diferencialmente como genes de doenças por muito tempo, enquanto o último tem sido amplamente utilizado para estudar o mecanismo de doenças. Com os dados de interação proteína-proteína existentes de STRING (Search Ferramenta para Recuperação de genes que interagem), uma rede de associação proteína funcional ponderado foi construído. Por meio da abordagem mrmr (máxima Relevância um mínimo de redundância), seis genes foram identificados que podem distinguir os tumores colo-rectal e do cólon tecidos adjacentes normais dos seus perfis de expressão de gene. Enquanto isso, de acordo com a abordagem do caminho mais curto, encontramos ainda um adicional de 35 genes, dos quais alguns foram relatados para ser relevante para o cancro colorectal e alguns são muito provável que seja relevante para ele. Curiosamente, os genes que identificamos de ambos os perfis de expressão gênica e da rede de associação proteína funcional tem mais genes do cancro do que os genes identificados a partir dos perfis de expressão gênica sozinho. Além disso, estes genes também teve uma maior similaridade funcional com os genes do cancro colorrectal do que os relatados genes identificados a partir dos perfis de expressão do gene isolado. Todos estes indicam que o nosso método, tal como apresentado neste trabalho é bastante promissor. O método pode tornar-se uma ferramenta útil, ou, pelo menos, desempenha um papel complementar com o método existente, para a identificação de genes de cancro colorrectal. Não escapou à nossa atenção que o método pode ser aplicado para identificar os genes de outras doenças também

Citation:. Li BQ, Huang T, Liu L, Cai YD, Chou KC (2012) Identificação de Colorectal relacionadas com o cancro Genes com mrmr e Shortest Path em proteína-proteína interação da rede. PLoS ONE 7 (4): e33393. doi: 10.1371 /journal.pone.0033393

editor: Paulo Lee Ho, Instituto Butantan, Brasil

Recebido: 13 Setembro, 2011; Aceito: 13 de fevereiro de 2012; Publicação: 04 de abril de 2012

Direitos de autor: © 2012 Li et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada por doações do Programa Nacional de Pesquisa básica da China (2011CB510102, 2011CB510101, 2011CB910200 e 2010CB912702), a Fundação de Ciência Natural da China (90.913.009), a Academia chinesa de Ciências (KSCX2-EW-R-04), uma alta Nacional Programa de tecnologia Grant 2012AA022802 e do Programa de Inovação de Shanghai Comissão Municipal de Educação (12ZZ087). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o câncer colorretal (CRC) é uma das neoplasias mais comuns nos países ocidentais e a principal causa de morte relacionada ao câncer. A detecção precoce do CRC poderia reduzir a morbidade e melhorar o prognóstico. Portanto, é de grande importância para identificar genes relacionados com o cancro que podem ser utilizados como biomarcadores para o diagnóstico precoce.

recentemente, com o desenvolvimento das biotecnologias de alto rendimento, foi gerada uma grande quantidade de dados biológicos, tais como sistemas de levedura de dois híbridos, complexo de proteína e perfis de expressão de gene, etc. Estes dados são úteis para deduzir recursos e compreender funções de genes [1], [2], [3], [4], [5], [6 ], [7], [8]. Até agora, os dados de interacção proteína-proteína (PPI) tem sido amplamente utilizado para a previsão da função dos genes com o pressuposto de que as proteínas que interagem compartilham a mesma ou têm funções semelhantes e, consequentemente, podem estar envolvidos na mesma via. Este “culpado por associação” regra foi proposta pela primeira vez pelo Nabieva et al. [9] e também pode ser usado para identificar genes relacionados com o cancro.

string é um recurso de banco de dados on-line que é uma abreviatura de Pesquisa Ferramenta para Recuperação de genes que interagem [10]. Ele fornece informações tanto experimental, bem como previsto interação com uma pontuação de confiança. Algoritmos baseados na PPI sugerem que as proteínas com curtas distâncias entre si em rede são mais propensos a partilhar as funções biológicas comuns [11], [12], [13], [14], e que os vizinhos interactivos são mais propensos a ter função idêntica biológica do que os não-interactivos [15], [16]. Isto é porque a proteína consulta e suas proteínas interactivas podem formar um complexo de proteína para desempenhar uma função específica ou envolvido numa mesma via.

Embora a aplicação bem sucedida dos dados de alta capacidade para perdição a função do gene e de identificação novos genes associados com cancros, os erros nos dados de alto rendimento ainda não foram bem resolvido ainda. Neste trabalho, propusemos um novo método para a identificação de genes relacionados CRC através da integração de perfil de expressão gênica e uma rede de associação proteína funcional ponderado calculado com dados de PPI de STRING. Este método pode tornar-se o defeito de apenas usando dados de alto rendimento. Enquanto isso, o algoritmo mrmr (a máxima relevância redundância mínimo) [17] foi utilizado para identificar seis genes candidatos promissores que distinguem tumor e as amostras colorretais normais. O algoritmo de Dijkstra [18] foi usado para construir os caminhos mais curtos entre cada par dos seis genes. Além disso, também foram identificados 35 genes adicionais sobre estes caminhos mais curtos e analisados. Para tal gene assim identificado, observou-se que continha mais genes de cancro do que os genes identificados a partir dos perfis de expressão do gene isolado. Além disso, os 41 genes também teve uma maior similaridade funcional com os genes CRC relatados que os genes identificados a partir de perfis de expressão do gene isolado. Prevê-se que alguns dos 41 genes assim identificados podem pertencer a genes relacionados CRC novos.

Materiais e Métodos

Dataset

Foram utilizados os dados de expressão gênica do colorectal estudo de câncer de Hinoue et al. [19]. O perfil dos 26 tumores colorretais e amostras de tecidos combinados histologicamente normais adjacentes do cólon expressão gênica foram recuperados de Gene Expression Omnibus NCBI (GEO) com o número de acesso de GSE25070. O perfil de expressão do gene foi obtido usando o genoma inteiro BeadChip expressão Ref Ilumina-8 24526 com sondas correspondentes a 18491 genes. A intensidade de sinal foi log2 transformado e depois normalizada com RSN método (robusta Spline Normalização).

amostra de tecido representação

Com base no exposto, a representação de uma amostra de tecido pode ser formulada como uma 24526- D (dimensional vector), como dado por (1) em que representa a amostra de tecido, o valor da mesma sonda, e a matriz de transposição (cf. Eq.6 de [20]).

lista do gene relacionada ao câncer e duas listas de genes relacionados com o cancro colorectal

Nós compilou três listas de genes de bases de dados públicas e trabalhos publicados para comparar com os 41 genes candidatos foram identificados. Estas três listas genes incluiu uma lista de gene do cancro relacionados e duas listas de genes relacionados com o cancro colorectal.

742 genes relacionados ao câncer foram obtidos a partir de três fontes. Primeiro, obtivemos 457 genes relacionados com o cancro do Gene Census Câncer do Centro Sanger. Em segundo lugar, recuperado genes relacionados com o cancro do Atlas de Genética e Citogenética em Oncologia [21]. A terceira parte foi recolhida a partir do banco de dados Human Protein Referência [22]. Consulte Informações de Apoio S1.

A primeira lista gene do cancro colorectal relacionado foi recuperado a partir do estudo de Sabates-Bellver e colegas de trabalho [23]. Eles compararam os transcriptomes de 32 adenomas com mucosa normal dos mesmos indivíduos e identificou 438 genes com expressão marcadamente alterada em adenomas colorretais em comparação com a mucosa normal com matriz Affymetrix U133 Além disso 2.0. Consulte Informações de Apoio S1.

A segunda lista colorectal cancer gene relacionado foi recuperado formam um recente trabalho de Nagaraj et al. [24]. Eles propuseram a sistemas baseados abordagem biologia booleana com o algoritmo de culpa por associação para identificar novos genes associados ao câncer. Nós compilou todos os 134 novos genes relacionados CRC identificados neste estudo. Consulte Informações de Apoio S1.

dados de PPI de STRING

A rede PPI ponderada inicial foi recuperado de STRING (versão 9.0) [10] (https://string.embl.de/), que é um grande banco de dados de proteínas interacções conhecidas e previsíveis. As proteínas presentes na rede de interacção foram representados com nós, enquanto que a interacção entre quaisquer duas proteínas aí foi representado com uma aresta. Essas interações contêm interações diretas (físicas) e indiretos (funcionais), derivados de inúmeras fontes, como repositórios experimentais, métodos de previsão computacionais. Na rede, cada aresta é marcado com uma pontuação para quantificar a confiança de interação, ou seja, a probabilidade de que pode ocorrer uma interação.

O mrmr (a máxima relevância mínima redundância) Método

Para encontrar os genes que podem distinguir tumores colo-rectais e os tecidos adjacentes normais, foi utilizado o método mrmr, que foi originalmente desenvolvido por Peng et ai. [17] para analisar os dados de microarranjos. O método mrmr poderia classificar genes de acordo com a sua relevância para a classe de amostras em causa, e, entretanto, poderia também assumir a redundância dos genes em conta. Esses genes, que têm o melhor trade-off entre a relevância máxima para a classe de amostra e a redundância mínimo, foram considerados como “bons” biomarcadores.

Tanto a relevância e redundância foram quantificados pelo seguinte informação mútua ( MI) 🙁 2) onde e são vetores, é a sua densidade probabilística conjunta e e são as densidades de probabilidade marginais.

Para quantificar a relevância e redundância, vamos definir como o conjunto de genes, como o já selecionado conjunto de genes contendo genes e como o para-ser-selecionados conjunto de genes contendo genes. A relevância entre o gene e o alvo pode ser calculada por: (3) A redundância entre o gene e todos os genes no pode ser calculado pela fórmula: (4) A fim de obter o gene com a relevância máximo e um mínimo de redundância , vamos combinar Eq.3 Eq.4 e, como pode ser formulado da seguinte forma: (5) Dado um conjunto de genes com genes, a operação mrmr para a avaliação genética continuará rodadas. Após essas avaliações, o método mrmr irá gerar um gene definido como formulada por (6), onde o índice indica que ronda o gene é selecionado. Quanto menor o índice, quanto mais cedo o gene satisfeito Eq.5 e melhor o gene é.

motor de Previsão

Neste estudo, o vizinho mais próximo Algorithm (NNA) [25], [26], que tem sido amplamente utilizada em bioinformática e biologia computacional [3], [27], [28], [29], [30], [31], [32], [33], [34], foi adoptado para prever a classe de amostras de tecidos colo-rectais. A “proximidade” foi calculado de acordo com a seguinte equação (7) onde e são dois vetores representando duas amostras de tecido, é o seu produto escalar, e que são as moduluses. Quanto menor o, os mais similares as duas amostras são [35]. Para uma ilustração intuitiva de como NNA funciona, consulte Fig.5 de [20].

Validação de desempenho

Os três seguintes métodos de validação cruzada são frequentemente utilizados em estatísticas para validar um método de previsão estatística : teste independente conjunto de dados, teste subsampling e teste de canivete [36]. No entanto, entre os três métodos de validação, o teste de canivete é o menos arbitrária devido aos seguintes factos. (I) Para o teste de conjunto de dados independente, embora todas as amostras usadas para testar o preditor estão fora do conjunto de dados de treinamento usados ​​para preparar o motor de previsão de modo a excluir o efeito de “memória” ou polarização, a maneira de como seleccionar as amostras independentes para testar o preditor poderia ser bastante arbitrária, a menos que o número de amostras independentes é suficientemente grande. Este tipo de arbitrariedade pode levar a conclusões completamente opostas. Por exemplo, a conclusão de que um preditor rendeu uma maior taxa de sucesso do que o outro preditor para um determinado conjunto de dados de teste independente pode tornar-se mesmo em frente, quando testado por um outro conjunto de dados de teste independente [36]. (Ii) Para o teste de subamostragem, o procedimento de betão normalmente usado na literatura é a 5 vezes, 7 vezes ou 10 vezes de validação cruzada. O problema com este tipo de teste de sub-amostragem é que o número de selecções possíveis no dividindo um conjunto de dados de referência é extremamente grande, mesmo para um conjunto de dados muito simples e pequena, tal como elucidado em [37] e demonstrado por Eqs.28-30 em [20] . Portanto, em todos os testes de validação cruzada subamostragem real, apenas uma pequena fracção das selecções possíveis são tidos em conta. Desde diferentes seleções sempre resultará em resultados diferentes, mesmo para um mesmo conjunto de dados de referência e uma mesma preditor, o teste subsampling não pode evitar a arbitrariedade quer. Um método de ensaio incapaz de produzir um resultado único não pode ser considerado como um bom. (Iii) No teste de canivete, todas as amostras no conjunto de dados de referência será escolhido um por um e testado pelo preditor treinados pelas amostras restantes. Durante o processo de Jackknifing, tanto o conjunto de dados de treino e de teste de conjunto de dados são realmente aberto, e cada amostra será, por sua vez movidos entre os dois. O teste de canivete pode excluir o efeito “memória”. Além disso, o problema arbitrariedade como mencionado acima para o ensaio de teste de conjunto de dados e subamostragem independente pode ser evitada, porque o resultado obtido pelo teste de canivete é sempre únicas para um determinado conjunto de dados de referência. Por conseguinte, o teste de canivete tem sido amplamente e cada vez mais utilizadas para inspeccionar a qualidade de vários preditores (ver, por exemplo, [30], [31], [32], [38], [39], [40], [41] , [42], [43], [44], [45], [46]). . Por conseguinte, no presente estudo o teste de canivete também foi utilizado para examinar a qualidade do método de predição corrente

A precisão da previsão foi formulado por (8), onde TP representa o verdadeiro positivo; TN, o verdadeiro negativo; FP, o falso positivo; e FN, o falso negativo.

seleção de recursos Incremental (IFS)

Com base nos genes classificados de acordo com sua importância após avaliação mrmr, foi utilizada a Seleção de Recursos Incremental (IFS) (ver, por exemplo, [1], [47]), para determinar o número óptimo de genes como biomarcadores. Durante o procedimento de IFS, genes no conjunto de genes classificados são adicionados um a um, maior a classificação mais baixa. Um novo conjunto de genes é composta quando um gene é adicionado. Assim conjuntos de genes seria composto quando administrado genes classificados. O conjunto de genes é (9) Para cada um dos conjuntos de genes N, um preditor NNA foi construído e analisado utilizando o teste de canivete ao conjunto de dados de referência. Ao fazer isso, obtivemos uma tabela IFS com uma coluna para o índice

i

e outra coluna para a precisão da previsão. Assim, poderíamos obter o conjunto de genes ideal (), com o qual o preditor renderia a melhor precisão da previsão.

abordagem Graph e caminhos mais curtos de rastreamento

Os gráficos são um veículo útil para estudar complexo biológico sistemas, porque eles podem fornecer insights intuitivos e a propriedade global estrutura, como demonstrado por vários estudos sobre uma série de temas biológicos importantes (ver, por exemplo, [48], [49], [50], [51], [52], [53], [54], [55], [56], [57], [58]). Neste estudo, foram primeiro construído um gráfico G (V, E) com os dados de PPI de STRING. No gráfico, uma borda foi atribuído a cada par de genes se eles estivessem na interacção uns com os outros. O peso de aresta e no gráfico G foi derivada a partir da confiança pontuação de acordo com a equação, onde a é o peso do gráfico G, enquanto que é a pontuação de confiança entre duas proteínas em causa. Assim, temos uma rede de associação de proteínas funcionais, com peso borda. algoritmo de Dijkstra [18] foi utilizado para encontrar o caminho mais curto de cada um dos seis genes para todas as outras cinco genes no gráfico. Então nós escolhemos todos os genes existentes nos caminhos mais curtos e classificar esses genes de acordo com a sua intermediação.

KEGG análise enriquecimento

ferramenta de anotação funcional de DAVID [59] foi usado para KEGG enriquecimento pathway análise. O valor-p enriquecimento foi corrigido para controlar a taxa de descoberta de falsas toda a família sob determinada taxa (por exemplo, ≤0.05) com o método de correção de testes múltiplos Benjamin [60]. Todos os genes no BeadChip foram selecionados como pano de fundo durante a análise enriquecimento.

Resultados

resulta mrmr

O perfil de expressão foi recuperado do GEO com o número de acesso de GSE25070, que continha 52 amostras e 24,526 sondas e foi transformado em um arquivo CSV com 52 linhas e 24526 colunas como a entrada de mrmr. Cada sonda representou uma característica e as amostras tumorais 26 pertenciam à classe 1, enquanto o paired26 amostras normais emparelhados pertenciam à classe 2. Após executar o software mrmr, obtivemos duas tabelas (ver Informações de Apoio S2), um dos quais foi chamado tabela MaxRel que classificou as sondas de acordo com a sua relevância para a classe de amostras, e a outra chamada de tabela recurso mrmr que listou as sondas com a relevância máximo e um mínimo de redundância para a classe de amostras.

Seis genes candidatos identificados pela NNA e IFS

com base nas saídas de mrmr, construímos 1000 subconjuntos de recursos de acordo com Eq.9. Tal como descrito na secção Materiais e Métodos, foi testada a preditor com uma característica, duas características, três características, etc, e o resultado IFS podem ser encontrados em Informações de Apoio S3. Mostrado na Fig. 1 é a curva traçada IFS com base nos dados de informações de apoio S3. Na curva IFS, o eixo X é o número de sondas utilizados para a classificação, e o eixo dos Y é a precisão de previsão do algoritmo vizinho mais próximo avaliada pelo teste de canivete. A precisão máxima foi de 1 ao 6 características foram incluídos. O conjunto de sonda incluída óptima 6 sondas correspondendo a 6 genes diferentes, os quais eram GUCA2B, PI16, CDH3, SPIB, BEST2, e HMGCLL1 (Tabela 1).

Na curva IFS, o eixo X é pela número de sondas utilizadas para a classificação, eo eixo Y para a precisão de previsão até o algoritmo do vizinho mais próximo (NNA) avaliados pelo canivete (Leave-One-out) teste de validação cruzada. A precisão de pico foi de 1, com seis sondas. Os 6 melhores testes na lista sonda mrmr formou o ideal conjunto de sonda discriminativo.

Mais Curtos genes caminhos

Enquanto isso, construímos um grafo não direcionado com os dados do PPI de STRING . Em seguida, nós escolhemos dois genes a partir dos seis genes identificados com o método mrmr como descrito acima, e constatou-se o caminho mais curto entre estes dois genes com o algoritmo de Dijkstra. Obtivemos um total de 15 caminhos mais curtos com menor custo (Informações de Apoio S4). Mostrado na Fig. 2 são os caminhos mais curtos 15 entre os seis genes candidatos, em que a confiança interacção foi rotulado na extremidade de cada um dos pares de genes interacção. Houve um total de 35 genes sobre os caminhos mais curtos e que estes genes classificados de acordo com sua betweenness (Tabela 2). Entre estes 35 genes, Ar tem o maior intermediação de 7, o que significa que existem 7 caminhos mais curtos passando por este gene. Por conseguinte, a RA pode desempenhar um papel importante na ligação das seis genes candidatos e, portanto, pode estar relacionada com CRC. Tal conclusão é totalmente consistente com o facto de que a proteína AR foi encontrada na mucosa colorrectal normal, assim como na maioria CRC [61], [62], o que implica que o receptor de AR é responsável para os efeitos mitogénicos da hormona tal como será posteriormente discutido mais tarde.

os 15 caminhos mais curtos entre os seis genes candidatos foram identificados com o algoritmo de Dijkstra com base nos dados do PPI de STRING. RoundRect amarelo representa os seis principais genes candidatos identificados pelo método mrmr. redonda vermelha representa os 35 genes existentes dentro do intervalo dos caminhos mais curtos. Números sobre bordas representam os pesos das arestas para quantificar a confiança interação. Quanto menor for o número, mais forte é a interacção entre dois nós é. Veja o texto na Seção de “abordagem Graph e caminhos mais curtos de rastreamento” para a relação quantitativa do peso borda com a pontuação de confiança entre duas proteínas em causa.

Para testar se a 35 mais curto genes caminho eram centros de conexões em rede de fundo ou não, corremos uma permutação para contar o tempo de ocorrência de nossos 35 genes caminho mais curto no caminhos mais curtos entre os 6 genes selecionados aleatórios quando tem maior intermediação do que em nosso estudo. Repetimos o processo 5000 vezes, e o valor de p foi calculada como a proporção do tempo de ocorrência de 35 genes em 5000 permutação. Para mais informações, por favor consulte a Tabela 2. Houve 10 genes de menor caminho cujos valores p não foram significativas. TP53 era uma estrela molecular envolvido em numerosos processos biológicos e quase relacionadas com todos os tipos de cânceres [63]. Portanto, não é nada surpreendente que TP53 apareceu muitas vezes no caminho mais curto entre 6 genes escolhidos aleatoriamente. Para EP300, foi relatado que este gene pode acetilar TP53 e associada com muitos tumores [64]. CTNNB1 e GSK3B pertencem à via de sinalização Wnt, cujo papel na caners tem sido bem documentada [65]. Para os restantes insignificantes 6 genes, suas betweennesses no nosso estudo foram todos um (Tabela 2), e, portanto, o número de ocorrências para estes genes em caminhos mais curtos aleatórios é propenso a ser maior do que um. A maioria destes 6 genes insignificantes caminho mais curto ficar para trás na Tabela 2 de acordo com suas betweennesses, sugerindo que eles podem não ser importante. Além desses 10 genes, os restantes 25 mais curtos genes caminho do nosso estudo foram identificados como sendo significativo.

gene mesa MaxRel KEGG enriquecimento

Usando a ferramenta de anotação funcional de Davi, a análise KEGG via de enriquecimento foi realizado para os genes correspondentes aos 1000 sondas listadas na MaxRel. Os resultados mostraram que o enriquecimento destes genes foram significativamente enriquecidas nas vias de metabolismo de energia, incluindo o metabolismo de ácido gordo, interconversões de pentose e glucuronato, bem como amido e metabolismo de sacarose (Tabela 3). Estes resultados sugerem que o metabolismo de nutrientes pode desempenhar papel crítico na tumorigênese de CRC.

Seis genes candidatos e caminhos mais curtos genes de KEGG enriquecimento

A análise de enriquecimento via KEGG também foi realizada sobre os 41 genes, incluindo os seis melhores genes na lista mrmr e 35 genes nos caminhos mais curtos entre esses seis genes com a ferramenta de anotação funcional de Davi. O resultado enriquecimento assim obtido apresentou que estes genes foram significativamente enriquecidas nas vias cancro canónica relacionados, tais como cancro da próstata, no cancro vias, via de sinalização Wnt, do ciclo celular, cancro colorrectal, cancro da tiróide, e assim por diante. É instrutivo notar que entre essas vias, alguns têm provado ser relevante para o cancro colo-rectal incluindo via Wnt sinalização, ciclo celular, cancro colorectal e insulina via de sinalização (Tabela 4).

sobreposição com listas de genes relacionados ao câncer relacionado lista gene e dois CRC

Nós compilou 742 genes relacionados com o cancro a partir dos seguintes três fontes diferentes: Cancer gene Censo do Centro Sanger, Atlas de Genética e citogenética em Oncologia [21], e humana proteína de referência de banco de dados [22]. Observou-se que 8 dos 41 genes identificados por nós foram provado ser genes relacionados com o cancro. Além disso, ele foi indicado pelo teste exato de Fisher que esses 41 genes foram significativamente relacionadas ao câncer (p = 0,0001908). Consulte Informações de Apoio S5.

Além disso, foram coletadas 438 genes que foram diferencialmente expressos entre adenomas colorretais e mucosa normal do estudo anterior [23]. Curiosamente, os acima mencionados 41 genes candidatos identificados por nós tivemos uma sobreposição de 4 genes com os 438 genes, ea sobreposição foi bastante significativa (p = 0,01057, teste exato de Fisher). Consulte Informações de Apoio S5.

Recentemente, a abordagem de biologia de sistemas baseados booleana foi empregada para identificar 134 genes novos relacionados CRC [24], dos quais três foram identificados por nós no presente estudo ea sobreposição foi significativa (p value = 0.002017, teste exato de Fisher). Consulte Informações de Apoio S5.

Discussão

KEGG enriquecimento de genes MaxRel

Os genes correspondentes aos 1000 sondas listados na tabela de MaxRel foram significativamente enriquecidas nas vias do metabolismo energético, incluindo o metabolismo de ácido gordo, interconversões de pentose e glucuronato, bem como amido e metabolismo da sacarose. Tem sido demonstrado que a dieta tem um efeito importante sobre o desenvolvimento de CRC. Nossa conclusão é bastante consistente com o fato de que os polimorfismos genéticos que influenciam o metabolismo de nutrientes desempenham um papel importante na etiologia da CRC e pólipos adenomatosos colorretais [62].

Várias linhas de evidências indicam a implicação ou envolvimento de gordura na etiologia da CRC [66]. O papel crucial dos ácidos gordos em numerosos processos biológicos sugere que a alteração de ácido gordo em que metabolizam os genes contribui para a carcinogénese do cólon [67]. Demonstrou-se que o metabolismo do amido e da sacarose e de pentose e glucuronateinterconversions foram intimamente relacionada com cancros. Christensen et al. [68] demonstraram que o amido e metabolismo de sacarose e pentoses e glucuronateinterconversions via foram hypomethylated em tumores mutantes isocitrato desidrogenase. Além disso, foram encontradas estas duas vias metabólicas de ser significativamente relacionada com o risco de desenvolver câncer de mama negativos para receptores estrogênicos [69].

Uma pesquisa recente CRC transcriptoma específica da doença mostrou que o amido e metabolismo de sacarose era um do 7 via comum significativa diferencialmente regulada através de duas plataformas de microarray diferentes, incluindo matriz Affymetrix HGU133 Plus2.0 ea matriz específica doença CRC. Além disso, o metabolismo de ácidos graxos foi identificado via como significativamente diferencialmente regulado utilizando doença colorretal matriz específica [70].

Seis genes candidatos identificados pelo mrmr, NNA e IFS

Neste estudo, identificamos os seis genes seguintes: GUCA2B, PI16, CDH3, SPIB, BEST2, e HMGCLL1. Abaixo, vamos discutir brevemente as suas relações com cancro colo-rectal.

GUCA2B (uroguanilina) é um ativador endógeno do receptor guanilato ciclase-2C encontrado para ser regulada negativamente de 8 vezes em adenoma, e sua expressão é detectada em sangue e na urina [71] .Portanto, GUCA2B poderia ser considerado como um biomarcador não-invasiva para a detecção precoce de CRC. Além disso, o rádio rotulada uroguanilina análogos têm sido usadas para a detecção de CRC in vivo [72].

PI16 (Peptidase inibidor 16) for detectado dentro do testículo, próstata, intestino delgado, cólon, ovário e com imuno-histoquímica analisa [73]. Diminuição do nível de PI16 foi detectado no câncer de próstata [73] e câncer gástrico [74]. A nossa sequência também mostrou que a expressão de PI16 no adenocarcinoma colorrectal foi significativa diminuiu em comparação com o tecido não tumoral colorrectal adjacente, o que foi consistente com o resultado da pesquisa no cancro da próstata e cancro gástrico. Desde PI16 não está bem caracterizada e até agora não há nenhum relatório de qualquer sobre PI16 na etiologia do câncer colorretal, o nosso resultado implicava que PI16 pode tornar-se um promissor biomarcador para o câncer colorretal diagnóstico precoce.

CDH3 é uma caderina clássica, o desmetilação dos quais é frequentemente detectado no CRC avançada que foi associada com a sobre-expressão de CDH3 [75]. Além CRC, CDH3 foi também sobre-expressa na maioria dos cancro do pâncreas e cancro gástrico, mas não nas suas contrapartes não cancerosas ou em tecidos normais. Assim CDH3 foi considerado como um antigénio associado a tumor romance úteis para imunoterapia e diagnóstico precoce do câncer gástrico e CRC [76].

SPIB é um fator de transcrição do vinte e seis E-(ETS) da família, que é conhecido por actuar como reguladores positivos ou negativos da expressão genética. SPIB é específico de um adenoma condição para baixo gene regulado e a sua expressão foi submetido a uma redução notável em tecidos CRC SPIB indicando que podem servir como potenciais marcadores de CRC capacidade de invasão e metástase [77].

BEST2 (também conhecido como VMD2L1) codifica uma proteína da família bestrophin. Ambas as análises de RT-PCR e coloração com X-gal revelou tecido restrita BEST2 VMD2L2 e abundantemente expressa no cólon [78], [79]. Tem sido mostram que BEST2 medeia o transporte de bicarbonato pelas células caliciformes em dois pontos do rato [80]. Straub et ai. [81] BEST2 identificado como um dos marcadores de metilação para a detecção precoce e prognóstico de CRC. Portanto, BEST2 era esperado para se tornar um alvo para terapia de CRC com o agente de desmetilação.

HMGCLL1 tem sido show para ser relacionado a vários tipos de câncer, como câncer de pâncreas [82], o glioblastoma multiforme [83], de mama e colo-rectal cancros [84]. HMGCLL1 é um dos genes que contêm mutações somáticas no cancro pancreático [82]. Embora mutação no HMGCLL1 tem sido relatada a ser envolvido nesses tipos de câncer, os mecanismos específicos subjacentes continuam a ser elucidado.

Mais Curtos genes caminho

totalmente identificados 35 genes mais curtos caminhos. Como podemos ver na Tabela 2, alguns genes de menor caminho, tais como TP53, EP300, CTNNB1 e GSK3B não foram significativas para CRC, devido à sua universalidade em vários tipos de câncer. No entanto, estes genes têm sido bem documentada para ser relevante para CRC, e também o seu papel na CRC foi bem caracterizada [85]. Além destes genes, a maioria dos outros genes mais curtos listados na Tabela 2 foram bastante específico para CRC (p-valor 0,05). A seguir, deixou-nos concentrar-se nos genes específicos com os grandes valores betweenness e discutem a relação de tais genes com CCR.

AR (receptor de androgénio) é um factor de transcrição dependente do ligando, que está envolvida no controlo de celular a proliferação e diferenciação [86]. Vários estudos têm fornecido evidências de apoio para a sua participação dos hormônios esteróides sexuais (estrogênios e androgênios) na etiologia e progressão da CRC [87]. proteína AR tem sido mostrado para ser expressa na mucosa colorrectal normal e no cancro colorrectal mais [61], [62], que apoiar o CRC que expressam o receptor de AR pode responder aos efeitos mitogénicos da hormona. Além disso, as reduções somáticas do andrógeno repetição CAG receptor ocorrem com frequência, através de uma via diferente da instabilidade de microssatélites e início durante a carcinogênese do cólon. selecção aparente crescimento de células que abrigam alelos AR encurtados sugere que os andrógenos contribuir para a carcinogênese do cólon de uma forma ainda desconhecida [61].

TBP (a proteína de ligação tata) é um fator chave de transcrição eucariótica usado por todos os três celulares As polimerases de ARN.

Deixe uma resposta