PLOS ONE: Reconstrução do gene reguladoras Módulos no ciclo celular Cancer por Multi-Fonte de Dados Integration

Abstract

Fundo

regulação precisa do ciclo celular é crucial para o crescimento e desenvolvimento de todos organismos. Compreender o mecanismo de regulação do ciclo celular é crucial para desvendar muitas doenças complicadas, principalmente o câncer. Várias fontes de dados biológicos estão disponíveis para estudar as interacções dinâmicas entre os muitos genes que estão relacionados com o ciclo celular de cancro. A integração destas fontes de dados informativos e complementares podem ajudar a inferir um gene rede reguladora da transcrição mutuamente consistentes com uma forte semelhança com as relações reguladoras de genes subjacentes em células cancerosas.

resultados e as conclusões principais

Propomos uma quadro integrador que infere módulos reguladores de genes do ciclo celular das células cancerosas através da incorporação de múltiplas fontes de dados biológicos, incluindo perfis de genes expressão, ontologia gene ea interação molecular. Entre 846 genes humanos com papéis putativos na regulação do ciclo celular, foram identificados 46 fatores de transcrição e 39 grupos de ontologias gene. Reconstruímos módulos regulatórios para inferir as relações regulamentares subjacentes. Quatro redes funcionais reguladoras foram identificados a partir da rede de interacção. A relação entre cada factor de transcrição e grupos gene alvo preditos foi examinado por formação de uma rede neural recorrente cuja topologia imita o motivo (s) de rede ao qual o factor de transcrição foi atribuído. redes funcionais inferidos relacionadas com oito genes bem conhecidos ciclo celular foram confirmados por análise de conjunto de enriquecimento de gene, a análise de instalação de enriquecimento de ligação, e comparação com resultados experimentais publicados anteriormente.

Conclusões

Foi estabelecido um robusto método que pode inferir com precisão as relações subjacentes entre um determinado fator de transcrição e seus genes alvo a jusante através da integração de diferentes camadas de dados biológicos. O nosso método pode também ser benéfico para biólogos para prever os componentes de módulos de regulação em que qualquer gene candidato está envolvido. Tais previsões podem então ser utilizadas para conceber uma abordagem experimental mais racionalizado para a validação biológica. Compreender a dinâmica destes módulos irá lançar luz sobre os processos que ocorrem nas células cancerosas decorrentes de erros na regulação do ciclo celular

Citation:. Zhang Y, Xuan J, de los Reyes BG, Clarke R, Ressom HW ( 2010) Reconstrução do gene reguladoras Módulos no ciclo Cancer Cell pela multi-Source Data Integration. PLoS ONE 5 (4): e10268. doi: 10.1371 /journal.pone.0010268

editor: Geraldine Butler, University College Dublin, Irlanda |

Recebido: 16 de outubro de 2009; Aceito: 25 de março de 2010; Publicação: 21 de abril de 2010

Direitos de autor: © 2010 Zhang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo é apoiado em parte pelas bolsas do National Institutes of Health (CA109872, NS29525, EB00830 e CA096483) e do Departamento de Defesa (BC030280). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

a divisão celular, envelhecimento e morte são intrinsecamente processos regulamentados que dependem do equilíbrio entre as várias promotoras do crescimento e inibindo sinais. Os meandros destes processos são definidos por programas genéticos complexos que permitem que certos genes para ser expressa de uma maneira estreitamente regulada. Erros na regulação causar proliferação celular descontrolada, uma propriedade universal de tumores. Esta característica é impulsionado por genes que exibem actividades anormais em células tumorais, muitas das quais têm um papel importante na transdução de sinais reguladores do crescimento para o núcleo e a interface destes sinais para modificar a expressão do gene. Enquanto esta sinalização inevitavelmente contribui para a capacidade proliferativa das células tumorais, que é muitas vezes concebido para fazer isso de uma maneira hierárquica, amplificando a actividade de sinalização aferente, em última análise, convergindo para os genes que controlam a progressão do ciclo celular.

os avanços na pesquisa sobre o câncer durante os últimos anos começaram a descobrir a programação genética complexa de progressão do ciclo celular. Os níveis de expressão de milhares de genes flutuar durante o ciclo celular de cancro [1], [2]. Periódicas actividades de transcrição de muitos genes envolvidos no crescimento celular, a síntese de ADN, a duplicação do corpo polar do fuso, e o trânsito através do ciclo celular têm sido observados cada [3]. As redes reguladoras da transcrição (trnS) associados a estas actividades têm sido extensivamente investigado [4], [5], [6], [7], [8]. Melhor caracterização da programação genoma-wide da transcrição do ciclo celular de mamíferos é um passo fundamental para a compreensão dos processos do ciclo celular básicos e suas funções precisas no cancro.

dados de expressão de genes do ciclo celular obtidos a partir de células Hela foram analisados com diversos métodos de agrupamento e os genes organizados em grupos funcionais e regulamentares [1], [2]. Com base nestes estudos, que estabelece uma inferência robusta em relação às relações de regulação, entre um determinado factor de transcrição e o seu gene alvo putativo (s) pode ser melhor conseguida por uma combinação de dados de expressão de genes com informações sobre o factor de transcrição aos sítios de ligação e os possíveis tipos de interacção baseado conhecimento biológico existente [9]. activação ou repressão da transcrição depende do reconhecimento de sequências de promotor específicas elemento pela proteína reguladora de ligação de ADN. Como uma combinação específica destas proteínas associadas com genes através de um genoma é referido como TRN. Portanto, é importante investigar como esses padrões periódicos são reguladas dentro do contexto de TRN do ciclo celular em células cancerosas.

A engenharia reversa de um TRN global permanece desafiador devido a várias limitações, incluindo (1) a alta dimensionalidade de células onde dezenas de milhares de genes actuam em diferentes combinações temporais e espaciais, (2) cada gene interage virtualmente com múltiplos parceiros quer directamente ou indirectamente, deste modo, possíveis relações são dinâmicos e não linear, (3) tecnologias de alta capacidade corrente viva gerar dados que envolvem uma quantidade substancial de ruído, e (4) o tamanho da amostra é muito baixo em comparação com o número de genes [10]. Decompondo a TRN em um pequeno conjunto de módulos reguladores recorrente (

por exemplo

, motivos de rede) é uma estratégia promissora para enfrentar este desafio.

Descreve-se o desenvolvimento de um quadro computacional inovador que infere complexo TRNS pela integração de dados biológicos de várias fontes e utilizando o conceito de análise modular redes funcionais. A novidade desta estrutura computacional reside na decomposição de uma rede biológica complexa em forma dinâmica simples, mas bem caracterizado motivos rede e a capacidade de integrar dados biológicos diferentes para derivar essas redes funcionais. Os módulos inferidos proporcionar uma base racional para gerar novas hipóteses para a validação experimental subsequente. Nós demonstramos a capacidade deste quadro computacional para inferir módulos reguladores associados com a progressão do ciclo celular em células HeLa por combinar a informação de tempo-curso experiências de expressão de genes [2], de interacções proteína-proteína (PPI) [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], as interações proteína-DNA (PDI) [23] e gene ontologia (GO) [24].

em comparação com a nossa estratégia relatado anteriormente, que foi aplicada a TRN inferência no ciclo celular da levedura [25], este novo esquema inclui um uso integrativa da PPI e PDI dados (doravante denominado de dados de interação molecular) de treze bases de dados publicamente disponíveis, juntamente com a detecção de redes funcionais significativas para cada fator de transcrição. A implementação deste novo sistema ampliou significativamente o âmbito das redes que incorporam conjuntos mais profundas da evidência biológica conhecida e valiosa. Além disso, nós introduzimos um novo método validade cluster que utiliza a anotação GO para calcular a semelhança de qualquer dado par de genes em um cluster. A partição com a maior pontuação de similaridade é selecionado como o cluster ideal. módulos pequenos TRN (

i.

, motivos de rede) são facilmente interpretável e têm o potencial de fornecer insights sobre novas hipóteses. Se um agrupamento de genes está envolvida na redes funcionais de um factor de transcrição, e a maioria dos genes têm evidências de que eles são regulados por esse factor de transcrição específico, é mais provável que outros genes neste agrupamento têm relações reguladoras semelhantes com esse factor de transcrição específico. A capacidade de inferência da nossa estrutura computacional refinado é verificada por meio de várias análises, incluindo a análise conjunto de genes de enriquecimento (GSEA), análise de instalação de enriquecimento (BSEA), e pesquisa da literatura adicional de ligação.

Resultados

Visão de o framework de integração de dados

Foram consideradas duas camadas diferentes de redes em cada TRN com base na análise de dados do ciclo de células HeLa. A primeira é a rede física que inclui PPIs e PDIs no nível de ligação ao gene fator. Em segundo lugar está a rede funcional que incorpora as conseqüências dessas interações físicas, tais como a ativação ou repressão da transcrição. Usamos três tipos de dados para reconstruir a TRN, ou seja, PPIs derivados de uma coleção de bancos de dados PPI, PDIs do banco de dados TRANSFAC, e os perfis de expressão gênica curso de tempo, conforme publicada pela [2]. As duas primeiras fontes de dados fornecido informações de rede direta para restringir o modelo de TRN. Os perfis de expressão gênica fornecida uma medida inequívoca sobre os efeitos causais do modelo TRN. GO anotação descreve as semelhanças entre os genes dentro de uma rede, o que facilita a posterior caracterização das relações entre genes. O objetivo era a discernir as dependências entre os padrões de expressão de genes e as interacções inter-moleculares físicas reveladas por fontes de dados complementares.

O modelo de estrutura para TRN inferência pela integração de dados multi-camada é ilustrada na Figura 1. Além dos dados pré-processamento, três etapas sucessivas estava envolvido neste quadro, conforme descrito no seguinte:

padrões de expressão gênica foram agrupados primeiro em grupos biologicamente significativas com FCM; GO informação de categoria de genes foi utilizado para determinar o número de cluster ideal. Para avaliar os agrupamentos de genes, GSEA foi realizada a partir dos glomérulos óptimas. Além disso, redes funcionais significativas detectadas na rede combinada de PPI e PDI foram então atribuído a cada factor de transcrição. Após os agrupamentos de genes são formados e factores de transcrição foram atribuídas à rede de categorias motivo, as ligações entre os factores de transcrição e agrupamentos de genes foram inferidos por RNNs formação que imitam a topologia da rede motifs factores de transcrição que são atribuídos a. Finalmente, as redes funcionais inferidos foram validados por BSEA e literatura resultados.

Gene clustering.

Os genes com perfis de expressão similares foram representados por um cluster para resolver o problema de escalabilidade em TRN inferência [26]. A suposição é que um subconjunto de genes que estão relacionados em termos de expressão (co-regulamentado) podem ser agrupados em virtude de um elemento cis-regulatórias unificador (s) associado a um fator de transcrição comum que regulamente a cada membro do cluster (co-expressas) [27]. informações GO foi utilizada para definir o número ideal de grupos no que diz respeito a certas categorias funcionais amplas. Uma vez que cada grupo representa, principalmente, uma vasta categoria ou processo biológico, tal como avaliado por FuncAssociate [28]), a rede de regulação implica que um determinado factor de transcrição é susceptível de ser envolvida no controlo de um grupo de genes funcionalmente relacionados [29].

Rede de fator de transcrição.

para reduzir a complexidade do problema de inferência, redes funcionais foram utilizados em vez de uma inferência TRN global. As redes funcionais significativas na rede interacção molecular combinados foram primeiro estabelecidos e atribuído a pelo menos um factor de transcrição. Estas associações foram ainda utilizados para reconstruir os módulos regulatórios.

Construção de redes funcionais para fator de transcrição.

Para cada fator de transcrição atribuído a um motivo de rede, um algoritmo genético (GA) gerado gene candidato clusters para atribuição a um factor de transcrição com base nas relações estabelecidas pelo motivo de rede. Uma rede neural recorrente (RNN) foi treinado para modelar um TRN que imita o motivo de rede associada. GA gerou os agrupamentos de genes candidatos, e otimização por enxame de partículas (PSO) foi usado para configurar os parâmetros da RNN. Os parâmetros foram selecionados para minimizar o erro quadrático médio (RMSE) entre a saída da RNN e padrão de expressão do gene cluster o alvo. O erro quadrático foi devolvido à GA para produzir a próxima geração de agrupamentos de genes candidatos. Optimização continuou até que um número pré-especificado máximo de iterações foi concluída ou um erro médio quadrático mínimo pré-determinado foi alcançado. O procedimento foi repetido para todos os factores de transcrição. conhecimento biológico a partir de bancos de dados foi utilizado para avaliar os resultados previstos.

Criação do número ideal de grupos biologicamente significativas pelo conjunto de medição validade

Os genes que pertencem a categorias funcionais semelhantes ou relacionados, e que exibem padrões similares de transcrição são susceptíveis de ser regulada pelo mesmo mecanismo [30]. genes coordenadamente expressas são susceptíveis de ser unificado por cis-regulatórias comuns elementos e seu fator de transcrição cognato (s) [31], [32] mas esta relação é muitas vezes facilmente perceptível apenas nos casos em que o cluster é composto por genes altamente para expressos moderadamente . Além disso, em espaços elevados de dados dimensionais individuais estas correlações são barulhentos e a estrutura subjacente correlação dos dados pode ser complexa [10]. Genes atribuídos às mesmas ou relacionados categorias funcionais com base na ontologia gene também são susceptíveis de ser regulada por um fator comum a transcrição [33]. análise integrada de dados de perfil de transcrição e anotação ontologia gênica é uma abordagem mais robusta para a previsão da rede do que uma abordagem unidimensional com base em uma única camada de informações, tais como medidas de correlação univariadas.

Um total de 846 genes associados com o controlo do ciclo celular, foram identificados previamente em células HeLa [2]. Nós dividido ainda mais esses genes em grupos funcionais mais específicos (Figura 2) por distorcido c-means clustering (FCM) [34]. Em comparação com a tradicional agrupamento K-means, este esquema proporciona uma estratégia mais robusto que permite que genes com padrões de expressão semelhantes para ser colocada no mesmo aglomerado com muito ruído de fundo reduziu [26]. FCM cluster envolve dois parâmetros empíricos: parâmetro imprecisão

m

e número de clusters

c

. O valor ideal de

m

para a base de dados utilizada neste estudo foi de 1,1548, o qual foi determinado com base no método proposto por Dembele e Kastner [35].

O esquema ilustra o processo de agrupamento genes em clusters biologicamente significativas. Os dados de expressão de genes foram primeiro utilizados para encontrar o valor de m óptima para FCM agrupamento. Com o valor óptimo m, FCM agrupamento foi realizada nos dados de expressão de genes para os números de fragmentação que variam de 2 a 50. As pontuações de semelhança de todos os pares de genes em cada conjunto de uma partição são calculados e indicados como contagem total de similaridade para um cluster de partição. A partição com a maior pontuação de similaridade foi selecionado como um ideal. GSEA foi realizada utilizando FuncAssociate para avaliar os agrupamentos de genes formadas usando o número do conjunto ideal.

O número de cluster óptima foi determinada pela semelhança semântica entre qualquer par de genes de um único agrupamento. Este é um método assente no conhecimento que visa estimar a partição de cluster ideal de uma coleção de divisórias do candidato e aumenta a confiabilidade preditiva e relevância biológica da saída. similaridade semântica entre pares de genes foi calculado através da combinação dos escores de similaridade entre os termos GO atribuídos a cada gene. medidas de similaridade Relevance foram usadas para calcular a similaridade com respeito às terminologias GO atribuídos [36]. A pontuação semelhança de todos os pares de genes em cada cluster de uma partição foram calculados e denotado como a pontuação geral de similaridade para que partição de cluster particular.

O método de avaliação de validade do cluster considerados todos os três ramos da ontologia (componente celular, molecular função e processo biológico) para calcular as pontuações de similaridade. A partição com a maior pontuação de similaridade foi selecionada como a partição ideal (Figura 3). Nós comparamos o desempenho da FCM agrupamento com o agrupamento K-médio com respeito a dois diferentes

valores m

. Trata-se de um valor padrão de 2 e a outra baseia-se no valor óptimo de 1,1548 (Figura 2). A partir desta análise, observamos que a FCM agrupamento com o melhor

valor m

dá a melhor pontuação de semelhança. A pontuação maior similaridade foi obtida com 39 grupos, indicando uma condição ideal para reduzir o espaço de busca para TRN inferência

Três resultados de agrupamento foram plotados:. K-means clustering e FCM clusters com dois

m

valores (

m

é o parâmetro imprecisão): valor padrão (

m

= 2) e valor ideal (

m

= 1,1548)

.

Para avaliar os clusters ideais selecionados com base em GO, GSEA foi aplicado utilizando o valor ideal (Tabela S1). Cada conjunto foi enriquecida em categorias biológicas específicas. Para melhor avaliar a significância biológica dos grupos estabelecidos, GO informação foi utilizada para determinar se os agrupamentos têm o enriquecimento significativo de um ou mais termos, utilizando o programa FuncAssociate [28]. Este uso estratégia feita de um subconjunto de genes como entrada para produzir uma lista ordenada (por valores P) dos atributos GO que são enriquecidos entre o subconjunto gene de entrada [24]. A saída deu os termos GO que foram significativamente enriquecidas em cada grupo entre todos os genes (igual ao total 26,512 genes humanos no programa FuncAssociate).

Seguindo este esquema, o conjunto total de genes envolvidos na regulação do ciclo celular foi subdividida em 39 clusters (Tabela S1). Destes grupos, 31 foram claramente associados com categorias GO que implicam uma função mais específica que unifica os membros de um, mas não outros clusters, estabelecendo assim relações mais diretas entre certos subgrupos menores de genes. Por exemplo, os clusters de 29 e 8 tanto pode ser associado com pré-mitótico, mitótico e eventos pós-mitóticas (M-fase). No entanto, os membros do cluster de 8 podem ser distinguidos dos membros de cluster de 29 em virtude de suas funções específicas na duplicação de cromossomos (replicação do DNA) e citocinese. Por outro lado, os membros do agrupamento 29 pode ser distinguidos dos membros de cluster de 8 por força das suas funções específicas no conjunto de fibras do fuso e desmontagem.

significado biológico destas relações funcionais altamente específicos, estabelecidos por nosso esquema de clustering, pode ainda ser prorrogado em termos de relações dentro do contexto regulamentar. Por exemplo, os membros de ambos os grupos 29 e 8 foram previamente identificados como alvos a jusante directos de factores de E2F (Ren et al., 2002). Relações semelhantes podem ser estabelecidas com outros grupos, tais como o conjunto 32, que é composta de genes com funções bioquímicas de uma ligase de ADN. Assim, os genes in Cluster 32 estão envolvidos em processos relacionados com a reparação ou a lacuna de processamento fragmento de Okazaki durante a replicação do ADN e duplicação cromossoma. Estudos anteriores estabeleceram que os genes associados a esta função está sob o controlo regulamentar de E2F1 e PCNA (Shibutani et al, 2008; veja mais detalhes na Tabela S2).

Com base em todas essas relações, uma força específica da o nosso método actual é a sua capacidade para distinguir os genes que estão relacionados por função em um sentido lato e sub-categorizar-los em categorias (estreito) altamente específicos funcionais, resultando na predição das relações reguladoras que sejam consistentes com as relações biologicamente válidos.

fatores de transcrição Atribuindo à rede motivos

TRNS são compostas de ocorrências repetidas de redes funcionais, que são simples repetidos padrões de unidades biológicas conservadas que variam de domínios moleculares para redes de reação pequenos [37],. Cada motivo rede executa uma função de processamento de informação definida dentro da rede. Estamos focados em três nós motivos de rede, porque a maioria das redes funcionais tamanho maior são compostas máximo de três nós [38]. O objectivo era a atribuir a cada factor de transcrição possível ciclo celular de controlo associado a pelo menos um motivo de rede de acordo com a rede de interacção molecular combinado. O objetivo foi alcançado através da construção de um modelo de RNN para todos os possíveis genes regulatórios envolvidos na transcrição com base na sua redes funcionais específicas. A saída RNN é um modelo que liga cada

bona fide

ou regulador da transcrição putativo com seus genes alvo a jusante.

Todos os genes em que suas funções diretas ou indiretas na regulação da transcrição foram primeiramente identificados a partir de o conjunto total de 846 genes do ciclo celular associados de acordo com a GO categorias que denotam possíveis papéis na transcrição (Ashburner et al., 2000). genes candidatos que permaneceram após a filtragem outras categorias funcionais de genes são aqueles que foram designados para as seguintes funções putativas: atividade do fator de transcrição (GO: 0.003.700), regulação da transcrição (GO: 0.061.019), e complexo fator de transcrição (GO: 0.005.667). Desde GO informação por si só pode não ser suficiente para identificar os genes com funções de boa fé como fatores de transcrição, nós filtrado ainda mais a nossa lista de fatores de transcrição candidato, adicionando outra camada de informações de confirmação com base nos resultados de pesquisas PubMed. Esta anotação adicional nos permitiu validar a classificação GO dos nossos genes candidatos. As descrições detalhadas de termos GO e papéis específicos na transcrição do TFS candidatos utilizados neste estudo na Tabela S3. Entre os genes de ciclo relacionada 846 celulares, 46 foram anotados com funções relacionadas com a regulação da transcrição baseada tanto GO e bases de dados PubMed. Estes genes foram considerados como factores de transcrição putativos.

Nos dados de microarrays, os genes são muitas vezes representado por vários sondas de oligonucleotídeos. Genes representados por conjuntos de sondas com maior variância foram ainda considerados neste estudo (Zhang et al., 2007). Nós decomposto a TRN em várias redes funcionais, com cada motivo rede potencialmente associada a um factor (es) de transcrição dado. Foram encontrados um total de quatro redes funcionais para ser significativa na rede interacção molecular combinado (Figura 4), portanto, cada factor de transcrição foi atribuído a pelo menos um desses motivos de rede.

O painel da esquerda apresenta a rede de quatro motivo módulos regulatórios considerados neste estudo. O painel da direita mostra as relações de genes de transcrição fator-alvo inferidos para fatores de transcrição dependentes de oito ciclo celular.

Inferindo módulos regulatórios redes funcionais entre os fatores de transcrição e agrupamentos de genes

As relações entre fatores de transcrição e agrupamentos de genes foram determinados com base em modelos RNN. Para cada um dos quatro motivos de rede (Figura 4), uma RNN adequado foi construído como descrito anteriormente [25]. Os modelos RNN foram treinados utilizando a genética algoritmo híbrido – Enxame de Partículas (GA-PSO) para encontrar os agrupamentos de genes a jusante para todos os factores de transcrição putativos 46. As associações entre cada fator de transcrição e 39 grupos de genes foi determinada pelo treinamento do modelo RNN que imita o motivo da rede específica para um determinado fator de transcrição. Devido à redução na complexidade computacional (mapeamento entre 46 factores de transcrição e 39 conjuntos de genes, em vez de 846 genes), as quantidades de GA e OSP gerações necessários para atingir o erro médio quadrático mínimo pré-determinado foi significativamente reduzida. A geração da OSP RNN foi definida para 1000 [39]. O valor mínimo de RMSE diminuiu à medida que o número de gerações aumentou (Tabela 1). O RMSE mínimo para GA gerações 600 e 800 foram 0,077 e 0,075, respectivamente. Com base em 600 gerações GA, o nosso método de inferência atribuído com sucesso todos os factores de transcrição putativos 46 aos seus agrupamentos de genes-alvo e inferir as redes funcionais de regulação mais prováveis ​​de transcrição (TRNMs; veja a Figura 4 para TRNMs representativos)

. a validade e precisão da rede representada pelas TRNMs podem ser avaliadas por comparação com um modelo de rede construída com base nos dados reais biológicos. Na ausência de tal informação, foi realizada uma validação inicial da rede através da procura de ligações gene conhecido em bases de dados. Com base nas redes funcionais resultados de previsão módulo, foram coletadas evidências da literatura do NCBI e TRANSFAC [40] bases de dados. Analisámos cada motivo rede previsto e examinaram as relações entre o factor de transcrição e o seu conjunto (s) do gene alvo. Análise subsequente foi efectuada sob a suposição básica que o motivo de rede inferida é mais provável que seja biologicamente significativa se os factores de transcrição nela estão correlacionadas com as funções biológicas enriquecido nos aglomerados jusante.

redes funcionais significativos resultantes da pesquisa de genes dependentes do ciclo celular literatura disponíveis, tais como

E2F1, E2F2, SP1, BRCA1, STAT1, PCNA, RBPSUH

, e

HMGB2

estão listadas na Figura 4. com base na informação combinada, o implicação biológica da rede pode ser explicado. Por exemplo,

E2F é um factor de transcrição que desempenha um papel fundamental na progressão do ciclo celular em células de mamíferos [41].

E2F1

, que contém dois sobreposição

E2F

locais de liga�o ao em sua região promotora, é ativado na transição G1 /S de forma E2F-dependente.

E2F2

interage com certos elementos no

promotor E2F1

e ambos os genes estão envolvidos na replicação do DNA e reparar [42], citocinese e desenvolvimento do tumor [43]. De acordo com os resultados GSEA, cluster 8 é enriquecido com genes envolvidos na mitose e citocinese, e Cluster 34 é enriquecido com genes envolvidos em várias categorias funcionais associados com o desenvolvimento do tumor. Como mostrado na Figura 4, tanto Cluster 8 e 34 estão previstos para ser regulada por

E2F1

e

E2F2

, e esses resultados estão de acordo com os relatórios anteriores com base em dados biológicos [41], [43].

a nossa análise prevê que

E2F1

e

PCNA Quais são os componentes da mesma rede. Ambos os genes estão envolvidos na regulação de clusters 32 e 34. A função molecular melhor entendida do

PCNA

proteína é o seu papel na regulação do DNA eucariótica polimerase delta processabilidade, o que garante a fidelidade da síntese de DNA e reparar [44]. No entanto, estudos recentes têm fornecido evidências de que os

PCNA

proteína também funciona como um repressor direta dos p300 co-ativadoras de transcrição [45]. Outro estudo mostra que

PCNA

reprime a atividade transcricional dos receptores de ácido retinóico (

RAR

s) [46]. Assim, o envolvimento destes genes na mesma rede, como previsto por nosso algoritmo de inferência de rede, é fortemente apoiada pelo conhecimento das relações reguladoras já estabelecidas em dados experimentais. Os resultados de nossa previsão estão de acordo com esses relatórios já que ambos os Clusters 8 e 32 são enriquecidos com genes envolvidos na síntese de DNA e processos regulatórios.

Levamos três abordagens para investigar se os genes previsto para ser regulamentada por

E2F

genes em Clusters 8, 32 e 34 são validados nos métodos de largura não genoma clássicos. Em primeiro lugar, nós investigamos quantas “conhecido”

E2F1

e

E2F2

alvos são previstos pelo nosso método proposto. De acordo com Bracken

et al

. [47], 130 genes foram analisados ​​como

E2F

alvos, 44 dos quais foram originalmente identificados por abordagens clássicas, não-genômicos. Desde que restrito nossa análise aos genes relacionados 846 do ciclo celular, 45 genes combinados os

E2F

genes alvo listados na ref. [47], 21 dos quais eram conhecidos a partir de estudos que recorrem à biologia molecular clássico analisa. Os genes alvos previsto por nosso jogo método 15 de 45 genes, todos os 15 de que estão entre aqueles encontrados originalmente utilizando experimentos de biologia molecular padrão. Uma possível razão é que as abordagens do genoma são geralmente muito barulhento e inconsistentes em diferentes estudos. As informações detalhadas sobre estes genes está listado na Tabela S4.

Em segundo lugar, queríamos ver se os nossos grupos-alvo gene previstos são enriquecido nos sítios de ligação correspondentes para os fatores de transcrição na sua região a montante. Para ambos

E2F1

e

E2F2

, 7 dos 17 genes em Cluster 8 contêm sítios de ligação em suas regiões a montante como foi confirmado pelos dados no banco de dados SABiosciences (http: //www.sabiosciences. com /chipqpcrsearch.php? app = TFBS).

Por fim, determinou-se o número de genes nos agrupamentos de genes têm

sítios de ligação E2F

. Aplicamos a ferramenta de descoberta motivo, WebMOTIFS [48] para encontrar motivos comuns nos grupos de genes previsto para o

E2F

alvos usando análise de instalação de enriquecimento de ligação (BSEA). Os resultados revelaram que um motivo chamado E2F_TDP, GCGSSAAA, é identificado como o motivo mais significativa entre os dois grupos de genes, 8, 29, 31, 32 e 34. Infelizmente, para Clusters 30 e 36, o número de genes nestes grupos é pequeno demais WebMOTIFS para análise. Todos esses agrupamentos de genes estão previstas para os alvos a jusante de

E2F

. Por exemplo, 43 de 52 genes em Cluster 2 têm

E2F

sítios de ligação putativos em suas regiões a montante. A informação detalhada dos resultados BSEA é mostrado na Figura 5. Para aqueles TRNMs para os quais são envolvidos dois factores de transcrição, que também encontrar estes aglomerados de genes a jusante são enriquecidos em ambos os motivos de sequência de ligação local. Por exemplo, o Cluster 32 é enriquecido em ambos os motivos E2F_TDP e MH1, correspondentes aos dois factores de transcrição no TRNM: E2F1 e SP1. Estes resultados BSEA apoiar fortemente os nossos resultados de inferência.

logos Sequência representam o motivo significativamente sobre-representados no agrupamento de genes indivíduo associado com os seus factores de transcrição a montante previsto, de acordo com o algoritmo de descoberta WebMOTIFS [48].

Deixe uma resposta