PLOS ONE: um novo método HMM-base para a detecção de Enriched Fator de Transcrição Sites Encadernação revela RUNX3 como um alvo potencial em Biologia Cancro do pâncreas

Abstract

Fundo

adenocarcinoma do pâncreas (PAC) é uma das neoplasias mais intratáveis. A fim de procurar potenciais novos alvos terapêuticos, contamos com métodos computacionais voltados para a identificação fator de transcrição locais (TFBSs) sobre-representados nas regiões promotoras dos genes diferencialmente expressos no PAC vinculativo. Embora muitos métodos computacionais têm sido implementadas para alcançar este objetivo, nenhum ganhou aceitação geral ou produzidos comprovada novos alvos no PAC. Para este fim, temos desenvolvido DEMÔNIO, um novo método para a detecção motivo.

Metodologia

DEMON se baseia em um modelo oculto de Markov para marcar o aparecimento de motivos de sequências, tendo em conta todos os sítios potenciais na um promotor de potencialmente diferentes afinidades de ligação. Nós demonstramos a precisão do demônio em conjuntos de dados simulados e reais. Aplicando demônio para conjuntos de dados relacionados com o PAC identifica a família RUNX como altamente enriquecido em genes relacionados ao PAC. Usando um romance paradigma experimental para distinguir entre células normais e PAC, descobrimos que mRNA RUNX3 (mas não RUNX1 ou Runx2 mRNAs) exibe aumentos dependentes do tempo no normal, mas não em células de APA. Estes aumentos são acompanhadas por alterações nos níveis de mRNA de genes alvos Runx putativo.

Conclusões

A aplicação integrada de demônio, e um novo sistema de diferenciação levou à identificação de um único membro da família, RUNX3, que, juntamente com quatro de seus alvos putativos mostraram uma forte resposta a um estímulo de diferenciação em células saudáveis, que este mecanismo regulador estava ausente em células do PAC, enfatizando RUNX3 como um alvo promissor para estudos posteriores

Citation:. Levkovitz L , Yosef N, Gershengorn MC, Ruppin E, Sharan R, Oron Y (2010) um novo método HMM-base para a detecção de Enriched Fator de Transcrição Sites Encadernação revela RUNX3 como um alvo potencial em Biologia cancro do pâncreas. PLoS ONE 5 (12): e14423. doi: 10.1371 /journal.pone.0014423

editor: Dov Joseph Stekel, da Universidade de Nottingham, Reino Unido

Recebido: 02 de fevereiro de 2010; Aceito: 10 de setembro de 2010; Publicação: 22 de dezembro de 2010

Este é um artigo de acesso aberto distribuído sob os termos da declaração Creative Commons Public Domain que estipula que, uma vez colocado no domínio público, este trabalho pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita

financiamento:. Este trabalho foi apoiado por uma concessão pathogenomics era-Net para ER e RS, e Grant Cancer Association Israel a ER, RS e você. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

adenocarcinoma do pâncreas (PAC) é um dos cânceres mais agressivos. Embora 10º na incidência, é a quarta principal causa de mortes por câncer no mundo ocidental. PAC é caracterizada por diagnóstico tardio, a progressão rápida e extensa metástase e é quase totalmente refratário a todos os regimes terapêuticos. Embora 10-15% dos tumores PAC podem ser tratados por pancreatectomia parcial, o tempo médio entre o diagnóstico e a morte é de 3-6 meses e a taxa de sobrevivência de 5 anos é inferior a 5%. Em os EUA, cerca de 30000 novos casos diagnosticados cada ano e virtualmente o mesmo número de pacientes de APA morrem todos os anos da doença [1], [2]. Este quadro sombrio faz esse tipo de câncer um assunto digno para a busca de novos alvos terapêuticos. popularidade No entanto, estudos de expressão gênica publicados, até agora, não conseguiram identificar alvos terapêuticos úteis.

A identificação de fatores de transcrição (TFS) envolvidas nos processos-chave biológicos e várias condições patológicas, particularmente desordens cancerosas e hereditárias, ganhou nos últimos anos. TFs são controladores principais de alterações na expressão de genes múltiplos e, assim, podem servir como alvos preferidos para terapias de doenças humanas. Um número relativamente grande de métodos para a identificação de locais enriquecidos ligação TF (TFBSs) existem [3] – [5], mas nenhum método ganhou a preferência universal sobre os outros

A aplicação do state-of-the. arte PRIMA algoritmo [4] para conjuntos de dados que refletem expressão diferencial de genes em PAC apontou para ZNF350 como um TF importante na PAC biologia (não publicado). No entanto, as experiências qRT-PCR mostraram apenas mudanças modestas na expressão ZNF350 após a remoção do soro de células do PAC (ver Fig. S1). Tendo em vista a importância desta metodologia, procurou-se desenvolver um novo método destinado a conseguir uma melhor valor preditivo em experimentos biológicos.

Um número relativamente grande de PAC estudos de expressão gênica foram realizados, usando sãos e doentes tecidos pancreáticos e linhas do PAC in vitro. . Brandt

et al

[6] analisou dados de 10 estudos de expressão e identificou cerca de 1000 genes cuja expressão mudar na PAC; 148 destes genes foram identificados em dois ou mais estudos. A lista compilada por Brandt

et al

. inclui genes que são expressos numa alta proporção de estudos de APA e tinha sido associados a muitos tipos de cancros, tais como Ras, INK4, p53, etc. No entanto, nenhum parece explicar a [7] progressão “catastrófica” desta doença . Embora as proteínas individuais podem servir como alvos promissores para o desenvolvimento de medicamentos, a busca de alvos terapêuticos no PAC falhou, até agora, para produzir novas pistas de drogas promissoras. Conceitualmente, terapias orientadas para TFs que são master reguladores de expressão de um grande número de genes, são potencialmente mais susceptíveis de afectar a biologia de células cancerosas e são particularmente atraentes.

Aqui temos aplicado um novo método, Demon, por detectando enriquecido TFBSs e um novo paradigma para a comparação de pâncreas normal e células de APA. Aplicando demônio para um PAC conjunto de dados experimental previu que sítios de ligação para a subfamília RUNX do TFS são altamente enriquecido nos conjuntos de genes diferencialmente expressos pertinentes. qRT-PCR confirmou RUNX3 como uma expresso diferencialmente TF. Em conclusão, DEMÔNIO provou ser uma ferramenta de previsão útil na análise TFBSs e, em conjunto com os resultados experimentais, sugere que RUNX3 pode vir a ser um importante TF-alvo na pesquisa do câncer pancreático.

Resultados

detectando motivos enriquecido em genes co-regulados (Demônio)

Dada uma meta estabelecida de promotores de genes co-regulados e um conjunto de motivos TFBS conhecidos (representados como matrizes de peso posição do banco de dados TRANSFAC [8], consulte métodos), Demon procura motivos que aparecem nesses promotores com mais frequência do que o esperado por acaso (ou seja, motivos que são enriquecidos no conjunto de destino). O algoritmo utiliza um modelo oculto de Markov (HMM) para descrever o processo probabilístico que gera as sequências do promotor, e estimar quão provável é que qualquer motivo é enriquecido com a meta estabelecida.

Cada HMM contém estados de um motivo original, e afirma que o fundo modelo segmentos inter-motivo (Fig. 1). pontuações DEMÓNIO cada promotor para o aparecimento de qualquer motivo. Esta pontuação reflecte a probabilidade de que a sequência foi gerado com base na HMM descrevendo o motivo, contra a probabilidade de que foi gerado com base em um modelo simples de fundo. Dado um conjunto-alvo de genes co-regulados, a pontuação dos promotores são somados para cada HMM, e em comparação com somas de escores obtidos com conjuntos de alvos aleatórios. Esta comparação é usado para atribuir um

p

-valor para cada motivo que reflecte a sua abundância nas regiões promotoras do conjunto alvo (ver Fig. 2 e Métodos).

O HMM é composta do motivo estados (em rosa), estados fundo (em azul) e um estado inicial. Um estado de fundo é definida para cada nucleótido (quatro estados), e um estado motivo é definido para cada posição ao longo do PWM correspondente ao TFBS de interesse. As probabilidades dos estados de emissão motivo são definidos de acordo com o PWM, e aqueles estados de fundo são definido como 1 para o nucleótido correspondente. As probabilidades de transição entre os estados fundo reflectem a distribuição dos dinucleótidos em todas as regiões do promotor putativo em humanos. A probabilidade de transição de cada estado motivo para a próxima está definido para 1. transições restantes incluem mover-se para os estados fundo (setas tracejadas) ou movendo-se para o primeiro estado motif (setas sólidas). Essas transições são aprendidas usando o algoritmo de Baum-Welch.

a. Recuperar uma lista de genes co-expressas de experimentos de alto rendimento. b. Para cada par HMM-promotor uma pontuação é calculado como a razão entre a probabilidade de emitir a sequência do promotor utilizando a TFBS HMM e a probabilidade de emitir a sequência do promotor utilizando um HMM fundo. A soma das pontuações de cada TF é usado para calcular uma única pontuação que reflecte a abundância global do TF no conjunto de promotor de entrada. c. Seleccionando aleatoriamente 100 conjuntos de dados promotor com o mesmo tamanho que o conjunto de dados originais. As pontuações são calculadas como antes para os conjuntos de dados. d. Cada TF é atribuída com um p-valor empírico definido como a percentagem de casos aleatórios em que marcou mais elevado.

Avaliação do Desempenho na simulada e real de dados

Para testar a nossa abordagem, em primeiro lugar, aferido DEMÔNIO em dados simulados. Para este fim, simulou conjuntos de 100 promotores aleatórias, cujas sequências foram selecionados de acordo com o plano de fundo probabilidade de dinucle�idos em regiões promotoras reais (métodos). Em seguida, plantou um motivo real de x% (10≤x≤90) dos promotores em cada conjunto (três instâncias dos motivos foram plantadas em cada promotor). Nós repetido este procedimento para todas as matrizes de peso posição de vertebrados (PWMS) na base de dados TRANSFAC [8] (ver Métodos).

A Figura 3 compara o desempenho de demônio para que o algoritmo de PRIMA. Nós escolhemos PRIMA como um representante de um grupo de métodos que utilizam um limiar difícil identificar aparências putativos de motivos em qualquer dado promotor. Tais métodos podem não identificar ocorrências “fracos” do motivo e frequentemente não têm em conta o número efectivo de ocorrências do motivo (por exemplo, em PRIMA, os promotores são categorizados para aqueles possuindo 0, 1, 2, ou mais de 2 ocorrências do motivo).

a comparação entre o demônio de e desempenho da PRIMA em conjuntos de dados com vários porcentagem de promotores com motivos plantadas.

Evidentemente, em todos os casos DEMÔNIO alcança melhores resultados tanto em termos de especificidade e sensibilidade. Realizamos simulações adicionais, variando o número de promotores em cada conjunto, ou o número de motivos plantadas em cada promotor. Os resultados permaneceram qualitativamente semelhante (Fig S2 e S3).

Prima tem uma vantagem marginal sobre o demônio em pequenos conjuntos de dados (por 30 promotores, Demon taxa de falsos positivos (FPR) é 0,0006 contra 0,0004 para PRIMA, ver Fig . S3). No entanto, estes números muito baixos tornar o FPR de ambos os métodos essencialmente iguais.

Em seguida, compararam os dois métodos no

Amadeus

metazoan referência recentemente publicado, que é uma coleção de TF e microRNA conjuntos de genes alvo derivadas de experiências de alto rendimento (gene expressão microarray e experimentos chIP-on-chip) [9]. Nós baixado todas as entradas humano e do rato desta coleção, onde cada entrada contém um único TF e uma lista de genes-alvo (que variam de 25 a 2238 genes).

A Tabela 1 apresenta os resultados de demônio, e PRIMA sobre tudo as entradas de dados examinados. DEMÓNIO identificado o verdadeiro TF em 70,3% dos casos (onde em 51,8% dos casos, o verdadeiro TF é classificados em primeiro ou segundo lugar) enquanto PRIMA identificou-se em 55,5% dos casos (em 48,1% dos casos, o verdadeiro TF está classificada em primeiro ou segundo lugar). Além disso, em 37% dos casos DEMÔNIO classificou o TF correta maior do que PRIMA enquanto PRIMA classificou o TF direito superior ao demônio em apenas 18,5% dos casos.

Detectando TFs envolvidas na regulação transcricional PAC

Nós inicialmente utilizada uma lista de genes diferencialmente expressos em PAC compilados pela Brandt

et al.

[6] a partir de 10 estudos. Obtivemos a partir dessa lista uma lista menor de 45 genes que foram identificados como diferencialmente expressos em 3 ou mais estudos, dos quais 38 (30 que apresentaram maior e 8 que exibiu diminuição da expressão) pareados nossa coleção de promotores humanos (ver Tabela S1). Analisamos esta lista usando DEMÔNIO e encontrou enriquecimento significativo de 6 motivos, dos quais os motivos mais altamente enriquecido foram para o RUNX sub-família de TFs (também chamado de sub-família AML). Quando limitou as definidas para os 30 genes que apresentaram aumento de transcrição de dados de consenso, DEMÔNIO encontrados enriquecimento significativo de 8 motivos, dos quais os motivos mais altamente enriquecido foram também para RUNX.

O TFs da sub-família RUNX , são parceiros de reguladores de transcrição heterodiméricos designadas por CBFs (fatores centrais de ligação) dos quais os (Runx) membros CBFA ligar diretamente a DNA e os dois CBFb alternativamente emendados (também conhecido como PEBP) membros se ligam à subunidade CBFA e aumentar a ligação a sua ligação de ADN [10]. Vale ressaltar que PEBP aparece como um terceiro e um segundo TF mais enriquecido, respectivamente (ver Tabela 2).

Nós usamos PRIMA para analisar as mesmas listas, e encontrou um enriquecimento significativo de um motivo, ZBRK1, também chamado ZNF350 (ver Tabela S2). No entanto, as experiências qRT-PCR mostraram apenas mudanças modestas em ZNF350 expressão em PANC-1s após a retirada do soro (resultados não publicados, ver Fig. S1).

A três altamente homólogas TFs Runx humana (RUNX1, 2 e 3 ) têm sido implicados nos processos de desenvolvimento e, nomeadamente, no cancro. RUNX1 (também conhecido como AML1) tem sido extensivamente documentado como um factor importante na hematopoiese e na etiologia de leucemia mielóide aguda (para revisão ver [11]). RUNX2 tem sido mostrado para ser envolvido no desenvolvimento do osso (para revisão ver [12]) e RUNX3 foi documentado como um TF importante no desenvolvimento dos linfócitos T [13] – [15], e tem sido associada com a patogénese de diversas doenças malignas [ ,,,0],16], incluindo PAC [17], [18]. Assim, a análise DEMÔNIO prevê que os membros da família RUNX TF são principais candidatos responsáveis ​​pela transcrição alterada de genes no conjunto de dados consenso PAC.

RUNX validação experimental

A maioria dos dados experimentais em câncer comparar expressão gênica de tecidos cancerosos com a de tecidos saudáveis ​​de doadores humanos. Esta comparação filtra a variabilidade da expressão do gene devido ao sexo e idade do paciente, o estágio da doença, o envolvimento de condições não relacionadas patológicas, diferentes terapias de droga (e outras dirigidas-câncer), bem como a genética étnicos e estilos de vida. Assim, apenas os genes comuns a PAC no fundo de todas as fontes acima de variabilidade são representados. Vale ressaltar que et de Brandt al. [6] lista de perto de mil genes diferencialmente expressos encolhe a 148 e 45 quando se acrescenta um requisito que deve aparecer em pelo menos dois ou três estudos, respectivamente.

Para evitar a variabilidade inter-pacientes, optou-se por estudar os padrões de genes diferencial de expressão observados nos dois tipos de células em cultura: os PPME, células pancreáticas precursoras que superam a partir de ilhotas humanas cultivadas de Langerhans de doadores cadavéricos saudáveis ​​e células PANC-1, uma linha estabelecida de PAC humano. Mais importante, ambos os tipos de células mesenquimais submeter-se epiteliais de transição (TEM) e parcialmente para diferenciar um fenótipo neuroendócrino quando permitido para se agregar em meio isento de soro [19], [20]. Enquanto PPME deixam de proliferar e alguns morrem, as células PANC-1 continuam a proliferar sob estas condições.

O pressuposto principal de nosso paradigma é que a resposta a um estímulo diferenciação irá revelar mudanças de expressão de genes que distinguem normal a partir de células de APA. Para o melhor do nosso conhecimento, não há nenhuma prova na literatura que comparar os processos em células normais e cancerosas de origem semelhante em condições que induzem a diferenciação parcial irá produzir insights sobre a expressão do gene relacionada ao câncer. proliferação contínua de células em meio isento de soro poderia ser atribuído a mutações de genes-chave (por exemplo, K-ras). No entanto, nem todas as características de células de cancro (por exemplo, migração, capacidade de invasão, a estimulação da angiogénese, a resistência a agentes citotóxicos) pode ser directamente relacionada com a sua capacidade para proliferar na ausência de factores de crescimento. É possível que este paradigma irá produzir genes que foram perdidas na saudável tradicional vs. métodos tecido doente. Nós temos, portanto, ambos os PPME cultura PANC-1 e células em meio isento de soro durante 24 h e em alterações em comparação a expressão do gene em ambos os tipos de células. Esta comparação produziu um conjunto manualmente-curada de 30 genes, cuja expressão alterada de forma significativa em um tipo de célula e não se alteraram ou exibiu mudança na direcção oposta no outro (ver Tabela S3). Analisamos este conjunto com DEMÔNIO (ver Tabela S4). Embora PEBP (CBFb) foi apenas ligeiramente enriquecido (p~0.1) nesta lista, que apareceu entre os dez melhores TFBSs exibindo os menores valores de p, tanto nas listas obtidas por demônio de conjuntos de dados de consenso (2º classificado e 3º) e da o PPME vs. PANC-1 células conjunto de dados experimento (6º lugar). Esta descoberta apoiada a previsão de que os membros do sub-família Runx podem estar envolvidos no PAC. A análise dos mesmos dados ajustados com PRIMA não encontrou quaisquer motivos enriquecidos (ver Tabela S5).

Para obter evidência experimental para RUNX distinguir entre células normais e PAC, nós monitorados expressão de RUNX1, 2 e 3 mRNAs por qRT-PCR como uma função do tempo de privação de soro de PPME e células PANC-1 (Fig. 4). Houve pouca mudança na expressão de transcritos RUNX1 e 2 em qualquer um dos tipos de células. A expressão de RUNX3, no entanto, foi marcadamente aumentada de uma maneira dependente do tempo em PPME enquanto que não houve praticamente nenhuma alteração em células PANC-1. Parece, portanto, que a expressão de RUNX3 é regulada durante a diferenciação em PPME mas não responder ao estímulo diferenciação em células PANC-1.

PPME e PANC-1, quer as células foram cultivadas em meio contendo soro (T = 0) ou durante os tempos indicados em meio isento de soro. O ARN foi extraído e qRT-PCR realizadas como descrito em Materiais e Métodos. Os resultados são apresentados como a% de variação nos níveis de ARNm das três genes Runx como uma função do tempo em meio isento de soro.

Para validar melhor esta conclusão, nós ensaiada em PPME a expressão de cinco RUNX putativo alvos, ECM2, DUSP2, ESAM, PECAM, e ITGB4, que foram escolhidas a partir de uma lista de alvos putativos Runx gerado com base em um procedimento semelhante ao método descrito em [4]. Quatro destes mRNAs exibiram marcadas alterações na expressão (ver Fig. 5A), enquanto que o quinto, ITGB4, apresentava apenas um aumento de duas vezes transitório. Em comparação, a expressão destes genes não se alterou em células PANC-1 (ver Fig. 5B). Quando a expressão dos mesmos genes foi examinado com os dados de microarray, nenhum (incluindo RUNX3) eram suficientemente elevada para análise significativa, confirmando a sensibilidade superior de qRT-PCR.

. PPME e células B. PANC-1 ou foram cultivadas em meio contendo soro (t = 0) ou durante os tempos indicados em meio isento de soro. O ARN foi extraído e qRT-PCR realizadas como descrito em Materiais e Métodos. Os resultados são apresentados como% de alteração em níveis de mRNA dos genes indicados como uma função do tempo em meio isento de soro.

Discussão

apresentaram um novo algoritmo para a detecção enriquecido TFBSs num determinado conjunto de promotores. O algoritmo utiliza uma pontuação baseado em HMM para levar em conta todos os analisa possíveis de uma sequência de promotor em locais de ligação de nucleótidos e de fundo. Pesa de uma forma de princípio todos os potenciais locais de ligação ao longo do promotor, tornando-se possível considerar vários locais de ligação fracos que não teria passado um limiar de significado. Esta é a primeira utilização de um tal método para testes de enriquecimento. Mostramos que supera uma abordagem anterior (PRIMA) para o problema, que utiliza um limiar de tomar decisões binárias em sítios de ligação reais.

Três aspectos dos resultados experimentais apresentados neste relatório parecem ser de grande importância . Em primeiro lugar, eles experimentalmente validar o poder da análise de prever DEMÓNIO TFs (e seus genes-alvo) a partir de um pequeno número de genes diferencialmente expressos em PAC. Embora DEMÓNIO provou ser superior à PRIMA em experiências de simulação, o seu valor pode ser comprovada apenas pela sua capacidade de previsão experimental. No nosso caso, o poder do demônio não só foi validado para RUNX3, mas também pela identificação intrinsecamente consistente de CBFb, o parceiro heterodimérico (s) da sub-família RUNX.

Em segundo lugar, os nossos resultados sugerem fortemente que RUNX3 e sua CBFb parceiro heterodimérico deve ser investigado sobre o seu papel potencial (s) no PAC etiologia. Aberrações na expressão de RUNX1 foram identificados numa proporção significativa de leucemias [11]. RUNX2 e 3 genes têm sido extensivamente estudada como TFs de desenvolvimento. RUNX2 mostrou ser crucial para o desenvolvimento de osso e esquelético [12]. RUNX3 foi mostrado estar directamente envolvido no compromisso de células + /CD8 + CD4 em células T CD8 + e na maturação de células T dendríticas [15], [21]. Alguns relatos demonstram o papel de RUNX3 para o desenvolvimento do sistema de neurónios sensoriais [22], [23]. A hipermetilação da região promotora de RUNX3 tem sido correlacionado com várias doenças malignas metastáticas, tais como cancro da mama, do pulmão de células não pequenas, gástrico, pancreático, colo-rectal, ou carcinomas hepatocelulares [24]. Importante, a restauração da expressão de RUNX3 em linhas celulares de cancro leva à apoptose ou diminuição da proliferação de células cancerosas e a sua diferenciação [25] – [28]. Estes relatórios, e semelhantes, que estabeleceu RUNX3 parece funcionar como um supressor do tumor. Eles são ainda confirmada por nossa conclusão de que os PPME mesenquimais não transformadas responder a um estímulo diferenciação por aumento da transcrição RUNX3 e parada proliferação, enquanto as células malignas PANC-1 parecem ter perdido essa resposta regulamentar e continuam a proliferar. Em PAC humana, hipermetilação e perda de heterozigosidade de RUNX3 foram encontrados em uma grande proporção de tecidos PAC e correlacionados com pior prognóstico [17], [18]. Estes resultados colocam RUNX3 como um outro produto de gene PAC-associado. análise DEMÔNIO, no entanto, coloca RUNX e sua parceira, PEBP, como TFs supostamente muito importantes que controlam a expressão de muitos genes relacionados ao PAC.

Em terceiro lugar, nossos resultados confirmam a hipótese de que as diferenças entre pancreático normal e células do PAC são revelados na sequência de um estímulo diferenciação. Esta suposição é ainda reforçada por uma análise recente de transcriptomes envolvidos no câncer e desenvolvimento [29]. Em proliferam PPME e células PANC-1, ambos os fenótipos mesenquimais exibem [19], algumas transcrições RUNX3 estão presentes (limiares de 31,5 e 30 ciclos, respectivamente). Por 24 h em meio de diferenciação, no entanto, os níveis de ARNm de RUNX3 em PPME aumentou mais do que 1000 vezes, enquanto que não houve praticamente nenhuma resposta nas células PANC-1. Da mesma forma, genes alvo RUNX3 putativas exibiu transcrição alterada em PPME, mas sem mudanças em células PANC-1. Importante, Li

et al

. [30] verificaram que RUNX3 seja expresso apenas em ilhotas e uma proporção de tecidos de APA. Nossos dados experimentais demonstram que, enquanto expressão de mRNA RUNX3 pode não ser diferente na proliferação de células normais e PAC, o seu papel é revelado apenas na sequência de estímulo diferenciação, o que explica a aparente divergência entre os resultados de Wada

et al.

E Nomoto

et al.

[17], [18] e as de Li

et al

. [30].

Importante, a resposta induzida por diferenciação de RUNX3 e seus cinco alvos putativos em PPME não pode ser inferida a partir da análise de microarray, devido à ausência de sinal ou os seus níveis muito baixos. Embora os sinais PECAM1 e CBFA2T1 aumentou mais de duas vezes, seus sinais eram demasiado baixos para ser significativo. Isso justifica o uso de métodos computacionais, como demônio ou PRIMA, para identificar alvos de genes e sua validação pela técnica mais sensível qRT-PCR. É certo que, qRT-PCR não pode revelar os regulamentos controlados epigenetically de fenótipo celular.

Nossos resultados sugerem perda de resposta do gene RUNX3 no PAC e sugerem mais estudos, como a investigação de metilação do seu promotor, e uma mais estudo da expressão extensa de genes alvo RUNX putativos.

Materiais e Métodos

O algoritmo DEMÔNIO

O algoritmo DEMÔNIO utiliza HMMs para representar TFBSs. Cada HMM é composto por dois tipos de estados: estados motivo e estados fundo (Fig. 1). Um estado de fundo é definida para cada nucleótido (quatro estados), e um estado motivo é definido para cada posição ao longo do PWM correspondente ao TFBS de interesse. As probabilidades dos estados de emissão motivo são definidos de acordo com o PWM, e aqueles estados de fundo são definido como 1 para o nucleótido correspondente. As probabilidades de transição entre os estados fundo reflectem a distribuição dos dinucleótidos em todas as regiões do promotor putativo em humanos. A probabilidade de transição de cada estado motivo para a próxima está definido para 1. transições restantes incluem mover-se para os estados de fundo (Fig. 1, pontilhada setas) ou movendo-se para o primeiro estado motif (Fig. 1, setas sólidas). Essas transições são aprendidas usando o algoritmo de Baum-Welch [31] (Informações de Apoio S1).

As entradas para DEMÔNIO são a lista de genes de interesse (Fig. 2a) e um conjunto de motivos TFBS representado por PWMs . A saída é uma lista de TFs cujos locais de ligação são estatisticamente sobre-representados nas regiões promotoras da lista dada de genes.

Como um primeiro passo, vamos construir um HMM de cada dado PWM, e cada HMM- par promotor é designado com uma nota que reflecte a probabilidade de que o respectivo TFBS aparece na região do promotor respectivo. Esta contagem é calculado como a razão entre dois valores (Fig. 2B): (i) a probabilidade de emitir a sequência do promotor utilizando a TFBS HMM na Figura 1, e (ii) a probabilidade de emitir a sequência do promotor utilizando um HMM composto unicamente os estados de fundo. Os valores de probabilidade são calculadas usando o algoritmo para a frente [32]. As pontuações de pares são, então, a ser utilizado para computar uma única pontuação para cada TF, refletindo sua abundância geral no conjunto promotor de entrada. Esta pontuação é definida como a soma de todas as pontuações atribuídas individualmente com cada promotor.

Na segunda etapa, usamos uma abordagem empírica para avaliar a significância estatística das pontuações gerais de probabilidade calculada para o FT. Nós escolher aleatoriamente um número semelhante de promotores como nos dados originais do conjunto de todas as regiões promotoras humanos e calcular uma nova pontuação para cada TF como antes (Fig. 2c). Nós repetimos este procedimento 100 vezes, terminando com uma distribuição empírica das pontuações de probabilidade aleatórios. Cada TF é então atribuído com uma empírica

p

-valor define como a probabilidade de ver a soma meta estabelecida de pontuações, dadas as somas aleatórias que são assumidas a ser distribuídos normalmente (Fig. 2d). ou seja, calculamos a média eo desvio padrão das notas aleatórias, e utilizar a função de distribuição cumulativa normal para calcular a probabilidade de que uma observação a partir de uma distribuição normal padrão será maior do que a soma meta estabelecida de pontuações. Os valores de p são corrigidas para testar várias hipóteses utilizando o procedimento taxa de detecção falsa [33]. Relatamos todos os resultados com taxa de detecção falsa inferior a 5%.

Aquisição de Dados e PRIMA implementação

Obtivemos um conjunto de matrizes de distribuição de nucleotídeos que o modelo de vertebrados TFBSs do banco de dados TRANSFAC (versão 11.1) [ ,,,0],8]. Um total de 588 matrizes de vertebrados foram baixados da base de dados. As matrizes foram transformados em matrizes de probabilidade que delineiam a probabilidade de cada nucleótido a aparecer em cada posição na TFBS. Uma vez que o banco de dados é redundante e algumas das matrizes descrever TFBS semelhantes, que as matrizes agrupado num passo de pré-processamento com um procedimento semelhante ao utilizado em [4]. Para este fim, foi construído um PWM

w

de cada matriz de probabilidade

m

, e usou um baixo limiar pré-calculada

t

para digitalizar os promotores do genoma humano. O limiar é calculado usando dois conjuntos de promotores de fundo: (i) promotores aleatórios que são construídos com base na distribuição de nucleótidos em todos os promotores, os segmentos (II) escolhidos aleatoriamente de promotores reais. Os dois conjuntos são digitalizados por cada PWM

w

eo limiar

t

é definido como o máximo entre o 100

th maior pontuação de cada um dos dois conjuntos de dados de fundo (o que implica um FPR de 0,01). Cada subsequência que teve uma pontuação de semelhança com o PWM

w

acima do limiar

t

foi marcado como um exemplo putativo da

w

. Em seguida, cada par de matrizes

X

% das suas aparências sobre o promotor definido sobreposição foram foi agrupado e a matriz com o menor teor de informação (isto é, a matriz que é menos diferente de uma distribuição uniforme) foi removido . Como o valor do

x

cresce, o critério de agrupamento torna-se mais rigorosas e as matrizes resultaram estabelecidos cresce, e vice-versa. Nós usamos

x

= 0,2 para obter um conjunto de 219 matrizes para usar em nossa análise.

Nós o download do conjunto completo de promotores humanos do banco de dados do navegador UCSC Genome [34], [35 ]. Com base em testes preliminares e estudos recentes reivindicando que a maioria dos promotores TFBSs em humanos estão localizados próximo do local de início da transcrição [36], que define as regiões promotoras dos genes como a sequência de 500 pb a montante do local de início da transcrição.

Temos implementado PRIMA como descrito em [4].

culturas de células

células derivadas de ilhotas pancreáticas Humanos precursoras (PPME) foram isolados e propagados em meio CMRL modificado como descrito anteriormente [ ,,,0],20]. linha celular de adenocarcinoma do pâncreas humano PANC-1 foi adquirido da American Type Tissue Collection e mantidas em meio de Dulbecco modificado mínimo de Eagle (DMEM) como descrito anteriormente [20]. diferenciação parcial de qualquer um dos tipos de células foi obtida por cultura de células em meio isento de soro, essencialmente como descrito anteriormente [20]. As células foram cultivadas e mantidas em ar 95:5%:. CO

2 atmosfera a 37 °

microarranjos de DNA

Affymetrix GeneChip Genoma Humano U133 Além disso 2.0 de microarray (catálogo # 900466) foi usado, obtendo-se 12.760 sequências. PPME foram ensaiadas em triplicado, de cada uma amostra biológica em separado. células PANC-1 foram testadas em matrizes pentaplicate, dois de repetições biológicas distintas e outra réplica biológica executado em matrizes em triplicado. Cada conjunto foi composta de amostras isoladas a partir de células em proliferação (t = 0, em 10% de meio contendo soro fetal de bovino) e as células depois de 24 h em meio (diferenciação) isento de soro.

Deixe uma resposta