PLOS ONE: Previsão e Validação Experimental de Genes Novel STAT3 alvo em Humano do Câncer Cells

Abstract

A identificação completa de locais de ligação do factor de transcrição funcional (TFBSs) é um passo importante na compreensão de redes de regulação transcricional complexos. Este estudo apresenta uma abordagem comparativa baseada motivo, STAT-Finder, para a identificação de DNA funcional locais de fator de STAT3 transcrição de ligação. STAT-Finder combina STAT-Scanner, que foi projetado para prever TFBSs STAT funcional com sensibilidade melhorada e um alinhamento com base em motivo para minimizar as taxas de previsão de falsos positivos. Usando dois conjuntos de referência contendo sequências promotoras de genes-alvo STAT3 conhecidos, STAT-Finder identificados funcional STAT3 TFBSs com eficiência previsão melhorada e sensibilidade em relação a outras ferramentas convencionais de previsão TFBS. Além disso, STAT-Finder identificados novos genes alvo STAT3 entre um grupo de genes que são sobre-expressos em células de cancro humanas. A ligação da STAT3 ao TFBSs previu também foi confirmada experimentalmente por meio de imunoprecipitação da cromatina. Nosso método proposto fornece uma abordagem sistemática para a predição de TFBSs funcional que pode ser aplicada a outros TFs

Citation: Oh. YM, Kim JK, Choi Y, Choi S, Yoo JY (2009) Previsão e Validação Experimental de Genes Novel STAT3 alvo em células cancerosas humanas. PLoS ONE 4 (9): e6911. doi: 10.1371 /journal.pone.0006911

editor: Sridhar Hannenhalli, University of Pennsylvania School of Medicine, Estados Unidos da América

Recebido: 02 de abril de 2009; Aceito: 03 de agosto de 2009; Publicação: 04 de setembro de 2009

Direitos de autor: © 2009 Oh et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado por subsídios da concessão Coreia Ciência e Engenharia Foundation (KOSEF) financiado pelo MEST (R01-2008-000-20721-0) e ao Centro Núcleo de Pesquisa Nacional para Sistemas de Bio-Dynamics (R15-2004-033). J. K. Kim é apoiado por uma bolsa Microsoft Research Asia. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

a capacidade de qualquer sistema biológico para responder apropriadamente a estímulos depende fortemente da cascata bioquímica de vias de sinalização que culminam na activação de factores de transcrição (TFS) e a subsequente alteração dos padrões de expressão de genes [1]. Informação sobre quais os genes precisa de ser expresso num tipo específico de célula, em qualquer momento dado se crê ser codificada no genoma. A maquinaria molecular usada para interpretar tal informação genética evoluiu para garantir a precisão e especificidade da regulação genética. A transcrição é um processo multi-passo que requer a acção concertada de muitas proteínas. activadores da transcrição e repressores se ligam de uma forma específica de sequência de promotores ou potenciadores de genes alvo. Eles governam o recrutamento de trans-activadores, modificadores de cromatina, e fatores de transcrição gerais, incluindo RNA polimerase II, para regular a expressão do gene [2], [3].

abordagens genoma completo para medir padrões de expressão do genoma têm grupos de genes que são co-regulados para exercer respostas celulares espacial e temporalmente controlados [4] divulgados. Identificar os módulos reguladores responsáveis ​​que governam as ações coordenadas de fatores de transcrição combinatórias é crucial para a compreensão dos circuitos de regulação de processos biológicos [5]. Para este efeito, as ferramentas computacionais foram desenvolvidos para ajudar na identificação de locais de ligação do factor de transcrição (TFBSs) nos promotores dos genes co-regulados [6], [7], [8]. Estas abordagens computacionais podem ser divididos em duas classes: (1) detecção de padrões e (2) a correspondência de padrão. detecção de padrões, também conhecida como de novo descoberta motivo, encontra sítios de ligação putativos para TFs desconhecidos que estão sobre-representados nos promotores de genes co-regulados. Se a especificidade de ligação de um TF já é conhecido, os métodos de correspondência de padrões são preferidos [9]. Na abordagem de correspondência de padrão, informação da sequência de ADN de TFBSs é expresso como uma matriz de ponderação posição (PWM), o qual pode ser usado para marcar sítios reguladores potenciais dentro de um quadro estatístico [10]. No entanto, porque os locais de ligação de ADN para TFs são geralmente de curta duração e degenerados, este método está sujeito a altas taxas de falsos positivos de predição [11].

Com base na observação de que conserva sequências de ADN não codificantes são muitas vezes importantes para a regulação das funções biológicas, as comparações de sequência entre espécies foram activamente integrado para distinguir TFBSs funcionais e não-funcionais [12], [13], [14]. O acto de incorporar a informação da sequência evolutivamente conservada nas regiões reguladoras filtra o TFBSs não-conservados, portanto, reduzir consideravelmente a taxa de falsos positivos de predição [15], [16], [17], [18], [19]. Embora esta abordagem tem sido aplicada com sucesso para aumentar o poder preditivo de constatação motivo, é altamente sensível para o algoritmo usado para o alinhamento de sequência e a precisão do local de início da transcrição anotada (TSS) da informação. Por isso, tem sido relatado que os alinhamentos da sequência de promotor à base de muitas vezes não conseguem detectar elementos reguladores curtas ou degeneradas, sequências de promotor quando divergentes evolucionários são alinhados [12], [17]. Para superar estas limitações, um algoritmo livre de alinhamento com base na conservação do nível de rede, também tem sido sugerido [20].

transdutor de sinal e activador da transcrição 3 (STAT3) pertence à família de factores de transcrição STAT, da qual é activado por Interleucina-6 (IL-6) e citocinas relacionadas, como a IL-10, a oncostatina M (OSM), e factor inibidor da leucemia (LIF) [21]. Até agora, sete STATs mamífero (1, 2, 3, 4, 5a, 5b, e 6) foram identificados. Todos eles possuem um domínio de ligação ao ADN, um domínio SH2 para a dimerização, e um domínio de trans-activação no terminal C [22]. Após a estimulação com ligando extracelular, STAT3 activados forma homodímeros ou heterodímeros com outro membro da família STAT, STAT1, em seguida, transloca para o núcleo e se liga a cognato elementos reguladores nos promotores de genes STAT-responsivo. Acumulando evidências sugerem que a STAT3 também se associa com outros factores de transcrição para formar acentuassoma complexos nas regiões do promotor de genes alvo e controla o gene de indução cooperativa [23], [24], [25]. STAT3 está envolvido em diversas respostas celulares, incluindo a diferenciação celular, sobrevivência, a renovação das células estaminais, a cicatrização de feridas e inflamação sistémica; isto foi provado pelos fenótipos de ratos mutantes STAT3 geneticamente modificados [22], [26], [27], [28], [29]. Verificou-se que a STAT3 participa na carcinogénese, e que a expressão ectópica de uma forma constitutivamente activa de STAT3 (STAT3-C) induz a formação de tumores em ratinhos nus [30]. Além disso, a expressão da STAT3 constitutivamente activa tem sido observado em vários tipos de cancro humano, incluindo do mieloma múltiplo, do cólon, do ovário, do fígado, do pulmão, cabeça, pescoço e cancros [31]. Enquanto os mecanismos de trans-activação regulamentares e gerais de STAT3, foram exaustivamente estudados, não muito esforço tem sido feito para a identificação de genes-alvo diretos de STAT3. A identificação dos genes-alvo é crucial para mediar os diversos efeitos biológicos de sinalização STAT3.

Para caracterizar programas de transcrição mediada por STAT3, nós desenvolvemos uma estrutura computacional desenvolvido para prever STAT3 TFBSs com melhor sensibilidade e falso positiva baixa taxa. Através da integração dos dados de microarray obtidos a partir da condição de activação da STAT3 e as ferramentas de previsão TFBS, tentou-se identificar novos genes alvo STAT3. Utilizando o nosso programa de STAT-Finder, foram identificados oito novos genes alvo STAT3 entre um grupo de genes que são altamente expresso em células de cancro. Estes foram, em seguida, confirmada através de imunoprecipitação da cromatina.

Resultados

Visão de STAT-Finder

Para identificar genes alvo STAT3 diretos, desenvolvemos uma estrutura computacional que prevê TFBSs funcional da STAT3 com aumento da sensibilidade e baixa taxa de falsos positivos. O nosso quadro, STAT-Finder, foi construído com base em dois componentes computacionais, um programa de digitalização TFBS (STAT-Scanner) e um programa de alinhamento com base em motivo (Figura 1). STAT-Scanner foi projetado para aumentar a sensibilidade para detecção funcional STAT3 TFBSs. Um PWM específicos de STAT3 actualmente disponíveis de banco de dados TRANSFAC [32], V $ STAT3_01, frequentemente não é possível detectar sítios de ligação STAT3 comprovado experimentalmente (dados não mostrados). Para melhorar a capacidade de previsão, STAT-Scanner foi, portanto, concebido para utilizar PWMs combinadas de especificidade semelhante ao STAT3 vinculativo. Embora os membros da família STAT têm diferentes funções fisiológicas e regular conjuntos distintos de genes-alvo, os alvos de proteínas STAT individuais, por vezes, se sobrepõem, e as sequências de ADN reconhecidas por membros da família STAT são semelhantes [21], [22], [23].

STAT-Finder tem dois componentes: O primeiro módulo, STAT-Scanner, leva um conjunto de seis sequências de promotores de mamíferos ortólogos como entrada. Cada sequência do promotor é pesquisada para marcar TFBSs putativos utilizando os 8 PWMs relacionada-STAT modificados. Vinculativos índices de afinidade de TFBSs previstos são calculados com base no

P

-Valores, e uma sequência de índices de afinidade é gerado para cada promotor. O segundo módulo alinha progressivamente as sequências de pontuação e calcula probabilidade posterior para avaliar o grau de conservação motivo.

Para a identificação imparcial dos PWMs que a similaridade de sequência share com a PWM específicos de STAT3, V $ STAT3_01, um total de 565 PWMs derivado do banco de dados TRANSFAC vertebrado [32] foram agrupados com base na sua similaridade motivo (Figura S1). A semelhança motivo foi definido como o

P

-valor do alinhamento com hiatos entre os dois PWMs com base na divergência Kullback-Leibler [33] (Ver Métodos). Os números totais de aglomerados PWM aumentou com rigorosos

P

-valor de corte, alcançando números máximos de fragmentação de cerca de 10

-16

P

-valor (Figura S1A). Com o

P

-VALOR cut-off de 10

-7, PWMs atribuídos para os membros da família STAT foram encontrados no mesmo cluster. Vale ressaltar que PWM agrupamento não revelaram quaisquer PWMs não-STAT que eram semelhantes o suficiente para incluir Também não houve PWMs STAT que eram muito diferentes (Figura s1b). Nós escolhemos entre eles oito PWMs dos membros da família STAT com índices de qualidade alta PWM ( 0,6), onde cada índice de qualidade foi calculado usando o método proposto por Rahmann et al. [34]. A relevância dos PWMs selecionados para a detecção conhecido STAT3 TFBS foi avaliada em genes alvo STAT3 previamente identificados [35] (Figura S2).

Para minimizar previsões de falsos positivos, os resultados de STAT-Scanner foram então analisados ​​por meio de a ferramenta comparativa baseada no motivo de alinhamento (Figura 1). Este método encontra conservada sítios de ligação dentro dos promotores ortólogos de seis espécies de mamíferos, comparando várias sequências. Dentro de uma estrutura probabilística, STAT-Finder, em seguida, avalia as probabilidades posteriores de TFBSs como previsto por STAT-Scanner, atribuindo probabilidades anteriores superiores em sites conservados em detrimento das não-conservados.

Validação de STAT-Scanner

em primeiro lugar, comparou o desempenho de STAT-Scanner com as ferramentas mais práticas de previsão TFBS, JOGO 2.7 [36] e MotifLocator [37]. Para este efeito, foram coletadas genes positivas com sítios de ligação STAT3 experimentalmente comprovados em suas regiões promotoras através da mineração literatura e pesquisa TRED (https://rulai.cshl.edu/TRED) [38]. Resultando informação sobre as sequências de referência 22 são listadas na Tabela S1. sequências de ADN genómico que vão desde 2.000 bp a montante para 500 pb a jusante do TSS anotada de cada gene foram usados ​​como sequências do promotor de entrada. Previsão do verdadeiro TFBSs positiva foi, em seguida, representados graficamente como uma função do total previsto Quantidade de TFBS para diferentes valores de corte. Como mostrado na Figura 2A, STAT-scanner, que utiliza combinada PWMs relacionada-STAT3, e supera FÓSFORO MotifLocator, ambos os quais utilizam o representante STAT3 PWM (V $ STAT3_01). Nós acreditamos que o poder preditivo melhorada do STAT-Scanner foi em parte devido ao uso de PWMs STAT3 relacionadas combinadas, especialmente desde que o poder preditivo de MotifLocator também aumentou quando PWMs combinados foram usadas (Figura S3).

Curves para as alterações do número de verdade TFBSs positiva detectada usando MotifLocator (V $ STAT3_01), MATCH (V $ STAT3_01), ou STAT-Scanner, em função do número total de previu TFBSs (a) no conjunto de referência da meta 22 STAT3 genes (Tabela S1) e (B) no conjunto de dados STAT3 ChIP-Seq do genoma [39].

Nós também avaliou o desempenho de STAT-Scanner usando dados de ligação STAT3 genoma escala obtidos utilizando As células estaminais embrionárias [39]. Dos 461 genes com picos nas regiões do promotor de 2,5 kb de ligação STAT3, 412 ter sido previsto com precisão por STAT-Scanner para ter pelo menos um STAT3 TFBS (Figura 2B). O desempenho global de STAT-Scanner foi melhor do que as de ambos FÓSFORO e MotifLocator, como a detecção do mesmo número de verdadeiros locais de ligação foi alcançada por ambos significativamente mais baixos com o número total de locais previstos. Embora PARTIDA e MotifLocator desempenho semelhante ao STAT-Scanner na detecção de cerca de 50% da verdadeira STAT3 TFBSs, este último supera tanto pela prever com precisão os verdadeiros restantes sítios. Acreditamos que este é em parte devido ao uso de PWMs relacionadas-STAT combinados que tem a capacidade de melhorar o desempenho de MotifLocator, embora menos do que o aumento de STAT-Scanner, com dados combinados derivados de múltiplas PWMs (Figura S4). O desempenho relativo de ambos os métodos é baixa comparada com a de STAT-Scanner; isto pode ser explicado pelo fato de que suas pontuações nos locais previstos não são directamente comparáveis ​​entre os diferentes PWMs, mostrando assim a importância do nosso esquema de pontuação na integração de jogos para diferentes PWMs. Estes resultados também indicam que a sobreposição de PWMs com especificidade de ligação semelhantes são fundamentais para o desenvolvimento de melhores estratégias para detectar TFBSs funcional da STAT3 com alta precisão preditiva.

Características do funcional STAT3 TFBS

A última palavra objectivo de previsão computacional é detectar TFBSs funcional com um elevado grau de confiança. Para filtrar a TFBSs falso positivo com altos escores de afinidade, examinamos várias limitações funcionais, tais como estrutura evolutiva conservação e genoma de regiões STAT3 TFBS previstos. conservação da sequência entre várias espécies tem sido comprovada para restringir TFBS funcional [16], [17], [40]. Portanto, numa primeira fase, a distribuição dos escores de múltiplas espécies de conservação (PhastCons Score) [41] e potenciais reguladoras (escore RegPotential) [42] para as posições nas características funcionais e não-funcionais STAT3 TFBSs detectados pelo STAT-Scanner usando o conjunto de referência de 22 Tabela genes (S1). Por conveniência, nós considerado um TFBS funcional se foi apoiado por dados de ligação STAT3 experimental; caso contrário, o TFBS foi considerado não-funcional. A distribuição de pontos PhastCons para o não-funcional TFBSs STAT3 foram desviada para zero, enquanto PhastCons pontuações para cerca de 50% da STAT3 funcional TFBS excedeu 0,1 (Figura 3A). Em contraste, a distribuição das pontuações RegPotential, que medem a semelhança de padrões para os dos elementos reguladores conhecidos, era semelhante para as posições do funcional e não funcional STAT3 TFBSs (Figura 3B). Em seguida, investigaram-se as características da ilha CpG de metilação resistente das regiões STAT3 TFBS contendo. Sobre-representação das sequências de ligação para factores de transcrição específicos, tais como as proteínas de dedo de zinco, em ilhas de CpG tem sido relatado anteriormente [43]. A maior parte da STAT3 TFBSs previu estão localizados no interior de CpG ilhas [44], mas a distribuição genómico não é significativamente alterada entre a funcional e não funcional STAT3 TFBSs (Figura 3C). elementos repetida [45] na sequência genómica pode comprometer as funções de factores de transcrição, como nenhum dos funcional TFBSs STAT3 foram identificadas dentro das regiões repetidas (Figura 3D). Em resumo, conservação motivo, uma restrição importante que distingue entre funcionais e não-funcionais STAT3 TFBSs, foi, portanto, incluído no STAT-Finder.

PhastCons (A) pontuação, (B) pontuação potencial regulatório, (C ) Percentual na ilha CpG, eo percentual (D) na região de repetição.

Validação de STAT-Finder

a seguir, avaliou o desempenho de STAT-Finder em comparação com outros comparativa métodos, ou seja, EEL [46] e CONREAL [12]. Dado que EEL realiza o alinhamento de pares com base nos jogos para um único PWM, comparamos o desempenho da EEL usando cada PWM (V $ STAT3_01 e V $ STAT1_01) separadamente. Enquanto isso, o desempenho de CONREAL foi examinada através da combinação de ambas as PWMs. Nós testamos a precisão da previsão de STAT-Finder nos dois conjuntos de dados positivos com ligações STAT3. STAT-Finder exibiu um melhor desempenho comparado com EEL utilizando V $ STAT3_01, enguia utilizando V $ STAT1_01, ou em comparação com CONREAL na predição verdadeira STAT3 TFBSs nos 22 genes previamente identificados positivos (Figura 4A). Note-se que tanto EEL e CONREAL não conseguiu detectar cerca de 40-60% de verdadeiros locais STAT3 positivos mesmo com o valor mínimo de corte, enquanto STAT-Finder encontrado todos estes. Estes dados indicam que STAT-Finder apresentaram melhor desempenho em termos de encontrar verdadeiro positivo STAT3 TFBSs que os outros programas comparativos desperdiçada. Ele tornou-se mais evidente quando procurou STAT3 TFBSs usando EEL ou CONREAL nos conjuntos de dados com ligação STAT3 genome-wide. Embora o desempenho global do STAT-Finder foi semelhante à enguia na detecção de 56% do verdadeiro STAT3 TFBSs, única STAT-Finder foi capaz de detectar os restantes 30% dos verdadeiros locais (Figura 4B). Os nossos dados sugerem que a melhoria da sensibilidade de STAT-Finder poderiam ser atribuídas ao uso da PWMs relacionada-STAT combinados, o que, evidentemente, superou as limitações de desempenho V $ STAT3_01.

curvas para as alterações do número de verdadeiro (; PWMs combinadas de V $ STAT3_01 e V $ STAT1_01 Todos), ou STAT-Finder, em função do número total de previu TFBSs (a) nos sites detectados usando EEL (V $ STAT3_01 ou V $ STAT1_01), CONREAL vinculativo conjunto de referência de 22 genes (Tabela S1) e (B) no conjunto de dados STAT3 ChIP-Seq do genoma [39].

Nós próxima tentativa de previsão do genoma da STAT3 obrigatório em todos o promotor humano regiões. Para este efeito, estimou-se em primeiro lugar o valor de corte do escore de conservação motivo (MCS) para identificar conservada funcional STAT3 TFBSs. O grau de conservação dos TFBS previsto, o que foi determinado pelo cálculo MCS, foi integrado com os índices de afinidade por STAT-Scanner (ver métodos). A pontuação de confiança em cada MCS foi avaliada utilizando as sequências do promotor de 2,5 kb de genes humanos todos anotados e genes ortólogos de camundongo. A pontuação de confiança determina a probabilidade que uma determinada TFBS não é conservada por acaso. Como valores de corte de MCS aumentado, o número total de previu STAT3 TFBSs diminuiu a uma velocidade mais lenta do que o número médio de ocorrências alinhadas de motivos de controlo, resultando em contagens de confiança aumentada no MCS valores superiores a 0,9 (Figura S5). Usando STAT-Finder, foi realizada uma busca em todo o genoma para STAT3 TFBSs nas regiões promotoras humanos. Entre os genes humanos com 15461 ortólogos identificados no ratinho, cerca de 7600 genes foram previsto para ter locais de ligação putativo STAT3 dentro da região do promotor de 2,5 kb, no limiar de probabilidade de 0,9. enriquecimento significativo da STAT3 TFBSs poderia ser previsto para as regiões situadas a montante proximais do TSS usando STAT-Scanner e STAT-Finder [35], [39] (Figura S6).

Identificação de genes alvo STAT3 romance no câncer células

a activação constitutiva de STAT3 e a sobre-expressão do seu gene alvo tem sido sugerido que desempenham papéis críticos na carcinogénese humana [12], [31], [47], [48], [49], [ ,,,0],50]. Para determinar se ou não STAT-Finder é útil na identificação de novos genes alvo STAT3, foi aplicado este programa a um grupo de genes que são sobre-expressos em células de cancro humanas. Nós integrado dados de microarray obtidos a partir do mapa módulo de expressão de genes regulados positivamente em cancro [51] e os dados derivados a partir das células A549 que sobre-expressam uma forma constitutivamente activa da STAT3 [52].

Entre os 33 genes que são geralmente sobre-regulada, onze já sido relatado para ser regulada por STAT3 (Tabela 1). Usando este grupo de genes, examinamos se ou não STAT-Finder poderia detectar experimentalmente comprovada STAT3 TFBSs. Vale ressaltar que fomos capazes de analisar apenas uma fração das sequências de promotores, principalmente devido ao uso de promotor alternativo e as informações TSS mal anotado disponível. STAT-Finder detectados três sítios de ligação putativos STAT3 no

JUNB e região promotora incluindo um site que foi previamente relatado para ser um local de ligação STAT3 [53] (Figura 5A). Usando três linhas diferentes de células derivadas de pacientes com câncer humanos, confirmamos STAT3 ligação ao

JUNB

promotor de cromatina imunoprecipitação (Figura 5B). STAT-Finder também detectada com sucesso um STAT3 TFBS no N-metiltransferase nicotinamida (

NNMT) a região do promotor, um gene alvo STAT3 recentemente identificado [54] (Figura 5C, D). Curiosamente, STAT-Finder foi incapaz de detectar conhecido STAT3 TFBS no MYC

e região promotora (Figura 5E), mesmo que

MYC

tem sido relatada a ser um alvo STAT3 [55]. Também tem sido relatado que a STAT3 se ligar à região do promotor da

MYC

gene requer um local que é diferente do consenso da STAT3 sequências de ligação, mas é semelhante a E2F TFBS, indicando que, neste caso, a STAT3 ligação depende da presença de outros factores de transcrição [55]. Usando conjuntos de iniciadores que detectam conhecidos locais de ligação STAT3 no

promotor MYC

, fomos capazes de confirmar a sua vinculativa para IL-6 estimulação em células HepG2 (Figura 5F). Estes resultados sugerem que STAT-Finder pode detectar de forma eficiente sítios de ligação para STAT3 somente se a sua ligação não depende da presença de outro

cis

ou

fatores trans.

( a, C, e) a pontuação afinidade de STAT-Scanner (topo) e a probabilidade posterior de STAT-Finder (meio) da STAT3 previu são plotados nas janelas de correr para uma região promotora de 2,5 kb em todo o

JUNB

(A),

NNMT

(C), e

MYC

(e) loci genômica. A praça aberta no fundo indica os TFBS previstas com a probabilidade posterior superior a 0,95; enquanto que o asterisco (*) na região promotora descreve o conhecido STAT3 TFBS. (B, D, F) Análise de imunoprecipitação da cromatina com um anticorpo anti-STAT3: Relatado STAT3 TFBSs de

JUNB

(B),

NNMT

(D), e

MYC

(F) foram amplificados por PCR utilizando os iniciadores sítios de ligação específicos (*) a partir da entrada e os lisados ​​celulares imunoprecipitados, derivados do não-estimulada ou IL-6 (10 ng /mL) + IL-6sR (10 ng /ml) estimulada por HepG2, A549 e MDA-MB-231.

A seguir, examinar se podemos ou não identificar novos genes alvo de STAT3 usando STAT-Finder. Para este efeito, foram selecionados genes com TSS conservada (Tabela 1) e determinou-se a presença de putativa STAT3 TFBSs usando STAT-Finder em suas regiões promotoras. STAT-Finder detectado com sucesso putativo STAT3 TFBSs com altas probabilidades nas regiões promotoras dos

AKAP12

(A-quinase ancoragem de proteína 12),

HIC2

(hiper-metilado no câncer 2), e

THBS1

(trombospondina 1). STAT3 ligação a estes locais previstos foi experimentalmente confirmada por ensaio de chip (Figura 6A-F). Para verificar a especificidade de STAT-Finder, também ensaiada a ligação de STAT3 para os locais que não foram conservados, mas estavam presentes nos promotores de genes ortólogos humanos. Em contraste com a STAT3 TFBSs conservado, não foi possível detectar a ligação a STAT3 STAT3 TFBSs não conservada em linhas celulares de cancro humano (Figura 6G). STAT3 ligação a outra previu STAT3 TFBSs presente nas regiões promotoras dos

ATF3

(fator ativador de transcrição 3),

DUSP5

(dual especificidade fosfatase 5),

SERPINE1

(serpin inibidor da peptidase, classe e),

NP

(nucleosídeo fosforilase), e

SLC2A3

(soluto família transportadora 2, facilitou transportador de glicose, membro 3) também foram validadas experimentalmente (Figura S7). Finalmente, estudamos ou não outras ferramentas de computação, tais como EEL ou CONREAL também poderia detectar com precisão locais alvo STAT3 que foram identificados e validados neste estudo. De 10 sequências de promotor contendo sítios de ligação experimentalmente comprovadas 10 STAT3 (Figura 5, 6 e S7), STAT-Finder previsto um total de 29 locais de ligação STAT3, incluindo todos os 10 locais de ligação STAT3 experimentalmente validadas. Enquanto isso, EEL e CONREAL detectado apenas 5 (50%) e 2 (20%) validado sítios de ligação STAT3 entre 23 e 6 previsões total, respectivamente, indicando, assim, que o STAT-Finder tem melhor desempenho em termos de identificação de novos genes alvo de STAT3 ( Figura S8).

(A, C, e) A pontuação afinidade (top, STAT-Scanner) e probabilidade posterior (meio, STAT-Finder) do previsto STAT3 TFBSs são plotados nas janelas de correr para um 2.5 região -kb promotor do outro lado da

AKAP12

(a),

HIC2

(C), e

THBS1

(e) lócus genômico. A praça fechada na parte inferior indica os TFBS previstas com posterior probabilidade de 0,5; enquanto o quadrado amarelo mostra os TFBS previstos sem conservação. (B, D, F) Análise chip com um anticorpo anti-STAT3. Putativo STAT3 TFBSs do

AKAP12

(B),

HIC2

(D), e

THBS1

foram amplificados por PCR utilizando os conjuntos de iniciadores indicadas pelas setas inversas. (g) Análise chip com um anticorpo anti-STAT3. Previu TFBSs sem conservação no ser humano

AKAP12

,

HIC2

, e

THBS1

genes foram amplificados por PCR utilizando os conjuntos de iniciadores indicadas pelas setas inversas.

Discussão

Nós apresentamos um quadro computacional para a identificação funcional STAT3 TFBSs em promotores de mamíferos. O primeiro compartimento, STAT-Scanner, foi projetado para prever funcional STAT3 TFBSs com maior sensibilidade. Ao usar alinhamentos comparativos com base em motivos, STAT-Scanner estava ligada a STAT-Finder para minimizar previsões falsos positivos. Nosso método proposto foi testado usando genes alvo STAT3 previamente identificados e foi aplicado com sucesso na identificação de novos genes alvo.

A nossa estratégia no desenvolvimento de STAT-Finder se baseou em vários pressupostos. Em primeiro lugar, a especificidade de ligação de DNA da STAT3 é partilhada por outros membros da família STAT. factores de transcrição STAT ligam-se a sequências de ADN semelhantes, e a especificidade de vários factores de transcrição STAT, tais como STAT1, STAT5A /5B, ou STAT6, ligação ao ADN semelhante foram experimentalmente provado [56]. Também tem sido observado que a integração dos resultados sobrepostos detectados por matrizes dos mesmos membros da família reduz grandemente o número do total previsto TFBSs, e, consequentemente, diminui a taxa de detecção de falsos positivos [57]. Além disso, foi recentemente relatado que cerca de metade do TFS reconhecer vários motivos da sequência [58]. Portanto, uma abordagem de varrimento motivo convencional utilizando uma única PWM para cada TF tem uma limitação intrínseca na detecção de todos TFBSs funcional. Como resultado, o poder preditivo de STAT-Scanner foi significativamente melhorada pela integração PWMs relacionados-STAT. A segunda hipótese, utilizado nos alinhamentos com base em motivos, é que as localizações relativas de TFBSs funcional são conservadas entre as espécies de mamíferos e outras semelhantes. Em leveduras, altamente conservada TFBSs para um conjunto de TFs apresentam desvios espaciais relativamente baixas (~150-200 pb) [20]. Da mesma forma, verificou-se que, durante seis espécies de mamíferos, conhecido STAT3 TFBSs estão localizados dentro de uma distribuição espacial semelhante em cada promotor.

Usando STAT-Finder, nós identificamos uma lista de genes alvo STAT3 que estão sobre-expressos em células cancerosas humanas. Da mesma forma, a STAT3 ligação ao TFBSs previsto foi experimentalmente verificado nos níveis de IL-6 estimulada linhas celulares de cancro humano. Curiosamente, a STAT3 foi recrutado para os TFBS preditos de uma forma específica do tipo de célula. Por exemplo, a STAT3 ligação ao TFBSs previsto nas regiões promotoras do

AKAP12

e

HIC2

genes foi observada em un-estimulado, mas não de IL-6 estimulada A549 e MDA-MB- 231 células. No entanto, nas células HepG2, STAT3 foi recrutado para o mesmo TFBS somente após a estimulação de IL-6 (Figura 6). Em contraste, a STAT3 ligação para as regiões promotoras de

MYC

,

SERPINE1

,

NP

, e

SLC2A3

foi apenas detectável nos níveis de IL-6 estimulada As células HepG2, mas não em A549 ou células MDA-MB-231 (Figura 6, Figura S7). Além disso, é evidente que a STAT3 ligação ao TFBSs previsto nos promotores dos genes alvo candidato não garante a expressão desse gene. Embora a expressão da maior parte dos genes alvo tinha sido alterado por ligação ao promotor de STAT3, nós descobrimos que a STAT3 ligação a locais alvo não sempre se correlaciona com a expressão de genes em linhas de células testadas (Oh, YM, dados não publicados). Isto sugere que a STAT3 ligação a locais alvo não é suficiente na expressão do gene induzir, e factores de transcrição específicos de tecido, ou trans-activadores que especificando modificação na região da cromatina pode também ser necessária [59], [60], [61], [62].

a

cis

módulo -regulatory compreende um conjunto de múltiplas TFBSs que cooperativamente-interagem com o TFS para controlar a expressão do gene. A identificação de

cis

módulos -regulatory de regulação gene específico é um passo desafiador para as redes reguladoras compreensão da transcrição do genoma em genomas de mamíferos. Portanto, é necessário prever eficientemente TFBSs funcional para TFs individuais. Esperamos que a nossa abordagem comparativa pode ser aplicado a outros TFs com algumas restrições. Em primeiro lugar, a eficiência de nosso programa depende do grau de conservação evolutiva entre as seis espécies de mamíferos. Portanto, os locais de ligação de DNA para TFs envolvidos na regulação de genes específicos de espécies não podem ser previstos. É digno de nota que o ganho frequente ou perda de TFBSs nas regiões intergênicas leva à evolução dos circuitos de transcrição [63]. Em segundo lugar, o nosso programa não pode ser aplicada para TFs que dependem de proteínas de ligação de recrutamento de outro ADN no ADN. Em terceiro lugar, porque nós só comparou 2 kb de sequência promotora a montante em relação ao TSS anotada, locais de ligação de ADN do TFS que são enriquecidos nas regiões distais à TSS pode ser negligenciado pelo nosso programa.

Deixe uma resposta