PLOS ONE: miRConnect: identificação de genes efetoras de miRNAs e miRNA Famílias em células cancerosas

Abstract

micro (mi) RNAs são pequenos RNAs não-codificantes que regulam negativamente a expressão da maioria dos mRNAs. Eles são reguladores potentes de diversas fases de diferenciação, e é esperado que a expressão de genes que quer negativamente ou positivamente correlacionados com miARNs expressos para armazenar informações sobre o estado biológico da célula e, consequentemente, da função dos miARNs expressos. Comparamos a grande quantidade de dados de arranjo de genes disponíveis no sistema de estado estacionário das linhas celulares NCI60 a dois conjuntos diferentes de dados contendo informação sobre a expressão de 583 miARNs individuais. Além disso, temos gerado conjuntos de dados personalizados contendo informações de 54 miRNA famílias que compartilham o mesmo jogo semente expressão. Nós desenvolvemos uma nova estratégia para correlacionar miRNAs com genes individuais com base em uma resumiu Pearson coeficiente de correlação (SPCC) que imita um

in silico

experimento de titulação. Centrando-se sobre os genes que se correlacionam com a expressão de miRNAs sem necessariamente ser alvos diretos de miRNAs, temos agrupado miRNAs em diferentes grupos funcionais. Isto resultou na identificação de três novos miARNs que estão relacionadas com a transição epitelial-a-mesenquimal (EMT) para além dos reguladores conhecidos de EMT

miR-200

família miARN. Além disso, uma análise de assinaturas de genes associados com a actividade de EMT, c-myc, e expressão do gene da proteína ribossomal permitiu-nos atribuir actividades diferentes para cada um dos grupos funcionais de miARN. Todos os dados de correlação estão disponíveis através de uma interface Web que permite aos investigadores para identificar genes cuja expressão está correlacionada com a expressão de miARN individuais ou famílias inteiras de miARN. miRConnect.org irá auxiliar na identificação de vias reguladas por miRNAs sem a necessidade de conhecimento específico de alvos de miRNA

Citation:. Hua Y, Duan S, Murmann AE, Larsen N, KJEMS J, Lund AH, et al. (2011) miRConnect: identificação de genes efetoras de miRNAs e Famílias de miRNA em células cancerosas. PLoS ONE 6 (10): e26521. doi: 10.1371 /journal.pone.0026521

editor: Lin Zhang, da Universidade da Pennsylvania School of Medicine, Estados Unidos da América

Recebido: 16 de setembro de 2011; Aceito: 28 de setembro de 2011; Publicação: 26 de outubro de 2011

Direitos de autor: © 2011 Hua et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Esses autores não têm apoio ou financiamento para relatar

Conflito de interesses:.. Os autores declararam que não existem interesses conflitantes

Introdução

Micro (mI) RNAs são pequenos, 19- de 22 nucleótidos de comprimento, RNAs não-codificantes que regulam a expressão do gene na maior parte por segmentação da 3’UTR do ARNm, resultando em reduzida tradução de proteínas ou a degradação de ARNm. miARNs são reguladores fundamentais de diferenciação celular e os processos de desenvolvimento. Eles também têm sido reconhecida como sendo altamente relevante em formação e progressão de cancro [1]. Recentemente demonstrou-se que quase todos os genes humanos estão sob o controlo de miARNs [2]. No entanto, porque miRNAs regulam a expressão de centenas de genes-alvo [3], e muitos genes são alvos de vários miRNAs [4], a atribuição de funções biológicas para miRNAs ou famílias miRNA tem sido uma tarefa difícil.

miRNAs contêm na sua extremidade 5 ‘de um pequeno trecho de 6-8 nucleotídeos complementares para o jogo semente no mRNA alvo. Esta complementaridade é acessível a análise computacional e vários algoritmos foram desenvolvidos para prever alvos de miARN [5]. No entanto, as previsões alvo feitos com esses algoritmos não são precisos o suficiente para deduzir a função biológica de miRNAs exclusivamente com base nas listas de metas previstas. a validação do alvo é geralmente feito por qualquer miARNs que sobre-expressam ou através da inibição da sua função, seguido por medição das alterações no ARNm ou os níveis de proteína em células transfectadas [2], [6]. No entanto, tanto a superexpressão e inibição de miRNAs têm ressalvas [7] e não é claro se as mudanças observadas no nível de proteína mRNA e são o resultado de regulação direta por miRNAs ou são o resultado de alterações a jusante dos genes miRNA-alvo.

Temos recentemente utilizadas as células NCI60 [8], um painel de 60 linhas celulares de cancro mantidos no NCI, para identificar e validar as conexões entre miRNAs e seus alvos. pontos de dados matriz imperturbável sobre os níveis de centenas de miRNAs e mais de cem mil sondas de genes em múltiplas plataformas de matriz expressão fazem as células NCI60 um sistema único para identificar câncer de conexões relevantes entre miRNAs e genes regulados por miRNAs. Usando o sistema NCI60 que anteriormente validado

HMGA2

e

IMP1

como alvos do

let-7

família de miRNAs [9], [10]. Além disso, foram identificados os membros da

miR-200

família e validados dois fatores de transcrição de ligação E-box,

ZEB1

e

ZEB2

como alvos [11]. Mais recentemente, validou a tirosina fosfatase

FAP1

como um

miR-200

alvo [12]. Estes exemplos demonstram o poder dos dados NCI60 define miARNs para conectar com os seus alvos. No entanto, a identificação de alvos de miRNA único sem um contexto celular ou o conhecimento de todas as metas de um miRNA torna difícil para se conectar miRNAs com a biologia ou patologia. Nossos estudos de

let-7

e

miR-200

nas células NCI60 também permitiu a previsão e confirmação da função biológica destes miRNAs.

let-7

foi encontrado para ser um marcador de células cancerosas diferenciadas [9], [13], e

miR-200

foi identificado como um marcador poderoso e regulador do epitélio-a transição -mesenchymal (EMT) [11], [14].

a maioria das nossas descobertas foram feitas comparando miRNA e os níveis de expressão de mRNA, que na época era surpreendente, considerando que miRNAs em células de mamíferos se acreditava principalmente agir por silenciamento de translação sem afetar os níveis de expressão de mRNA. No entanto, também foi demonstrado que o ARNm de abundância da maioria dos genes alvo foi pouco afectada pela miARNs [15], [16]. Apesar de ainda haver controvérsia sobre a forma predominante em que miARNs regular a expressão do gene de [17], um estudo recente sugeriu que, para um número substancial de genes alvo por miARNs, desestabilização do ARNm é o principal mecanismo de repressão proteína por miARNs [18] , uma observação que faz com que os dados NCI60 ARNm /miARN define uma ferramenta valiosa para estudar a função de miARN em células cancerosas.

células, quer com inibidores de miARN miARNs ou transfectar geralmente resulta em mudanças na abundância de um grande número de mRNAs. Curiosamente, os mRNAs que são regulados negativamente pelo miARNs são encontrados, bem como um grande número de ARNm que se correlacionam de forma positiva com a expressão de miARN. Estas alterações nos níveis de ARNm foram geralmente consideradas como sendo causadas por genes co-regulados com miARNs ou eventos a ser secundários. De facto, é provável que a maioria dos genes cuja expressão responde a alterações na expressão de miARN não são alvos directos da miARN

per se

, mas são efectores biológicos relevantes para a função da miARN. Especialmente quando detectado com o sistema de estado estacionário das células NCI60, estes genes efetoras biológicos podem conter informações importantes sobre a função endógena de miRNAs. Esta foi a mais óbvia para

miR-200

. Uma pequena mudança na

miR-200

expressão (cerca de 2 vezes) resultou em uma mudança moderada nos níveis de mRNA de suas metas

ZEB1

e

ZEB2

(cerca de 5-7 vezes), o que resultou em uma grande mudança no

E-caderina

/

Vimentin

proporção (mais de 8 ordens de magnitude) [11]. A enorme correlação positiva entre a expressão de

miR-200 Comprar e

E-caderina

/

Vimentin

rácio nos permitiu atribuir a função de “regulador epitelial” ao família miR-200, mesmo antes tínhamos identificado

ZEB1

e

ZEB2

como alvos. Estimulados por esta análise, temos agora utilizado o sistema NCI60 para identificar os dispositivos de correlação secundários de miARN (que pode ser de milhares, como no caso de EMT [19]) em uma ampla análise do genoma, como eles podem conter informações importantes sobre a biológica estado de uma célula.

Temos desenvolvido um novo método para agrupar famílias miRNAs ou miRNA de acordo com suas correlators biológicas ao invés de suas metas previstas ou a sua co-localização cromossômica ou a sua expressão específica de tecido. miARNs foram agrupados em grupos funcionais distintos de acordo com a expressão dos genes efectores biológicos. Temos validado a atividade de um desses grupos, que contém todos os membros da

miR-200

família, na regulação da natureza epitelial de células. Isto resultou na identificação de três novos miARNs,

miR-7

,

miR-203

e

miR-375

, para funcionar na manutenção epitelial. Além disso, foram identificados grupos de câncer relevante miRNAs que são ou promotores de crescimento ou suprimir o crescimento na natureza com base na correlação de sua expressão com a expressão de qualquer proteínas ribossomais ou genes

c-MYC

regulamentados. Nós criamos uma interface baseada na web, miRConnect.org, que fornece uma ferramenta robusta e fácil de usar para os investigadores para identificar conexões novas entre miRNAs ou famílias de miRNA e grupos de genes que são marcadores de vários estados biológicos.

resultados

Geração de correlações entre miRNA e expressão gênica

a fim de explorar as atividades biológicas de miRNA que primeiro estabeleceu as correlações entre a expressão dos miRNAs e genes. Temos feito uso de vários conjuntos de dados disponíveis para as células NCI60 (linhas 59 celulares): 1) o perfil de 208 miRNAs humanos quantificados por PCR em tempo real (o “Q” conjunto de dados) [20] expressão; 2) quatro conjuntos de perfis de expressão genética humana (Stanford, GENELOGIC_U95, GENELOGIC_U133 e Novartis) disponíveis no servidor NCI Developmental Therapeutics Program (DTP) de dados. No conjunto de dados Q, 136 miARNs foram definidos como sendo expresso em níveis detectáveis ​​(tal como avaliado por PCR em tempo real) em pelo menos 30 de 59 linhas de células (Tabela S1). As células NCI60 representam 9 cancros diferentes. O ponto de corte de 30 linhas de células foi escolhido para incluir pelo menos metade de linhas celulares, e para assegurar que, pelo menos, quatro origens de tecidos diferentes foram representados. Uma vantagem do sistema é a capacidade NCI60 de combinar expressão endógena miARN indivíduo de uma maneira representada pela correlação com a expressão de genes a expressão de toda uma família de miARN (isto é, todos os 9 let-7 actividades representadas no conjunto de dados Q). Os 136 miRNAs continha membros de 24 famílias de sementes (miRNAs que compartilham a mesma sequência de sementes com mais de um membro da família, Tabela S2). Além disso, devido à sua função de sobreposição previsto, que gerou uma família feita sob encomenda adicional de todos os membros da família miR-200; miR-200 se subdivide em duas famílias diferentes de sementes, o miR-141 /200A e miR-200BC /429, que se distingue por uma única diferença de nucleótido no centro da sequência de semente [11], [14].

A mais comum e uma estratégia para explorar associações miRNA-de genes bem definido é o coeficiente de correlação de Pearson (PCC) [21], [22]. Embora o CCP é uma ferramenta poderosa para detectar correlações, ela tem limitações. Por exemplo, PCC dá um peso igual de cada amostra a ser medida (por exemplo, uma linha celular, de um tecido específico ou de uma amostra de doente). Ele não faz distinção entre as amostras com elevada expressão e aqueles com baixa expressão. Isto pode conduzir a uma distorção da análise de correlação, porque: 1) o nível de miRNAs expressão contém informações importantes sobre regulamentação; e 2) é mais provável que existem nas amostras que contêm genes de expressão baixo ruído. Por isso, pensou em uma maneira de superar algumas destas limitações. Uma solução seria atribua pesos diferentes para níveis de expressão elevados e baixos. No entanto, porque o cálculo de PCC não é um processo linear, não é prático para adicionar pesos directamente para cada amostra. Em vez disso, a ponderação ao nível da seleção da amostra foi encontrado para ser mais prático, uma vez PCCs de diferentes matrizes de dados de linha de células poderiam ser somados e a modelagem correspondente seria novamente linear. Com base nesta análise, foi desenvolvido um novo método, o “PCC resumido” (SPCC). Um padrão (directo) de PCC (DPCC), foram aplicados a SPCC e um aleatorizado SPCC (rsPCC) para gerar correlações entre a expressão de miARN e genes, para testar a reprodutibilidade das correlações e explorar a biologia particular de como miARNs trabalho.

direto (d) PCC

neste método foi realizada uma análise padrão COMPARAR [23], que produz PCCs, para identificar mRNAs que se correlacionaram com a expressão de cada um dos 136 miRNAs. Nesta e em todas as análises subsequentes COMPARAR definimos 30 como o número mínimo de linhas celulares detectáveis. Para normalizar a variação de detecção entre as sondas, respectivamente, incluídos nas quatro plataformas conjunto de genes, os CCPs-se a média para cada gene. Este método deu um valor de PCC para cada ARNm que significativamente correlacionada com a expressão de um miARN.

Resumida (s) de PCC

Neste método (ilustrada na Figura S1) que interferem no processo de cálculo de correlação miARN-mRNA adicionando-se uma série de valores de PCC que mimetizam uma “titulação” de miARN classificando as linhas celulares de acordo com a sua expressão de miARN. Para cada par de miRNA-mRNA, resolvemos expressão miRNA em 59 linhas de células maior para o menor, e selecionou os 30 melhores linhagens de células como a condição inicial, porque estas 30 linhas celulares representava a metade superior de todas as linhagens celulares e células a partir incluído pelo menos 4 origens de tecidos diferentes. Foi realizada uma análise COMPARE para estas linhas 30 celulares (padrão 30). Em seguida, a linha celular com o posto No. 31 e foi incluída uma análise COMPARAR foi repetido para estas linhas de células (31) 31 de teste padrão. análises repetidas COMPARE foram realizadas até todas as linhas de células 59 foram incluídos de maneira incremental, e um total de 30 valores de PCC foram gerados (padrão 30 padrão de 59). Nós não utilizar uma janela deslizante de tamanho fixo (1-30, 2-31, …, 30 a 59), porque nós sempre quis incluir as linhas de células com a mais alta expressão de um miRNA esperando para ter o maior efeito no alvo /genes efectores nestas linhas celulares. Este método aditivo pesos atribuídos de uma forma gradiente (ou titulação) com base nos níveis de expressão de miRNA. As 30 linhas de células com a expressão mais elevada foram sempre incluídos em cada COMPARAR cálculo e pesos mais elevados atribuídos, já que esperava que os maiores efeitos sobre genes-alvo /efetoras destas linhas celulares. As somas PCC foram calculados para cada gene entre as plataformas de matriz de quatro genes.

randomizados somados (rs) PCC

A fim de testar a estabilidade e reprodutibilidade do método SPCC, foi elaborado um estudo randomizado a partir de SPCC como um controlo interno. A única diferença entre este método e o método de CCF foi de que as linhas celulares foram classificados de um modo aleatório. Para cada par de miRNA-mRNA, a classificação randomizado foi repetido 10 vezes e as 10 rsPCCs foram em média.

O método SPCC detecta com precisão ambos os genes efetoras a jusante e previu metas correlacionados com miRNAs

É conhecido a partir de vários estudos que, embora alterando os níveis de expressão de miRNA em células cancerosas faz com que tanto para cima e para baixo regulação dos genes, miRNAs predominantemente trabalhar através da regulação negativa de genes efetoras a jusante [15], [16]. Para testar esta observação com os nossos métodos, foram calculados os valores da razão log2 de todos negativos contra todas as correlações positivas para 136 miRNAs, respectivamente, com os três métodos (DPCC, SPCC e rsPCC). Uma comparação da distribuição de 136 valores de relação demonstrado que as correlações negativas em menor número significativamente positivos na análise CCF, mas não nas duas outras análises (Figura 1A). A proporção log2 com o método SPCC significativamente deslocado para a direita em comparação com o método de DPCC. Um maior número de miRNAs no método SPCC tinha genes correlacionando negativos, que foi anulada pelo ruído aleatório no método DPCC (o valor médio foi de cerca de zero). A curva cumulativa de rsPCC foi semelhante ao de DPCC, mas foi significativamente diferente daquela do SPCC. Isso demonstra que o método SPCC foi mais eficaz na detecção de correlações negativas do que quer o DPCC ou o método rsPCC.

(A) cumulativo de plotagem da razão log2 de números de genes negativamente vs. positivamente correlacionados para 136 miRNAs calculada com a métodos DPCC, SPCC e rsPCC, respectivamente. O eixo X indica os valores da relação de log2 136 miARNs de acordo com a sua classificação do menor para o maior, e o eixo dos Y indica a fracção acumulada de 136 miARNs. As diferenças nas curvas cumulativas foram medidos por unilateral teste de Kolmogorov-Smirnov. (B) A comparação dos três métodos para identificar a TargetScan provavelmente conservadas previu alvos no genoma humano (de um total de 33535 eventos de alvejamento do previsto). previsões alvo foram classificados por pontuação total contexto maior para o menor. Incremental de top 50 para o topo 500 pares miRNA-gene com as maiores pontuações totais contexto, os valores da relação de negativo vs. números de correlação positivos foram calculados e plotados para os três métodos.

Em seguida, procurou comparar a eficiência dos três métodos de detecção de alvos de preditos. Nós escolhemos TargetScan, um algoritmo de previsão alvo amplamente utilizado, para montar uma lista de todos os pares de miRNA-de genes humanos envolvendo os 136 miRNAs. A lista foi classificado por pontuação total de contexto (definido por TargetScan para os alvos conservados) maior para o menor (Tabela S3). Em seguida, de forma incremental de top 50 para o topo 500 pares miRNA-gene, os rácios de negativo vs. números de correlação positivos foram calculados e plotados. Apenas com o método SPCC, esta proporção aumentou com o aumento da pontuação total de contexto (Figura 1B). Portanto, os resultados para todas as correlações e as correlações em relação a metas previstas sugeriram que o método SPCC desempenho significativamente melhor no nível teórico do que quer o DPCC ou o método rsPCC.

O método SPCC detecta com precisão expressão de miRNAs que estão ligadas a genes hospedeiros individuais, bem como a conjuntos de

HOX

genes

Além do nível teórico, foi necessário para testar a capacidade do método para identificar SPCC miARN /gene ligações que foram estabelecidas em sistemas biológicos conhecidos. Por isso, fez uso de ambos os genes do hospedeiro e homeobox (

HOX

) genes que têm links bem caracterizados para a expressão de certos miRNAs.

Muitos miRNAs são codificados dentro de genes co-localizados (genes do hospedeiro ) e compartilhar promotores com eles. A expressão destes miARNs é conduzida pelos promotores dos genes do hospedeiro, e as correlações positivas entre a expressão de miARN e os seus genes do hospedeiro foram relatados [22], [24]. Ao utilizar esta informação, analisamos como muitas vezes o co-transcrição de miRNAs e seus genes do hospedeiro poderia levar a correlações positivas nos conjuntos de dados NCI60. Dos 136 miARNs, 65 são codificados dentro de genes hospedeiros (Figura 2). Em ambos os SPCC e DPCC analisa o número de correlações positivas entre genes do hospedeiro e seus miRNAs co-localizados longe de número os de correlações negativas (Figura 2A e 2B). Em contraste, a análise com o método rsPCC resultou numa distribuição aleatória de correlações positivas e negativas (dados não apresentados). Os resultados dos métodos SPCC /DPCC eram comparáveis, o que sugere que a reprodutibilidade dos conjuntos de dados NCI60 foi elevada e o método SPCC para identificar as correlações foi tão bom como o método DPCC no caso de genes hospedeiros individuais.

(

Um

) e SPCC (

B

) dPCCs valores são indicados para os 73 pares de genes /hospedeiras de miARN representadas nos dados q SET e conjuntos de dados de expressão de genes que ocorreram com, pelo menos, um dos métodos. Reanálise dos dados, comparando SPCC /30 com valores DPCC com um corte de 0,2 revelou que os dois métodos não diferem em sua capacidade de prever genes do hospedeiro (seja por teste t pareado ou emparelhado teste de Wilcoxon).

em seguida, queríamos determinar se o método SPCC teria um melhor desempenho do que o método DPCC na identificação de co-transcrição específico. Nós aproveitou a

HOX

genes como um sistema único de quatro grupos de genes, cada um contendo pelo menos um intergênico miRNA.

HOX

genes regulam o desenvolvimento embrionário e em mamíferos que são agrupados em 4 grupos (

HOXA-D), incluindo 9 a 11 genes [22], [24]. A maioria dos genes HOX foram positivamente correlacionados com miARNs co-localizada (caixas vermelhas na Figura 3A). Curiosamente, o

HOXA

,

HOXC

, e

HOXD

aglomerados abrigam um gene miRNA cada um e do

HOXB

contém dois (Figura 3A). Nós primeira dPCCs e sPCCs entre os quatro miRNAs (

miR-10a

,

-10b

,

-196

,

-196b

), calculado, que são codificados dentro dos aglomerados HOX, e todos os genes humanos. Observou-se que no método SPCC, em 3 de

4

dos clusters um gene HOX adjacente aos miRNAs co-localizada tiveram a mais alta correlação positiva com estes miRNAs de ~18,000 genes humanos (

miR -196b

/

HOXA9

,

miR-196a

/

HOXC10

e

miR-10b

/

HOXD8

; caixas vermelhas em negrito na Figura 3A). No entanto, no método DPCC, isso só foi verdade para dois clusters (

miR-196b

/

HOXA10

e

miR-196a

/

HOXC10

) (dados não mostrados). Para cada um dos 136 miRNAs, foram calculados os valores SPCC com genes em grupos de genes HOX of the 4

. Os sPCCs de todos os

HOX

genes dentro de um cluster foram somados e os miRNAs foram classificados de acordo com a SPCC cumulativa para cada

HOX

cluster (Figura S2). Notavelmente, para cada cluster houve um miARN que mais claramente correlacionada com a expressão de

HOX de genes em que cluster (coluna vermelha na Figura S2), e em cada caso, era a miARN codificado dentro desse conjunto. Para comparar ainda mais o desempenho dos métodos SPCC e DPCC nós traçamos o acumulado pontuação SPCC e DPCC para cada

HOX

agrupamento de genes contra os miRNAs correlacionando (Figura 3B e 3C). A SPCC cumulativos e DPCC da correlacionar negativamente

HOX

genes também são mostradas, mas eram insignificantes. Também incluímos

miR-99a /99b

e

miR-100

nesta análise porque partilham uma extensa homologia com

miR-10a

e

miR-10b

[25]. Mais uma vez, a SPCC desempenho melhor do que o método DPCC detectar a correta

HOX

agrupamento de genes para cada miRNA correlacionando contra um sinal mínimo de fundo de outros clusters.

(

A

) Estrutura das quatro

HOX

agrupamentos de genes de mamíferos, com a localização dos miARNs hospedados.

HOX

genes caixas em vermelho foram detectados como positivamente correlacionada com o miRNA hospedado usando o método de SPCC. Para cada cluster no

HOX

gene mais fortemente correlacionada com o miRNA que está em que cluster é embalado em negrito vermelho. (

B

) sPCCs de todos individuais

HOX

genes em cada grupo foram acumuladas e plotados contra os membros da

miR-10 Twitter /

miR-196

família e

miR-99a,

-99b

e

-100

. (

C

) O mesmo que

B

mas gerados usando o método DPCC.

Em resumo, estes dados demonstram que o sistema de estado estacionário do mRNA NCI60 e dados de miRNA é útil na detecção de ligações biologicamente significativas entre miRNAs e seus genes do hospedeiro. O método de CCF, que foi concebido para mimetizar um ensaio de titulação miARN, foi superior ao método DPCC em dois ensaios (correlação negativa com mRNAs expressos e

HOX

correlação aglomerado de genes) utilizado para caracterizar a nossa abordagem. O método SPCC foi, portanto, utilizados nas análises subsequentes.

miRConnect.org, uma interface web pesquisável para explorar as ligações entre miRNAs e seus genes efetoras biológicos

Como introduzido acima, além de genes-alvo real, os genes que não são previstos para serem alvos de miARN, bem como o grande número de ambos os genes positivamente e negativamente correlacionados podem conter informação importante no que diz respeito ao estado de miARN níveis de expressão celular, que podem fornecer informações sobre as actividades biológicas de miARNs. Todos os genes negativamente e positivamente correlacionados para o 136 miARN e as 25 famílias de miARN determinados tanto com a DPCC e o método de CCF no conjunto de dados Q, bem como as informações sobre a forma como muitos deles são previstos alvos por TargetScan 5.0, pode ser encontrado sob miRConnect-Q em uma interface web pesquisável: miRConnect.org (ou miRConnect.net)

Clustering de miRNAs com base na sobreposição de seus genes correlacionando

os nossos dados sugerem que o uso de conjuntos de dados NCI60 eo método SPCC poderia ser útil para detectar conexões biologicamente relevantes entre miRNAs e seus genes efetoras a jusante, o que pode fornecer novos insights sobre as actividades biológicas dos miRNAs. Argumentamos que genes negativa ou positivamente correlacionados com um miRNA específico será igualmente importante, porque cada conjunto podem conter marcadores de um estado biológico regulada em direções opostas. Por exemplo,

E-caderina

e

Vimentin

, que positivamente e negativamente correlacionada com a expressão do

miR-200

família, respectivamente (

CDH1

e

VIM

na Tabela 1), ambos apontam para a função relacionada com a EMT de

miR-200

. Portanto, sugerimos que as correlações negativo ou positivo pode definir independentemente um estado biológico específico de um miRNA ou um grupo de miRNAs.

Para testar esta hipótese, foi selecionado o topo 2000 positivo e superior 2000 correlações negativas e os genes correspondentes para cada um dos 136 miRNAs, e realizou um agrupamento hierárquico para agrupar os 136 miRNAs. Escolhemos 2000 como um corte, porque este número cobriu cerca de 10% de todos os genes, o que deve resultar na eliminação de mais ruído de fundo. O agrupamento, que é baseado em comparações de pares representa a intersecção dos genes que se correlacionam significativamente na sua expressão com a expressão de dois miARNs diferentes (Figura 4 e Figura S3). Quando os genes correlacionando-se positivamente foram avaliados, um número de miARNs fortemente agrupados entre si (Figura 4). Do mesmo modo muitas das mesmas miARNs agrupados em conjunto quando os genes correlacionam negativamente foram usadas (Figura S3). Apesar de numerosos mecanismos podem ser responsáveis ​​por este agrupamento, vamos nos referir a elas como “clusters funcionais”.

Os miRNAs foram divididos em 13 grupos funcionais (I-XIII). A informação é dada para cada miRNA na expressão tecido específico, co-localização genômica, e da família de sementes. linha pontilhada:. limiar de 12,5% de grupos que foi escolhido para definidos os 13 aglomerados

Curiosamente, todos os 5 membros do

miR-200

família foram bem agrupado, consistente com sua actividade biológica semelhante (grupo I na Figura 4 e na Figura VI conjunto S3). Além

miR-200

, um número de outros miARNs estruturalmente relacionadas formado agrupamentos funcionais de acordo com os números compartilhada dos genes efectores. Várias famílias de sementes, tais como

miR-181abc

,

miR-19ab,

miR-221/222

,

miR-103/107 Comprar e

miR-135ab

, foram agrupados junto firmemente. Em contraste, os membros de várias outras famílias de sementes foram encontrados espalhados em toda grupos funcionais diferentes (por exemplo, o

let-7

ou o

miR-30

família). Este fenómeno sugeriu que o agrupamento de miRNAs foi parcialmente baseado, mas não limitado a sequências de sementes de miRNA.

O agrupamento de miRNAs nesta análise foi parcialmente devido ao fato de que alguns membros da família são parte da mesma transcricional unidade. miRNAs que a co-localização share cromossômica e também encontrados nos mesmos grupos funcionais incluídas as unidades de transcrição de

miR-106b /93/25

,

miR-17~92

,

miR -194-2 /​​192

,

miR-183~182

,

miR-99b /deixe-7E /125a

,

miR-206 /133b

.

em alguns casos, miRNA agrupamento foi baseado em nenhuma partida da semente, nem a localização genômica. Por exemplo, os membros de ambos os

miR-141 /200A Comprar e

miR-200 aC /429

famílias de sementes foram agrupadas embora eles compreendem dois conjuntos de genes nos cromossomos separados (grupo I, ” aglomerado de genes “coluna na Figura 4).

As linhas celulares NCI60 9 representam diferentes cancros humanos. Para determinar se o agrupamento de miARNs observada era em parte devida à expressão específica de tecido de ambos os miARNs ou mRNAs, foram identificados miARNs que foram expressos preferencialmente em qualquer um dos 9 tipos de cancro humano (Tabela S4; Tabela S5). Algumas correlações com tecido de origem foram encontrados. Por exemplo, ambos os grupos I (incluindo

miR-200

família e

miR-194

) e XI (incluindo o

miR-30

família) continha a maioria dos miRNAs que são enriquecidos em células de cancro do cólon (Figura 4). células cancerígenas do cólon pode ter um mais epitelial-como característica que a maioria das outras linhas celulares de cancro.

Em resumo, estes dados sugerem que, enquanto as sequências comum de sementes, co-localização cromossômica e expressão específica de tecido provavelmente afetou o co- expressão de miRNAs com determinados genes e, consequentemente, o seu agrupamento, muitos miRNAs foram agrupados por outras razões. Um factor importante que determina o agrupamento pode ser a função biológica de um miARN, uma vez que o agrupamento é baseada na intersecção de conjuntos de genes que se correlacionam positivamente de forma significativa com duas miARNs emparelhados. Por exemplo,

miR-200

,

-203

,

-375

e

-7

, que são agrupados na Figura 4 e Figura S3 , não tem a mesma sequência de semente, co-localização genômica ou expressão específica no mesmo tecido. A razão para eles para agrupar parece ser que eles compartilham função biológica semelhante na regulação EMT.

Identificação de famílias de miRNA envolvidos no crescimento celular regulação

c-MYC

não é apenas um regulador geral da função de miARN e de expressão, mas também a própria regulada por miARNs [26], [27]. Para determinar se miARNs agrupamento de acordo com a identidade de correlacionar os genes que detectam a ligação entre miARNs e

C-MYC

, utilizou-se listas de genes que são quer regulados positivamente (460 genes) ou regulados negativamente (211 genes) por

c-MYC

(obtido a partir https://www.myc-cancer-gene.org/) e determinou quantos deles foram positivamente ou negativamente correlacionada com a expressão de cada um dos 136 miRNAs. O resultado é visualizado na Figura 5. O significado de enriquecimento de genes correlacionam foi determinada através da realização de um Rank-Sum teste de Wilcoxon. O nível de significância é indicada por caixas com cores diferentes. Claramente, certos grupos de miRNAs foram positivamente, e outros foram negativamente correlacionadas com qualquer

c-MYC

induzido ou

c-MYC

reprimidos genes.

Deixe uma resposta