PLOS ONE: Deduzir as redes reguladoras Perturbed microRNA em Câncer Usando hierárquica Gene Co-expressão Signatures

Abstract

Os microRNAs (miRNAs), uma classe de pequenos RNAs reguladores endógenos, desempenham um papel importante em muitos processos biológicos e fisiológicos . As perturbações de alguns miRNAs, que geralmente são chamados como onco-microRNAs (onco-miRs), estão significativamente associados com vários estágios do câncer. Embora centenas de miARNs foram descobertos, os perturbados redes reguladoras de miARN e suas funções ainda não são bem conhecidas no cancro. Analisando os padrões de genes alvo de miRNA expressão é uma estratégia muito útil para inferir as redes de miRNA perturbados. No entanto, devido à complexidade do transcriptoma do cancro, os métodos actuais encontram frequentemente baixa sensibilidade e relatar alguns candidatos onco-RIM. Aqui, nós desenvolvemos um novo método, chamado miRHiC (análise de enriquecimento de alvos de miRNA assinaturas gene Co-expressão hierárquica), para inferir as redes reguladoras perturbados miRNA usando as assinaturas co-expressão hierárquicos em conjuntos de dados de expressão de genes do cancro em larga escala. O método pode-se inferir candidatos onco-Mir e as suas redes de alvo que apenas são ligadas à sub-aglomerados de genes diferencialmente expressos em escalas finas da hierarquia de co-expressão. Em dois conjuntos de dados reais de câncer de pulmão e câncer hepatocelular, miRHiC descobertos vários conhecidos seus genes-alvo onco-miRs e (como miR-26, miR-29, miR-124, miR-125 e miR-200) e também identificaram muitos novo candidatos (tais como o miR-149, que é inferida em ambos os tipos de cancros). Usando assinaturas co-expressão do gene hierárquicos, miRHiC pode aumentar significativamente a sensibilidade para inferir as redes reguladoras perturbados miRNA no câncer. Todos os scripts Perl de miRHiC e os documentos detalhados estão disponíveis gratuitamente na web em https://bioinfo.au.tsinghua.edu.cn/member/jgu/miRHiC/

Citation:. Gu J, Xuan Z (2013) inferir a Perturbadas microRNA redes reguladoras em Cancer Usando hierárquicos Gene Assinaturas Co-expressão. PLoS ONE 8 (11): e81032. doi: 10.1371 /journal.pone.0081032

editor: Joaquin Dopazo, Centro de Investigación Principe Felipe, Espanha |

Recebido: 29 de maio de 2013; Aceito: 09 de outubro de 2013; Publicação: 20 de novembro de 2013

Direitos de autor: © 2013 Gu, Xuan. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho é suportado pelo Programa Nacional de Pesquisa básica da China [2012CB316503], National Natural Science Foundation da China [61005040, 61370035], Instituto Nacional de Saúde [U01 ES017166] e Laboratório Nacional Tsinghua para a Ciência da Informação e Tecnologia Fundação Cross-disciplina. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Os microRNAs (miRNAs) são uma classe de pequenos (± 22 nt) RNAs reguladoras, que desempenham papéis importantes em muitos processos biológicos e fisiológicos essenciais, tais como o desenvolvimento do embrião, a progressão do câncer e da resposta imune. Cerca de 1400 miARNs foram identificados em seres humanos e mais de 30% de genes codificadores de proteínas conhecidas são potencialmente regulada por miARNs evolutivamente conservadas [1], [2]. As perturbações de alguns miRNAs, geralmente designados como onco-microRNAs (onco-miRs, incluindo ambos os miRNAs supressivos oncogênicos e tumorais neste estudo), foram relatados para ser significativamente associada com vários estágios do câncer. Mas, até agora, apenas algumas das centenas de miARNs estão ligados aos processos celulares regulados por dis complexos no cancro. Há uma grande necessidade de inferir as redes de regulação miRNA perturbados e suas funções no cancro [3].

Para inferir a rede reguladora perturbado miRNA, uma estratégia popular é analisar miRNA enriquecimentos conjunto de genes alvo no gene diferencialmente expressos assinaturas. Isso inclui muitos métodos desenvolvidos, como a análise de conjunto de genes pelo teste de hiper-geométrica (HG-teste, ou teste exato de Fisher); GSEA (Análise de Enriquecimento de gene definido) [4], [5]; FAME (atribuição funcional dos miRNAs via enriquecimento) [6]; e miRBridge [7], que supor que os enriquecimentos conjunto de genes-alvo refletir as perturbações de seus pontos fortes regulação miRNA a montante. Mas, devido à complexidade do transcriptoma do cancro, estes métodos geralmente apresentam baixa sensibilidade de inferir candidatos onco-miR (aqui, a “sensibilidade” significa, principalmente, o número de candidatos inferidas onco-miR sob um determinado nível de significância estatística).

O cancro é um processo multi-estágio e misturado, geralmente envolvendo muitos sub-processos hierarquicamente organizadas regulamentados em múltiplas escalas [8]. Os regulamentos de miRNA também mostrar a propriedade de multi-escala [9]: alguns miRNAs, que ajudam a determinar os tipos de células ou estados celulares, suprimir centenas de expressões de genes alvo para manter tipo de célula ou do estado celular perfis de expressão específicos, como o miR-124 no cérebro e miR-1, miR-133 no músculo [10], [11], [12]; no entanto, muitos outros miRNAs só pode regulamentar alguns processos específicos, visando um pequeno grupo de genes estreitamente relacionados. O primeiro tipo de candidato onco-miRs podem ser facilmente identificados através da análise do enriquecimento dos seus genes alvo em todo o conjunto dos genes expressos diferencialmente, mas os últimos são frequentemente perdida por métodos existentes devido ao enriquecimento de genes alvo insuficientes no expresso diferencialmente genes ou nas assinaturas co-expressão usando cortes de similaridade pré-definidos.

neste estudo, propôs uma nova estratégia para inferir a suas redes reguladoras perturbados onco-miRs e. Esta estratégia tem em consideração a multi-escala e hierarquicamente organizada estruturas reguladoras nos genes diferencialmente expressos usando informações co-expressão do gene, e afina as escalas na hierarquia co-expressão do gene para analisar o enriquecimento conjunto de genes-alvo miRNA. Nosso método, denominado miRHiC (análise de enriquecimento de alvos de miRNA assinaturas gene Co-expressão hierárquica), pode-se inferir as redes reguladoras perturbados miRNA no cancro através da análise dos enriquecimentos de conjuntos de genes alvo de miRNA nas assinaturas co-expressão do gene hierárquicos. Estas assinaturas genéticas foram estabelecidas por hierárquica de agrupamento co-expressão do gene, uma forma comum de separar os sinais mistos em perfis de expressão gênica em diferentes níveis de correlação. Em miRHiC, o conjunto de genes miARN alvo não é necessária para ser enriquecido em todo o conjunto dos genes expressos diferencialmente, mas dentro de qualquer assinatura na fina escala da hierarquia de co-expressão do gene. Além da maior sensibilidade para inferir os candidatos onco-Mir, outra vantagem de se considerar a informação co-expressão do gene é reduzir os ruídos de inferir os genes alvo perturbados correspondentes: os “espalhados” genes diferencialmente expressos com pouca padrão de expressão semelhança com outros genes , que são mais propensos a ser alvos de miRNA “falsas” devido a ruídos expressão [13], são excluídos durante a análise. Em dois conjuntos de dados de expressão de genes do câncer de grande escala, miRHiC identificados com sucesso vários conhecidos onco-miRs e também inferidas muitos novos candidatos.

Materiais e Métodos

genes alvo miRNA

miRNAs e os seus genes-alvo (as miARNs da mesma família estão fundidos como um único item) foram extraídos da base de dados TargetScan (v6.2) [1], [2]. Um gene foi considerada como um alvo de um miARN, se o gene contém pelo menos um local de ligação previsto miARN conservada no seu 3′-UTR. E a pontuação contexto resumido (uma pontuação negativa medição da força regulação miRNA-alvo ou de confiança, desde que por TargetScan) foi registrada para cada par de miRNA-alvo. Então, nós discretizado as pontuações contexto no

os níveis de K

: todos os pares de miRNA-alvo foram classificadas de acordo com sua pontuação de contexto no fim (os pares classificados no topo têm a menor força de regulamento) diminuindo ea pontuação discretizada para o par miRNA-alvo com classificação

r

foi definido como:

s

= 1+

b

[

rK

/

N

]. Isso significa que os primeiros 1 /

K

pares de miRNA-alvo têm menor pontuação 1, enquanto o último 1 /

K

pares têm maior pontuação 1+

b

(

K

-1). De acordo com a ref. [6],

K

é definido como 5 e

b

como 3 neste estudo.

Os conjuntos de controlo de miARN gene alvo foram gerados por um gráfico bipartido com base permutação aleatória dos pares de miRNA-alvo com a mesma pontuação discretizadas, mas mantendo os tamanhos de todos os conjuntos de genes-alvo. Este tipo de procedimento de permutação rigorosa pode gerar o controle de miRNA conjuntos de genes alvo que preservam as propriedades estatísticas muito melhores do que a randomização sem restrições [6].

dados de expressão gênica Cancer

Testamos miRHiC em dois conjuntos de dados de expressão de genes do cancro em larga escala baixados do banco de dados do NCBI GEO: 1) cancro do pulmão conjunto de dados (LUC), GSE19804 incluindo 60 amostras de câncer e para-cancerosas emparelhados; e 2) O câncer hepatocelular (HCC) conjunto de dados, GSE22058 incluindo 96 amostras cancerosas e para-cancerosas emparelhados. Para evitar os ruídos em genes expressos humilde, só manteve os genes cuja expressão valores classificar no top 10.000 em amostras de pelo menos 30% em cada conjunto de dados. Em seguida, os genes diferencialmente expressos foram identificados com valor de p 0,0001 pelo teste t (os valores de p foram testes de múltipla ajustada por correção de BH). Foram identificados 3.397 e 5.699 genes diferencialmente expressos para Luc e HCC conjuntos de dados, respectivamente

miRHiC:. Análise de enriquecimento de alvos de miRNA em genes hierárquica assinaturas Co-expressão

foi proposto

miRHiC para inferir o miRNA perturbado redes reguladoras em câncer, incorporando a informação co-expressão hierarquicamente organizada dos genes diferencialmente expressos: em primeiro lugar, as assinaturas co-expressão do gene hierárquicos foram estabelecidas pelo agrupamento dos genes diferencialmente expressos com base em correlações co-expressão de genes entre pares; em seguida, o enriquecimento conjunto de genes-alvo miRNA foi analisada através das assinaturas co-expressão hierárquicos; e, finalmente, um teste de permutação foi usada para estimar a significância estatística do enriquecimento (Figura 1)

Na primeira etapa, os genes expressos diferencialmente foram agrupados como assinaturas gene hierárquica co-expressão.; em seguida, o enriquecimento mais significativa do conjunto de genes miARN alvo foi encontrado entre as assinaturas hierárquicos; e, finalmente, um teste de permutação foi usado para estimar o valor-p empírica do enriquecimento.

1) Obter as assinaturas co-expressão do gene hierárquicos.

Em primeiro lugar, hierárquica average linkage agrupamento é implementado para agrupar os genes expressos diferencialmente com base em suas correlações de co-expressão em pares. Para reduzir os ruídos causados ​​por genes mal correlacionados, o agrupamento hierárquico é interrompido se a correlação co-expressão do gene é muito baixo: nós usamos a correlação com z-score 0,52 como ponto de corte neste estudo (cerca de valor-p 0,3; z- pontuação de um determinado nível de correlação é calculada utilizando a transformação de Fisher). Este corte mostra algumas influências sobre os resultados: para o conjunto de dados LUC, quando o corte z-score mudou 0,3-,9 a passo 0.1, o agrupamento hierárquico foi parado quase no mesmo lugar. Em seguida, extraiu-se as assinaturas de co-expressão do gene (aglomerados estáveis ​​de co-expressão do gene) em diferentes escalas de correlação atravessando a hierarquia de co-expressão a partir de folha de raiz (a correlação está a diminuir e o tamanho das assinaturas está a aumentar quando atravessando a hierarquia de folha de root). Os detalhes do algoritmo de extração de assinatura são apresentados no manual do usuário através do site miRHiC.

2) Analisar os enriquecimentos conjunto de genes-alvo miRNA nas assinaturas co-expressão do gene hierárquicos.

Para o

j

-ésimo assinatura co-expressão do gene na hierarquia, podemos encontrar os genes sobrepostos entre a assinatura (indicado como

S

j

) e o

i Network – th miRNA conjunto de genes-alvo (indicado como

T

i

), e depois calcular a pontuação de enriquecimento crua pela soma das pontuações TargetScan discretizadas (ver os detalhes da discretização pontuação na seção acima) do sobreposto genes para

i

miRNA -ésimo:

O valor de p

p

ij

para este enriquecimento foi estimado através da análise dos escores de enriquecimento

ES

ij

(

r

) de 10.000 controlo aleatório miRNA conjuntos de genes alvo correspondeu-size:

Depois de obter os enriquecimentos em todas as assinaturas co-expressão de genes hierárquica (

j

= 1, 2, …), o

P

-Score

P

i

para o

i

-ésimo miRNA foi calculado como o valor p do enriquecimento mais significativa:.

o

P

-Score foi utilizado para medir o enriquecimento do gene miARN alvo através da hierarquia completa de co-expressão do gene

3) Calcule a significância estatística da

P

-Score enriquecimentos baseia.

o

P

-Score é o mínimo de um conjunto de valores de p, de modo não está uniformemente distribuída ao longo 0~1 (tendência para 0). Ele não pode ser directamente utilizado para medir a significância estatística de enriquecimento. Mais uma vez, foi utilizado o teste de permutação para estimar a significância estatística da P-score: os P-scores

P

i

(

r

) de 10.000 controle gene alvo miRNA-correspondida tamanho conjuntos foram calculados de acordo com as etapas acima; eo p-valor empírico

p

i

para a P-score

P

i

foi calculada como:

O valor-p empírica

p

i

foi utilizado para medir a significância estatística de miRNA enriquecimento conjunto de genes-alvo através da totalidade dos assinaturas co-expressão do gene hierárquicos. Para corrigir o teste múltiplo, fdrtool foi utilizado para calcular o

q

-Valores de acordo com os valores de p empíricos [14].

Comparações com outros métodos

miRHiC foi comparação com gene Set análise de Enriquecimento (GSEA) e análise de conjunto de genes pelo teste de hiper-geométrica (HG-teste). GSEA é um método amplamente utilizado para inferir os conjuntos de genes perturbados, tendo os valores contínuos e as informações posto de expressões diferenciais de genes [5]. Ao comparar miRHiC com GSEA, as mudanças vezes de expressões de genes entre câncer e amostras normais foram usados ​​em GSEA eo mesmo método set permutação gene alvo miRNA foi usado para calcular os valores de p empíricos.

GSEA e HG teste de utilização de modelos computacionais diferentes para medir enriquecimentos conjunto de genes com miRHiC. Para testar directamente a vantagem de utilizar a informação de co-expressão do gene hierárquica, foram utilizados os genes diferencialmente expressos como a única assinatura e correu miRHiC nele. Para apresentação clara, nós chamado esta abordagem como (análise de enriquecimento de alvos de miRNA em genes diferencialmente expressos) miRDeG.

Com exceção de agrupamento hierárquico,

k

-means agrupamento é outro algoritmo utilizado para gerar gene assinaturas co-expressão. O algoritmo pode particionar todos os genes diferencialmente expressos em

k

clusters de não-sobrepostas. Ao contrário de agrupamento hierárquico,

k

-means é difícil excluir os genes mal correlacionados fixar qualquer limite. Na comparação, usamos

k

-means (

k

é definido como 5 ou 10) para obter os genes assinaturas co-expressão. Em seguida, execute o mesmo procedimento para analisar os enriquecimentos alvo de miRNA em assinaturas geradas com diferentes

k

. Chamamos esta abordagem como miRKM (miRKM5 e miRKM10) na seção abaixo.

Resultados

estimar os valores de p empíricos sem viés por miRHiC

Para demonstrar que miRHiC não têm o problema de sobre-estimar os significados estatísticos, geramos 100 conjuntos de genes-alvo controle pareado de tamanho para cada miRNA, e então calculada distribuições dos valores de p empíricos para os seus enriquecimentos no gene hierárquica assinaturas co-expressão usando miRHiC . Se miRHiC não tem viés para estimar os valores de p empíricos, o P-valores dessas controle de miRNA conjuntos de genes-alvo deve ser uniformemente distribuída entre 0~1. Como esperado, os resultados mostraram que os valores de p empíricos são distribuídos uniformemente (Figura 2). Outro viés possível afetando p-valor empírico é causada por diferentes tamanhos de conjuntos de genes alvo de miRNA: alguns miRNAs têm mais de 1.000 genes-alvo, enquanto alguns só têm menos de 50 genes alvo. Calculamos correlação de postos de Spearman entre as dimensões e os valores de p empíricos correspondentes dos conjuntos de genes. A correlação é -0,015 (p-valor desta correlação 0,05), o que sugere que os valores de p empíricos não são afetados pelos tamanhos de conjuntos de genes. Com base nessas análises, podemos concluir que miRHiC não tem viés para estimar os valores de p empíricos.

Inferindo as redes reguladoras perturbados miRNA no cancro

miRHiC pode inferir onco-miRs e suas redes reguladoras alvo perturbado por analisar o enriquecimento conjunto de genes-alvo miRNA em assinaturas co-expressão do gene hierárquicos em câncer. Sobre os dois conjuntos de dados de expressão de genes em grande escala de cancro do pulmão (LUC) e cancro hepatocelular (HCC), miRHiC inferida 9 e 8 perturbado miARNs ou onco-miRs, respectivamente, com Q-valor 0,1. Sob o mesmo q-valor de corte, os três métodos de comparação, GSEA, HG-teste e miRDeG não inferir qualquer candidato. Embora miRKM inferir alguns candidatos (para LUC conjunto de dados, miRKM5 /10 inferidas 3/4 candidatos, e para HCC conjunto de dados, miRKM5 /10 inferidas 6/3 candidatos), estes números são ainda menos do que miRHiC ea maioria das inferências miRKM são cobertos por miRHiC. Os detalhes os resultados são fornecidos na Tabela S1. Entre todos os 17 inferências a partir miRHiC, 9 são suportados por evidências funcionais diretos na literatura (LUC: miR-26, miR-29, miR-125, miR-130, miR-145 e miR-200; HCC: miR-21, miR -124 e miR-125). Estes resultados indicam que miRHiC pode melhorar significativamente a sensibilidade de inferências onco-RIM (Tabela 1). Considerando a heterogeneidade de transcriptoma câncer, bootstrapping reamostragem foi implementado para verificar a estabilidade das inferências. Para LUC, 6 dos 9 candidatos pode ser inferida repetidamente em mais de 50 experiências de reamostragem% (miR-125, miR-149, o miR-340 e miR-200 são inferidas estavelmente em mais de 80% de experiências). Para HCC, em 5 de 8 candidatos pode ser repetido inferida (miR-125 e miR-149 são inferidos de forma estável em mais de 60% experimentos).

Ao olhar para as assinaturas específicas da onco inferido -miRs, descobrimos que eles têm diferentes níveis de genes co-expressões nas hierarquias (Figura 3). As funções associadas a estas assinaturas (os termos GO enriquecido da assinaturas foram anotados por ferramenta de web DAVID [15]) estão significativamente relacionadas com diferentes características de cancro, incluindo o ciclo celular, a redução de oxidação, resposta imune, a reparação do ADN, a adesão de células e vascularização desenvolvimento (Tabela 2). Estes resultados indicam que muitos miRNAs estão ligados ao câncer através de diferentes programas de regulamentação sub. Por exemplo, o miR-200 é conhecida como um importante regulador de angiogese (um termo criança de “desenvolvimento da vasculatura”). Existem vários genes alvo validados experimentais para a angiogênese, incluindo [16], [17], [18], existente na inferida perturbado miR-200 redes reguladoras em LUC dataset ZEB1 e KDR. MiR-200 pode regular o interruptor angiogênico no câncer de pulmão através destes genes alvo. No câncer hepatocelular, miR-21 foi previsto para regular a “resposta imune”, visando CD69, STAT3, CCL20 e SMAD7, em que STAT3 e SMAD7 são moléculas de sinalização importantes para a resposta imune.

A) é para o cancro do pulmão e B) para o câncer hepatocelular. Os nós círculo representam as assinaturas co-expressão do gene (ClusterID: tamanho). Os nós de diamantes representam os onco-miRs inferidos. Os números sobre as bordas representam os tamanhos dos genes alvo de miRNA sobrepostas com as correspondentes assinaturas co-expressão de genes.

Perturbed miR-149 sub-redes compartilhadas pelos dois tipos de cânceres

Os onco-miRs inferidos em vários tipos de câncer podem desempenhar papéis mais importantes na iniciação e desenvolvimento de câncer. Dois miRNAs, miR-125 e miR-149 foram inferidas por miRHiC em ambos os tipos de cânceres. Para o inferido perturbado miR-125 redes reguladoras, existem apenas três alvos comuns (CDK16, TOMM40 e KIAA1522), o que sugere que o miR-125 podem regular diferentes vias nos dois tipos de cânceres. Enquanto que para miR-149, as suas redes reguladoras perturbados mostrar alvo significativa sobreposição com uma sub-rede compartilhada incluindo 14 metas comuns. E os 14 objectivos são consistentemente sobre-expresso em tecidos de cancro (Figura 4).

As mudanças de dobragem transformação logarítmica média dos genes-alvo compartilhado também são mostrados na tabela abaixo.

O miR-149 é um mamífero conservados miRNA. Alguns estudos mostram que os polimorfismos genéticos miR-149 são associados com o risco de cancro [19], [20]. Sua expressão é epigenética silenciado por DNA hiper-metilação no câncer colorretal [21]. Mas as redes reguladoras miR-149 são ainda pouco compreendidos no câncer. As redes perturbadas inferidas fornecer importante percepção de miR-149 regulamentos: a maioria dos alvos de alta confiança (com altas pontuações TargetScan) na sub-rede compartilhada estão relacionados com alguns processos biológicos essenciais, tais como SRPK1 fator (serina /rico em arginina splicing 1 quinase) e CCT3 (chaperonina contendo TCP1, subunit 3). SRPK1 codifica uma proteína cinase de serina /arginina específico para o SR (serina domínio /rica em arginina) família de factores de splicing. SRPK1 é regulada no cancro do pulmão e muitos outros tipos de câncer [22], [23]. CCT3 é uma subunidade de uma proteína de chaperona molecular (contendo o complexo de chaperonina TCP1) ajudando dobra actina /tubulina e que pode regular positivamente ciclo celular [24], [25]. CCT3 sobre-expressão também é relatado para estar relacionada com cancro colo-rectal [26] e câncer de fígado [27]. Então, miR-149 pode funcionar como um supressor do cancro alvejando estes oncogenes.

Discussão

Analisando miRNA enriquecimento conjunto de genes alvo em genes diferencialmente expressos de perfis de expressão gênica em larga escala pode extremamente avançar a nossa entendimento dos regulamentos perturbados miRNA. Mas, devido à complexidade do transcriptoma do câncer, é um desafio para inferir os regulamentos perturbados miRNA simplesmente analisando o enriquecimento definir gene alvo miRNA em todo o genes diferencialmente expressos. Neste estudo, nós desenvolvemos miRHiC para inferir as redes reguladoras perturbados miRNA em câncer, incorporando a informação co-expressão do gene hierárquica na análise conjunto enriquecimento gene alvo miRNA. Os resultados mostraram que miRHiC têm muito maior sensibilidade para as inferências do que os métodos comumente utilizados, tais como HG-teste, GSEA e miRDeG (FAME), dos quais todos não usam as informações co-expressão do gene hierárquica. Mais de 50% dos onco-miRs inferidas têm amplos apoios literatura e as assinaturas de gene co-expressões visadas por estes miRNAs estão significativamente relacionadas com várias marcas de câncer. Estudos recentes também mostram que o gene co-expressões podem fornecer informações importantes para identificar os genes-alvo “reais” de miRNAs no processo biológico correspondente [13], [28], que sugerem que os genes alvo sobreposto com as assinaturas co-expressão enriquecidos são mais prováveis ​​os alvos reais em câncer. Embora miRHiC melhorou a sensibilidade para inferir a onco-miRs e suas redes alvo perturbados, alguns conhecidos onco-miRs, como miR-126 em câncer de pulmão e miR-122 em carcinoma hepatocelular, foram perdidas. Estes casos perdidas sugerem que outros modelos computacionais precisam de ser desenvolvido para identificar a onco-miRs cujas redes reguladoras não pode ser explicada pelas enriquecimentos de genes alvo em assinaturas de expressão diferencial de genes.

Os comprimentos de 3′-UTR são fortemente correlacionado com o número de miARN alvo e as pontuações de contexto. As assinaturas enriquecidos podem significativamente ser tendenciosa para os com mais 3′-UTRs. Ao usar o teste de hiper-geometria para analisar os enriquecimentos de conjuntos de genes alvo de miRNA, descobrimos que as assinaturas alvo dos miRNAs inferidos têm muito mais média comprimentos de 3′-UTRs. No entanto, como FAME [6], o método utilizado miRHiC bipartido gráfico baseado permutação, que pode reduzir, em grande medida este preconceito: os comprimentos médios de 3′-UTR dos genes nas assinaturas visados ​​pelas onco-miRs são inferidas 1314 nt e 1449 nt para os conjuntos de dados de LUC e HCC, respectivamente, não mais do que estes comprimentos dos genes diferencialmente expressos (1424 NT NT e 1470, respectivamente).

miRHiC proporciona uma estratégia geral para analisar os regulamentos de miARN utilizando assinaturas hierárquicos . Diferentes métodos de agrupamento hierárquico pode ser usado para obter as assinaturas de co-expressão do gene hierárquicos. Além da co-expressão do gene, as interacções funcionais entre os genes e reguladores (por exemplo, as interacções proteína-proteína, os regulamentos da transcrição e da literatura coocorrências) pode ainda ser integrado para estabelecer as assinaturas de gene hierárquicos. Nós iremos continuamente testar estratégia miRHiC usando diferentes tipos de implementações.

Para obter melhores conjuntos de conjuntos de genes alvo de miRNA de controle, miRHiC usou o bi-partite permutação com base gráfico. Mas este método permutação é demorado. Além disso, a carga computacional é elevado para calcular os valores de p empíricos de uma forma aninhada entre as assinaturas de co-expressão do gene hierárquicos. Pretendemos desenvolver algoritmo mais rápido para reduzir os cálculos redundantes para estimar os valores de p no futuro.

Informações de Apoio

Tabela S1.

Os resultados detalhados de miRHiC, GSEA, HG-teste, miRDeG e miRKM

doi:. 10.1371 /journal.pone.0081032.s001

(XLSX)

Reconhecimentos

Agradecemos Dr Xiaotu Ma e Professor Yanda Li para discussões extensas. Agradecemos Rui Fu e Chao Ele para o desenvolvimento e validação de software.

Deixe uma resposta