PLOS ONE: Seleção Robust Algorithm (RSA) para Multi-Omic Biomarcador Descoberta; Integração com análise de rede funcional para identificar miRNA Pathways regulamentados em vários Cancers

Abstract

Os microRNAs (miRNAs) desempenham um papel crucial na manutenção da homeostase celular, regulando a expressão de seus genes-alvo. Como tal, a desregulação da expressão de miARN tem sido frequentemente associada ao cancro. Com os dados moleculares rapidamente se acumulam ligada ao resultado para o paciente, a necessidade para a identificação de marcadores moleculares multi-cas sólidas é crítica de modo a proporcionar impacto clínico. Quando as ferramentas de bioinformática anteriores foram desenvolvidos para identificar biomarcadores potenciais em cancro, estes métodos não permitem a rápida classificação de oncogenes supressores de tumores em comparação com, tendo em conta a expressão robusta diferencial, pontos de corte, e os valores de p não normalidade dos dados. Aqui, propomos uma metodologia, algoritmo de seleção robusta (RSA) que aborda estes importantes problemas na grande análise omics de dados. A robustez da análise de sobrevivência é garantida pela identificação de valores de corte ótimos de omics expressão, reforçada pelo valor p calculado por meio de reamostragem aleatória intensiva tendo em conta qualquer falta de normalidade nos dados e integração em redes funcionais multi-cas. Aqui temos analisado pan-cancro miARN dados de pacientes para identificar as vias funcionais envolvidos na progressão do cancro que estão associadas com miARN seleccionado identificado pela RSA. A nossa abordagem demonstra a maneira em que as técnicas de análise de sobrevivência existentes pode ser integrado com um quadro de análise de rede funcional para identificar de forma eficiente prometendo biomarcadores e novos candidatos terapêuticos através doenças

Citação:. Sehgal V, Seviour EG, Moss TJ, Mills GB, Azencott R, Ram PT (2015) Seleção Robust Algorithm (RSA) para multi-Omic Biomarcador Descoberta; Integração com análise de rede funcional para identificar miRNA Pathways regulamentados em vários tipos de câncer. PLoS ONE 10 (10): e0140072. doi: 10.1371 /journal.pone.0140072

editor: Xia Li, Harbin Medical University, CHINA

Recebido: 21 de maio de 2015; Aceito: 20 de setembro de 2015; Publicação: 27 de outubro de 2015

Direitos de autor: © 2015 Sehgal et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Dados Disponibilidade: Os dados que ter utilizado foi obtido a partir de TCGA e os parâmetros de pesquisa e de dados descarregado é explicado na secção de Métodos. dados TCGA podem ser encontrados neste URL https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm

Financiamento:. O trabalho aqui apresentado é parcialmente financiado pelo National Institutes of Health (NIH ) U54-CA112970 e da Fundação do cancro do ovário Blanton-Davis (PTR). TJM é apoiado por uma bolsa de formação no Centro de Keck da Costa do Golfo Consortium (NLM T15LM007093) eo Programa Odyssey na Universidade do Texas MD Anderson Cancer Center. VS é apoiado por uma bolsa de formação do Programa de Biologia Formação CPRIT Cancer Computacional (CPRIT RP101489)

Conflito de interesses:.. Os autores declararam que não existem interesses conflitantes

Introdução

MicroRNAs (miRNAs) são pequenos reguladores não-codificantes de ARN que se ligam a sequências complementares de ARN alvo mensageiro (ARNm), resultando na supressão ou degradação de translação dos ARNm-alvo. MiRNAs também podem ligar-se às sequências complementares da região promotora dos genes alvo e provocar a activação da transcrição [1, 2]. Assim, as alterações na expressão de miARN afectar a regulação de genes, que por sua vez leva a alterações na estabilidade homeostático celular [3, 4]

Vários miARNs têm sido mostrados para desempenhar um papel importante no cancro [5-7].; e estudos também demonstraram que mais de 50% dos genes de miARN estão localizados em regiões genómicas associadas a cancro [8]. Muitos miARNs ter sido demonstrado que desempenham papéis cruciais como oncomiRs de indução de cancro ou como supressor de tumor miRs [9]. Por exemplo, o miR-21 é um oncomiR bem estudado que é sobre-regulada em muitos tipos de cancro diferentes, [10, 11]. e desempenha um papel importante na resistência a drogas [12]. Os membros da família de miR-17-92 também funcionar como oncomiRs proeminentes [13] e pode promover o desenvolvimento do cancro, regulando negativamente os genes supressores de tumor. Por outro lado, miARNs tais como aqueles na função let-7 família miRs como supressores de tumor [14-16] e podem inibir o cancro através da inibição oncogenes e regulação de funções tais como a apoptose e diferenciação celular.

Vários grupos estudaram a capacidade de miARNs para serem usadas como marcadores para cancros específicos [17-22]. Na maioria desses estudos, os pesquisadores usaram sequenciamento, microarrays ou técnicas baseadas em PCR para o perfil global das miRNAs, e, deste modo, identificou vários miRNAs que desempenham papéis importantes no câncer. No entanto, estas abordagens sofrem de várias limitações. Tal como mostrado na nossa papel, os métodos actuais para a análise de miARN ou outros dados genómica que dependem de escolhas arbitrárias como escolher os limiares para a separação de grupos de pacientes em alta e baixa expressão pode ser

muito sensível a pequenas mudanças aleatórias na o grupo de pacientes, resultando em uma alta taxa de detecção falsa. Assim, apresentamos uma análise de sistemas robustos inovador em que miRNAs são acoplados aos resultados de sobrevida do paciente através de diferentes tipos de câncer para identificar mais rapidamente e eficientemente potenciais oncomiRs e miRs supressores de tumor.

Uma outra limitação das metodologias atuais é o alto número de miRNAs identificados ea dificuldade associada na validação tantas miRNAs experimentalmente. A fim de estreitar ainda mais para baixo o número de miRNAs para aqueles com o maior potencial em vários tipos de cancro, nós, adicionalmente, procurou integrar análise de rede funcional. A função primária de miARN é na regulação dos níveis de ARNm na célula através da ligação a sequências na UTR 3 ‘do ARNm, resultando numa alteração nos níveis de estado estacionário do mRNA e a subsequente alteração da saída funcional do gene [23 -25]. Assim, buscou-se identificar as redes de miRNA-mRNA funcionais com base na correlação dos níveis de expressão de miRNA e de mRNA em tumores de pacientes em que miRNA mostraram significado clínico.

Com o aumento exponencial na quantidade de dados que são gerados a partir de amostras de doentes de medição diferentes características moleculares no ômicas ou nível global de cada paciente, o desenvolvimento da bioinformática complementares e ferramentas de análise de sistemas de biologia é imperativo. Nós aqui propor um fluxo de trabalho que integra a análise de sobrevivência dos dados omics com técnicas de análise de rede funcionais para identificar biomarcadores miRNA potenciais e os caminhos que eles influenciam através de diversos tipos de câncer. Desde a nossa abordagem leva em conta o potencial

relacionamentos não-lineares

funcionais entre ‘os níveis de expressão e de pacientes potenciais marcadores resultados de sobrevivência, o seu desempenho excede o de análise de correlação tradicional, que é restrito a descoberta de cerca de

linear

relações funcionais. Além disso, propomos técnicas de análise de dados não paramétricos para as quais não são exigidos os pressupostos de normalidade implícitas sobre a distribuição dos níveis de expressão de genes, uma vez que a maioria dos dados omics não segue a distribuição normal. Neste estudo, nós demonstramos a utilidade desta abordagem utilizando conjuntos de dados paciente do Cancer Genome Atlas (TCGA) para identificar biomarcadores de prognóstico e mais validado o fluxo de trabalho propôs a utilização de um conjunto de dados publicados anteriormente.

Métodos

Porque procuramos identificar miRNAs que atuam tanto como supressores de tumor ou como oncomiRs, classificamos cada miRNA com forte impacto em termos de survivalas pacientes que têm tanto elevada expressão ligada à boa sobrevida do paciente (GS miRNAs) ou alta expressão ligados à sobrevivência paciente pobre (PS miARNs). Foram revistos os dados do paciente para resultados clínicos e os níveis de expressão de miRNA; temos desenvolvido uma nova seleção robusta Algorithm (RSA), que foi utilizado para classificar miRNAs como sendo associado com bom ou mau sobrevivência. Nós introduzimos e calculado um

Valor de p robusta

inovador para quantificar o impacto de cada candidato miRNA na sobrevivência bom ou mau (Fig 1A e Figura A e Figura B no Arquivo S1). Para demonstrar o fluxo de trabalho proposto, nós aplicamos o nosso subsequente análise de caminho funcional para conjuntos de dados TCGA para cinco tipos de câncer RSA e: mama, ovário, cabeça e pescoço, pulmão e rim (informação útil para baixar estes dados são encontrados em S1 Tabela).

(a) Esquema mostrando a visão geral da RSA. As entradas são dados clínicos e dados de expressão de miRNA; os resultados são miRNAs candidatos correlacionadas com boa ou má sobrevivência. (B) Validação da RSA usando assinaturas genéticas previamente publicados correlacionadas com os resultados de sobrevivência. Nós aplicamos RSA para dataset câncer de mama em Martin et al. E olhou para a sobreposição de genes correlacionados com boa e má sobrevivência calculado pela RSA e de seus resultados. Heatmap destes genes sobrepostos foi elaborado mostrando a intensidade alta gene em intensidade gene amarelo e pobre em azul.

Dados e pré-tratamento

TCGA contém várias formas de dados omics incluindo expressão miRNA, a expressão de ARNm. Ele também contém dados clínicos destes pacientes que dão informações sobre a sobrevida desses pacientes. Usando dados de sequência de RNA diferentes dos pacientes com câncer de TCGA, foram extraídas média expressão madura e estrela vertente de cada miRNA separadamente. TCGA tem dados disponíveis na forma miRNAseq, e fomos capazes de pesquisa 2092 miRNAs (o total miRNAs para o qual há dados disponíveis) para identificar miRNAs candidatos cuja expressão diferencial correlacionada com a sobrevivência.

dados de expressão TCGA miRNA são adquiridos usando ou a Illumina Hiseq ou plataforma Illumina GA. Correndo o nosso inicial análises sobre estas duas plataformas gerados separadamente resultados díspares. Em seguida, investigou ‘distribuições de expressão miRNA para determinar se pudéssemos combinar as duas plataformas’ as duas plataformas amostras para obter um maior número de amostras de doentes. Para comparar as distribuições de miRNA as duas plataformas ‘, foi aplicado o teste de Kolmogorov-Smirnov usando a hipótese nula de que as duas distribuições são iguais a 5% de significância. Isso nos ajudou a identificar quais miRNAs tinha semelhante (embora respectivamente distinta) distribuições em ambas as plataformas.

Nós também baixaram dados clínicos para cada um dos 5 tipos de câncer mencionados acima TCGA. A partir desses dados, foram extraídas tempos de sobrevivência dos pacientes até a morte ou censura. Vários dados do paciente em TCGA foram anotados como não tendo tempo de seguimento e, assim, foram sistematicamente removido da nossa análise do conjunto de dados final. Nós, então, combinados os pacientes para os quais estavam disponíveis dados de sequência clínicos e RNA.

homogeneização de dados entre plataformas

dados de expressão de miRNA TCGA para diferentes tipos de câncer foram geralmente adquirida através de diferentes plataformas. Para normalizar os níveis de expressão de miRNA e correto para artefactos devido à geração de dados usando diferentes modalidades de aquisição, nós reunidos todos os dados de expressão de miRNA TCGA disponíveis e sujeita-o a um passo de homogeneização, como explicado mais adiante nesta seção. Em seguida, usamos esses valores normalizados para a nossa análise do conjunto de dados final. Este passo de homogeneização é importante, pois corrige artefactos de dados devido a geração de dados através de diferentes plataformas e modalidades de aquisição.

distribuições miRNA as duas plataformas “não eram muito semelhantes e, portanto, não poderia ser combinados usando uma etapa de normalização médio padrão . Por isso, foi realizado o seguinte procedimento de homogeneização para combinar distribuições de expressão miRNA das plataformas para cada tipo de câncer. Para se obter uma função idêntica distribuição cumulativa (CDF) dos valores de expressão homogeneizados obtidos com ambas as plataformas, que homogeneizou as duas distribuições de expressão derivados de miARN as duas plataformas. O CDF “alvo” é definida como a CDF média das duas plataformas, ou seja,

F (x) = 0

.

5F1 (x) + 0

.

5F2 (x )

, onde F1 e F2 são os cdf da das duas plataformas, respectivamente. Vamos

G

ser a função inversa da

F

. Cada valor da expressão

x

da plataforma 1 é comparado com um valor expressão homogeneizado,

z (x)

, que é calculado invertendo a função

F

pelo valor

F1 (x)

; Assim,

z (x) = G (F1 (x))

. Cada valor da expressão de plataforma 2 é homogeneizado da mesma forma, com o

z (y) = G (F2 (y))

.

Para qualquer valor, 0≤ K ≤ 1, {F (z (x)) ≤ K} sse {z (x) ≤ L (K)} sse {L (F1 (x)) ≤ L (K)} sse {F1 (x) ≤ K}, e do mesmo modo, {F ( z (y)) ≤ K} {sse z (y) ≤ G (K)} {G sse (F2 (y)) ≤ G (K)} sse {F2 (y) ≤ K}.

Assim, podemos combinar as quantiles

x

e

y

nas distribuições separadas com seus quantiles

z (x) Comprar e

z (y)

na distribuição combinada

F

.

algoritmo de seleção robusta

a pesquisa bibliográfica foi realizada para identificar uma metodologia que poderia ser usada para melhorar os métodos existentes de avaliação de miRNAs e identificar o vias relacionadas ao câncer que influenciam. Identificamos um estudo que avaliou os valores prognósticos de miRNAs específicos em vários tipos de câncer [26]; no entanto, temos verificado que a metodologia de [26] é potencialmente muito sensíveis até mesmo pequenas perturbações do grupo de pacientes existentes, e temos validado esta instabilidade, aplicando-o aos nossos dados.

Para testar a sensibilidade do a metodologia de grupo de pacientes, foi utilizado o conjunto de dados de câncer de rim baixado TCGA. A partir deste conjunto de dados, criamos 100 conjuntos de dados simulados, largando aleatoriamente 2% dos pacientes em cada conjunto de dados simulado. Em cada conjunto de dados simulado, então, utilizada a metodologia de [26] para selecionar miRs fortemente correlacionados com a sobrevida do paciente. Desta forma, obteve-se 100 listas de miRNA selecionado. Em seguida, enumerou todos os miRNA que apareceram em 99 ou mais destes 100 listas. A estabilidade da metodologia foi então caracterizado por olhando para o histograma da fracção de miARN seleccionado que se mantiveram estáveis. Desde 2 de variação% nos grupos de pacientes é uma pequena variação, deve exigir uma metodologia sólida para selecionar miRNA semelhante repetidamente. No entanto, nossas simulações sugerem que a metodologia [26] seleciona apenas 68% estável miRNA, com o resto sendo sensível à composição específica do grupo de doentes (ver S30 Fig para uma quantificação de como pequenas mudanças nos dados pode levar a uma grande redução na estabilidade de biomarcadores identificados).

Além disso, este e outros tais estudos, muitas vezes, utilizar um único limiar de dados de expressão para comparar as curvas de sobrevivência, e dá resultados para miARNs candidatos para um tipo de cancro em um Tempo. Por isso, desenvolvemos um algoritmo de seleção robusta (RSA) que usa uma análise conjunta estatística não-paramétrica de dados de sobrevivência de pacientes e os níveis de expressão miRNA específicos do paciente para quantificar o valor prognóstico de cada miRNA. Em contraste com métodos que utilizam um único limiar para comparar os dados de sobrevivência, a RSA elimina o uso de um único limiar de Kaplan-Meier análise da curva de sobrevivência, ao escolher entre uma ampla gama de pontos de corte de dados de expressão usando uma gama de valores de corte estatisticamente relevantes. Assim, o desempenho do nosso RSA é bastante resistente a pequenas perturbações aleatórios do grupo de pacientes.

Clinicamente, miRNAs cujas expressões estão associadas com diferentes ações beneficiem de um tratamento diferente. Por exemplo, um miARN cuja expressão elevado está correlacionado com a sobrevivência mais prolongada (isto é, supressores tumorais) é tratada de forma diferente a partir de uma alta cuja expressão está correlacionada com a sobrevivência mais curto (isto é, oncomiRs). Portanto, primeiro classificar cada miRNA como um GS miRNA (alta sobrevivência expressão de boa) ou um miRNA PS (sobrevivência expressão de má alto). Esta etapa classificação inicial é realizado por primeiro calculando o tempo médio de sobrevivência de todos os pacientes disponíveis, a partir das estimativas de sobrevivência de Kaplan-Meier, para depois classificar miRNAs como segue.

Usando dados TCGA, primeiro calcular as estimativas de Kaplan-Meier do tempo de sobrevivência para os pacientes censurados na qual um miARN é expressa. Em seguida, usamos os dados de expressão de histograma para identificar dois grupos de pacientes: pacientes com alta expressão de miRNA e pacientes com baixa expressão miRNA. Para cada miRNA,

m

j

, separamos os pacientes em alta expressão de miRNA ou grupos de baixa expressão miRNA usando uma grade finito de pontos de corte,

C

, que vão desde o quantil 45% ao quantil de 60% da distribuição dos níveis de expressão em incrementos de 1%. Em cada ponto de corte, tais

C

definimos

G

alta

= grupo de pacientes com alta expressão de miRNA = grupo no qual expressão miRNA é maior do que o (

C

+4) quantil da distribuição níveis de expressão

G

baixo

= grupo de pacientes com baixa expressão miRNA = grupo em que a expressão miRNA é menor que o

C

quantil da distribuição níveis de expressão

os grupos de expressão elevados de expressão miRNA e baixa miRNA são separados por um ” grupo neutro “em que os níveis de expressão miRNA estão entre

C

% e (

C

+ 4)%. Esta margem de 4% pode ser aumentada sem prejudicar a análise, desde que a alta expressão miRNA e grupos de expressão miRNA baixos são razoavelmente grande.

Para cada corte C%, calculamos separadamente as estimativas Kaplan-Meier da sobrevivência curvas para o

G

G

baixos grupos em alta

e. O teste de log-rank é utilizado para avaliar a diferença entre as duas curvas de sobrevivência de Kaplan-Meier, e um valor de p,

PVAL (C)

, é calculado. A hipótese nula para o teste log rank é que as duas curvas de sobrevivência são o mesmo. O ideal de corte

C%

para separar os pacientes em

G

alta

ou

G

baixo

é escolhido para minimizar

pval (C)

. Vamos

q

j

ser o ideal escolhido de corte para cada miRNA

m

j

. Para cada miRNA

m

j

, calculamos os tempos médios de sobrevivência para os pacientes no grupo de alta expressão de miRNA (

Med

alta

) e para pacientes no grupo de expressão miRNA baixo (

Med

baixo

) no ideal de corte

qj

. Em seguida, a miARN classificar em dois grupos seguintes:

Exemplos deste tipo de caracterização miARN são mostrados na Figura B do Ficheiro S1. Para cada miRNA m

j pertencentes aos grupos GS ou PS, o cálculo anterior também dar-nos

j = pval (q

j

)

, que quantifica a importância da ligação potencial entre miRNA

m

j

e paciente o tempo de sobrevivência. parcelas de sobrevivência de Kaplan-Meier para pacientes com os cinco miRNAs candidatos significativas de interesse através de diferentes tipos de câncer, juntamente com a curva de sobrevida global para pacientes com esse tipo de câncer são mostrados na E27 e E28 Figs.

Geração de p- Robust valores

Temos repetidamente observou que os valores de p calculados com o método anterior pode ser um pouco sensíveis ao grupo pacientes específicos. Para eliminar essa sensibilidade, nós introduzir e aplicar um procedimento de reamostragem inovador para gerar

p-valores robustos

. O método descrito na secção anterior é usado para determinar se a expressão de miARN tem uma correlação significativa potencial não-linear com a sobrevivência. Para cada GS miRNA ou PS miRNA, introduzimos uma técnica aleatória resampling para calcular um valor p robusta,

PV (M

j

)

, a substituir o p-valor anterior,

pv (m

j

)

. Para implementar esta resampling, para cada ponto de corte

C%

e cada miRNA fixo

m

j

, nós deixamos cair aleatoriamente 1% dos pacientes de cada um dos os dois grupos

G

alta

e

G

baixo

. e calculamos as curvas de sobrevivência de Kaplan-Meier para estes dois grupos de pacientes perturbados.

Tal como referido acima, primeiro calcular o corte ideal que melhor separa a distribuição expressão miRNA com base nos perturbados parcelas de sobrevivência de Kaplan-Meier e em seguida, calcular o valor de p

pv (m)

ou a sobrevivência neste ideal de corte. Para cada miRNA fixo

m

j

, repetindo o processo de perturbação randomizado 500 vezes gera um conjunto de 500 valores-p virtual

pv (m)

. Para definir um limite superior de confiança

PV (m

j

)

para o p-valor desconhecido

pvl (m

j

)

, montamos

PV (m

j

)

ser igual ao 75

percentil dos valores de p virtuais 500. Chamamos

PV (p

j

) of the

robusta valor-p Compra de miRNA

m

j

. O miRNAs

m

j

com valores de p robustos significativas

PV (m

j

)

são então classificadas como miRNAs candidatos que estão correlacionados com a sobrevivência boa ou má, proporcionando assim uma lista de miRNAs cuja expressão diferencial está correlacionada tanto com momentos bons ou pobres sobrevivência. O esquema do algoritmo é mostrado na S29 Fig.

Para a nossa análise, descartar todos os miRNAs que têm um 0 a expressão média, durante o grupo de pacientes. Além disso, as amostras TCGA anotada como não tendo tempo de acompanhamento não foram incluídos na nossa análise.

Tipos

Cancro

Para identificar miRNAs candidatos cuja expressão diferencial está fortemente ligada com mais de um tipo de câncer, aplicamos o nosso RSA para múltiplos conjuntos de dados de pacientes de câncer disponíveis no TCGA. Nós aplicamos o nosso RSA para os conjuntos de dados de tipos de cancro representados por, pelo menos, 400 amostras e para a qual combinava estavam disponíveis, ou seja, de mama (BRCA), ovário (OVCA), cabeça e pescoço (HNSC), pulmão dados de expressão clínica e miRNA (LUAD ) e rim (KIRC) câncer. Os números de amostras emparelhadas para cada um destes tipos de cancro são mostrados na Fig S1. Como o câncer de mama é uma doença específica do subtipo, também investigamos subtipos de câncer de mama individualmente para determinar se um subtipo específico foi responsável pela forte ligação entre diferencial de expressão miRNA e sobrevida do paciente.

Validação

Martin

et al

. [27, 28] reuniram dados de sobrevivência e de expressão de genes combinados de seis conjuntos de dados de pacientes com cancro da mama diferentes e descobriu que juntando os dados sinergicamente afectaram o desempenho de classificação e melhor estabilidade gene assinatura. Os autores utilizaram o conjunto de dados agrupados para identificar uma assinatura de expressão gênica relacionada com a sobrevida do paciente. Porque o nosso RSA pode ser usado para analisar não apenas os dados de expressão miRNA mas também os dados de genes ou de expressão de proteínas, foram selecionados este conjunto de dados para validação. Utilizou-se este conjunto de dados (acessível através do Expression Omnibus Gene) para validar o desempenho do nosso RSA na identificação de mRNA correlacionaram com a sobrevida do paciente. Nós aplicamos o nosso RSA para o conjunto de dados em pool de Martin et al. para identificar genes cuja expressão diferencial foram correlacionados com a sobrevida do paciente. Em seu estudo, eles identificaram grupos de genes fortemente correlacionados com a sobrevivência bom e mau. Aplicação do nosso método RSA ao seu conjunto de dados também identificou um conjunto de genes cuja expressão elevada foi fortemente ligada com boa sobrevida e outro grupo de genes cuja expressão elevada foi associada a sobrevida. Além disso, os dois métodos deram uma sobreposição de 22 genes. Um mapa de calor dos genes comuns que indicam a sua correlação com a sobrevivência é apresentada na figura 1B.

Integrar os níveis de expressão conjunta miRNA-RNAm para gerar redes funcionais

Para identificar as vias reguladas por cada candidato miRNA nossa RSA selecionado, reunimos dados de expressão conjunta miRNA-RNAm específicos do paciente a partir TCGA e analisá-los para gerar redes de correlação miRNA-RNAm. As correlações foram calculados utilizando um modelo linear multivariada que é responsável por variações do nível de expressão de ARNm induzidas por alterações no número de cópias de ADN e a metilação do promotor no locus do gene. Calculamos listas de genes e coeficientes de regressão correspondente classificados como descrito anteriormente [29]. Para reduzir o potencial de distorção dos dados devido a contaminação do estroma nas amostras, foram removidos os genes associados com a matriz extracelular (Fig S8). Em vez de focar em genes individuais que estão fortemente correlacionados com um dado candidato miRNA, usamos Netwalker [30], um conjunto de software que integra dados de expressão gênica e dados de interação molecular para marcar interacções conhecidas, para identificar redes de interação inteiras que foram positivamente ou negativamente correlacionado com o candidato miARN. Utilizando os coeficientes de regressão miRNA-RNAm como valores de entrada para Netwalker, foram calculados valores de fluxo de ponta para as interações moleculares conhecidas, e usamos as interações com os valores de fluxo de borda mais alta (superior a 200 200 interações negativas positivas e superiores) para gerar as redes. O Log2 dos valores beta é exibido para todas as redes.

Nós construímos redes de interação miRNA-RNAm para os cinco miRNAs candidatos mais robustos que foram significativamente correlacionados com os resultados de sobrevivência em quatro tipos de câncer (ou seja, LUAD, HNSC , KIRC, e OVCA). as redes destes miRNAs cinco candidatos, que incluem genes que são ou positivamente (amarelo) ou negativamente (azul) correlacionados com a expressão alta miRNA, são mostrados na S9-S29 Figs. Para identificar as vias potencialmente reguladas por esses cinco miRNAs candidatos em toda a diversos tipos de câncer, primeiro identificou os tipos de cancro em que estes miRNAs foram associados com o mesmo prognóstico (ou seja, bom ou sobrevivência pobres) e depois analisados ​​os termos da ontologia de genes comuns associados com as redes para estes tipos de câncer.

resultados

Nós aplicamos o nosso RSA para dados do paciente TCGA que incluem os níveis de expressão de miRNA e resultados clínicos. Depois do pré-tratamento dos dados, que inclui o processo de homogeneização, para remover os efeitos de diferentes plataformas de extracção de expressão miARN, primeiro calculado um limiar óptimo que seria melhor separar os níveis de expressão de miARN em termos de resultados de sobrevivência calculada utilizando o método de Kaplan-Meier método e o teste de log-rank. Em seguida, agrupados os miRNAs em grupos, miRNAs associados com boa sobrevida (GS miRNAs) e miRNAs associados com pior sobrevida (PS miRNAs), comparando a sobrevida global mediana em grupos óptimas com a sobrevida global mediana de toda a população. Usando amostragem aleatória intensiva, calculamos um valor p robusta para cada candidato miRNA para identificar candidato GS miRNAs ou PS miRNAs para cada tipo de câncer.

Em seguida, foram caracterizadas as miRNAs candidatos identificados por localização cromossomo e estabilidade genômica e construídos miARN-ARNm redes funcionais. Ao analisar as interações entre os marcadores prognósticos miRNA e vias funcionais envolvidos na progressão do cancro, nós determinamos as principais vias estes marcadores prognósticos miRNA afetam.

miRNA-Doença Survival Rede

Para cada tipo de câncer, ou seja, , mama (BRCA), ovário (OVCA), cancro do rim (KIRC) de cabeça e pescoço (HNSC), pulmão (LUAD), e, identificamos miRNAs candidatos cuja expressão diferencial foi fortemente relacionada com a sobrevida dos pacientes em vários tipos de câncer. Os candidatos GS miARN e PS miARN para o qual um valor de p robusta indicados significativa correlação com a sobrevivência em, pelo menos, 3 tipos diferentes de cancro são mostrados na Fig 2A. Nós definido e construído redes de sobrevivência miRNA-doença que codificados associações entre miRNA e tipos de câncer (Fig 2B). Diferentes círculos contêm miRNAs associados com o prognóstico em (a partir da esquerda para a direita) tipos um, dois, ou três cancerosas. Abaixo destes 3 círculos, os miRNAs significativamente associados com o prognóstico em quatro tipos de câncer são indicados. Desde a nossa primeira prioridade foi identificar alvos que são válidas em vários tipos de câncer, foram selecionados cinco miRNAs (miR-24-1 *, miR-30e, miR-15b, miR-485 e miR-487B) que foram fortemente relacionados com sobrevivência (p-valor robusta ≤ 0,01) em vários tipos de câncer

(a) miRNAs candidatos de RSA significativamente (robusta valor de p 0,01). correlacionados com boa sobrevivência ou a sobrevivência pobre em pelo menos 3 tipos de câncer . (B) da rede de sobrevivência miRNA-doença. Os círculos indicam os miRNAs fortemente ligados à sobrevida do paciente em diversos tipos de câncer. Da esquerda para a direita: miRNAs associados ao prognóstico em um tipo de câncer, 2 tipos de câncer, e 3 tipos de câncer. retângulos brancos representam tipos de câncer. rectângulos amarelos representam miRNAs. A cor da borda entre um miRNA e um tipo de câncer, indica se o miRNA está correlacionada com boa (azul) ou (laranja) mau prognóstico de um tipo de câncer.

Copy Number Alterações

Cada candidato miRNA fortemente ligada à sobrevida do paciente em pelo menos 4 tipos diferentes de câncer foi ainda investigado em termos de sua localização cromossômica e padrão de expressão em pacientes. As pontuações GISTIC em cópias alterações numéricos para cada um dos locais dos cromossomas destes miARNs em cada tipo de cancro foram obtidas a partir do portal de dados CBio e são mostrados na Fig 3A. miR-485 e miR-487B, que estão localizados muito próximos uns dos outros no cromossomo 14, têm relações semelhantes com prognóstico em diversos tipos de câncer e têm alterações no número de cópias similares através destes tipos de câncer (Fig 3A). miR-15b está fortemente ligada com boa sobrevivência no HNSC e OVCA e exibe ganhos no número de cópias semelhantes em esses tipos de câncer. Um ganho em número de cópias numa dada localização cromossoma indicaria um aumento da expressão da miARN relevante. Para cada miARN seleccionado, os padrões dos seus níveis de expressão em tecidos normais e tumorais são semelhantes aos perfis correspondentes de alterações no número de cópias (Fig 3B). (Nós não poderíamos fazer uma comparação semelhante em OVCA, como nós não temos dados para amostras de tecidos normais.)

(A) A caracterização dos 5 miRNAs candidatos fortes em termos de variação do número de cópias e expressão. As alterações no número de cópias identificado-GISTIC em cada um dos loci de cromossoma para os miARNs em diferentes tipos de cancro são exibidos. O “GS” ou “PS” dentro de cada círculo indica a ligação com o bem (azul) ou (laranja) mau prognóstico. (B) Expressão em tumor e tecido normal para cada um dos forte candidato miARN. Para OVCA, os dados de tecido normal não estavam disponíveis.

Também calculamos a correlação entre as alterações no número de cópias no local cromossomo de cada candidato miRNA e as mudanças nos níveis de metilação para cada tipo de câncer individualmente e para todos os 5 tipos de câncer combinados (S2-S6 figos). Encontramos correlação significativa entre a expressão de miRNA e variação do número de cópia nesses loci e entre a expressão de miRNA e os níveis de metilação nos tipos de câncer relevantes. Quando analisamos os dados agrupados dos tipos de câncer 5, ainda observadas correlações significativas entre a expressão de miRNA e copiar variação do número e níveis de metilação.

Deixe uma resposta