PLOS ONE: No Reprodutibilidade dos TCGA Ovarian Cancer MicroRNA Profiles

expressão Abstract

desregulado microRNA (miRNA) é um recurso bem estabelecido de câncer humano. No entanto, o papel de miARNs específicos na determinação dos resultados de cancro permanece obscura. Usando dados de nível 3 de expressão do Cancer Genome Atlas (TCGA), foram identificados 61 miARNs que estão associados com a sobrevivência global em 469 cancros do ovário perfiladas por microarranjo (p 0,01). Foram também identificadas 12 miARNs que estão associados com a sobrevivência quando miARNs foram perfilado nas mesmas amostras utilizando Next Generation Sequencing (miARN-SEQ) (p 0,01). Surpreendentemente, apenas 1 transcrição miRNA está associada com a sobrevivência do cancro do ovário em ambos os conjuntos de dados. Nossas análises indicam que esta discrepância é devido ao fato de que os níveis de miRNA relatados pelas duas plataformas correlacionar mal, mesmo após correção para possíveis problemas inerentes para sinalizar algoritmos de detecção. Correções para falsa descoberta e microRNA abundância teve um impacto mínimo sobre esta discrepância. Outras investigações se justifica

Citation:. Wan Y-W, Mach CM, Allen GI, Anderson ML, Liu Z (2014) sobre a reprodutibilidade de TCGA Ovarian Cancer MicroRNA Perfis. PLoS ONE 9 (1): e87782. doi: 10.1371 /journal.pone.0087782

editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos da América

Recebido: 06 de novembro de 2013; Aceito: 01 de janeiro de 2014; Publicação: 29 de janeiro de 2014

Direitos de autor: © 2014 Wan et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho é apoiado em parte pelos avanços Collaborative Biomedical Computação Programa de Financiamento produção de sementes nos no Instituto Kennedy Ken de Tecnologia da Informação na Universidade Rice, apoiados pelo Fundo John e Ann Doerr for Computational Biomedicina e através do Centro de Computacional e Integrativa Biomedical Research Programa de financiamento de sementes em Baylor College of Medicine. GA também é parcialmente financiado pela NSF DMS-1.209.017. ZD é suportado pelo Houston Bioinformatics Endowment e NSF DMS-1.263.932. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Os microRNAs (miRNAs) são transcrições de RNA endógenos que regulam diversos padrões de expressão genética [1]. A maioria dos humanos miARNs são transcritas como longas precursores conhecidos como pri-miARNs. Começando no núcleo, pri-miARNs submetidos a uma série de eventos de processamento que em última análise, resultam na libertação citoplasmática de transcritos maduros ± 22 nucleótidos em comprimento. miRNAs maduros catalisar a inibição de translação pela diretamente ligação a RNA mensageiro (mRNA) e promovendo a sua degradação [2]. Dados recentes indicam que miARN pode inibir a tradução independente de sua capacidade para induzir a degradação de ARNm.

padrões de expressão têm sido extensivamente miARN perfilado em tecidos humanos. É agora claro que a expressão de miRNA desregulado é uma característica de muitos cânceres diferentes, incluindo carcinomas da mama, ovário e pulmão [3] – [5]. No entanto, determinar os mecanismos pelos quais miRNAs individuais contribuem para os resultados do cancro continua a ser um desafio importante para os biólogos na esperança de explorar o seu poder. Recentemente, o Cancer Genome Atlas Consortium (TCGA) informou que cancros do ovário agrupar em subtipos moleculares distintos baseados em seus padrões de expressão gênica e microRNA [6]. No entanto, descobrimos uma alarmante falta de coerência entre os perfis de expressão microRNA (miRNA), inicialmente utilizados pela TCGA e um perfil subsequente de expressão miRNA gerado por este grupo para os mesmos espécimes de cancro do ovário usando miRNA-Seq. Como estas observações contestar a validade dos dados subjacentes, eles também sugerem que as descobertas científicas baseadas unicamente em dados deverão ser interpretados com cautela.

Resultados

Para delinear miRNAs associados à sobrevida do paciente de cancro do ovário , foi realizada uma análise de regressão de Cox univariada Nível 3 dados TCGA miRNA para 469 cancros do ovário perfiladas que utilizam a tecnologia de microarrays Agilent. A análise de regressão inicial foi aperfeiçoada por utilização do procedimento Benjamini-Hochberg (BH) para ajustar a hipótese de múltiplos testes [7]. Descobrimos que 16 miRNAs maduros estão significativamente associados com a sobrevivência do cancro do ovário (FDR 0,01) (Figura 1A). Destes, o miR-505, o miR-652 e miR-551b * demonstrar as associações mais robustas. taxas de risco (HR) calculados para esses miRNAs foram -1,73, -1,8 e 9,3, respectivamente. Este resultado indica que cada um destes miRNAs potencialmente desempenha um papel importante na determinação de sobrevivência de câncer de ovário.

parcelas p-valor de regressão de Cox univariada para microRNAs associados à sobrevida do câncer de ovário identificado por microarray (A) ou miRNA-Seq (B) dados. Valor P 0,01 (linha a cheio). taxa de falsa descoberta (FDR) 0,1 (linha pontilhada). Em ambos A B, pontos azuis indicam miRNAs associados à sobrevida através de array miRNA, enquanto pontos vermelhos indicam miRNAs associados à sobrevida de miR-Seq. estrelas verdes são miRNAs associados com a sobrevivência em ambos os conjuntos de dados. (C) porcentagem de sobreposição de miRNAs entre a matriz e plataforma de seq NGS em diferentes limiar de corte para os valores de p Cox, BH ajustado FDR, e valores de Q andares.

Para validar essas observações, nós próxima interrogado um segundo conjunto de dados de expressão miRNA gerado pelas mesmas amostras de cancro do ovário usando Next Generation Sequencing (miRNA-Seq). O projeto do cancro do ovário TCGA é único em que a expressão de miRNA foi perfilado usando tanto matriz miRNA e miRNA-Seq. Estas plataformas tecnicamente distintas criar uma oportunidade única para validar descobertas feitas usando um conjunto de dados contra o outro. Idealmente, os resultados obtidos devem correlacionam-se bem. Usando a análise de Cox riscos proporcionais, descobrimos que 4 transcrições de miRNA estão associados com a sobrevivência quando miRNAs foram perfilado em cancros do ovário usando miRNA-Seq a um nível idêntico FDR (Figura 1B). Não existe sobreposição entre os resultados obtidos com estas duas plataformas, apesar do fato de que ambos os conjuntos de dados foram gerados a partir das mesmas amostras.

Para determinar se o microarray e plataformas próxima geração vai dar resultados mais consistentes, quando analisados ​​por meio de um limite relaxada, reduzimos o limiar p-valor utilizado para nossas análises para 0,01. Isto resultou em mais miRNAs significativamente associados com a sobrevida dos pacientes em ambos os conjuntos de dados. Por exemplo, foram identificadas 61 miARNs a partir de dados gerados usando a plataforma de matriz. No entanto, as taxas de risco estimadas para os 12 miRNAs identificados a partir de dados miRNA-Seq estão todos muito perto de 1,0. Apenas o miR-652 está associada com a sobrevivência em ambos os conjuntos de dados de microarray miARN-SEQ e. Para corrigir testes de hipóteses múltiplas, nós ajustamos nossos valores p modelo de Cox utilizando procedimento Benjamini-Hochberg [7]. Depois de concluir essas análises, não há miRNAs estão correlacionados com a sobrevivência em ambos os conjuntos de dados quando a taxa de descoberta de falsas foi fixado em 10%.

Para determinar se a escolha de um procedimento de ajuste hipótese múltipla contribui para estes resultados, nós re-analisados os dados TCGA utilizando um procedimento de estimativa Q-valor alternativo [8]. Além disso, nós calculada a percentagem de sobreposição miARNs em diferentes FDR ou p-valor de cut-off. Nossos resultados indicam que o número limitado de sobreposição de miRNAs entre as duas plataformas é independente da escolha do procedimento de ajuste hipótese múltipla ou de corte limiares (Figura 1C).

Para elucidar as possíveis causas para esta discrepância inesperada, nós verificar a reprodutibilidade de expressão miARN entre os dois ficheiros TCGA que descrevem estes dados. coeficientes de correlação de Pearson (r) foram calculados para cada um dos 359 miARNs maduros humanos para os quais os dados de nível 3 expressão estava disponível em ambas as bases de dados de miARN-SEQ e microarray. Descobrimos que os coeficientes de correlação para os níveis de miRNAs individuais relatados por cada técnica variou muito. Por exemplo, miR-505 é o miRNA mais robustamente associado com o resultado do paciente em nossas análises dos dados de matriz miRNA (HR = -1,7, p 9e-5). No entanto, quando avaliada utilizando dados de sequenciamento, a taxa de risco para mir-505 foi 0,998 (p = 0,03). Os níveis de miR-505 medido por dados miARN-matriz e miARN-seq correlacionou-se apenas modestamente (r = 0,59) (Figura 2B). Discrepâncias também foram observadas num certo número de outros miARNs que tenham sido previamente implicado no cancro do ovário, tais como o miR-143 [9]. O coeficiente de correlação para miR-143 em nossas análises foi de 0,39 (Figura 2C). Outra miARN bem estudado em cancro do ovário é de miR-141, que foi previamente relatado para segmentar p38a e modulam a resposta ao stress oxidativo [10], [11]. No entanto, a correlação entre os níveis de miR-141 em TCGA microarray e os dados de expressão de miRNA-Seq é de apenas 0,32 (Figura 2D). No geral, descobrimos que os coeficientes de correlação para ~72% dos miRNAs perfilados em ambos os conjuntos de dados foram ≤0.5 (Figura 3A, 3C), indicando baixa reprodutibilidade. Apenas 22% dos mRNAs medidos pela Agilent microarray e Ilumina HiSeq usando as mesmas amostras de cancro do ovário correlacionar mal (r≤0.5; Figura 3B, 3C). Assim, a discrepância relatamos aqui parece ser limitado ao conjunto de dados TCGA miARN.

(A) miR-98, (B) o miR-505 (C) miR-143 e (D) de miR-141.

(A) Histograma de coeficientes de correlação para miRNAs individuais medidos pelo miRNA-Seq e matriz miRNA. (B) Histograma de coeficientes de correlação de mRNAs perfilados pela Illumina HiSeq e matriz de mRNA. (C) A função de distribuição cumulativa empírica (ECDF) da correlação entre a matriz e sequenciamento de miRNA (preto), filtrada miRNA (cor) e medidas de mRNA (cinza). Quase, 72% de miARNs demonstrar um coeficiente de correlação ≤0.5 ao passo que 22% dos RNAs têm um coeficiente de correlação ≤0.5. Quando filtrada com base no nível de expressão, a percentagem de miRNAs com correlação ≤0.5 saturado a 56%.

Uma causa potencial para a fraca reprodutibilidade pode ser o algoritmo de detecção de sinal utilizado para relatar níveis de expressão miRNA. Nível 3 TCGA miARN são relatados em dois formatos. O primeiro, rotulado como um “Dados Quantificação”, relata níveis de miRNAs humanos individuais. No entanto, uma das vantagens da miARN-Seq é que os transcritos recuperados por esta técnica pode ser mapeado precisamente. Um segundo arquivo, rotulada como “de isoformas de dados”, também foi lançado pela TCGA. Este relatório de arquivo ler as contagens de transcrições de acordo com a sua localização genômica. Como parte deste arquivo, transcrições são identificados como quer madura miRNA, miRNA * (3p braços de miRNAs humano), stem-loop de transcrição ou precursor. enquanto trabalhando através destes dados, nós aprendemos que os níveis de miRNA relatados no arquivo TCGA quantificação incluem contagens de ler para precursores de miRNA, bem como miRNAs maduros. Porque precursores de miRNA estão actualmente pensado para carecem atividade biológica, a inclusão de precursores com contagens de miRNAs maduros poderiam confundir análises de sobrevida. para resolver esse problema, nós recuperamos ler as contagens para miRNAs maduros somente a partir do arquivo de dados isoforma e repetiu as nossas análises. no entanto, a proporção de coeficientes de correlação de miRNA ≤0.5 permaneceu tão alto quanto 71%, apesar do uso destes dados, mais precisamente definidos.

Uma segunda explicação possível para a discrepância observada pode ser que as correlações entre medidas de expressão miRNA dependem da frequência com que as transcrições de miRNA individuais são expressos. Se assim for, com pouca frequência miARNs expressos pode ser relatado por uma ou ambas as plataformas utilizadas para o perfil de expressão de miARN aleatoriamente ou de forma imprecisa. Para explorar essa hipótese, nós re-calculados os coeficientes de correlação para cada miRNA identificado por ambas as plataformas após a exclusão de qualquer transcrição no conjunto de dados miRNA-Seq com uma leitura contar menos de 5. Isto reduziu o número de miRNAs distintos disponíveis para análise no miRNA- ficheiro de dados a partir de SEQ 705 a 380. no entanto, a proporção de miARNs com coeficientes de correlação ≤0.5 também diminuiu de 72% para 56%. Do mesmo modo removendo transcritos mal expressas a partir da piscina de mRNAs perfiladas por Ilumina HiSeq reduz a proporção de ARNm cujos coeficientes de correlação ≤0.5 de 22% a 20%. Estas observações indicam que problemas em detectar raramente expressa miRNA pode impactar a capacidade ou a uma ou ambas as plataformas para relatar de forma confiável expressão miRNA. No entanto, o fato de que mais da metade das transcrições miRNA ainda tinha coeficientes de correlação ≤0.5 mesmo após a correção para este problema indica que transcrições mal expressas não são os únicos responsáveis ​​pelos padrões discordantes de expressão miRNA relatados pelas duas plataformas.

para explorar esta questão mais a fundo, calculou-se a gama de níveis de expressão transformados log2 para todos os microRNAs nos dois conjuntos de dados. Nós também desenvolvido um algoritmo que permitiu variar o limiar de expressão aceitáveis ​​para inclusão para análise a partir de um valor mínimo (0) para a média log2 transformado nível de todos os transcritos de expressão. Para cada limite, só microRNAs considerados expressa acima do limiar e recalculado a correlação entre as duas plataformas. Essa análise revela que a exclusão de transcrições de miRNA expressa menos frequência do que a média melhora apenas ligeiramente a correlação geral entre as duas plataformas usados ​​para perfil de expressão miRNA (Figura 3C). Como mostrado graficamente, verificou-se que 71% da miARN demonstram correlação inferior a 0,5, sem a utilização de qualquer filtragem. Através da utilização de um filtro de nível de expressão, tal como descrito, verificou-se que a proporção de transcritos com coeficientes de correlação através das duas plataformas saturado a 56%. Este ainda é muito maior do que os 22% observados com sistemas de expressão de mRNA de perfil.

Discussão

Para nossa grande surpresa, nossas análises indicam que os microRNAs associados à sobrevida no câncer de ovário depende altamente sobre se espécimes foram perfilado pelo TCGA utilizando microarrays ou miARN-Seq. As nossas análises indicam que esta discrepância existe porque miARN-SEQ e micromatriz têm gerado muito diferentes perfis de expressão de miARN, apesar dos dados baseia-se nos mesmos espécimes de cancro do ovário. No momento, não temos uma explicação clara de por perfis de expressão de miRNA relatados pelo TCGA são discordantes. No entanto, compreender esta discrepância acabará por ser importante para identificar quais miRNAs se houver são importantes para a determinação dos resultados de câncer de ovário.

Uma variedade de tecnologias de microarranjo de DNA foram previamente validados pelos investigadores examinaram dentro da plataforma e multi-plataforma reprodutibilidade [ ,,,0],12] – [14]. coeficientes de correlação de Spearman relatados nestes estudos variam 0,59-0,94 com uma média de 0,82. Estes resultados são semelhantes ao que temos observado para as correlações entre os padrões de expressão genética perfilado usando microarray e plataformas Illumina HiSeq pela TCGA. Ambas as tecnologias de microarray miRNA-Seq e estão associados com várias limitações técnicas que podem explicar as diferenças que temos observado. Por exemplo, hibridação cruzada é um problema bem conhecido que pode reduzir a especificidade do sinal quando um perfil transcritos de ARN por microarrays [15]. No entanto, parece improvável que a hibridação cruzada é a principal causa da discrepância observou-se, como o número de transcritos correlacionados com a sobrevivência por matriz é maior do que o número associado com a sobrevivência por miARN-Seq. Uma explicação alternativa pode ser que o algoritmo de extração de sinal usado para analisar dados de miRNA-Seq não com precisão relatam níveis de miRNA. Em geral, o miRNA-Seq permite mapeamento transcrição exacta com muito mais confiança. O algoritmo de extração de sinal usado atualmente pela TCGA para relatar níveis de miRNA inclui contagens de leitura para tanto um miRNA maduro e seu precursor correspondente. As nossas análises indicam que os precursores representam menos de 1% do total de contagens de miARN no ficheiro isoforma TCGA. Isto provavelmente reflecte o uso de ARN fraccionado em tamanho para preparar bibliotecas de miARN-Seq [5]. Assim, a sua inclusão ou exclusão na análise do conjunto de dados TCGA provavelmente tem pouca influência sobre o que miRNAs estão associados com a sobrevivência do cancro do ovário.

Em conjunto, estas observações ressaltam a necessidade urgente de algoritmos bem definidos para processamento de sinais gerados por miRNA-Seq e plataformas de perfis de transcrição. Nosso entendimento é que as mesmas análises foram realizadas por TCGA para outros cancros, incluindo cólon, mama e pulmão [16] – [18]. Uma vez que a expressão de miARN noutros cancros não foi perfilado por microarranjo, não é possível repetir as nossas análises para determinar se a discrepância relatamos é observada em outros cancros. Em última análise, os dados genômica consistente e confiável é fundamental para a construção de hipóteses testáveis ​​e alcançar o pleno potencial do TCGA. Nossas observações identificar um risco importante de que os investigadores devem estar cientes de como eles utilizam os dados TCGA miRNA para estudar o câncer de ovário. Para a curto prazo, o conhecimento deste perigo sublinha a necessidade de validar observações feitas com um ou ambos os conjuntos de dados de TCGA miARN. No entanto, a longo prazo, a resolução desta discrepância será importante para determinar os algoritmos de plataforma e de extração de sinal mais eficazes para a criação de perfis de expressão miRNA como parte dos esforços de perfis genômicos em larga escala.

Materiais e Métodos

gene Expression e microRNA dados

Nível 3 de dados que documentam padrões de expressão gênica de 296 espécimes de cancro do ovário perfilados usando matrizes Agilent G4502A e Illumina HiSeq foram baixadas a partir do portal de dados TCGA. Nível 3 dados de expressão de microRNA também foram recuperados para 469 espécimes de cancro do ovário perfilados usando a matriz Agilent 4X15k e miRNA-Seq. Nível 3 de dados de miRNA perfilados por miRNA-Seq foram recuperados tanto a quantificação miRNA e arquivos isoformas disponíveis no portal de dados TCGA juntamente com metarquivos anotação de cada conjunto de dados. Permissão para acessar todos os dados foram obtidos a partir de Comissão de Acesso a Dados para o Centro Nacional de Biotecnologia Informações genótipos e fenótipos de banco de dados (dbGAP) no National Institutes of Health.

As análises de sobrevivência

Codificado sobrevida do paciente os dados foram extraídos do arquivo de informações clínicas TCGA. Um modelo de Cox proporcional perigos foi usada para estimar a associação entre os níveis de miARN individuais. sobrevida do paciente foi calculado como o tempo em meses decorridos desde a data do diagnóstico até a data do último contato.

Análises Estatísticas

coeficientes de correlação de Spearman, histogramas e a distribuição cumulativa empírica foram calculados e plotados para cada gene usando miARN e R. dados de sequenciação foram log transformados para plotagem. Ambas as contagens de leitura diretos e conta normalizado de acordo com a milhões de miRNAs foram examinados como parte de nossas análises. Todas as análises foram realizadas utilizando contagens de leitura, tanto crus e normalizados relatados como parte dos conjuntos de dados TCGA miRNA-Seq.

Reconhecimentos

Os autores agradecem a comunicação de David Wheeler, Rehan Akban, Gordon Robertson e Andy Chu sobre TCGA miRNA algoritmos de análise de dados.

Deixe uma resposta