PLOS ONE: bracelete: Um recurso integrado para Profiling Alto Throughput Cancer Genomic Dados do stress Studies

Response

Abstract

A crescente disponibilidade e maturidade da tecnologia de DNA microarrays levou a uma explosão de câncer profiling estudos para identificar biomarcadores de câncer, e prever a resposta ao tratamento. Descobrindo relações complexas, no entanto, continua a ser a tarefa mais desafiadora, pois requer a compilação e eficiente consulta de dados de várias fontes. Aqui, descrevemos a matriz resposta ao estresse Profiler (alça), um open-source, recurso baseado na web para armazenamento, perfilamento, visualização e partilha de dados genômicos de câncer. casas alça de multi-câncer de dados microarray com grande ênfase em estudos de radioterapia, e tem uma abordagem de biologia de sistemas para a integração, comparação e validação cruzada de vários estudos de câncer de perfil. O banco de dados é uma plataforma abrangente para a análise comparativa de dados de expressão de genes. Para o uso eficiente de matrizes, nós fornecemos ferramentas de visualização interativa de fácil utilização e que pode mostrar os resultados de dados e de consulta. Strap é baseado na web, independente de plataforma, e livremente acessível em https://strap.nci.nih.gov/

Citation:. Johnson S, Issac B, Zhao S, Bisht M, Celiku O, Tofilon P, et al. (2012) bracelete: Um recurso integrado para Profiling Alto Throughput Cancer Genomic dados de estudos resposta ao estresse. PLoS ONE 7 (12): e51693. doi: 10.1371 /journal.pone.0051693

editor: Sui Huang, Instituto de Biologia de Sistemas, Estados Unidos da América

Recebido: 09 de agosto de 2012; Aceito: 05 de novembro de 2012; Publicado: 17 de dezembro, 2012 |

Este é um artigo de acesso aberto, livre de todos os direitos autorais e pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita. O trabalho é feito disponível sob a dedicação de domínio público da Creative Commons CC0

Financiamento:. Este trabalho foi apoiado pela Intramural Research Program do National Institutes of Health, National Cancer Institute, Centro de Pesquisa do Câncer. As despesas de publicação deste artigo foram custeados em parte pelo pagamento de encargos de página. Este artigo deve ser instituído marcada anúncio de acordo com 18 U.S.C. Seção 1734 exclusivamente para indicar este fato. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:. SJ e SZ são filiados a SAIC, Frederick, Inc. Autores KC e PT são PLoS ONE membros do Conselho Editorial. Não há patentes, produtos em desenvolvimento ou produtos comercializados a declarar. Isto não altera a adesão dos autores para todas as políticas de PLoS One sobre os dados e materiais de compartilhamento, como detalhado em linha no guia para os autores.

Introdução

microarranjos de DNA estão sendo usado com sucesso para classificar tumores e identificar novos biomarcadores associados com câncer (para alguns comentários recentes ver [1]). variantes genéticas e diferenças nos genomas pessoais não apenas os perfis de câncer de impacto, mas são muitas vezes responsáveis ​​pela forma como o paciente eo câncer de responder ao tratamento. Em particular, a resposta ao stress celular, quer induzida por drogas citotóxicas, hipoxia, ou radiações ionizantes pode variar grandemente, e a sua base genética é objecto de muito interesse. Estamos especialmente interessados ​​em elucidar as bases genéticas de resposta à radioterapia em busca de assinaturas genéticas altamente preditivos. A radioterapia é um componente essencial do tratamento do câncer [2], mas tem sido relativamente pouco estudada: um vislumbre de recursos públicos, como Pubmed ou bancos de dados de matriz mostra que estudos de radioterapia constituem menos de 1% do número total de registros

Normalmente, cada estudo individual envolve uma série de etapas de análise estatística e quantitativos (ver [3] para um resumo dos passos típicos), e pode apontar para produtos de genes e dos genes que são cruciais para a doença e tratamento. No entanto, a natureza escasso, alta-dimensional do espaço de dados de microarray [4], e o grande número de genes envolvidos nas vias vezes subtis e complexas, exigem análises meta para comparar e contabilização dos resultados de diferentes estudos. Compatibilidade entre plataformas só pode ser alcançado uma vez dentro da plataforma problemas de consistência foram totalmente abordados e os resultados de tais estudos são tão bons quanto o método de identificação de genes. MAQC consórcio tem, em geral descobriram que a preparação da amostra adequada é suficiente para melhorar drasticamente MULTILAB e correlações multiplataforma [5]. A utilidade de tais análises foi documentada na implementação da ferramenta CellMiner, um programa baseado na web para a integração de dados de perfis moleculares de DNA, RNA, proteínas e níveis farmacológicos sobre as células NCI-60 com câncer amplamente estudadas [6]. Vários outros estudos encontrados complexidade adicional para análise meta devido à considerável diversidade na origem, amostra e tipos de plataformas [7] – [9]. As duas principais tecnologias de microarrays diferem no projeto básico, microarrays de cDNA usar transcrições completos impressas nas lâminas e matrizes de oligonucleotídeos com base constituem um oligonucleotídeos mais curto sintetizados in situ. Uma importante questão de design é se a medir os níveis de expressão a partir de cada amostra sobre uma micromatriz diferente (usando de cor única, ou de um único canal, matrizes), ou em vez de comparar os níveis de expressão relativos entre um par de amostras em cada micromatriz (dois cor ou matrizes de dois canais). Há vantagens e desvantagens entre as duas abordagens. matrizes de cor única permitir uma maior flexibilidade na análise, enquanto matrizes de duas cores pode controlar para algumas questões técnicas, permitindo uma comparação direta em um único hibridação [10]. A recente comparação de métodos simples e de duas cores nas mesmas plataformas encontrado boa concordância geral nos dados produzidos pelos dois métodos [11]. O procedimento Z pontuação transformação para normalizar dados é um método estatístico conhecido tanto em neuroimagem e estudos psicológicos e, recentemente, foi usado na meta-análise de conjuntos de dados de microarranjos de plataformas diferentes [12], e é especialmente adequado para o desenvolvimento de banco de dados [13].

a riqueza de dados também trouxe a criação de uma ampla gama de recursos. Em uma extremidade do espectro, repositórios de dados, como Gene Expression Omnibus (GEO) [14] fornecem acesso a dados experimentais em bruto; na outra extremidade, ferramentas como Oncomine [15] de forma mais ambiciosa, mas geralmente a um custo, proporcionar os meios de meta-análise de dados de matriz. No entanto, para o nosso conhecimento, nenhum dos recursos livres existentes concentrar em resposta ou radioterapia estudos de estresse combinados com saídas de visualização.

Nós desenvolvemos Correia, um recurso acessível via web livre para abordar a necessidade de consultar, comparar, perfil e visualizar resultados de diferentes experiências microarray. Strap contém dados de diversos estudos de câncer (atualmente de 12 tipos de tecidos diferentes), e continuará a ser alargado no futuro. Utilizamos o método de pontuação Z para padronizar os dados, uma vez que os valores internamente normalizados não mudam com a adição posterior de novos conjuntos de dados. Todos os dados são mapeados para Entrez identificadores de genes para a consistência na comparação. A interface amigável facilita a exploração por uma ampla gama de pesquisadores, incluindo aqueles com pouca experiência em bioinformática.

No restante deste artigo descrevemos brevemente as características de construção e de núcleo de cinta.

materiais e Métodos

Arquitetura

A arquitetura de tempo de execução da bracelete é descrito na Figura 1. A arquitetura é de 3 camadas. O projeto básico da arquitetura é um aprimoramento da nossa ferramenta CellMiner publicado anteriormente [6]. A camada inferior representa as fontes de experimental (microarray), meta (linha celular) de dados e ferramentas externas que são invocados para visualizar os dados. A camada intermediária representa a forma como os dados são processados, armazenados e disponibilizados para o usuário. As etapas de pré-processamento foram realizados antes da implantação. Nesta fase, os dados do nível inferior foram acessados, processados ​​(usando R scripting), e armazenado no repositório de dados correia (composto por um banco de dados MySQL e outros arquivos armazenados no sistema de arquivos do servidor). O lado direito da camada intermediária representa os “serviços” de análise que estão disponíveis em tempo de execução para o usuário. Estes incluem filtragem de dados (de acordo com consultas construídas usuário), visualização de resultados, e as opções para baixar os dados. Estes serviços são disponibilizados como web-services e são hospedados em um servidor Apache. A camada superior representa a interface de usuário (implementado utilizando PHP, Javascript, AJAX e HTML), e está organizado em torno de três módulos principais (genes, linhas celulares, e matrizes).

O diagrama representa uma vista de tempo de execução a arquitetura da correia. A camada inferior representa as fontes de dados experimentais, meta dados, e ferramentas externas que são invocados para visualizar os dados. A camada intermediária representa a forma como os dados são processados, armazenados e disponibilizados para o usuário. O lado direito da camada intermediária representa os “serviços” de análise que estão disponíveis em tempo de execução para o usuário. Quanto mais alto nível representa a interface de usuário, e é organizado em torno de três módulos principais (genes, linhas celulares, e matrizes).

Dados Repositórios

Quatro repositórios de dados principais residir no backend da bracelete: (1) gene associado informações anotação derivado do National Center for Biotechnology Information (NCBI, https://www.ncbi.nlm.nih.gov/), (2) o gene pré-processados ​​expressão microarray dados do perfil molecular ( incluindo estatísticas pré-computadas), (3) metadados em linhas celulares, e (4) metadados sobre a informação associada à plataforma.

O layout estruturado das tabelas promove consulta e integração de dados fenotípicos, metadados e molecular eficiente perfil de informações de vários estudos. O banco de dados oferece suporte a várias sessões de consulta simultâneas.

Os repositórios são armazenados como um banco de dados relacional MySQL (https://www.mysql.com).

Preparação de dados

A dados de microarranjos foram obtidos como arquivos brutos, sempre que disponíveis, ou então como autor depositados arquivos normalizados a partir da base de dados GEO [14], ArrayExpress [16] experiências, ou em casa. Dois tipos de plataformas são predominantemente utilizadas nestes estudos:. CDNA de duas cores (Array National Cancer Institute- ROSP 8K Humana e Agilent microarrays do genoma humano inteiro), e matrizes de cor única (atualmente nós abrigar dados do chip gene Affymetrix e Illumina)

os dados brutos foram avaliados para a qualidade normalizada e por o Lowess [17], ou MAS5 [18] métodos para ADNc, e matrizes Affymetrix, respectivamente. transformação Z-score foi usado para obter uma escala uniforme entre os diferentes estudos e plataformas, que é necessária para comparar os dados de diferentes estudos. testes estatísticos-computados pré foram realizados em três complexidade de nível aninhado.

No nível superior, cada estudo é submetido a análise de variância, realizada entre todos os controles e processos para dar um significado geral do desenho do estudo.

a análise ANOVA nível do tecido é implementado como um segundo nível de comparação entre todos os controles e processos para cada tipo de tecido em um estudo.

no nível de experiência, para cada linha de células /amostra, uma comparação de caso-controle é realizado por meio de análise t-teste.

Pré-processamento e computação de testes estatísticos são realizados no ambiente R (https://www.r-project.org/) .

Interface

A interface de front-end é um aplicativo baseado na web implementados usando R, PHP (https://www.php.net/) e Python (http: //www. python.org/). O aplicativo é implantado em um servidor Apache HTTP (https://httpd.apache.org/) no Instituto Nacional do Câncer (NCI).

principais recursos

O acesso aos dados e apresentação é organizada em torno de três conceitos principais ou módulos: (1) Genes, (2) linhas celulares, e (3) matrizes. consultas de dados definidos pelo utilizador flexíveis podem ser iniciadas a partir de qualquer um dos módulos; as opções de visualização de dados para os resultados são mostrados em vistas integrados e podem, dependendo da consulta, envolvem conversa cruzada entre os módulos. Vários links para recursos externos promover uma abordagem de biologia de sistemas. A Tabela 1 apresenta um resumo dos principais recursos para cada módulo. estatísticas pré-computadas (como descrito na seção anterior) ativar a exibição de gráficos eficientes e intuitivos.

Genes

O módulo de genes permite consultas de genes-centric dos estudos alça de microarray. As consultas podem ser com base em identificadores de genes ou proteínas, sinônimos, descrições de genes, ou a localização de cromossomas. Os resultados incluem matrizes associadas e estudos, e uma compilação de informações gene-anotação, localização espacial dentro do genoma visualizados no navegador UCSC Genome [19], e mapas da vizinhança de rede gerados a partir de redes de interação proteína-proteína [20]. As consultas também podem ser construídos usando as listas de genes definidos pelo utilizador ou gerados, por exemplo, de Gene Ontology (GO) termos [21].

A consulta típica gene-centric (ver Figura 2 para um exemplo de fluxo de trabalho) começa por identificar estudos de perfilamento a expressão de um gene (lista) de interesse. Os perfis de expressão e sua significância estatística são então visualizadas através boxplots e barplots (mostrando-nível educacional, e as diferenças de caso-controle de nível experimental). Se a entrada envolve uma lista de genes, uma opção heatmap interativa permite expressões de visualização de genes em estudos selecionados. O mapa de calor é visualizada utilizando o programa Java Treeview [22].

Normalmente, um fluxo de trabalho iniciado a partir do módulo Genes envolve 1) inserindo um gene de interesse (ou lista de genes), 2) Exibindo e Selecionando estudos com o gene, 3) escolhendo uma opção de visualização e 4+) exibindo e fiscalizar a visualização escolhida. O exemplo mostrado é para o gene “ABL1.”.

Como uma conveniência adicional, o módulo de genes inclui um utilitário de conversão identificador gene, que pode ser usado para mapear um tipo de identificador de gene (por exemplo, , Entrez símbolo gene) para outro (por exemplo, Entrez geneid).

linhas celulares

O módulo de linhas celulares fornece metadados sobre linhas de células disponíveis e estudos associados. Consultas neste módulo são adaptados para permitir a seleção de estudos completos, por tecido de origem, ou linha celular individual. As comparações podem ser feitas para as amostras dentro de um estudo ou entre os estudos. (Veja a Figura 3 para um exemplo de fluxo de trabalho.) Genes diferencialmente expressos em estudos de interesse são identificados com base em análises t-teste de caso-controle (seleção linha de células) e análise de variância (estudos com mais de um grupo). O filtro padrão é definido como p≤0.05, mas pode ser personalizado pelo usuário.

As linhas celulares iniciada fluxo de trabalho normalmente começa com 1) seleção de uma linha celular (ou tecido) de interesse (aqui “LCL” ), 2) de controlo da linha celular de metadados, e estudos associados, 3) de comparação de estudos de interesse com uma MetroMeta mostrando significado da expressão diferencial de genes individuais para uma dada linha de células, e 4+) inspeccionar os genes individuais através barplots e boxplots .

Arrays

o módulo de matrizes fornece uma visão geral do conteúdo atual do banco de dados, incluindo o número de estudos, informações sobre as plataformas, contribuintes, e disponível meta-informação. dados pré-processados ​​ou dados da fonte original pode ser descarregado a partir deste módulo. consultas integrados desse módulo permitem a realização de estudos de comparação de amostras comum ou união de genes dentro dos estudos seleccionados.

Um fluxo de trabalho de exemplo é mostrado na Figura 4. Os arrays podem ser filtrados pelo estímulo seleccione utilizado no estudo. Dado o nosso interesse em efeitos das radiações ionizantes, a maioria das matrizes no repositório ter “radiação”, como estímulo.

O fluxo de trabalho Arrays normalmente começa com 1) a inspeção de matrizes disponíveis e seleção de um estudo de interesse, 2 ) visualização das condições experimentais e a selecção de um limiar de valor-p para significância de diferenciação a expressão do gene, e 3) estudo das expressões heatmap. Comparação de várias matrizes também pode ser iniciado a partir da página de apresentação.

A expressão diferencial de vinte e quatro genes identificados pelos Rieger e colegas [24] a ser importante para a resposta radiação. Na Etapa 1 mostra um mapa de calor multi-estudo (de Estudos 4, 6 e 14). Na Etapa 2 CDKN1A perfil genético foi comparado em estudos com (Estudos 2-5), e sem radiação de estímulo (Estudo 14 com resposta à hipóxia).

Validação

A radioterapia é um componente essencial do tratamento do câncer. No entanto, a resposta de radiação varia consideravelmente entre os diferentes pacientes [23]. Portanto, é importante para identificar genes preditivos de resposta a radiação. Igualmente importante é validar os resultados de uma análise de dados independentes com delineamento experimental similar.

Para ilustrar a funcionalidade da correia, foi utilizado um estudo de Rieger e colegas [24] sobre as células linfoblastóides sangue periférico derivado de pacientes com radiação toxicidade aguda e grupo de pacientes com toxicidade leve controle. Usando o perfil de expressão do gene, os autores relataram 24 genes altamente preditivos de resposta a radiação. Procuramos explorar a expressão destes 24 genes em vários estudos independentes de banco de dados Correia, e encontrou 18 genes alterados de forma significativa entre os estudos selecionados. Para testar se podemos reproduzir os resultados autores, foram selecionados primeira 3 estudos, 2 estudos (estudos 4 e 6) contendo células linfoblastóides tratados com diferentes doses de radiação, e como controle negativo, nós escolhemos 1 (Estudo 14) com a haste células de tecido do SNC com o estímulo de hipóxia. Um mapa térmico multi-estudo (Figura 5, Passo 1) no subconjunto de genes mostraram uma regulação selectiva para cima do subconjunto de genes em estudos 4 e 6, mas, não no estudo 14, confirmando o papel destes genes em resposta à radiação. De particular, CDKN1A é uma resposta a danos no ADN, genes do ciclo celular que regula relatado para ser induzida por radiação [25], [26]. Nós exploramos o perfil comparativo de gene CDKN1A em uma série de estudos com diversas linhas de células de nossa base de dados, que são tratados com (Estudos 2-5) ou sem radiação como estímulo (Estudo 14). Um perfil genético comparativa em vários estudos (Figura 5, Passo 2) mostraram uma indução significativa do gene selectivamente em estudos de radiação tratada. Além disso, a indução é encontrado para ter qualquer efeito na radiação de baixa dose (0,4 Gy no Estudo 3), indicando resposta celular à radiação depende da taxa de dose utilizada.

Conclusões

Strap é um open recurso -acesso desenvolvido principalmente para apoiar a investigação sobre os efeitos do estresse com maior ênfase sobre radiação ionizante sobre o câncer em um contexto de sistemas de biologia. Os dados actualmente de vinte e um estudos foram integrados e tornados acessíveis através de opções de consulta extensos, e uma interface baseada na web user-friendly. Apoiado por métodos de análise estatística e quantitativos no fundo, o recurso supera os limites de bancos de dados dedicados à exploração de dados brutos, o que torna possível inferir conhecimento não trivial (como os genes diferencialmente expressos em vários estudos).

Actualmente por causa da limitação do número de estudos disponíveis, que podem ter um significado biológico limitado. No entanto, a estrutura do banco de dados é flexível e permitiria extensões com dados de outros tipos de estudos de câncer que ajudarão a novas descobertas.

O banco de dados será periodicamente atualizado com novos estudos e recursos. Eu planejo, por exemplo, para permitir a construção de redes de interação usando literatura text-mineração, e as informações do banco de dados proteína humana de referência (HPRD) [27] e conjunto de genes de enriquecimento de análises e visualizações.

Deixe uma resposta