PLOS ONE: dbCerEx: Um banco de dados com base na Web para a Análise de Cervical Cancer transcriptomes

Abstract

Fundo

cânceres cervicais são classificados a segunda mais perigosa doenças entre as mulheres em todo o mundo. Nas últimas duas décadas, as tecnologias de microarray foram aplicadas para estudar genes envolvidos na progresso malignidade. No entanto, na maioria dos estudos publicados de microarray, só foram relatados alguns genes, em vez de deixar uma grande quantidade de dados não utilizados. Além disso, os dados de RNA-Seq tornou-se mais padrão para análise de transcriptoma e é amplamente aplicado em estudos sobre câncer. Há uma crescente demanda por uma ferramenta para ajudar os pesquisadores experimentais que estão ansiosos para explorar a terapia genética do cancro do colo do útero, mas carecem de experiência computador para acessar e analisar os dados de expressão de genes de alto rendimento.

Descrição

O banco de dados dbCerEx é projetado para recuperar e dados de amostras de cancro cervical expressão do gene processo. Ele inclui os perfis de expressão do genoma de largura de amostras de cancro cervical, assim como uma utilidade na Web para genes de fragmentação com padrões de expressão semelhantes. Este recurso irá ajudar os pesquisadores a realizar mais pesquisas para descobrir as funções dos genes novos.

Conclusão

O banco de dados dbCerEx está disponível gratuitamente para uso não-comercial na https://128.135.207.10/dbCerEx/, e será atualizado e integrado com mais recursos conforme necessário

Citation:. Zhou L, Zheng W, Luo M, Feng J, Jin Z, Wang Y, et al. (2014) dbCerEx: Um banco de dados com base na Web para a Análise de Cervical Cancer transcriptomes. PLoS ONE 9 (6): e99834. doi: 10.1371 /journal.pone.0099834

editor: I. King Jordan, Georgia Institute of Technology, Estados Unidos da América

Recebido: 12 de novembro de 2013; Aceito: 19 de maio de 2014; Publicação: 11 de junho de 2014

Direitos de autor: © 2014 Zhou et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo é apoiado pela National Science Natural Funda da China (Programa No. 31.202.013), Fundo de Investigação especializada para o Programa de Doutorado de Educação Superior da China (Programa Sem 20120146120007), fundos de pesquisa fundamental para a Universidades Central (Programa No.2011QC075). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:. A empresa comercial (Yichang Humanwell Pharmaceutical Co., Ltd,), juntamente com qualquer outra relativa ao emprego, consultoria, patentes, produtos em desenvolvimento ou produtos comercializados etc., declararam que não há interesses concorrentes e divulgação financeira. Isto não altera a adesão dos autores para PLOS ONE políticas em dados e materiais de compartilhamento.

Introdução

cancros cervicais representam os casos de morte por câncer segunda mais ginecológicas em todo o mundo, e esta situação é pior nos países em desenvolvimento devido à falta de programas de rastreio organizados adequados. Acredita-se que o vírus do papiloma humano (HPV) infecções são as principais causas de câncer cervical invasivo [1].

Whole- perfil de expressão do genoma revolucionou na maneira como estudar doenças e biologia básica. Desde 1997, o número de resultados publicados, com base em uma análise de gene dados expressão microarray cresceu de 30 para mais de 5.000 publicações por ano [2]. tecnologias de microarranjos de DNA destinam-se a medição simultânea da expressão de milhares de genes em uma única experiência. Ao longo dos últimos anos, esta tecnologia tem facilitado uma melhor compreensão das características moleculares complexos e heterogêneos de câncer e ajudou a melhorar o tratamento de cancros. Por exemplo, o gene HOXC10 à primeira foi identificado como pertencendo a 171 genes significativamente regulada para cima no carcinoma de células escamosas do colo do útero (SCC) em relação às amostras de cérvix normais de microarranjo de ADN, que foi posteriormente identificado como um mediador chave da invasão no cancro do colo do útero [3]. As amostras de RNA de arquivamento de 25 pacientes foram hibridadas com chips de microarray de Stanford para construir um sistema de pontuação sete gene [4]. Este padrão de expressão de genes pode ajudar a identificar os pacientes com cancro do colo do útero que podem ser tratados com radioterapia sozinho. Foram selecionados os perfis de expressão específicas de genes candidatos para identificar subtipos histórico de câncer cervical [5]. Além disso, numerosos candidatos a biomarcadores e alvos terapêuticos têm sido identificadas em outros cancros.

No entanto, para a maioria dos estudos publicados de microarray, única subconjuntos de genes têm sido relatados para demonstrar a hipótese dos autores. Os conjuntos de dados de microarranjos completos são armazenados de forma assistemática, e útil apenas para aqueles com experiência computacional. Além disso, os dados de RNA-Seq tornou-se mais padrão para análise de transcriptoma e é amplamente aplicado em estudos sobre câncer. Enquanto que para a maioria dos pesquisadores experimentais, há também permanecem dificuldades para utilizar estas bases de dados de microarranjos de câncer e dados de RNA-Seq para resolver questões biológicas. Por exemplo, se um novo gene de interesse tem um correlacionada padrão de expressão (positivo ou negativo) com um gene relacionado com a apoptose, isto indica que eles podem partilhar o mesmo mecanismo de regulação, que pode proporcionar a proposta de pesquisa potencial para o novo gene.

Aqui nós apresentamos dbCerEx, um banco de dados de perfis de expressão gênica gerados a partir de experimentos de microarranjos de DNA e dados de RNA-Seq. O banco de dados é fornecido com um utilitário baseado na Web integrado, o que fez com que os dados de fácil acesso para a comunidade de pesquisa do câncer cervical. De acordo com este método, os pesquisadores experimentais poderiam identificar novos genes relacionados com o cancro do colo do útero e explorar as relações entre eles.

Construção e conteúdo

Microarray e RNA-Seq dados

A dados de expressão microarray (arquivos de matriz GSE) e anotação plataforma (arquivos GPL) foram recuperados do banco de dados Gene Expression Omnibus (GEO) [6] através de um [7] pacote R /Bioconductor [8] ‘GEOquery “[9]. Os dados de RNA-Seq foram recuperados do Cancer Genome Atlas (TCGA) Dados Portal [10], que contém informação clínica, os dados de caracterização genômica e análise da sequência de alto nível dos genomas de tumores. Os dados foram então log (base 2) transformado e mediana centrado. Para evitar erro de cálculo durante o cálculo, a linha que contém o valor ‘NA’ é omitida.

Os experimentos foram processadas através de várias plataformas (Tabela 1). Para tornar pesquisável os dados de expressão independentemente das plataformas, as sondas foram remapeado para símbolos oficiais de genes. No entanto, em vez de gene informações símbolo de atribuição, alguns arquivos GPL fornecido apenas NCBI GenBank [11] ou mapeamento NCBI RefSeq [12] Números de Acesso para sondas. Para resolver este problema, o ‘gene2refseq’ e arquivos ‘gene2accesion’ foram recuperados do servidor ftp NCBI via ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/. Um script Perl foi usado para mapear símbolos de genes para esses números de acesso GenBank ou RefSeq, e, eventualmente, para as sondas de microarranjo. Os arquivos simples de expressão gênica foram armazenados para o acesso mais tarde.

predefinidos Gene Set

Uma característica importante desta base de dados é que ela permite aos usuários pesquisar candidatos genes semelhantes com genes que estão estudando com base nos padrões de expressão. Baseando-se este método, os pesquisadores podem encontrar mecanismos entre esses genes, que podem tornar-se uma abordagem promissora para a descoberta de novos função do gene. Os conjuntos de genes predefinidas nas bases de dados foram recuperados a partir de várias fontes e divididos em duas categorias principais: Gene Ontology (GO) [19] e Caminho. Como mostrado na Tabela 2, o conjunto consiste em GO processo biológico, funções moleculares e componente celular. Enquanto o conjunto de Caminho consiste KEGG [20], BioCarta (www.biocarta.com) e Reactome [21]. espécie humana dos conjuntos de genes foram utilizados neste trabalho.

Gene Expression Cluster Analysis

O algoritmo de agrupamento hierárquico não supervisionado foi introduzido para encontrar os genes semelhantes à base de padrões de expressão. Esta tentativa foi processado usando uma combinação de métricas de distância e as ligações. Neste estudo, a distância do gene x para y gene definido como 1-r

xy, onde r

xy representa a correlação de Pearson de x gene e y:

Implementação Database

O banco de dados dbCerEx é um utilitário baseado na web que combina um sistema MySQL (https://www.mysql.com/) de gerenciamento de banco [MySQL 5.5.32 (Community Server) com o motor InnoDB]. A interface web front-end é reforçada por um quadro java script, Bootstrap 2.3.1 (https://getbootstrap.com/). O PHP [versão 5.3.10] aplicações (https://www.php.net/) recebem a consulta do usuário, estão conectados ao banco de dados para reunir dados, chamar scripts Perl e R externos para processar estatística analisar e gerar HTML páginas que exibem resultados.

Utility e Discussão

O banco de dados dbCerEx é fornecida por uma interface baseada na web. Os usuários podem iniciar a pesquisa, inserindo um gene interessado na caixa de entrada do topo, e, em seguida, clique no botão “Pesquisar”. Uma lista gene será mostrado em uma nova página para todos os genes relacionados à palavra-chave gene entrada. Os usuários podem selecionar um gene da lista de acordo com a descrição para fazer análise de expressão.

Ao clicar um gene, um resumo geral, incluindo nome completo, aliases e as ligações externas, como HNGC, Gene Entrez, Ensembl. MIM e Genecard para este gene será exibida. Na mesma página, os usuários são permitidos para definir os parâmetros de análise de expressão no câncer cervical. Os usuários podem inserir um gene de interesse definido pela mão ou na lista conjunto de genes tais como KEGG, BioCarta, Reactome e Gene Ontology. Os usuários podem selecionar conjunto de dados a partir dos pré-compilados conjuntos de dados de expressão de câncer cervical de microarray e RNA-Seq, ou apenas fornecer um número de acesso GEO. Ao clicar no botão de consulta Submeter, as amostras para o conjunto de dados selecionados serão listados. Os usuários podem selecionar todas ou algumas amostras interessados ​​a fazer análise de expressão.

A heatmap exibir o agrupamento hierárquico dos genes e as amostras serão mostrados (Figura 1). Além disso, um mapa de calor que inclui os genes significativamente positiva ou negativamente correlacionados com o gene de interesse também irá ser oferecida (Figura 2). A correlação de Pearson e valor de p será mostrado como uma mesa no lado direito do mapa de calor.

Os genes que têm correlação de Pearson significativa com o gene interessados ​​foram selecionados para traçar um mapa de calor. Os amostradores estão na coluna, e ordenou pela expressão do gene interessados.

Conclusão

Nós apresentamos dbCerEx, um banco de dados contendo perfis de expressão do gene do cancro do colo do útero. Além disso, ele fornece um utilitário inovador para pesquisa por similaridade expressão gênica dentro de certos conjuntos de genes interessadas. Acredita-se que dbCerEx é uma plataforma poderosa para a descoberta de bioinformática que traz dados de dados microarray câncer cervical e RNA-Seq, e análise da comunidade de pesquisa do cancro do colo do útero, com fácil acesso.

Disponibilidade e Requisitos

O site de banco de dados dbCerEx é disponível gratuitamente como uma aplicação web em:. https://128.135.207.10/dbCerEx/

Deixe uma resposta