PLOS ONE: MGEx-UDB: Um banco de dados Mammalian Útero para Catalogação-Based expressão de genes através de condições, incluindo Endometriose e Câncer Cervical

Abstract

Fundo

Gene perfil de expressão de tecido do útero tem sido realizada em vários contextos, mas uma quantidade significativa de dados permanece subutilizada, pois não é coberto pelos recursos gerais existentes.

Metodologia /Principais achados

Nós curadoria 2254 conjuntos de dados de estudos de expressão gênica em escala de massa relacionada 325 útero sobre humanos, rato, vaca e porco espécie. então nós computacionalmente derivado um “score confiabilidade ‘para o status de cada expressão gênica (transcrição /dormente), para cada possível combinação de condições e locais, com base no grau de concordância ou discordância em todo conjuntos de dados. Os dados e as informações derivadas foi compilado no

M

ammalian

G

eno

Ex

pression

U

terus

d

ata

b

ase

(MGEx-UDB, http : //resource.ibab.ac.in/MGEx-Udb/). A base de dados pode ser consultada com os nomes de genes /IDs, localizações sub-tecidos, bem como várias condições tais como o cancro do colo do útero, endométrio e distúrbios ciclos, e os tratamentos experimentais. Por conseguinte, a saída seria um) transcrito e genes dormentes listados para a condição consultado /localização, ou b) o perfil do gene de interesse em várias condições uterinas expressão. Os resultados também incluem a pontuação confiabilidade para o status de cada gene de expressão. MGEx-UDB também fornece informações relacionadas com anotações Gene Ontologia, interações proteína-proteína, transcrições, promotores e status de expressão por outras técnicas de sequenciamento, e facilita a vários outros tipos de análise dos genes individuais ou grupos de genes co-expressa.

Conclusões /Significado

Em resumo, MGEx-UDB permite fácil catalogação de genes co-expressa e também facilita a descoberta de bio-marcadores para várias condições uterinas

Citation:. Bajpai AK, Davuluri S, Chandrashekar DS, Ilakya S, Dinakaran M, Acharya KK (2012) MGEx-UDB: Um banco de dados Mammalian Útero para Catalogação-Based expressão de genes através de condições, incluindo endometriose e câncer cervical. PLoS ONE 7 (5): e36776. doi: 10.1371 /journal.pone.0036776

editor: Zhanjiang Liu, da Universidade Auburn, Estados Unidos da América

Recebido: 10 Janeiro, 2012; Aceito: 05 de abril de 2012; Publicado em: 11 de maio de 2012

Direitos de autor: © 2012 Bajpai et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo Departamento de Tecnologia da Informação [Grant número DIT /R D /BIO /15 (5) /2008 para KKA um subsídio institucional sob o centro de excelência esquema] Governo da Índia. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. Os autores declaram que o autor correspondente (Kshitish K. Acharya) é filiado à tanto IBAB, um instituto de pesquisa acadêmica e, Shodhaka Life Sciences Pvt. Ltd. Este último é uma empresa comercial recentemente estabelecida, que está actualmente envolvida principalmente em pesquisa e treinamento. Ele também tem dois produtos relacionados com pesquisa bibliográfica e teste on-line para o emprego e cursos relacionados com a biologia. No futuro, a empresa pretende prestar serviços em desenvolvimentos de banco de dados e software. Os autores confirmam a filiação à empresa e o envolvimento do autor correspondente como o diretor da empresa. Eles também confirmam que isso não altera a sua adesão a todos os PLoS ONE políticas em dados e materiais de compartilhamento.

Introdução

Útero é um importante órgão de mamíferos que deve ser bem estudada por seu papel na funções normais, tais como a migração de esperma, a implantação do embrião e nutrição fetal, bem como perturbações múltiplas [1], [2]. O câncer cervical é uma das principais causas de morte por câncer em mulheres em todo o mundo [3]. Da mesma forma, do cancro endometrial, endometriose e infertilidade devido às funções uterinas defeituosos também têm sido as principais preocupações de saúde humana. Muito permanece desconhecido sobre a fisiologia normal e detalhes patológicas do tecido do útero.

Compreender o padrão e mecanismos de regulação da expressão do gene é central para a maioria dos aspectos da biologia, incluindo os estados normais e anormais do útero dos mamíferos. detecção em larga escala de padrões de expressão do gene é mais fácil no nível transcrito quando comparado com o nível de proteína. Microarrays habilitado genoma ampla profiling transcrição e eles têm sido amplamente utilizados para explorar vários fenômenos biológicos.

limitações As variações no nível de expressão eo status de genes, através dos resultados de experimentos de microarray [4], têm causado nos utilitários de tais dados de expressão de gene. padrões recomendados para experimentos de microarranjos e relatórios [5] – [7], e melhores métodos de meta-análise [8] – [11] poderia facilitar uma melhor utilização dos dados comunicados. Enquanto os cientistas hoje parecem preferir métodos baseados sequenciamento para transcrição de perfis [12], [13], o valor dos dados de microarranjos já existentes não pode ser subestimada. Microarray e outros dados de expressão de genes de alto rendimento foram compilados em vários bancos de dados úteis /repositórios (para uma lista, consulte https://www.startbioinfo.com/gene-expression). Mas as ineficiências em opções de pesquisa específicas às condições fisiológicas e experimentais também limitar a exploração das bases de dados disponíveis. Também tem sido observado que uma quantidade significativa de dados está ausente em tais bases de dados [14], [15]. Compilando a maioria dos dados de expressão em um só lugar seria um enorme desafio devido a duas razões principais: a) reunir os dados dispersos na literatura é uma tarefa trabalhosa, mas não parece haver nenhuma alternativa; b) não houve um meio conveniente para derivar informação utilizável em diferentes plataformas, estudos e tipos de dados (dados brutos /processados ​​ou apenas as chamadas finais). Nossa equipe anterior gastou cerca de 3 anos para meticulosamente compilar dados de expressão de gene para o testículo de mamíferos, e depois aplicado o novo método de avaliação da confiabilidade consenso baseado derivar um status de expressão binário para cada gene [15].

Um esforço similar é necessário para o tecido uterino. quantidade significativa de dados de microarray é realmente disponível para o tecido útero de mamífero [16]. Houve algumas bases de dados específicos de um componente do útero como o tecido endometrial, (endométrio Data Base: https://www.endometrialdatabase.com e Database Resource SCCPIR Endométrio: https://endometrium.bcm.tmc.edu/edr ) ou a uma condição, CCDB, do colo do útero do gene do cancro do banco de dados [17]. Mas, não tem havido um banco de dados específico útero. Com a intenção de compilar o máximo de dados de expressão de genes uterina e pesquisas de ajuda em vários aspectos do útero dos mamíferos existentes, criamos o banco de dados Útero Mammalian Gene Expression (MGEx-UDB), e estão relatando o mesmo.

Resultados

conteúdo database

dados (a) considerados para pontuação: Atualmente, o banco de dados abrange 325 estudos com 2254 conjuntos de dados correspondentes a 1092 ‘status Expressão em Locais específicos e condições “(ESLCs) para o homem, rato , rato, vaca e porco. Cerca de 83% dos dados em MGEx-UDB é a partir de estudos sobre a espécie humana (Figura 1). O banco de dados fornece 970 ESLCs diferentes para o homem (23.735 genes), 91 para o rato (24.428 genes), 15 para rato (14.497 genes), 8 para a vaca (10,875 genes) e 8 para o porco (1.720 genes). O banco de dados tem o número máximo de estudos para o cancro do colo do útero (38% de todos os estudos). Os próximos estudos mais abundantes correspondem ao câncer endometrial e endometriose (aproximadamente 13% estudos para cada). Outras condições que contribuem incluem os, leiomioma, leiomiossarcoma, neoplasia intra-epitelial cervical normais (NIC), hiperplasia endometrial, ciclos de endométrio, a gestação, o tratamento com produtos químicos /hormônios e estudos knockout e de transfecção associadas a genes específicos (Figura 2). A maioria dos casos da doença são relacionadas a partir de tecidos humanos e /ou linhas celulares. Enquanto os estudos relacionados ao tratamento hormonal, a implantação do embrião e tecido normal são comuns no rato, estudos sobre tratamento químico /hormonal e endometriose são comuns em ratos. Em caso de vaca e porco, estudos relacionados com a gravidez são comuns.

Outras espécies incluem vaca e porco. Entre os dados coletados a partir GEO ou “PubMed GEO “, 85% dos estudos também estavam presentes em ArrayExpress, mesmo que isso não é indicada na figura.

(E estudos)

em MGEx-UDB correspondente a várias condições uterinas fisiológicas e patológicas. ‘Outros’ representam pós-parto, genético-ablação, inseminação artificial e implantação do embrião. Estudos considerando tecidos que são usados ​​como controles, mas pode não ser absolutamente “normal” foram agrupadas em

‘pode ser normais “

categoria (exemplos:” normal tecido adjacente ao tumor de tecido /câncer “,” veículo-tratados “).

dos 325 estudos identificados para coleta de dados, 295 artigos de pesquisa publicados foram curadoria para recolher a informação associada a cada lista gene. No restante dos casos, a informação requerida foi curada diretamente de repositórios; não havia nenhuma publicação correspondente para estas experiências. De todos os estudos, cerca de 55% foram obtidos exclusivamente a partir da literatura. Os restantes dados vieram de Gene Expression Omnibus (GEO) [18], ArrayExpress [19] e outros repositórios sozinho, ou em combinação com a literatura (Figura 1). No banco de dados, 90% dos estudos correspondem a expressão nível de mRNA e estudos de 10% correspondem a expressão a nível proteômica. A maior parte (91%) dos relatórios nível de ARNm a partir de tecnologia de microarray veio, o que também contribui para 72% do total de conjuntos de dados. Affymetrix (66%) é o contribuinte principal entre as plataformas de microarray, seguido de matrizes de cDNA mercadorias (21%) (Figura 3). Estudos em pequena escala com base no reverso Polymerase Chain Reaction transcrição (PCR), quantitativa PCR em tempo real, técnicas de transferência, etc., também contribuiu conjuntos de dados. Entre os conjuntos de dados no total, 52% possuem 500 genes em cada uma, 8% deles têm 50-500 e os restantes 40% contém 50 genes (Figura 4). Na maioria dos casos, os conjuntos de dados correspondentes aos estudos em pequena escala eram dos experimentos de validação de um estudo de expressão gênica escala maciça.

“outros” incluem conjuntos de dados contribuiu principalmente por plataformas GE Healthcare e Illumina.

(com contagem de gene) coletados de várias fontes. No caso de “PubMed GEO “e” PubMed ArrayExpress “, listas de genes menores vieram de experimentos de validação e foram coletadas de PubMed, enquanto os dados brutos /processados ​​sempre foram coletadas a partir dos repositórios (GEO /ArrayExpress)

B) Dados não considerado para pontuação.: MGEx-UDB também tem dados de sequenciamento. Esses dados não poderia ser empregado em marcar o consenso devido à incompatibilidade destes tipos de dados com o atual sistema de pontuação computacional. Dados Next Generation Sequencing (NGS) foi incluído para células HeLa com expressão diferencial chama para 2 condições de tratamento, de 3 estudos. Os links são fornecidos para outras NGS relevantes conjuntos de dados (RAW). Massa dos dados de sequenciação, no entanto, corresponde a etiquetas de seqüências expressas (ESTs).

Um exemplo

( “estágio IIA não queratinizante carcinoma cervical de células escamosas”)

hierarquia das condições e sub -Condições, para o qual os dados foram coletados, e suspensa opções fornecidas na consulta e carregar páginas de MGEx-UDB. Atualmente, o banco de dados permite que até quatro níveis da hierarquia a ser consultado.

Interface Web

recursos de consulta.

MGEx-UDB fornece várias opções de consulta. Para consultar por um gene, o usuário pode inserir identificadores de um dos seguintes tipos: nomes, símbolos, sinônimos, IDs Entrez Gene, e Gene palavras-chave /descrições. condição da pesquisa com base pode ser feito selecionando a condição de interesse entre as opções drop-down de condições fisiológicas ou experimentais em diferentes níveis de hierarquia para uma espécie escolhidas. Por exemplo, genes transcritos ou latentes podem ser obtidos para o cancro do colo do útero humano, bem como, condições de carcinoma de células escamosas. Da mesma forma, as consultas pode ser restringida a uma região específica do tecido (sub-tecido), e do tipo de célula. Há também a opção de escolher um tipo de população específica, tais como caucasianos, no caso dos seres humanos, e os tipos de deformação, como C57BL6 ou Sprague-Dawley, no caso de ratos e ratinhos, respectivamente.

Saída.

Para a busca baseada no gene, o banco de dados fornece uma lista de idêntica, bem como genes parcialmente correspondentes em diferentes espécies. Cada gene nesta página pode ser clicado para obter informações básicas sobre o gene, os seus promotores, o estado de expressão, os produtos (transcrições e proteínas), Gene Ontology (GO) anotações, interações proteína-proteína, referência cruzada para outros recursos importantes de bioinformática, e citações PubMed relevantes. informações gene básico consiste em sequência, loci e resumo gene. Transcrição inclui informação ID da transcrição, sequência de codificação de exão-intrão e detalhes. detalhes promotor cobrir o Iniciar local de transcrição (TSS), sequência do promotor potencial e sua posição cromossômica. Proteína informação fornece diferentes isoformas da proteína (s), com a sequência correspondente, função, peso molecular e comprimento de aminoácidos. status de expressão (s) do gene é mostrado, juntamente com uma pontuação de confiabilidade, para várias regiões tecidos /sub-tecidos e tipos de células em diferentes condições fisiológicas e experimentais. A fonte original dos dados expressão é apresentada num painel separado. Além disso, o banco de dados mostra um status de expressão indicativo (s) com base em dados de sequenciamento (EST NGS)., Para vários tecidos /condições uterinas

consulta com uma condição (busca baseada em condição) fornece listas de genes transcritos e dormente na condição consultado. Em cada uma dessas duas listas, o “Índice de fiabilidade ‘é mostrada para cada gene. De facto, os genes são dispostos em ordem descendente das suas pontuações. anotações GO também são exibidos para os primeiros 100 genes. O usuário pode exportar a lista completa de genes, juntamente com a sua pontuação de confiabilidade. As referências aos conjuntos de dados de base considerados para a pontuação pode ser visto nesta página de saída. Clicando em qualquer gene na página de resultado será semelhante em efeito à consulta específica gene descrito no parágrafo anterior. A opção ‘analisar’ na página de saída permite ao usuário realizar a análise rápida de funções significativos /processos dos genes selecionados. O usuário pode rapidamente iniciar a análise GO e alinhamento de sequências múltiplas (de genes, proteínas e promotores), e acessar facilmente as vias relevantes e registros Single Nucleotide Polymorphism (SNP). O banco de dados também permite a co-expressão, proteína de interação e analisa caminho, e oferece a visualização das redes entre o cluster selecionado de genes utilizando GeneMANIA [20] ferramenta de análise funcional.

A base de dados inclui uma fácil navegação de genes e condições. Além disso, as ligações são fornecidas aos dados relacionados útero (NGS e copiar variações no número), com um índice de condições, e outros recursos.

Discussão

Uma quantidade significativa de dados microarray publicado é não encontrada em qualquer das bases de dados ou repositórios [14], [15] amplamente utilizados. Compilação destes dados tem de ser manual e seria um processo de tomada de tempo. Nós iniciamos tecido sábio compilação de dados de expressão de genes de mamíferos com o objectivo de utilizar os dados existentes para catalogar os padrões de expressão gênica. Um estudo comparativo [15] dos bancos de dados com consultas específicas condição indicada a superioridade de tal tecido biocuration sábio dos dados de expressão de genes. Uma comparação semelhante de MGEx-UDB com outros repositórios /bancos de dados mostrou que o ex-fornece sistema de consulta mais fácil e oferece maior número de estudos e genes relevantes (detalhes na seção de estatísticas do banco de dados).

A força do ‘confiabilidade score ‘, para o status de expressão binário, é proporcional à quantidade de conjuntos de dados e concordância entre eles, para qualquer condição correspondente. Existem algumas limitações [15] em tal pontuação consensual dos estados expressão binários. Mas, este método de consenso binário não oferecem uma vantagem significativa sobre a maioria dos outros métodos de meta-análise em derivar um consenso semi-quantitativa. Ele funciona em todas as plataformas e tecnologias, independentemente da disponibilidade de dados brutos /processados, desde que a chamada final foi feita.

A exibição hierárquica de genes transcritos /dormente em condições específicas pode ser uma representação útil da transcrição perfis. As pontuações mais elevadas indicam a consistência em estado de expressão dos genes correspondentes em toda a amostra biológica (usado em diferentes estudos) e tecnologias. De facto, a consistência parece ser mantida por muitos genes apesar das variações na tecnologia tais como a plataforma de microarray, métodos de isolamento de RNA e estatísticas, bem como as amostras, o que também pode variar em termos de populações /cepas e outros aspectos relacionados tais como a idade, interacções sociais e dieta. As listas resultantes podem ser usadas para identificar genes que têm forte associação com qualquer estado /condição fisiológica em tecidos do útero de mamífero. Por exemplo, o usuário pode obter uma lista de genes que são transcritos ou dormentes na condição de doença de interesse e comparar com aqueles que têm o status de expressão oposta na condição normal. A lista da União de genes através das duas condições podem ser derivados e hierarquicamente com base na pontuação. Tal lista deveria incluir genes com diferentes graus de associação com a doença. Como exemplo, os genes

“transcrita no cancro do colo do útero, mas dormente no colo do útero /útero normal”

com altos escores de confiabilidade pode ser melhor candidatos biomarcadores que os genes normalmente identificados como diferencialmente expressos por um único estudo.

CDKN2A

, que é um marcador já bem conhecido para o cancro do colo do útero [21], [22], é um tal gene que tem uma pontuação de 318 para o

‘estatuto transcrita no cancro do colo do útero “

de 79 estudos de PubMed, 6 de GEO, 1 de ArrayExpress e 2 da caArray, e 88 para

«estado dormente no útero normal”,

de 32 estudos de PubMed e 1 do GEO. Pelo contrário, alguns dos principais genes da lista dormente por câncer cervical também foram dormente no útero normal, e, portanto, eles são menos propensos a ter uma forte associação com a doença. Assim, a saída obtida através de condições podem ser usados ​​para diferenciar os genes que têm forte associação com uma condição uterina daqueles com fraca ou nenhuma associação. Esta abordagem poderia abrir uma nova maneira de listar alvos diagnósticos, prognósticos e terapêuticos potenciais para os transtornos relacionados ao útero. Este processo pode ser usado para obter aglomerados refinados de genes co-expressa.

Os agrupamentos de genes obtidos por MGEx-UDB pode ser útil não só para compreensão dos mecanismos moleculares e vias associadas, mas também para elucidar os mecanismos de regulação da transcrição, identificação da doença em estágio, priorização de genes e previsões a função do gene. Demos início alguns estudos na análise do promotor de alguns dos agrupamentos importantes de genes co-expressa. A lista compilada (após um enorme esforço screening) de referências das listas de genes correspondentes a cada condição e localização de interesse pode ser particularmente útil para os usuários interessados ​​em aplicar outros métodos meta-análise aos dados de expressão de genes.

desde MGEx-UDB fornece a maior parte ou todos os genes associados a uma condição específica, pode servir como um bom ponto de partida para qualquer tipo de análise funcional para várias condições uterinas. MGEx-UDB também oferece uma oportunidade para comparar os padrões de expressão de genes em todo variações sutis em condições e tratamentos. Por exemplo, pode-se comparar a expressão de estado a partir de relatórios de tecidos normais não tratados com as amostras de sham /(tratados com veículo pode ser normal); tecidos tumorais adjacentes (pode ser normal) com tecidos-falta de tumor (normal); camadas uterinas /ciclos; estágios do câncer etc -. entre os estudos

Os recursos já existentes que correspondem a uterinos específica sub-tecidos /condições são vantajosas em alguns aspectos, em comparação com MGEx-UDB. Por isso, incluímos links para esses recursos em nosso banco de dados. CCDB [17], um banco de dados específico para o cancro do colo do útero, não só fornece para cima /baixo regulados genes, desnaturado, mutantes e amplificados, mas também dá informações sobre miRNAs relacionados ao câncer cervical. Endometrial Data Base (https://www.endometrialdatabase.com) eo Database Resource SCCPIR endométrio (https://endometrium.bcm.tmc.edu/edr) compilar vários relatos de expressões gênica em condições endometriais. Mas, para além de ser limitada a determinadas condições, a sua cobertura de genes parece ser menor do que MGEx-UDB. Eles também não são projetados para fornecer um status expressão consenso por meio de meta-análise, ou facilitar esse processo. Por outro lado, bancos de dados específicos de tecidos, tais como Tiger [23] e TiSGeD [24] fornecer genes específicos do útero, mas não permitem consultas específicas para doenças e /ou condições experimentais.

Os desenvolvimentos futuros

O presente trabalho nos levou 3 anos, principalmente devido às tarefas de curadoria manuais envolvidos. Os dados correspondentes a algumas condições e espécies ainda está para ser incluído e o placar para o status de binário tem suas limitações. Temos a intenção de atualizar o banco de dados com dados relativos a espécies de mamíferos mais e condições uterinas por: a) convidar colegas cientistas para carregar os dados, e b) os nossos próprios esforços seguinte financiamento adicional. Também estamos planejando para melhorar o sistema de pontuação de muitas maneiras: a) atribuição de peso diferente com base no número de amostras, hibridações e experimentos de validação; b) incorporar consenso sobre o status de expressão diferencial juntamente com status de transcrição /dormente; c) talvez em colaboração com outras organizações, estabelecer métodos para incorporar dados de outros dados de expressão gênica de alto rendimento, como NGS e EST, enquanto derivando o consenso.

Resumo

O recém-desenvolvido MGEx-UDB destina-se a impulsionar vários tipos de esforços por biólogos que trabalham no tecido do útero. Os importantes aplicações /recursos deste banco de dados são os seguintes. A) Ele inclui uma grande quantidade de dados de expressão gênica compilados manualmente correspondentes para o útero a partir de vários relatórios e bancos de dados. B) Ele fornece um catálogo de genes co-expressa em várias condições normais e anormais uterinas. C) Ele fornece uma “pontuação de confiabilidade” para indicar o grau de concordância ou contradições do status de expressão através de microarrays e estudos proteômicos pertencentes a uma condição /-tipo específico de célula, para cada gene. D) Ele também usa os dados de sequenciamento em vários tecidos /condições uterinas para indicar o status de cada gene de expressão. E) pode ser consultado normal ou com qualquer uma das condições patológicas no útero, bem como os genes, de ratinho, rato e humanos espécies. F) Além do status de expressão, juntamente com dezenas de confiabilidade para múltiplas condições uterinas, o banco de dados fornece fácil acesso a outras importantes detalhes básicos tais como as sequências dos genes, proteínas e transcrições, GO anotações, interações proteína-proteína e as citações relevantes . G) Ele permite a realização sequência e análises funcionais dos conjuntos co-expressas derivadas de clusters. H) Cada gene é também uma referência cruzada com outros recursos de bioinformática úteis. I) Ele fornece um acesso fácil à lista compilada de referências de listas de genes correspondentes a várias condições uterinas, úteis para várias abordagens de meta-análise. Todas estas características são susceptíveis de catalisar o processo de catalogação transcrição, e vários outros esforços de pesquisa relacionados útero.

A figura representa a coleta de dados (parte superior), arquitetura (parte central) e operação (parte inferior) de o banco de dados.

Materiais e Métodos

a coleta de dados

a estratégia de busca foi cuidadosamente concebido para recolher artigos relevantes descritos na literatura, (procedimento detalhado pode ser encontrado em https://dx.doi.org/10.1038/npre.2011.2101.3). Resumidamente, isto envolveu a identificação de combinações de termos de consulta /frases para cada ferramenta de busca, obtenção das citações usando várias ferramentas e, em seguida, compilar os hits em uma lista da União não redundante usando a ferramenta Citation-Compiler (https://www.shodhaka.com /compilador). Um exemplo dos conjuntos de estratégia de pesquisa e de consulta completa pode ser encontrada na secção de PMF da base de dados. O objetivo era coletar citações relacionadas com a expressão do gene escala de massa no tecido do útero. Uma triagem inicial dos artigos foi realizada para verificar a relevância, pela leitura dos resumos. Os artigos identificados como relevantes foram então procurou a lista de genes relatados a ser expressa, regulado para cima, para baixo-regulado, etc por uma leitura do texto completo completo. listas de genes destes artigos relevantes foram coletadas de manuscrito, notas suplementares ou website dos autores. repositórios principais, como o GEO [18] e ArrayExpress [19] e outros repositórios como Oncomine [25], Stanford Microarray banco de dados (SMD) [26], Centro de Informação Base de Dados gene Biologia Expressão (Cibex) [27], caArray (https://array.nci.nih.gov/caarray), Gemma (https://www.chibi.ubc.ca/Gemma/) e Expressão Pública Profiling Resource (PEPR) [28] também foram pesquisados ​​para a grande dados de expressão de gene de escala que pertencem ao tecido do útero de mamífero. dados processados ​​foi recolhido sempre que disponíveis, como o método de pontuação requer apenas a chamada final sobre o estado presente /ausente dos genes. Se não havia dados processados, os dados em bruto foi baixado e processados ​​usando métodos padrão adequados, tal como recomendado nos pacotes Bioconductor (https://www.bioconductor.org).

Junto com a lista de genes, informações associadas, como o estado de expressão, espécie, do tecido e sub-tecido ou linha de células, tipo de célula, e as condições fisiológicas ou experimentais correspondentes foram recolhidas a partir das publicações ou repositórios. Este conjunto de parâmetros básicos é doravante referida como ‘Status Expressão em Local específico e Condição “(ESLC). As “condições” incluem estado normal fisiológico, doenças, ciclos de endométrio, a gestação, o tratamento com hormonas e /ou outros produtos químicos, etc. Um vocabulário controlado foi definidos para cada condição, para manter a uniformidade e para derivar o consenso entre os estudos similares. A figura 5 ilustra a hierarquia de uma condição e sub-condições multi-nível. Outras informações coletadas sobre as listas de genes incluídos o número de amostras, idade dos indivíduos, número de isolamentos de RNA e hibridações, e os detalhes do principal, bem como experimentos de validação (exemplo: plataformas, sondas e métodos estatísticos). Estas listas de genes, juntamente com a informação anotada (doravante referida como conjuntos de dados) foram enviados para o banco de dados. O número mínimo de genes por conjunto de dados foi de 3, o valor máximo foi 21609, e a média foi de 8554. Cada entrada foi uma verificação cruzada com pelo menos um outro investigador e, em média, 0,7% de erros (por exemplo, o nome do gene chip, tipo população , tempo de curso do tratamento) foram detectados e corrigidos.

a ‘score confiabilidade’ foi derivado para cada ESLC de cada gene, utilizando procedimentos descritos anteriormente [15], para indicar o grau de concordância ou discordância em todo conjuntos de dados, que correspondem às condições e locais para cada espécie iguais ou semelhantes. escores mais altos indicam que os genes correspondentes são consistentemente relatado para ser transcrita ou dormentes. Genes com pontuações mais baixas para as mesmas condições semelhantes /indicaria seja menor número de estudos ou presença de contradizendo relatórios para o status de expressão específica em questão correspondentes.

Os dados de sequenciação relacionadas com uterinos tecidos /condições também foi compilado. Enquanto relatórios sobre seqüenciamento RNA foram coletados a partir da literatura, os dados EST foi levado diretamente a partir UniGene [29].

criação Database

Perl script CGI com base foi usada para criar uma interface para entrada de listas de genes e informação associada. Um banco de dados in-house foi utilizada para converter os identificadores de genes a partir dos conjuntos de dados em identificadores de genes Entrez. Estes identificadores Entrez Gene foram enfileiradas-up para fazer o download de outras informações relacionadas gene. módulo LWP (https://search.cpan.org/~gaas/libwww-perl-5.836/lib/LWP.pm) foi utilizado para se conectar ao NCBI e as informações necessárias foi baixado com o auxílio de NCBI E-utilitários (http : //eutils.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html). informações baixado inclui símbolo oficial do gene, aliases, sequência do gene, o resumo gene, localização cromossômica, sequência promotora potencial [-1.000-200 bp] e todas as sequências de transcrição (juntamente com detalhes exon-intron) correspondente a cada gene. Proteína informação relacionada foi baixado UniProt (https://www.uniprot.org; [30]). Da mesma forma, locais de início da transcrição foram baixados da dbTSS (ftp://ftp.hgc.jp/pub/hgc/db/dbtss/; [31]), versão 7.0. Quando a informação não estava disponível no dbTSS para um gene, a extremidade 5 ‘da sequência do gene NCBI correspondente foi utilizado para representar a posição do TSS. informações Gene Ontology foi baixado a partir do site FTP da base de dados (ftp://ftp.geneontology.org/pub/go/; [32]) e proteína-proteína informações interação foi descarregado a partir BioGRID (https://thebiogrid.org /download.php; [33]), versão 3.1. dados EST foi baixado UniGene (ftp://ftp.ncbi.nih.gov/repository/UniGene; [29]). códigos Perl foram escritos para garantir a incorporação automática dos dados baixados no banco de dados. ClustalW foi baixado https://www.clustal.org/clustal2/e integrado no banco de dados, para proporcionar facilidade para realizar a análise de sequência múltipla.

MySQL Relational Database Management System (RDBMS) é usado para armazenar dados. Uma tabela é dedicada a armazenar a informação básica relacionada gene incluindo o nome do gene, do locus e transcrição detalhes. Uma outra tabela é utilizada para armazenar identificadores de genes, tais como o nome do gene, a descrição do gene, o símbolo oficial gene e o identificador de genes NCBI, identificadores de sonda plataforma de microarray, etc tabelas separados são mantidos para armazenar a informação relacionada com as espécies, tipo de célula, tecido, linha de células e condições que compõem ESLC. Cada entrada nestes quadros não redundantes é marcado com o identificador exclusivo. Os resultados obtidos a partir de sistema de pontuação são mantidos como banco de dados de arquivo simples. Cada arquivo corresponde a ESLC único, que é nomeado usando identificadores de tabelas ESLC. A arquitetura de banco de dados completo e função é representada em um esquema na Figura 6.

Reconhecimentos

Gostaríamos de agradecer Bhaskar Mudhagantgi e Nisha Ann Vishwan para curadoria alguns dos estudos e contribuindo para o primário dados.

Deixe uma resposta