PLOS ONE: uma abordagem integrativa para mapeamento de genes expressos diferencialmente e componentes de rede utilizando parâmetros Novel de Clareza genes reguladores chave no cancro colorectal

Abstract

Para examinar os processos biológicos intricados preocupados com câncer colorretal (CRC), uma abordagem de biologia de sistemas integração de vários componentes biológicos e outros fatores que influenciam é essencial para compreender. Foi realizada uma análise de nível de sistema global de CRC, que ajudou a desvendar os componentes de rede cruciais e muitos elementos reguladores através de uma visão coordenada. Usando essa abordagem integrativa, o perspicaz de complexidade escondida em um fenômeno biológico é amplamente simplificada. As análises de microarray facilitado expressão diferencial de 631 genes significativos utilizados na progressão da doença e fornecido associados cima e para baixo genes interessantes regulados como

junho

,

fos

e

MAPK1

. A regulação da transcrição desses genes foi deliberado amplamente por examinar fatores de transcrição, tais como

HNF4

,

nr2f1

,

znf219

e

DR1

que influenciam directamente o expressão. Além disso, as interacções destes genes /proteínas foram avaliadas e redes funcionais importantes foram detectadas para associar com a fisiopatologia da CRC. Os parâmetros estatísticos padrão disponíveis, tais como

z

-Score,

p

-valor e perfil de significância foram exploradas para a identificação de assinaturas de chave do CRC via enquanto alguns novos parâmetros representando estruturas de sobre-representados também foram projetados no estudo. A abordagem aplicada revelou 5 genes-chave ou seja,

kras

,

araf

,

pik3r5

,

ralgds

e

Akt3

através do nosso romance parâmetros projetados ilustram alta significância estatística. Estes novos parâmetros pode ajudar no controlo marcadores candidatos para doenças que têm caminhos biológicos conhecidos. Além disso, investigar e orientar esses genes propostos para validações experimentais, em vez de ser enfeitiçado pela via complicada certamente dotar informações valiosas em uma compreensão sistemática bem-cronometrada de CRC

Citation:. Sehgal M, Gupta R, Moussa A , Singh TR (2015) uma abordagem integrada para mapear genes diferencialmente expressos e componentes de rede utilizando parâmetros Novel de Clareza genes reguladores chave no cancro colorectal. PLoS ONE 10 (7): e0133901. doi: 10.1371 /journal.pone.0133901

editor: Ying Xu, Universidade da Geórgia, Estados Unidos

Recebido: 17 Abril, 2015; Aceito: 02 de julho de 2015; Publicação: 29 de julho de 2015

Direitos de autor: © 2015 Sehgal et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Dados Disponibilidade: Os dados estão disponíveis de Dryad. DOI:. 10,5061 /dryad.5b1j0

Financiamento: Este trabalho foi apoiado pela Ciência e Engenharia Research Board, Departamento de Ciência e Tecnologia (DST), Índia, conceder número SR /FT /LS-026/2009 .

competir interesses:. os autores declararam que não existem interesses conflitantes

Introdução

o câncer colorretal (CRC) influencia milhões de pessoas em todo o mundo e existe como o mais comumente diagnosticado cancros depois do câncer de pulmão e mama [1]. CRC contribui para a segunda maior causa de morte em homens e terceira maior no sexo feminino, também a prevalência da doença é observada principalmente nas regiões economicamente desenvolvidas [2, 3], provavelmente devido ao estilo de vida e as questões alimentares. A taxa de incidência e mortalidade por CRC é de cerca de 35-40 por cento maior em homens do que nas mulheres [4]. De acordo com o status de câncer em Estados Unidos para 2013, cerca de 102.480 peoplesuffered e 50.830 morreram de CRC que regula a gravidade da doença [5]. CRC manifesta principalmente o crescimento anormal de células que ocorrem no revestimento do cólon ou do recto e da progressão da doença ocorre através da substituição de um pólipo não cancerosos de tumor canceroso. Os relatórios anteriores [6-8] sugerem uma variedade de factores associados com o padrão de doença tais como doença inflamatória do intestino, pólipos, obesidade, tabagismo e história genética do cancro. A doença também é caracterizada por sangramento rectal, obstrução, dor abdominal, falta de apetite e perda de peso subsequente [7, 9]. Nenhum dos sintomas assegura de forma independente a incidência de CRC e muitas vezes não há sintomas observáveis ​​no início de CRC. Portanto, o rastreio adequado para a doença é necessária [10] para facilitar a detecção precoce e remoção atempada de pólipos [11].

A fim de identificar biomarcadores para a detecção precoce, a progressão via de câncer e doenças tem de ser criticamente examinado. Embora, nas últimas décadas, muitos estudos têm concedido sobre o rastreio, diagnóstico e tratamento para CRC [12, 13], mas ainda os fatores genéticos e de iniciação responsáveis ​​pela doença são desconhecidas [14]. Há uma enorme falta de compreensão dos mecanismos subjacentes a progressão da CRC a partir de pólipos não cancerosos a um tumor e suas vias responsáveis ​​[15]. Estudos mostram que a CRC está associada principalmente com a instabilidade cromossômica (CIN) [16] e instabilidade de microssatélites vias (MSI) [17, 18] aberrações .Genetic em genes envolvidos na CIN via leva à ativação de oncogenes como

kras

e inativar certos genes supressores de tumor, tais como

Smad4

,

p53

,

Smad2

,

bax

e

apc

[19 ]. Além disso, os relatórios anteriores [20] e um banco de dados em estudos de associação genética de reparação do ADN [21] sugere que mutações em genes de reparo do DNA, ou seja,

MLH1

,

MSH2

,

MSH3

e

MSH6

da MSI via contribui para a não-polipose câncer colorretal hereditário (HNPCC) e CRC. Portanto, investigando genes para cima e para baixo regulados importantes pode-se deduzir marcadores para CRC como observado em outros estudos para diferentes doenças [22]. Além disso, um perspicaz abrangente sobre os genes e caminhos relacionados é necessário para projetar terapias específicas e eficazes para CRC [23].

Já existe uma acumulação maciça de dados de expressão de genes para CRC em domínios públicos e diversas técnicas computacionais foram aplicadas para a sua análise. Mas, o maior desafio reside na extracção de informação ou marcadores biológica vital desta amálgama de dados [24]. A técnica de microarrays de ADN não só fornece uma medida útil para estimar expressão de milhares de genes de uma só vez, mas também oferece pistas moleculares vitais sobre os mecanismos subjacentes a fisiopatologia da doença [22, 25]. Posteriormente, a estratégia que seguimos inclui a identificação de genes e elucidação de padrões-chave ou motivos formados por esses genes candidatos que governa o impacto funcional de vários processos biológicos no CRC biologicamente significativas. Cada gene identificado foi então anotada centrando-se sobre a categorização de genes por meio de processos biológicos, funções moleculares e componentes celulares para a sua associação e participação na CRC [26].

Além disso, foi feita uma tentativa de identificação da rede vital componentes (redes funcionais) que ocorrem em frequências elevadas do que o esperado ao acaso em um caminho. Estas redes funcionais fornecem sub-estruturas estatisticamente sobre-representados (sub-gráficos) em uma rede e são reconhecidos como blocos de construção simples de uma complicada rede. Estas redes funcionais desempenham um papel central no reconhecimento e análise de padrões específicos em redes biológicas e produzir insights significativos na melhor compreensão de processos biológicos complexos envolvidos em doenças humanas complexas [27]. Nós aplicamos critério computacional e estatística para a detecção eficaz de redes funcionais biológicos no CRC e as medidas de avaliação funcional foram utilizados para reduzir a complexidade para o reconhecimento de candidatos mais apropriados no estudo proposto.

A principal perspectiva do nosso estudo foi analisa-componente sistema para CRC com vários componentes biológicos que compreendem a expressão de genes envolvidos, suas anotações, e analisa em forma de redes funcionais complexos que regulam as funções vitais. O objetivo principal foi o de curador manualmente e anotar todos os genes, componentes de rede, processos, funções moleculares e vias envolvidas no CRC e facilitar a identificação de alguns genes-chave que podem servir como marcadores vitais para CRC. Em geral, uma abordagem integrativa foi praticado que inclui vários aspectos de dados moleculares, biomarcadores, redes e caminhos para descobrir a complexidade no CRC via e, em seguida, limitando a pesquisa a apenas alguns genes ou componentes de rede que podem responder a diversas perguntas biológicas da CRC . Além disso, como

in silico

abordagem poderia ser aplicada a outras doenças na busca da identificação de biomarcadores e o estudo não só ajudará os biólogos experimentais, geneticistas e outros comunidade científica para identificar novos biomarcadores para doenças, mas também tem implicações para a indústria farmacêutica a moléculas alvo importantes e design de medicamentos à base de alvo apropriados para medicamentos.

Materiais e Métodos

O

in silico

abordagem com formas diferentes de dados brutos, ferramentas computacionais , software e bases de dados foi aplicado de uma extensa compreensão dos mecanismos envolvidos na CRC. Uma miríade de in-house scripts perl e técnicas estatísticas foram empregados para a caracterização de biomarcadores para a doença. fluxo de trabalho inteiro representando diferentes parâmetros e aspectos biológicos considerados para o estudo é apresentado na Figura 1.

Estudo iniciado com a caracterização de genes diferencialmente expressos no conjunto de dados câncer colorretal e sua regulação da transcrição. interações e padrões de rede importante foram identificados a partir da via CRC e enriquecimento, eventualmente funcional foi executado por jogadores-chave na progressão da doença.

Os dados biológicos

A análise de DNA microarray foi realizada em bruto dados recuperados de Gene Expression Omnibus (GEO) [28] para o início precoce do CRC [29]. A principal prioridade para o estudo de expressão gênica em um estágio inicial foi identificar biomarcadores para a detecção precoce da doença que, consequentemente, poderia, então, ser adequadamente gerida. O objetivo final do estudo foi detectar genes diferencialmente expressos adicionais no início precoce CRC uma vez que o está envolvido na polipose adenomatosa familiar (FAP) [30] e HNPCC [31, 32] que já são bem ilustradas. O conjunto de dados extraído foi, em seguida, analisada utilizando GeneChip U133 Plus 2.0 matriz. Além disso, as redes funcionais para CRC foram detectadas por recuperar vias biológicas de KEGG [33], Reactome [34], BioGRID [35] e outros bancos de dados via [36].

Pré-processamento de dados

primeiro e o passo mais importante para a análise de DNA microarray é pré-processamento e a normalização dos dados em bruto que é então submetido a uma análise mais aprofundada. Este processo minimiza o ruído resultante de variações técnicas e subsequentemente permite que os dados sejam comparados para determinar as alterações biológicas reais. A implementação de normalização de dados auxilia na estabilização quantidades desiguais de RNA de partida, diferenças na rotulagem ou de detecção de eficiência entre os corantes fluorescentes utilizados e desvios sistemáticos nos níveis de expressão. Assim, os dados reuniram de cada chip doença CRC disponíveis foram normalizados utilizando a análise média de multi robusto algoritmo (RMA) [37] a partir de Microarray Sistema de Análise de Dados (MIDAS) em TM4 conjunto de software microarray.

Identificação da diferencialmente genes expressos

Após a experiências microarray, reconhecendo genes com perfis de expressão alterados no estado de doença é uma tarefa imprescindível e tedioso para executar. O problema múltiplos testes de hipóteses é geralmente observado devido à presença de algumas condições, muitas observações e milhares de hipóteses a serem testadas explicitamente. Para superar este problema, uma estatística apropriada foi escolhida para testar cada gene no conjunto de dados e, em seguida, computar seu correspondente

p

-valor. Um processo de ajuste é aplicado às matérias

P

-Valores, a fim de evitar erros de hipóteses multiplicidade [38] e, finalmente, uma parcela QQ é gerado. Este terreno representa os valores das estatísticas dos testes observada contra as estatísticas de teste esperados sob uma combinação de hipóteses nulas. Em última análise, foram considerados os genes expressos para controle e doentes estados para análise de significância de microarrays (SAM) e enredo vulcão análises para medir a diferença substancial para a identificação de genes reguladores cruciais [39, 40].

Cluster análise de genes co-expressa

O agrupamento de genes diferencialmente expressos foi caracterizado usando o algoritmo de agrupamento hierárquico. Genes que compartilham perfis de expressão similares e outras características biológicas foram agrupados juntos e vice-versa. Em estudos anteriores, este tipo de classificação é conseguido por diversas formas de cancro, mas de CRC, um mau classificação foi observada [41]. Além disso, agrupamento hierárquico foi realizada para deduzir o significado da etapa da seleção da expressão diferencial de classificar os genes co-regulados. Além disso, para a identificação de padrões e componentes importantes em dados de microarray multi-dimensional, análise do componente principal (PCA) foi realizada [42]. Esta técnica facilitou a detecção dos principais componentes principais e auxiliado na análise e visualização de genes com perfis de expressão similares.

A regulação transcricional de genes CRC

Uma vez que, a regulação do gene desempenha papel crucial no nível da transcrição através do emprego de uma variedade de factores de transcrição (TFS) e os seus genes-alvo; um amplo conhecimento de elementos reguladores da transcrição (FER) é necessária para a compreensão completa da regulação de genes e processos regulatórios complexos subjacentes. Disponível,

in silico

ferramentas como (Elementos Reguladores distante) dire [43] e Gambá [44] foram pesquisados ​​para a identificação de REs entre esses genes diferencialmente expressos. Tanto o toolsassist na identificação do TFS onde Dire tem uma característica única de reconhecer REs fora das regiões promotoras proximais considerando locus do gene completo. Os REs incluindo promotores proximais e REs distantes como intensificadores, repressores e silenciadores foram detectados para uma perspectiva mais ampla sobre o processo de regulamentação em causa da CRC.

enriquecimento funcional para genes diferencialmente expressos

A análise de enriquecimento focadas na curadoria manual e anotação via baseada em WEB gênica Set Analysis Toolkit (WebGestalt) [45] e as ferramentas do gorila. O ex-ferramenta dispõe de genômica, proteômica e estudos genéticos em grande escala gerou dados para anotação funcional dos conjuntos de dados co-expressos diferencialmente expressos e. Este conjunto de ferramentas integra informações de vários recursos públicos e, muitas vezes fornece resultados precisos e sensíveis, auxiliando na identificação de processos biológicos, os seus compartimentos celulares e funções moleculares associados com os genes correspondentes. Considerando que, ferramenta do gorila [46] faz com que a computação com base na exata

p

-Valores sem simulação análises para detectar as características funcionais dos conjuntos de genes. Ambas as ferramentas fazer uso da mesma abordagem estatística de distribuição ou seja hiper-geométrica (HGD) para o teste de significância e enriquecimento funcional de genes enquanto WebGestalt ainda explora o teste exato de Fisher para analisar a anotação. Matematicamente, para HGD se houver

número ‘N’ de genes em um grupo onde

‘A’

genes estão relacionados a um termo GO particular e uma amostra de

‘n’

genes de

‘N’

é tomada, então a probabilidade de adquirir

‘a’

genes associados com

“a”

ou mais GO termos em uma amostra

‘n’

seja deliberada usando HGD:

gorila exibe os genes estatisticamente significativas e enriquecido no topo da lista gene classificado e utiliza uma variante do HGD normal chamado MHG (hypergeometric mínimo) para a enriquecimento de análises de listas de genes classificados [47]. Em muitos casos, um limiar fixo

(n)

não funciona e classificação de todos os elementos (genes) é necessário para encontrar o valor de

‘n’

que minimiza ainda mais HGD. Por exemplo, considere uma lista gene classificou dizer

g

1

Deixe uma resposta