PLOS ONE: Bayesian Pathway Analysis of Cancer Microarray de dados

Abstract

High Throughput Dados Biológicos (HTBD) requer métodos de análise detalhada e de uma perspectiva de ciência da vida, estes resultados da análise fazem mais sentido quando interpretados dentro do contexto de vias biológicas. Redes Bayesianas (RBs) Capture interações lineares e não lineares e manipular eventos estocásticos em uma estrutura probabilística representando o ruído tornando-os candidatos viáveis ​​para análise HTBD. Temos recentemente propôs uma abordagem, chamada Bayesian Pathway Analysis (BPA), para analisar HTBD usando RBs em que caminhos biológicos conhecidos são modeladas como RBs e caminhos que melhor explicam o HTBD dado são encontrados. BPA usa a informação de mudança vezes para obter uma matriz de insumo para marcar cada via modelado como uma BN. A pontuação é conseguida utilizando o método equivalente Bayesiana-Dirichlet e significância é avaliado por randomização através de bootstrapping das colunas da matriz de entrada. Neste estudo, melhorar o sistema de BPA, otimizando as etapas envolvidas na “pré-processamento de dados e Discretization”, “Scoring”, “Avaliação de significância” e “Software e Aplicação Web”. Testamos o sistema melhorado em conjuntos de dados sintéticos e alcançou mais de 98% de precisão na identificação dos caminhos ativos. A abordagem geral foi aplicada no verdadeiro cancro conjuntos de dados de microarray, a fim de investigar as vias que estão normalmente activo em diferentes tipos de cancro. Nós comparamos os nossos resultados sobre os dados reais define com uma abordagem relevante chamado de Análise via de sinalização de Impacto (SPIA)

Citation:. Korucuoglu M, ISCI S, Ozgur A, Otu HH (2014) Bayesian Pathway Analysis of Cancer dados microarray. PLoS ONE 9 (7): e102803. doi: 10.1371 /journal.pone.0102803

editor: Raya Khanin, Memorial Sloan Kettering Cancer Center, Estados Unidos da América

Recebido: 14 de fevereiro de 2014; Aceito: 24 de junho de 2014; Publicação: 18 de julho de 2014

Direitos de autor: © 2014 Korucuoglu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada pela Comissão Científica e Tecnológica Conselho de Investigação da Turquia (TUBITAK) número de concessão 111E042 (HHO). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução modelos

Bayesian Network (BN) ganharam popularidade para aprender caminhos biológicos de dados de expressão gênica por microarrays [1], [2]. RBs representar a estrutura de dependência para um conjunto de variáveis ​​aleatórias usando grafos acíclicos dirigidos e têm sido utilizados com crescente popularidade em matemática e ciências computacionais ao longo dos últimos 20 anos. No entanto, as aplicações BN atuais estão limitados a estrutura de aprendizagem utilizando dados observados e, portanto, trabalhar apenas em algumas centenas de variáveis ​​como algoritmos de aprendizagem de estrutura são complexa computacionalmente. Este, por sua vez, resulta numa utilização ineficiente da HTBD, que contêm um número muito maior de variáveis.

De uma perspectiva de ciências da vida, resultados de análise de dados fazer mais sentido quando interpretados dentro do contexto das redes biológicas e vias. métodos baseados em análise de gene indivíduo previamente estabelecidos foram estendidos para a rede e escala via na maior parte ao longo das linhas de análise conjunto de genes (GSA) [3], [4] ou Gene Ontology (GO) abordagens baseadas [5] – [7], que centra-se na determinação de conjuntos de genes predefinidos ou classes que são significativamente regulamentados. No entanto, estas abordagens considerar os genes de entrada e dos conjuntos de genes-alvo e classes simplesmente como

listas

e não incorporar nos seus modelos a topologia por meio do qual os genes nestas classes interagem uns com os outros. Outras abordagens comerciais populares, como o Ingenuity Pathway Base de Conhecimento (Ingenuity Inc., Califórnia) ou PathwayAssist (Ariadne Genomics, Califórnia) também identificam vias conhecidas como activo com base no HTBD simplesmente considerando o número de genes compartilhados pela lista de entrada ea via alvo. Todos os métodos aferomentioned usar alguma variação da ideia principal que uma classe funcional é relevante para a HTBD observado se a classe possui uma quantidade significativa da lista gene entrada.

Temos recentemente propôs uma abordagem, chamada Caminho Bayesian análise (BPA), para analisar HTBD usando RBs [8]. No quadro BPA vias conhecidas são modelados como RBs e o HTBD processado é utilizado para marcar cada rede para avaliar a sua aptidão para os dados observados; obtenção de um fluxo de trabalho que incorpora no seu modelo da topologia das vias. Tem havido desde abordagens que modelam a topologia via em algum grau na análise de HTBD [9] – [14]. Em termos de aplicabilidade geral e relação direta com a saída do BPA, temos utilizado a Análise de Impacto via de sinalização (SPIA) [15] em nossas comparações. SPIA combina a medida ativação da via com base GSA com uma pontuação via perturbação romance, que reflete o grau em que a desregulamentação dos genes da via está em concordância com a hierarquia de sinalização.

Na abordagem BPA, caminhos são obtidos a partir do banco de dados KEGG [16]. Cada entrada (nó) na via é mapeado para uma identificação única interna e um módulo de conversão realiza o mapeamento necessário entre as IDs de expressão gênica de entrada e os IDs de nó via. Repetindo entradas na via são fundidas e representado como um único nó conservando as relações de borda. teoria BN utiliza Directed acíclico Gráficos (DAG), mas podem existir ciclos nas vias biológicas. Este é superado pelo método spirtes ‘onde as representações gráfico de modelos de equações estruturais [17] são convertidos em gráficos acíclicos colapsados ​​tal que d-separações no gráfico colapso implica as mesmas relações de independência definidos pelo modelo. Para este fim, a via biológica é modelada como uma BN, que agora pode ser testado contra dados de entrada para avaliar a sua aptidão.

BPA assume um dois-grupo (por exemplo, caso vs. controlo) dados de expressão gênica normalizados como entrada. A matriz de observação para marcar cada DAG é obtida através da geração dos valores de mudança de dobragem (FC) para cada par de amostras nos dois grupos. Nesta matriz, colunas representam genes no DAG e linhas representam comparações de pares. Se houver

N

1

Deixe uma resposta