PLOS ONE: Integrative Biology rede: Gráfico Prototipagem para a co-expressão Cancer Networks

Abstract

análise baseada em rede tem sido comprovada útil em áreas orientadas biologicamente, por exemplo, para explorar a dinâmica e complexidade das redes biológicas. Investigando um conjunto de redes permite derivar conhecimento geral sobre as propriedades topológicas e funcionais subjacentes. A análise integradora de redes normalmente combina redes de diferentes estudos que investigam os mesmos ou similares questões de pesquisa. De modo a realizar uma análise integrativa é muitas vezes necessário para comparar as propriedades das correspondentes arestas entre o conjunto de dados. Esta identificação de arestas comuns é muitas vezes pesada e computacional intensivo. Aqui, apresentamos uma abordagem que é diferente de inferir uma nova rede com base em características comuns. Em vez disso, seleccionar uma rede, como um protótipo gráfico, o qual, em seguida, representa um conjunto de objectos de rede comparáveis, uma vez que tem a menor distância média para todas as outras redes no mesmo conjunto. Nós demonstrar a utilidade da abordagem de prototipagem gráfico em um conjunto de redes de câncer de próstata e um conjunto de correspondentes redes benignas. Mostramos ainda que as distâncias dentro do grupo de câncer e do grupo benigna são estatisticamente diferentes, dependendo da medida de distância usada

Citation:. Kugler KG, Mueller LAJ, Graber A, Dehmer M (2011) Biologia Integrativa de rede: Prototipagem gráfico para a co-expressão Cancer Networks. PLoS ONE 6 (7): e22843. doi: 10.1371 /journal.pone.0022843

editor: Dongxiao Zhu, da Universidade de New Orleans, Estados Unidos da América

Recebido: 22 Março, 2011; Aceite: 30 de Junho de 2011; Publicação: 29 de julho de 2011

Direitos de autor: © 2011 Kugler et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este projecto foi apoiado pelo Tiroler Zukunftsstiftung ea Tiroler Wissenschaftsfonds. Este trabalho também foi financiado pelo COMET Centro ONCOTYROL e financiado pelo Ministério Federal dos Transportes Inovação e Tecnologia (BMVIT) e do Ministério Federal da Economia e do Trabalho /Ministério Federal da Economia, da Família e da Juventude (BMWA /BMWFJ), o Tiroler Zukunftsstiftung (TZS) e o Estado de Styria representado pela Agência de Promoção de Negócios da Estíria (SFG). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

para muitas doenças não são mais genes únicos actuar como marcador, mas um conjunto de genes que interagem podem ser utilizados para caracterizar ou diagnosticar um processo patológico [1]. Conduzido por que uma pletora racional de novos métodos de análise de dados emergido ao longo dos últimos anos, como a necessidade de métodos que são capazes de capturar as complexidades relacionados surgiu. Um exemplo simples é a de procurar objectos que são altamente ligados a outros objectos e pode, por conseguinte, desempenham um papel central na regulação de processos. A análise baseada em rede [2] de dados biológicos é um campo relacionado na biologia de sistemas [3]. Considerando a análise de dados clássica foi impulsionado por um ponto de vista reducionista, moderna biologia rede visa perceber os dados de forma holística [3]. Utilizando redes permite deixando para trás a exploração estática de um recurso de cada vez, e que permite uma investigação da natureza dinâmica mais realista de dados biológicos e médicos. As dinâmicas encontram-se em várias dimensões, como sistemas de mudar ao longo do tempo [4], reagir a perturbações [5] ou são simplesmente constituído por funções biológicas, que são interligados em cascatas de complexos [6]. Ao mesmo tempo, a combinação de diferentes fontes de dados tornou-se um procedimento padrão em biologia computacional moderna. Seja por meio da integração de dados ou meta-análise clássica, muito esforço ainda está sendo colocado em padronizar abordagens que permitem uma análise integrativa [7]. abordagens integradoras permitem aumentar a base de evidências para novas descobertas, combinando informações de diferentes fontes. Em uma integração de dados visão clássica refere-se à integração de dados de natureza diferente (por exemplo, a expressão dos genes e proteómica). No presente artigo, também se referem à integração do mesmo tipo de dados como a integração de dados

Investigação para a combinação de biologia da rede de dados e análise integrativa tem-se desenvolvido ao longo dos últimos anos [8] – [10].. Isso permite derivar generalizações a partir de um conjunto de diferentes redes que investigam os mesmos ou similares questões de pesquisa. Tais conclusões gerais podem ser usados ​​para responder a perguntas biológicas ou para a criação de novas hipóteses sobre os processos subjacentes. Medindo a semelhança entre as redes foi provado úteis para avaliar os efeitos sistemáticos de decurso de tempo para as redes metabólicas [8], correspondentes interacções reguladoras [9] ou para a identificação de subgráficos semelhantes aos pares de redes [10]. Outra aplicação da análise de redes comparativa é a comparação sistemática de duas redes de associação que foram aparadas para correlações parciais [11]. No entanto, a detecção e inferir o conhecimento sobre as propriedades comuns para um conjunto de redes é uma tarefa desafiadora, uma vez comparando redes depende da definição da medida de similaridade subjacente. No entanto, a semelhança entre todos os objetos não é definido exclusivamente desde aspectos multifacetados como a estrutura, função e semântica estão envolvidos [12]. Portanto, é necessário encontrar características comparáveis ​​em redes biológicas. Muitas vezes, isso é feito através da detecção de arestas comuns ou vértices, e comparando-os ou suas distribuições [13], [14]. Para abordar a questão da significativamente comparando redes biológicas uma infinidade de métodos tem sido desenvolvidos. Podemos aqui apenas apresentar uma pequena selecção destas abordagens e suas aplicações. Piruzian et ai. topológica informação empregada para integração de dados Transcriptoma e proteoma em uma abordagem baseada na classificação [15]. Uma forma generalizada do grau de distribuição, o chamado grau de distribuição graphlet, pode ser aplicado para a determinação semelhança rede [16]. Graphlets também foram usadas para alinhar redes PPI humana a partir de levedura e [17]. Um método estatístico para comparar redes de doenças grandes inferidas a partir de câncer de colo uterino, utilizando uma decomposição árvore e técnica de alinhamento também foi proposto em [18]. Aqui, vamos nos concentrar na aplicação de redes comparando, que são derivados a partir do mesmo tipo de dados e são usados ​​como representações para uma classe de amostra. Portanto, analisamos um conjunto de redes de associação derivados de dados de expressão de gene de câncer de próstata. Ao fazer uso desta combinação é possível derivar informações generalizadas sobre os resultados baseados em rede relacionadas a determinadas doenças ou estados de desenvolvimento. Uma abordagem comum para o problema de analisar propriedades de rede por meio de meta-análise é comparar a sobreposição de arestas em diferentes redes. Nós provas da sua utilidade para uma integração baseada em rede em um estudo anterior [19]. Uma abordagem semelhante para bordas compartilhadas foi dada pelo Cootes et al. [10]. Um método alternativo foi apresentada por Wang et al., Que utilizaram a informação sobre o efeito do tamanho para combinar a informação de um conjunto de rede [20]. No entanto, esta abordagem requer informação sobre o efeito de tamanho de estar disponível. Detecção de bordas comuns em uma rede é uma tarefa desafiadora, se nenhum mapeamento adequado entre os rótulos dos vértices está disponível. Ao considerar as redes co-expressão, os rótulos dos vértices se referir a nomes de genes. A fim de gerar um espaço de nome comum entre as diferentes redes, é, portanto, útil para mapear os genes, identificadores dependia de plataforma específicos de estudo para outros identificadores, por exemplo, identificadores de genes Entrez.

No presente artigo demonstramos uma abordagem alternativa para inferir propriedades topológicas comuns para um conjunto de redes. Aqui, o gráfico de prototipagem pode ser entendida como um método que selecciona uma rede existente a partir de um conjunto de redes, como um representante para o conjunto completo, no que se refere a uma medida de distância gráfico subjacente [21]. Isto significa que o protótipo estrutural gráfico representa as propriedades topológicas de um conjunto completo de redes, de acordo com o critério de selecção que é definido pelas medidas gráfico da distância. Uma ilustração esquemática para a selecção de um protótipo gráfico é dado na Fig. 1. Note-se que outras definições de protótipos gráfico, como o chamado árvore de consenso [22] foram também exploradas. Mas aqueles que não será discutido neste artigo. Assim, este protótipo de rede pode, então, ser utilizado para realizar uma análise topológica e inferindo novo conhecimento, uma vez que representa as propriedades de todas as outras redes partir do mesmo conjunto. Um ponto forte do presente método é que a detecção arestas comuns ou nodos podem tornar-se desnecessárias, dependendo as medidas de distância gráfico empregues. Então, é fundamental utilizar uma medida gráfico distância cuja complexidade computacional é polinomial. Para implementar gráfico de prototipagem, que seleccionar medidas adequadas gráfico da distância que são capazes de quantificar significativamente a distância entre duas redes. Como parte de nossa contribuição descrevemos quatro medidas de distância que são baseados em distribuições de probabilidade de propriedades de rede. Este é um outro ponto forte deste método, uma vez que pode ser modificada para fazer uso de outras medidas, personalizadas distância gráfico. Para demonstrar a seleção de um protótipo gráfico [21], [23] fazemos uso de cancro da próstata estudos de expressão gênica. 25% dos cancros do sexo masculino recém-diagnosticados em os EUA são os cancros da próstata [24], o que o torna um alvo atraente para a investigação biomédica em curso. Uma ampla gama de estudos têm sido realizados ao longo dos últimos anos, e grande parte dos dados correspondente está disponível nos repositórios de dados públicos [25] – [27]. Nós aplicamos o nosso método em um conjunto de sete estudos de câncer de próstata [28-24], que consistem de amostras e amostras de câncer do tecido benigno ou saudável. Esperamos um resultado duplo: Em primeiro lugar, nós esperamos ver diferenças estruturais significativas entre os estudos benignos e câncer, fazendo uso de medidas topológicas. Em segundo lugar, nós esperamos ver diferenças significativas entre as distâncias dentro das redes de dados de câncer e as distâncias dentro das redes de dados benignos. Isto poderia mostrar que não só as próprias redes diferentes, mas que mesmo as semelhanças entre os dois grupos diferem. Se assim for, os processos patogénicos que são causados ​​pelo cancro podem ser responsáveis ​​para explicar estas observações. Baseado no trabalho anterior [19] esperamos observar semelhanças mais elevados no grupo de câncer. Mais precisamente, esperamos distâncias dentro de conjuntos de dados de um grupo de câncer a ser menores do que os de um conjunto benigna.

Esta figura ilustra esquematicamente a derivação do protótipo gráfico.

A trabalho está organizado da seguinte forma: na seção “dados e Métodos” apresentamos os conjuntos de dados explorados e o processo de inferência das redes. Em seguida, descrevemos a abordagem de prototipagem gráfico e as medidas de distância gráfico empregadas em detalhe. resume e seção ‘Resultados’ descreve os resultados obtidos. A seção “Discussão e Outlook ‘termina o papel com discutindo nossos resultados e é seguido por algumas observações finais.

Materiais e Métodos

Dados do cancro da próstata

Nós demonstrar o gráfico abordagem de prototipagem usando um conjunto de estudos de câncer de próstata. Desde esse tipo de câncer tem sido exaustivamente investigada nos últimos anos, um número maior de dados de expressão gênica está à disposição através de repositórios públicos. Para o estudo apresentou uma pesquisa sobre os repositórios NCBI GEO [25], EBI Arrayexpress [26] e Oncomine [27] foi conduzida. Para inclusão nos nossos estudos de análise têm de comunicar os níveis de expressão do gene de câncer de próstata e espécime benignos usando microarrays. espécime benignas são ou amostras de tecido normal adjacente ao tumor ou machos saudáveis. Nós expurgar formas metastáticas a partir das amostras de cancro para este estudo, a fim de diminuir a heterogeneidade nas redes. dados de expressão de linha celular também foi excluído. . Para reduzir a preparação de dados e esforço de mapeamento que só incluem plataformas de microarray Affymetrix neste estudo

Para a realização desta análise, selecionamos sete conjuntos de dados [28] – [34] a partir do conjunto de dados, conforme listado na Tabela 1. para investigar o efeito do tamanho da amostra dentro dos estudos sobre os nossos resultados de uma ampla gama de tamanhos das amostras (a partir de pequenos estudos para maiores) é permitido. Após a seleção dos estudos a serem incluídos, nós re-executar microarray pré-processamento. Os tamanhos de amostra dado no quadro 1 referem-se ao estado de controle pós-qualidade. Para permitir a comparação entre os trabalhos dos genes, os identificadores originais são mapeados para identificadores de genes Entrez usando o pacote Biomart [35] para Bioconductor [36]. Sempre que várias sondas mapear para um identificador gene Entrez, mantemos a medição com a maior variância. Após esse mapeamento 8906 genes comuns dentro de todos os sete estudos são deixadas para posterior análise. Para derivar uma representação de rede adequado dos dados, foi escolhida a criação de redes de associação. No entanto, os métodos apresentados a seguir são aplicáveis ​​a uma variedade de outros tipos de rede também, se adotadas corretamente.

Rede Inference

Para inferir uma representação de rede adequada dos dados subjacente é uma importante desafio na baseadas em rede de investigação [37] – [39]. Uma ampla variedade de representações de rede para os dados biológicos existir [39] – [41], e o método gráfico prototipagem apresentada a seguir pode ser aplicado para a maioria deles. Aqui, nós utilizamos informações sobre a associação entre dois genes. As redes resultantes são, portanto, chamadas de redes de associação. Para inferir e análise de dados de expressão gênica como as redes de associação, relacionamentos co-expressão têm sido frequentemente utilizados [42]. Note-se, que a associação não indica necessariamente causalidade. Uma maneira de resolver este problema é aplicar o conceito de associações causais [43], onde os genes foram funcionalmente classificadas.

Aqui, nós utilizamos a informação mútua como uma medida para a associação, como descrito em [39 ]. Para inferir as redes a partir dos dados de expressão de genes, fazemos uso do algoritmo MRNETB [38]. Para configurar conjuntos de dados para a seleção de um protótipo gráfico, podemos inferir duas redes de cada estudo. Uma rede que é baseado na informação a partir das amostras benignas em estudo, e uma rede a partir das amostras de cancro, no mesmo estudo. Isto leva a 6 redes benignos e 7 redes de câncer, como remover a rede benigna a partir dos dados Wang. Isso é feito devido ao pequeno tamanho da amostra (), uma vez que considera que esta rede inferidos como sendo de pouca confiabilidade. Em geral, inferindo uma rede para cada grupo de pacientes separadamente permite realizar comparações topológicos e, assim, derivar novos insights sobre as diferenças funcionais subjacentes.

Selecção de um gráfico Prototype

Para generalizar o problema gráfico de similaridade [ ,,,0],21], que tem sido mostrado por Dehmer et ai. que um gráfico pode ser utilizado para representar um conjunto de outros gráficos comparáveis ​​[21]. A tarefa de determinar este assim chamado gráfico protótipo pode ser resolvido por aplicação de medidas de similaridade distância ou [21], [44]. Vamos ser uma rede, e ser uma medida gráfico distância. Ter um conjunto de redes, o protótipo gráfico pode ser expresso por [21], [23], [45] 🙁 1) Vemos que na Eq. 1 dá a distância média da rede para todas as outras redes em. Denotamos isso como. Nosso objetivo no presente trabalho é aplicar uma selecção de medidas gráfico de distância para a seleção de protótipos gráfico a partir de um conjunto de redes de câncer de próstata e um conjunto de correspondentes redes benignas. Aplicação de medidas diferentes gráfico da distância significa que podemos cobrir diferentes aspectos da semelhança estrutural. Em geral, é um problema ainda pendente o aspecto da semelhança estrutural de uma medida subjacentes capturas [44]. Se as medidas de gráfico distância diferente seleccionar a mesma rede como um protótipo gráfico de um conjunto de redes, o que aumenta a validade da selecção. No que diz respeito à medida da distância empregou o protótipo gráfico representa as propriedades topológica das outras redes partir do mesmo conjunto. Pode, portanto, ser utilizado para a realização de uma análise topológica e funcional.

Medidas gráfico da distância

A fim de executar gráfico prototipagem é necessário para medir significativamente a distância entre duas redes. Nesta subseção, apresentamos duas abordagens para realizar esta tarefa. A primeira abordagem é baseada no uso de correspondência gráfico inexata. Em particular, nós escolhemos o chamado gráfico de distância de edição (

GED

) [46]. A segunda abordagem é baseada na comparação de duas distribuições discretas de probabilidade [47], que são inferidas pela derivação de características estruturais das redes.

O

GED

é o custo mínimo de uma sequência para transformar um gráfico em outro gráfico usando operações de edição (apagar e acrescentar bordas ou apagar, inserir e substituindo vértices) [46]. O problema subjacente (para comparar dois gráficos estruturalmente) pode ser visto como uma generalização do método de Levenshtein [48] para comparar cadeias. Geralmente, o cálculo do

GED Compra de gráficos (não marcadas) é computacionalmente exigente, como é NP completo [49]. Para o nosso propósito da complexidade pode ser reduzida devido a três fatos [50]: i) Todos os nossos redes têm o mesmo número de vértices (desconectados), ii) todos os vértices são rotulados de forma única, e iii), selecionando apenas os genes que estão presentes em todos os estudos, todas as redes têm o mesmo conjunto de vértices, que nos liberta de apagar, inserir ou substituir quaisquer vértices. Assim, reduzindo a complexidade computacional para [49]. Para medir as distâncias entre duas redes, que empregam uma forma normalizada, que é dada pela porcentagem

GED

(

pGED

) [51] 🙁 2), onde é o número de máximo possível bordas, e o fator refere-se à natureza não-dirigida das bordas. Nós peso todas as transformações editar restantes (insert, delete) igualmente, atribuindo um peso de.

Uma abordagem informação teórica para quantificar as distâncias entre os gráficos podem ser definidos com base na divergência Kullback-Leibler (

KLD

) [47]. Nós definimos dois distribuição de probabilidade discreta e, para que o

KLD

é dado como [47] 🙁 3) O

KLD

é sempre definido de forma positiva para a distância entre e. Observe que . Como o

KLD

é assimétrica e não satisfaz a desigualdade triangular, não é métrica [52]. Nós, então, calcular o protótipo gráfico, definindo para o

KLD

na Eq. 1. estabilidade numérica é assegurada através da criação probabilidades de zero a.

A distribuição tipicamente que é frequentemente usado em Biologia de Sistemas é o grau de distribuição. Em redes não dirigidos, o grau dá o número de vizinhos para um vértice. Se definirmos a ser o número de vértices com vizinhos, pode-se derivar uma distribuição de probabilidade de modo que: (4) onde a é o número máximo de vértices vizinhos em. FIG. 2 mostra as distribuições de graus das redes benignos e câncer. pode ser utilizado para caracterizar uma rede [9], [42], [53] – [55], e tem sido mostrado para ser livre de escala e seguem uma distribuição lei de potência para diferentes tipos de redes biológicas [42], [ ,,,0],53] – [55]. distribuições de-lei de potência dos graus também pode ser visto na Fig. 2. Aqui, usamos para calcular o

KLD

, que, portanto, denota como.

A distribuição de graduação para os dados benignos (superior) e os dados de câncer (em baixo). Para exibir razões que aparou o número de contagens em 300.

As distâncias presente outra rede de destaque invariável. Para um vértice a distância a todos os outros vértices é dado por (5) onde é o caminho mais curto entre os vértices e. Se deixarmos que seja a cardinalidade de todas as distâncias com o comprimento, então a distribuição distância de acordo é dado como (6), onde é o número de caminhos. Nós vemos que . Note-se, que é o diâmetro, que é o máximo dos caminhos mais curtos entre todos os pares de vértices. As distribuições de distâncias para as redes é apresentado na Fig. 3. Nós empregamos as distribuições distância das redes incluídos, a fim de quantificar a distância entre as duas redes, que é denotado como.

As distribuições de distância para os dados benignos (superior) e os dados de câncer (em baixo).

Enquanto que para as três medidas de distância que apresentamos acima da rede completa, sem ligação foi analisado, agora apresentam duas medidas de distância que trabalham em apenas gráficos conectados. Isto significa que temos de inferir o maior subgráfico conectado de cada rede e aplicar as duas medidas de distância para eles. A terceira distribuição que incluímos em nosso

KLD

medidas de distância baseados é baseada em probabilidades de vértice [56]. A probabilidade vértice atribui um valor de probabilidade a um vértice, fazendo uso de um chamado vértice funcional [56] 🙁 7) Vemos isso. Neste trabalho utilizamos o seguinte vértice funcional [56] 🙁 8) O número de vértices na esfera -ésima é dada para cada vértice como [56]. Vemos que é baseado nas propriedades métricas de gráficos [57]. Aqui, deixamos os factores de ponderação diminuir de forma exponencial. Isto permite-nos destacar os vértices bastante perto, como eles são, provavelmente, mais forte efectuada por informações que se espalha a partir de [56].

Finalmente, usamos uma distribuição que pode ser calculado usando o conteúdo de informação topológica baseada em órbitas de vértice [58], [59]. Uma órbita contém topologicamente vértices equivalentes [58], e fornece informações sobre o número de vértices pertencentes à órbita vértice -ésimo [58]. Nós aqui determinar uma distribuição de probabilidade somando-se o número de órbitas que compartilham o mesmo número de vértices dentro de uma rede. Let Ser o número de órbitas contendo vértices. Se tem órbitas de vértice em seguida, obtém-se a distribuição órbita (9) Note-se, que, quando é a soma do número de órbitas que contêm o mesmo número de vértices. A informação sobre a distribuição dos vértices equivalentes topológicos em cada uma das redes pode então ser usado para combinar a informação de um conjunto de redes pelas. Nós nos referimos a isso como.

Com cada um destes quatro distribuições de probabilidade apresentados podemos abrangem vários aspectos das propriedades topológicas de nossas redes. A distribuição de probabilidade para se baseia em informações sobre como conectou os genes em cada uma das redes são. Informações sobre as distâncias entre os genes de comunicação é reflectida pela distribuição que é usado em. baseia-se uma distribuição de probabilidades que descreve a difusão das informações em uma rede, enquanto que a distribuição de probabilidades em reflecte equivalência topológica de vértices. A Tabela 2 resume as medidas de distância ocupadas. Depois de ter introduzido o nosso aparato formal, calculamos as distâncias e protótipo gráfico para os dois grupos de amostras (benignos e câncer). Para os cálculos e análises estatísticas que fazem uso da programação estatística linguagem R (https://www.r-project.org). As distribuições de probabilidade para calcular e são calculados usando o pacote QuACN [60].

Resultados

A tabela 3 fornece um resumo das distâncias médias para as cinco medidas de distância e os dois grupos . Ao calcular o vemos que a distância média para as seis redes varia entre no grupo benigna, e de a para as redes sete no grupo de cancro. Os valores médios são (benigno) e (câncer). FIG. 4 fornece uma ilustração de todos os únicos distâncias de uma rede para todos os outros no mesmo grupo. Uma distinção entre a distribuição de entre o cancro e a amostra pode ser visto benigna. Para o grupo benigna, a rede que se baseia nos dados por Yu é seleccionado como protótipo gráfico, enquanto que para o grupo de cancro a forma de rede os dados Wang é seleccionado. A distância média para os dados Yu é e para os dados de Wang. A distância média específicas da rede das gamas de a para as redes de dados benignos, respectivamente, para que os dados de cancro da próstata. Os valores médios são (benigno) e (câncer). FIG. 5 visualiza os resultados. Os protótipos gráfico selecionado estão Yu (benignos), com uma distância média de e Wang (cancro), com uma distância média de. , Que se baseia na distribuição de distância dentro de uma rede, selecciona as redes a partir dos dados Singh (benignos) e dados de Wang (cancro) como protótipos gráfico. Os protótipos gráfico tem uma distância média de (benigno) e (câncer). As distâncias médias de uma rede para todos os outros nos mesmos grupos para cada conjunto são (benigno) e (câncer). Os resultados detalhados são descritos na Fig. 6. As redes de Yu (benigno) e Wang (câncer) são novamente selecionado como protótipos gráfico ao usar. O mínimo é o protótipo para gráfico benigna, respectivamente para o protótipo gráfico do cancro. Os valores médios são (benigno) e (câncer). As distâncias de uma rede para todas as outras redes dentro do mesmo grupo são ilustrados como boxplots em Fig. 7. Em conjunto com a presente representa os dois casos, em que a distância dentro dos dados de cancro é maior, então os dados dentro benignos. Para a medida com base nas órbitas as distâncias dos protótipos gráfico são para a rede Yu benigna e para a rede de cancro que é baseado nos dados de Wang. As distâncias médias são (benigno) e (cancro), como mostrado na Fig. 8.

Esta figura ilustra as distâncias de uma rede para todas as outras redes, com base no normalizada Graph Editar Distância

pGED

. Na parte esquerda que retrata as distâncias entre uma rede benigno e todas as outras redes benignos, enquanto que na parte direita que lista as distâncias para uma rede de câncer para todas as outras redes de câncer. As redes que são selecionados como protótipos gráfico são destacadas em cores diferentes (benigna = azul, câncer = marrom).

Aqui, mostramos as distâncias entre uma rede e todas as outras redes como boxplots, medida pelo a divergência Kullback-Leibler, que foi baseado no grau de distribuição. Na parte esquerda, mostramos os dados benignos e, na parte direita das distâncias a partir dos dados de câncer. Os protótipos de gráficos são realçadas.

Esta figura mostra as distâncias entre as redes como boxplots. As distâncias são com base na distribuição de distâncias entre os vértices e a divergência Kullback-Leibler. Na parte esquerda são as distâncias entre as redes benignas, e na parte direita das distâncias entre as redes de cancro.

Aqui, são apresentadas as distâncias com base na divergência Kullback-Leibler, com base na functionals esfera vértice. Na parte esquerda, mostramos as amostras benignas e na parte direita as distâncias para as amostras de câncer. Os protótipos de gráficos selecionados são realçados.

Esta figura ilustra as divergências Kullback-Leibler para as distribuições órbita de probabilidade. Na parte esquerda ele lista as amostras benignas, e na parte direita das amostras de cancro dos estudos.

Nossa principal hipótese é que existe uma diferença significativa entre as distâncias no grupo de câncer de amostras e as distâncias no grupo de amostras benignas. Para testar esta hipótese nós utilizamos um teste de Wilcoxon (ver Tabela 4) para cada uma das cinco medidas de distância sobre o conjunto de distâncias das amostras de câncer e as amostras benignas. Nós corrigir para testes múltiplos com o método de Bonferroni. ,, Exibem uma diferença significativa (), como pode ser visto na Tabela 4. O observados resultados apoiam a hipótese, consulte boxplots nas figuras relacionadas.

Para detectar padrões dentro do conjunto de distâncias que empregamos clustering. Portanto, normalizar o resultado de cada medida de distância, sem as informações do grupo. Isto é feito para cada medida de distância separadamente, de modo que o mínimo de cada medida de distância é definida como o máximo e a. Em seguida, aplicar agrupamento hierárquico. Para cada rede, temos um vector característico, que consiste na distância média para todas as outras redes para cada um dos cinco medidas de distância utilizados. Assim, para o agrupamento geral, temos uma matriz com 5 linhas e 13 colunas. O mapa de calor correspondente, utilizando a distância euclidiana e ligação completa, está representado na Fig. 9. Nós também aplicado ligação média como função de agrupamento, que levam ao mesmo resultado. Por isso, consideramos o resultado observado tão estável com relação a essas duas funções de ligação. Os resultados mostram que três das redes de cancro (Tsavachidou, Wallace, Singh, Liu) formam um agrupamento separado, enquanto que todas as outras redes estão agrupados em conjunto. No segundo grupo, observamos que três das redes de câncer (Chandran, Wang e Yu) aglomerado de perto para três redes benignos (Yu, Singh, Tsavachidou).

Nós aqui mostram a distância média de uma rede para as outras redes dentro do mesmo grupo (benigna ou câncer). Para agrupamento nós então omitido as informações do grupo. Eu acrescento de forma independente as informações do grupo como barras castanhas (câncer) e barras azuis (benigno).

Com base nos resultados da prototipagem gráfico que seleccionar a rede a partir dos dados Yu como protótipo gráfico para a benigna set, e a rede a partir dos dados Wang como protótipo gráfico para o conjunto de cancro. Para a análise das propriedades topológica das redes investigamos os genes do cubo. A distribuição dos 15 graus cubo principalmente ligados é mostrado na Tabela 5. Observa-se que os principais genes do cubo na rede do cancro são muito menores do que aqueles na rede benigna. Isto está de acordo com resultados conhecidos para os quais aplicados contagem borda voto para a análise de rede integrada [19]. Nesse estudo também observamos bastante pequenos graus na rede câncer comum. Uma desregulação dos genes do cubo, associada com o ciclo celular, podem desempenhar um papel importante no desenvolvimento de uma forma agressiva do cancro da próstata [61]. Semelhante a outras redes de escala livre [62], [63], redes biológicas podem ser vulneráveis ​​a ataques contra um dos poucos genes hub central. No entanto, demonstrou-se recentemente que os genes cubo não necessariamente qualifica como sendo frágeis, e que outras medidas para esta propriedade pode ser mais apropriado [64]. Analisando as distâncias entre os vértices permite caracterizar os processos de comunicação em uma rede biológica. Portanto, vamos explorar as distâncias entre os vértices nos dois protótipos gráfico. Por definição, a excentricidade de um vértice é o máximo dos caminhos mais curtos a partir de todos os outros vértices. Para o gráfico benigna protótipo a maioria dos vértices tem um dos, enquanto que para o protótipo gráfico cancro da maioria dos vértices tem um de 1. Nós comparamos as distribuições de excentricidade das duas redes com um teste de Kolmogorov-Smirnov, que resulta em uma altamente significativa diferença (). Uma outra característica interessante é a rede diâmetro da rede, que é o valor máximo de todos. Para os dois protótipos gráfico os diâmetros são 17 (benigna) e 12 (câncer).

Deixe uma resposta