PLOS ONE: Votação-Baseado Cancer Module Identificação Ao combinar topológica e Data-Driven Properties

Abstract

Recentemente, abordagens computacionais integrando aberrações no número de cópias (CNAs) e expressão genética (GE) têm sido extensivamente estudadas para identificar genes e vias relacionadas ao câncer. Neste trabalho, nós integrar estes dois conjuntos de dados com a interação proteína-proteína (PPI) informações para localizar módulos funcionais relacionadas ao câncer. Para integrar os dados da CNA e da GE, primeiro construiu uma rede de relacionamento gene-gene de um conjunto de genes de sementes, enumerando todos os tipos de correlações entre pares, por exemplo, GE-GE, CNA-GE, e CNA-CNA, ao longo de vários pacientes. Em seguida, propomos um algoritmo de identificação do módulo do cancro com base de votação através da combinação de propriedades topológicas e orientadas a dados (algoritmo VToD) usando a rede de relacionamento gene-gene como uma fonte de informação orientado a dados, e os dados do PPI como a informação topológica. Nós aplicamos o algoritmo VToD a 266 glioblastoma multiforme (GBM) e 96 carcinoma do ovário (OVC) amostras que têm tanto a expressão e copiar as medições numéricas e identificou 22 módulos GBM e 23 módulos OVC. Entre 22 módulos GBM, 15, 12, e 20 módulos foram significativamente enriquecida com percursos KEGG, BioCarta relacionadas com o cancro, e GO termos, respectivamente. Entre 23 módulos OVC, 19, 18 e 23 módulos foram significativamente enriquecida com percursos KEGG, BioCarta relacionadas com o cancro, e GO termos, respectivamente. Da mesma forma, observamos também que 9 e 2 módulos GBM e de 15 e 18 módulos OVC foram enriquecidos com censo gene do cancro (CGC) e genes específicos do driver de câncer, respectivamente. Nosso algoritmo de detecção de módulo proposto superou significativamente outros métodos existentes em termos de ambos os conjuntos enriquecimentos e funcionais do gene do cancro. A maioria das vias relacionadas ao câncer de ambos os conjuntos de dados de câncer encontrados em nosso algoritmo continha mais de dois tipos de relações gene-gene, mostrando uma forte correlação positiva entre o número de diferentes tipos de relacionamento e -Valores enriquecimento CGC (0,64 para GBM e 0,49 para OVC). Este estudo sugere que os módulos identificados contendo ambas as mudanças de expressão e CNAs pode explicar as atividades relacionadas com o cancro com maiores perspectivas

Citation:. Azad AKM, Lee H (2013) Baseado em votação Cancer Module Identificação Ao combinar topológica e Data- Propriedades conduzido. PLoS ONE 8 (8): e70498. doi: 10.1371 /journal.pone.0070498

editor: Dongxiao Zhu, Wayne State University, Estados Unidos da América

Recebido: 09 de novembro de 2012; Aceito: 19 de junho de 2013; Publicação: 05 de agosto de 2013

Direitos de autor: © 2013 Azad, Lee. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho (No. 2011-0029447) foi apoiado pelo Programa Pesquisador Mid-carreira através de um subsídio da Fundação Nacional de Pesquisa financiada pelo Ministério da Educação, Ciência e Tecnologia. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O cancro é uma doença genética comum e uma das principais causas de mortalidade no mundo. genômica do câncer identifica alterações de genes que desempenham papéis importantes na iniciação e progressão do câncer. Décadas de pesquisa revelaram que o câncer está intimamente relacionado com alterações anormais em vias regulatórias e de sinalização durante o seu crescimento e malignidade [1], [2]; tais desregulações em vias principais ocorrem devido a combinações de alterações genéticas e as alterações de expressão de oncogenes ou genes supressores de tumor [3] – [5]. Por isso, muitos algoritmos foram desenvolvidos para identificar vias relacionadas ao câncer [6] – [9]. Utilizando DNA CNAs, mudanças GE, IPP, e assim por diante

usos extensivos de GE para estudar vias moleculares têm ajudado na classificar subtipos de câncer, predizer o prognóstico e desenvolvimento de medicamentos para o câncer. No entanto, usando apenas os dados da GE para a identificação de genes relacionados com o cancro não é suficiente, porque alguns genes importantes vias relacionadas ao câncer não pode ser diferencialmente expressos e alguns genes diferencialmente expressos pode não ser relevante para o câncer. CNA são variações estruturais de sequências de ADN que representam cópias anormais de segmentos de DNA na forma de uma deleção ou amplificação na célula [10]. CNAs são conhecidos por ser uma marca do câncer, e métodos, incluindo GISTIC [11], RAE [12], e WIFA [13] têm sido usados ​​para detectar genes do cancro do driver em regiões genômicas aberrantes. Uma análise recente em larga escala de amostras GBM a partir do genoma do atlas do cancro (TCGA) [8] mostrou alterações genéticas incluindo mutações, deleções, e amplificações de ADN em 78%, 87%, e 88% de 206 amostras de GBM dos componentes principais de RB, TP53, e as vias RTK /PI3K, respectivamente.

Vários estudos têm relatado recentemente a importância de integrar CNAs e GE conjuntos de dados para a identificação de vias relacionadas ao câncer. TCGA investigação sobre o cancro do ovário mostraram que as alterações genéticas e expressão do gene alterações ocorrem simultaneamente na via de sinalização do retinoblastoma [14]. Jörnsten

et al.

[15] desenvolveu um modelo que explica os efeitos do CNAs na GE em uma rede de grande escala. Com base no modelo, escores prognósticos foram calculados e foram identificados genes relacionados ao câncer. Akavia

et al.

[16] empregou uma abordagem bayesiana integrativo para identificar biologicamente e terapeuticamente genes importantes de drivers em regiões geneticamente alterados pela associação de genes motorista candidato com genes diferencialmente expressos. Eles aplicaram o método proposto para um conjunto de dados melanoma e genes do piloto identificados no melanoma, juntamente com genes de driver de câncer de novos TBC1D16 e RAB27A. Um progresso importante na combinação de CNAs e GE está analisando genes como um módulo ao invés de genes individuais. Witten

et al.

[17] aplicada análise de correlação canônica para a integração de CNAs e GE. Este método liga módulos CNA com módulos GE e otimiza as interações CNA-GE.

Na construção de módulos ou sub-redes, os IPP têm sido usadas como informação prévia para incorporar conectividade entre os genes. Cerami

et al.

[9] propôs um método para a construção de sub-redes que contêm um número significativo de genes mutados usando PPIs humanos e identificar caminhos que estão relacionados com GBM. Chuang

et al.

[6] propôs uma abordagem de IBP integrando e GE conjuntos de dados para identificar marcadores de sub-rede que classificam metastáticos e não-metastáticos tumores.

Propomos um quadro computacional para incorporar CNA -CNA, CNA-GE e GE-GE relações com a rede de interação de proteínas para identificar os módulos relacionados com o cancro em que as mudanças genéticas de genes são explicados por essas relações. Embora a relação GE-GE tem sido estudada há décadas [18] – [20], CNA-CNA [21] – [23] e CNA-GE [7], [24] – [27] relacionamentos só recentemente foram estudados . Observa-se que as amplificações e deleções de segmentos de ADN podem afectar os níveis de expressão de genes no mesmo local, bem como genes localizados remotamente [25]. Esta associação trans-localizado entre CNA e GE pode ser um dos mecanismos que explicam relações complicadas entre os genes na sinalização e vias reguladoras. Para incorporar essas relações complexas, construímos uma rede de relacionamentos gene-gene usando o número alterado genes diferencialmente expressos e significativamente exemplar em conjuntos de dados emparelhados, contendo tanto os dados de ADN e ARN sobre o mesmo conjunto de pacientes. Então, nós também incorporar informações PPI para explorar dependências funcionais anteriores entre genes. Nós usamos uma abordagem de votação para encontrar genes representativas, que estão fortemente relacionados com outros genes através de associações entre CNAs, GE, e PPIs. Estes genes representativos são usados ​​para construir pré-módulos através da inclusão de genes fortemente relacionados. Em seguida, pré-módulos são mescladas com outros pré-módulos que têm associações estatisticamente significativas através CNAs, GE e relacionamentos PPI e módulos finais são gerados.

A abordagem proposta foi aplicada a GE e CNAs de dados de GBM e as amostras OVC de TCGA para identificar módulos relacionados com o cancro. Os módulos identificados foram avaliados em dois aspectos: a sua coerência funcional e relevância para o câncer. Para testar se os módulos são compostos de genes funcionalmente coerentes, foram aplicados testes de enriquecimento funcionais usando KEGG [28], as vias BioCarta [29], e GO processo biológico [30]. Para testar se os módulos gerados estão relacionados ao câncer, foi selecionado primeiro vias relacionadas com o cancro a partir destas três categorias de vias. Uma vez que ainda não há consenso sobre quais caminhos ou termos funcionais estão relacionados ao câncer, consideramos que um caminho está relacionada ao câncer, se for significativamente enriquecida com genes relacionados com o cancro de um censo gene do cancro (CGC) [31]. Em seguida, foram aplicados testes de enriquecimento por estas vias relacionadas ao câncer. Nossos resultados mostraram que as vias relacionadas ao câncer foram enriquecidos com nossos módulos identificados em ambos os conjuntos de dados GBM e OVC, e que um número significativo de genes nos módulos foram associados com os outros através CNA-CNA, CNA-GE, e as relações GE-GE .

resultados

um quadro para a combinação de propriedades topológicas e Data-Driven

Nós desenvolvemos a abordagem VToD para a construção de módulos que são compostos de um conjunto de funcionalmente coerente e Câncer genes relacionados. VToD foi desenvolvido com base em quatro ideias principais; (i) genes com perfis de expressão de genes semelhantes, e as alterações no número de cópias é mais provável de estar no mesmo módulo, (ii) os genes podem ser divididos em vários módulos de modo a reflectir o conhecimento biológico que alguns genes estão envolvidos em várias vias, (iii) genes numa curta distância na rede PPI é mais provável que pertença ao mesmo módulo, e (iv) os genes de hub da rede PPI são mais susceptíveis de ser incluídas nos módulos de uma vez que muitos genes de cubo tendo um grande número de parceiros interactuantes pode contribuir para o desenvolvimento do câncer. As duas primeiras ideias considerar as propriedades controladas por dados e os dois últimos reflectir propriedades topológicas dos genes dentro da rede de PPI.

O diagrama esquemático do nosso método VToD proposto é mostrado na Figura 1. VToD constrói um relacionamento gene-gene rede, através da integração da GE e da CNA conjuntos de dados, onde é um conjunto de genes de sementes e é um conjunto de relações gene-gene. genes de sementes são seleccionados através da combinação de genes diferencialmente expressos (DE) e os genes onde os genes, CNA CNA são obtidos a partir de [14], [8] TCGA, e listados na Tabela S1. Para GBM, 4.821 genes sementes foram selecionados através da combinação de 2.976 genes DE e 2.073 genes CNA. Para OVC, 6.649 genes sementes foram construídas por 710 genes DE e 6.510 genes CNA. Note-se que alguns genes de sementes são ambos diferencialmente expressos e copiar o número alterado. As relações gene-gene foram construídos, em que dois genes têm forte correlação em pelo menos um dos três tipos de relações: GE-GE, CNA-GE, e CNA-CNA. Então, VToD integra um conjunto com a rede de relacionamento gene-gene

GGR

dados de PPI, seguindo quatro etapas principais.

expressão dos genes (a) e seus dados CNA emparelhados são coletados. (B) A rede de relacionamento gene-gene,

GGR

, é construído usando relações directas e indirectas de GE-GE, CNA-GE, e CNA-CNA. (C) Um novo algoritmo, VToD, encontra sobreposição módulos que combinam a

GGR

redes e da informação PPI. (D) enriquecimentos funcional e de gene do cancro conjunto são testados para módulos identificados

Calcule a associação entre genes:.

Para cada dois genes e, um valor de associação do gene à gene é calculada por combinação do relacionamento gene-gene e o conjunto de dados de PPI. O valor associação é chamado de – neste estudo, uma vez que assumimos que os votos de genes para o gene para representar a força da associação entre dois genes

Selecionar genes representativos de cada gene:

Para. gene, voto valores de todos os outros genes são classificados em ordem decrescente, e os genes localizados no topo% dos valores de voto são selecionados como os genes representativos do gene.

formulário de pré-módulos :

Se um gene é selecionado como um gene representante de vários genes, outros genes selecionando o gene como o gene representante junto com o gene em si formar um pré-módulo

Mesclar pré-módulos. :.

dois pré-módulos são mesclados se os membros de pares dos dois pré-módulos são altamente relacionados na rede relação gene-gene e estão intimamente ligados na rede PPI

o algoritmo VToD é inspirada por um sistema de transdução de sinal dinâmico (STM) algoritmo em que, para cada um dos genes, os genes mais associados são seleccionados para formar pré-módulos com base em somente a topologia PPI [32]. No entanto, a distinção clara fica entre STM e VToD no processo de (i) o cálculo da associação entre dois genes e (ii) a fusão pré-módulos, desde a nossa abordagem integra GE, CNAs e conjuntos de dados de PPI.

Os módulos construídos foram avaliados em dois aspectos; (I) medimos relevância funcional dos módulos identificados testando se genes em um módulo foram enriquecidos para KEGG, vias BioCarta, e os processos biológicos em termos GO (chamado teste de enriquecimento funcional), e (ii) que avaliou a relevância do módulos para o cancro através da aplicação de um teste de enriquecimento para as vias relacionadas com o cancro ou funções biológicas relacionadas com o cancro, que são subconjuntos das três categorias acima de vias /GO termos enriquecidos com genes relacionados com o cancro da CGC [31] (chamado de câncer via relacionada teste de enriquecimento). Além disso, testamos se os genes nos módulos identificados foram enriquecidos com genes de câncer de CGC, GBM genes do controlador [33], e genes relacionados com OVC [34]. Nessas avaliações, foram utilizadas as estatísticas hipergeométricas para o teste de enriquecimento.

Módulos do Algoritmo VToD

A distribuição de todos os relacionamentos gene-gene pares enumerados (GE-GE, CNA-GE, e CNA-CNA) entre os genes de sementes são mostrados na Figura S1, e as distribuições de todos os valores de voto de GBM e conjuntos de dados COV são mostrados na Figura S2. Uma vez que o número de pré-módulos depende dos valores% no Passo 2 do algoritmo VToD, tentámos três valores para examinar como os valores efeito sobre os pré-módulos construídos. Voto valores do top 1%, 0,25% e 0,1%, eventualmente, rendeu 100, 68, e 43 pré-módulos para GBM, e 138, 53, e 34 pré-módulos para OVC. Em seguida, foram aplicados os testes de enriquecimento funcionais e testes de enriquecimento via de cancro relacionados com a gerados usando os três valores de patamar acima-módulos pré. A Figura 2 mostra a fracção de módulos pré-enriquecidos; Embora muitas pré-módulos têm sobreposições significativas com vias conhecidas em todas as três limiares, pré-módulos de = 0,25% e 0,1% têm mais a sobreposição com as vias em comparação com = 1%, que mostra que os valores de voto superiores gerar maior fracção de funcionalmente relevante e câncer relacionado ao módulos.

(a) é para GBM e (B) é para OVC. As barras representam frações de módulos enriquecidos com KEGG, BioCarta, GO processo biológico, relacionado com o câncer relacionado ao câncer de KEGG, BioCarta, oncológicos GO processo biológico, e censo gene do cancro (CGC) por três limiares voto diferentes. Além disso, em cada caso, voto-valores foram calculados usando apenas propriedades topológicas, usando apenas as propriedades orientadas a dados, e combinando-os para comparar seus efeitos individuais sobre o desempenho. Os números de genes (NGS) em cada conjunto pré-módulo são mostrados correspondentemente.

Nós também testamos a importância de considerar ambas as propriedades topológicas e orientadas a dados para o cálculo de voto aos pares. Geramos pré-módulos usando as propriedades orientadas a dados única topológicas e apenas. Quando a propriedade única foi usada, o mesmo número de pares de genes foi seleccionado com a de pares de genes seleccionados através da combinação de ambas as propriedades para cada valor de. Em todos os três valores de limiar, a fracção de módulos funcionais enriquecidos foi maior quando as propriedades topológicos e controladas por dados foram combinados do que quando apenas uma única propriedade foi utilizada tanto para GBM e COV, como mostrado na Figura 2.

Nós escolhemos = 0,1% como um limite para posterior análise. Usando este limiar, para GBM, obtiveram-se 43 pré-módulos. Ao fundir estes pré-módulos, 22 módulos foram gerados, e o número médio de genes nos módulos foi 24. Para OVC, usando o mesmo limiar, foram gerados 34 pré-módulos e 23 módulos foram obtidas após a fusão pré-módulos, onde a média de número de genes é 57. Todos os genes nos módulos estão listados na Tabela S2 e S3 Tabela. A significância estatística dos módulos identificados é mostrado na Figura S3.

Uma vez que o algoritmo VToD permite múltiplas aparições de genes em vários módulos, calculou-se a proporção média de genes comuns entre os módulos. Para GBM, a relação do gene comum era 16,07%, o que foi semelhante aos das vias KEGG e BioCarta. Além disso, calculou-se a distribuição de proporções de genes comuns. Cerca de metade dos módulos tinha 10% dos genes em comum, o que indica que os módulos finais serão enriquecidos com vias distintas funcionais ou termos (Figuras S4A e S4B). Nós também investigou três tipos diferentes de relações diretas (GE-GE, CNA-GE, e CNA-CNA) entre os pares de genes dentro de cada uma dessas 22 módulos GBM (Figura S5A). Cerca de 64% dos módulos contidos, pelo menos, dois tipos de relações, mostrando (I) que os genes com a expressão de genes e no número de cópias de ADN alterações semelhantes são mais propensas a ser no mesmo módulo, e (ii) que a actividade dos genes em estes módulos identificados pode ser explicada por diferentes mecanismos moleculares (Tabela S4).

Durante 23 módulos OVC, a proporção média de genes comuns foi de 11,68%, o que também foi menor do que os de KEGG e BioCarta, e mais de metade dos 23 módulos OVC teve 10% de genes comuns (Figuras S4C e S4D). Cerca de 83% de todos os 23 módulos OVC (Figura S5b) continha pelo menos dois tipos de relacionamentos diretos.

módulos relacionados com o cancro identificados pelo algoritmo VToD para GBM.

Nós aplicamos funcional e câncer gene definir testes de enriquecimento a 22 módulos GBM. Descobrimos que 19 (86,36%), 14 (63,63%), e 20 (90,9%) módulos foram significativamente enriquecido (FDR -VALOR 0,05) com pelo menos um KEGG, BioCarta, ou ir termos, respectivamente, mostrando que os módulos são identificados funcionalmente coerente. Além disso, 15 (68,18%), 12 (54,55%), e 20 (90,9%) módulos GBM foram significativamente enriquecida com percursos KEGG, BioCarta relacionadas com o cancro, e GO termos, respectivamente. No caso de o teste conjunto de enriquecimento de gene do cancro, 9 e 2 módulos GBM teve sobreposição significativa (FDR -VALOR 0,05) com CGC [31] e genes relacionados com o GBM [33], respectivamente. Estes resultados mostram que os módulos estão relacionadas com o desenvolvimento do cancro. A Tabela 1 mostra o resumo dos cinco principais módulos selecionados ordenados por -Valores enriquecimento gene relacionados com o GBM; estes módulos contêm muitos genes relacionados com GBM. Todos os resultados de enriquecimento para o conjunto de dados GBM são mostrados nas Tabelas S4, S5, S6 e S7.

Foram selecionados Módulo GBM 2 a explicar em detalhe como os genes interagem com outros genes e estão envolvidos em vias biológicas em módulos. O hotel selecionado este módulo para mais explicações, uma vez que tem um -valor baixo enriquecimento com conjuntos de genes do câncer, e contém pares de genes com fortes correlações em três tipos de relacionamentos diretos. Este módulo contém 1.080 pares de genes de 48 genes, e entre eles havia 300 GE-GE, 9 CNA-GE e 8 relações diretas CNA-CNA. A Figura 3A mostra a vista de rede do Módulo 2 GBM apenas com relações diretas. Havia três tipos de bordas nesta rede: i) as bordas vermelhas para CNA-CNA, ii) bordas azuis para CNA-GE, e iii) bordas verdes para relacionamentos GE-GE entre dois genes. Genes pertencentes a vias enriqueceu significativamente /termos foram agrupadas. Informação de ADN CNA e /ou alterações de expressão de genes, também foram marcados com eles dentro de cada grupo. Frequências de alterações no número de cópias foram apresentados como uma percentagem de 206 amostras de GBM com qualquer amplificação focal ou deleção homozigótica em [8]. Para contar a fração de amostras de tumores com alterações de expressão de genes para, considerou-se que uma amostra de tumor é sobre ou sub-expressos se o valor na Equação (1) pertence ao top 10% dos valores de todas as amostras de tumores, onde está o valor da expressão de uma amostra do tumor e é a expressão média de todas as amostras de controlo para a. Com base nas distribuições de para GBM e conjuntos de dados OVC, 0,4 foi selecionado para GBM e 0,365 para OVC. (1)

(A) A tela de rede do Módulo GBM 2 usando relações única diretos, atraídos pela Cytoscape [ ,,,0],70]. Genes foram agrupados tendo por base a sobreposição com as vias BioCarta, e as porcentagens de amostras com alterações CNAs e GE são mostrados. genes CGC são coloridos em verde-oliva e genes GBM estão em roxo. Cytoband e Amp /Del (ou alteração de expressão Alterações) informações para CNA-CNA (ou CNA-GE) pares são mostrados na tabela de inserção. testes de enriquecimento (B) Caminho com percursos KEGG e BioCarta para este módulo são mostrados. barras azuis indicam os -Valores enriquecimento de caminhos e barras vermelhas indicam os -Valores sobreposição entre a via e genes motorista GBM. barras verticais pretas mostram limiar -valor, 0,05, e a largura das barras horizontais depende (-valor). (C) As barras vermelhas mostram o -valor sobreposição com genes motorista CGC e GBM.

Uma pesquisa da literatura manual fornecido provas de apoio para as relações directas no Módulo GBM 2. Genes em MAPK1-MAPK3, MAPK3- MAPK9 e MAPK1-MAPK9 pares estão envolvidos em várias vias de Câncer e afins-GBM, incluindo a sinalização MAPK, a sinalização ERBB, adesão focal e sinalização do receptor Toll-like. Em BRCA2-ENTR 1, ambos os genes desempenham papéis críticos no controle do ciclo celular [35], [36]; ING1 é um gene supressor de tumor e interage com TP53, e a sua sub-expressão e rearranjo genético ter sido observado em vários cancros, incluindo GBM [37]; e BRCA2, um gene supressor de tumores, tem sido recentemente alvo de sensibilização de células de glioma de morte por fármacos anti-cancro [38]. Em BTBD2-TEP1, TEP1 é um gene supressor conhecido GBM, e a deleção /mutação deste gene tem sido observada em muitos cancros, incluindo GBM [39]; polimorfismo de BTBD2 está envolvido na via de reparação de quebras de cadeia dupla que pode ser útil para a sobrevivência GBM [40]. Em ING1-HMGB1, ambos os genes estão localizados no cromossoma 13q, onde a perda do número de cópias foi relatada [41] – [43], sugerindo a co-ocorrem eliminação destes dois genes. Em APEX1-HIF1A e HIF1A-TEP1 ter a relação CNA-CNA, APEX1 e HIF1A interagir diretamente uns com os outros

in vitro

[44]; e, no GBM, copiar perda no número 14q11.1-q13.1, 14q23.2-q23.3, e 14q32.33, onde estes genes estão localizados, tem sido relatado por Donovan

et ai.

[45]. A relação entre 14q11.1-11.2 e 14q23.1-31.3 também são mostrados nas nossas constatações de relações CNA-GE (APEX1-BRCA1, BRCA1 de HIF1A, e BRCA1 de TEP1) no seio deste módulo. Em BTBD2-BARD1, BARD1 foi sugerida como um mediador de apoptose, desde a sua sobre-expressão induz a morte das células [46]; e alta LOH foi detectado nas metástases de carcinoma humano para o cérebro no cromossoma 19p13.3 para BTBD2 [47].

A Figura 3B mostra os testes de enriquecimento utilizando KEGG e BioCarta vias para os GBM módulo 2. Para encontrar GBM- vias relacionadas, nós também calculou as -Valores para o enriquecimento de genes relacionados com o GBM nestas vias, respectivamente. Na Figura 3B, o top 15 de 37 enriquecido KEGG eo top 15 de 49 vias BioCarta enriquecidos são mostradas para o Módulo GBM 2, juntamente com os seus -Valores sobrepostos correspondentes, ordenadas por esses -Valores. Módulo GBM 2 contém muitos anteriormente conhecido relacionado GBM-KEGG vias incluindo glioma, sinalização P53, a sinalização MAPK, a sinalização ERBB, sinalização mTOR, e sinalização de VEGF, e as vias BioCarta relacionadas com GBM, incluindo ATM, G2, G1, RB, P53, PTEN caminhos, e reuniu-se [48]. Módulo GBM 2 também é enriquecido com cancro relacionados com 40 KEGG, 48 vias BioCarta e 92 termos GO.

Nós também testamos a relevância do Módulo GBM 2 com câncer usando CGC e genes relacionados com GBM, como mostrado na Figura 3C. Módulo GBM 2 continha 10 genes CGC de TP53, BRCA1, BRCA2, DAX, DDX5, MDM2, MDM4, NPM1, TEP1, e WRN, resultando em um -valor de 1,0510, e genes relacionados 2-GBM de TP53 e TEP1, resultando em um -valor de 1,0210.

módulos relacionados com o cancro identificados pelo algoritmo VToD para câncer de ovário.

Entre 23 módulos OVC, 22 (95,65%), 18 (78,26%), 23 ( 100%), 15 (65,22%), e 18 (78,26% módulos) foram significativamente enriquecido (FDR -VALOR 0,05) com pelo menos um KEGG, vias BioCarta, GO termos, CGC [31], ou conjuntos de genes relacionados ao OVC [ ,,,0],34], respectivamente. Além disso, 19 (82,61%), 18 (78,26%) e 23 (100%) módulos OVC foram significativamente enriquecida com cancro relacionados com KEGG, BioCarta, e GO termos, respectivamente. A Tabela 2 apresenta o resumo de cinco módulos selecionados ordenados por -Valores enriquecimento de genes relacionados definir-OVC. Todos os resultados de enriquecimento para o conjunto de dados COV são mostrados nas Tabelas S8, S9, S10, e S11

investigado OCV Módulo 8 em detalhe, como mostrado na Figura 4.; ele contém 629 pares de genes de 37 genes, e entre eles havia 2 GE-GE, 28 CNA-GE, e 49 relações diretas CNA-CNA. No módulo OCV 8, par de genes STAT5b-STAT3 é activada no cancro do ovário [49], interage com o outro [50], e está envolvida em muitas vias, incluindo a sinalização JAK-STAT, sinalização RAS, Quimiocina sinalização, EGF, IL10, PDGF e vias de TPO. Em STAT5b-PRLR, ambos os genes estão envolvidos na sinalização de JAK-STAT, uma via de transdução do sinal com controlo de chave sobre a proliferação, diferenciação e sobrevivência de células mamárias [51]. Recentemente, tem sido mostrado que a PRLR e sua STAT5b jusante estão acetilados por proteína de ligação a CREB (CBP) [52]. Em EGF-STAT1 e EGF-STAT3, tanto gene pares estão envolvidos no câncer de pâncreas, EGF via e via de transdução de sinal; STAT1 e STAT3 ambos são activados pela quinase Jak em resposta a EGF [53] – [55], em que é necessária a sinalização JAK2 /STAT3 para o cancro do ovário impulsionado-EGF [55]. Em PIK3R1-IGF1R, estes genes interagem um com o outro [56] e está envolvida em muitas vias funcionais, incluindo o IGF-1, do IGF1R, de HDAC, BAD, IGF1MTOR, e vias de adesão focal. Em ERBB2-STAT, esses genes estão envolvidos no câncer e de transdução de sinal vias pancreáticas; a correlação entre a activação da STAT3 ErbB2 e tem sido observada em muitos tumores humanos [57], [58]. Em ERBB2-STAT5b, ambos os genes interagem com JAK2 [59], [60] e está envolvido na sinalização e vias de transdução de sinal de erb B. Em EGF-ErbB2, estes genes interagem directamente uma com a outra [61] e que estão envolvidas em muitos cancros, incluindo pâncreas, do endométrio, próstata, bexiga e cancro do ovário. Eles também estão envolvidos em erbB e vias de adesão focal. Em HRAS-Fyn, estes genes interagem uns com os outros

In vitro

[62] e está envolvida em muitas vias, tais como a adesão focal, axon orientação, a sinalização do receptor de células T, e a sinalização epsilon RI FC, ECM , vias de TCR, e integrina.

(A) Uma visão rede de OVC Módulo 8 usando relações única diretos. genes CGC são coloridos de genes oliveiras e afins-OVC estão em roxo. (B) Os testes Testes de enriquecimento Pathway foram semelhantes aos da Figura 3 (B), mas aqui, as barras vermelhas indicam -Valores sobreposição entre a via e genes relacionados-OCV. (C) As barras vermelhas mostram os -Valores que se sobrepõem com os dos genes relacionados com OVC CGC- e.

O top 15 de 37 enriquecido KEGG e top 15 de 59 vias BioCarta enriquecidos são também mostrados para OVC Módulo 8 na Figura 4B. Ele inclui a conhecida vias KEGG relacionados-OVC, tais como adesão focal, a sinalização de JAK-STAT, sinalização ERBB, interacção com o receptor de citocina por citoquina, a sinalização da quimiocina e sinalização de VEGF, e vias BioCarta relacionados-OVC, tais como sinalização AKT, IL6, RAS vias EGF, IGF1, PDGF, VEGF, CXCR4, HER2 e [34]. Nós também testamos a relevância do Módulo OVC 8 ao câncer. Módulo OVC 8 foi enriquecido com 39 KEGG, 58 vias BioCarta, e 49 termos GO, que eram subconjuntos relacionadas ao câncer das vias /termos originais. Além disso, como mostrado na Figura 4C, o Módulo de COV 8 continha 7 genes CGC (PTPN11, AKT1, ERBB2, FoxO1, HRAS, LIFR, e PIK3R1) com um -valor de 2,0810 e 6 genes relacionados-OCV (EGF, EphA2, ERBB2 , PIK3R1, STAT3, e VEGFA) com um -valor de 5,2310. Estes resultados sugerem que nossos módulos identificados a partir dos dados OVC definir representam vias relacionadas ao câncer.

Comparando VToD com outros métodos

A Tabela 3 mostra comparações de desempenho entre o nosso algoritmo VToD proposto e outros métodos de agrupamento usando conjuntos de dados GBM e OVC; quando em comparação com estes algoritmos, um teor mais elevado de módulos VToD foram funcionalmente enriquecida do que os módulos de outros algoritmos. Embora o enriquecimento funcional Módulos de DFM-CIN é comparável aos dos VToD, VToD identificada uma fracção mais elevada de módulos encriched com vias relacionadas com o cancro do que o DFM-CIN. Note-se que, uma vez que os algoritmos foram projetados para diferentes tipos de dados, eles foram comparados usando tipos de dados no artigo original. Para um método de agrupamento hierárquico, GE, CNAs e PPI conjuntos de dados foram integrados

agrupamento hierárquico:. Para encontrar módulos pelo algoritmo de agrupamento hierárquico, convertemos nossa rede de relacionamento gene-gene em uma matriz de distância usando a sobreposição métrica topológica [63] da ferramenta WCGNA na suíte computacional R. Esta matriz de distância foi então usado para agrupamento hierárquico com a ligação média. O dendrograma do cluster foi cortado por um [64] algoritmo dinâmico de corte de árvore, finalmente produzindo 216 módulos quando o conjunto de dados GBM foi usado. Foram aplicados testes de conjunto de enriquecimento e funcionais do gene do cancro com estes 216 módulos. Encontrámos 14, 0 e 13 módulos que tenham sobreposições significativas com percursos KEGG, BioCarta, e ir termos, respectivamente, e 4, 0 e 4 módulos enriquecido com subconjuntos relacionadas ao câncer de KEGG, BioCarta, e GO termos, respectivamente. Além disso, 5 e 1 módulos foram enriquecidos com CGC- e genes relacionados com o GBM (Tabela S12). A Tabela 3 mostra o desempenho comparativo entre agrupamento hierárquico e algoritmos VToD, mostrando que VToD identificados mais módulos enriquecido com pathway do que o algoritmo de agrupamento hierárquico (Tabela S13). Além disso, a Figura S6A mostra o gráfico de caixa da CGC e GBM gene motorista -Valores enriquecimento, indicando enriquecimentos do gene do cancro mais elevadas em comparação com VToD agrupamento hierárquico. Além disso, os gráficos de pizza na Figura S6B mostram diferentes combinações de três tipos de relações diretas (CNA-CNA, GE-CNA, GE-GE). Aqui, VToD produziu uma fração maior de módulos contendo mais de um tipo de relações directas em comparação com agrupamento hierárquico.

Cerami et. al .: Cerami

et al.

[9] desenvolveram um algoritmo para integrar números de ADN de cópia, mutação somática, e conjuntos de dados PPI, e aplicou-a 84 dados TCGA GBM [8].

Deixe uma resposta