PLOS ONE: top: um procedimento Tendência-de-Doença de progressão funciona bem para a identificação de genes do cancro da Coorte Gene Multi-estado de dados de expressão para colorretal humano Cancer

Abstract

genes significativamente expressas extraídas de expressão do gene microarray dados têm provado ser muito útil para a identificação de biomarcadores genéticos de doenças, incluindo câncer. No entanto, derivando uma doença relacionada inferência a partir de uma lista de genes diferencialmente expressos provou ser menos simples. Em sistemas de uma doença, tal como cancro, como os genes interagem uns com os outros devem importa tanto quanto o nível de expressão do gene. Aqui, em uma nova abordagem, usamos a rede e doença propriedades de progressão de genes individuais em redes de interação gene-gene específico do Estado (GGINs) para selecionar genes do cancro para o cancro colorectal humano (CRC) e obter uma taxa de sucesso muito maior de conhecidos genes do cancro, quando comparado com métodos não baseados na teoria de rede. Construímos GGINs integrando dados de microarranjos de expressão gênica de vários estados – controle saudável (NOR), adenoma (ADE), doença inflamatória intestinal (DII) e CRC – com banco de dados de interação proteína-proteína e Gene Ontology. Nós rastreados alterações nos graus de rede e coeficientes de agrupamento de genes individuais nas GGINs como o estado de doença mudou de um para outro. Destes nós inferir as sequências do Estado Nor-Ade-CRC e Nor-IBD-CRC ambos exibindo uma tendência de (doença) progressão (TOP) para CRC, e concebeu um procedimento superior para selecionar genes do câncer de CRC. Dos 141 candidatos seleccionados usando top, ~ 50% tinham suporte literatura como genes do cancro, em comparação com atingiu taxas de 20% a 30% para os métodos convencionais, utilizando apenas dados de expressão de genes. Entre os genes do câncer de 16 candidatos que codificam fatores de transcrição, 13 eram conhecidos por ser tumorigénico e três eram romance: CDK1, SNRPF e ILF2. Foram identificados 13 dos 141 previstos genes do cancro como marcadores candidatos para a detecção precoce do CRC, 11 e 2 para os estados Ade e IBD, respectivamente

Citation:. Chung FH, Lee HH-C, Lee HC (2013 ) para cima: um procedimento Tendência-de-doença de progressão funciona bem para a identificação de genes do cancro da coorte Gene multi-State dados de expressão para o cancro colorectal humano. PLoS ONE 8 (6): e65683. doi: 10.1371 /journal.pone.0065683

editor: Frank Emmert-Streib, University Belfast da rainha, Reino Unido

Recebido: 04 de dezembro de 2012; Aceito: 26 de abril de 2013; Publicação: 14 de junho de 2013

Direitos de autor: © 2013 Chung et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo Conselho Nacional de Ciência (ROC) concede NSC 100-2911-I-008-001 (para o Centro de Dinâmicos Biomarkers e Translational Medicine, Universidade Nacional Central) e NSC 99-2911-I-008-100, eo Cathy general Hospital-Universidade Nacional Central Grant 99CGH-NCU-A3. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o câncer colorretal (CCR) é a quarta principal causa de morte por câncer em todo o mundo, mas a classificação mais elevada nas sociedades economicamente mais desenvolvidas. Como outros tipos de cancro, CRC é uma doença de sistemas, um manifesto de várias perturbações funcionais nas células tumorais. expressão gênica global de perfil usando DNA microarrays oligoméricos tem sido amplamente utilizada para obter insights nos mecanismos subjacentes para doenças complexas, incluindo CRC [1], [2]. Estudos anteriores sobre os perfis de expressão de genes têm proporcionado perspectivas distintas sobre a etiologia molecular de CRC [3] – [6]. A sobreposição entre assinaturas publicada do gene a partir de diferentes estudos para CRC tenderam a ser pequenas. Logo no início, foi reconhecida a identificação de genes expressos diferencialmente (degs) em duas amostras de coorte foi uma abordagem potencialmente útil [7] – [9]. Desenhar uma inferência a partir de uma longa lista de degs No entanto, é uma tarefa difícil e pode levar a resultados muito diferentes [10]. análise de conjuntos de genes, um método baseado no

priori

informações biológicas tais como Gene Ontology (GO) e Enciclopédia Kyoto de genes e genomas (KEGG) em módulos que são funcionalmente anotada [10], encontra-se parcialmente o desafio. A justificação para esta abordagem, que agrupa degs em subconjuntos funcionais usando GO ou KEGG (ou algo equivalente), deriva da observação de que a maioria dos genes funcionam como parte de um grupo e não isoladamente [11]. No entanto, porque os perfis genômicos do mesmo coorte são conhecidos por serem altamente heterogêneo, conjuntos de genes pré-agrupadas podem não refletir o agrupamento real em uma coorte em estudo. Além disso, a maioria dos genes humanos ainda não foram atribuídos um caminho definido ou complexo de proteínas [12].

Várias causas do CRC foram revelados, mas a paisagem global de características dinâmicas dos processos de carcinogênese ainda não está claro. interações proteína-proteína (IBP) são fundamentais para os processos biológicos e redes de interação de proteínas (PINs) proporcionar uma visão global ainda estática de mecanismos celulares na célula. características dinâmicas de PINs podem ser descobertos através da integração de perfis de expressão gênica dados de PPI [13]. Os genes com níveis de expressão mais correlacionadas diferentes estados fisiológicos ou mais indivíduos de uma coorte são susceptíveis de ser envolvido em funções semelhantes ou processos celulares. Por exemplo, genes regulados por um factor de transcrição comum deverão ter expressão dos genes correlacionados. Uma rede interacção gene (GGIN) construído por integração de dados de expressão de genes com os dados de PPI destina-se a um mapa de interacção de moléculas biológicas que indicam relações co-reguladoras, as associações co-expressão, interacção física a jusante entre as proteínas codificadas pelas “interacção” genes e, possivelmente, outras relações entre genes [14]. Muitos métodos que empregam, por exemplo, coeficiente de correlação [15], [16], de informação mútua [17], [18], recozimento simulado [19], e reverter abordagens de engenharia [20], [21] têm sido aplicados para re- construir GGINs para dados de expressão gênica em larga escala em organismos modelo, incluindo leveduras e humana. Vários estudos demonstraram a extração de propriedades dinâmicas de redes de condições específicas, integrando os padrões de co-expressão do gene e proteína interações físicas [13], [22], [23].

Com o câncer ser uma doença de sistemas, sistêmica alterações em uma célula cancerosa durante a progressão do cancro são esperados para mensurável manifesto em que ocorrem alterações nos GGINs construídos a partir de dados obtidos em diferentes estados de doença. mutações do gene uma importante causa de cancro está em série acumulados [24]. rastreios sistemáticos recentes de genomas do câncer revelaram um número significativo de genes funcionalmente heterogéneas, ou hubs, que são mutado em tumores colorretais [25] – [27]. Como os genes do cubo são importantes para a função de uma célula, assumiu-se que uma alteração no estado de um gene cubo tinham uma probabilidade mais elevada do que um gene em média reflectindo uma alteração funcional interrompido na célula. Assim, um gene cubo num estado normal, que se tornou um gene não-cubo deve ter uma maior probabilidade de que reflecte uma perda associada à doença em função das células, enquanto que o oposto pode reflectir um aumento na função da célula.

Aqui , construímos GGINs para os quatro estados fisiológicos – normais (NOR), adenoma colorrectal (Ade), doença inflamatória do intestino (DII), e CRC – integrando os dados de expressão genética a partir de quatro conjuntos de microarrays coorte com Proteína Humana banco de dados de referência correspondente (HPRD ) [28]. Em um determinado estado, foram assumidos dois genes “interagir” Se há intensidades de expressão foram altamente correlacionados e se proteínas codificadas pelo par eram conhecidos para interagir. Usando os GGINs construímos, eu inventei superior (tendência de progressão) procedimento, pelo qual genes cujos graus e coeficientes de agrupamento [29] em GGINs mudou em sintonia com a tendência da progressão do cancro, ou genes que não são centros de conexões em Nor rede, mas tornam-se centros de conexões em rede CRC, foram selecionados como os genes do câncer potencialmente.

foi aplicado o procedimento de cima para as sequências de estado nem-Ade-CRC e Nor-IBD-CRC e genes selecionados com significância estatística (permutação teste

p -valor

0,001) semelhantes aos obtidos por métodos convencionais como eBayes e SAM. No entanto, os genes selecionados por Top teve uma taxa de sucesso muito maior (~ 50%,

p

-valor 0,001) de genes de câncer conhecida do que as taxas de sucesso obtidos por eBayes e SAM (~ 20%,

p

-valor ~ 0,5). Porque destacados baseado a sua análise nos dados de uma seqüência de estados, que também é usado para identificar potenciais biomarcadores para a detecção de diagnóstico precoce do CRC na Ade e nos estados IBD.

Materiais e Métodos

amostras e microarrays

dados fornecidos pelo grupo Gyorffy [30] no perfil de expressão de genes do genoma de amostras de tecido de 53 pacientes humanos avaliados por HG-U133 mais 2,0 microarrays plataforma (Affymetrix, Santa Clara), que lista 18,267 genes, foram baixados da Gene Expression Omnibus (GEO) do banco de dados (acesso GEO não. GSE4183). As matrizes foram feitas a partir de tecidos dos pacientes agrupados em quatro estados fisiológicos da biópsia do cólon congelados: 8 para Nor, e 15 cada uma para Ade, IBD e CRC, respectivamente. biópsias de cólon foram tomadas durante a intervenção endoscópica de rotina antes do tratamento [31]. A precisão dos valores de expressão de microarray foram validados por RT-PCR TaqMan de ensaio [30]. As análises dos dados de microarray realizadas neste trabalho foram realizados em ambiente R (versão 2.12.0).

Seleção de degs significativas

genes significativamente expressas foram selecionados utilizando a análise da significância do algoritmo de Microarrays ( SAM) [9] e one-way análise de variância (ANOVA) [32]. Os limiares estatísticos para o

p

-valor de Student

t

-teste e dobre mudança usado em SAM foram determinadas usando publicada em tempo real os resultados de PCR em 84 genes [30] (Figura S1) . Foram utilizados dois modos, (1) o modo não emparelhado de duas classes para a seleção de genes cuja média nível de expressão foi significativamente diferente nos dois grupos de amostras (análogo ao entre sujeitos

t

-teste) e (2) multi modo de classe para seleccionar genes cuja expressão foi significativo diferente através de um conjunto de amostras de maior do que dois (análogas a ANOVA one-way). As estatísticas de Bayes empíricos (eBayes) foi usado como um modelo estatístico alternativa. Para uma revisão destes algoritmos ver em [33]. FDRs [34] foram calculados usando tanto de Student

t

-Testes e testa ANOVA usando permutação aleatória no SAM através do pacote R “siggenes”.

Construção de GGIN

Protein interação (PPI) informações -protein em 30,047 entradas de proteína e 39,194 interações foi baixado HPRD [28] e foram integrados com dados de expressão gênica por microarrays específica do estado para construir GGINs, um para cada estado. Para um determinado estado e um limiar Pearson

p

-valor (veja abaixo)

p

0, incluímos um par de genes na GGIN se: (1) a

p

-valor para o par não foi maior do que o

p

0; (2) a par da proteína codificada pelo par de genes foi ligado nos dados de PPI. Para um determinado estado e um conjunto de dados de microarray, coeficiente de correlação de Pearson (PCC) entre cada gene-par foi calculada com base nas intensidades de todo o conjunto para o par. Ou seja, se um conjunto de

n

microarrays é utilizado para o cálculo, o PCC é que entre dois conjuntos de

n

intensidades. inferência estatística baseada na PCC foi realizada por meio de testes de permutação e

t

-Estatísticas. Nós chamamos um

p

-valor correspondente a um PPC uma Pearson

p

-valor. propriedades de rede são

n

dependente. Os resultados apresentados são para redes de 8 de amostra. Para o 8-sample Nem, uma rede foi construída (para cada

p

0). Para cada um dos outros estados três de 15 amostras, 100 redes foram construídas, cada um a partir de uma amostra de oito conjuntos selecionados aleatoriamente a partir das 15 amostras. Nós usar a terminologia de rede padrão. Dizemos um nó

i jogue com grau

k

i

possui

k

i

vizinhos. O coeficiente de agrupamento

C

de um nó é a razão entre o número de ligações

e

entre os vizinhos de degree-

k

nó para o número de possíveis tais links:

C

= 2

e Twitter /(

k

(

k

-1)) [29]. Layouts para as redes foram feitas usando a plataforma de código aberto Cytoscape (versão 2.7.0), através da função de layout “ponderada de ponta incorporado-spring”. foram utilizados valores dos parâmetros padrão, exceto que o “número de iterações” para cada nó foi aumentada para 200, e “força” foi alterado para 1500 para evitar colisões. O “GOlorize” plug-in [35] foi usado para atribuir automaticamente as cores para os nós de genes para destacar termos gene-ontologia enriquecidos. A cor e a largura de uma aresta foram usadas para indicar sinal e a força de correlação, respectivamente; vermelho (azul) para correlação positiva (negativa).

Funcionais Sub-redes e FFN

Os genes em cada GGIN estado-específicos foram atribuídos a sobre-representados funções biológicas, como definido em associação GO prazo [36]. As análises de enriquecimento com base no teste de hypergeometric condicional [37] foram feitas usando os GOstats pacote R [38] baixado do site da Bioconductor [39]. Baseado no gene funcional define um GGIIN foi reduzida para FFN para inspeção visual mais fácil.

e topo + SAM (TPS) procedimentos de selecção Cancer Gene Descoberta

O procedimento superior (Figura 1) aplicado com a sequência de Nor-X-CRC (X = Ade ou IBD, conforme o caso pode ser) consistia nos passos: (1) Construção GGINs para Também, X, e CRC usando um limiar de Pearson

P

– valor 0,01. (2) Seleccione um gene que: (a) verifica-se em, pelo menos, um GGIN; (B) pelo menos em um grau satisfaz GGIN

D Restaurant 4 e coeficiente de agrupamento

C Art 0; (C) a sua

D Comprar e

C

aumento ao longo da sequência (mas sem limitação é definida no par Nor-X). (3) formam uma categoria separada para os genes do câncer previstos codificam fatores-chave de transcrição. No procedimento TPS, um passo de filtragem extra adicionado: (4) Limitar os genes selecionados para ser um DEG (ajustado

p

-Valores 0,05, dobre as alterações 1,5 ou 1 /1,5) a menos em X vs. Nor ou no CRC vs. Nem

DEG, diferencialmente expressos gene.; PPIN, rede de interacção proteína-proteína. Caixas na coluna mais à direita ilustram como o CDC6 gene tumorigênico previsto satisfaz os critérios superior: a sub-rede de interação gene-gene associado a ele cresce acentuadamente como o progresso do estado do normal através adenoma para CRC

Hit Rate para genes do cancro

taxa de acerto foi definido como a relação entre genes selecionados aparecendo dado como um gene relacionado ao câncer em

CancerGenes

[40] para o número total de genes selecionados, dada como uma porcentagem.

CancerGenes

lista genes relacionados com o cancro de peritos de anotações de bancos de dados públicos essenciais, incluindo Cellmap.org (https://cancer.cellmap.org), Gene Entrez [41], e Sanger CGC [42], e comentários de câncer [24], [42] – [44]. Total de 3.165 genes foram recolhidas e vários tipos de fontes (por exemplo, gene de cancro, supressor de tumor, genes estabilidade,

etc.

) Foram incluídos no cálculo da taxa de sucesso. Como a plataforma de matriz 2.0 Affymetrix HG-U133 Além disso lista 18,267 genes e

CancerGenes

lista 3.165 genes, uma seleção aleatória de genes conduziria a uma taxa de sucesso de quase 20%.

Randomization

Foram realizados dois tipos de aleatorizações. Tipo 1: Separadamente para cada gene, embaralhar as intensidades sobre todo o conjunto de matrizes. Em cada caso de aleatorização, foi realizado um varrimento ao longo de todos os genes. Este processo conserva a distribuição de intensidades para cada gene, mas destrói a correlação entre a intensidade de pares de genes. Tipo-2: atribuir aleatoriamente pares de genes para cada link em uma rede. O procedimento conservado o número de ligações, mas não a topologia de uma rede. Em cada sorteio, foi realizada uma varredura sobre todos os elos da rede. Este processo conserva o número de ligações em, mas não a topologia do, a rede. Nós tentamos um terceiro, tipo 3, randomização de conservação de topologia em redes, em que a topologia foi deixado inalterada, mas genes foram aleatoriamente designados para nós em uma rede. Isto provou ser não um verdadeiro randomização.

Seleção de marcadores para detecção de diagnóstico precoce do CRC

Os biomarcadores para a detecção precoce no estado Ade foram selecionados a partir do conjunto de genes TPS para o Nor-Ade -CRC sequência (ver resultados) aqueles que têm um aumento de cinco vezes ou mais na (rede) grau de Nor para Ade e ser um DEG com um

p

-valor 0,0001 em Ade vs. Nor. Da mesma forma para os biomarcadores para a detecção precoce no estado IBD, com IBD substituindo Ade

Resultados

Significativo diferencialmente genes expressos

O conjunto total de 2.666 selecionados degs (FDR 0.001, de Student

t

-test (em SAM)

p

-valor 0,05, dobre as alterações 1,5; Figura S1) foi a degs sindicais separadamente seleccionados a partir de três pares de estado; ADE vs. NOR, 1652 genes; CRC vs. NOR, 1100 genes; IBD vs. NOR: genes 1629. Os degs foram classificados de acordo com a entrar em onze módulos funcionais: de replicação do DNA, reparo do DNA, do ciclo celular, proliferação celular, metabolismo de RNA, transcrição, tradução, apoptose, transdução de sinal, o sistema imunológico, adesão celular (Tabela S1). Um mapa de calor gerado pela bidireccional sem supervisão método de agrupamento hierárquico (Figura S2) mostra a fragmentação em duas partes de BF, reflectindo a heterogeneidade relativa nas amostras cancerosas. No entanto, nenhuma dificuldade em extrair CRC degs específicos foi encontrado.

Doença redes eram maiores e mais complexas, e CRC rede tinha mais alta Complexidade

Resultados para GGINs indicados são para redes de 8 de amostra. Houve uma GGIN mas GGINs 100 para cada um dos estados de doença foram construídos (ver Métodos). O número de genes e (gene-gene) Links ambos diminuiu com a redução Pearson

p

limiar -valor

p

0 [45] em GGINs construídas (Figura 2), como esperado . Para dada

p

0 tanto no número de genes e link aumento na progressão Nem a Ade para IBD /CRC. número gene na rede de IBD foi ligeiramente maior do que no CRC, mas o número de destino no CRC foi significativamente maior do que o IBD. As distribuições de graus das quatro redes obedeceu power-leis. Em termos de complexidade da rede (Tabela 1), as quatro redes pertence a três grupos, em ordem crescente de complexidade: Nem, Ade e IBD, e CRC. Todas as quatro redes foram compostas de sub-redes conectadas, ou clusters. As três redes de doenças foram dominados por cada um cluster gigante, contendo (em média) de 760, 971, 1388 e os genes, para Ade, DII, e CRC, respectivamente. A Nor rede não tem um cluster gigante; seus dois clusters maiores tiveram, respectivamente, 219 e 73 genes.

Número de genes (A) e interações gene-par (B) nas redes de doenças específicas, como funções de Pearson

p

-valor limite,

p

0, em 8 de amostras de genes-redes dos pacientes pertencentes às quatro estaduais tipos: nem, Ade, IBD e CRC. Não-Nor resultados são em média mais de 100 conjuntos de 8 amostra aleatória. As barras de erro indicam desvios padrão. Asteriscos acima (abaixo) as curvas dar

p

-Valores de Student de duas amostras

t

-test entre CRC e IBD (CRC e Nor): *

p viajantes – valor 10

-4; **

p

-valor 10

-8; ***

p

-valor 10

-12; ****

p

-valor. 10

-16

CRC Rede teve a maior complexidade e foi qualitativamente diferente da Rede IBD

A percentagem de genes cubo-like aumentou com a gravidade da doença (Figura 3; veja a Figura S3 para um conjunto de GGINs). Por exemplo, menos do que 0,5% dos genes em Nor, mas mais do que 10% em CRC, teve graus mais elevados do que 11; única CRC teve um número significativo de genes com graus de 16 ou superior; única CRC tinha uma percentagem não desprezível de genes com graus maiores do que 16, enquanto possuir o mais alto nível de coeficiente de agrupamento. Embora muito maior, a complexidade da rede de IBD foi semelhante ao de Ade. IBD tinham mais genes de graus até 5 de CRC, mas menos nós alto grau e muito menos nós com elevados graus e coeficientes grande agrupamento (Figura 3).

Genes de grau 1 não são mostrados. O coeficiente de agrupamento de um gene de grau 2 é 0 ou 1. Os asteriscos indicam

p

-Valores (por testes de Wilcoxon) em relação ao Nor: *

p

-valor 0,05 ; **

p

-valor. 0,01

Os tamanhos dos conjuntos de genes de módulos funcionais em FFNs geralmente aumenta com a gravidade da doença

FFNs foram reduzidas de GGINs através partição degs de acordo com a GO termos (Figura 4; ver Tabela S2 para análise de enriquecimento de ir para os módulos funcionais). Tamanhos de módulos funcionais em FFNs geralmente aumenta com a gravidade da doença (Figura S4). As relações Nor CRC e Ade CRC detidos para todos os 11 funções (o ” ” símbolo refere-se aos tamanhos em número de genes de módulos funcionais, com valor de p inferior a 10

-4). A relação Nem Ade CRC realizada em 10 das 11 funções (a função do sistema imunitário foi excepção), com a tendência de ser especialmente forte para o metabolismo de RNA, a transcrição, a reparação do ADN, a replicação do ADN, e ciclo celular. Em comparação, a relação Nem IBD realizada em apenas seis funções: a tradução, a adesão celular, proliferação celular, do sistema imunitário, e de transdução de sinal de apoptose. A relação Nor Ade IBD não segurar com um bom suporte estatístico em qualquer uma das funções

Nós são módulos funcionais nomeados após termos Gene ontologia.. módulos funcionais contendo menos do que 70 genes não são mostrados. O diâmetro de um módulo de escalas com o logaritmo do número de genes no módulo. A tonalidade de cor de um módulo indica o número de interacções do gene para o gene intra-módulo por gene. A espessura da borda indica o número de interações gene-gene entre os módulos.

Ade-CRC Pair teve significativamente maior Inter-FFN Interseções percentuais dos Conjuntos ligação funcional

Para cada função em um FFN uma lista de links em função, nomeadamente as interações entre dois genes no módulo funcional, foi construído, e percentuais Inter-FFN interseções de conjuntos de ligação foram calculadas (Figura 5). A intersecção Ade-CRC destacou-se como um outlier em relação aos outros cinco cruzamentos. Para módulos funcionais quase todos os cinco cruzamentos estavam estreitamente agrupados em valores tipicamente metade do tamanho dos correspondentes cruzamentos Ade-CRC. Em relação aos outros cinco cruzamentos cruzamentos Ade-CRC teve

p

-Valores de 10

-2 em todos, mas uma das funções (adesão celular), e 10

– 3 em sete funções (Figura 5). Um tratamento similar dos cruzamentos Ade-IBD descobriu que todas as funções tinha

p

-Valores próximo da unidade. A relativamente grande sobreposição entre as séries de DEG Ade e CRC foi observado anteriormente [46] – [48]

0 Para um dado módulo funcional, a sobreposição percentual é expressa como a ração do número de ligações (. pertencentes a um módulo de) comum para as duas redes para o número de ligações no parceiro mais pequeno. Os asteriscos indicam

p

-Valores a partir de Student one-sample

t

-teste do cruzamento Ade-CRC contra os outros cinco cruzamentos: para *, ** e ***,

p

-valor. 10

-2, 10

-3 e 10

-4, respectivamente

Exemplos de genes Top of

um gene topo era obrigado a ter sua conectividade de rede e complexidade cresceu sensivelmente ao longo de uma sequência de estado. Quatro exemplos de tais genes que factores de transcrição código (TFS) foram os três genes ILF2, CDK1, e SNRPF, curado de tanto o Ade- e IBD-sequências, e Mcm10, exclusivamente a partir da DII-sequência (Figura 6). Em cada caso o gene predito era um nó de baixo grau na rede relativamente pequeno nem, tornou-se um cubo moderado em uma rede Ade ou IBD visivelmente crescido (ou ambos, conforme o caso pode ser), e, finalmente, um super-cubo na grande e complexa rede CRC.

redes parciais a que os quatro genes toP ILF2 (canto superior esquerdo), CDK1 (canto inferior esquerdo), SNRPF (canto superior direito) e Mcm10 (inferior direito) pertencem separadamente no Nor, Ade, IBD e CRC redes. Em cada caso, o tamanho do módulo ligado aos aumentos de genes de topo ao longo da sequência de estado Nor-Ade-CRC ou nor-IBD-CRC, ou ambos. Nodal código de cor da guarnição: a sobre-expressão, vermelho; sub-expressão, azul; neutro, preto. Código Nodal cor para funções GO: ciclo celular, verde; splicing de RNA, roxo; reparo do DNA, marrom; remodelação da cromatina e modificação das histonas, amarelo.

Descoberta de genes do cancro utilizando o procedimento Top of

O procedimento de cima foi aplicada ao Nor-Ade-CRC (ou simplesmente Ade) e Nor sequências -IBD-CRC (ou IBD) para selecionar genes do cancro, produzindo listas de 389 e 381 genes, respectivamente, com 373 genes que aparecem em ambas as listas (Tabela S3, Figura S5A). O procedimento produziu 134 TPS e 74 genes a partir das sequências Ade e IBD, respectivamente, com 67 comum a ambas as listas (Tabela S4, Figura S5B). Em comparação, a parte superior selecionados apenas 7 e 4 genes, respectivamente, a partir da sequências CRC-Ade-Nor e CRC-IBD-Nor, e TPS reduziu os conjuntos para null conjuntos (dados não mostrados), confirmando as duas sequências não exibiram qualquer tendência a um estado de doença. Aplicação de eBayes e SAM com limiares

p

-valor 0,05 e absolutas fold-change 1,5 listas DEG cedidos de 2648 e 2666 genes, respectivamente. Considerando cada uma das etapas do procedimento ToP teve um impacto importante sobre a redução do pool de genes candidatos, a exigência gene superior foi o principal fator limitante. Para a sequência de Ade a exigência de que os genes codificam as proteínas listadas HPRD reduziu o número de candidatos a partir de 9122 a 18.267; que pertencia a um dos GGINs relevantes, para 3.556; que era um gene de topo, a 389; que era um DEG por SAM, para 134. Para a sequência de DII as duas primeiras reduções foram as mesmas, e os correspondentes últimos três números foram 3074, 381, e 74 (Figura S6).

testes

permutação

O

p

-Valores para testes de permutação de randomização dos todas as listas de genes selecionados foram 0,001 (Figura 7A). Os números (desvio padrão entre parênteses) de eBayes e SAM degs em 1000 tipo 1 aleatorizações (ver Métodos) foram 228,81 (13,93) e 255,31 (25,57), respectivamente (Figura S7A-B). Porque randomização destruída correlação de intensidade entre os genes, os 1000 aleatorizações rendeu apenas 0,42 (1,2) genes (Figura S7C), tornando a construção de rede impossível. Para o procedimento de ToP gene intensidade associada foi objecto de tipo-1 aleatorização e gene-link associado, para digitar-2 (ver Métodos). Em 1000 aleatorizações os números de genes selecionados pelo superior e TPS para a sequência Ade foram 29,09 (desvio padrão 8.18) e 8,31 (3,36), respectivamente (Figura S8A-B); número correspondente para a sequência IBD foram 28,01 (8,15) e 6,58 (2,91) (Figura S8C-D).

testes de aleatorização são do tipo-1 para eBayes e SAM, e tipo 2 para Top e Top + SAM (ver Métodos). (A) Número de genes selecionados. (B) Percentagem de genes listados na

CancerGenes

[40] do banco de dados entre os selecionados no (A). ***,

p

-valor 0,001 para teste de permutação de forma aleatória; **,

p

-valor 0,01; *,

p

-valor. 0,05

Hit tarifas de genes de câncer conhecidos

Distribuição das taxas de acerto de genes conhecidos de câncer relacionados no gene selecionados em 1000 randomização de métodos convencionais (eBayes e SAM; Figura S7D-e) e Top métodos baseados (Ade-top, Ade-TPS, IBD-top, e IBD-TPS; Figura S8E-H) têm médias em 19% -23 faixa%, um valor esperado tendo em vista os 3.165 genes relacionados com o cancro entre os 18,267 genes em uma matriz de HG-U133 Além disso 2.0. As taxas de acerto dos casos reais (teste de permutação

p

-valor por randomização entre parênteses) foram de 23% (0,422), 22% (0.547), 47% ( 0,001), 50% (0.008) , 51% (0,008), e 54% ( 0,001), respectivamente (Figura 7B). Em comparação, a taxa média de acerto de genes selecionados em todos os testes de aleatorização foi ~ 20% (Figura S8). As taxas de sucesso para os primeiros 134 genes de eBayes e SAM foram 27% e 33%, respectivamente (Figura 8). A lista Ade e IBD TPS combinada teve 141 previu genes do cancro, dos quais 67 vieram exclusivamente de Ade, 67 foram comuns a Ade e IBD, e 7 veio exclusivamente do IBD (Tabela S3). GO enriquecimento análise mostrou que os termos GO lúmen nucleares, do ciclo celular e nucleósido de ligação foram as mais enriquecido, que envolve 51%, 33% e 34%, respectivamente, dos genes (Tabela 2). Sessenta e sete dos 141 genes eram conhecidos genes do cancro, dos quais 27, 39 e 1, respectivamente, vieram apenas de Ade, eram comuns a Ade e IBD, e veio de IBD somente (Tabela S4).

TF não-tumor significa não listado no

CancerGenes

. (A) Em conjunto gene selecionado pelo limiar estatístico. (B) Em Top 134 genes em conjuntos de genes. Números indicados acima barras indicam genes número total em conjunto.

genes do cancro CRC e fatores de transcrição

Quarenta e oito dos 141 genes haviam sido relatada a ser genes do cancro CRC , dos quais 15, 32 e 1, respectivamente, veio de Ade única, eram comuns a Ade e IBD, e de IBD única (Tabela 3). A percentagem de factor de transcrio (TF) genes codificando entre os genes seleccionados variou dependendo do método utilizado (Figura 8A). No caso dos genes de topo 134, o número de genes TF variaram de 10 a 17 (Figura 8B). Entre os 141 genes TPS, 16 eram fator de transcrição (TF) -encoding (Tabela 4), dos quais 12 foram listados em

CancerGenes

[40] e 11, incluindo o 3 não listado no

CancerGenes

, tinha sido citados na literatura como CRC associado (Tabela 3). PML, listados no

CancerGenes

e citado na literatura como CRC relacionadas, era a única TF entre os 16 TFs que vieram exclusivamente da sequência IBD; os quatro TFs CEBPB, E2F5, MYC, e RUVBL1 eram comuns a ambas as sequências de Ade e IBD; os restantes 11 veio exclusivamente da sequência Ade (Tabela 4).

Biomarcadores para detecção de diagnóstico precoce do CRC

Entre os 141 previu genes do cancro TPS 13 foram identificados como marcadores para o diagnóstico precoce da CRC; 11 para detecção do estado Ade, dos quais 9 veio exclusivamente a partir da sequência de Ade e 2 eram comuns a ambas as sequências, e 2, para a detecção do estado de IBD e também comum a ambas as sequências (Tabela 5). Em cada caso, o candidato quer não aparecer ou apareceu como um gene single-link no (a) Nem (rede), mas floresceu em um tendo cinco ou mais links e foram fortemente expresso (

p

-valor . 0,0001) em Ade ou IBD, conforme o caso pode ser, e passou a se tornar um hub substancial no CRC

Discussão

Mais notável sobre os GGINs era que seus tamanhos e complexidades cresceu com a gravidade da doença (Figura 2) em ordem ascendente: NOR, Ade, DII, e CRC. A rede IBD teve um pouco mais genes, mas muito menos ligações do que CRC.

Deixe uma resposta