PLOS ONE: Decifrando Genomic Alterações no câncer colorretal através da transcrição subtipo baseado em rede Analysis

Abstract

Ambos subtipo da transcrição e análise de rede de sinalização provaram ser úteis na pesquisa genômica do câncer. No entanto, estas duas abordagens são geralmente aplicados de forma isolada em estudos existentes. Argumentamos que a decifrar alterações genômicas com base em câncer subtipos de transcrição pode ajudar a revelar redes driver específico do subtipo e fornecer insights para o desenvolvimento de estratégias terapêuticas personalizadas. Neste estudo, foram definidos os subtipos de transcrição para o cancro colorectal (CRC) e identificadas motorista redes /caminhos para cada subtipo. Aplicando consenso clustering para um grupo de pacientes com 1173 amostras identificados três subtipos de transcrição, que foram validadas em uma coorte independente com 485 amostras. Os três subtipos foram caracterizados por diferentes programas de transcrição relacionados com o cólon adulto normal, cólon desenvolvimento embrionário inicial, e mesenquimais transição epitelial, respectivamente. Eles também mostraram resultados clínicos estatisticamente diferentes. Para cada subtipo, mapeamos dados de mutação e de variação do número de cópias somáticas sobre uma rede de sinalização integrada e redes driver específico do subtipo identificados usando uma estratégia baseada em passeio aleatório. Descobrimos que alterações genômicas na via de sinalização Wnt eram comuns entre os três subtipos; no entanto, combinações únicas de alterações da via, incluindo Wnt, VEGF e Notch dirigiu fenótipos moleculares e clínicas distintas em diferentes subtipos de CRC. Nossos resultados fornecem um quadro coerente e integrado de CRC humana que liga alterações genômicas a consequências moleculares e clínicos, e que fornece insights para o desenvolvimento de estratégias terapêuticas personalizadas para diferentes subtipos CRC

Citation:. Zhu J, Wang J , Shi Z, Franklin JL, Deane NG, Coffey RJ, et al. (2013) Decifrando Genomic Alterações no câncer colorretal pela análise de redes transcricional subtipo-base. PLoS ONE 8 (11): e79282. doi: 10.1371 /journal.pone.0079282

editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos da América

Recebido: 19 Agosto, 2013; Aceito: 20 de setembro de 2013; Publicação: 15 de novembro de 2013

Direitos de autor: © 2013 Zhu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O financiamento do Estados Unidos Serviço de Saúde Pública concede GM088822, CA126479, CA159988, CA095103, CA069457, DK052334 e CA068485. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O câncer colorretal (CRC) é uma das principais causas de morbidade global do câncer [1]. Ao longo das últimas três décadas, estudos genéticos moleculares têm revelado algumas mutações críticas subjacentes a patogênese da CRC [2]. Recentemente, com o desenvolvimento de tecnologias de sequenciação de alto rendimento, milhares de alterações genéticas têm sido identificados na CRC. Em adição a um número limitado de oncogenes frequentemente mutadas bem conhecidos ou genes supressores de tumores, tais como APC, KRAS, PIK3CA e TP53, um número muito maior de genes mutados estão a uma frequência baixa [3]. Tem sido sugerido que as mutações somáticas encontrados nos cancros ou são “condutores” ou “passageiros” [3]. Como distinguir os condutores de passageiros entre milhares de mutações de baixa frequência tem se tornado um grande desafio na pesquisa do câncer.

Porque vias e redes de sinalização, em vez de genes individuais governam o curso da tumorigênese e progressão [4], vários estudos usaram vias comissariada por especialistas para ajudar a interpretar alterações genômicas alto rendimento [3], [5], [6]. Embora útil, estes métodos são limitados pela cobertura e completude das vias curadoria [7]. Consequentemente, as abordagens baseadas em rede, tais como HotNet [8] e Netwalker [9] foram desenvolvidos, com a aplicação bem-sucedida para a identificação de sub-redes que são enriquecidos com variações genômicas [6], [10].

Rede métodos baseados começaram a fornecer uma compreensão nível dos sistemas de variações genômicas complexos. No entanto, porque os estudos existentes geralmente considerar todas as amostras de tumor em conjunto em contraste com os controlos normais, eles tendem a identificar redes de sinalização comuns a todas as amostras de tumor e pode falhar a resposta à heterogeneidade entre os genomas do cancro.

análise subtipo transcricional forneceu grandes insights sobre a biologia da doença, prognóstico e terapêutica personalizados para diferentes tipos de câncer [11], [12]. Curiosamente, apesar de ambas as redes de sinalização subtipo e análises de transcrição provaram ser úteis na pesquisa genômica do câncer, essas duas abordagens são geralmente aplicados isoladamente em estudos já existentes. Argumentamos que a decifrar alterações genômicas baseado em câncer de subtipos de transcrição pode ajudar a revelar redes driver específico do subtipo e fornecer insights para o desenvolvimento de estratégias terapêuticas personalizadas.

Para CRC, a rede TCGA (The Cancer Genome Atlas) informou recentemente uma classificação de três subtipos de transcrição, que foram designados como “MSI /CIMP”, “invasivo”, e “NIC”, respectivamente [13]. No entanto, a análise é limitada por vários factores. Em primeiro lugar, os subtipos foram identificados a partir de um relativamente pequeno grupo de doentes com apenas 220 amostras e não foi efectuada de validação, deixando a generalidade da classificação de subtipo não comprovada. Em seguida, devido à falta de dados de sobrevivência com suficiente tempo de seguimento para a coorte TCGA, relevância clínica dos subtipos continua a ser estabelecida. Não está claro por quais critérios o subtipo “invasiva” foi rotulados e se ele é suportado por dados clínicos e biológicos. Além disso, embora seja muito interessante para vincular recursos genômicos globais como microssatélites Instabilidade (MSI), CpG ilha metilação fenótipo (CIMP), e instabilidade cromossômica (CIN), com subtipos de transcrição, continua a ser um grande desafio para traduzir essas associações em terapias-alvo para os diferentes subtipos de CRC.

neste estudo, a hipótese de que alterações genômicas altamente heterogêneos observadas no CRC pode convergir para um número limitado de mecanismos distintos que orientam padrões de expressão gênica únicos em diferentes subtipos de transcrição. Em primeiro lugar, nós estendemos os achados TCGA realizando descoberta subtipo com base em dados de expressão de genes a partir de 1173 amostras de tumores CRC acumulados durante a última década, validados subtipos identificados em uma coorte independente com 485 amostras, e associado cada subtipo com a biologia única e evolução clínica. Em seguida, mapeamos os dados de variação do número de cópias (CNV) mutação somática e para uma rede de sinalização integrada e identificou uma rede de motorista para cada subtipo. As redes inferidas e vias associadas correlacionados perfeitamente com programas de transcrição a jusante característicos para cada subtipo, proporcionando fortes evidências circunstanciais para a eficácia da nossa abordagem e a validade da nossa inferência. Com base nas combinações únicas de alterações da via e os resultados clínicos, propusemos estratégias terapêuticas específicas para os diferentes subtipos de CRC.

Materiais e Métodos

Aquisição de Dados e Processamento

Como mostrado na Tabela S1 no arquivo S1, os dados de expressão de genes para 1173 amostras de CRC humanos foram transferidos da base de dados gene Expression Omnibus (GEO) para construir uma coorte de descoberta. dados de expressão de gene para uma 485 amostras adicionais CRC humanos foram transferidos do banco de dados GEO, o ArrayExpress Arquivo e The Cancer Genome Atlas (TCGA) para criar uma coorte de validação. Para cada Affymetrix conjunto de dados de expressão gênica, a Análise MultiChip (RMA) algoritmo robusto [14] foi usado para processamento de dados, incluindo a normalização quantil e log2-transformação. Para fazer com que o nível de expressão comparáveis ​​entre os conjuntos de dados, que normalizada ainda mais o nível de cada sonda fixa em cada relativa amostra à sua expressão média em todas as amostras no mesmo conjunto de dados de expressão, subtraindo-se a sua média nesse conjunto de dados a partir de cada uma das suas medições de expressão [ ,,,0],15]. Como mostrado na Figura S1 S2 no ficheiro, o nível de expressão entre os conjuntos de dados é comparável, após esta normalização. Então, identificadores de conjunto de sonda foram mapeados para símbolos de genes com base no arquivo de mapeamento fornecido por bancos de dados correspondente. conjuntos de sondas mapeadas para múltiplos genes foram eliminados. Quando vários conjuntos de sondas foram mapeados para o mesmo gene, a mediana foi usado para representar o nível de expressão do gene. Para os dados de expressão de genes TCGA com base em Agilent 244 Gene Expression K Microarray, Nível 3 dados de expressão gênica (LOWESS log2 normalizada (Cy5 /Cy3) entrou em colapso por símbolo gene) foram baixados e os valores de expressão de cada gene foram também significa centrado. 10481 símbolos de genes comuns em todos os conjuntos de dados foram selecionados para as análises posteriores.

Para investigar mudanças de expressão de genes em amostras de CRC relativos a amostras de mucosa normal, os dados de expressão de genes para estas 182 amostras foram normalizadas em conjunto pelo algoritmo RMA [14 ]. Em seguida, normalizou o nível de expressão do gene G em cada amostra em relação à sua expressão em média das cinco amostras de mucosa normais, subtraindo-se a sua média nas amostras normais a partir de cada uma das suas medições de expressão.

Para caracterizar o embrionário desenvolvimento de cólon, foi realizado um estudo do curso microarray vez usando o inato C57BL /6 (Jackson Laboratories, Bar Harbor, ME) ratos (Gene Expression Omnibus, GSE38831). Este estudo foi realizado em estrita conformidade com cuidados com os animais e as diretrizes de uso e aprovação do Comitê de Vanderbilt Institucional animal Cuidado e Uso (IACUC). Os ratinhos foram monitorizados durante todo o experimento para sinais de desconforto durante o seu ciclo de vida normal, embora não manipulações experimentais desses ratos foram realizadas, além de criação de animais. Se sinais de sofrimento foram vistos durante o monitoramento semanal, os ratos foram sacrificados por asfixia com CO2, seguido por deslocamento cervical para reduzir o sofrimento dos animais. Sete amostras correspondentes ao desenvolvimento do cólon do rato a partir de E13.5 E18.5 e de adulto (oito semanas pós-parto) foram recolhidas. recolha do cólon embrionário e preparação de RNA foram realizadas como anteriormente descrito [16]. As amostras de ARN foram submetidos ao Recurso Vanderbilt Functional Genomics Compartilhada (FSGR, https://array.mc.vanderbilt.edu), em que o ARN foi purificada com a utilização do kit RNeasy (Qiagen, alencia, CA) e hibridado com a Affymetrix rato Genome 430 Arrays 2.0 GeneChip Expression (Santa Clara, CA) de acordo com as instruções do fabricante. O algoritmo de RMA foi usado para normalizar os dados. símbolos de genes de camundongos foram mapeados para símbolos de genes humanos por parte da lista humano e do rato ortologia disponíveis a partir do mouse Genome Informática (https://www.informatics.jax.org/).

Dados da CNV e dados de mutação somática para amostras TCGA com dados de expressão de genes combinados foram baixados do site da TCGA.

vias de sinalização com curadoria de NCI-Natureza, Cancer Mapa celular e Reactome foram transferidos do banco de dados Caminho Commons (versão mais recente em junho de 2011). vias de sinalização BioCarta foram baixados da NCI Pathway interação com o banco (Jun, 2011). Integrando as vias de todas as fontes acima resultou em uma rede de sinalização contendo 3152 genes e 47,833 bordas. Seu maior componente contido 3078 genes e 47,772 bordas, que foi utilizado para inferência das sub-redes motorista a montante.

Co-expressão de Rede e Análise Módulo

Com base na matriz de expressão gênica com 10.481 genes e 1173 amostras para a coorte de descoberta, foram calculados os coeficientes de correlação de Pearson para todos os pares de genes 54,920,440. A construção de uma rede de co-expressão requer uma selecção apropriada de um limiar para os coeficientes de correlação de pares. Para garantir a relevância biológica da rede construída, foi utilizado um método guiado por conhecimento para a seleção limiar [17]. Especificamente, foram avaliadas semelhança funcional entre cada par de genes baseado no gene ontologia (GO) anotação processo biológico utilizando semelhança semântica do Resnik [18]. As semelhanças funcionais médios de pares de genes em várias gamas de correlação foram calculados e plotados (Figura S2 S2 em Arquivo). Com base na trama, o coeficiente de correlação de Pearson absoluta de 0,45 foi selecionado para limiar, porque um aumento acentuado na similaridade funcional ocorre acima desse limite para ambos os correlações positivas e negativas. Com base no limiar acima, uma rede de co-expressão do gene com 8546 genes e 508,071 bordas foi construído. Nós usamos nosso iterativo Clique enumeração (ICE) algoritmo publicado anteriormente [17] para identificar módulos de co-expressão relativamente independentes da rede de co-expressão do gene (Figura 1A e na Tabela S2 em S1 Arquivo). Para se concentrar em grandes programas de transcrição, o que é necessário cada módulo ter pelo menos 20 genes únicos. Desenho do estudo

(A). Uma descrição detalhada dos métodos e os dados utilizados no estudo podem ser encontrados na Tabela S2 no ficheiro S1; (B) Visão geral do método utilizado para inferir sub-redes motorista a montante para os subtipos individuais.

transcricional Subtipo Identificação

Para a descoberta subtipo, realizamos o consenso ligação média de agrupamento hierárquico [19] , com base em genes nos módulos acima identificados, e todas as amostras de detecção (Figura 1A e na Tabela S2 em S1 do ficheiro). O agrupamento foi realizada com GenePattern [20], utilizando os mesmos parâmetros que [12]. Para os subgrupos identificados de CRC, SigClust foi realizada para avaliar a importância de todas as combinações de pares [21] (Figura 1A e na Tabela S2 no arquivo S1). Para identificar amostras que não podem representar seu subgrupo bem, nós avaliamos quão bem cada uma das amostras se encontra dentro de seu subgrupo. Especificamente, para a amostra

i

, calculamos

a (i)

como a distância média entre

i

e todas as outras amostras do subgrupo onde

i

pertence. Então, a distância média entre

i

e todas as amostras a partir de cada um dos outros subgrupos foi calculada, respectivamente, e a distância média menor,

b (I), foi identificado

. Em seguida, calculou-se a largura da silhueta

s (i)

conforme definido por:

s

(

i

) = (

b

(

i

) –

a

(

i

)) /max (

a

(

i

),

b

(

i

)) [22]. As amostras com um valor silhueta positiva foram mantidas como amostras “centrais” para o subtipo correspondente (Figura 1A e na Tabela S2 em S1 arquivo). Esta análise foi realizada utilizando o pacote de silhueta na R.

Construção do subtipo Classificador e atribuindo Genes de assinatura para cada subtipo

Foi utilizado um método de classificação centróide encolhidos mais próxima, Análise de Previsão de microarrays (PAM) [23] para construir classificadores para os subtipos acima definidos. O ran de 10 vezes de validação cruzada 100 vezes para avaliar o desempenho de classificadores com números diferentes de genes. Para o classificador seleccionado, foi utilizada a seguinte regra para atribuir cada gene no classificador a um subtipo. Em primeiro lugar, genes significativamente até regulamentada (Student one-tail t-Test,

p Art 0,05) em um subtipo em comparação com todos os outros subtipos foram definidos como up-regulamentados genes para este subtipo. Em seguida, os genes restantes que foram significativamente para baixo regulamentado em um subtipo em comparação com todos os outros subtipos foram definidos como genes regulados por baixo para este subtipo. Para cada subtipo, ambos os genes regulados positivamente e os genes regulados por baixo foram considerados como genes de assinatura.

Driver Subnetwork Identificação

Foi utilizado o algoritmo Netwalker [9] para identificação do condutor sub-rede ( Figura 1A e na Tabela S2 em S1 Arquivo). Dada a rede de sinalização integrada e começar probabilidades para cada nó atribuído com base no status variação genômica, o algoritmo usado o passeio aleatório com a técnica de reinício [24] para calcular a pontuação final de prioridades para cada nó com base nas probabilidades de estado estacionário. Montamos as probabilidades de início para todos os 3078 genes com base em sua mutação somática e informações de CNV para cada subtipo separadamente. Como mostrado na Figura 1B, foram computados duas matrizes binárias com base nos dados de mutação somática (1 para a mutação não silenciosa, 0 para os outros), e os dados da CNV (1 para genes dentro de ganhos e perdas de regiões com um rácio de ≥1.2 ou ≤0.8, 0 para os outros) para cada subtipo separadamente.

para atribuir maior peso às alterações genômicas observadas em amostras com menos número total de modificações e alterações observadas em várias amostras, foi realizada a normalização coluna-wise seguido de sumarização linha a linha para cada matriz binária, e assim transformado em cada matriz de um vector. Para um subtipo, vamos designar

N

como o número total de genes e

m

como o número total de amostras. O estado de mutação somática do gene

i

é definido como:

, onde é o valor para o gene

i

na amostra

j

na mutação somática matriz. Da mesma forma, o estado CNV do gene

i

é definido como: onde é o valor para o gene

i

na amostra

j

na matriz CNV. Em seguida, e para cada gene foram combinados em conjunto com o mesmo peso. Comece probabilidade de gene

i

() é, assim, definido como:

Para o algoritmo Netwalker, o reinício probabilidade foi ajustado para 0,5 e convergência foi determinada por, onde é a probabilidade de gene

i

no

t

th iteração.

para avaliar a significância estatística das pontuações para cada gene, construímos 1000 conjuntos de probabilidades de início aleatoriamente permutados e gerou 1.000 conjuntos de aleatório pontuações. Para cada gene na rede, um

valor p

local, foi estimada comparando a pontuação real para contagens aleatórias a partir do mesmo gene, e um

de valor global p

foi estimada comparando a contagem real às pontuações aleatórias de todos os genes [9]. Um

valor de p

mundial significativa indica a importância global do nó no que diz respeito à entrada de partida probabilidades, enquanto que uma significativa locais

valor de p

garante que o significado não é simplesmente devido à topologia da rede. Para cada subtipo, o maior componente ligado formado pelos genes importantes (local

p Art 0,05 e global

p Art 0,05). Foi relatado que a sub-rede motorista

Análise de sobrevivência

padrão de Kaplan-Meier curvas de sobrevida foram gerados para subgrupos CRC, ea diferença de sobrevivência entre os grupos foi estatisticamente avaliados pelo teste de log-rank. As análises de regressão de risco proporcional uni e multivariada de Cox foram utilizados para avaliar fatores prognósticos independentes potenciais associados com a sobrevivência. Todas estas análises foram realizadas utilizando o pacote de sobrevivência no R.

GO e KEGG Pathways Análise de Enriquecimento

GO e KEGG análises de enriquecimento da via foram realizadas utilizando WebGestalt, em que o teste hypergeometric foi utilizado para o enriquecimento análise e o procedimento Benjamini-Hochberg foi usado para controlar a taxa de falso Discovery (FDR) [25].

Visualization Rede

Networks foram visualizadas utilizando Cytoscape [26].

resultados de

identificação de três transcricionais subtipos no CRC

Foi utilizado um método bem estabelecido, Consenso Clustering [19], para a identificação confiável de subtipos de transcrição [12], [27]. Geralmente, os genes com variância alta expressão através de uma coorte de amostra são selecionados para agrupar as amostras [28]. Este método de selecção do gene não é capaz de distinguir variação biológica da variância técnica. Porque a desregulação de uma via de sinalização chave geralmente leva a mudanças de expressão coordenada para a genes a jusante, grupos de genes co-expressa através de uma coorte de amostra (módulos ou seja, co-expressão) pode refletir uma melhor variação biológica subjacente. Por isso, em primeiro lugar construído de uma rede de co-expressão do gene identificado e 33 módulos de co-expressão com um total de 1472 genes únicos a partir de uma coorte descoberta com 1173 amostras (Tabela CRC S1 S1 no ficheiro). Em seguida, foi realizado o agrupamento consenso usando genes destes módulos, o significado de cluster avaliadas e amostras de núcleo identificados para cada cluster, como descrito anteriormente [12].

De acordo com as matrizes de consenso e os empírica função de distribuição cumulativa parcelas (CDF) nas Figuras S3A e S3B no S2 Arquivo, a estabilidade agrupamento aumentou consideravelmente a partir de 2 clusters para 3 clusters enquanto nenhum aumento óbvia foi encontrado por mais de 3 grupos, sugerindo que as amostras de CRC 1173 poderia ser robustamente divididos em três grupos. Nós ainda avaliada significado cluster usando SigClust [21] e confirmou a significância estatística para todos os três grupos (Figura S3C em S2 Arquivo). Seguindo Verhaak et ai. [12], definimos os “amostras de núcleo” para cada subtipo como aqueles com maior semelhança com sua própria classe do que para quaisquer outras classes e identificou 985 amostras de núcleo com base em sua largura silhueta positivo [22] (Figura S3D no S2 Arquivo).

em seguida, usamos PAM para construir um classificador para os subtipos acima definidos. A contração no PAM realiza seleção de genes automático e pode, potencialmente, fazer o classificador mais precisos, reduzindo o efeito de genes ruidosos. O mais pequeno erro médio de validação cruzada de 0,5% foi conseguida utilizando todos os genes de 1472 com base em 100 vezes de validação cruzada de 10 vezes, o que sugere que os genes ruidosos pode já ter sido removido no nosso processo de selecção de genes à base do módulo de co-expressão. Com requisito de taxa de erro relaxado, PAM foi capaz de reduzir ainda mais o número de genes no classificador. Por exemplo, quando a taxa de erro aumentou para 9%, um classificador com 853 genes foi relatada. Classificadores com números reduzidos de genes são geralmente preferidos em tarefas de classificação; no entanto, porque um objetivo importante deste estudo foi compreender a biologia subjacente diferentes subtipos, foi selecionado o classificador 1472-gene para facilitar a análise de enriquecimento GO jusante.

Usando o método descrito em Materiais e Métodos, encontramos 449 genes assinatura para subtipo 1 (barra vermelha na Figura 2, com 402 genes regulados positivamente e 47 genes regulados negativamente), 505 genes assinatura para o subtipo 2 (barra verde na Figura 2, com 500 genes regulados positivamente e 5 genes down- regulamentadas) e 512 de assinatura genes para subtipo 3 (barra azul na Figura 2, com 480 genes regulados positivamente e 32 genes regulada para baixo, Tabela S3 no S3 Arquivo). Além disso, seis genes que não poderiam ser definidos como genes de assinatura baseados nos critérios foram marcadas pela barra preta na figura 2 (na parte superior do mapa de calor).

(a) utilizando os genes seleccionados de 1472, 985 amostras de núcleo da coorte descoberta foram agrupados em três subtipos. Para cada subtipo, amostras e genes de assinatura foram marcados com a mesma cor (barra vermelha para o subtipo 1, barra verde para o subtipo 2 e barra azul para o subtipo 3). Os processos biológicos enriquecidos com genes de assinatura para cada subtipo são mostrados ao lado das barras de cor; (B) Usando a mesma ordenação dos genes assinatura e subtipos CRC como (A), o padrão de expressão de genes para as 485 amostras de CRC da coorte de validação foi mostrado.

Para testar ainda mais a relevância biológica de os genes de assinatura, calculamos a semelhança funcional de pares para todos os genes em uma assinatura baseada na anotação processo biológico GO usando semelhança semântica do Resnik [18]. Para cada assinatura, a semelhança funcional de pares média de todos os genes de assinatura foi significativamente mais elevada do que a do mesmo número de genes seleccionados aleatoriamente a partir dos 1472 genes (p 0,001 para o subtipo 1, p = 0,018 para o subtipo 2, e p = 0,001 para o subtipo 3, teste de permutação).

o pequeno erro de validação cruzada na análise PAM, padrões de expressão distintos para cada subtipo, como mostrado na Figura 2, e coerência funcional significativa dos genes assinatura para cada subtipo indica que nossa classificação de subtipo CRC é tanto precisa e bem apoiado por padrões de expressão distintos de genes assinatura funcionalmente relacionados.

para comparar a nossa abordagem co-expressão baseada em módulo para seleção de genes com o método baseado em um único gene, repetimos a análise de agrupamento acima com base no mesmo número de genes (1472), com o maior desvio absoluto mediano entre as 1173 amostras. Em comparação com o nosso método, o método baseado no de um único gene gerado maior erro de validação cruzada média na análise PAM (2% vs 0.5%). Além disso, a maior parte das assinaturas específicas de subtipo produzidos pelo método baseado em um único gene não mostrou coerência funcional significativa em comparação com listas de genes ao acaso do mesmo tamanho.

Validação dos três subtipos de CRC numa coorte independente

Para validar os subtipos CRC descobertos anteriormente, que compilou um conjunto de dados de expressão de genes independentes com 485 amostras de CRC de seis recursos adicionais (Tabela S1 no arquivo S1). Os rótulos subtipo de amostras de validação foram previstos utilizando o classificador PAM construída acima, com as probabilidades para amostras individuais previstos no quadro S4 no S3 Arquivo. Usando a mesma ordenação dos genes e os subtipos de CRC que os utilizados na Figura 2A, a expressão do gene para as 485 amostras do conjunto de validação foi visualizado na Figura 2B. A comparação visual entre as Figuras 2A e 2B sugere que os três subtipos de CRC identificados no conjunto de descoberta pode ser robustamente redescoberto no conjunto de dados de validação.

Sentido de Gene Expression Altera

Para a identificação subtipo, nós nos concentramos sobre as mudanças de expressão gênica relativa em todas as amostras de tumor. Para esclarecer melhor o sentido absoluto de alterações de expressão de genes, comparou-se a expressão de genes assinatura em cada subtipo de CRC para a sua expressão em amostras normais da mucosa do cólon. Como mostrado na Figura 3A e a Tabela S5 S1 em ficheiro, em geral, os genes de assinatura para o subtipo 1 foram sobre-reguladas no subtipo 1, mas sub-regulada no subtipo 2 e 3 em relação ao normal. genes assinatura para o subtipo 2 foram claramente regulada em subtipos 1 e 3 em relação ao normal, mas a infra-regulação era mais fraca no subtipo 2. Os genes assinatura para o subtipo 3 foram regulados positivamente em todas as amostras de CRC em relação ao normal, com a mais forte sobre-regulação observado para o subtipo 3 e apenas moderada sobre-regulação observado para o subtipo 2. tendência similar foi observada quando se comparam amostras TCGA da coorte de validação com 22 amostras normais de TCGA.

(a) Expressão de assinatura genes em três subtipos de CRC comparado com a expressão em amostras normais. O mapa de calor foi baseada em 1472 genes selecionados, ea expressão do gene dataset GSE17536 com 177 amostras de CRC humanos e cinco amostras de mucosas normais. (B) A correlação entre o padrão de expressão gênica de três subtipos CRC eo padrão de diferentes estágios de desenvolvimento do mouse cólon com base em genes relacionados tempo expressão. As séries temporais são indicados no eixo horizontal, enquanto os coeficientes de correlação de Pearson são indicados no eixo vertical (Os pontos representam os coeficientes de correlação de Pearson, as barras representam os intervalos de confiança de 95%). (C) A expressão de genes assinatura EMT em três subtipos de CRC.

Biologia do Câncer único para diferentes subtipos CRC

Tem sido sugerido que a CRC tumorigênese e progressão recapitula o desenvolvimento embrionário e epitelial mesenquimal (EMT) programas [29], [30]. Para obter informações sobre o significado biológico dos três subtipos de CRC, investigamos a expressão de genes de três subtipos dentro dos contextos de desenvolvimento de cólon normal e EMT.

Em primeiro lugar, nós geramos um conjunto de dados de expressão gênica (ver Materiais e Métodos ) do desenvolvimento normal do mouse cólon (E13.5-E18.5 e adulto) e os genes relacionados com o desenvolvimento definidos como os genes Top1000 com o maior desvio absoluto mediano em diferentes pontos de tempo entre aqueles com uma alta correlação com pontos de tempo de desenvolvimento (absoluto Spearman coeficiente de correlação 0,9). Com base nos genes relacionados com o desenvolvimento, avaliou-se a correlação entre os padrões de diferentes subtipos de CRC e diferentes pontos de tempo de desenvolvimento de expressão. Especificamente, para cada par de CRC subtipo e ponto de tempo de desenvolvimento, foi calculado o coeficiente de correlação de Pearson entre os centróides subtipos dos genes relacionados com o desenvolvimento e os níveis dos mesmos genes no ponto de tempo de expressão. Tal como mostrado na Figura 3B, os padrões de subtipo 3 (linha azul) expressão dos genes foram mais semelhantes ao da fase inicial de desenvolvimento do rato cólon Considerando padrão de subtipo 2 (linha verde) a expressão do gene era mais semelhante ao do cólon de um adulto. Consistentemente, GO análise enriquecimento mostraram que a assinatura subtipo 3 foi significativamente enriquecida com genes em processos relacionados com a proliferação, tais como ciclo celular (FDR = 9,95 × 10

-24), processo metabólico DNA (FDR = 9,18 × 10

-12) e processo metabólico mRNA (FDR = 2,63 × 10

-7) (Figura 2). Sabe-se que o desenvolvimento embrionário inicial é caracterizada pela proliferação celular rápida. Por outro lado, o assinatura subtipo 2 foi significativamente enriquecida com genes envolvidos em funções diferenciadas requeridas para uma fase mais avançada de desenvolvimento, tais como a contracção do músculo liso (FDR = 7,00 × 10

-4) e processo do sistema neurológico (FDR = 1.56 × 10

-14). Estes genes são reprimida nas células indiferenciadas embrionárias [31], o que estava de acordo com a sua expressão marcadamente reduzida em 3, mas não do subtipo 2 (Figura 3A). Tomados em conjunto, estes resultados sugerem que o subtipo 3 tumores reativados os programas de expressão gênica de desenvolvimento precoce do cólon, enquanto que o subtipo 2 tumores melhor mantidos programas de expressão genética em dois pontos adulto normal.

Em seguida, examinamos o padrão de uma expressão anteriormente EMT assinatura publicada [30] nestes três subtipos. A assinatura foi derivado a partir de um conjunto de dados de microarray [30] comparando as linhas celulares que exibem um padrão de expressão do gene-mesenquimal como (elevados níveis de força e baixos níveis de CDH1) versus linhas de células com um padrão de expressão do gene epitelial-like (baixos níveis de VIM e altos níveis de CDH1). 149 genes regulados positivamente em linhas de células mesenquimais-like com um

p

-valor 0,01 em

t

-test foram usados ​​em nossa análise. Estes genes tinha um nível muito mais elevado de expressão de subtipo 1 tumores, em comparação com os outros dois subtipos (Figura 3C). GO análise enriquecimento mostraram que a assinatura subtipo 1 foi enriquecida com genes em migração celular (FDR = 2,0 × 10

-4) e morfogênese do vaso sanguíneo (FDR = 7,49 × 10

-5), processos biológicos estreitamente relacionadas com EMT, [33] [32]. Assim, o programa EMT é característica do subtipo 1. Uma lista completa de termos GO enriquecido para as assinaturas subtipo pode ser encontrada na Tabela S6 no S3 Arquivo.

Resultados clínicos distintos para diferentes subtipos CRC