PLOS ONE: Alta Acordo em Prognosis Previsão do cancro colorectal em todo conjuntos de dados independentes pelo Módulo Multi-Gene Expression Profiles

Abstract

Uma parcela considerável de pacientes com câncer colorretal têm um alto risco de recorrência da doença após a cirurgia. Estes doentes podem ser identificados através da análise dos perfis de genes assinatura de expressão em tumores. Mas não há consenso sobre qual deve ser usado genes eo desempenho do conjunto específico de genes assinatura varia muito com diferentes conjuntos de dados, impedindo a sua aplicação na aplicação clínica de rotina. Em vez de usar genes individuais, aqui identificamos módulos multi-genes funcionais com as mudanças de expressão significativas entre tumores recorrentes e livre de recidiva, usou-os como as assinaturas para a previsão de recorrência do câncer colorretal em vários conjuntos de dados que foram coletados de forma independente e com perfil em diferentes plataformas de microarray. Os módulos multi-genes identificados que têm um enriquecimento significativo de genes conhecidos e os processos biológicos relevantes para o desenvolvimento do cancro, incluindo genes da via de quimiocina. O mais impressionante, eles recrutaram um enriquecimento significativo de mutações somáticas encontradas no cancro colorectal. Estes resultados confirmam a relevância funcional desses módulos para o desenvolvimento de cancro colorrectal. Além disso, estes módulos funcionais de diferentes conjuntos de dados sobreposto significativamente. Finalmente, demonstramos que, aproveitando as informações acima destes módulos, o nosso classificador baseado módulo evitado arbitrária cabendo a função de classificador e triagem das assinaturas utilizando os dados de treinamento, e alcançou mais consistência na previsão de prognóstico em três conjuntos de dados independentes, que detém mesmo usando muito pequeno conjuntos de formação de tumores

Citation:. Li W, Wang R, Yan Z, Bai L, Sun Z (2012) High Acordo em Prognosis Previsão do cancro colorectal em todo conjuntos de dados independentes de perfis de expressão Módulo multi-Gene. PLoS ONE 7 (3): e33653. doi: 10.1371 /journal.pone.0033653

editor: Ju-Seog Lee, da Universidade do Texas MD Anderson Cancer Center, Estados Unidos da América

Recebido: 12 de setembro de 2011; Aceito: 17 de fevereiro de 2012; Publicado: 16 Março 2012 |

Direitos de autor: © 2012 Li et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Subvencionado por 973 ao projecto nº 2009CB918801 e No. 2011CBA00802, http: //www.most.gov.cn; National Natural Science Foundation da China fundo No. 31171274, https://www.nsfc.gov.cn/. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O câncer colorretal é uma das principais causas de mortalidade por câncer. Cerca de 20-30% dos doentes no estádio II e 50% dos pacientes na fase III recorrência da doença experiência após a cirurgia [1]. Precisão e estabilidade da previsão prognóstico são fundamentais para determinar o esquema de terapia adequada sobre diferentes risco de recorrência. Os estudos recentes sugeriram o perfil de assinaturas multi-gene como um melhor preditor prognóstico para pacientes com câncer colorretal do que os métodos tradicionais usando características clínicas ou patológicas expressão, e alguns estão entrando no mercado [2] – [7]. Estes genes de assinatura eram normalmente identificados a partir de genes diferencialmente expressos entre um conjunto de treinamento de tumores de pacientes com ou sem recorrência da doença. Os dados de expressão foram então usadas para treinar um classificador estatística que melhor pode discriminar os dois grupos de formação de tumores. Em alguns casos, estes passos, isto é, a construção de gene de selecção e classificador, são iterados para optimizar as duas escolhas.

Um grande problema com estes classificadores multi-gene é que os seus genes de assinatura variar significativamente para diferentes coortes de estudos, diferentes populações de pacientes, e diferentes plataformas de microarray, presumivelmente devido ao baixo conformidade entre os dados de expressão de microarray [8]. Para obter uma lista de consenso de genes assinatura, estima-se que milhares de amostras de tumores seriam necessários para treinar tais classificadores [9]. Como resultado, os vários conjuntos relatados de genes assinatura altamente dependente das amostras de treinamento e só tinha se sobrepõem minimamente [10]. Outra preocupação é que a escolha de um classificador estatística é arbitrária e carece de base biológica explícita, de modo que o classificador pode ser sobre-montado pelo conjunto de dados a partir do qual foi inventado. Por exemplo, em um estudo recente, os classificadores multi-genes construídos a partir de um conjunto de dados foram validadas em um conjunto de dados diferente para descobrir que a sua precisão da previsão foi substancialmente reduzida [3]. Essa redução foi devido a alguns genes em falta no classificador gene correspondente à melhor classificador construído a partir do conjunto de dados de validação cruzada. Portanto, estes factores têm conduzido a elevada variabilidade no desempenho preditivo de classificadores de múltiplos genes e limita a sua utilização generalizada na prática clínica

.

Recentemente, maior conformidade entre diferente conjunto de dados de microarray foi reportado nos padrões de expressão de multi -Gene módulos, isto é, grupos de genes funcionalmente relacionados [11] – [14]. Motivado por esta constatação, que teve como objetivo identificar tais módulos através da combinação de dados, tanto de expressão gênica e interação proteína e usado os módulos mais diferencialmente expressos para a construção de um novo classificador. Importante, verificou-se que estes módulos são de forma não aleatória associada a recorrência de câncer colorretal em diferentes conjuntos de dados, e que os módulos de diferentes conjuntos de dados se sobrepõem por significativamente mais genes do que aleatório, indicando a porcentagem de sobreposição de topo módulos classificados possuía poder discriminatório. Desta forma, evitamos o uso das assinaturas genéticas de baixa acordo e uma função estatística arbitrária para se adequar. Nós demonstramos a sua aplicação a três conjuntos de dados independentes de pacientes com câncer colorretal que perfiladas na plataforma de microarray diferente e obtidos previsões reprodutíveis, com erros de 74%, 76% e 68%, e os valores de 79% AUC (área sob ROC), 79% e 72 % pela validação Leave-One-out. precisões razoáveis ​​são vistos quando a diminuir o tamanho dos conjuntos de formação (34, 10 ou 18 tumores) e a variabilidade entre os conjuntos de dados permanece baixa, o que é ~ 1/2 de classificadores baseados multi-genes existentes.

Materiais e Métodos

fonte de dados

dados de expressão de tumor e pré-processamento

Três conjuntos de dados de microarranjos pré-processados ​​públicas de tumores colorretais como abaixo foram usados.; note que a classificação dos pacientes, recorrente ou não recorrente, é referido o status real descrito nos documentos originais ou arquivos de descrição:

dataset Alemão [3]: Ele incluiu 55 pacientes alemães com câncer colorretal primário (fase I e II), onde 29 pacientes são a doença recorrência livre e seu tempo de acompanhamento, pelo menos, 5,3 anos após a cirurgia. A expressão de amostras de tumores foi perfilado na plataforma HG-U133A Affymetrix

Barreira conjunto de dados [5]:. Ele incluiu 50 pacientes com estágio II de câncer colorretal. 25 deles são a doença recorrência livre e seu tempo de seguimento pelo menos 5 anos após a cirurgia. A expressão de amostras de tumores foi perfilado na plataforma HG-U133A Affymetrix

GSE5206 [15]:. Ele incluiu 100 doentes com cancro colorectal fase I-IV. 23 deles tiveram recorrência da doença após a cirurgia. Não há informações sobre o seu tempo de seguimento. Aqui nós removemos 37 amostras com maior palco (III e IV) a partir dos conjuntos de livre-recorrentes e com folhas 63 pacientes para validação de previsão. A expressão de amostras de tumores foi perfilado na plataforma Affymetrix HG-U133_plus_2.

Para cada sonda com valores em falta, foram aplicados R pacote “imputar” [16] para preencher com a média da sua k- vizinhos mais próximos Genes com várias sondas foram processados ​​pela média de seu nível de expressão.

dados Gene ontologia.

Gene ontologia (GO) dados a partir do banco de dados assinaturas moleculares (MsigDB) v2.5 [17] foram utilizados, que incluiu 1454 sets ir e 8299 genes.

dados de interação de proteínas.

a proteína interação dados foram transferidos do banco de dados HPRD [18] (release 8) e BioGRID o banco de dados [ ,,,0],19], que incluiu 6511 nós e 29694 interações

genes conhecidos relacionados com a recorrência do câncer colorretal

genes relacionados com o cancro colorectal recorrência foram coletados com base em suas anotações de duas fontes, respectivamente:.. base de dados OMIM (www.ncbi.nlm.nih.gov/omim) [20] e mineração literatura on-line utilizando PubGene (https://www.pubgene.org/) [21]. Obtivemos 41 genes relacionados a partir do banco de dados OMIM. Usando PubGene, primeiro procurou genes associados com o termo “cancro colo-rectal” e “recorrência” para obter 2793 e 1609 genes, respectivamente, e, em seguida, levou o cruzamento dessas listas de genes dois como o conjunto final de 1038 genes recorrência do câncer colorretal relacionados .

dados de mutação somática câncer colorretal.

os dados de mutação somática para o câncer colorretal é descarregado a partir do banco de dados COSMIC [22] na categoria de “o grande tecido do intestino”, não incluindo o sub- tecidos, ânus e apêndice, com todos os dois termos histológicos:. adenoma e carcinoma

Construindo redes de co-expressão GO

Nós construímos redes para cada conjunto de genes GO. Este foi, por três razões: (1) que provaram ser úteis para incorporar informação prévia, por exemplo, genes dentro das mesmas vias, a fim de facilitar métodos computacionais para a identificação dos módulos funcionais [23] – [26]; (2) que permite que os genes de multi-funcionais para estar presente em mais do que uma módulos funcionais; (3) muitos dados de interacção foram obtidos in vitro e não podem existir em situações fisiológicas e, portanto, limitar as interacções dentro de uma ontologia gene pode ajudar a reduzir tais falsos positivos. Em detalhes, para cada conjunto de genes GO, genes não presentes no conjunto de dados microarray foram removidos. Os restantes genes em cada conjunto GO são usados ​​como vértices da rede e as bordas foram desenhados com base em dados de interação de proteínas. Cada vértice está associado com um

N

vector de expressão onde -dimensional

N

é o número total de amostras tumorais no conjunto de dados. O valor em cada uma das dimensões é o nível do referido gene na amostra de tumor correspondente expressão. A borda entre quaisquer dois vértices é ponderado pelo seu nível de co-expressão [27]. Aqui nós escolhemos o coeficiente de correlação de Pearson para medir o nível de co-expressão. Note-se que existem algumas métricas alternativas, por exemplo, correlação de Spearman e de informação mútua, e estas métricas geralmente levou a resultados semelhantes em propriedades de rede e módulo de descoberta [28]. Além disso, o coeficiente de correlação de Pearson foi amplamente utilizados e sugeridos para ser uma boa maneira para lidar com ruídos dentro dos dados de microarray [29], [30], uma vez que mede o grau de colaboração dos dois vectores de expressão, mas não a força deles. Especificamente, o peso de uma aresta entre dois vértices

i

e

J

é definida como o valor absoluto do coeficiente de correlação entre a pessoa seus vectores de expressão,: (1)

identificando módulos funcionais

Existem vários métodos para identificar as estruturas modulares dentro de uma rede e a escolha do método varia com diversos factores, por exemplo, as estruturas de rede [31]. Considerando a estrutura densa de cada GO rede, aplicamos o algoritmo ponderado Girvan e Newman (GN) [32] para a descoberta módulo. Em comparação com outros métodos existentes que começam com nós de sementes e explorar os arredores de estruturas modulares marcou elevados [11], [33] – [36], o algoritmo GN é orientada de ponta e procurar módulos globalmente ideais. Ele é baseado no algoritmo de caminho mais curto, calcula a intermediação de todas as arestas e repetiu remove a borda com maior intermediação. Aqui, a pontuação intermediação de uma aresta é definida pela soma de todos os caminhos mais curtos que passam através dele e dividido pelo seu peso de borda correspondente. O algoritmo GN original é sempre corta o dendrograma na maior valor Q, o que resulta numa grande variação no tamanho do módulo e por vezes enormes módulos com baixa coerência biológica [37]. Para evitar este problema, é necessário para cada módulo de conter não mais do que 20 genes. Os procedimentos detalhados são os seguintes:

calcular a pontuação de intermediação de todas as arestas em cada GO rede

Encontre borda com a maior pontuação e removê-lo a partir do gráfico

Repetir.. os passos acima até que não haja gráficos isolados contêm mais de 20 genes.

Singletons com apenas um gene foram ignorados.

Ranking diferencialmente expressos módulos entre tumores com e sem recorrência

as mudanças de expressão entre os tumores com e sem recorrência foram avaliados por nosso algoritmo P-SAGE [38]. Para um módulo

s

com um total de

k

genes, a pontuação de importância diferencial (EDS) é definido por: (2) onde é o

t

pontuação para

i

gene -ésimo no módulo

s

. Notando que as pontuações SDS se correlaciona com o tamanho do módulo

k

, obtivemos os valores de p correspondentes da distribuição qui-quadrado, que são usados ​​para classificar os módulos funcionais identificados em ascendente. Módulos com classificações mais elevadas, ou seja, os módulos mais diferencialmente expressos com valores de p menores, são usados ​​para a previsão de avaliação e prognóstico.

O paradigma previsão prognóstico

O esquema do paradigma previsão.

Dado um conjunto de treinamento de amostras de tumores, que dividi-lo em duas metades, [R1] e [R2], cada uma com n n-1 tumores recorrentes não-recorrentes e. Estas duas metades são considerados como dois conjuntos de dados independentes. Então, assumimos o tumor de teste (isto é, sem rótulo) X como recorrente e colocá-lo em [R1] e [R2], ou seja, [R1 + X] e [R2 + X]. Foram identificados os módulos superiores de N [R1 + X] e [R2 + X], respectivamente, e se o tumor teste X está associada com risco elevado de recidiva, os dois conjuntos de módulos resultantes devem sobrepor-se substancialmente. Calculou-se a percentagem de sobreposição (OPN), que é calculado pela relação da sua intersecção e a sua união, depois de ter sido normalizada contra a percentagem de sobreposição dos módulos correspondentes identificadas a partir de [R1] e [R2]. Para evitar a possibilidade de polarização com uma separação específica, repetiu-se divididas ao acaso e acima de 10 vezes para se obter uma média OPN . Finalmente, calculado OPN para diferentes N = 100, 200 … 500 e utilizar a média como a pontuação preditivo OP . Superior PO pontuação indica um maior risco de recorrência associado com o X. tumor teste Desta forma, evitamos a estratégia comum de otimizar uma função arbitrária kernel que não tem nenhuma base biológica clara.

Avaliação e comparação.

Para cada conjunto de dados, as suas amostras de tumor foram divididos em um conjunto de treinamento e um conjunto de teste. Nós relatamos a medida de desempenho, precisão e AUC, com o pacote de R, ROCR. Em uma licença para validação, um tumor foi escolhido aleatoriamente como o conjunto de teste e os tumores de descanso são usados ​​como conjunto de treino. Deste modo, a previsão foi feita por vezes n, onde n é o número total de tumores no conjunto de dados. Em validações com o número de amostras de formação ser 34, 18 ou 10, foi realizada a predição para (n-34), (N-18) ou (N-10) vezes. Então nós escolhemos aleatoriamente o conjunto de treinamento de tumores por 5 vezes e relatou a média, máxima e desempenho mínimo. O desempenho foi comparado com outros métodos que utilizam estes três conjuntos de dados de microarranjos

Resultados

Foram utilizados dois conjuntos de dados independentes de pacientes com câncer colorretal precoce para verificar as duas hipóteses principais:. (1) o mais diferencialmente expressos módulos são de forma não aleatória associada a recorrência do tumor; (2) tais módulos identificados a partir de diferentes conjuntos de dados se sobrepõem de forma significativa em mais genes do que aleatório

Visão geral dos módulos mais diferencialmente expressos identificação

A identificação da maioria dos módulos diferencialmente expressos incluiu três etapas principais:. De rede construção, descoberta módulo topológico, a avaliação da expressão diferencial no nível de módulo (Figura 1, descrição mais detalhada na seção MODO E MATRIERAL). Portanto, nós em primeiro lugar agrupado genes em grandes grupos com base na sua anotação GO. Como um gene pode ter mais do que um papel funcional, estes vão grupos podem sobrepor-se em determinados genes. Em vez de construir uma única rede gigante, foram utilizados dados de interação de proteínas para construir redes para cada um dos estes vão conjunto de genes e identificados módulos multi-genes, ou seja, grupos de genes que estão densamente conectados em topologia de rede e relativamente independentes da rede de descanso. Por último, a expressão diferencial de cada módulo entre tumores com e sem recorrência da doença foi classificada para obter os melhores módulos N para posterior análise.

Identificar os módulos mais diferencialmente expressos incluem três etapas principais. Em primeiro lugar, a rede de co-expressa GO é construído através da combinação da rede de interacção proteína-proteína, que era desde a base de dados e HPRD BioGRID, e GO gene define em conjunto. As bordas da rede foram pesados ​​por nível de co-expressão entre os nós ligados correspondentes. Em segundo lugar, os módulos funcionais foram identificados pelo algoritmo Girvan-Newman ponderada [32]. Finalmente, os módulos funcionais foram classificados em seus níveis diferenciais entre recorrentes e não-recorrentes tumores que foram avaliadas pelo algoritmo p-SAGE [38].

As redes GO construídas fazem 4428 genes no total para ambos barreira e conjuntos de dados alemães como eles usaram a mesma plataforma de microarray. Pegamos o top 100, 200, …, 500 módulos para posterior análise (Tabela S1). Estes módulos têm um valor de p diferencialmente expressos não superior a 0,005 em ambos os conjunto de dados alemão e conjunto de dados Barreira.

Os módulos mais diferencialmente expressos são não-aleatoriamente associada a recorrência tumoral

Como pode ser visto na Figura 2, encontramos um enriquecimento significativo de genes relacionados com a recorrência do câncer colorretal nestes módulos identificados a partir de conjunto de dados alemã de acordo com ambas as anotações OMIM e PubGene (ver Métodos). Para efeitos de controlo, foi gerada conjuntos de uma mesma quantidade de genes que são identificados como o mais diferencialmente expressos utilizando o t-teste de base em genes individuais ( “genes de T-Test”), ou os conjuntos de genes mais diferencialmente expressos GO classificados por P- SALVA. Comparado a esses dois controles, encontramos as maiores proporções de genes relacionados com a recorrência do câncer colorretal foram no top 50-500 módulos. Eles são cerca de 1.9~3.5 vezes (OMIM) e 2~2.7 vezes (PubGene) mais elevados em relação topo do ranking genes individuais, 2.6~4.7 vezes (OMIM) e 1.7~2.1 vezes (PubGene) mais elevados em relação topo do ranking conjuntos de genes GO (Figura 2 ). Resultados semelhantes também foram observados para Barrier conjunto de dados (Figura S1).

genes CRC conhecidos foram coletadas a partir do PubGene (A) ou OMIM (B). As percentagens foram comparados com aqueles no topo genes diferencialmente expressos (genes t-teste) com o mesmo número de genes no topo do ranking módulos N, ou ir conjuntos de genes com a mesma quantidade de topo do ranking módulos N.

Especificamente, na análise do conjunto de dados alemão, encontramos três quimiocinas (CXCL9, CXCL10 e CXCL11) e seu receptor compartilhada CXCR3 no top 10 módulos. Isto é consistente com a recente descoberta de que CXCR3 e outro CXCL10 ligante promover propriedades relacionadas a invasão no câncer colorretal [39], [40]. Para ver se estes resultados eram reprodutíveis, dividimos aleatoriamente conjunto de dados alemã em duas metades, sendo cada um conjunto de dados menor, com 14 ou 15 tumores não-recorrentes e 13 tumores recorrentes, identificou os 100 principais módulos e verificar se esses genes relacionados quimiocinas iria aparecer . Realizamos essas divisões aleatórios para 1000 vezes e contou as frequências de genes que aparecem pelo menos uma vez em ambas as partes para 100 principais módulos. Além disso, considerando genes hub que têm mais interagindo parceiros teria uma maior chance de aparecer em mais módulos, normalizamos a frequência de cada gene contra a sua conectividade. Encontramos os três quimiocinas: CXCL10, CXCL9 e CXCL11, mas não o seu receptor CXCR3, aparecem o mais frequente (30,5% -44,1%) em todos os 1.000 divisões. No entanto, foi realizada a mesma análise em Barreira conjunto de dados e não encontraram qualquer um dos três quimiocinas a aparecer no top 100 módulos em qualquer grupo aleatório. No entanto, encontramos 19 e 18 dos genes membro na via de sinalização de quimiocinas (190 genes no total) como curador no banco de dados KEGG mostraram-se pelo menos uma vez no top 100 módulos no conjunto de dados alemão e conjunto de dados Barreira, respectivamente (Tabela S2). Eles sobreposto por genes (9 STAT2, STAT3, LYN, MAPK1, FOXO3, NFKB1, GSK3b, PAK1 e PTK2B). Estes resultados indicam a possibilidade de que os módulos superiores foram capazes de capturar mudanças substanciais (10%) na via de sinalização da quimiocina associada com recorrência do tumor, e são reprodutíveis entre diferentes conjuntos de dados. Mas pode ser difícil de obter ainda mais para baixo para genes específicos nestes módulos para usar como marcadores robustos.

Como tumor se desenvolve com o acúmulo de mutações somáticas, que também avaliou se há uma correlação significativa entre os principais módulos e as mutações somáticas identificadas no cancro colorectal do banco de dados cósmica. Nós identificado pela primeira vez os módulos que contêm quantidade significativa de mutações por teste exato de Fisher (p de corte: 0,05). Estes módulos foram nomeados como Mutantes Módulos (MMS). Nós então calculado percentagens de MMS no topo módulos N e os módulos de descanso para se obter um rácio de enriquecimento. Uma relação mais elevada indica um enriquecimento mais elevado de mutações no topo módulos N. Para dataset alemão, encontramos seus principais 50-500 módulos sobrepõem significativamente com MMS (teste exato de Fisher, p 0,002), com as pontuações de enriquecimento em torno de 3-4 (Figura 3). Em contraste, foi realizada uma análise semelhante no topo genes de números semelhantes identificadas pelo teste t convencional ( “genes t-test”), mas não encontrou nenhuma sobreposição significativa com genes em MMS (teste exato de Fisher, valores de p 0,25). As porcentagens de genes mutantes em genes t-teste topo versus os genes de descanso são semelhantes. Para avaliar se o enriquecimento de mutações em módulos superiores estão associados com a recorrência do tumor, que permutada as etiquetas de “recorrência” e “não-retorno” para identificar os melhores módulos e encontraram seus rácios de enriquecimento são cerca de 1,3, o que é comparável aos dos os genes de T-Test. Os resultados semelhantes também foram encontrados em Barreira conjunto de dados (Figura S2).

Por outro lado, os controles são do gene t-teste e permutação de teste. Análise do gene t-teste foi realizado usando o mesmo número de topo genes diferencialmente expressos como o número de genes abrangidos pelos módulos N topo correspondentes.

Para este fim, foi confirmada a primeira suposição de que o módulos principais identificados estão associados de forma não aleatória com recorrência do tumor em dois conjuntos de dados independentes diferentes. Portanto, estes módulos podem ser usados ​​como preditores mais robustos do que os genes específicos para a previsão do prognóstico.

Os módulos mais diferencialmente expressos tinham maior reprodutibilidade

Em seguida, analisámos se as percentagens de sobreposição de módulos superiores são significativamente maior que os controles para ser usado como uma métrica discriminativo. Identificamos topo 100-1000 módulos de Barreira e conjuntos de dados alemãs, respectivamente, e a esses módulos dos dois conjuntos de dados diferentes sobrepostas de forma significativa (p 1.75E-74). Suas percentagens sobrepostas (25,3% -54,9%) são mais de 7 vezes maior do que as percentagens de sobreposição de genes t-teste topo (3,3% -6,6%) e também são cerca de 2 vezes de as percentagens que se sobrepõem médios para as principais módulos identificados após permutando rótulos (Figura 4). Notavelmente, estas percentagens sobreposição também são mais elevados do que os valores extremos obtidos nos casos de permutação, como discrepantes (outlier test Grubbs, valores de p 0,006). Tomados em conjunto, estes resultados apoiaram a nossa segunda hipótese e sugeriu as percentagens de sobreposição de módulos principais são informativos para prever a recorrência do tumor.

A porcentagem de sobreposição é calculado como a razão para o número de intersecção e união dos genes. Comparou-se a porcentagem de sobreposição de genes no topo do ranking módulos N, genes de teste t de topo com o mesmo número de genes em módulos topo N, e seus controles teste de permutação correspondentes.

Um romance classificador baseado na a maioria dos módulos diferencialmente expressos pode produzir previsões prognóstico mais robustos

Dado acima validações dos nossos dois principais pressupostos, nós projetamos o paradigma previsão prognóstico da seguinte forma. Portanto, nós dividir o conjunto de treinamento de tumores em dois conjuntos diferentes. Cada conjunto contém ambos os tumores recorrentes e não recorrentes, de modo que os módulos correspondentes topo pode ser inferida. Uma percentagem de sobreposição (OP_old) destes módulos a partir de ambos os conjuntos foi calculado. Dado um tumor teste, nós assumimos que é “recorrente” e colocá-lo em cada conjunto para identificar os novos módulos principais e calculado o novo percentual de sobreposição (OP_new). Se o tumor teste é “recorrente” como esperado, os antigos e os novos percentuais de sobreposição devem ser comparáveis; caso contrário, as percentagens que se sobrepõem novos seria menor. Deste modo, evitado que, utilizando os genes específicos, mas utilizada toda a informação dos módulos superiores, uma vez que, como mostrado acima, apenas o último é não-aleatoriamente associados com a recorrência do tumor. Nós também evitou o passo problemática dos dados tumorais formação de montagem para uma função estatística arbitrária. Em vez disso, foram usadas as percentagens sobrepostas de módulos superiores que mostrámos deve ser de poder discriminativo suficiente. Mais detalhes podem ser encontrados no MODO E seção MATRIERAL e Figura 5. A seguir, demonstramos a avaliação deste método em três conjuntos de dados independentes e comparou seu desempenho com o dos métodos anteriores usando os mesmos conjuntos de dados.

A conjuntos de tumor formação são primeira amostragem aleatória de todo o conjunto de dados do tumor e, em seguida, aleatoriamente divididos em duas partes iguais, cada parte, incluindo os conjuntos não recorrentes e recorrentes. Seus módulos principais correspondentes foram inferidas pela abordagem mencionado acima e foi calculada a porcentagem de sobreposição (OP_old). Para cada tumor teste X, nós colocá-lo em conjuntos recorrentes para ambas as partes para constituir as novas matrizes de expressão. Os módulos mais diferencialmente expressos para duas novas matrizes de expressão são inferidas respectivamente. A porcentagem de sobreposição (OP_new) destes dois conjuntos de módulos de topo é calculado e normalizado pela OP_old. Considerando o viés da separação no passo 2, as parcelas aleatórias foram repetidos 10 vezes. A média de OP normalizada é atribuído a testar tumor X.

Deixe um fora de validação.

O primeiro avaliou o desempenho do nosso método de previsão por Leave-One-Out de validação, que é uma escolha popular usado em estudos anteriores. Nós relatamos os resultados de uma precisão (a taxa de verdadeiro positivo no ponto mais próximo ao ponto (0,1) do ROC), sensibilidade, especificidade e AUC para comparar com classificadores multi-genes existentes (Figura 6, as informações detalhadas na Tabela S3 ). Por conjunto de dados Alemão, o nosso método conseguido um desempenho mais elevado do que os últimos dois métodos, uma precisão de 76%, cerca de 5-7% mais elevado (Lin07: 71%; Garman08: 69%), uma sensibilidade de 65%, cerca de 3-24% mais elevado (Lin07: 62%; Garman08: 41%), e uma especificidade de 93%, cerca de 5-14% maior (Lin07: 79%; Garman08: 88%). Para Barreira conjunto de dados, o nosso método alcançada uma precisão de 74%, uma sensibilidade de 72%, especificidade de 84%, o que é ligeiramente menor do que os resultados Barrier06 (precisão: 80%; sensibilidade: 75%; especificidade: 85%) usando este conjunto de dados e as assinaturas Barrier06 resultantes. Mas é muito mais elevado do que o outro resultado utilizando o mesmo conjunto de dados e outra assinatura Wang04 (precisão: 67%). Para GSE5206 conjunto de dados que não tem acompanhamento específico de tempo, o nosso método alcançou o menor, mas ainda razoável precisão (68%). É também muito mais baixa do que as precisões obtidos pelos métodos inventados originais utilizando este conjunto de dados (90%; método Garman08). No entanto, observou-se que este método Garman08, quando aplicado a um conjunto de dados diferente (conjunto de dados alemão), só alcançou% de precisão 69. A diferença de cerca de 21% de Garman08 método em diferentes conjuntos de dados podem sugerir um potencial ao longo do encaixe do seu problema classificador ou uma variabilidade indesejavelmente elevada no seu desempenho. Em contraste, os nossos métodos tiveram variabilidade muito menor (diferença 8%), com 74-76% de precisão para a fase inicial (I ou II) tumores em Barreira e conjuntos de dados alemãs, e precisão de 68% para os tumores estádio I-IV em GSE5206 conjunto de dados. Os valores da AUC correspondentes de nosso método também foram semelhantes em todos os três conjuntos de dados:. Alemão – 79%, Barreira – 79% e GSE5206 – 70%

A comparação das AUC (A) e precisão (B) durante três conjuntos de dados: diferentes esquemas de cores e formas indicam três conjuntos de dados independentes (círculo laranja: conjunto de dados alemão; diamante azul: conjunto de dados Barreira; quadrado verde: GSE5206 conjunto de dados). métodos TX_Y (X: top 500 ou 1000 MDM; Y: tumores de referência 10 ou 18 ou Deixe-One-Out método (LOO)). Os símbolos a cheio indicam a média de AUC; A comparação de precisão (C), sensibilidades (D) e especificidades (E) para a previsão do prognóstico entre o nosso método e os métodos atuais com os mesmos conjuntos de dados, incluindo os resultados LOO de Lin07 (L) [3], Garman08 (G) [42] , Barrier06 (B) [5], e também os resultados da Barrier06 obtidos utilizando 34 tumores (TS34), 18 tumores (TS18) ou 10 tumores (TS 10) como o conjunto de treinamento. Os símbolos são preenchidos valor médio. * Os pontos no círculo pontilhada são os resultados dos métodos que foram validados usando tomadores descobertos por um só eo mesmo conjunto de dados.

Para verificar o impacto do tamanho de amostras sobre os métodos de previsão, as amostras de tamanho menor aos 34, 18, 10 ter sido realizada. O valor médio eo intervalo (o valor mínimo e máximo) de precisão, sensibilidade, especificidade e AUC são relatados em cada caso (Figura 6, as informações detalhadas na Tabela S3, e a curva ROC na Figura S3).

Validação com 34 amostras de treinamento.

Nós aleatoriamente pegou n amostras de cada conjunto de dados, onde n = 34, como conjunto de treinamento para prever o risco de recorrência para os tumores de descanso. Para os conjuntos de dados alemãs e de barreira, os desempenhos são muito mais elevados do que os resultados de validação LOO. Em detalhe, o conjunto de dados para alemão, o nosso método alcançada uma precisão de 78%, da AUC de 80%, uma sensibilidade de 80% e uma especificidade de 76%. Para conjuntos de dados de barreira, que alcançou maior precisão de 81% e especificidade de 86%, e menos sensibilidade de 78% do que outros métodos (usando Barreira assinatura: Precisão: 80%; sensibilidade: 91%; especificidade: 72%; com assinatura Wang04: precisão: 70%). Além disso, o método só teve muito menos variabilidade (13% para o conjunto de dados de barreira) do que a do método Barrier06 (31%). Para GSE5206 conjuntos de dados, o desempenho é semelhante com a validação LOO, uma precisão de 70%, a AUC de 66%, uma sensibilidade de 74% e uma especificidade de 68%.

Validação com 18 ou 10 amostras de treinamento.

Deixe uma resposta