PLOS ONE: Construção Integrative Gene rede para analisar recorrência do câncer Usando Semi-Supervisionado Learning

Abstract

Fundo

O prognóstico de recorrência do câncer é uma importante área de pesquisa em bioinformática e é um desafio devido à os tamanhos de amostra pequenos em comparação com o grande número de genes. Houve várias tentativas de prever a recorrência do câncer. A maioria dos estudos utilizou uma abordagem supervisionado, que usa apenas algumas amostras marcadas. aprendizado semi-supervisionado pode ser uma ótima alternativa para resolver este problema. Houve algumas tentativas baseadas em suposições múltiplas para revelar as funções detalhadas de genes de câncer identificados na recorrência.

Resultados

A fim de prever a recorrência do câncer, foi proposto um novo algoritmo de aprendizado semi-supervisionado com base numa abordagem gráfico de regularização. Nós transformou os dados de expressão gênica em uma estrutura de gráfico para o aprendizado semi-supervisionado e dados de interação proteína integrados com os dados de expressão gênica para selecionar pares de genes relacionados com o funcionalmente. Então, nós previmos a recorrência de câncer através da aplicação de uma abordagem de regularização ao gráfico construída contendo ambos os nós rotulados e não rotulados.

Conclusões

A taxa média de melhora de precisão para três conjuntos de dados diferentes de câncer foi de 24,9 % em relação a métodos supervisionados e semi-supervisionado existentes. Foi realizada enriquecimento funcional nas redes de genes usados ​​para a aprendizagem. Identificamos que essas redes de genes estão significativamente associados com funções biológicas do câncer de recidiva relacionados. Nosso algoritmo foi desenvolvido com o padrão C ++ e está disponível em formatos Linux e MS Windows na biblioteca STL. O programa executável está livremente disponível em:. https://embio.yonsei.ac.kr/~Park/ssl.php

Citation: Parque C, Ahn J, Kim H, Parque S (2014) Integrative gene Rede de construção para analisar recorrência do câncer utilizando o aprendizado semi-supervisionado. PLoS ONE 9 (1): e86309. doi: 10.1371 /journal.pone.0086309

editor: Peter CSERMELY, Universidade Semmelweis, Hungria

Recebido: 03 de julho de 2013; Aceito: 09 de dezembro de 2013; Publicação: 31 de janeiro de 2014

Direitos de autor: © 2014 Park et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada pela Fundação Nacional de Pesquisa da Coreia concessão (NRF) financiado pelo governo da Coreia (MSIP) (NRF-2012R1A2A1A01010775). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Identificar biomarcadores de câncer para o diagnóstico e prognóstico é um dos campos de pesquisa mais importantes da bioinformática. O uso de biomarcadores de câncer precisas pode ajudar a determinar a terapia apropriada com base no estado do paciente. Esses biomarcadores podem ser apresentadas como uma lista de genes ou estrutura de rede de genes. Microarray expressão do gene com base tem sido utilizada para identificar estes biomarcadores [1], [2], [3]. Além disso, vários estudos recentes têm utilizado não só dados de expressão de genes, mas também dados interactome para melhorar o desempenho preditivo. genes relacionados com o cancro conhecidos não são distinguíveis por si só nível de expressão de genes. Chuang

et al

. demonstrou que a integração de dados interactome e transcriptoma foi útil para a identificação de sub-redes funcionais co-expressas, e as interações entre as sub-redes agiu como um marcador com maior precisão da classificação [4]. Taylor

et al

. analisados ​​modularidade global em redes de interação de proteínas e revelou que o hub intermodular, um dos dois tipos de hubs, foi mais frequentemente associada a oncogênese [5]. Ahn

et al

. propôs um método de classificação precisos novos e usando a integração de ambos os dados interactome e transcriptoma [6]. Eles também construído redes de genes específicos de cancro derivadas de seu método de classificação e revelou que os genes relacionados com o cancro em uma rede desempenham um papel importante no cancro [6].

Embora a expressão do gene e de dados interactome são muito úteis para o cancro pesquisa, o número relativamente pequeno de amostras em comparação com o número de genes conduz a desafios em análise [7]. A fiabilidade de descobrir genes diferencialmente expressos em duas condições diferentes é diminuída pelo pequeno tamanho das amostras. Tem havido tentativas para superar esta limitação de dados de expressão gênica baseada em microarrays [8]. Shi

et al

. mencionado que a obtenção de dados de microarray com os dados de acompanhamento clínico é demorada, dispendiosa, e limitada pela disponibilidade de amostra [9]. Estes resultados implicam que as abordagens baseadas-aprendizagem supervisionada existentes que usam apenas dados rotulados ainda tem limitações.

Uma abordagem para completar as pequenas quantidades de dados marcado é aprendizado semi-supervisionado, que é uma combinação de super- Vised e métodos sem supervisão. combina a aprendizagem semi-supervisionadas marcados e não marcados dados para construir um modelo de aprendizagem com maior precisão [10]. Geralmente, classificação semi-supervisionado é usado quando existem dados mais não marcados do que os dados marcados. Em tal caso, pensa-se que o conhecimento dos dados não marcados serão úteis na inferência de regras de classificação precisos durante o processo de aprendizagem.

Recentemente, abordagens baseadas aprendizagem semi-supervisionada têm sido amplamente aplicada a biológica A análise de dados, incluindo interacções genéticas. Você

et al

. desenvolvido um classificador de aprendizado semi-supervisionado baseado em gráfico que pode prever pares interações genéticas sintéticos [11]. Como os perfis de interacção genética pode ajudar a criar uma melhor compreensão das ligações entre genes e vias funcionais, um algoritmo exato para prever interações genéticas é altamente desejável, apesar da falta de uma rede de gene funcional de alta precisão. abordagens semi-supervisionado de aprendizagem também foram aplicados a estudos relacionados com prognóstico. Nguyen

et al

. propôs um método baseado aprendizado semi-supervisionado para prever genes envolvidos na doença por inferir ambos os genes de doenças e seus vizinhos através de redes de interação de proteínas [12]. Bair

et al

. propôs a utilização de ambos os dados clínicos disponíveis e os dados de expressão de genes para identificar o subconjunto dos genes utilizados para realizar agrupamento semissupervisionado [13]. O método foi usado para revelar subtipos de cancro e prever a sobrevivência do paciente. Joshua Smith

et al

. perfis de expressão de gene utilizado para identificar um gene associado com o classificador de um elevado risco de metástases e morte por cancro do cólon [14].

Como mencionado acima, as abordagens semi-supervisionado pode complementar as limitações da análise de dados de expressão de genes, tais como a falta de uma classe clínica atribuídos para cada paciente. Shi

et al

. propôs um classificador semi-supervisionado baseado em separação baixa densidade que pode identificar de alto risco e pacientes de baixo risco [9]. Esse estudo, que usou rotulados e amostras de expressão gênica não marcados, mostraram maior precisão em comparação com as abordagens existentes com base no aprendizado supervisionado. No entanto, não houve uma tentativa de aplicar a aprendizagem semi-supervisionado e a integração de dados interactome e transcriptoma para superar o pequeno número de amostras marcadas e para melhorar o desempenho da classificação e previsão. A integração de dados heterogêneos pode ajudar a distinguir genes mais significativas a partir dos dados de expressão de genes usados ​​para construir classificadores, como mencionado acima.

Neste artigo, usamos regularização gráfico e integração de dados de transcriptoma e interactome para construir uma romance semi-supervisionado classificador à base de aprendizagem para câncer humano, e construiu uma rede de genes específicos de câncer. A regularização gráfico é baseado no “pressuposto colector ‘, onde a construção de modelos de gráficos é uma fase importante. Na concepção do modelo gráfico para a classificação, construímos o gráfico utilizando amostras marcadas e não marcadas como nós. A ligação entre duas amostras foi calculada utilizando os pares de genes informativos seleccionados. Na seleção de pares de genes úteis, integramos interação proteína-proteína de dados (PPI) com dados de expressão gênica. dados de PPI forneceu informações sobre a relação funcional entre as proteínas e foi aplicado aos genes ligados por PPIs. Depois de selecionar pares de genes, foi aplicado um esquema de pontuação proposto em um artigo anterior [6]. Estamos focados em mama, colo-rectal e cancro da próstata para prever reincidência do câncer. dados de expressão de mRNA “Três pacientes com câncer incluídas ambas as amostras não marcadas e rotuladas.

Nós demonstramos que (i) a proposta de aprendizagem baseada em classificação de melhor desempenho previsão semi-supervisionado em comparação com os métodos existentes, incluindo TSVM, que é um semi- supervisionado versão do SVM aprendizagem, (ii) o método proposto era aplicável a diferentes tipos de cancro, (iii) o método proposto foi robusto, independentemente do rácio de etiqueta de classe e (iv) a rede do gene específico do cancro derivado do classificador era biologicamente significativa, e os genes específicos do cancro desta rede desempenhou um papel como membros de processos biológicos complexos.

Métodos

dados de expressão gênica

Para construir um classificador semi-supervisionado de aprendizagem, primeiro integrados com PPI e identificados pares de genes informativos com as amostras marcadas. Em segundo lugar, nós construímos um modelo gráfico baseado amostra usando genes informativos selecionados a fim de construir um classificador.

Dados Descrição

Nós baixado os conjuntos de dados de três cancros da Expressão Gênica Omnibus de expressão gênica (GEO ) do banco de dados. A tabela 1 resume a especificação detalhada dos conjuntos de dados. O GSE2990 conjunto de dados de expressão gênica foi composta de 125 amostras de cancro da mama invasivo classificados em dois grupos, alto e baixo risco de recorrência; 64 amostras não tinha um rótulo de classe. A expressão do gene dataset GSE17536 foi composta de 177 pacientes com câncer colorretal. As amostras foram classificadas em três grupos:. “Recorrência”, “sem recorrência,” e “não marcado” com base na observação de reincidência no prazo de cinco anos de follow-up, os rótulos foram atribuídos a amostras. As amostras não marcadas não tinha clínicos dados de acompanhamento. O GSE17538 conjunto de dados de expressão gênica foi composta de 213 amostras de câncer de cólon, que também foram classificadas em três grupos mencionados acima. Uma descrição mais detalhada dos conjuntos de dados de acordo com a plataforma experimental é apresentado na Tabela S2 em S1 Ficheiro.

baixado também 194,988 IPP humanos da base de dados I2D, que incluiu conhecidos, experimentais, e previu IPP . Porque as proteínas nestes PPIs foram mapeados em símbolos de genes utilizando Resource Protein Universal (UniProt), obtivemos 108,544 PPIs após a remoção PPIs duplicados e PPIs que continham proteínas que não foram mapeados para um símbolo do gene.

Visão Geral do Sistema

Esta seção descreve um romance algoritmo de aprendizado semi-supervisionado baseado em gráfico para prognóstico do câncer. O gráfico é composto por nós e arestas correspondentes às amostras e as interacções entre duas amostras, respectivamente. O gráfico é construído com as duas amostras marcadas e não marcadas de dados de expressão de genes, e as amostras não marcados foram subsequentemente marcada com base na geometria da estrutura de gráfico. Portanto, é muito importante para gerar um gráfico à base de amostra a partir do conjunto de dados dada. Propomos um método de construção de gráfico romance que é especializado para um conjunto de dados microarray. Com base neste método de construção de gráfico, desenvolvemos um algoritmo de aprendizado semi-supervisionado que usa gráfico de regularização.

Nesta abordagem, o gráfico em si é um classificador. Assim, os parâmetros para construir o gráfico implica que eles são os principais fatores do classificador. Os resultados da classificação são dependentes dos parâmetros. aprendizado semi-supervisionado geralmente utiliza o recurso ou informação subjacente dos dados não marcados. Esta abordagem assume que os dados não marcado é capaz de melhorar o desempenho da classificação. De acordo com esta característica distintiva do aprendizado semi-supervisionado, aproveitamos dos dados não marcados para a construção de um classificador.

O método proposto tem duas fases. A primeira fase é determinar os parâmetros ótimos candidatos à regularização gráfico variando os intervalos de parâmetro no

k

vezes de validação cruzada. Após esta fase, construímos o gráfico com as duas amostras marcadas e não marcadas. Em seguida, identificar se os resultados da classificação de regularização gráfico são alterados ou convergentes. Se eles forem alterados, consideramos os dados não marcados classificados como dados recém-rotulados e usá-los para determinar os parâmetros candidatos ideais. Neste processo iterativo, a informação de amostras não marcado é fornecida. O método de aprendizagem semi-supervisionada anterior proposto em [9] também usou amostras não marcadas para construir um classificador baseado em Low Density Separação (LDS). A Figura 1 mostra todo o fluxo de trabalho, incluindo o módulo de aprendizagem semi-supervisionado para determinar os parâmetros ideais de nosso método.

Em primeiro lugar, construir um gráfico de regularização com amostras única rotulados variando dois parâmetros. Nesta fase, usamos

k

vezes de validação cruzada para determinar o conjunto de parâmetros ideais. Em seguida, aplicamos semi-supervisionado aprender com os obtidos conjunto de parâmetros ideal e prever os rótulos das amostras desconhecidas. O método proposto utiliza informações não marcado amostra para construir um classificador por iteração do procedimento.

Os detalhes do módulo de aprendizagem semi-supervisionado neste fluxo de trabalho são descritos nas seções a seguir. Este módulo é constituído pelos seguintes três etapas principais: (1) identificação de pares de genes informativos, (2) construção de gráficos da amostra com genes selecionados, e (3) a regularização do gráfico e previsão das etiquetas das amostras não marcadas. O fluxo de trabalho do módulo de semi-supervisionado de aprendizagem é mostrado na Figura 2.

Nós aplicamos uma abordagem regularização gráfico para o aprendizado semi-supervisionado, e o propósito do método proposto é de prever os rótulos de amostras não marcadas.

Identificação de pares de genes informativos

Há dezenas de milhares de genes em conjuntos de dados de microarrays, e só alguns deles são específicos para a classificação da amostra. pares de genes informativos indicam interações que são diacríticos nas duas classes contrárias de amostras marcadas. Adotamos e modificou nosso esquema anteriormente proposto para a identificação de interações no conjunto de dados de expressão gênica [6]. Nesse estudo, foi demonstrado que a intensidade de algumas interacções podem ser diferentes entre células normais e células tumorais. Nós também elucidado que as mudanças no nível de interação poderia ser a causa ou o efeito de tumorigênese, e que a modificação dos complexos de proteína pode afetar diversas interações, como resultado de desenvolvimento de neoplasias.

A medição das mudanças nas interações podem ser considerados como a identificação do grau de dependência entre os dois genes. Um grande valor da correlação entre dois genes como um grau de mudança indica que há uma forte dependência entre os dois genes. Com base neste raciocínio, propomos um esquema de pontuação para calcular a força da ligação entre dois genes que estão ligados através de IPP. Usando essa medida, podemos facilitar a seleção de interações informativas de conjuntos de dados de expressão de genes, uma vez que a rede específica de câncer foi construído com base em uma função de pontuação similar. Em outras palavras, podemos escolher as interações especificadas para recorrência do tumor, usando o esquema de pontuação proposto. A pontuação de dois genes é calculado pela seguinte equação: onde

g

iC

1 e

g

iC

2 são vectores da expressão de mRNA valor do gene

i

em amostras das classes 1 e 2, respectivamente, e

g

JC

1 e

g

JC

2 são vetores de o valor da expressão de mRNA do gene

j

em amostras das classes 1 e 2. Apenas os pares de genes com um valor de pontuação maior do que

limite

g

são considerados como sendo significativamente diferente entre duas classes. Este esquema de pontuação é realizada apenas com as amostras marcadas no conjunto de dados de expressão gênica. Um exemplo simples de calcular valores de pontuação é mostrado na Figura S1 S1 Arquivo.

Construção do gráfico

baseada em amostras

Nós construímos um gráfico com base em amostra de regularização. O peso de um par da amostra é calculada pelo coeficiente de correlação de Pearson (PCC) entre dois vectores de amostra que são compostas dos genes como elementos, em que os genes são obtidos a partir de pares de genes informativos. Ambos rotulado e as amostras não marcadas são usadas no gráfico. A função de peso é a seguinte: onde

S

*

i

e

S

*

j Quais são vetores de o valor da amostra expressão de mRNA

i

e da amostra

j

, respectivamente, dos pares de genes selecionados com valores maiores do que

limite

s

. Assume-se que existe uma relação significativa entre as duas amostras, quando eles são altamente associados uns com os outros com um desenho em positivo ou negativo. Podemos transformar o conjunto de dados de expressão gênica em uma estrutura de gráfico que pode ser regularizada. Um exemplo simples de cálculo do valor do peso é mostrado na Figura S1 S1 Arquivo.

Regularização do gráfico

Com base na estrutura gráfico baseado em amostra derivada a partir do método mencionado acima, rótulos são atribuídos aos nós não marcados. Para conseguir isso, nós empregamos uma abordagem básica de regularização. Para a regularização do gráfico, estimamos um quadro de regularização com base nos pressupostos múltiplas. A função de custo para a regularização é a seguinte: onde

y

e

y

indicam, respectivamente, as etiquetas iniciais e os rótulos estimados para ambos os dados rotulados e não rotulados.

W

ij

indica o peso entre o nó

i

eo nó

j

. O número total de ambos os nós rotulados e não rotulados é

n

, e o número de nós rotulados é

l

. No nosso problema,

y

indica amostras marcadas e não marcadas do conjunto de dados do cancro, e

W

ij

é obtido utilizando a função peso definido no capítulo acima. Usando a função de custo, podemos medir a consistência com a rotulagem inicial usando o primeiro termo, e vamos atribuir uma penalidade para a regularização utilizando o segundo mandato. Usando o segundo mandato, calculamos a diferença ponderada entre dois nós, sem considerar se eles estão ou não rotulados. O principal objectivo da presente função de custo é a minimizar a diferença ponderada entre todos os nós. Este processo refere-se a regularização e é equivalente ao algoritmo de propagação de etiqueta. No nosso caso, é desnecessário voltar a atribuir etiquetas com os dados marcados por terem já sido confirmado clinicamente. Portanto, no primeiro termo da função de custo,

y

i

é obrigado a ser igual a

y

i

. Como resultado, a função de custo pode ser transformada na seguinte função com um gráfico Laplacian.

em

L

é a un-normalizado gráfico Laplacian e

D

é um matriz diagonal da matriz de peso

W

. Esta função penaliza rótulo muda rápido no

y

entre dois pontos de dados perto de acordo com a matriz dada peso. Várias aproximações foram propostas para minimizar esta função ao longo do

y

u

, onde

y

u

indica o rótulo estimada para os dados não marcados e

y

l

indica os dados marcados. Minimização da função em relação ao

y

u

converte em função seguinte.

Prevemos os rótulos para os dados não marcados usando este cálculo. Uma vez que não se concentrar no desenvolvimento de novos algoritmo de aprendizado semi-supervisionado, que empregam uma abordagem geral regularização para o gráfico da amostra ponderada, e é suficiente para aplicar a abordagem geral para o nosso problema.

Resultados

Realizamos experimentos para obter a melhor combinação de dois limiares para a pontuação de um par de genes eo peso do gráfico baseada em amostra. Nós, então, comparada nosso método com vários métodos existentes, a fim de avaliar o seu desempenho. Por fim, analisamos a rede derivada de nosso método com a lista gene câncer relacionado conhecido.

A obtenção da Optimal Parâmetros

Foram utilizados dois parâmetros tanto para identificar pares de genes informativos e atribuir pesos para provar pares . Para encontrar as melhores combinações destes dois parâmetros, medimos a precisão do modelo de classificação proposto usando

k

vezes de validação cruzada através da variação destes dois parâmetros. Mudamos o limiar

g

valor 0,15-0,6 em intervalos de 0,05 e

limite

s

valor 0,72-0,9 em intervalos de 0,02. Em geral, realizamos 100 experimentos diferentes, variando estes dois limiares e medir a precisão de cada experiência pela média do

k

precisões gerado durante

k

vezes de validação cruzada. Figura S2 no arquivo S1 mostra o fluxo de trabalho da avaliação do nosso método. Para medir a precisão do método de aprendizado semi-supervisionado, nós só usamos amostras marcadas e assumiu que algumas das amostras eram não marcado. Usando estes dois grupos de amostras marcadas e não marcadas, construímos o gráfico e realizada a regularização.

Para determinar a classificação das amostras não marcados, foi aplicado um método heurístico denominado Classe Normalização Massa (CMN) proposta por [15]. Em geral, a regra de decisão atribui etiqueta 1 para o nó

i

se o valor calculado após a regularização é maior do que 0,5, e no rótulo 0 caso contrário. No entanto, esta abordagem decisão só é eficaz quando as aulas são bem separados. Como os dados de expressão de genes nem sempre têm o mesmo número de amostras por classe, adotamos CMN para identificar o rótulo de classe final. CMN ajusta o critério para a determinação do rótulo de classe de acordo com a relação entre a massa das classes.

Os resultados experimentais obtidos a partir variando os parâmetros são apresentados na Figura 3. Foram realizadas experiências de 100 diferentes, variando os dois valores de limiar para cada conjunto de dados. Para cada experimento, foi realizada

k

vezes de validação cruzada e média

k

precisões. O objectivo deste processo foi o de comparar a exactidão de classificação em 100 experiências diferentes. Também realizamos os mesmos experimentos com um conjunto de dados ajustado, que tinha o mesmo número de amostras para ambos os grupos de recorrência e de não-retorno uma vez que diferentes proporções de rótulos de classe pode afetar o desempenho do classificador. O nosso método utiliza semi-supervisionado regularização gráfico à base de aprendizagem, que é influenciada pela estrutura geométrica do gráfico, para classificar a etiqueta. Se as proporções relativas das duas classes diferem consideravelmente, as etiquetas de um pequeno número de amostras não pode ser propagada através do gráfico. Isso pode afetar o desempenho de classificação. Todos os conjuntos de dados de cancro escolhidos foram divididos em grupos de amostra original e ajustados. No restante deste artigo, descrevemos um experimento realizado com estes dois grupos. Obtivemos dois valores óptima limite em precisão máxima para cada conjunto de dados, conforme mostrado na Figura 3. Também encontramos os limites ideais ao alterar o

k

valor de validação cruzada. Os resultados experimentais de

k

= 5 e

k

= 20 estão descritos na Tabela S5 em S1 Arquivo. Os resultados experimentais estão apresentados na Tabela 2. Para mostrar uma eficácia de dados não marcados, que também realizados os experimentos variando o número de amostras não marcadas. O resultado experimental fundamentada de que a precisão foi melhorada de acordo com o aumento do número de amostras não marcadas. Este resultado experimental é mostrado na tabela S6 em S1 Arquivo.

Foram realizadas 100 experiências diferentes ao mudar dois limiares e obtidos 100 precisão média para cada conjunto de dados utilizando validação cruzada 10 vezes. Nós encontramos o máximo, mínimo e precisão média para cada conjunto de dados em dois casos. (1) Realizou-se validação cruzada 10 vezes mais de 100 vezes, variando os dois limiares das amostras originais como mostrado na Tabela 1. (2) Também foi realizada a validação cruzada de 10 vezes mais de 100 vezes, variando os dois limiares depois equilibrando o número de amostras em duas classes. Nós amostras retiradas aleatoriamente 27, 73, e 83 a partir dos grupos de não-retorno GSE2990, GSE17536 e GSE17538, respectivamente.

A comparação com os métodos existentes

Foram comparados os método proposto com três algoritmos típicos classificação supervisionada implementadas em Weka 3.6.8, ou seja, Support Vector Machine (SVM) [16], Naïve Bayesiana [17], e aleatória Floresta [18]. Além disso, nós também comparou o nosso método com TSVM, que é uma versão de aprendizado semi-supervisionado de SVM e foi implementado em SVM-luz.

Foram comparadas as precisões, incluindo as sensibilidades e especificidades, do método proposto e outros métodos utilizando validação cruzada 10 vezes. Nós dividimos o conjunto de dados em dois grupos como mencionado acima, e repetiu a experiência de 15 vezes cada um para três tipos de câncer. Foram calculados os valores médios de precisão, sensibilidade e especificidade para cada conjunto de dados no grupo ajustado. A sensibilidade e especificidade do TSVM não poderia ser calculado desde TSVM da SVM-luz fornecida exatidão, precisão e recall. A Tabela 3 resume os resultados destes testes. No grupo original, a precisão do nosso método foi geralmente melhor do que a dos métodos comparativos. Em particular, a diferença de desempenho entre o método proposto e outros algoritmos no grupo ajustado foi maior do que no grupo de origem. Se a proporção de rótulos de classe é tendenciosa em um conjunto de dados de treinamento, o classificador pode ser mais equipado para uma etiqueta maior. A proporção de rótulos de classe no grupo original foi inclinado para o rótulo não-retorno, “-1”. Portanto, a sensibilidade e a especificidade da maior parte dos métodos de comparação, incluindo o nosso método, eram diferentes. Desde prevendo ambos os rótulos é importante em predizer a recorrência do câncer, maior sensibilidade e especificidade de classificação são melhores. No grupo ajustado, o nosso método teve maior sensibilidade, especificidade e precisão do que os métodos de comparação. Geralmente, confirmou-se que o método proposto teve um desempenho superior ao dos outros métodos.

A precisão média aumentou 24,9% em comparação com os quatro métodos existentes. Por exemplo, como mostrado na Tabela 3, a precisão do método proposto foi 0,725 e a precisão de TSVM foi 0,543 para o conjunto de dados do cancro da mama, sem ajustar a razão de etiqueta da classe, uma melhoria de aproximadamente 33%. A proporção média de melhoria de todos os conjuntos de dados foi de 24,9%. Cinco dos seis conjuntos de dados experimentais incluídos os grupos de amostra adequado, ea precisão do método proposto foi maior do que os métodos existentes. A diferença média de precisão do método proposto e os seus concorrentes era 0,139. Também obtivemos os valores da AUC para cada conjunto de dados experimental. Como mostrado na Figura 4, o método proposto mostrou um valor de AUC particularmente mais elevado para o conjunto de dados do cancro da mama e um valor superior a AUC em comparação com outros métodos existentes para quatro dos seis conjuntos de dados experimentais.

comparados os valores de AUC do método proposto e outros algoritmos de aprendizado supervisionado.

Além disso, foi realizado um teste independente, onde foi aplicado o alívio-F para selecionar genes informativos em vez de PPI. Também foi realizada uma análise estatística de diferença significativa na precisão para comparação entre métodos. Os resultados experimentais detalhados estão descritos na informação de suporte da Tabela S1, Tabela S3, S4 e Tabela em S1 Arquivo.

Discussão

O desempenho de um método de classificação é influenciada pela proporção de formação dados em cada classe. A contribuição computacional do método proposto consiste na determinação da precisão coerente das diferenças na proporção de classes. Isto é vantajoso uma vez que o número de amostras para cada classe não pode ser ajustada durante o teste independente. Além disso, apesar de classificação com base na aprendizagem semi-supervisionado foi aplicado a conjuntos de dados de microarray, os resultados do método proposto demonstrar que a abordagem baseada no ‘pressuposto suavidade’ foi suficiente para a aplicação clínica.

Para reduzir o dimensão dos dados microarray, foram selecionados conjuntos de genes com fortes interações biológicas. Portanto, o gráfico com base em amostra de regularização foi construído com base no conhecimento biológico. O conjunto de genes seleccionados pode ser referida como uma rede de genes específicos de recorrência. Nossa análise demonstrou que esta rede gene era biologicamente significativas em relação à recorrência do câncer. Para analisar a rede gene do cancro-específicos de recorrência, que enriqueceu o conjunto de genes informativo derivado do conjunto de parâmetros ideal usando o banco de dados Gene Ontology (GO) e bingo [19]. Entre os muitos termos GO enriquecidos, enfocamos os relacionados com a recorrência do câncer. Entre os vários termos relacionados com recorrência, nós nos concentramos em termos GO relacionadas com “proliferação” e analisou as redes sub-gene para aqueles GO termos, referindo-se à literatura. Para melhor analisar os detalhes dos sub redes relacionadas com a proliferação em cada um cancro, ilustramos as redes usando Cytoscape [20], como se mostra na Figura 5, Figura S3 no ficheiro S1 e S4 na Figura Ficheiro S1.

os nós de cor laranja são oncogenes.

o método proposto identificada da rede sub-gene composto por BRCA1, CCND1, STAT1, e CCNB1, mostrado na Figura 4, em que o oncogene BRCA1 primário foi ligado com outro oncogene CCND1 e dois genes estruturada-hub, CCNB1 e STAT1. Assumiu-se que estas sub-redes de genes estavam relacionados com a recorrência do câncer de mama. Os genes CCND1, CCNB1 e STAT1 BRCA1 vizinhos também foram relatados para ter papéis importantes na recorrência do câncer de mama. CCND1 é um gene principal na regulação da progressão do ciclo celular, e Shu

et al

. relatado uma associação entre o risco de câncer de mama e de sobrevivência com base em polimorfismos CCND1 [21]. CCNB1 um gene DX Oncotype foi relatado que STAT1 foi significativamente relacionada com a activação de IFN-γ e os seus efeitos antitumorais [22], [23]. Se a expressão dependente de STAT1 de proteínas de MHC é aumentada, a proliferação do tumor e a sobrevivência estão inibida pela activação de IFN-γ. Desmedt

et al

. concluiu que a ativação de STAT1 desempenha um papel importante na morte de células tumorais e a ativação de genes apoptóticos [23].

Conclusões

Neste estudo, foi proposto um aprendizado semi-supervisionado romance método baseado na regularização gráfico, a fim de prever a recorrência do câncer. Também mostraram que as redes de genes específicos de recorrência derivados do método proposto contêm vários genes relacionados à recorrência. Nós integramos os dados de PPI com os dados de expressão de genes para produzir um conjunto de genes informativo e analisar o processo biológico relacionado com recorrência.

Deixe uma resposta