PLOS ONE: Factorization Matrix Semi-Supervisionado Projective não-negativo para o cancro Classification

Abstract

Os avanços em tecnologias de microarray de DNA fizeram expressão gênica perfis candidato significativa na identificação de diferentes tipos de cânceres. métodos de identificação do cancro baseados em aprendizagem tradicionais utilizam amostras marcadas para treinar um classificador, mas eles são inconvenientes para a aplicação prática porque os rótulos são muito caros na comunidade de pesquisa clínica do cancro. Este artigo propõe um método projetivo fatoração de matriz não-negativo semi-supervisionado (Semi-PNMF) para aprender um classificador eficaz de ambas as amostras marcadas e não marcadas, aumentando assim o desempenho de classificação do câncer subsequente. Em particular, a semi-PNMF aprende conjuntamente um subespaço não-negativa a partir de amostras marcadas e não marcadas concatenados e indica classes, as posições dos máximos entradas dos seus coeficientes. Porque Semi-PNMF incorpora informação estatística do grande volume de amostras não marcadas no subespaço aprendeu, ele pode aprender mais subespaços representativos e aumentar o desempenho de classificação. Nós desenvolvemos uma regra de actualização multiplicativo (MUR) para otimizar Semi-PNMF e provou a sua convergência. Os resultados experimentais de classificação do câncer para dois conjuntos de dados de perfil do câncer expressão do gene multiclasse mostram que Semi-PNMF supera os métodos representativos

Citation:. Zhang X, Guan N, Jia Z, Qiu X, Luo Z (2015) Semi -Supervised Projective Factorization Matrix não-negativo para o cancro da Classificação. PLoS ONE 10 (9): e0138814. doi: 10.1371 /journal.pone.0138814

editor: Ramin Homayouni, Universidade de Memphis, United States |

Recebido: 04 de março de 2015; Aceito: 03 de setembro de 2015; Publicação: 22 de setembro de 2015

Direitos de autor: © 2015 Zhang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos os dados relevantes estão dentro do papel e seus arquivos de suporte de informação. Todos os dados relevantes estão disponíveis no repositório Zenodo, ea URL de acesso é https://zenodo.org/record/21712

Financiamento:. Este trabalho foi financiado pelo Ministério da Educação da República Popular da China Grant número 20134307110017 (www.moe.edu.cn), PI: Zhigang Luo e National Natural Science Foundation da China Grant número 91.024.030 /G03 (https://www.nsfc.gov.cn/), PI:. Xiaogang Qiu

Conflito de interesses:. Os autores declararam que não existem interesses conflitantes

Introdução

Em prognóstico e tratamento do câncer, é crucial para identificar os diferentes tipos e subtipos de câncer. Os métodos tradicionais muitas vezes dependem de aparências morfológicas semelhantes, mas facilmente induzir diferentes cursos clínicos e respostas à terapia por causa de interpretações subjectivas e experiência pessoal. Isso geralmente resulta em confusão diagnóstica. Felizmente, o surgimento da técnica de DNA microarray remove essa barreira em forma objectiva e sistemática e mostrou grande potencial na previsão resultado de tipos de câncer em escalas do genoma [1-11].

numerosos métodos de aprendizagem têm foram desenvolvidos para a classificação do cancro com base em perfis de expressão de gene da [1-3]. Por exemplo, Golub

et al.

[1] usou um esquema de votação ponderada para a classificação molecular de leucemia aguda. Nguyen

et al.

[3] incorporada mínimos quadrados parciais (PLS) para a discriminação logística e análise discriminante quadrática para a classificação tumor. No entanto, estes métodos não são convenientes para aplicações práticas, porque as amostras marcadas são muito caros na comunidade de pesquisa clínica do cancro. Para superar essa deficiência, Xu

et al.

[12] usou o método semi-supervisionado ARTMAP Ellipsoid (ssEAM) para a classificação do câncer. Shi

et al.

[13] utilizou o método semi-supervisionado denominado separação de baixa densidade (LDS, [14]) para classificar diferentes tipos de cânceres. Além disso, Maulik

et al.

[15] investigaram a eficácia do SVM transdutivo (TSVM, [16]) na classificação do câncer. No entanto, esses desafios algorítmicos envolvem a maldição da dimensionalidade, que indica que o número esmagador de medidas para os níveis de expressão de genes contrastar com o pequeno número de amostras.

Este problema muitas vezes exige técnicas de redução de dimensão. Este artigo centra-se na fatoração de matriz não-negativo (NMF [17, 18]), porque ele é uma estrutura flexível para a realização de redução de dimensão e realizando classificação e agrupamento tarefas [19-26]. NMF decompõe-se uma matriz de dados para o produto de dois factores não-negativos. Devido à sua eficácia, NMF e suas variantes tenham sido aplicadas à análise de conjuntos de dados em grande escala de expressão de genes [27-29], a classificação do cancro [30, 31] e de classe nova descoberta [30]. Brunet

et al.

[31] inicialmente adoptada NMF para descobrir meta-padrões moleculares, agrupando amostras de leucemia, meduloblastoma e tumores do sistema nervoso central, e indicando que NMF supera tanto o agrupamento hierarquia (HC) e auto-organização mapa (SOM). No entanto, NMF não garante explicitamente a escassez da decomposição e viola a propriedade de exclusividade. Trabalhos recentes [32] mostram que isso muitas vezes prejudica o desempenho clustering. Para abordar esta questão, Li

et al.

[32] propuseram locais NMF (LNMF) para ultrapassar esta deficiência através da imposição das restrições esparsas sobre a decomposição. Hoyer

et al.

Proposta escassa NMF (SNMF, [33]) para impor sparseness em NMF penalizando o número de entradas diferentes de zero dos coeficientes em vez do que a soma das entradas. Além disso, Gao

et al.

[34] utilizada SNMF para identificar os meta-padrões de vários tipos de câncer para identificar diferentes tipos de tumores.

Uma vez que os métodos acima mencionados siga teoria regularização, ficam solidariamente não-convexa e são difíceis de optimizar. Ao contrário dos métodos acima, Yuan

et al.

[35] desenvolveu o NMF projetiva (PNMF) para induzir representação baseados peças-impondo implicitamente a restrição ortogonal sobre a base. No entanto, porque estes métodos são métodos de aprendizagem não supervisionada que não levam em conta as etiquetas, o seu desempenho na classificação câncer pode ser melhorada. Neste trabalho, propomos um método semi-supervisionado projetiva NMF (Semi-PNMF) que utiliza ambas as amostras marcadas e não marcadas para aumentar o desempenho de classificação. Particularmente, semi-PNMF aprende um subespaço não-negativa a partir de amostras marcadas e não marcadas concatenados e prediz as classes pelo índice de maiores entradas dos seus coeficientes. Beneficiando de os dados não marcados, Semi-PNMF pode aprender mais subespaços representativos, que são benéficos para tarefas de classificação. Nós exploramos a regra de actualização multiplicativo (MUR) para resolver Semi-PNMF e provou a sua convergência. Os resultados experimentais de identificação do câncer de gene do cancro conjuntos de dados perfil de expressão multiclasse incluindo GCM [8] e Leucemia Aguda [36] conjuntos de dados mostram que Semi-PNMF supera os métodos representativos em termos de quantidade.

Materiais e Métodos

Semi-supervisionado Projective não negativo Matrix factorization

Projective fatoração de matriz não-negativo (PNMF) aprende uma matriz de projeção não-negativo para projetar dados de alta-dimensional para o subespaço de menor dimensão. Porque ele pode aprender partes com base em representação, PNMF tem sido amplamente aplicada no reconhecimento de padrões [21, 26, 35, 37]. Aqui, nós apresentamos a outra forma de representação da PNMF que aprende os coeficientes de menor dimensão das amostras para aproximar o indicador de classe para clustering. Esta baseia-se no pressuposto de que a base se encontra no subespaço gerado pelas amostras originais. Dada a matriz de dados

V

= [

v

1, ⋯,

v

n

]

T

R

n

×

m

, onde

n

denota o número de amostras e

m

sua dimensionalidade, PNMF aprende os coeficientes

H

R

n

×

r

para representar amostras originais, ou seja, (1) onde ∥ • ∥

F

denota a matriz Frobenius norma e

r

o número de clusters.

Tal como no objetivo (1), é não-trivial para analisar a convergência na teoria, porque Eq (1) contém um termo de quarta ordem. Para remover um termo tão alta ordem, primeiro introduzir uma variável auxiliar, isto é, os centróides de cluster, ea restrição de igualdade na Eq (1). Assim, podemos obter (2)

O objetivo é muito semelhante ao BPNMF [26], mas não podemos aplicar diretamente o algoritmo de otimização de BPNMF para otimizá-lo, especialmente quando restrições adicionais, tais como a restrição de escassez e regularização Laplacian são aplicadas ao longo dos coeficientes, como estes constrangimentos facilmente induzir PNMF para produzir a solução trivial. Para evitar tal problema, propomos um método semi-supervisionado PNMF (Semi-PNMF) mediante a reformulação Eq (2) como (3) onde

α

≥ 0 é uma constante regularização e

W

denota o centróide do cluster não negativo. Modelo (3) difere significativamente do BPNMF porque Eq (3) favorece a capacidade de representante dos centroids do cluster, enquanto BPNMF centra-se na ortogonalidade do subespaço não negativo. Assim, a Equação (3) induz os coeficientes esparsos, enquanto BPNMF produz a base esparsa.

De acordo com a Equação (3), podemos incorporar a coordenada local constrangimento [38] para melhorar o poder de representante da base, Enquanto isso ainda induzir os coeficientes esparsos para ser verdadeiros classes. Assim, reformulação Eq (3) como o seguinte formulário regularização: (4) onde

β

comercializa fora da regularização de coordenadas local e

H

ij

denota

i

-a linha e

j

elemento de coluna -ésimo de coeficientes

H

,

W

j

e

V

i

, significando o

i

-ésimo e

j

-ésimo vetor linha de

W

e

V

, respectivamente.

Para fazer uso total de amostras parciais marcadas, nós propagar as etiquetas de amostras marcadas para os não marcados, minimizando a distância entre os seus coeficientes e o indicador de classe correspondente. Particularmente, solicitamos os coeficientes de amostras marcadas para ser equivalente com o indicador de classe correspondente. Considere a primeira

d

exemplos rotulados e o resto não marcado; a matriz de dados

V Como pode ser dividido em duas partes, isto é,. Então, podemos obter a função objetivo do Semi-PNMF da seguinte forma: (5) onde

Q

denota a matriz rótulo parcial, em que

Q

ij

= 1 se

v

i

pertence ao

j

classe -ésimo; Caso contrário,

Q

ij

= 0. Ambos

H

U Comprar e

n

U

denotam os coeficientes e número de amostras não marcadas, respectivamente.

Curiosamente, Semi-PNMF tem dois aspectos distintos. Primeiro, ele substitui os coeficientes aprendidas das amostras marcadas com o indicador de classe correspondente. A restrição é tão forte que a base aprendeu desvia completamente as amostras rotuladas. Isto pode induzir a solução trivial para os coeficientes das amostras não marcadas. Em segundo lugar, Semi-PNMF ignora completamente a contribuição representação das amostras rotuladas. É tão ininteligível que a base aprendeu só favorece as amostras não marcadas. Depreende-se que ambos os aspectos contraditórios entre si, mas intrinsecamente, que mutuamente se complementam no nosso Semi-PNMF. Em essência, o primeiro aspecto corresponde a aprendizagem supervisionada, o que gera a solução razoável mas não garante que é consistente com a distribuição de dados subjacente, enquanto o segundo se considera a distribuição de dados, mas não pode produzir a solução razoável. Assim, a combinação dos dois aspectos podem mutuamente se complementam mutuamente. Semi-PNMF aprende como base partilhada pelos exemplos marcados e não marcados, por sua vez induzir casos semelhantes a ter uma representação semelhante, isto é, os coeficientes. Porque impor a restrição de que os coeficientes de amostras marcadas ser seus rótulos, bem como o de coordenadas local de restrição através da base e coeficientes, os coeficientes de exemplo não marcados são implicitamente como esparso como os vectores de etiquetas. Desta forma, semi-PNMF propaga de forma eficaz as etiquetas de amostras marcadas para os não marcados. Por conseguinte, segundo a classificação do cancro, é razoável que, para cada amostra não marcada, nós escolhemos o índice de a maior entrada do seu coeficiente de prever as classes de esta amostra uma vez objectivo (5) produz os seus coeficientes. A intuição acima pode ser ainda verificada pelo exemplo dado brinquedo nas figuras 1 e 2.

Na Fig (A), ambos os marcadores quadrados e círculos significam as amostras não marcados e marcados, respectivamente, e três cores diferentes ficar por três categorias diferentes. Fig (b) mostra que as amostras não marcadas são marcadas como os marcadores de cores e rés-do-verdade. Figuras (c) e (d) mostra os coeficientes de base e aprendidas pela semi-PNMF, respectivamente. O índice do valor máximo do coeficiente para uma amostra não marcado aparece em vermelho e indica sua classe.

Optimization Algoritmo

É difícil para otimizar Eq (5), porque a mesma é solidariamente não-convexa com respeito a ambos

W

e

H

. Felizmente, é convexa em relação ao

W

e

H

, respectivamente. Assim, podemos estabelecer o seguinte teorema:

Teorema 1: A função objetivo (5) é não aumentar sob as seguintes regras de atualização multiplicativos: (6) e (7), onde ⊗ denota o elemento-wise operador de produto,

F

U

=

diag

(

soma

(

H

U

)),

a

= [

a

, ⋯,

a

] na qual, e

b

= [

b

, ⋯,

b

], em que

b

=

diag

(

WW

T

) .

Proof. De acordo com a Equação (5), podemos atingir o objectivo em relação ao

W

da seguinte forma: (8), onde denota a matriz diagonal cujos elementos diagonais são o

i

valores vetor linha -ésimo de

V

U

.

por Eq (8), podemos definir a função de auxiliar do

J

(

W

) como (9)

Obviamente, objectivo (9) tem (10)

podemos obter o derivado da Equação (9) da seguinte forma: (11) com base na Eq ( 11), tem-se (12)

por simples álgebra, a fórmula (6) pode ser deduzida a partir da Equação (12). Da mesma forma, podemos obter a função de auxiliar do

J

(

H

U

) da seguinte forma: (13)

Ambiente, nós tem (14)

Assim, de acordo com a Eq (14), nós também obter a regra de actualização (7) para

H

U

.

Além disso, de acordo com as equações (10), (12) e (14), temos (15)

com base na Equação (15), estas regras de atualização sempre garantir que a função objetivo monotonamente diminui. Assim, este completa a prova. ■

De acordo com o teorema acima, podemos resumir a regra de actualização multiplicativo (MUR) para Semi-PNMF no Algoritmo 1.

Algoritmo 1 MUR para Semi-PNMF

Input : Exemplos

V

R

m

×

n

, parâmetro de penalidade

α

, matriz rótulo parcial

Q

saída:.

H

U

1:. aleatoriamente inicializar

W

0 e, e

l

= 0.

2: repetir

3: Atualização

W

l

1 de acordo com a Eq (6)

. 4: Calcule acordo com a Equação (7)

5:.

l

l

. 1

6: até {Parar critério é satisfeito.}

7:.

Para reduzir a sobrecarga tempo, Algoritmo 1 utiliza o erro relativo objectivo que a parada critério; Além disso, definir

ɛ

a 10

-7 em nossos experimentos. O principal custo de tempo de Algoritmo 1 mentiras na linha 3 e linha 4. As complexidades de tempo são

O

(

r

2

n

+

mrn

+

r

2

m

+

rm

) e

O

(

mr

(

n Restaurant –

d

) +

r

2

m

+

rm

+

r

2 +

r

2 (

n Restaurant –

d

)), respectivamente. Assim, a complexidade do tempo total do Algoritmo 1 é

O

(

r

2

n

+

mrn

+

mr

(

n Restaurant –

d

) +

mrd

+

r

2

m

+

rm

+

r

2 +

r

2 (

n Restaurant –

d

).)

resultados

esta seção realiza uma série de experimentos em ambos os conjuntos de dados sintéticos e do mundo real para verificar o método proposto neste trabalho.

Dataset Synthetic

esta seção gera um pequeno conjunto de dados sintético para esclarecer o mecanismo de Semi-PNMF. O conjunto de dados sintético consiste em três categorias construídas pelos seguintes amostras aleatórias: andwhere

x

R

3, e cada um a sua entrada é amostrado a partir da distribuição uniforme padrão

U

(0,1). Para cada categoria, foram geradas aleatoriamente 10 amostras, dentro dos quais três amostras foram selecionadas como amostras marcadas e o resto, como os não marcados. Por conseguinte, o conjunto de dados sintético contém 30 amostras no total. Para clara ilustração, três categorias são marcadas como três cores diferentes, e as amostras marcadas e não marcadas são distinguidos por duas formas.

Figura 1 (a) e 1 (b) mostra a verdade chão e resultante resultados marcados de as amostras não marcadas por Semi-PNMF, respectivamente, enquanto a Fig 1 (c) e 1 (d) exibe os coeficientes aprendidas das amostras não marcadas e base. Na figura 1 (d), cada linha de base aprendi tem cores diferentes, o que implica que a base representa os centróides de diferentes categorias e possui a capacidade de representação discriminativo. De acordo com a Figura 1 (c), cada linha dos coeficientes aprendidas é o coeficiente de menos dimensões da amostra não marcado correspondente. Quanto maior a entrada do coeficiente é, quanto mais escura a cor é. Como se mostra na Fig 1 (c), a entrada máxima do coeficiente excede largamente as outras entradas. Todas as entradas máximas fazer os coeficientes de pegar o formulário diagonal e implicam os membros dos grupos de todas as amostras. Assim, é razoável para seleccionar o índice da entrada máximo do coeficiente de como as classes de uma amostra não marcada. Isto verifica a nossa intuição anterior. Desde todas as amostras compartilha a base comum, os seus coeficientes de tornar-se próximos uns dos outros se eles têm os mesmos rótulos. Nós impor a restrição de que os coeficientes de amostras marcadas ser equivalentes aos seus vectores de etiqueta, e, assim, este também induz os coeficientes do não marcado de estar perto dos seus portadores de etiquetas. Desta forma, semi-PNMF pode propagar as etiquetas das amostras marcadas para os não marcados. O procedimento de propagação é ilustrada na Figura 2.

GCM Dataset

Esta experiência meramente compara métodos de aprendizagem semi-supervisionada tradicionais, incluindo a separação de baixa densidade (LDS, [14]), transdutivo SVM (TSVM, [16]), constrangido NMF (CNMF, [24]), soft-constrangidos NMF (SCNMF, [25]) e Semi-PNMF separando diferentes tipos de cânceres no conjunto de dados GCM. O conjunto de dados GCM [8] contém os perfis de expressão de 218 amostras de tumores representam 14 classes comuns de câncer humano. Ele está disponível no site público: https://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi, e também pode ser baixado do site: https://zenodo.org/record/21712. De acordo com [8], nós combinamos os treinos e testes conjunto de estes dados de expressão de genes em um conjunto de dados para a classificação câncer. Assim, o conjunto de dados combinado contém 198 amostras com 16.063 genes. A Tabela 1 apresenta uma breve descrição deste conjunto de dados. Para remover valores muito baixos ruidosos e efeitos de saturação de valores muito elevados, que ligado os dados de expressão de genes para uma restrição a caixa específica variando de 20 a 16.000 unidades e, em seguida, excluir esses genes cujas proporções e variações absolutas em toda amostras são sob 5 e 500, respectivamente . Consequentemente, o resultante conjunto de dados perfil de expressão contém os 11.370 genes que passam. Nós comparamos a eficácia do Semi-PNMF com LDS, TSVM, CNMF e SCNMF sob diferentes configurações. Ambos CNMF e SCNMF envolvem nenhum ajuste de parâmetros. Para Semi-PNMF, vamos definir dois parâmetros

α

= 2, e

β

= 0,0001, respectivamente. Como esses métodos representativos permitir a convergência dentro de 1.500 rodadas de iteração, vamos definir o número máximo de loops para 1.500. Para LDS e TSVM, adotamos as definições dos parâmetros previstos no código-fonte para a obtenção dos resultados da classificação.

Nós avaliamos a classificação do câncer pela validação cruzada ao longo de todo o conjunto de dados. Este processo seleciona uma amostra como a amostra não marcado e, enquanto isso, aprende o modelo de previsão sobre todas as amostras para diagnóstico de câncer. Para a amostra não marcada, nós escolhemos o índice do maior valor da matriz de consenso resultante para prever as classes de esta amostra. Como mostrado nas Figs 3 a 7, a matriz de confusão de resultados previstos da semi-PNMF, CNMF, SCNMF, LDS e TSVM são indicados em pormenor. Cada coluna indica quantas as amostras não marcadas são atribuídos a cada cancro, enquanto que cada fileira significa o número de amostras não marcadas associadas com o tipo de tumor reais. Cada cor representa não só um tipo de câncer específico, mas também destaca os resultados previsão correta, ou seja, os elementos da diagonal da matriz de confusão.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse na GCM dataset.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse no conjunto de dados GCM.

Matrix delineia distribuição de real em comparação com a adesão da classe prevista para previsão multiclasse câncer no conjunto de dados GCM.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse no conjunto de dados GCM.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse no conjunto de dados GCM.

Figuras 3 a 7 implica que Semi-PNMF pode identificar diferentes tipos de tumores mais precisão do que os métodos representativos. Por exemplo, quando se trabalha com duas amostras marcadas de cada tipo de tumor, Semi-PNMF atinge 70,71% de precisão de classificação e excede LDS, TSVM, SCNMF e CNMF de 10,6%, 21,72%, 21,72% e 32,3%, respectivamente. Além disso, a Tabela 2 implica ainda a eficácia do Semi-PNMF comparação com CNMF, SCNMF, TSVM e LDS tanto em termos de sensibilidade e especificidade. Para completar, listamos as suas definições da seguinte forma: (16) e (17) em que

TP

,

TN

,

FP

, e

FN

denotam o número de verdadeiros verdadeiros amostras positivas, negativas, falso positivos e falso-negativos, respectivamente.

o número de exemplos rotulados é um fator importante que afeta o desempenho dos métodos semi-supervisionado de aprendizagem. Por isso, é muito necessário para observar a precisão da classificação de Semi-PNMF sob diferentes números (1-6) de amostras marcadas em cada classe. Aqui, nós escolher aleatoriamente um número diferente de exemplos de cada classe como exemplos rotulados e considerar o resto como não marcada. Para comparação justa, conduzimos de forma independente 100 trilhas experimentais individuais para remover o efeito de aleatoriedade.

Figura 8 compara a precisão média de CNMF, SCNMF, TSVM, LDS e Semi-PNMF sob diferentes números de amostras marcadas para cada classe. Ele também mostra que Semi-PNMF alcança a mais alta precisão e assume uma tendência crescente com o aumento do número de amostras rotuladas.

Leucemia Aguda Dataset

Nós também realizamos um câncer experimento de classificação para verificar o desempenho de classificação de Semi-PNMF em comparação com a separação de baixa densidade (LDS, [14]), transdutivo SVM (TSVM, [16]), constrangido NMF (CNMF, [24]), e NMF soft-restrita ( SCNMF, [25]) em um outro conjunto de dados popular, ou seja, o conjunto de dados leucemia aguda [36]. Este conjunto de dados vem de Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE13159), e também pode ser baixado do site: https: //zenodo. org /gravação /21712. Nós substituir as entradas indisponíveis desse conjunto de dados com os valores médios de seus

k

-nearest elementos vizinhos. Este conjunto de dados consiste de 2.096 amostras, juntamente com 54.675 sondas no total. Este conjunto de dados contém diferentes subtipos de cancro da leucemia aguda e, portanto, não é adequado para a classificação do cancro, em contraste com o conjunto de dados MGC. Tabela 3 dá uma breve descrição deste conjunto de dados. Então, nós alimentamos esse conjunto de dados a todos os métodos de comparação.

Para Semi-PNMF, vamos definir dois parâmetros

α

= 0,2, e

β

= 0,01 . Para os métodos de aprendizagem semi-supervisionada tradicionais, adotamos as mesmas configurações como o inciso acima. O processo de validação cruzada no número anterior é realizado várias vezes para avaliar os métodos de comparação sobre este conjunto de dados. Como mostrado nas Figs 9 e 13, a matriz de confusão de resultados previstos da semi-PNMF, CNMF, SCNMF, LDS e TSVM são indicados em pormenor. Cada coluna indica o número de amostras não marcadas são atribuídos para cada subtipo do cancro, enquanto que cada fileira significa o número de amostras não marcadas associadas ao subtipo do tumor real. Cada cor representa não só um subtipo de câncer específico, mas também destaca os resultados previsão correta, ou seja, os elementos da diagonal da matriz de confusão.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse na Aguda leucemia conjunto de dados.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse no conjunto de dados leucemia aguda.

Matrix delineia distribuição de real em comparação com a classe predita associação para predição de câncer multiclasse no conjunto de dados leucemia aguda.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse no conjunto de dados leucemia aguda.

Matrix delineia distribuição de real em comparação com a adesão classe prevista para a previsão do câncer multiclasse no conjunto de dados leucemia aguda.

Figuras 9 a 13 implica que Semi-PNMF pode identificar diferentes tipos de tumores mais precisão do que os métodos representativos. Semi-PNMF atinge o maior total precisão de classificação em comparação com CNMF, SCNMF, TSVM e LDS em termos dos resultados de previsão na matriz de confusão. Além disso, a Tabela 4 também indicam que os produtos semi-PNMF consistentemente supera os métodos comparados no dezoito subtipos de cancro tanto em termos de sensibilidade e especificidade. Em resumo, estes resultados sugerem a eficácia do Semi-PNMF na classificação câncer.

O número de amostras marcadas é um fator importante que afeta o desempenho dos métodos de aprendizagem semi-supervisionadas. Por isso, é muito necessário para observar a precisão da classificação de Semi-PNMF sob diferentes números (1-6) de amostras marcadas em cada classe. Aqui, nós escolher aleatoriamente um número diferente de exemplos de cada classe como exemplos rotulados e considerar o resto como não marcada. Em seguida, realizamos de forma independente 10 trilhas experimentais individuais para remover o efeito de aleatoriedade.

Figura 14 compara a precisão média de CNMF, SCNMF, TSVM, LDS e Semi-PNMF sob diferentes números de amostras marcadas para cada classe . Ele também mostra que Semi-PNMF alcança a mais alta precisão e tem uma tendência crescente com o aumento do número de amostras rotuladas.

Discussão

Este documento propõe a PNMF semi-supervisionado método (semi-PNMF), que incorpora dois tipos de restrições, bem como a base auxiliar para aumentar a PNMF. Particularmente, Semi-PNMF utiliza a combinação linear de exemplos, que harmoniza as centroids de cluster de tal forma que os centróides de fragmentação têm mais poderosa capacidade representativa. Para indicar eficazmente as classes de amostras não marcadas, Semi-PNMF reforça os coeficientes de amostras marcadas para abordar seus rótulos, representando, entretanto, as amostras não marcadas usando o centróide do cluster idênticos. Para otimizar Semi-PNMF, eu inventei a regra de atualização multiplicativo (MUR) para estabelecer a garantia da convergência. Experimentos de classificação do cancro em dois conjuntos de dados do mundo real mostram que Semi-PNMF supera os métodos representativos em termos de quantidade.

Recentemente, métodos de Bayesian que incorporam tanto dispersão e um grande número de co-variáveis ​​no modelo têm sido extensivamente utilizado para estimativa de parâmetros e classificação em conjuntos de dados em comparação com amostras de pequenas dimensões, tais como dados de expressão gênica [39-41]. Eles também melhorar a precisão do modelo, introduzindo um ligeiro desvio no modelo [40]. Em trabalhos futuros, podemos tomar emprestado de os méritos de métodos bayesianos para melhorar ainda mais o desempenho da classificação de Semi-PNMF para um conjunto de dados em grande escala. Semi-PNMF tem proporcionado um quadro flexível para métodos de processamento de dados câncer de aprender e pode ser utilizado em outras aplicações, como a recorrência do câncer [42, 43].

Deixe uma resposta