PLOS ONE: Seleção de recursos e Câncer Classification via Dispersa Regressão Logística com o híbrido L1 /2 +2 Regularização

Abstract

classificação e recurso Cancer selecção (gene) desempenha um papel importante na descoberta de conhecimento em dados genômicos. Embora a regressão logística é um dos métodos de classificação mais populares, não induz seleção de recurso. Neste artigo, apresentamos um novo híbrido L

1/2 2 regularização (HLR) função, uma combinação linear de L

1/2 e L

2 penalidades, para selecionar o gene relevante no regressão logística. A abordagem HLR herda algumas características fascinantes de L

1/2 (dispersão) e L

2 penalidades (efeito onde as variáveis ​​altamente correlacionadas estão dentro ou fora de um modelo conjunto de agrupamento). Também propôs uma nova abordagem univariada limiar HLR para atualizar os coeficientes estimados e desenvolveu o algoritmo de coordenar a descida para o modelo de regressão logística HLR penalizado. Os resultados empíricos e simulações indicam que o método proposto é altamente competitivo entre os vários métodos state-of-the-art

Citation:. Huang HH, Liu XY, Liang Y (2016) Seleção de recursos e Câncer Classification via Dispersa regressão logística com o híbrido L

1/2 2 Regularização. PLoS ONE 11 (5): e0149675. doi: 10.1371 /journal.pone.0149675

editor: Fengfeng Zhou, da Universidade Jilin, CHINA

Recebido: 18 de setembro de 2015; Aceito: 02 de fevereiro de 2016; Publicado em: 02 de maio de 2016

Direitos de autor: © 2016 Huang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Data Availability:. Todos relevante os dados estão dentro do papel e seus arquivos de suporte de informação

Financiamento:.. Este trabalho foi apoiado pela Ciência e Tecnologia de Macau Desenvolver Fundos (subvenção No. 099/2013 /A3) da RAEM da China

Conflito de interesses: a patente relacionada com um novo híbrido L

função de 1 /2-2 regularização (HLR), uma combinação linear de L1 e L

1/2 penalidades, para selecionar as variáveis ​​relevantes em alta dados demensional está pendente. Isto não altera a nossa adesão a PLOS ONE políticas sobre a partilha de dados e materials.The autores declararam que não existem interesses conflitantes.

1. Introdução

Com os avanços nas técnicas moleculares de alto rendimento, os pesquisadores podem estudar a expressão de dezenas de milhares de genes simultaneamente. classificação do cancro com base nos níveis de expressão de genes é um dos problemas centrais na pesquisa do genoma. A regressão logística é um método de classificação popular e tem uma interpretação estatística explícita que pode obter as probabilidades de classificação em relação ao fenótipo câncer. No entanto, na maioria dos estudos de expressão de genes, o número de genes tipicamente excede em muito o número de o tamanho da amostra. Esta situação é chamado problema de alta-dimensional e baixo tamanho da amostra, e o método de regressão logística normal não pode ser directamente utilizado para estimar os parâmetros de regressão.

Para lidar com o problema da elevada dimensionalidade, uma das técnicas é populares o método de regularização. Um método de regularização bem conhecido é o L

1 penalidade [1], que é o mínimo absoluto encolhimento e seleção de operadora (Lasso). Ele está a efectuar o encolhimento contínuo e selecção de genes ao mesmo tempo. Outro L

1 norma métodos tipo de regularização incluem tipicamente a pena suavemente-cortado-absolute-desvio (SCAD) [2], que é simétrica, nonconcave, e tem singularidades na origem para produzir soluções esparsas. O Lasso adaptativa [3] penaliza os diferentes coeficientes com os pesos dinâmicas do L

1 penalidade. No entanto, o L

1 Tipo de regularização podem produzir seleções de recurso inconsistentes em algumas situações [3] e muitas vezes introduz viés extra na estimativa dos parâmetros na regressão logística [4]. Xu

et al

. [5] propôs a L

1/2 penalidade, um método que pode ser tomado como um representante da L

q (0

q Restaurant 1) penalidades, tanto dispersão e computacional eficiência, e tem demonstrado muitas propriedades atraentes, como viés e oracle propriedades [5-7]. No entanto, semelhante à maioria dos métodos de regularização, o L

1/2 pena ignora a correlação entre as características e, consequentemente, incapaz de analisar os dados com as estruturas dependentes. Se houver um grupo de variáveis ​​entre as quais as correlações de pares são muito elevados, em seguida, a G

1/2 método tende a seleccionar apenas uma variável a representa o grupo correspondente. No estudo de expressão gênica, genes são muitas vezes altamente correlacionados se eles compartilham a mesma via biológica [8]. Alguns esforços foram feitos para lidar com o problema de variáveis ​​altamente correlacionadas. Zhou e Hastie proposto pena de rede elástica [9], que é uma combinação linear de L

1 e L

2 (a técnica cume) penalidades, e tal método enfatiza um efeito de agrupamento, em que os genes fortemente correlacionados tendem a ser em ou fora do modelo em conjunto. Becker

et al

. [10] propôs a Elastic SCAD (SCAD – L

2), uma combinação de SCAD e L

2 penalidades. Ao introduzir o L

2 termo de penalidade, Elastic SCAD também funciona para os grupos de preditores.

Neste artigo, propusemos a HLR (Hybrid L

1/2 + 2 Regularização) abordagem para ajustar os modelos de regressão logística para a seleção genética, onde a regularização é uma combinação linear da L

1/2 e L

2 penalidades. A L

1/2 pena alcança seleção de recurso. Em teoria, uma função de penalidade estritamente convexa fornece uma condição suficiente para o efeito agrupamento de variáveis ​​e L

2 penalidade garante convexidade estrita [11]. Por conseguinte, o G

2 penalidade induz o efeito de agrupamento simultaneamente na abordagem HLR. Os resultados experimentais sobre os dados de expressão de genes artificiais e reais neste artigo demonstram que o nosso método proposto é muito promissor.

O restante do artigo está organizado da seguinte forma. Na Seção 2, primeiro definiu a abordagem HLR e apresentou um algoritmo eficiente para resolver o modelo de regressão logística com a pena de HLR. Na Seção 3, foi avaliado o desempenho de nossa abordagem proposta sobre os dados simulados e cinco conjuntos de dados de expressão gênica público. Nós apresentamos uma conclusão do papel na Seção 4.

2. Métodos

2.1 Regularização

Suponha que dataset

D

possui

n

amostras

D

= {(

X

1,

y

1), (

X

2,

y

2), …, (

X

n

,

y

n

)}, onde

X

i

= (

x

i

1,

x

i

2, …,

x

ip

) é

i

th amostra com

p

dimensional e

y

i

é a variável dependente correspondente

Para qualquer não-negativo

λ

, a forma de regularização normal é:. (1) onde

P

(

β

) representa o termo de regularização. Existem muitos métodos de regularização propostos nos últimos anos. Um dos métodos mais populares é o L

1 regularização (Lasso), onde. Os demais L

1 Tipo regularizações incluem SCAD, o Lasso adaptativa, rede elástica, Palco sábio Lasso [12], Dantzig selector [13] e SCAD Elastic. No entanto, em pesquisa genômica, o resultado da L

1 Tipo de regularização não pode escasso o suficiente para interpretação. Na verdade, um microarray típico ou conjunto de dados RNA-seq tem muitos milhares de preditores (genes), e os pesquisadores muitas vezes vontade de selecionar menos, mas informativos genes. Ao lado disso, o L

1 regularização é assintoticamente tendenciosa [14,15]. Embora o L

0 regularização, onde, produz as soluções sparsest, tem que lidar com NP-hard problema de otimização combinatória. Para obter uma solução mais concisa e melhorar a precisão da previsão do modelo de classificação, precisamos pensar além do L

1 e L

0 regularizações ao L

q (0

q

1) regularização. A L

1/2 regularização pode ser tomado como um representante da L

q (0

q Art 1) As sanções e permitiu uma representação limiar analiticamente expressiva [5]. Com a representação de limiar, resolvendo o L

1/2 regularização é muito mais fácil de resolver o L

0 regularização. Além disso, o L

1/2 pena é de viés e tem propriedades oracle [5-7]. Estas características estão fazendo o L

1/2 pena tornou-se uma ferramenta eficiente para problemas de alta dimensão [16,17]. No entanto, devido à insensibilidade dos dados altamente correlacionados, o L

1/2 penalidade tende a seleccionar apenas uma variável para representar o grupo correlacionada. Este inconveniente pode deteriorar o desempenho da L

1/2 método.

2.2 híbrido L

1/2 2 Regularização (HLR)

Para qualquer fixo não-negativo λ

1 e λ

2, definimos o híbrido L

1/2 2 regularização (HLR) critério: (2) onde

β

= (

β

1, …,

β

p

) são os coeficientes a serem estimados e

o estimador HLR é o minimizador da Equação (2) : (3)

Vamos α =

λ

1 /(1 +

λ

2), em seguida, resolver na Equação (3) é equivalente para o problema de otimização: (4)

Nós chamamos a função

α

Deixe uma resposta