Abstract
classificação e recurso Cancer selecção (gene) desempenha um papel importante na descoberta de conhecimento em dados genômicos. Embora a regressão logística é um dos métodos de classificação mais populares, não induz seleção de recurso. Neste artigo, apresentamos um novo híbrido L
1/2 2 regularização (HLR) função, uma combinação linear de L
1/2 e L
2 penalidades, para selecionar o gene relevante no regressão logística. A abordagem HLR herda algumas características fascinantes de L
1/2 (dispersão) e L
2 penalidades (efeito onde as variáveis altamente correlacionadas estão dentro ou fora de um modelo conjunto de agrupamento). Também propôs uma nova abordagem univariada limiar HLR para atualizar os coeficientes estimados e desenvolveu o algoritmo de coordenar a descida para o modelo de regressão logística HLR penalizado. Os resultados empíricos e simulações indicam que o método proposto é altamente competitivo entre os vários métodos state-of-the-art
Citation:. Huang HH, Liu XY, Liang Y (2016) Seleção de recursos e Câncer Classification via Dispersa regressão logística com o híbrido L
1/2 2 Regularização. PLoS ONE 11 (5): e0149675. doi: 10.1371 /journal.pone.0149675
editor: Fengfeng Zhou, da Universidade Jilin, CHINA
Recebido: 18 de setembro de 2015; Aceito: 02 de fevereiro de 2016; Publicado em: 02 de maio de 2016
Direitos de autor: © 2016 Huang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados
Data Availability:. Todos relevante os dados estão dentro do papel e seus arquivos de suporte de informação
Financiamento:.. Este trabalho foi apoiado pela Ciência e Tecnologia de Macau Desenvolver Fundos (subvenção No. 099/2013 /A3) da RAEM da China
Conflito de interesses: a patente relacionada com um novo híbrido L
função de 1 /2-2 regularização (HLR), uma combinação linear de L1 e L
1/2 penalidades, para selecionar as variáveis relevantes em alta dados demensional está pendente. Isto não altera a nossa adesão a PLOS ONE políticas sobre a partilha de dados e materials.The autores declararam que não existem interesses conflitantes.
1. Introdução
Com os avanços nas técnicas moleculares de alto rendimento, os pesquisadores podem estudar a expressão de dezenas de milhares de genes simultaneamente. classificação do cancro com base nos níveis de expressão de genes é um dos problemas centrais na pesquisa do genoma. A regressão logística é um método de classificação popular e tem uma interpretação estatística explícita que pode obter as probabilidades de classificação em relação ao fenótipo câncer. No entanto, na maioria dos estudos de expressão de genes, o número de genes tipicamente excede em muito o número de o tamanho da amostra. Esta situação é chamado problema de alta-dimensional e baixo tamanho da amostra, e o método de regressão logística normal não pode ser directamente utilizado para estimar os parâmetros de regressão.
Para lidar com o problema da elevada dimensionalidade, uma das técnicas é populares o método de regularização. Um método de regularização bem conhecido é o L
1 penalidade [1], que é o mínimo absoluto encolhimento e seleção de operadora (Lasso). Ele está a efectuar o encolhimento contínuo e selecção de genes ao mesmo tempo. Outro L
1 norma métodos tipo de regularização incluem tipicamente a pena suavemente-cortado-absolute-desvio (SCAD) [2], que é simétrica, nonconcave, e tem singularidades na origem para produzir soluções esparsas. O Lasso adaptativa [3] penaliza os diferentes coeficientes com os pesos dinâmicas do L
1 penalidade. No entanto, o L
1 Tipo de regularização podem produzir seleções de recurso inconsistentes em algumas situações [3] e muitas vezes introduz viés extra na estimativa dos parâmetros na regressão logística [4]. Xu
et al
. [5] propôs a L
1/2 penalidade, um método que pode ser tomado como um representante da L
q (0
q Restaurant 1) penalidades, tanto dispersão e computacional eficiência, e tem demonstrado muitas propriedades atraentes, como viés e oracle propriedades [5-7]. No entanto, semelhante à maioria dos métodos de regularização, o L
1/2 pena ignora a correlação entre as características e, consequentemente, incapaz de analisar os dados com as estruturas dependentes. Se houver um grupo de variáveis entre as quais as correlações de pares são muito elevados, em seguida, a G
1/2 método tende a seleccionar apenas uma variável a representa o grupo correspondente. No estudo de expressão gênica, genes são muitas vezes altamente correlacionados se eles compartilham a mesma via biológica [8]. Alguns esforços foram feitos para lidar com o problema de variáveis altamente correlacionadas. Zhou e Hastie proposto pena de rede elástica [9], que é uma combinação linear de L
1 e L
2 (a técnica cume) penalidades, e tal método enfatiza um efeito de agrupamento, em que os genes fortemente correlacionados tendem a ser em ou fora do modelo em conjunto. Becker
et al
. [10] propôs a Elastic SCAD (SCAD – L
2), uma combinação de SCAD e L
2 penalidades. Ao introduzir o L
2 termo de penalidade, Elastic SCAD também funciona para os grupos de preditores.
Neste artigo, propusemos a HLR (Hybrid L
1/2 + 2 Regularização) abordagem para ajustar os modelos de regressão logística para a seleção genética, onde a regularização é uma combinação linear da L
1/2 e L
2 penalidades. A L
1/2 pena alcança seleção de recurso. Em teoria, uma função de penalidade estritamente convexa fornece uma condição suficiente para o efeito agrupamento de variáveis e L
2 penalidade garante convexidade estrita [11]. Por conseguinte, o G
2 penalidade induz o efeito de agrupamento simultaneamente na abordagem HLR. Os resultados experimentais sobre os dados de expressão de genes artificiais e reais neste artigo demonstram que o nosso método proposto é muito promissor.
O restante do artigo está organizado da seguinte forma. Na Seção 2, primeiro definiu a abordagem HLR e apresentou um algoritmo eficiente para resolver o modelo de regressão logística com a pena de HLR. Na Seção 3, foi avaliado o desempenho de nossa abordagem proposta sobre os dados simulados e cinco conjuntos de dados de expressão gênica público. Nós apresentamos uma conclusão do papel na Seção 4.
2. Métodos
2.1 Regularização
Suponha que dataset
D
possui
n
amostras
D
= {(
X
1,
y
1), (
X
2,
y
2), …, (
X
n
,
y
n
)}, onde
X
i
= (
x
i
1,
x
i
2, …,
x
ip
) é
i
th amostra com
p
dimensional e
y
i
é a variável dependente correspondente
Para qualquer não-negativo
λ
, a forma de regularização normal é:. (1) onde
P
(
β
) representa o termo de regularização. Existem muitos métodos de regularização propostos nos últimos anos. Um dos métodos mais populares é o L
1 regularização (Lasso), onde. Os demais L
1 Tipo regularizações incluem SCAD, o Lasso adaptativa, rede elástica, Palco sábio Lasso [12], Dantzig selector [13] e SCAD Elastic. No entanto, em pesquisa genômica, o resultado da L
1 Tipo de regularização não pode escasso o suficiente para interpretação. Na verdade, um microarray típico ou conjunto de dados RNA-seq tem muitos milhares de preditores (genes), e os pesquisadores muitas vezes vontade de selecionar menos, mas informativos genes. Ao lado disso, o L
1 regularização é assintoticamente tendenciosa [14,15]. Embora o L
0 regularização, onde, produz as soluções sparsest, tem que lidar com NP-hard problema de otimização combinatória. Para obter uma solução mais concisa e melhorar a precisão da previsão do modelo de classificação, precisamos pensar além do L
1 e L
0 regularizações ao L
q (0
q
1) regularização. A L
1/2 regularização pode ser tomado como um representante da L
q (0
q Art 1) As sanções e permitiu uma representação limiar analiticamente expressiva [5]. Com a representação de limiar, resolvendo o L
1/2 regularização é muito mais fácil de resolver o L
0 regularização. Além disso, o L
1/2 pena é de viés e tem propriedades oracle [5-7]. Estas características estão fazendo o L
1/2 pena tornou-se uma ferramenta eficiente para problemas de alta dimensão [16,17]. No entanto, devido à insensibilidade dos dados altamente correlacionados, o L
1/2 penalidade tende a seleccionar apenas uma variável para representar o grupo correlacionada. Este inconveniente pode deteriorar o desempenho da L
1/2 método.
2.2 híbrido L
1/2 2 Regularização (HLR)
Para qualquer fixo não-negativo λ
1 e λ
2, definimos o híbrido L
1/2 2 regularização (HLR) critério: (2) onde
β
= (
β
1, …,
β
p
) são os coeficientes a serem estimados e
o estimador HLR é o minimizador da Equação (2) : (3)
Vamos α =
λ
1 /(1 +
λ
2), em seguida, resolver na Equação (3) é equivalente para o problema de otimização: (4)
Nós chamamos a função
α