PLOS ONE: recursiva Aleatório Lasso (RRLasso) para identificar Anti-Cancer da droga Targets

genes

Abstract

Descobrindo motorista é crucial para compreender a heterogeneidade no câncer.

L

abordagens de regularização 1 do tipo têm sido amplamente utilizados para descobrir genes motorista câncer com base em dados de escala genoma. Embora os métodos existentes têm sido amplamente aplicada na área de bioinformática, eles possuem várias desvantagens: limitações de tamanho subconjunto, resultados de estimativa errôneas, multicolinearidade e consumo de tempo pesado. Nós introduzimos uma estratégia estatística novela, chamada de recursiva Aleatório Lasso (

RRLasso

), em alta dimensional análise de dados genômicos e investigação de genes do controlador. Para a análise eficaz de tempo, considera-se um procedimento de inicialização recursiva em linha com o laço aleatório. Além disso, apresentamos um teste estatístico paramétrico para a seleção gene condutor com base nos resultados de modelagem de regressão de bootstrap. A proposta de

RRLasso

não só é rápida, mas executa bem em alta análise de dados genômicos dimensional. simulações e análise da “Sanger Genomics de sensibilidade às drogas no conjunto de dados Cancer do Projeto Genoma Câncer” Monte Carlo mostram que a proposta de

RRLasso

é uma ferramenta eficaz em alta análise de dados genômicos dimensional. Os métodos propostos fornecer resultados fiáveis ​​e biologicamente relevantes para a seleção gene motorista câncer

Citation:. Parque H, Imoto S, Miyano S (2015) recursiva Aleatório Lasso (

RRLasso

) para identificar Anti- Alvos câncer de medicamentos. PLoS ONE 10 (11): e0141869. doi: 10.1371 /journal.pone.0141869

editor: Xiaodong Cai, da Universidade de Miami, United States |

Recebido: 05 de maio de 2015; Aceito: 14 de outubro de 2015; Publicação: 06 de novembro de 2015

Direitos de autor: © 2015 Park et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Dados Disponibilidade: O Sanger Genomics de sensibilidade às drogas no conjunto de dados Cancer do Projeto do Genoma do Câncer (https://www.cancerrxgene.org/)

financiamento:.. os autores não têm apoio ou financiamento para relatar

Conflito de interesses os autores declararam que não existem interesses conflitantes

Introdução

Muita pesquisa está em andamento para compreender a complexidade das redes genéticas heterogêneas subjacentes câncer.. Para identificar as redes genéticas heterogêneas que fundamentam o câncer, vários projectos de grande escala genómica (por exemplo, o Projeto do Genoma do Câncer, The Cancer Genome Atlas (TCGA), Sanger Genomics de sensibilidade às drogas no conjunto de dados Cancer do Projeto do Genoma do Câncer, e outros) têm foram iniciadas e forneceram grandes quantidades de dados, tais como dados genéticos e epigenômico para pacientes de cancro ou linhas celulares. Uma questão crucial na pesquisa do câncer é identificar genes motorista câncer com base em diversas análises de dados genómico (por exemplo, os níveis de expressão, copie variações no número, metilação, e outros), uma vez que a identificação eficiente dos alvos de drogas câncer facilita o desenvolvimento de terapias bem-sucedidas anti-câncer. Embora vários

L

abordagens de regularização

1 do tipo, por exemplo, lasso [1] e rede elástica [2], têm sido amplamente utilizados para identificar genes de driver de câncer, eles possuem várias desvantagens como ferramentas para gene motorista identificação [3]. O lasso lasso e adaptativa [4] sofrem com a limitação do tamanho do subconjunto (ou seja, estes métodos selecionar recursos no máximo tamanho da amostra,

n

). A rede elástica, que tem sido amplamente utilizado em pesquisa bioinformática, podem proporcionar resultados errados de estimativa dos coeficientes de variáveis ​​altamente correlacionada com magnitudes diferentes, especialmente aqueles que diferem no sinal, devido ao seu “efeito de agrupamento”. No entanto, os coeficientes de variáveis ​​altamente correlacionadas com diferentes magnitudes são frequentemente observadas na pesquisa bioinformática, uma vez que genes em vias biológicas comuns são geralmente correlacionadas, e seus coeficientes de regressão pode ter diferentes magnitudes ou sinais diferentes. Além disso, adaptativa

L

métodos de regularização

1 do tipo sofrem de multicolinearidade, uma vez que os seus dados adaptativas pesos impulsionadas são baseados em Mínimos Quadrados Ordinários (MQO) estimadores.

Para resolver esses problemas, Wang et al. [3] propôs um laço aleatório com base em modelos de regressão de bootstrap com o método de floresta aleatória. Embora o laço aleatório supera as desvantagens do actual

L

abordagens de regularização 1-tipo usando uma estratégia florestal aleatória, o método é computacionalmente intensivas porque emprega dois procedimentos passo de bootstrap. Além disso, Wang et al. [3] realizaram selecção final recurso baseado em um limiar decidiu arbitrariamente, embora os resultados de seleção de variáveis ​​dependem fortemente do limiar.

Propomos uma estratégia estatística romance para identificar genes de driver de anti-câncer de sensibilidade às drogas em linha com o lasso aleatória. Nós introduzimos abordagens de bootstrap recursiva para medir simultaneamente a importância de cada gene e realizar a seleção gene motorista. Propomos também um limiar romance baseado em um teste estatístico paramétrico para identificar efetivamente genes condutor baseadas em modelos de regressão de bootstrap. Usando um procedimento de inicialização recursiva, realizamos modelo de regressão de inicialização rápida e eficiente em alta análise de dados genômicos dimensional, sem perda de precisão de modelagem. Além disso, o método de seleção de recurso proposto por meio do teste estatístico paramétrico pode ser uma ferramenta útil para a seleção de variáveis ​​com base no modelo de regressão de bootstrap.

Usando simulações de Monte Carlo de vários cenários, que demonstram a eficácia do lasso aleatória recursivo proposto e rede elástica com um teste estatístico paramétrico para a modelagem de regressão dimensional elevada. Também aplicamos a estratégia estatística proposto à disposição do público “Sanger Genomics de sensibilidade às drogas no conjunto de dados Cancer do Projeto Genoma Câncer” (https://www.cancerrxgene.org/), e identificar genes motor potencial de sensibilidade às drogas anti-câncer . análises numéricas mostram que o laço aleatório recursivo proposto e rede elástica são procedimentos de tempo eficiente e superar alta dimensional análise de dados genômicos (isto é, do ponto de vista da seleção de recursos e precisão da previsão).

Na Seção 2, nós introduzimos o existente

L

abordagens de regularização

1 do tipo, e apontar os seus inconvenientes. Em seguida, introduzir o laço aleatório, e propor o laço aleatório recursiva e procedimentos rede elástica. Na Seção 3, descrevemos a simulações e gene motorista selecção Monte Carlo usando o Sanger Genomics de sensibilidade às drogas no conjunto de dados do Câncer para examinar a eficácia das estratégias estatísticos propostos. Afirmamos nossas conclusões na Seção 4.

Materiais e Métodos

Suponha que tenhamos

n

observações independentes {(

y

i

,

x

i

);

i

= 1, …,

n

}, onde

y

i Quais são variáveis ​​e x resposta aleatórias

i Quais são

p

vectores de dimensão das variáveis ​​de previsão. Considere o modelo de regressão linear, (1) onde

β

é um desconhecido

p

vector dimensional de coeficientes de regressão e

ε

i

são os erros aleatórios que são assumidos para ser independente e identicamente distribuídas com média 0 e variância

σ

2. Assumimos que o

y

i Quais são centrados e

x

ij

são padronizados pela sua média e desvio padrão: e, portanto, um termo de intercepto é excluída do modelo de regressão na equação (1). Muitos estudos estão em andamento no modelo de regressão, especialmente em alta análise de dados dimensional (por exemplo, alterações genômicas análise de dados).

Tibshirani [1] propôs o laço, o que minimiza a soma dos quadrados dos resíduos sujeitos a uma restrição, e sua solução é dada por (2) onde

λ

é um parâmetro de ajuste controlar a complexidade do modelo. Ao impor um termo de grande penalidade, a soma dos valores absolutos dos coeficientes de regressão, o laço pode simultaneamente executar a estimativa de parâmetros e seleção de variáveis.

No entanto, um trabalho recente sugere que o laço pode sofrer as seguintes limitações [ ,,,0],2]:

no

p Art

n

caso, os seleciona lasso no máximo

n

variáveis, por causa do problema de otimização convexa. Isto implica que o laço não é adequado para seleção de genes motorista, já que os dados alteração genômica é dados dimensionais normalmente elevados.

O laço não pode dar conta de agrupamento efeito de variáveis ​​de previsão, e, portanto, tende a selecionar apenas uma variável entre variáveis ​​altamente correlacionadas, mesmo se todos estão relacionados com a variável resposta. No entanto, alterações genómicas de genes (por exemplo, níveis de expressão, as variações no número de cópias, metilação, etc.) que partilham uma via biológica comum são geralmente altamente correlacionado, e os genes podem ser associados com um mecanismo complexo de cancro considerado como variável de resposta. Isto implica também que o laço não é adequado para análise de dados genômicos.

Para superar estas desvantagens, vários

L

métodos de regularização 1 do tipo têm sido propostas . A rede elástica [2], em particular, chamou a atenção considerável no campo da bioinformática: (3) O termo penalidade da rede elástica é uma combinação convexa do cume [5] e penalidades lasso. Ao impor um

L

2-sanção suplementar ao lasso, a rede elástica realiza efetivamente apresentam selecção em alta análise de dados dimensional, isto é, não há nenhuma limitação no tamanho do subconjunto. Além disso, a rede elástica pode aproveitar o seguinte efeito agrupamento: (4) onde correlação amostra [2]

Embora a rede elástica tem um bom desempenho em alta análise de dados dimensional, Wang et al.. [3] demonstrou que a rede elástica tem as seguintes desvantagens:

A propriedade de “agrupamento efeito” leva a resultados de estimativa erradas quando coeficientes de variáveis ​​altamente correlacionadas com diferentes magnitudes, especialmente aqueles com sinais diferentes. No entanto, os coeficientes de variáveis ​​altamente correlacionadas com diferentes magnitudes são frequentemente observadas na pesquisa bioinformática, uma vez que genes na via biológica comum geralmente são altamente correlacionados, e seus coeficientes de regressão pode ter diferentes magnitudes ou um sinal diferente.

O adaptativa

L

1 do tipo penas também foram propostos e são amplamente utilizados em vários campos de pesquisa:

adaptativa lasso: (5)

adaptativa rede elástica: (6)

, onde é um conjunto de dados adaptativas peso conduzidos para

γ Art 0. Ao usar o peso, podemos discriminately impor uma penalidade em cada recurso em função da sua importância, e, assim, efetivamente realizar a seleção de recurso. Zou e Hastie [4] e Zou e Zhang [2] estabeleceu a propriedade oráculo da lasso adaptativa e da rede elástica adaptativa, respectivamente. No entanto, o desempenho dos métodos de regularização adaptativas depende fortemente do estimador OLS, e, assim, estes métodos sofrem de multicolinearidade. Além disso, o adaptativa

G

1-tipo de regularização métodos sofrem das mesmas desvantagens como os métodos comuns, ou seja, quando se utiliza o laço adaptativa, o número de variáveis ​​seleccionadas não pode exceder

N

e a rede elástica adaptativa também pode fornecer resultados de estimativa erradas quando coeficientes de variáveis ​​altamente correlacionadas com diferentes magnitudes estão presentes.

Aleatório Lasso

Wang et al. [3] detalhou os inconvenientes de

L

1 do tipo abordagens existentes, e propôs a aleatório lasso com base em uma estratégia de inicialização que emprega o método floresta aleatória. No procedimento lasso aleatório, selecionados aleatoriamente

q

variáveis ​​são consideradas como variáveis ​​candidatos no modelo de regressão para cada amostra de bootstrap. Assim, os resultados não sofrem as desvantagens variáveis ​​altamente correlacionados, uma vez que cada amostra de bootstrap pode incluir apenas um subconjunto de variáveis ​​altamente correlacionadas. Além disso, o laço aleatório pode superar a limitação de tamanho subconjunto, uma vez que a seleção variável é baseado nos resultados do modelo de regressão de bootstrap com selecionados aleatoriamente

q

1 ou

q

2 variáveis ​​em cada amostra de bootstrap.

Wang et al. [3] propôs o seguinte algoritmo baseado em um procedimento de inicialização de duas etapas para implementar o laço aleatório:

Algoritmo 1

Aleatório lasso

Passo 1: Gerando medidas importância de variáveis ​​de previsão.

∘ desenhar

b

amostras de bootstrap com tamanho

n

por amostragem, com a substituição do conjunto de dados original.

∘ Para a amostra de bootstrap,

b

1 ∈ {1, 2, …,

B

},

q

1 variáveis ​​candidatos são selecionados aleatoriamente, e o laço é aplicada para a modelagem de regressão e obtemos estimadores de

j

= 1, …,

p

.

∘ A medida importância de

x

j

é calculado como

Passo 2:. seleção Variable

∘ desenhar

B

amostras de bootstrap com tamanho

n

por amostragem, com a substituição do base de dados original.

∘ Para a amostra de bootstrap,

b

2 ∈ {1, 2, …,

b

},

q

2 variáveis ​​candidatos são selecionados aleatoriamente com uma probabilidade seleção de

x

j

proporcional ao

I

j

e o laço adaptativa é aplicada para a modelagem de regressão, e obtemos o estimador de

j

= 1, …,

p

.

∘ Compute o estimador final,, quanto a

j

= 1, …,

p

.

para variáveis ​​ruído de previsão, os coeficientes na respectiva de bootstrap amostras são estimados para ser pequena ou de ter sinais diferentes, e, assim, o valor absoluto dos coeficientes médios (isto é,

I

J

) será pequeno ou próximo de zero . Por outro lado, os coeficientes de variáveis ​​preditoras podem ser cruciais consistentemente elevados em amostras de bootstrap diferentes, e, assim, um gene essencial tem um grande valor de

I

J

. Isto implica que a probabilidade de seleção

I

j

fornece seleção de recurso eficaz. Wang et al. [3] consideradas

q

1 e

q

2 como parâmetros de ajuste, e a medida importância

I

j

também pode ser usado para o peso para o laço adaptativa.

Wang et al. [3] observou que os resultados de seleção de variáveis ​​do lasso aleatória são injustas, já que alguns dos coeficientes diferentes de zero finais podem resultar de uma amostra de inicialização particular (isto é, o laço aleatório pode produzir falsos positivos na seleção de variáveis). Assim, um limiar

t

n

= 1 /

n

foi adicionada para seleção de variáveis ​​e variáveis ​​de previsão com foram excluídos do modelo final.

recursiva aleatório Lasso para Aumentar a Eficácia

Seleção de Recursos

O laço aleatório pode superar os inconvenientes do actual

L

1-type regularização usando um método floresta aleatória com modelo de regressão de bootstrap . Embora o laço aleatório tem um bom desempenho para a modelagem de regressão dimensional elevada com preditores altamente correlacionadas, o método também sofre com os seguintes inconvenientes:

O laço aleatório é computacionalmente intensiva, uma vez que se baseia em dois procedimentos de bootstrap com as respectivas repetições B. A complexidade computacional do lasso aleatório é aumentada significativamente na análise de dados genômicos, porque o conjunto de dados é construído com um número extremamente grande de variáveis ​​de previsão.

O limite é crucial na seleção de recursos, uma vez que os resultados de seleção de características dependem fortemente no limiar. No entanto, Wang et al. [3] arbitrariamente definir o limite como 1 /

n

, sem qualquer base estatística.

O método tem muitos parâmetros de ajuste, ou seja,

λ

em

L

1 do tipo penalidades, e

q

1 e

q

2 no método floresta aleatória. O grande número de parâmetros de ajuste também torna o método consome tempo, uma vez que os procedimentos de laço aleatórios devem ser implementadas várias vezes para selecionar a combinação de parâmetro ideal.

Nós propomos uma estratégia de modelagem eficaz, em conformidade com o laço aleatório, chamado um laço aleatório recursiva (ou rede elástica). Para executar com eficiência elevada análise de dados genômicos dimensional, propomos um procedimento de inicialização recursiva para gerar a medida de importância e de modelagem de regressão. Propomos também um limiar romance para selecionar efetivamente variáveis ​​de previsão no modelo de regressão de inicialização usando um teste estatístico paramétrico. Além disso, uma série de indicadores candidatos,

q

, também está seleccionada aleatoriamente em cada amostra de bootstrap (ou seja, nós não consideramos

q

como um parâmetro de ajuste). O laço aleatório recursivo proposto (rede elástica) é implementado pelo seguinte algoritmo.

Algoritmo 2

lasso aleatória recursiva (ou rede elástica)

Desenhar

B

de bootstrap as amostras com

n

por amostragem, com a substituição do conjunto de dados original.

Para a primeira amostra de bootstrap (ou seja,

b

= 1),

q

variáveis ​​candidatos são selecionados aleatoriamente e o laço (ou rede elástica) é aplicada para a modelagem de regressão. Em seguida, obter estimadores para

j

= 1, …,

p

.

Para

b

∈ {2, …,

B

}, a medida importância de

x

j

é calculado como. O

q

variáveis ​​candidatos são selecionados aleatoriamente com uma probabilidade de seleção

I

j

, eo lasso adaptativo (ou rede elástica adaptativa) com

w

j

= 1 /

I

j

é aplicada para a modelagem de regressão. Obtemos os estimadores de

j

= 1, …,

p

.

estimadores finais são computados como.

Finalmente, realizar a seleção de variáveis ​​com base no limiar

t

* através do teste estatístico paramétrico.

Parametric teste estatístico de seleção de variáveis ​​em Bootstrap Regressão Modeling (PSTVSboot).

para realizar eficazmente seleção de recurso, propomos um teste estatístico paramétrico com base nos resultados de modelagem de regressão de bootstrap. Em primeiro lugar, considere um

B

×

p

matriz binária D obtidos a partir dos procedimentos de auto-inicialização recursiva acima. Nós estabelecemos um elemento da matriz binária como

D

bj

= 1 para um não-zero no

b

th

amostra de bootstrap; caso contrário,

D

bj

= 0. Em outras palavras, consideramos que a matriz binária é obtido a partir de experimentos de Bernoulli, e deixe

D

j

ser uma variável aleatória associada a tentativas de Bernoulli da seguinte forma:.

,

a variável aleatória Bernoulli tem a seguinte função de densidade de probabilidade (7), em que a probabilidade

π

pode ser estimada da seguinte forma, (8) que indica a média da relação de seleção de todas as variáveis ​​de previsão em

B

amostras de bootstrap. Para a seleção das variáveis ​​razoável, nós, em seguida, considere o seguinte estatística: (9), que indica o número de não-zero no

B

tentativas de Bernoulli (ou seja,

B

amostras de bootstrap). A estatística

C

j

segue a distribuição binomial e tem a seguinte função de massa de probabilidade: (10) Nós, então, calcular um

p

-valor para cada preditor variável da seguinte, (11) e, finalmente, realizar a seleção de variáveis ​​com base na

p

-valor com um limiar

t

* = 0,05 a seguinte (12), onde

I

(⋅) é uma função de indicador. Podemos esperar que o teste estatístico paramétrico pode superar falsos resultados de seleção de características positivas do modelo de regressão de bootstrap. Embora tenhamos descreveu a estratégia de seleção variável proposta focada no procedimento lasso aleatória, o teste estatístico paramétrico será uma ferramenta útil para modelagem de regressão de bootstrap.

Resultados

Simulações de Monte Carlo

simulações de Monte Carlo foram realizadas para investigar a eficácia da estratégia de modelagem proposta. Foram simulados 100 conjuntos de dados a partir do seguinte modelo de regressão linear, (13) onde

ε

i Quais são

N

(0,

σ

2), ea correlação entre

x

l

e

x

m

é de 0,5

|

l Restaurant –

m

|

Foram consideradas as situações seguinte simulação:.

Type1:

n

= 100 e

p

= 1000 como

β

j

= 3 para 50 variáveis ​​selecionadas aleatoriamente, caso contrário,

β

j

= 0,

Tipo 2:

n

= 100 e

p

= 1000 como

β

j

= 3 para 25 variáveis ​​selecionadas aleatoriamente,

β

j

= -3 por 25 variáveis ​​selecionadas aleatoriamente, caso contrário,

β

j

= 0,

Type3:

n

= 100 e

p

= 1000 como

β

j

= 3 para 150 variáveis ​​selecionadas aleatoriamente, caso contrário,

β

j

= 0.

Type4:

n

= 100 e

p

= 1000 como

β

j

= 3 para 75 variáveis ​​selecionadas aleatoriamente,

β

j

= -3 para 75 variáveis ​​selecionadas aleatoriamente, caso contrário,

β

j

= 0,

Type5:

n

= 50 e

p

= 2000 como

β

j

= 3 para 40 variáveis ​​selecionadas aleatoriamente, caso contrário,

β

j

= 0,

Type6:

n

= 50 e

p

= 2000 como

β

j

= 3 para 20 aleatoriamente variáveis ​​selecionadas,

β

j

= -3 por 20 variáveis ​​selecionadas aleatoriamente, caso contrário,

β

j

= 0,

Type7:

n

= 50 e

p

= 2000 como

β

j

= 3 para 200 aleatoriamente variáveis ​​selecionadas, caso contrário,

β

j

= 0.

Type8:

n

= 50 e

p

= 2000 como

β

j

= 3 para 100 variáveis ​​selecionadas aleatoriamente,

β

j

= -3 para 100 aleatoriamente variáveis ​​selecionadas, caso contrário,

β

j

= 0,

Para avaliar o lasso aleatória recursivo proposto e procedimentos rede elástica, comparamos o desempenho dos nossos métodos, recursivo aleatório rede elástica (RCS.RD.EL), recursivo lasso aleatório (RCS.RD.LA), com o laço (laço), lasso adaptativo (AD.LA), rede elástica (ELA), e existentes lasso aleatório (RD.LA). Em estudos numéricos, usamos um estimador cume de peso no lasso adaptativa existente, e nós considerado o limiar do aleatório existente lasso ser

s

/

n

, e selecionou

s

baseado na raiz do erro quadrático no conjunto de dados de validação. Foi considerado o número de amostras de bootstrap para

B

= 1000 e um conjunto de dados construído com treinamento, validação e conjuntos de dados de teste com o tamanho da amostra

n

, respectivamente. Os parâmetros de ajuste foram selecionados pela validação cruzada cinco vezes com base no conjunto de dados de treinamento.

O primeiro avaliou a eficiência computacional dos nossos métodos. A Tabela 1 mostra o tempo de processamento necessário para o laço aleatório existente no Algoritmo 1 (RD.LA) e o laço proposto recursiva aleatória em ALGORITMO 2 (RCS.RD.LA). O tempo de execução indica o tempo total necessário para estimar o modelo de regressão por meio de parâmetros de ajuste selecção e replicação de inicialização. A Tabela 1 mostra que os desempenhos do lasso aleatória recursivo proposto é computacionalmente eficiente em comparação com o lasso aleatório existente em todas as situações de simulação.

Para mostrar a eficácia da estratégia de inicialização recursiva, foram comparadas as medidas de importância para os procedimentos lasso aleatórios. A Tabela 2 mostra a média da importância medidas

I

j Compra de variáveis ​​de previsão com coeficientes realmente não nulos e verdadeiramente coeficientes zero na rede elástica aleatória recursiva (RCS.RD. EL), laço recursivo aleatório (RCS.RD.LA) e lasso aleatório (RD.LA), onde os números entre parênteses são a média das medidas de importância para o pequeno número de amostras de bootstrap

B

= 20.

no lasso aleatório existente, a medida importância é calculada de forma independente com a modelagem de regressão (ou seja, na etapa 1 do Algoritmo 1). No entanto, em nosso método, o

I

j

é recursivamente calculadas durante a modelagem de regressão. Além disso, o

I

j

do nosso método é baseado num número seleccionado aleatoriamente de variáveis ​​de previsão candidato

q

, enquanto no método lasso aleatório existente,

I

j

é baseado no ajuste de parâmetros

q

1 e

q

2 selecionada, minimizando previsão erro no conjunto de dados de validação. Em suma, o nosso processo proporciona procedimentos de tempo eficaz, em comparação com o laço aleatório existente.

A partir da Tabela 2, pode ver-se que a medida importância no nosso método revela diferenças maiores entre realmente zero e coeficientes diferentes de zero do que o faz no laço aleatório existente, embora a diferença é pequena. Além disso, podemos ver que o procedimento de inicialização recursiva proposto também fornece as diferenças maiores para medida de importância, mesmo no pequeno número de amostras de bootstrap (ou seja,

B

= 20 entre parênteses da Tabela 2). Isto implica que as abordagens do programa de inicialização recursiva propostas executar de forma eficaz para a seleção de recurso usando o procedimento Floresta aleatória, embora o nosso método fornece resultados de modelagem computacional eficazes.

Em seguida, compararam os resultados do modelo de regressão com base na precisão da previsão no teste conjunto de dados ea seleção variável resultados mostrados nas Figuras 1 e 2.

Figura 1 mostra os erros de previsão dadas como média de root mean erros quadrados usando recursiva rede elástica aleatório (RCS.RD.EL ), laço recursivo aleatório (RCS.RD.LA), laço aleatório (RD.LA), rede elástica (ELA), lasso adaptativo (AD.LA) e lasso (laço). Pode ser visto que uma figura que a rede elástica aleatório recursiva proposto mostra precisão da previsão superior em cerca de situações de simulação. Além disso, o laço aleatório recursivo proposto também mostra muito maior precisão da previsão do que o, laço adaptativa laço ou rede elástica e resultados semelhantes aos do lasso aleatório existente, mesmo que o laço aleatório recursiva fornece performances em tempo-benefício em comparação com o lasso aleatório existente como mostra a Tabela 1.

também comparamos os resultados de seleção de variáveis ​​dadas como a média de taxa positiva verdadeira (ou seja, o número médio de verdadeiros coeficientes diferentes de zero, incorretamente definido para zero) e verdadeira taxa negativa (isto é, , a percentagem média de verdadeiros coeficientes zero, que foram correctamente definida para zero) na Figura 2. podemos ver que figura 2 que o lasso aleatória recursiva proposta e mostrar net recursiva excelente desempenho elástico aleatório de seleção de variáveis ​​em todas as situações de simulação. Nas outras mãos, os maus resultados de laço e adaptativa mostra lasso para seleção de variáveis ​​em situações de alto de dados dimensionais, uma vez que os métodos sofrem com a limitação do tamanho do subconjunto.

Em suma, o laço aleatório recursiva e rede elástica proposta métodos não são apenas computacionalmente eficiente, mas produzem excelentes resultados de modelagem de regressão (ou seja, precisão da previsão e de selecção variável). Estes resultados implicam que os nossos métodos podem ser ferramentas úteis para alta de análise de dados de alteração genômica dimensional

reais exemplos do mundo:. Identificação de genes motorista do Anti-câncer droga sensibilidade

Nós aplicamos as estratégias propostas para identificar genes potenciais motorista de sensibilidade às drogas anti-câncer na acessível ao público “Sanger Genomics de sensibilidade às drogas no conjunto de dados cancer do Projeto Genoma câncer” (https://www.cancerrxgene.org/). O conjunto de dados contém a níveis de expressão do gene, número de cópia e mutação status para 654 linhas de células e as concentrações de metade do máximo de inibição de drogas (valores IC50) de 138 drogas anti-câncer como um indicador da sensibilidade da droga. Foram considerados os níveis de 13321 genes e os valores de IC50 de drogas anti-câncer de expressão para revelar genes motorista, que estão disponíveis a partir dos recursos: “linha celular genética (mutação e número do exemplar) e dados de expressão de genes utilizados para análise PT” e ” a sensibilidade da linha celular de drogas, mutações e tipo de tecido “, respectivamente, no” https://www.cancerrxgene.org/”. Muitos valores IC50 estão ausentes do conjunto de dados Sanger, e, portanto, considerada apenas 99 drogas anti-câncer, que têm observações não ausentes por pelo menos 600 linhas celulares de cancro, como variáveis ​​de resposta. Os níveis de 10% dos genes (i.e., genes de 1332) apresentam a maior variação em todas as amostras de expressão foram considerados como variáveis ​​preditoras. Nós empregamos

B

= 1000 replicações de bootstrap e os parâmetros de ajuste foram selecionados pela validação cruzada de 5 vezes.

Para avaliar os métodos propostos, comparou-se a precisão da previsão do lasso aleatória recursiva e elástica net, laço aleatório, rede elástica, adaptável laço e laço com base em 99 modelos de regressão correspondentes a 99 drogas anti-câncer existente. A Tabela 3 mostra a média de raiz do erro quadrado significa os modelos de regressão de 99. Podemos ver a Tabela 3 que as aleatórias abordagens tipo de laço mostrar um excelente desempenho em comparação com as

L

métodos de regularização 1 do tipo. O show net desempenho aleatório recursivo proposto lasso e elástico semelhante ao lasso aleatório existente, embora os nossos métodos mostram procedimento eficaz de tempo como mostra a lista de tempos de execução na Tabela 3.

Em seguida, identificou potencial genes de driver usando a rede elástica aleatória recursivo proposto. Estamos focados em cinco populares drogas anti-câncer: A cisplatina, docetaxel, doxorrubicina, gemcitabina e vinorelbina, que têm atraído considerável para a investigação do cancro [6, 7]. Vamos introduzir as cinco drogas anti-câncer

A cisplatina (nome comercial: cisplatina):. Um medicamento de quimioterapia platina composto que impede as células de câncer de crescer. Alvo: reticulador DNA. Usado para tratar: testicular, ovário, bexiga, cabeça e pescoço, mama, cancros cervicais e próstata. Efeitos colaterais:. náuseas e vômitos, toxicidade renal, contagens baixas de glóbulos brancos e contagens baixas de glóbulos vermelhos

Docetaxel (nome comercial: Taxotere): pertence a uma classe de drogas quimioterápicas que funciona impedindo a divisão de células cancerosas. Alvos: microtúbulos. Utilizado para tratar: da mama, do pulmão de células não pequenas, avançado do estômago, e cancros da cabeça e pescoço. Efeitos colaterais: náuseas, diarreia, perda de cabelo, mudança prego, contagens baixas de glóbulos brancos e contagens baixas de glóbulos vermelhos

A doxorrubicina (nome comercial: Adriamicina):. uma quimioterapia de drogas anti-câncer que é classificado como um “antibiótico antraciclina”. Ele retarda ou impede o crescimento das células cancerosas, e se liga ao DNA por intercalação entre pares de bases específicas, bloqueando assim a síntese de DNA [8]. Alvo: intercalação de ADN. Utiliza-se para tratar a leucemia, da bexiga, da mama, do estômago, do pulmão, do ovário e cancro da tiróide, e sarcoma de tecidos moles. Efeitos colaterais:. perda de cabelo, Mielossupressão, mucosite oral e diarréia

A gemcitabina (nome comercial: Gemzar): uma quimioterapia de drogas anti-câncer que é classificado como um antimetabólito. A gemcitabina impede o crescimento de células cancerosas, eventualmente, resultando na sua destruição. Inibe a timidilato-sintetase, que leva à inibição da síntese de ADN e morte celular [9].

Deixe uma resposta