PLOS ONE: Seleção Robust of Cancer Survival assinaturas de High Throughput-Genomic dados usando duas vezes Subsampling

Abstract

Identificar as assinaturas relevantes para a evolução clínica do paciente é uma tarefa fundamental em estudos de alto rendimento. Assinaturas, composto por recursos como mRNAs, miRNAs, SNPs ou outras variáveis ​​moleculares, são frequentemente não-sobreposição, apesar de terem sido identificados a partir de experimentos similares, considerando amostras com o mesmo tipo de doença. A falta de um consenso é principalmente devido ao fato de que as amostras são muito menores do que os números de características candidatos a serem considerados e, portanto, a seleção assinatura sofre grande variação. Propomos um método de selecção de assinatura robusta que aumenta a estabilidade seleção de algoritmos de regressão penalizados para predizer o risco de sobrevivência. O nosso método baseia-se numa junção de várias, possivelmente instáveis, as assinaturas obtidas com o algoritmo pré-condicionados lasso aplicado a subamostras aleatórias (internas) de uma dada coorte de dados, onde o assinatura agregados é encolhida por uma estratégia de limiar simples. O método resultante, RS-PL, é conceitualmente simples e fácil de aplicar, com base em parâmetros ajustados automaticamente por validação cruzada. selecção assinatura robusta usando RS-PL opera dentro de um quadro (externo) subsampling para estimar as probabilidades de selecção de recursos em múltiplos ensaios de RS-PL. Estas probabilidades são utilizados para a identificação de características de confiança para ser incluída em uma assinatura. Nosso método foi avaliada em conjuntos de dados de microarrays de neuroblastoma, adenocarcinoma de pulmão e câncer de mama, extraindo assinaturas robustos e relevantes para a previsão de risco de sobrevivência. Assinaturas recolhidas pelo nosso método alcançou um alto desempenho de previsão e robustez, de forma consistente ao longo dos três conjuntos de dados. Genes com alta probabilidade de seleção em nossas assinaturas robustas têm sido relatados como câncer relevante. A ordenação dos coeficientes de previsão associados às assinaturas foi bem preservado em vários ensaios de RS-PL, o que demonstra a capacidade do nosso método para a identificação de uma assinatura consenso transferível. O software está disponível como um pacote rsig R em CRAN (https://cran.r-project.org)

Citation:. Lee S, Rahnenführer J, Lang M, De Preter K, Mestdagh P, Koster J, et ai. (2014) Seleção Robust of Cancer Survival assinaturas de High Throughput-Genomic dados usando Subsampling duas vezes. PLoS ONE 9 (10): e108818. doi: 10.1371 /journal.pone.0108818

editor: Ioannis P. Androulakis, da Universidade Rutgers, Estados Unidos da América

Recebido: 13 de dezembro, 2013; Aceito: 05 de setembro de 2014; Publicação: 08 de outubro de 2014

Direitos de autor: © 2014 Lee et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Os autores reconhecer o apoio da Deutsche Forschungs-Gemeinschaft (DFG) dentro do Collaborative Research Center SFB 876 (https://sfb876.tu-dortmund.de) “Fornecimento de informações pela Resource-Constrained Análise”, projeta A3 e C1. L. Varesio foi apoiada por doações da Associação Italiana de Cancer Research, a rede ENCCA, o Ministério da Saúde italiano. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Identificação de recursos relevantes a partir de grandes conjuntos de dados tem sido um foco de muitos campos de pesquisa por um longo tempo. Com o início das tecnologias perfil genômico de alto rendimento, robustez está sendo percebida como um fator importante na seleção de características [1], [2]. De um modo geral, uma característica é robusto, se é escolhida por um método de composição invariavelmente coorte, assumindo que todas as amostras vêm da mesma distribuição da população. Se um algoritmo identifica muitas destas características robustas, em seguida, o algoritmo pode ser considerado como robusta bem. Robustez é um fator crítico, especialmente em estudos clínicos, quando o objetivo é tanto para identificar os principais intervenientes nos sistemas biológicos subjacentes, ou para desenvolver testes clinicamente úteis.

estudos Infelizmente clínicos são normalmente realizados sem uma consideração explícita de robustez na sua concepção experimental. Um exemplo típico é a realização de seleção de recursos em uma única partição de dados de coorte disponíveis, em seguida, para determinar o sucesso da seleção usando o resto dos dados (muitas vezes chamado como um conjunto de teste). Quando as amostras são pequenas como na maioria dos estudos clínicos, tais práticas podem levar à identificação de diversas assinaturas de vários estudos que parecem perfeitamente bem na sua própria avaliação, mas não são bem sucedidos quando são aplicados aos dados de outros estudos.

neste trabalho, propomos um algoritmo para lidar com as questões acima referidas, com base em ideias bem estudadas de subsampling [3] e agregação [4]. Nossa estrutura é composta por duas etapas subamostragem: (i) um

subsampling exterior

passo, que estima que o desempenho de previsão de modelos e a probabilidade de seleção de recursos, e (ii) um

subsampling interior

etapa , que obtém um modelo robusto através da agregação de muitos, possivelmente instável, modelos, onde cada modelo é obtido a partir de uma subamostra

no subsampling exterior, nós essencialmente executar bootstrapping [3] para estimar duas grandezas:. as probabilidades de selecção de recursos e o desempenho de previsão de modelos compostos de assinaturas robustos. A estimativa de probabilidades de selecção de funções utilizando subamostras também tem sido utilizada em Davis et ai. [1], no contexto de escolher a melhor combinação de uma seleção de recursos e um algoritmo de classificação separada para maximizar tanto a frequência de seleção de recursos e precisão da classificação. Em nosso método, seleção de recursos e modelo de montagem são realizadas simultaneamente, e é uma propriedade intrínseca que as características relevantes devem ser escolhidos com alta probabilidade. Assim, utilizamos as probabilidades de seleção estimados para a construção de assinaturas robustos, não para encontrar a melhor combinação.

O uso de agregação para produzir assinaturas robustos como no nosso passo subsampling interior tem sido utilizado em diferentes contextos. Abeel et ai. [5] consideradas médias simples e ponderada de vetores de decisão das máquinas de vetor de suporte (SVMs) [6] e a eliminação recurso recursiva usando SVMs [7], em que cada vector decisão é obtido a partir de uma amostra de bootstrap. Em Broom, Fazer e Subramanian [8], um quadro modificado foi proposto para inclinar-estruturas em redes Bayesian. Estas obras no entanto, não resolver o problema da identificação de assinaturas robustas de desfecho sobrevivência censurado, um tipo comum de respostas em pesquisas clínicas. Além disso, métodos tais como SVMs não têm essa garantia de que características importantes serão selecionados com probabilidade elevada ao longo de diferentes sub-amostras.

A nossa seleção robusta é baseada em argumentos teóricos desenvolvidos recentemente para o algoritmo lasso amplamente utilizado [9] e um ramal chamado o algoritmo pré-condicionados lasso [10], que são introduzidas na secção seguinte.

Cox Regression com a Penalty Lasso

Vamos considerar uma amostra de coorte que consiste em

n

pacientes, em que cada um dos pacientes é perfilado por um

p

dimensional vector recurso x

i

e uma anotação de sobrevivência:

t

i

é o tempo de sobrevida no tempo e

e

i

é um indicador para um evento clínico tal que

e

i

= 1 se um evento aconteceu, e

e

i

= 0 caso contrário.

na regressão Cox [11], o risco de um paciente com um evento em tempo de

t

é modelada por uma função, onde

h

0 (

t

) é a função de base de perigo, a parte exponenciação descreve o efeito de co-variáveis, e. Uma estimativa do vetor de coeficientes

β

é obtida pela estimativa de probabilidade máxima, isto é, (1) onde está o log-verossimilhança parcial definido pelo

Aqui

E

é um conjunto de índices enumerar todos os eventos e é um índice conjunto de pacientes em risco no que diz respeito ao tempo de um evento

i

. O segundo termo na Eq. (1) é um regularizer penalizar a complexidade de

β

, com e. Nós muitas vezes chamada a regularização com

α

= 1 como o laço ou, e aquele com

α

= 0 como o cume ou penalidade. Laço seleciona recursos, definindo os coeficientes em

β

a exatamente zero para características irrelevantes, enquanto que o cume não realizar a seleção de recurso por si só. Para a comparação detalhada dos dois, referimo-nos a GUI e Li [12]. Para 0

α Art . 1, o regularizer é chamado de rede elástica [13], que tende a selecionar todas as variáveis ​​correlacionadas juntos

pré-condicionados Lasso

O pré-condicionado algoritmo lasso [10] é um procedimento em duas etapas projetado para resolver os problemas de alta viés nas estimativas de laço, quando o número de recursos

p

é muito grande em comparação com o número de pacientes

n

. Os dois passos são

Pré-condicionamento etapa:.

etapa Lasso: ajustar um modelo para

O primeiro passo cria resultados precondicionados das características dadas e dados de sobrevivência. . O pré-condicionamento é realizado pelo principal método supervisionado componentes [14], que pela primeira vez ocupa características por sua correlação indivíduo para os resultados de sobrevivência, e então encontrar um limite de validação cruzada que lhe dá o melhor desempenho de previsão se as características mais alto do que o limiar são usados na regressão depois de ser projetada sobre os primeiros componentes principais. Os resultados pré-condicionadas são produzidos como o resultado de previsão em cada vector de características num conjunto de treino. Aqui é de valor real, enquanto que o resultado original contém um valor de tempo de sobrevivência e um indicador de evento.

O segundo passo usa laço para ajustar um modelo linear para os vetores de características originais e os resultados pré-condicionada. Como as respostas pré-condicionados são escalares, podemos usar o ordinário regressão por mínimos quadrados com a pena de laço, (2)

Este problema pode ser resolvido de forma eficiente com o algoritmo ângulo de regressão por mínimos (LARS) [15]. Depois de ser encontrada uma solução, uma previsão de risco linear pode ser computada para cada instância de teste x e em comparação com o risco a sobrevivência em formas de o modelo de Cox.

Consistência e Assinatura Robust Seleção

Suponha que obtém-se por resolver a Eq. (1) com

n

exemplos, onde os exemplos são geradas com um parâmetro de população desconhecida sob o modelo de Cox. Uma noção importante nas estatísticas em relação à seleção de recursos robustos é a consistência

em termos de seleção de variáveis ​​

, (3)

Isto é, seleciona as mesmas características que com o aumento da probabilidade como o número de pacientes aumenta . Isto implica que, se

n

é grande o suficiente ou a convergência na Eq. (3) é rápido o suficiente para um fixo

n

, então os subconjuntos de recursos escolhidos por vários usando diferentes amostras de tamanho

n

será o mesmo, com elevada probabilidade, uma vez que todos eles vão ser perto dos recursos a serem escolhidos por. Por conseguinte, para selecção robusta em ensaios clínicos em que o número de pacientes com

N

é relativamente pequeno e não é fácil de aumentar, prefere-se utilizar um método com convergência rápida em consistência.

Recentemente, tem sido mostrado que, sob o

condições irrepresentável

[16] ou equivalentemente o

condições de estabilidade bairro

[17], as estimativas consistentes podem ser obtidos por lasso, embora essas condições geralmente quebrar em situações reais. O algoritmo lasso pré-condicionados [10] é uma alternativa para laçar, produzindo estimativas consistentes, por exemplo, quando . Por mínimos quadrados ordinários com a pena de laço, é mostrado que quando o parâmetro de regularização é escolhido para ser, então cada elemento ativo é escolhido por com probabilidade estritamente positivo [18]. Portanto uma intersecção de conjuntos de recursos obtidos a partir de testes de bootstrap será nonempty, e ser coerente com a aumentar exponencialmente a probabilidade como

n

cresce. No entanto, os argumentos são baseados em pressupostos fortes, que são bastante facilmente violados na prática, e, portanto, a propriedade desejada pode não seguir. Outra modificação do laço tem sido sugerido usando reponderação aleatória do regularizer lasso [19]. Este algoritmo produz estimativas consistentes em condições menos restritivas do que a abordagem anterior, mas requer para especificar um parâmetro extra “fraqueza” que não é fácil de determinar, a seu ambiente randomizado.

O nosso método de seleção robusta é baseado no seguinte três observações críticas. Em primeiro lugar, lasso pré-condicionado tem uma melhor convergência na consistência do que laçar quando [10]. Em segundo lugar, a variação em modelos pode ser reduzido pelo modelo de média combinada com subamostragem [4] (Passo subamostragem interior). E terceiro, características relevantes devem ser selecionados com probabilidade positiva com lasso sob certas condições [18] e, portanto, aparece mais frequentemente do que características irrelevantes em múltiplos ensaios com subamostras aleatórias (etapa subsampling exterior).

A robusta a assinatura é definida como se segue: um dado índice de sub-amostra aleatória e definir uma estimativa obtida com exemplos que correspondem a

I

, a robustez de uma característica indexado por é definido como a sua probabilidade de ser seleccionado entre todos os ensaios com subamostras aleatórias, onde todos os parâmetros, se houver, são assumidos para ser ajustado para cada

I

. A

assinatura robusta

é definida como um conjunto de recursos robustos, cujas probabilidades de seleção estão acima de um certo limiar, ou seja,

As duas definições acima são adaptados a partir Meinshausen e Bühlmann [19]. Depois de avaliar a probabilidade de seleção de características em subsampling exterior, podemos usá-lo para identificar uma assinatura robusta estimado, (4)

Métodos

O fluxo de trabalho do nosso método recém-desenvolvido é esboçado na Figura 1. A painel da esquerda (a) mostra RS-PL, o nosso procedimento de seleção robusta com o algoritmo pré-condicionados Lasso, que produz um vetor de coeficientes para cada índice de trem aleatório definir

I

. No painel da direita (B), estimamos a probabilidade de seleção de cada recurso escolhido pelo algoritmo RS-PL para cada conjunto de trem aleatório

I

, testando o desempenho dos preditores também.

painel a: o nosso algoritmo de núcleo (abreviado como RS-PL) executa selecção robusta com uma subamostragem interna, utilizando o método de pré-condicionados lasso (PL) no interior. Potencialmente vetores de coeficientes modelo instável são agregados e depois encolhido para produzir um vector modelo robusto. Painel B: uma subamostragem exterior é utilizado para avaliar o desempenho de previsão de RS-PL e para estimar a probabilidade de selecção de características. As proporções (63,2% :36.8%) são escolhidos para assemelhar-se as relações de amostragem eficazes na bootstrapping.

O nosso método RS-PL é projetado para melhorar a robustez dos métodos de seleção de assinatura baseados em laço, em particular o laço pré-condicionada (PL). PL e RS-PL executar tanto selecção da assinatura e a estimativa de uma função de previsão ao mesmo tempo de uma maneira firmemente acoplado. Por conseguinte, melhorar a robustez em selecção assinatura tende a melhorar o desempenho de previsão. Mais especificamente, os preditores de RS-PL são baseados em um conjunto de modelos lineares de características escolhidas e, portanto, robustez na seleção assinatura é directamente ligados à estabilidade dos modelos de conjunto e do seu resultado previsão.

Seleção robusta com pré-condicionado Lasso (RS-PL)

Nosso algoritmo sugeridos RS-PL na Figura 1 (a) corresponde a um passo subsampling interna em todo o quadro, onde um índice de trem set

I

é dividido em um conjunto sub-trem

J

(63,2%) e um conjunto de sintonização (o resto). Estas proporções são escolhidas para se assemelhar ao número efectivo de amostras em bootstrapping [3]. Em comparação com outras estratégias de subamostragem, tais como

k

vezes de validação cruzada, esta forma particular de subsampling é conhecido por proporcionar a melhor estimativa de quando o ruído nos dados é moderado [20].

Pré-filtragem.

Na RS-PL, primeiro remover recursos não informativos de cada conjunto de trem (I) cujos valores desvio padrão estão abaixo de um percentual pré-definido de valores de desvio padrão de todos os recursos. Esta filtragem é opcional, mas facilita a seleção de recurso. Em particular, um número desejável de características candidatos

p

pode ser determinada usando o Lema 6.7 [21], que afirma que o número de recursos a ser escolhido com consistência estatística com o laço e do laço pré-condicionada é delimitada por para uma amostra de tamanho

n

. Em outras palavras,

p

não deve ser maior do que. Por exemplo,

p

poderia ser de até alguns milhares quando

n

= 176 e. Em nossos experimentos que esperávamos que seria 5~10 e reduziu o número de recursos de candidatos como sugere o lema usando prefiltering.

pré-condicionados Lasso.

No núcleo do RS-PL, nós usar o algoritmo lasso pré-condicionado (abreviado como PL) discutido acima, devido às suas características superiores para os casos com. PL interior do RS-PL podem ser substituídos por outros algoritmos, enquanto eles produzem vetores coeficiente para modelos lineares, como a regressão de Cox com a pena de laço.

Agregação e encolhimento de Assinaturas.

Para cada conjunto de sub-trem, obtemos um vetor de coeficientes estimativa como resultado de resolver a segunda etapa da pré-condicionados lasso na Eq. (2). Para T

em = 100 aleatórios conjuntos sub-trem, digamos, obtemos estimado vetores coeficiente respectivamente. Uma vez que os vetores de coeficientes são de modelos lineares, podemos agregá-los por uma média simples, ou seja,

Aqui, o vetor de coeficientes agregada é indicado com a letra

I

, uma vez que é produzido para cada conjunto de trem

I

em vigor.

o número de recursos a serem selecionados pelo vetor agregada tende a ser bastante grande, uma vez que o conjunto de componentes diferentes de zero no é o mesmo que a união de assinaturas obtidas com, como indicado acima. Por isso, “encolher” os coeficientes no uso de uma estratégia de limite simples: para valores de limite onde e são o menor eo maior magnitude dos componentes em, encontramos um limite tal que a assinatura encolhido e seus coeficientes correspondentes produzir os melhores resultados de previsão mais sintonia conjuntos, em que ajustamentos de afinação vêm do subamostragem interior na Figura 1 (a). Nós denotar o vetor de coeficientes robusta agregada e encolhido, o resultado final da RS-PL, como, construído como se segue: (5)

Estimativa da probabilidade de seleção, desempenho de previsão, e robustez

A algoritmo da Figura 1 (B) corresponde a um passo subsampling exterior, onde toda a dados de coorte com

n

pacientes são divididos em um conjunto de trem

I

(63,2%) e um conjunto de teste ( o resto), aleatoriamente para T

out = 100 vezes.

pré-processamento.

Há duas etapas de pré-processamento separadas para cada conjunto de trem (

I

) e cada conjunto de teste. Esta separação é muito importante para a estimativa exacta de desempenho de previsão. Por exemplo, quando nós aplicamos de compactação e de normalização de algoritmos, como a análise robusta multi-array (RMA) [22] para os dados microarray, precisamos aplicar RMA separadamente em um conjunto de trem e um conjunto de teste, uma vez que de outra forma RMA vai usar as informações dos um teste definido para pré-processar um conjunto de trem, e vice-versa, e, portanto, tal prática pode produzir estimativas precisão da previsão excessivamente otimistas sobre o conjunto de teste.

como alternativa, o RMA (frma) algoritmo congelados [23] pode ser aplicado de forma independente para microarrays individuais, utilizando microarrays de referência globais para a normalização. Devido à independência, frma precisa ser aplicado apenas uma vez para todas as matrizes, independentemente de divisões trem /teste.

Predição de Risco.

Para previsão, uma estimativa coeficiente de robusta e encolhido na Eq. (5) obtido por RS-PL é utilizado para comparar o risco de doentes com um acontecimento no momento

t

, em termos de modelo de risco proporcional de Cox [11]. Neste modelo, a razão de risco de log comparando o risco de dois pacientes (com perfis e) becomesfrom a definição da função de risco (risco). A taxa de risco fornece uma estatística para testar diferenças nos padrões de sobrevivência. Vale a pena notar que o risco da linha de base

h

0 (

t

) é cancelado e não desempenham qualquer papel na expressão acima, fazendo comparação de risco tão simples como comparando os valores de preditores lineares e. Isso nos permite usar uma correlação de postos entre preditores lineares e tempos de sobrevivência para avaliar o desempenho de previsão, como discutiremos na próxima seção

.

Por outro lado, o perigo de linha de base

h

0 (

t

) pode ser calculada a fim de produzir as probabilidades de sobrevivência para os pacientes individuais. Uma estimativa do

h

0 (

t

) é sugerido por Cox e Oakes [24], onde estão os distintos momentos do evento e

d

i

é o número de eventos em

t

i

. Em seguida, a função de sobrevivência (a probabilidade de sobreviver, pelo menos em tempos

t

) para um paciente x pode ser computada por,

As medidas de desempenho de previsão.

Para medir previsão desempenho, usamos o

índice de concordância

[25], que é a fração de todos os pares comparáveis ​​de pacientes cujos resultados são concordantes com as previsões. Um par de pacientes é considerado para ser utilizável com excepção dos casos em que ambos os pacientes têm eventos ao mesmo tempo, ou um tempo de sobrevivência tem censurado mais curto do que o outro que tem um evento. Para explicar formalmente, suponha que uma previsão está disponível para cada paciente cujo tempo de sobrevivência é dada por com um indicador de evento. Considere as seguintes funções indicadoras ordem [26] para,

Em seguida, o produto das duas medidas funções de ordem, se a ordem de um par de previsões é concordante (produto = 1), disconcordant (-1), ou não comparável (0) para o fim do tempo de sobrevivência par correspondente. O índice de concordância é definida como a fracção de pares concordantes entre todos os pares comparáveis, o que tem um valor entre 0 e 1. Aqui é uma função indicadora retornando 1 se o argumento é verdadeiro, e 0 de outro modo. Note-se que o numerador acima conta o número de todos os pares concordantes, em que o denominador conta o número de todos os pares comparáveis ​​(concordantes ou disconcordant). Esta medida pode ser descrita como uma AUC generalizada (área sob a curva ROC) de valor, em que os valores 0,5 implicam correlação positiva e valores 0,5 implicam correlação negativa. No caso de previsões binários valorizado, o índice de concordância torna-se idêntica à AUC.

As medidas de robustez.

A fim de medir a robustez da seleção assinatura, usamos o

índice de Jaccard

e

penalizada-rank Kuncheva índice

.

o

Jaccard índice

mede a robustez de assinaturas de tamanhos diferentes, possivelmente, e é definido como um tamanho médio de sobreposição entre subconjuntos apresentam em relação ao tamanho da sua união [2]. Denotando o conjunto de características escolhidas com pelo, que é definido como:. (6)

O índice de Jaccard varia de 0 a 1, e valores maiores indicam maior sobreposição em relação

Quando os tamanhos de assinaturas pode ser controlada, medidas mais precisas da robustez estão disponíveis, isto é, o índice Kuncheva [27] e a distância Canberra [28], em vez do índice de Jaccard, que pode resultar em uma avaliação de robustez tendenciosa. Especificamente, o índice Kuncheva fornece uma estimativa imparcial de sobreposição média entre assinaturas e as medidas de distância Canberra quão bem o fim da contribuição de recursos é preservada entre assinaturas, em média. Em comparação com o índice de Jaccard, estas duas medidas requerem assinaturas de ser do mesmo tamanho para comparação. A fração entre o índice Kuncheva ea distância Canberra, denotado como o

penalizada-rank Kuncheva índice

, é computado como um resumo das duas medidas de robustez. Denotando as características escolhidas a partir de uma retração extra, e o posto em magnitude do recurso th em pelo, o índice Kuncheva penalizada-rank é expressa da seguinte forma (

p

é o número total de recursos de candidatos), (7)

Os valores deste intervalo de índice de 0 (sem sobreposição, ou seja, o recurso fileiras não preservado) a ∞ (overlap perfeito, ou seja, a preservação perfeita de fileiras de recursos).

extra encolhimento de modelos.

O número de recursos em uma assinatura descrito por varia de acordo com os dados e métodos, mas é tipicamente maior do que 50. Quando as assinaturas menores são preferidos para uma investigação aprofundada das características, assinaturas descrita por pode ser encolhido ainda mais, escolhendo o top

G

características de acordo com a magnitude do seu coeficiente.

Este é posteriormente utilizado para uma avaliação do nosso método para comparar robustez e previsão de desempenho de assinaturas que consiste em um pequeno número de recursos.

probabilidades seleção de recursos e assinaturas robusto.

A probabilidade de seleção de um recurso, indexados pela

k

, é estimada pela sua frequência de aparecimento entre os T

de ensaios subamostragem exteriores, isto é, onde é uma função indicadora que é igual a 1 se a declaração

s

é verdadeira, ou 0 caso contrário. Dadas essas probabilidades e uma probabilidade de seleção de linha de base

π

, construímos uma assinatura robusta de acordo com a Eq. (4).

lista de algoritmos de comparação

Nosso algoritmo sugeridos RS-PL, onde o prefixo “RS” significa “seleção robusta”, é comparado com os seguintes algoritmos. RS-L é o mesmo que o RS-PL, PL, excepto que no interior do RS-PL é substituída com a regressão de Cox com a pena de laço. No seguinte, todo o RS-PL na Figura 1 (A) passa a ter com os algoritmos descritos, que não fazem uso de nossa estrutura RS: PL é o algoritmo lasso pré-condicionados. L é a regressão de Cox com a pena de laço. Dev é um método simples que seleciona as 100 melhores características com o maior desvio padrão em microarrays. Um cume Cox regressão é então realizada, usando apenas esses recursos. Este tipo de métodos é conhecido por ser estável [29]. Cor é um outro método univariada, escolhendo as 100 melhores recursos com os mais altos escalões em termos de sua correlação indivíduo a anotação de sobrevivência (medida pelo índice de concordância). Um cume Cox regressão é realizada sobre os recursos selecionados depois. Cli é uma regressão de Cox sem penalidade usando covariáveis ​​única clínicos. O pacote BatchExperiments [30] para R foi utilizado para a computação paralela de algoritmos.

Resultados

Preparação de dados

Três conjuntos de dados foram analisados ​​contendo perfis de expressão de mRNA de um total de 742 pacientes com câncer que foram adquiridas usando a tecnologia de microarray Affymetrix. Os dados foram obtidos por três entidades diferentes, neuroblastoma, adenocarcinoma de pulmão e câncer de mama, como resumido na Tabela 1. Arquivos CEL foram baixados da Expressão Gênica Omnibus ou a plataforma R2 (https://r2.amc.nl). Para o pré-processamento, o algoritmo RMA congelados [23] foi aplicado a arquivos CEL individuais para criar resumos de nível de sondas. Somente microarrays com o GNUSE mediana [31] valores ≤1 (para controle de qualidade) e com informação clínica adequada (sobrevida global) foram incluídos neste estudo. As características dos três conjuntos de dados antes e depois de pré-processamento são resumidos nas Tabelas 2, 3 e 4 (veja a Figura S1 para as correspondentes parcelas de Kaplan-Meier).

As características obtidas a partir de pré-processamento são denotados por

conjuntos de sondas, que correspondem à (partes de) genes de exões ou plataformas, dependendo do microarray. O número total de conjuntos de sondas (características) diferem dependendo plataformas de microarray: HG-U133A mais 2,0 plataforma contém 54675 sondas (HG-U133A contém cerca de 10000 menos de sondas) e Human Exon ST plataforma v1.0 contém 1432143 sondas, de acordo com o NetAffx v33.1 anotação de sondas de Affymetrix. Cada conjunto de sondas tem um valores de expressão resumidos de correspondente

sondas

nos dados CEL originais, onde 9~11 (HG-U133A) ou 1~4 sondas (Human Exon ST v1.0) constituem um conjunto de sondas. Para o conjunto de dados neuroblastoma (Human Exon ST v1.0), enfocamos as sondas de nível central como recursos correspondentes a exons que preencheram três critérios: hibridização única, localização única em um dos cromossomos humanos, ea presença de atribuições de genes válidos . Usando a anotação de sondas NetAffx, isso resultou em 228476 características. Quando pré-filtragem foi aplicada, as sondas com desvio padrão inferior ao percentil 99 do desvio padrão de todos os recursos foram descartados para cada conjunto de trem aleatório

I

, resultando em 2285 recursos. Para adenocarcinoma (HG-U133 Plus 2) e câncer de mama (HG-U133A) conjuntos de dados, enfocamos as sondas série-A como recursos correspondentes a genes com hibridação única e localização única. Usando a anotação NetAffx, isso resultou em 28476 (adenocarcinoma) e 20492 (cancro da mama) apresenta, respectivamente. Quando foi aplicado pré-filtragem, as sondas com desvio padrão inferior ao percentil 90 do desvio padrão de todos os recursos foram descartados para cada conjunto de trem aleatório

I

, resultando em 2848 (adenocarcinoma) e 2050 (cancro da mama) recursos .

co-variáveis ​​clínicas foram utilizados apenas para o método Cli, incluindo os seguintes atributos: idade no momento do diagnóstico, estado MYCN e estágio INSS para o neuroblastoma; idade, status, sexo, estágio e status MYC para o adenocarcinoma do pulmão fumar; idade, estágio, tamanho do tumor e grau de câncer de mama.

Signatures robustos

Os algoritmos RS-PL, RS-L, PL, L, Dev, Cor e CLI foram testados dentro o nosso quadro de avaliação (Figura 1: B), usando as mesmas divisões aleatórias de dados através de diferentes métodos para a comparação justa (ver Tabela S1 para a distribuição do tempo de sobrevivência de treinar e testar conjuntos). Isto resultou numa sequência de vectores de coeficiente como uma saída de cada método. Estes foram usados ​​para estimar a probabilidade de selecção de cada recurso,. Para o conjunto de dados do neuroblastoma, a probabilidade de linha de base foi definido como a probabilidade de selecção estimado do estado de amplificação covariável MYCN (). Para os outros dois conjuntos de dados, um valor arbitrário () foi definido e assinaturas robustas foram obtidos.

qualitativa validação de assinaturas robusto.

Tabelas 5, 6 e 7 mostram os recursos incluídos no assinaturas robustas produzidas pela RS-PL, para neuroblastoma, adenocarcinoma de pulmão e câncer de mama, respectivamente (ver quadros S2, S3 e S4 para as listas correspondentes de características escolhidas e sua probabilidade de seleção). Em cada tabela, as frequências de selecção de características são apresentadas na segunda coluna. Quanto neuroblastoma, os dados estavam disponíveis com resolução a nível exão, então valores de frequência de selecção foram em média, ao longo de vários exons se mais de um exão foi estavelmente identificados por um gene.

Deixe uma resposta