PLOS ONE: Previsão Machine Learning of Cancer sensibilidade celular para medicamentos à base de Genomic and Chemical Properties

Abstract

prever a resposta de um câncer específico para uma terapia é uma meta importante na oncologia moderna que deve levar a um tratamento personalizado. exibições de alto rendimento de compostos potencialmente ativos contra um painel de linhas celulares de cancro heterogêneos genomically têm revelado múltiplas relações entre alterações genômicas e respostas de drogas. Várias abordagens têm sido propostas computacional para prever a sensibilidade com base em características genómicas, enquanto outros têm utilizado as propriedades químicas dos fármacos para determinar o seu efeito. Em um esforço para integrar estas abordagens complementares, desenvolvemos modelos de aprendizagem de máquina para prever a resposta de linhas celulares de cancro para tratamento da toxicodependência, quantificada através IC

50 valores, com base em ambas as características genômicas das linhas celulares e as propriedades químicas as drogas consideradas. Modelos previam IC

50 valores em uma validação cruzada de 8 vezes e um

test

cega independente, com coeficiente de determinação R

2 de 0,72 e 0,64, respectivamente. Além disso, os modelos foram capazes de prever com uma precisão comparável (R

2 de 0,61) IC50 de linhas de células de um tecido não utilizada na fase de treinamento. Nosso

in silico

modelos podem ser utilizados para otimizar o projeto experimental de rastreios de células de drogas estimando uma grande proporção de falta IC

50 valores, em vez de experimentalmente a sua medição. As implicações dos nossos resultados vão além

design de triagem

droga virtual: potencialmente milhares de drogas poderiam ser sondado

in silico

para testar sistematicamente a sua eficácia potencial como agentes anti-tumorais com base na sua estrutura, assim fornecendo uma estrutura computacional para identificar novas oportunidades de reposicionamento de drogas, bem como vir a ser útil para a medicina personalizada, ligando as características genômicas de pacientes com sensibilidade de drogas

Citation:. Menden MP, Iorio F, Garnett M, McDermott U, Benes CH, Ballester PJ, et ai. Previsão de Aprendizagem (2013) Máquina de Câncer sensibilidade celular para medicamentos à base de Genômica e propriedades químicas. PLoS ONE 8 (4): e61318. doi: 10.1371 /journal.pone.0061318

editor: Gajendra P. S. Raghava, CSIR-Instituto de Tecnologia Microbiana, Índia |

Recebido: 26 Outubro, 2012; Aceito: 07 de março de 2013; Publicação: 30 de abril de 2013

Direitos de autor: © 2013 Menden et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi financiado pelo programa de doutoramento Laboratório Europeu de Biologia Molecular para MPM, o programa Sanger /European Bioinformatics Institute ESPOD para FI, uma metodologia de pesquisa Fellowship Conselho de Investigação médica de PJB, um subsídio Wellcome Trust para MG e CHB, e Cancer Research UK para uM. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

rastreio de alto rendimento de um grande número de moléculas é uma abordagem amplamente utilizada para identificar compostos de chumbo que exercem um efeito benéfico sobre um dado fenótipo. No contexto do cancro, bibliotecas de entidades químicas foram testados desta maneira contra painéis de linhas de células cultivadas em condições diferentes e com fundos genómicas heterogéneos [1]. Seguindo o trabalho pioneiro do “NCI-60”, uma coleção de 59 linhas de células cancerosas humanas, desenvolvido pelo Instituto Nacional do Câncer para

in vitro

droga triagem [2], os estudos da indicação recentes têm mostrado que a triagem muito grande coleções de linha celular pode recapitular conhecidos e identificar novos determinantes genômicas moleculares de sensibilidade às drogas [1], [3] – [5]

nestes estudos, utilizando inferência e regressão métodos estatísticos sistemáticos, determinante como lesões oncogênicos. , altos ou baixos níveis de expressão do gene basal e outras características genotípicas têm sido associadas aos perfis de aumento da sensibilidade /resistência a compostos específicos. Por exemplo, através da aplicação de uma análise de variância multivariada [6] e um quadro de regressão do ‘Elastic Net “[7] estabelecidas associações de drogas genótipo foram confirmadas e complementadas com marcadores de tecido especificidade e novas conexões, por exemplo,

EWS-FLI1

translocação no sarcoma de Ewing e sensibilidade à

PARP

inibidores, foram identificados e mais validadas experimentalmente. Os resultados destes estudos foram disponibilizados ao público, oferecendo recursos únicos que suportam a descoberta de novos biomarcadores preditivos para a terapia do câncer personalizado.

Aumentar ainda mais o tamanho dos painéis considerou-line celular /compostos seria muito benéfico, uma vez que fornece a base para melhorar a precisão e poder preditivo das associações inferidos. No entanto, isto exige infra-estruturas maiores e o custo aumenta com a dimensão de triagem. Além disso, devido a várias razões técnicas e logísticas em uma tela de elevado rendimento [7], a matriz de linha resultante composto por célula de eficácia da droga (tipicamente resumidos na sua IC

50, a metade máxima (50%) concentração inibitória de uma substância com respeito a viabilidade celular) frequentemente não é completo. Embora muitas etapas são automatizadas, enchendo experimentalmente cada lacuna poderia ser caro e trabalhoso [6]. Por isso, uma ferramenta precisa para imputar falta IC

50 e estimá-los para novas linhas celulares seria de grande valor para o projeto de despistagem de drogas.

Além disso, uma ferramenta de previsão robusta para

in silico

identificação de fármacos potencialmente eficazes para o tratamento de um cancro específico poderia ser utilizado para o reposicionamento de drogas [8], [9]. Um método deste tipo é representado pelo algoritmo COMPARE [10], [11], que utiliza os perfis de resposta a drogas de NCI-60 de triagem, por meio de um paradigma de “culpa por associação”. Seguindo este princípio, as drogas que desencadeiem um perfil fármaco-resposta semelhantes ao longo das linhas celulares no painel NCI-60 são hipoteticamente para partilhar um modo de acção comum (MOA), permitindo, assim, a descoberta MOA para novos medicamentos (se o seu perfil de supressão tumoral é semelhante ao de uma droga conhecida e bem caracterizada), bem como a descoberta de novos efeitos secundários ou para drogas estabelecidos.

Finalmente,

in silico

métodos para prever com precisão a eficácia de drogas baseadas na fabricação molecular de tumores (isto é, genoma, transcriptoma) seria um marco importante no sentido de terapias personalizadas para pacientes com câncer baseados em biomarcadores moleculares [12].

resultados

por isso, investigou se é possível construir modelos de aprendizagem de máquina (ver pormenores na secção “Materiais e Métodos”, “aprendizagem Machine” subseção) que pode prever a sensibilidade de drogas utilizando a linha de células de triagem de dados experimentais, onde as linhas de células são tratadas com concentração variável de uma determinada droga e da consequente curva de dose-resposta resumidos por um IC

50. Estamos focados na mais abrangente droga contra o câncer de triagem conjunto de dados disponíveis até à data, a partir do “Genomics de sensibilidade às drogas em Câncer” (GDSC) projeto [3]. Para cada fármaco, um modelo de rede neuronal foi treinada para prever o seu IC

50 perfil ao longo do painel de linhas celulares com base na formação genómico de cada célula, tal como caracterizado pelo estado microssatélite instabilidade (1 = instável ou 0 = estável), variantes de codificação somáticas na sequência de codificação de 77 genes do cancro (1 = qualquer alteração na sequência de proteína e 0 = tipo selvagem) e copiar alterações número que denota a amplificação do gene e de apagamento desses genes do cancro (1 = amplificação /mais de 7 números de cópias, 0 = tipo selvagem /entre 1 ou 7 números de cópias, e -1 = supressão /no número de cópias). No entanto, o poder de previsão destes modelos iniciais eram limitadas, especialmente para aquelas drogas sem uma bem conhecida dependência resposta oncogene-to-drogas.

Nós fundamentado que a sensibilidade de células de câncer de moléculas da droga é conduzido por características de ambos células e drogas. Considerando características de células são, em última análise ligados aos mecanismos internos da célula, características de drogas incluem as propriedades físico-químicas que estão correlacionados com a capacidade da molécula para atravessar a membrana celular (por exemplo, a lipofilicidade) ou a sua selectividade para alvos intracelulares (por exemplo, impressões digitais que codificam a estrutura química )

na verdade, o trabalho extensivo tem sido feito sobre Quantitative Structure-Activity Relationship (QSAR) abordagens para prever a actividade de célula inteira de moléculas com base nas suas propriedades químicas [13] -. [16], incluindo aplicações para predizer atividade anti-câncer de drogas [17], [18]. No entanto, tais abordagens QSAR exclusivamente com base nas características químicas não pode distinguir entre linhas de células resistentes e sensíveis. Por exemplo, a construção de um modelo sem qualquer informação das linhas celulares, o modelo não será capaz de prever linha celular A para ser mais resistente do que a linhagem de células B a droga C, que é o principal objectivo de integrar características genómicas química e no nosso modelos.

por isso, estendemos os nossos modelos de aprendizado de máquina para incluir como recursos de entrada químicos de drogas, além da caracterização molecular das linhas de células (ver Figura 1). Esta abordagem integrada não só integra dois fluxos complementares de informação, mas também permite que o modelo a ser treinado com quantidades muito maiores de dados, que é muitas vezes um factor chave para melhorar o desempenho preditivo (ver figura 2). Consequentemente, os dados foram pré-processados ​​para incluir 689 descritores químicas dos fármacos e 138 características genómicas para diferenciar as linhas de células, resultando em um espaço de entrada de 827 características

O método baseia-se em dois fluxos de entrada diferentes.: (1) recursos de linha de células de 77 oncogenes e seu estado de mutação, (2) recursos de drogas que são gerados com software Padel [19] a partir do sistema de entrada de linha de entrada molecular simplificado (SMILES), ver secção método para obter detalhes. O IC

50 valor contínua está previsto com algoritmos state-of-the-art de aprendizado de máquina (redes neurais e florestas aleatórios).

O desempenho do modelo multi-droga (asterisco vermelho) ea família de 111 modelos de um único medicamento (azul histograma) é representado por meio de três métricas diferentes: (a) de correlação de Pearson R

p, (B) coeficiente de determinação R

2, e (C) root mean square RMSE erro.

descritores químicos foram gerados com software Padel [19] a partir de estruturas (sorri) simplificado de entrada molecular do sistema de entrada de linha. Descritores incluem características físico-químicas, tais como peso, lipofilicidade, a regra de cinco anos, e, adicionalmente, as impressões digitais dos medicamentos (seção “Materiais e Métodos” para mais detalhes ver “, Características” subseção, e https://padel.nus.edu.sg/software /padeldescriptor /).

para a construção de nosso modelo, foram utilizados dados de rastreio GDSC de 608 linhas de células genomically caracterizadas e 111 drogas para as quais informações químicas estavam disponíveis (ver Fig 2 e Métodos para mais detalhes). A versão publicada desta matriz detém 38,930 IC

50 valores (~58% do total, devido a razões técnicas e logísticas).

Foi realizada uma validação cruzada de 8 vezes, onde o conjunto de teste de cada prega não foi utilizado para a formação, de modo a medir a capacidade de previsão dos modelos resultantes em todas as drogas, em vez de para cada droga separadamente. As redes neurais foram capazes de imputar log ausente (IC

50) os valores sobre os conjuntos de teste com um coeficiente de correlação de Pearson média (R

p), o coeficiente de determinação (

R

2

) e erro médio quadrático (RMSE) (S1 texto) de 0,85, 0,72 e 0,83 em todos os 111 fármacos, respectivamente (Fig 3A). Alternativamente, florestas aleatórias conseguido desempenhos comparáveis ​​(R

p de 0,85,

R

2

de 0,72 e RMSE de 0,84; detalhes em materiais complementares). Além disso, foi realizado um teste cego com 13,565 novas experimentais IC

50 apenas valores recebidos após treinamento de nossos modelos, a fim de verificar os resultados de validação cruzada (fármaco-célula de matriz de linha atualizados pelo ~18%, com estes recém-gerado IC

50s utilizadas exclusivamente como o conjunto de teste cego). Os resultados no teste cego eram quase tão bom quanto na validação cruzada, a obtenção de um R

p de 0,79,

R

2

de 0,64 e um RMSE de 0,97 (Fig S1, Texto S2). A precisão das previsões nos encorajou a treinar as redes com menos

50 valores IC. Notavelmente, o poder preditivo dos modelos não cair fora sensivelmente na qualidade, mesmo se a quantidade de dados de formação foi reduzida para 20% do total (Fig 3B)

.

previsões são alcançados com 8-dobra transversal -validations. valores de desempenho são calculados exclusivamente nos conjuntos de teste. (A) A correlação entre o previsto para o registo observada experimental (IC

50) valores (de correlação de Pearson R

p = 0,85; coeficiente de determinação R

2 = 0,72, root mean square erro RMSE = 0,83). Embora não haja um enriquecimento de linhas de células resistentes, que tendem a ter 50 (IC

) valores de log mais elevada do que as linhas de células sensíveis, o log mais baixa (

50 IC) valores ainda são decentemente previsto. (B) esperada melhoria do IC

50 previsão preenchendo experimentalmente lacunas na matriz célula-droga. A linha cinza vertical corresponde ao conjunto de dados publicados (cheio até ~58%, devido a razões logísticas), o que corresponde aos resultados do painel (A). No entanto, precisões similares (R

p de 0,84 em vez de 0,85, R

2 de 0,70 em vez de 0,72) pode ser conseguido usando exclusivamente 20% de toda a matriz.

Usando um a análise de variância (ANOVA) para identificar associações fármaco-para-oncogene, foi investigado como também o CI

50 valores previstos para o conjunto de teste usando o nosso modelo de recapitular associações manifestada nos dados experimentais, por exemplo, se uma determinada mutação é fazendo com sensibilidade ou resistência a uma droga [3]. Usando apenas previu IC

50 valores, correctamente capturada 79% (168/213) das observações significativas com a mesma tendência t-teste (efeito positivo ou negativo sobre a sensibilidade à droga) identificada com o CI experimental

50s. Quando apenas considerando associações significativas de nosso modelo (p-valor ajustado com Benjamini-Hochberg, FDR = 0,2), que previu corretamente 28% (59/213) de todas as associações experimentalmente identificados. Onde não conseguiu detectar uma associação do tamanho do efeito ANOVA é muitas vezes pequena, ou a correlação experimental está associado a uma mutação ou não ou pouco representados dentro do subconjunto de linhas celulares com preditos IC

50 valores. Notavelmente, como exemplo da utilidade desta abordagem, usando somente previu IC

50 valores identificamos conhecidos droga-to-oncogene associações como a sensibilidade do

BRAF

células -mutated linhas para

MEK1 /2

-inhibitors (Fig 4B) [20]. A gama de preditos IC

50 valores para uma droga são geralmente mais estreita do que para os valores observados e é provável porque genómico conjunto de dados actualmente disponíveis são de suficiente para explicar o intervalo observado de respostas ao fármaco através das linhas de células.

(a) Análise de variância (ANOVA) dos dados experimentais e previu que a produção para as associações de drogas-a-oncogene (20% FDR). O tamanho de cada associação (ponto) é proporcional à quantidade de linhas celulares tratadas que contenham o oncogene mutante particular. Os pontos azuis indicam a mesma tendência t-test em nossas previsões, e os vermelhos o oposto. (B) previstos e medidos IC

50 anos de

BRAF

-mutated contra linhas de células do tipo selvagem expostas ao

MEK1 /2

-inhibitor PD-0325901 (p-valor de previsão = 1,91 × 10

-05, t-teste de hipótese múltipla corrigidas com Benjamini . Hochberg)

Além disso, avaliou-se o poder preditivo de nosso modelo de linhas celulares desconhecidos. Por isso, foi aplicado um mais rigorosa de 8 vezes de validação cruzada, em que uma linha de células foi incluído quer no comboio ou conjunto de teste. Estes modelos alcançou um R

p de 0,82,

R

2

de 0,68 e um RMSE de 0,89 (Fig S2), demonstrando a precisão do nosso modelo para prever IC

50 valores para completamente novas linhas celulares. Em uma simulação adicional, deixado de fora todas as linhas celulares de cancro de um tecido específico, por exemplo, removemos todas as linhas de células de câncer de pulmão (106 de 608 linhas de células) e ainda obteve R

p de 0,79,

R

2

de 0,61 e RMSE de 0,99 (Fig S3).

Discussão

Nossos resultados mostram que usando recursos genômicos das linhas celulares e informação química das drogas, é possível construir

in silico

modelos multi-droga para imputar falta IC

50 valores com algoritmos de aprendizado de máquina não-paramétricos, tais como redes neurais e florestas aleatórias. Como saída para o nosso método, optamos por explorar valores de IC50 como gerado por Garnett et al. [3], o que nos permite comparar nossos resultados com eles, no entanto, outras métricas (como um IC50 tampado ou área sob a curva), pode fornecer informações adicionais e potencialmente levar a modelos mais robustos.

A Pearson correlação (Fig. 2A) e coeficiente de determinação (Fig. 2B) do modelo multi-droga são significativamente melhores do que os modelos de fármaco único, enquanto que o erro quadrático é semelhante (Fig 2C). Isto significa que o erro (em média) de predizer um determinado valor de IC50 é a mesma nos modelos a múltiplas drogas e de fármaco único (RMSE) e, uma vez que algumas drogas são activos em diferentes gamas de concentração, o modelo é capaz de cobrir uma muito maior gama dinâmica, com uma precisão semelhante. O coeficiente de determinação equilibra esses dois termos, e, portanto, uma gama mais ampla com o mesmo RMSE aumenta R

2. Graças à utilização de descritores químicos, modelos de multi-drogas são formados com um volume de dados que é duas ordens de grandeza maior do que os dados para formar cada modelo de fármaco único. Este maiores pesos do conjunto de dados a dificuldade na formação de valores de resposta heterogêneos através drogas.

Em vários casos, o uso de modelos multi-droga permitiu a

in silico

identificação de eventos genômicas associadas com a sensibilidade de droga alterada , o que só é possível quando as propriedades genômicas são considerados.

Apesar de nossos modelos não capturar todo o gene conhecido por associações medicamentosas, prevemos que quanto maior a sensibilidade de drogas e conjuntos de dados genômicos tornam-se disponíveis nos próximos anos, o poder preditivo destes modelos vai aumentar. Acreditamos que o poder preditivo dos nossos modelos é devido ao grande número de linhas celulares e ampla gama de medicamentos em que o painel de GDSC amostras intensivamente o espaço químico de medicamentos contra o cancro comuns (inibidores quimioterapêuticos e quinase). Ele continua a ser determinada como esses modelos irá prever famílias completamente desconhecidos de agentes terapêuticos.

A capacidade preditiva dos nossos métodos para valores individuais ainda é limitado e poderia ser melhorada através do alargamento do conjunto de entrada possui com camadas adicionais de caracterização molecular das linhas celulares, tais como os perfis de transcrição basal e dados phosphoproteomic. Estes tipos de dados foram utilizados para prever respostas ao fármaco em vários contextos [21] – [24]. Outra extensão valiosa poderia ser a inclusão de dados de expressão gênica após o tratamento de drogas, um poderoso

in silico

recurso para prever os resultados do tratamento e elucidar o modo composto de acção [25], [26], bem como uma via promissora para a identificação de novas oportunidades de reposicionamento de drogas [27]. Além disso, os dados epigenética pode melhorar as capacidades de previsão de métodos futuros [28].

O nosso método utiliza dados puramente experimentais, mas o poder preditivo adicional pode ser esperado de incluindo o conhecimento da rede subjacente [29]. Demonstrou-se que a previsão da resposta à droga e do modo de acção pelo perfil de transcrição é significativamente aumentada quando combinado com conhecidos a redes de genes e proteínas priori [30], [31] e semelhanças de drogas têm sido inferida com base no correspondente

in silico

previu via impinged [32]. conhecimento prévio também pode aumentar a capacidade de interpretação dos resultados. relações reguladoras conhecidas entre os genes e os dados de transcrição [33] e redes de proteína [34] pode ser usado para identificar vias desreguladas, e ser ainda ligada às alterações genómicas que eles [35] dirigem, destacando sub-redes de importância para a resposta à droga.

a incorporação destas características adicionais exigirá um esquema para priorizar a entrada de recursos com base em seu impacto sobre o modelo treinado final. As associações entre recursos e resultados poderiam ser explicitamente revelada através da integração em nossos modelos possuem critérios seleções e técnicas de redução de dimensionalidade.

Em termos de modelos preditivos, usamos métodos de aprendizado de máquina padrão (redes neurais e florestas aleatórias), dado sua flexibilidade e robustez, modelos preditivos. Um terreno fértil para mais investigação está a investigar a aplicação de outras técnicas de modelagem, incluindo os métodos de regressão linear (por exemplo, Lasso, ElasticNets).

Os nossos resultados também mostram que pode-se estimar a precisão da previsão para diferentes graus de escassez em os dados, o que pode ter utilidade na concepção de experiências onde a cobertura tem que ser equilibrado com precisão. Além disso, porque os modelos são capazes de prever IC

50 em linhas celulares não selecionados ainda, previsões destes modelos podem ser usados ​​para decidir se vale a pena expandir o painel de linhas celulares, ou melhor, se concentrar em alguns poucos selecionados.

as implicações dos nossos resultados vão além da sua utilidade para otimizar o projeto experimental de exames de drogas. Uma vez que o modelo é construído, que poderia ser utilizado para testar sistematicamente o efeito potencial de novos fármacos

in silico

, com base nas suas características químicas e similaridade. Estas previsões pode ajudar a avaliar a actividade potencial de novos fármacos, por exemplo, a partir de grandes bibliotecas químicas, a ser rastreada. Além disso, as previsões em matéria de droga clinicamente aprovados está prevista para revelar candidatos para reaproveitamento de drogas e potencialmente identificar sub-tipos de doenças específicas que seriam mais responsivos [8]. Embora linhas celulares não são uma réplica exata de tumores reais, modelos preditivos abrangentes, tais como o nosso, juntamente com conjuntos de dados genômicos e epigenômicos expandidas pode ser uma boa proxy para facilitar o desenvolvimento de novas estratégias terapêuticas sob medida para pacientes individuais [12].

Materiais e Métodos

conjunto de dados Formação

Foram utilizados os dados dos Genomics de sensibilidade às drogas no projeto cancer [3], que contém 639 linhas celulares de cancro, cada um deles caracterizado por um conjunto de características genômicas (detalhes na próxima seção). A caracterização não está completa para cada linha de células e, portanto, filtradas linhas de células com mais de 15 características genômicas em falta, o que reduziu o conjunto de linhas de células seleccionados de 639 a 608. O conjunto de dados contém 131 medicamentos. Como nosso método explora a estrutura química de cada droga, esta informação em formato simplificado de entrada molecular sistema de entrada de linha (SMILES) é necessária. Portanto, não consideramos os 20 medicamentos para os quais SORRI não estavam disponíveis, e construiu o nosso modelo para os restantes 111 drogas.

A matriz resultante de 608 linhas celulares por 111 drogas terá 67,488 possíveis curvas de resposta de drogas, cada resumidos por sua IC

50 valor (concentração da droga nas unidades uM necessários para erradicar a 50% das células cancerosas). Atualmente, o conjunto de dados contém 38,930 IC

50 valores fora destes 67.488 (58%), com valores em falta na maior parte devido a razões logísticas, tais como medidas de coordenação de vários centros de triagem. O log IC

50 varia de -7,40 (IC

50~4 • 10

-8 M; a combinação de células de drogas mais sensível) para 6,91 (IC

50~8 • 10

6 M; os mais resistentes). Note que os valores extremamente grandes e pequenas são extrapolações no IC

50 que não têm relevância clínica. Nós usamos esses intervalos neste estudo como esses são os utilizados no papel Garnett et al. [3] que nós comparamos nossos resultados contra.

conjunto de dados de teste cego

Nós gerado conjuntos de teste durante a validação cruzada para estimar o erro esperado (detalhes na seção de validação cruzada). No entanto, mesmo validação cruzada pode superestimar o desempenho futuro de métodos de aprendizado de máquina. Portanto, realizamos um teste realmente cego, a fim de demonstrar as capacidades potenciais de nossos modelos validados-cross para imputar falta valores de IC50 nas 608 linhas celulares por 111 matriz de drogas (Fig S1). Nosso teste cego contém 13,565 recém-gerados IC

50 valores, que foram obtidos após o treinamento ocorreu, ou colocá-lo de forma diferente, um lote de novos dados experimentais foi gerado para validar de forma independente os nossos modelos. Para resumir, 58% dos

50 valores IC estão na base de dados original (usado para validação cruzada), um adicional de 18% são utilizados para o teste cego (teste independente).

Características

Existem duas correntes diferentes de dados de entrada em nosso método: o fundo genômico para cada linha de células de câncer, e as propriedades químicas de uma droga. Para a primeira corrente de dados de entrada, linhas de células de cancro são caracterizados por o estado mutacional de 77 oncogenes, onde cada um deles é ainda descrita por variação do número de cópias (qualquer amplificação de grau elevado ou deleção homozigótica de um gene de cancro) e variação da sequência (alterações em a sequência da proteína, por exemplo, não sinónima single nucleotide polymorphism). Além disso, há uma característica binária para o estado de instabilidade microssatélite de cada linha de células. Os recursos de linha celular foram codificados como se segue:

status de instabilidade de microssatélites

A variação da sequência

Copiar número variação

Todas as mutações consideradas, temos 77 possível uma cópia variações no número de mais 77 possíveis variações de seqüência e valor a estabilidade de um microssatélite, que resume a 155 possíveis características da linha celular. No entanto, algumas características de mutação estão faltando para algumas linhas celulares, e nós conservadora removido um recurso no caso que estava faltando para qualquer linha de células. Isso levou a um conjunto final de 138 recursos genômicos que caracterizam cada linha de células de câncer.

A segunda corrente de dados de entrada incorpora 1D e 2D propriedades químicas de cada droga. Geramos estas características químicas usando o software Padel (v2.11, baixado a partir do site do projeto, https://padel.nus.edu.sg/software/padeldescriptor/) [19] a partir dos sorrisos com configurações padrão. 722 características físico-químicas são descritores e 881 são obtidos a partir das impressões digitais, que conduz a um total de 1603 características químicas. Nós só incluiu características químicas que poderiam ser calculados para todas as drogas. Além disso, nós removemos qualquer recurso com o mesmo valor em todas as drogas, a obtenção de um conjunto final de 689 características químicas para cada droga (por exemplo átomo de contagem, contagem de títulos, peso molecular, xlogP ou PubChem impressão digital, para citar alguns). A lista de medicamentos está disponível no material complementar (Tabela S1).

Em conjunto a linha de células de câncer e drogas fluxo, usamos 827 recursos para construir nossos modelos de previsão do log IC

50 valor do uma determinada linha celular, na presença de um determinado fármaco.

a validação cruzada

Foi utilizado um validação cruzada de 8 vezes para construir os modelos. Portanto, nós separamos o conjunto de dados original em oito conjuntos de igual tamanho de IC

50 valores, obtidos através da distribuição aleatória todos os IC

50s da matriz em 8 blocos. Um deles era usado exclusivamente para testes (nunca envolvido em qualquer formação), outros seis foram destinados para treinar o modelo e a parte restante foi usado para cross-training. A validação cruzada é um processo usado para evitar uma sub superajuste e [36], por exemplo, identificar o número ideal de unidades escondidas e formação de iterações para uma rede neural (detalhes na seção “aprendizagem máquina”). Nós rodado de forma iterativa os conjuntos de modo que cada ponto de dados foi utilizado pelo menos uma vez para o treinamento, cross-training ou ensaios. Finalmente, obtivemos 8 modelos, que foram igualmente preditivo.

Além disso, utilizou-se uma versão mais rigorosa da validação cruzada 8 vezes acima descrito. Nós garantiu que o teste, trem e conjunto de cross-trem não estão compartilhando qualquer linha celular, o que pode ocorrer na versão não rigorosas (descrito acima). Por exemplo, suponha linha celular C1 é tratada com as drogas D1, D2 e ​​D3; Para a validação cruzada não rigorosas, a combinação C1-D1, C1-D2 e C1-D3 pode ser distribuída ao longo do teste, trem e conjunto de cross-trem; para a validação cruzada rigorosa, cada combinação com C1 está ocorrendo exclusivamente em uma dessas três sets.

aprendizagem

máquina

Para as redes neurais, foi utilizada a aplicação Java a partir Encog 3.0.1 (https://www.heatonresearch.com/encog) [37], [38] de um multi perceptron feed-forward camada, onde definiu três camadas diferentes: de entrada, escondido (ou meio) e camada de saída. Cada perceptron de uma camada é completamente ligado a cada um perceptron da camada superior. O número de recursos determinado o número de unidades de entrada, ou colocá-lo de forma diferente, perceptrons exigidos na primeira camada. O número de unidades ocultas foi explorada durante o treinamento para determinar a complexidade do modelo correto, que era entre 1 e 30 unidades escondidas. Além disso, cada unidade de entrada e oculta teve também um viés, que é uma entrada de activação permanente para os perceptrões. Utilizou-se uma única unidade de saída para predizer o registo contínuo (

IC50) valor.

A função de activação perceptron para permitir que a rede para prever o comportamento não-linear, foi utilizada a função sigmoidal, que retorna valores em um intervalo de 0 a 1. por isso, tivemos de normalizar os

50 valores IC (matéria-IC

50 valores, não no espaço log) também em uma escala de 0 a 1, o que foi feito com o seguinte função logística-like:

:. Observado /valor IC50 esperado, o que tem de ser um número positivo maior que zero

Nós treinamos a rede com a implementação flexível de erro backpropagation de Encog com parâmetros padrão [39]. Para explorar a complexidade do modelo final, que é descrito por número de unidades escondidas ea quantidade de iterações de formação, examinamos diferentes arquiteturas de rede neural de 1 até 30 unidades escondidas e os treinou para máximas 400 iterações. Nós procuramos o mínimo global em que a paisagem de cross-training (minimizando o erro quadrático médio de conjunto de treinamento transversal) para evitar uma sub ou overfitting (normalmente, entre 21 e 27 unidades ocultas foram escolhidos como melhor modelo após cerca de 300 iterações).

também realizamos florestais aleatória [40] modelos de regressão para investigar se houve qualquer ganho significativo de performance usando um não-paramétrico metodologia alternativa de aprendizado de máquina (Texto S3). Uma floresta aleatório é um conjunto de muitas árvores de regressão diferentes gerados aleatoriamente a partir dos mesmos dados de treinamento (foi utilizado o valor recomendado de n = 500 árvores).

Acesso a dados

O conjunto de dados é totalmente acessível de

Deixe uma resposta