PLOS ONE: Data Mining abordagens de genômica de Biomarcadores de desenvolvimento: Aplicações Utilizando Rastreio de drogas Dados do Projeto do Genoma do Câncer ea Linha Cancer Cell Enciclopédia

Sumário

O desenvolvimento de biomarcadores confiáveis ​​de sensibilidade às drogas célula tumoral e resistência pode orientar a ciência básica investigação e influência pré-terapia decisões clínicas orientado a hipótese. Uma estratégia popular para o desenvolvimento de biomarcadores usa caracterizações de amostras de tumores humanos contra uma gama de respostas droga contra o câncer que se correlacionam com a mudança genômica; desenvolvido em grande parte dos esforços da linha de células do cancro da Encyclopedia (LECC) e do Projeto Genoma do Câncer Sanger (CGP). O objetivo deste estudo é fornecer uma análise independente dos dados que visa vet existente e adicionar novas perspectivas para descobertas de biomarcadores e aplicações. Existente e métodos estatísticos alternativa mineração de dados e será usado para a) avaliar as respostas de drogas de compostos com mecanismo de acção semelhante (MOA), b) analisar medições da expressão genética (GE), número de cópia (CN) e estado de mutação (MUT) biomarcadores, combinadas com a análise conjunto de genes de enriquecimento (GSEA), por hypothesizing processos biológicos importantes para a resposta à droga, c) realizar comparações globais da GE, CN e MUT como biomarcadores em todos os medicamentos selecionados no conjunto de dados CGP, e d) avaliar a preditivo positivo poder de biomarcadores GE CGP-derivados como preditores de resposta à droga nas células tumorais LECC. As perspectivas derivadas de exames individuais e globais da GES, MutS e CNs confirmam existente e revelar papéis únicos e comuns para estes biomarcadores na sensibilidade de drogas célula tumoral e resistência. Aplicações de biomarcadores genômicas CGP-derivados para prever a resposta à droga das células tumorais LECC encontra um ROC altamente significativo, com um poder preditivo positivo de 0,78. Os resultados deste estudo ampliar os métodos de mineração e análise de dados disponíveis para o desenvolvimento de biomarcadores genômica e fornecer suporte adicional para a utilização de biomarcadores para orientar a ciência da investigação fundamental por iniciativa dos hipótese e pré-terapia decisões clínicas

Citation:. Covell DG ( 2015) Data Mining abordagens de genômica de Biomarcadores de desenvolvimento: Aplicações Utilizando Rastreio de drogas dados do Projeto Genoma do Câncer e da linhagem celular de câncer Encyclopedia. PLoS ONE 10 (7): e0127433. doi: 10.1371 /journal.pone.0127433

editor: Anguraj Sadanandam, Institute of Cancer Research (ICR), Reino Unido

Recebido: 22 Outubro, 2014; Aceito: 15 de abril de 2015; Publicação: 01 de julho de 2015

Este é um artigo de acesso aberto, livre de todos os direitos autorais e pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita. O trabalho está disponível sob a licença Creative Commons CC0 domínio público dedicação

Disponibilidade de dados: Todos os dados extraídos do Projeto Genoma do Câncer (CGP) (https://cancer.sanger.ac.uk/cosmic) eo Linha Cancer Cell Encyclopedia (LECC) (https://www.broadinstitute.org/ccle/home)

financiamento:. Este autor tem nenhum apoio ou financiamento para relatar

Conflito de interesses.: o autor declarou que não existem interesses conflitantes.

Introdução

esforços de seqüenciamento

Em larga escala, dirigido principalmente pelo Cancer Genome Consortium International (https://icgc.org/) e do Cancer Genome Atlas (https://cancergenome.nih.gov/), têm contribuído para o desenvolvimento de tratamentos com drogas que alvejam seletivamente alterações genômicas; como por exemplo; translocações BCR-ABL1 (imatinib) [1,2], EML4-ALK translocações (EGFR e inibidores de ALK) [3] e BRAF: mutação V600E (inibidores BRAF) [4]. Mais recentemente, os esforços para identificar sistematicamente alterações genômicas que podem servir como biomarcadores de susceptibilidade droga terapêutica levaram a colaborações entre o Wellcome Trust Sanger Institute e do Massachusetts General Hospital (dados de mais de 700 células tumorais imortalizadas e 138 drogas contra o câncer) e do Instituto Broad e Novartis colaboração (profiling 24 drogas contra o câncer através de 479 células tumorais imortalizadas); cada esforço guiado, em parte, pela tela de drogas pioneiro NCI60 [5]. Embora os críticos desses esforços, muitas vezes, note limitações de células tumorais humanas imortalizadas para contabilizar adequadamente para interações tumor-estroma, vigilância imunológica, invasão e metástase, angiogênese e o papel das populações de células estaminais [6], os proponentes estão testando se biomarcadores genómicos derivados destes telas podem ser usadas de forma confiável para ajudar os esforços orientado a hipótese de ciência básica e os esforços clínicos para atribuir terapia, monitorizar a resposta e prever resultados (por exemplo, precisão Medicina, JOGO Julgamento, Impacto, I-SPY). Como o pipeline de novas descobertas de drogas se expande, os progressos na realização de tratamentos mais eficazes podem ser ajudados por esforços de investigação que vet existentes, bem como desenvolver novos métodos para a identificação de biomarcadores genômicas que estão associados com a eficácia do composto.

Fundo

o CGP [7] e LECC [8] relatórios oferecer associações convincentes entre a sensibilidade ao fármaco (tipicamente medido pela log da concentração do fármaco para uma inibição de crescimento de 50%, a que se refere a todo o texto como GI50) e alterações genómicas específicas , inclusive, da expressão do gene (GE), mutação do gene (MUT), número de cópia (CN), e translocações. Seus resultados encontrar vantagens do multi-gene, contra biomarcadores de um único gene, como indicadores de GI50 células tumorais; decorrente, em um extremo, de falhas para localizar associações de confiança entre as mudanças de um único gene e GI50; e, no outro extremo, a partir de casos em que GI50 parece ser mediada por diversas, tanto desconectadas, multi-gene, os mecanismos biológicos. Além disso, sua aplicação de peritos do state-of-the-art métodos estatísticos de mineração de dados e representa uma abordagem sistemática que produziu resultados consistentes com translocações e MutS conhecido por ser preditivo de desfechos clínicos de sensibilização de drogas. Colectivamente estes esforços representam um passo crucial para obter uma compreensão do câncer, com base na caracterização genômica de amostras de tumores humanos contra uma gama de respostas droga contra o câncer que se correlacionam com a mudança genômica. Como estes e outros esforços sistemáticos continuar, é importante reconhecer que o acesso público ao CGP e os dados LECC oferece uma oportunidade rica e única para avaliações independentes desses dados [9] que possam contribuir para o desenvolvimento de biomarcadores de múltiplas funções genômicas como guias para a pesquisa básica e pré-clínicos e clínicos iniciais. Motivado por essas metas, e construção destes esforços anteriores, esta análise incidirá sobre i) habilitação resultados existentes, ii) utilizando métodos estatísticos para a descoberta de biomarcador alternativa mineração de dados e, iii) fornecendo novas interpretações das bases de dados CGP e LECC e iv) avaliar a utilização de biomarcadores como preditivos de resposta à droga de células tumorais.

Métodos

estratégias estatísticos aplicados à análise de grandes bases de dados de mineração de dados e são muitas vezes composta por padrão e definido pelo usuário (ad hoc ) componentes que podem desempenhar um papel central na interpretação dos dados. A mineração de dados e estratégias estatísticos aplicados aqui partilham muitas semelhanças com os utilizados em Garnett et al [7] e Barretina et al [8]:.. Inclusivas de agrupamento hierárquico, Elastic Net (EN) regressão e análise de caminho de genes selecionados. partidas notáveis ​​incluem; i) modificações de seu método de agrupamento hierárquico de valores GI50, ii) aplicações da PT regressões baseadas unicamente em GEs, iii) seguido por avaliações de papéis de CN e MUT nas respostas GI50, iv) extensões do PT gene define a incluir Gene Set enriquecimento análise (GSEA) a hipótese de caminhos biológicos contribuindo para GI50 respostas, v) aplicação de uma análise global dos dados GE, NC e MUT utilizando uma taxa de descoberta de falsas (FDR) selecção -adjusted de associações significativas destes biomarcadores com a resposta à droga e vi) aplicações da análise ROC para biomarcadores genômicas CGP-derivados como preditores de GI50 nos dados LECC. Breves descrições desses métodos alternativos e serão discutidas a seguir. Informações mais detalhadas aparece no arquivo S1.

agrupamento hierárquico de GI50

A ausência de valores GI50 semelhantes para os medicamentos que têm o mesmo mecanismo de ação (MOA) apresenta um grande obstáculo para as tentativas de associar assinaturas genômicas com a resposta de drogas; e estender essas associações a hipótese de processos biológicos que têm papéis na eficácia da droga. Como observado no relatório CGP [7], drogas com sobreposição de especificidade (referido daqui em diante como uma classe MOA) nem sempre compartilham valores GI50 correlacionados, nem eles sempre compartilhar assinaturas genômicas. A análise de agrupamento hierárquico de Garnett et al. [7] medicamentos classificados em

grupos

baseado em GI50 similaridade, com correlações de drogas dentro do cluster, obtendo-se 22

grupos comunitários

, utilizando medidas de sensibilidade às drogas para as células tumorais ~ 700 nos dados CGP Tabela suplementar 1 [7]). Embora a intenção do esforço aqui não procura provar exaustivamente métodos hierárquicos disponíveis e esquemas para identificar

grupos comunitários

, um a boa associação entre os valores GI50 para os medicamentos de uma classe MOA semelhante poderia ser encontrado com ligeiras modificações na metodologia de agregação de Garnett et al. [7]. Em vez de agrupamento hierárquico com base em GI50 semelhança, todas as correlações GI50 emparelhadas foram usadas para cada droga e reamostragem randomizados [10] foi usada para determinar

aglomerados comunidade

. Este procedimento de agrupamento, disponível como o CRAN instalado pacote, pvclust [10], na linguagem de programação R, considera a importância da contribuição de erro de amostragem para a incerteza no resultado do cluster usando um método de reamostragem randomizado para identificar os casos que têm uma elevada frequência de ocorrência como membros do cluster. Detalhes adicionais deste análise de cluster aparecem no arquivo S1: A. Hierarchical Clustering de GI50, Fig A, Fig B e C. A concordância entre a classe MOA e PT GE

Elastic Regressão Líquido de Gene Expression

Elastic Net (EN) a regressão é um procedimento estatístico que se encaixa um modelo generalizado linear de observações (dados genômicos) para valores GI50 através de um conjunto de células tumorais. Como uma alternativa para o agrupamento de todos os dados genómicos (GE, CN e MUT) para a análise PT [7], os resultados aqui vai concentrar-se na análise PT derivada apenas do GEs medidos nas células tumorais CGP; seguido por avaliações de CN e status MUT para estes genes PT-derivados. análise PT foi completada usando o pacote glmnet [11] na linguagem de programação-R. Glmnet fornece um parâmetro ajustável, α, que permite PT regressão para variar a partir de um laço (α = 1) para um cume (α = 0) de regressão. Esta última aplicação normalmente gera um ajuste exacto (GI50

prevista) dos dados de GI50 (GI50

observada) utilizando todos do GES para todas as células de tumor com uma medição de GI50, enquanto os modelos de instância lasso GI50 utilizando um conjunto reduzido de GEs para produzir um menos do que perfeito ajuste entre GI50

previsto e GI50

observado. Claramente, um modelo que se encaixa perfeitamente GI50, enquanto usando todos os GEs, não proporciona qualquer redução do número de genes para avaliar seu papel potencial como biomarcadores para GI50 de um composto. A seleção de um equilíbrio adequado entre a qualidade do ajuste do modelo PT aos dados e os números de genes selecionados na PT de regressão pode ser determinada a partir dos resultados obtidos em diferentes valores de α. Por exemplo, o painel superior na Fig 1 representa graficamente o coeficiente de correlação (GI50

observou GI50 e

predito) versus PT contagem gene para α = 0,7. Evidente a partir deste resultado é a tendência para obter um melhor PT modelo de ajuste com maior número de genes PT. Por outro lado, PT resultados que usam apenas alguns genes parecem ter uma capacidade reduzida para prever com precisão GI50. O painel inferior da Figura 1 representa graficamente o coeficiente de correlação médio em relação ao número médio de genes PT (com a regressão PT convergindo para 129 dos 138 fármacos) para α variando 0,2-1,0. Como esperado, a tendência do melhor modelo PT encaixa usando um número maior de genes (menores valores de α) é evidente. Este resultado encontra um agrupamento geral na forα canto esquerdo inferior na gama de 0,6 a 1,0. Usando este resultado, uma seleção heurística de α = 0,7 foi escolhido como um equilíbrio razoável entre a bondade da EN ajuste e redução do número de genes PT. Escolhendo α = 0,7 produziu uma precisão de encaixe global de 0,5 ~ (R

2), utilizando uma média de 75 genes PT. Análises baseadas em escolhas ligeiramente mais baixos ou mais altos para α não pareceu influenciar fortemente os resultados a seguir.

Lote de coeficiente de correlação (GI50

previu contra GI50

observado) versus número de genes no modelo de regressão convergente PT para α = 0,7. Estes resultados deu uma correlação média de 0,69 (± 0,12) entre GI50

observado e GI50

previsto com um número médio de 75 (± 44) PT expressão dos genes para 129 drogas, onde o PT regressão convergentes. painel inferior. Lote de a correlação média entre PT modelo se ajusta contra o seu número médio de genes PT. Resultados representα variando 0,2-1,0. As barras de erro representam o erro padrão da média. região em caixa no canto inferior direito exibe os resultados para α = 0,5).

A saída típica do cálculo glmnet, usando o exemplo de PD-0325901 (um composto MEK1 /2 segmentação), aparece na figura C 3. Esta figura exibe a contagem gene PT versus o modelo de média-Squared Error (MSE). Para este exemplo, o modelo atingiu um MSE mínimo usando 103 genes, o que representa uma redução de 99,2% a partir das expressões de genes 13.325 dentro do conjunto de 514 células tumorais que têm uma resposta GI50 para PD-0325901. PT regressão produz uma correlação de 0,84 entre GI50

observado e GI50

previsto. Figura 2 mostra o mapa de calor (usando heatmap.2 na linguagem de programação R) para a expressão de genes através de 103 514 células tumorais para PD-0325901. A borda mais à direita desta imagem exibe uma barplot para GI50

observado para estas células tumorais 514. blocos de retalhos de vermelho e azul no heatmap representam relativamente sobre e sob genes expressos, respectivamente, exibindo uma associação qualitativa desses padrões da GE com o barplot de GI50 para cada célula tumoral exibida na borda esquerda. Heatmaps de PT GEs serão utilizados, qualitativamente, para comparações visuais de mais e menos de genes expressos associados com sensibilidade de drogas e insensibilidade.

Figura traça as expressões 103 genes (eixo-x) para as 514 células tumorais de PT modelo (eixo y). Os resultados mostram células tumorais apenas com uma medida GI50 contra a PD-0325901.Heatmap é ordenada ao longo de cada eixo de acordo com os dendrogramas exibidos na margem superior e esquerda. Sobre e sob genes expressos são indicados por cores vermelho e azul, respectivamente. GI50

observados para estas células tumorais 514 aparece como um gráfico de barras na margem direita da imagem. Barras à esquerda e à direita correspondem às respostas sensíveis e insensíveis GI50, respectivamente.

Concordância entre a classe MOA e PT GE

PT genes de regressão pode ser submetido a uma análise de agrupamento hierárquico para avaliar a concordância entre as drogas das classes MOA semelhantes, e suas expressões gênicas PT (usados ​​para modelar GI50). Concordância vai ser medido por determinar se a) PT genes aparecem como vizinhos de cluster para drogas (isto é, as classes MOA) e b) se esses genes PT são relativamente exclusivo para cada classe MOA. Respondendo a parte a) vai estabelecer se MOA concordância com base em semelhança em GI50

observado também existe quando se utiliza a expressão de genes PT utilizado para modelar GI50

observada. Respondendo a parte b) é fundamental para o desenvolvimento de expressões de genes como biomarcadores de resposta GI50 às classes MOA específicos de drogas e estendendo-se estes resultados a hipótese de caminhos biológicos envolvidos na eficácia da droga. Uma descrição mais detalhada desta análise aparece no arquivo S1; C. Concordância entre a classe MOA e PT GE 🙂

análise GSEA da PT derivado GEs

Na sequência Garnett et al. [7], o exame dos genes PT para as células mais e menos sensíveis tumorais pode ser usado para priorizar GI50-PT associações de genes. Para este fim, os genes PT para cada droga foram filtrados através da realização de um teste t de Student para identificar estatisticamente significativa (p 0,05) PT GEs entre a parte superior mais e inferior menos 10

percentil de respostas de drogas de células tumorais (isto modelo será referido daqui em diante como o “PT modelo mínimo ‘para cada droga). Figura 3 mostra o mapa de calor para o modelo mínimo PT do exemplo PD-0325901 mostrado na Fig 2. Em vez de GI50 visualização como um gráfico de barras na extremidade (como na Figura 2), os dados de GI50 é encaixada no mapa de calor (ver coluna rotulado “GI50” localizada perto do centro da imagem), em que as células mais sensíveis, identificados em azul escuro, aparecem nas porções superiores e inferiores do mapa de calor e as células mais resistentes, com os seus valores de GI50 identificados no vermelho, aparecem em a porção média do heatmap. Neste exemplo, uma redução global de 82% (1-94 /514) na contagem de células do tumor e uma redução de 11% (103 para baixo a 94 genes) em conjunto PT gene PD-0325901 de permanecer no seu modelo mínimo PT.

Relativa sobre e sob a expressão é denotada por vermelho e azul, respectivamente. valores GI50 para PD-0325901 são encaixados na heatmap, localizada como a coluna perto do meio, rotulado como GI50. valores de GI50 para as células tumorais sensíveis e resistentes são indicados por cores azul e vermelho, respectivamente.

PT regressão representa um meio para identificar um conjunto reduzido de genes cujos expressões são suficientes para se obter um modelo razoável de cada resposta GI50 da droga (cf. figura 1) e pode ser utilizado para a hipótese de vias biológicas que podem desempenhar um papel na resposta de um fármaco. Muitas ferramentas computacionais existentes actualmente para a análise de caminho (GSEA, DAVID, Ingenuity, etc.). Incluído no avisos de advertência para esses métodos é que os resultados podem levar a mais interpretações, quando os genes são compartilhados entre muitos caminhos, ou deu nenhuma informação, para os casos ou são insuficientes vias estatisticamente significativa ou em que um grande número de caminhos são encontrados que não revelam uma consistente tema biológico. GSEA [12] oferece uma cobertura heurística contra estes avisos ao limitar os resultados apenas percursos com pelo menos 2 genes compartilhados e aplicando uma taxa de detecção False (FDR) contra a chance de encontrar no limiar típico de 0,05. O primeiro requisito evita instâncias de um grande número de vias, com apenas um gene de PT, enquanto o último requisito limita a possibilidade de ocorrência vias com diversos compartilhada, e que ocorrem frequentemente, genes. Com base nestas considerações, GSEA, usando GEs mínimas PT-derivados, utilizou-se a hipótese de processos biológicos que podem estar relacionados com a resposta de drogas. relatórios GSEA será restrito a apenas o nível superior significativa (pontuação FDR) vias, limitado a não mais de 10 casos.

Relatório de resultados GSEA irá enfatizar temas biológicos recorrentes de vias significativas em vez de percursos individuais. Como uma ilustração, GSEA [12] vias, derivado do KEGG, BioCarta e GO subconjuntos de genes, utilizando o mínimo PT GEs para o inibidor de MEK, PD-0325901, são listados na Tabela C. Estes resultados encontrar DNA_REPAIR como a via com GSEA a melhor significância estatística, com RESPONSE_TO_DNA_DAMAGE_STIMULUS e DNA_METABOLIC_PROCESS como os próximos caminhos mais significativos. Mais abaixo na lista são três vias relacionadas com a sinalização. Os temas gerais destes resultados GSEA indicam que a resposta de células de tumor para PD-0325901 hipótese seria a envolver ADN e sinalização. A evidência de uma associação entre a sinalização de MEK-ERK e DNA_REPAIR foi relatado por Sato et ai. [13] e Marampon et ai. [14], que conduz à proposta do uso de inibidores de MEK para aumentar a radiossensibilidade de células tumorais por baixo regulação sinais de reparação do ADN . Mais recentemente Pei et al. [15] propuseram uma terapia de combinação para o mieloma múltiplo utilizando um inibidor de CHK1 para evitar que as células de prender nas fases do ciclo celular que facilitam a reparação de dano de ADN e um inibidor da MEK para evitar que as células de activação de uma variedade de proteínas que regulam a reparação do ADN processos, promovendo a acumulação de proteínas pró-morte. Os resultados GSEA aqui, de temas relacionados com a via de reparação do ADN ou danos e células de sinalização, são consistentes com hypothesizing um papel de PD-0352901 em sinais relacionados com a manutenção DNA.

considerável cuidado deve ser aplicado ao interpretar estes resultados . Por exemplo, embora os outros três MEK1 2 /inibidores, CI-1040, AZD6244 e RDEA199, aparecer dentro do mesmo grupo, com base em GI50 (Tabela A) e PT GEs (Tabela B e A Fig D), apenas partes AZD6244 alguns dos seus vias GSEA com PD-0325901, enquanto a CI-1040 e RDEA119 não fazem. Colectivamente, estes resultados, apoiando uma consistência geral dentro perfis GI50 estes MEK1 /do inibidor 2 (Tabela A), com um conjunto suficientemente única de genes PT para que eles aparecem dentro de agrupamentos comuns (Tabela B e Fig D), rendimento PT genes suficientemente diferentes uns dos outros para gerar vias GSEA não sobrepostos. Um factor que contribui para plausível estas diferenças GSEA PT-gene pode ser potência celular, onde PD-0325901 é, em média, mais do que uma ordem de grandeza mais potente do que os outros /2 inibidores três MEK1 para as células tumorais CGP. Aparentemente os genes PT para PD-0325901 são suficientemente original para revelar o seu papel na manutenção DNA e sinalização não encontrado para os outros inibidores MEK1 /2. Esses resultados reforçam a probabilidade de que, embora compostos podem compartilhar um alvo MOA putativa e gerar respostas GI50 semelhantes, GSEA de genes mínimas PT representa apenas uma associação hipotética entre conjuntos exclusivos de genes PT e processos biológicos específicos relacionados com GI50 de cada droga. Embora o apoio literatura existente será fornecido para GSEA selecionado vias, será claramente necessária a confirmação biológica.

Análise global da CN e MUT para o mínimo PT GEs

Os resultados para drogas individuais pode ser estendida para incluir uma análise global dos dados CGP descrevendo MutS e CN mudanças que potencialmente desempenhar um papel na resposta à droga. Analogamente à análise anterior, onde os genes mínimas PT foram identificados com base em ter uma diferença estatisticamente significativa na GE entre as células mais sensíveis e menos tumorais, MutS genes significativos e alterações NC pode ser determinada de uma maneira idêntica. Seleccionar o mínimo de células tumorais PT de cada droga, um teste t de Student bicaudal foi usada para calcular todos os valores de p com base em diferenças MUT ou NC entre as células de tumor mais sensíveis e resistentes. Estes resultados foram filtradas através de uma Benjamini-Hochberg (B-H) [16], taxa de detecção falsa de 0,1 a identificar biomarcadores significativamente diferentes. A estatística t para essas comparações fornece uma medida conveniente para agrupamento hierárquico de resultados significativos. visualizações heatmap podem ser de cor codificada de azul para vermelho para indicar a força de significância estatística, em que a parte vermelha do espectro reflecte casos em que as células tumorais resistentes exibem respostas de biomarcadores mais elevadas quando em comparação com as células tumorais sensíveis e a porção azul do espectro representa o caso dos valores dos biomarcadores mais elevados nas células tumorais sensíveis quando em comparação com as células de tumor resistentes. Os números de mutS significativas são suficientemente pequenas para associar subconjuntos de genes para vias específicas GSEA. Em contrapartida, o número de genes com alterações significativas NC são suficientemente grandes para exigir mais de agrupamento hierárquico das vias GSEA para facilidade de interpretação.

análise GSEA de MutS significativas e CNs

visualizações heatmap do MutS estatisticamente significativas e no SNC que passam o limiar BH-ajustado para significância estatística pode ser usado para uma base GSEA-globalmente. Os dendrogramas de cluster de CN e MutS significativa pode ser cortado para produzir pequenos grupos de genes para GSEA. Esses resultados geram uma pontuação significado FDR-ajustado globalmente derivado para vias biológicas associadas com sub-grupos de mínimos GEs PT. Clustering destas pontuações globalmente derivados podem ser utilizados para associar respostas GI50 com biomarcadores ter significância estatística entre as respostas de células tumorais resistentes e sensíveis.

análise ROC de GEs CGP como preditivos de resposta à droga LECC

genes “assinatura” são comumente utilizados para avaliar se um subconjunto de expressões de genes são suficientemente comparáveis ​​para indicar a probabilidade de uma condição biológica semelhante ou resposta terapêutica [17,18]. Minimal PT GEs também podem ser propostos como genes assinatura para prever a resposta de drogas. Para testar esta premissa, as mínimas GEs PT desenvolvidas para o conjunto CGP de drogas foram usadas para seleccionar as células tumorais não CGP com GEs correspondência como preditores de eficácia da droga para drogas de teste. Incapacidade de alcançar qualquer sucesso com este método poderia influenciar futuras aplicações desta abordagem. No entanto, um sucesso moderado pode oferecer motivação para a elaboração de medidas mais eficientes para atingir resultados favoráveis ​​com esta abordagem. O conjunto de dados LECC (24 fármacos testados contra 479 células tumorais) compartilha 16 drogas com os conjuntos de dados CGP. Usando o modelo PT mínima CGP-derivado para cada um dos 16 medicamentos correspondentes, GEs entre estes dois conjuntos de dados serão comparados (usando o erro quadrático médio, MSE) e utilizado para avaliar o conjunto completo de células tumorais de LECC. Para que o biomarcador ‘teste’ para ter utilidade preditiva, as pontuações MSE deve classificar corretamente a resposta à droga de uma célula tumoral LECC dentro do top (sensível) ou inferior (resistente) de todas as células tumorais LECC. Apenas o percentil top 5

th das pontuações MSE para as células tumorais LECC será selecionado. É digno de nota que re-enfatizar que o modelo mínimo PT usa GEs para prever GI50. Assim sensibilidade e resistência são partes integrantes deste modelo. avaliação padrão de falsos /verdadeiros-positivos /negativos usando ROCS serão utilizados para avaliar os resultados.

Resultados

agrupamento hierárquico de GI50

A concordância entre medicamentos da mesma MOA classe e GI50 encontra razoavelmente bom acordo. Usando um agrupamento modificado hierárquica (pvclust) e uma métrica modificado (all-a-todas as correlações de GI50), mais de metade (16/30 = 0,53) das drogas que compartilham uma classe MOA também aparecem dentro do mesmo cluster comunidade; com 4 das 5 SRC agentes comuns para um cluster. Esta análise foi estendida para determinar a concordância entre MOA e co-agregação de GEs PT-derivados (ver arquivo S1 -. C. A concordância entre a classe MOA e PT GE para mais detalhes). Filtrando PT regressões da droga 129 que convergiram e resultou numa maior do que 10 PT genes produziram menos de ~ 2k dos originais 13.325 GEs para as 87 drogas que compartilham pelo menos 2 genes PT. agrupamento hierárquico da expressão do gene para estes genes filtrados (Fig D) conclui que mais de dois terços (59/87 = 0,68) das expressões gênicas PT para drogas com um MOA compartilhada aparecem no mesmo cluster. Estes resultados indicam que o agrupamento hierárquica, com base em GEs derivadas de modelos de regressão de PT-GI50, produz uma concordância mais elevada dentro das classes de drogas MOA quando comparado ao agrupamento com base em GI50 similaridade sozinho. A sobreposição média de apenas 1,67 entre PT-genes para cada droga sugere que a EN-genes são relativamente exclusivo para cada droga. Colectivamente, o relativamente alto de concordância, usando GI50 ou GEs esse modelo GI50, ea existência de relativamente poucos genes compartilhados em modelo PT de cada droga, suportam o potencial de aplicação de medidas baseadas em genes biomarcadores como únicas para GI50 PT-derivados.

minimal PT regressão

mínima modelo PT de cada droga produz um conjunto reduzido de genes que podem desempenhar um papel na sua GI50. Na sequência do relatório de Garnett et al. [7], o mínimo PT GEs, CNs e MutS com maior significância estatística entre a resposta de células tumorais sensíveis e insensíveis podem ser examinados para compatibilidade com relatos da literatura, bem como levantando a hipótese de novos papéis biológicos em cada A resposta de drogas. Os resultados para os compostos seleccionados serão relatados.

Cisplatina.

O primeiro exemplo, usando o DNA cross-linker, cisplatina, confirma os resultados de Garnett et al. [7] genes Setenta PT e 108 células tumorais definir o seu modelo mínimo PT. A análise estatística das diferenças significativas no estado CN e MUT somente os genes PT mínimas para as células tumorais sensíveis e resistentes a cisplatina (listados na Tabela 1) acha que a sensibilidade ao cisplatino está associada com MutS em EWS_FLI1, PTEN, ErbB2 e APC (http: //cancer.CGP.ac.uk/CGP/gene/overview?ln=APC e Niedner et ai. [19]). Não estão incluídos no relatório CGP [7] é o aparecimento de KRAS_MUT como um biomarcador potencial de sensibilidade cisplatina. O Suporte para esta perspectiva adicional aparece recentemente em Lin et al. [20], onde KRAS_MUT foi encontrado para ser um preditor de sensibilidade para a oxaliplatina a cisplatina analógico. KRAS superexpressão por vetores mutantes causados ​​grupo de acesso a complementação de reparação da excisão 1 (ERCC1) regulação para baixo em proteínas e níveis de mRNA e sensibilidade oxaliplatin reforçada. A importância de XRCC1 na sensibilidade cisplatina é ainda apoiada por Xu et ai. [21] onde a expressão da proteína de XRCC1 foi significativamente aumentado nas células resistentes à cisplatina e independentemente contribuiu para resistência a cisplatina. Os resultados na Tabela 1 também estender a análise a cisplatina a hipótese de papéis na sensibilidade cisplatina para mudanças NC de dois demethylases histona lisina (KMD6A_CN e KMD5C.JARDIC_CN). papéis epigenéticas de demethylases histona lisina estão começando a emergir como importante na mama e cancro do ovário [22].

O bortezomib.

O modelo mínimo de regressão PT para bortezomib é composta por 44 genes e 64 células de tumor (Fig E), que modelados GI50

observadas com um coeficiente de correlação de 0,69. Os resultados estatísticos para as principais mais significativos genes PT mínimas diferencialmente expressos entre as células tumorais sensíveis e insensíveis estão listadas na Tabela 2. O aparecimento de NQO2 no topo desta lista podem oferecer informações exploráveis ​​sobre a terapia de bortezomib. NQO2 é uma flavoproteína, funcionando como uma oxidoredutase de quinona, conhecido para proteger as células contra a radiação e o stress oxidativo induzido quimicamente. O proteassoma 20S e NQO2 tanto interagir com mielóide factor de diferenciação C /EBPalpha [23]. Outra quinona oxidorredutase, NQO1, foi encontrado por LECC [8] para ser o topo preditor de sensibilidade ao inibidor de Hsp90 17-AAG. Hsp90 desempenha um papel na montagem e manutenção do proteassoma [24]. inibição simultânea da Hsp90 e proteassoma melhora a actividade antitumoral de ambos os fármacos [25]. Embora o mecanismo exato para essa observação ainda não está resolvido, o resultado aqui apresentado sugere um duplo papel de biomarcadores quinona oxidoredutase (NQO2, NQO1) no uso de HSP90 /proteassoma agentes como única segmentação e terapias combinadas [25].

temsirolimus.

o próximo exemplo, para a mTOR segmentação agente temsirolimus, produziu um modelo mínimo PT consiste em 67 genes e 108 células tumorais.

Deixe uma resposta