PLOS ONE: Candra: Driver Cancer-Specific missense mutação Anotação com Optimized Features

Abstract

mutações do piloto são mutações somáticas que proporcionam vantagem de crescimento às células tumorais, enquanto mutações de passageiros são aqueles que não estão funcionalmente relacionados com a oncogênese. Distinguindo os condutores de passageiros é um desafio porque os motoristas ocorrem com muito menos frequência do que os passageiros, eles tendem a ter baixa prevalência, suas funções são multifatoriais e não intuitivamente óbvio. Mutações são excelentes candidatos como motoristas, à medida que ocorrem com mais freqüência e são potencialmente mais fáceis de identificar do que outros tipos de mutações. Embora vários métodos foram desenvolvidos para prever o impacto funcional de mutações missense, apenas alguns foram projetados especificamente para a identificação de mutações driver. À medida que mais mutações são descobertas, modelos preditivos mais precisos podem ser desenvolvidos usando abordagens de aprendizado de máquina que caracterizam sistematicamente os aspectos comuns e peculiaridade de mutações missense sob o fundo de tipos de câncer específicos. Aqui, apresentamos uma ferramenta de anotação motorista câncer (Candra) que prevê mutações motorista missense base em um conjunto de 95 características estruturais e evolutivos computados por mais de 10 algoritmos de previsão funcionais, tais como CHASM, peneire e MutationAssessor. Por meio da otimização de recursos e treinamento supervisionado, Candra supera as ferramentas existentes para a análise do glioblastoma multiforme e conjuntos de dados carcinoma de ovário na Cancer Genome Atlas eo projeto Enciclopédia linhagem celular de câncer

Citation:. Mao Y, Chen H, Liang H , Meric-Bernstam F, Mills GB, Chen K (2013) Candra: driver Cancer-Specific missense mutação Anotação com recursos otimizados. PLoS ONE 8 (10): e77945. doi: 10.1371 /journal.pone.0077945

editor: Tatjana Adamovic, Karolinska Institutet, na Suécia

Recebido: 13 de junho de 2013; Aceito: 05 de setembro de 2013; Publicação: 30 de outubro de 2013

Direitos de autor: © 2013 Mao et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado em parte pelo National Institutes of Health (https://www.nih.gov/) [número de concessão 1R01CA172652, CA168394, CA083639, CA143883, UL1TR000371 e 1U01CA180964]; o MD Anderson Cancer Center Sheikh Instituto Khalifa Ben Zayed Al Nahyan of Cancer Therapy personalizado (https://www.mdanderson.org/education-and-research/research-at-md-anderson/personalized-advanced-therapy/institute-for-personalized-cancer-therapy/index.html) eo apoio Cancer Institute Cancer Center Grant Nacional (https://cancercenters.cancer.gov/) [P30 CA016672]. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O cancro é uma doença genética complexa. A ocorrência e progressão da maioria dos cancros pode ser atribuído a mutações acumuladas no genoma do cancro [1]. Em diferentes fases da oncogénese, um grupo de mutações chave, chamada de condutores, alterar significativamente o sistema celular normal [2], [3] e confere vantagens de crescimento e sobrevivência de células [4] tumorais. No entanto, devido à instabilidade inerente genómico presente em tumores, as mutações do controlador ocorrer no fundo de um grande número de mutações, chamados passageiros, que não estão funcionalmente ligados à oncogénese. A identificação de mutações motorista é uma missão crítica da genómica do cancro. Alguns condutores têm sido identificados e são amplamente utilizados como biomarcadores de diagnóstico e /ou prognóstico, ou como alvos de drogas para o tratamento do cancro [5], [6]. Pesquisa que interrogar mutações driver específico e suas implicações clínicas estão sendo amplamente realizada para vários tipos de câncer [7], [8], no entanto, mais esforços são exigidos para a caracterização do genoma sistemática de mutações motorista e suas implicações funcionais.

A maioria das mutações detectadas no câncer são mutações pontuais. Ao dar-se em regiões de codificação de genes, eles podem alterar as sequências de codificação de proteínas, afectam a estrutura da proteína e de expressão, ou perturbar interacções proteína-proteína [9]. As mutações que alteram sequências de aminoácidos são denominadas mutações não sinónimas, entre os quais a maioria são mutações missense que os resíduos de aminoácidos de substituição. Ao contrário de frame-shift ou sem sentido, as mutações que conduzem geralmente a proteínas truncadas, a função de mutações missense é menos evidente. No entanto, um grande número de mutações missense foram demonstradas como motoristas, como o

BRAF V600E

mutação em melanoma [10], e

KRAS

G12D e G12V mutações no cancro colo-rectal [11] .

a raridade e baixa prevalência de mutações motorista torná-los extremamente difícil de prever através de métodos estatísticos convencionais que requerem tamanhos de amostra moderados [1], [12] – [14]. Grande parte da escassez de dados pode ser atribuída a um elevado grau de heterogeneidade genética subjacente tipos de cancro clinicamente definidas. Além disso, a função de uma mutação sem sentido pode ser dependente de muitos outros factores que são variáveis ​​em condições diferentes, tais como predisposição genética, a presença de outras mutações somáticas, a linhagem de células, e fase de malignidade.

Nos últimos anos , vários métodos têm sido propostos computacional para avaliar o impacto funcional de mutações de sentido trocado. Colectivamente, estes métodos têm calculado superior a 90 quantidades ou características relevantes que descrevem as propriedades de uma mutação e seu local associado a partir dos aspectos de (a) conservação evolutiva, (b) propriedades físico-químicas das proteínas, (c) domínios de proteína, e (d) sequência de contexto. Diferentes métodos podem utilizar essas quatro tipos de recursos individualmente ou em combinação. Em particular, MutationAssessor [9] e peneirar [15] utilizar (a) características tipo, SNPs3D usa tipos (a) e (b), CanPredict [16] usa tipos (a) e (c), MutationTaster [17] e SNAP [18] usar tipos (a), (b), e (c), e CHASM [19] e PolyPhen 2 [20] usar todos os quatro tipos de características.

a maioria destes métodos foram concebidos para resolver um problema geral genética, isto é, discriminação mutações deletérias dos não deletérios. No entanto, a maioria dos algoritmos não consideram o contexto genética específica ou doença em que ocorre uma mutação. Embora possam ser aplicadas para avaliar as mutações somáticas missense, os resultados não têm especificidade claramente [13], [14], [19]. Desde mutações driver são definidos em um contexto de doença específica, um método motorista previsão mutação não seria preciso, sem levar em fatores específicos da doença consideração tais como o tipo de câncer, o estágio da doença, a prevalência de mutação, o espectro de mutação, e outras características clínicas.

Entre os métodos publicados, brecha é o único que considera explicitamente os factores específicos de câncer do tipo-[19]. Em CHASM, 86 características diferentes de todos os quatro tipos de recursos são utilizados para caracterizar cada mutação missense, e os modelos de classificação são treinados de uma forma específica de câncer do tipo-usando um algoritmo de floresta aleatória. Os dados de formação para um tipo de câncer incluem um conjunto de mutações motorista curadoria como exemplos positivos e um número quase igual de mutações de passageiros sintéticos (SPMs) como exemplos negativos.

Embora CHASM representa um avanço considerável na previsão de mutações motorista, existem algumas ressalvas. Em primeiro lugar, não é claro se as MPS são suficientes de modelar o largo espectro de mutações que ocorrem de passageiros. Além disso, evidências recentes indicam que a ocorrência de mutações de passageiros é afetada por fatores definidos, por exemplo, o contexto de sequência, o calendário de replicação e expressão genética, que provavelmente não suficientemente representados pelo conjunto de SPMs aleatórios [21], [22]. Em segundo lugar, os métodos mais recentes vieram novas características preditivos [9], [23] – [26], que não foram consideradas no desenvolvimento do algoritmo FALHA. Em terceiro lugar, não está claro se o algoritmo Floresta aleatória é o ideal, dada a dimensão relativamente pequena do conjunto de treinamento ea alta-dimensionalidade dos conjuntos de dados a serem analisados. Em quarto lugar, a grande quantidade de dados de mutação acumulados dos últimos projetos de seqüenciamento do genoma do câncer de grande escala e projectos de base comunitária, incluindo sequenciamento clínica não foram suficientemente integrado na brecha para melhorar o poder preditivo.

Devido a estas considerações, visou avaliar se previsões de mutação mais precisos condutor pode ser conseguida através da integração de forma sistemática a grande quantidade de dados recentemente disponível e algoritmos existentes. Começámos por realizar uma análise abrangente de dados de mutação no banco de dados COSMIC [27], define o Cancer Genome Atlas (TCGA), eo projeto de linha Cancer Cell Encyclopedia (LECC) [28] e derivados de dados de treinamento e teste para o modelo supervisionado formação e avaliação. Foi realizada uma análise completa das ferramentas existentes para comparar e selecionar os recursos mais eficazes. Os nossos esforços resultaram em uma nova ferramenta de anotação motorista câncer, Candra, que integra nossos dados e recursos de curadoria para calcular uma pontuação de motorista para cada mutação missense possível em um tipo específico de câncer humano. Nós demonstramos que Candra conseguido melhor sensibilidade e especificidade do que outras ferramentas na previsão de mutações motorista no glioblastoma multiforme (GBM) e carcinoma do ovário (OVC). Candra e os conjuntos de dados associados para os principais tipos de câncer (por exemplo, mama, colo-retal, melanoma maligno, e cancro da pele de células escamosas) estão disponíveis em https://bioinformatics.mdanderson.org/main/CanDrA.

Materiais e métodos

dados curadoria

O conjunto (S) rigorosas.

Dois conjuntos de dados de mutação missense, GBM e OVC, foram curadoria dos relatados na COSMIC (V58), TCGA, eo projeto LECC. dados TCGA continha um total de 727 mutações de 142 amostras de GBM e 11,005 mutações de 316 amostras OVC [13], [14]. Os dados COSMIC continha 640 mutações de 351 amostras de tumor primário GBM e 237 de 212 amostras de tumores primários OVC. Nós definimos uma mutação driver como um que foi observada em pelo menos duas amostras diferentes, a partir de qualquer TCGA ou cósmica. Para ser rigoroso, excluímos mutações recorrentes que coincidiam com outras mutações funcionais putativos tal como indels, mutações nonsense, mutações sem parar, mutações no local de splice, e mutações no local de início da tradução no mesmo gene da mesma amostra. Aqueles sobrepostos com os locais dbSNP também foram excluídos. Esse processo resultou em 67 mutações driver para GBM e 61 para OVC, a maioria (92,5% e 80,3%, respectivamente) do que tinha sido considerado como motoristas em estudos anteriores [19].

Foram selecionados mutações de passageiros a partir de hiper -mutated amostras, que têm deficiência na reparação de danos no ADN e têm fracções muito maiores de mutações passageiro do que as amostras-não-hiper mutante [14]. Três amostras de GBM foram identificados a partir TCGA, cada um com mais de 55 mutações missense, e duas amostras OVC foram identificados, cada um com mais de 130 mutações. Um candidato foi excluído, se ele foi localizado em qualquer gene do cancro (como definido pelo censo câncer cósmica ou pelo estudo CHASM), ou sobreposto com dbSNP. Finalmente, 95 e 246 mutações foram, respectivamente, selecionados para GBM e OVC. Também curadoria um segundo conjunto de mutações de passageiros a partir do projeto LECC, que contém mutações de 27 linhas de células GBM e 19 linhas de células OVC. Depois de aplicar os mesmos critérios, foram selecionados 490 mutações para GBM e 462 mutações para OVC

Em resumo, quatro conjuntos rigorosas foram formados:. GBM.S1, GBM.S2, OVC.S1 e OVC.S2 (Tabela 1 e Tabelas S1-S4 no arquivo S1). Estes conjuntos foram usadas como teste independente define para medir o desempenho de Candra contra os de outras ferramentas.

O conjunto expandido (E).

Muitas mutações ocorrem recorrentemente na proximidade (hotspots) em diferentes tipos de cancro. Por exemplo, o

BRAF V600

mutação ocorre em carcinoma papilar da tireóide, câncer colorretal, melanoma e cancro do pulmão de não-pequenas células, assim como

BRAF

N580S, E585K, D593V, F594L, G595R , L596V, T598I, V599D, V599E, V599K, mutações V599R, K600E, e A727V. A maior parte destas mutações são agrupados em duas regiões de ponto de acesso: o laço rico em glicina P do lobo N e o segmento de activação e as regiões f lanqueadoras [29]. Muitas mutações de ponto de acesso semelhantes são observados em

TP53, PIK3CA, KRAS,

entre outros [30], [31]. Estas mutações têm propriedades semelhantes e, provavelmente, têm funções semelhantes em diferentes tipos de câncer. Para representar essa uniformização ao nível dos tipos de cancro, construímos um tipo de câncer específico, mas expandido conjunto de condutores e passageiros que utilizam as seguintes regras empíricas.

Para um determinado tipo de câncer, que chamamos de uma mutação missense de uma mutação driver se ocorre num gene mutado neste tipo de cancro e 1) observa-se em pelo menos 3 amostras de tumores primários (independentemente do tipo de cancro), ou 2) o seu local intersecta, pelo menos, 4 mutações (incluindo indels, dinucleótido ou mutações trinucleotídeos), ou 3) é centrado em uma região de 25 pb que se cruza pelo menos 5 mutações no banco de dados cósmica. Nós subtraído mutações motorista em conjunto S a partir deste conjunto para garantir a sua independência mútua. Esse processo resultou em 1529 e 1768 motoristas putativos para GBM e OVC, respectivamente.

mutações de passageiros de um tipo de câncer foram escolhidos como os que ocorrem apenas uma vez em amostras de tumores primários deste tipo de câncer, e não em qualquer tipo de câncer COSMIC gene censo, e não coincidem com quaisquer outras mutações dentro de uma janela de 31 pb em toda a base de dados cósmica. Nós também subtraído mutações de passageiros em conjunto S a partir deste conjunto. Esse processo resultou em 1259 e 8075 passageiros para GBM e OVC, respectivamente (Tabela 1)

Ao combinar esses drivers putativos e passageiros para cada tipo de câncer, dois conjuntos de dados expandidas foram formados:. GBM.Ex e OVC.Ex . Eles foram usados ​​como nossos conjuntos de treinamento para seleção de características e supervisionado formação |

Características descritivas

Para cada mutação missense, 95 características (Tabela S5 em S1 Arquivo) foram adquiridos a partir de quatro portais de dados:. Falha de SNVBOX [19], ENSEMBL Variant Efeito Predictor [32], Mutation Assessor [9] e ANNOVAR [33]. Entre eles estão as anotações UniProtKB, partituras conservação evolutiva, propriedades físico-químicas de proteínas, índices de contexto sequência, e contagens impacto funcional computados por algoritmos como SIFT [15], PolyPhen-2 [20], CONDEL [25], Mutation Assessor [9], PhyloP [26], Gerp ++ [24] e LRT [23].

Seleção de Recursos e Avaliação

Uma pequena fração em torno de 6,0% dos dados não estavam disponíveis a partir desses portais de dados. SNVBOX perdeu cerca de 13,3% dos dados em 29 características, porque não há UniProt informações de domínio proteína relacionada para alguns sites de mutação. ANNOVAR perdeu cerca de 15% dos dados em características como Phylop, Gerp ++ e dezenas LRT devido a razões desconhecidas. Para facilitar nossa investigação, substituído as características ausentes com as das mutações mais próximos no mesmo gene usando um algoritmo k-vizinhos mais próximos. Nossa avaliação foi minimamente afectada por esta operação porque os nossos conjuntos de testes selecionados foram quase livre de características ausentes.

Foram avaliados o desempenho preditivo de cada recurso com base no teste Mann-Whitney U e a área sob a curva (AUC ) da curva ROC. Características com não-significativa

valores p

após a correção de Bonferroni e AUC abaixo de um limite especificado foram excluídos da análise mais aprofundada; assim como algumas características que podem introduzir conjunto de dados (população) preconceitos espec�icos (por exemplo, AACOSMIC). Em seguida, avaliou combinações recurso usando um algoritmo de seleção de características híbridas. Em primeiro lugar, todas as combinações possíveis com menos de 4 funcionalidades seleccionadas foram enumeradas e avaliada com base na média de AUC a partir de validação cruzada 10 vezes (repetido 5 vezes) sobre o conjunto de dados de treino. Em segundo lugar, a melhor combinação funcionalidade foi expandida usando uma estratégia de busca de subida [34], que de forma iterativa incluídos os recursos restantes para a combinação atual. O conjunto de recursos que alcançou a AUC máxima na validação cruzada foi selecionado como o melhor conjunto.

Resultados de classificação e pontuação

Nós usamos uma máquina de suporte ponderada vetor (SVM) [35] como nosso classificador, a fim de abordar os números desequilibradas de motoristas e passageiros no conjunto de treinamento. Candra classifica uma mutação em 3 categorias: motorista, não-chamada e de passageiros, com base em pontuações calculadas pelo SVM (Figura S1 S1 Arquivo) [36]. De acordo com as distribuições de pontuação, uma mutação é classificado como um driver se sua pontuação é maior do que a 90

percentil daqueles das mutações de passageiros no conjunto de treinamento, como um passageiro se a sua pontuação é inferior a 10

percentil daqueles das mutações motorista, ou como um não-call contrário. Além disso, Candra calcula uma pontuação de confiança para cada previsão, definida como a fração de mutações que têm pontuações mais extremos da mesma classe nos dados de treinamento (Figura S1 no arquivo S1). Por exemplo, se uma mutação é classificado como um motorista e sua pontuação é maior do que os de 95% dos motoristas no conjunto de treino, a sua pontuação de confiança é igual a 0,05. Estas pontuações de confiança são, portanto,

de facto

significância

valores P

estimados a partir da distribuição da pontuação classe-wise empírica no conjunto de dados de treinamento.

Resultados

Característica seleção e classificação geral resultados

Para GBM, identificamos 28 características que passaram, individualmente, a AUC (| AUC-0,5 | 0,08) e teste de Mann-Whitney U (

P Art 0,05 com correção de Bonferroni) no conjunto de dados de treinamento. Esses pontos de corte foram selecionados para limitar a carga computacional da seguinte seleção de recurso. Nós ainda identificadas 3 características principais (CONDEL, UniprotDOM_PostModEnz, ExonSnpDensity) e um conjunto ideal de 21 recursos através do nosso processo de selecção recurso combinatória (Materiais e Métodos, Figura 1, Tabela S6 em S1 Arquivo). Entre os 3 principais recursos, CONDEL [25], um método que combina cinco características de SIFT, PolyPhen-2, MutationAssessor e outras fontes com base em um conjunto de 20.000 variantes não sinónimas germinativas de nucleotídeo único (SNVS) mostrou ser a única melhor preditor no conjunto de dados GBM.Ex, com uma AUC igual a 0,703. UniprotDOM_PostModEnz (calculado por SNVBOX) indica se uma mutação está localizada em qualquer domínio enzimática responsável pela proteína de modificação pós-translacional. ExonSnpDensity indica se ocorre uma mutação numa exão variante propensas. A inclusão destas duas características melhoradas a CUA a 0,832 no set GBM.Ex. Este resultado demonstrou que, embora de uso geral deletérios ferramentas de previsão SNV são aplicáveis ​​a previsão motorista, sua precisão pode ser melhorada através da inclusão de características que são descritiva do fundo mutacional.

Três conjuntos de AUCs são calculados a partir dos 10 fold validação cruzada (CV) do conjunto de treinamento GBM.Ex (linha pontilhada) ea validação independente (IV) de 2 conjuntos de teste, GBM.S1 e GBM.S2 (linha sólida e tracejada). No eixo-x são características que são seleccionados de forma incremental. A caixa tracejada marca os picos da AUC validação cruzada, o que corresponde ao conjunto de recursos óptima usado para Candra.

Nós treinamos Candra usando o melhor conjunto de 21 características, e avaliou o desempenho na dois conjuntos de dados de validação independentes (GBM.S1 e GBM.S2). Candra alcançado AUCs de 0,911 e 0,941, respectivamente, o que compara favoravelmente com os obtidos a partir de qualquer FALHA (0,890 e 0,923, respectivamente) ou MutationTastor (0,892 e 0,909, respectivamente; Tabela 2).

Para OVC , identificamos 30 características que passaram, individualmente, a AUC (| AUC-0,5 | 0,05) e teste de Mann-Whitney U (

P Art 0,05 com correção de Bonferroni) no conjunto de treinamento. Nós ainda identificadas 3 características principais (MGAEntropy, UniprotREGIONS, UniprotDOM_PostModEnz) e um conjunto ideal de 22 recursos através do nosso processo de selecção recurso combinatória (Materiais e Métodos, Figura 2, Tabela S7 em S1 Arquivo). Entre os 3 principais recursos, MGAEntropy foi o mais forte preditor na OVC.Ex definido com um igual AUC para 0,745. Ele indica se uma mutação está localizada numa região genómica evolutivamente conservadas e calcula a entropia de Shannon do alinhamento de proteínas homólogas em 46 espécies diferentes [37], [38]. UniprotREGIONS descreve regiões funcionais relacionadas à interação proteína-proteína, a regulação processo biológico, etc. UniprotDOM_PostModEnz para OVC também foi selecionado no caso GBM. Estes 3 características em combinação aumentou AUC por 0,06 no conjunto de dados de treinamento e . 0,2 sobre os conjuntos de dados de validação

Três conjuntos de AUCs são calculados a partir da validação cruzada 10 vezes (CV) do treinamento definido OVC.Ex (linha a tracejado) e a validação independente (IV) de 2 séries de ensaio, e OVC.S1 OVC.S2 (linha a cheio e a tracejado). No eixo-x são características que são seleccionados de forma incremental. A caixa tracejada marca os picos da AUC validação cruzada, o que corresponde ao conjunto de recursos óptima usado para Candra.

Nós treinamos Candra usando as 22 características e avaliou o seu desempenho nos dois conjuntos de dados de validação independentes (OVC.S1 e OVC.S2). Em ambos os conjuntos, Candra alcançado AUCs de 0,953, o que novamente favoravelmente comparado aos de qualquer FALHA (0,936 e 0,940) ou MutationTastor (0.910 em ambos os conjuntos de teste; Tabela 2).

Correlação entre Candra Pontuações e Mutação Prevalência

prevalência da mutação, ou seja, a frequência de uma mutação em um tipo de câncer específico, é um indicador robusto de funcionalidades do controlador [5], [13], [14], [39] – [42]. Se Candra é mais preciso do que outros métodos, suas pontuações deve demonstrar correlação mais forte com a prevalência de mutação. Para testar esta hipótese, criamos 4 conjuntos de dados a partir de vários genes de câncer mais frequentemente mutados:

TP53

e

PTEN

em GBM, e

TP53

e

KRAS

em OVC usando dados de TCGA e cósmica (Tabelas S8-S9 em Arquivo S1). Foram comparados os coeficientes de correlação de Pearson entre a prevalência de mutação observada e as pontuações de mutação de 12 algoritmos, em cada um dos 4 conjuntos de dados. Candra desempenho melhor em 47/48 das comparações, realizando pior apenas para aquele com CHASM usando o

KRAS

mutações no OVC (Figura 3). Este resultado indica claramente a melhoria que Candra pode alcançar ao longo dos métodos existentes

Doze algoritmos (eixo-x) foram comparados com 4 conjuntos de dados:. (A) mutações GBM em

TP53

, ( b) mutações GBM em

PTEN

, (c) mutações OVC em

TP53

, e (d) mutações OVC em

KRAS

.

prevendo Mutações do piloto Rare

de grande interesse é a capacidade de Candra na previsão de motoristas que têm prevalência muito baixa (por exemplo, ocorrer apenas uma vez em uma região não-hotspot). A descoberta dos chamados raros (ou cauda) mutações de driver é um grande desafio em estudos de genômica atuais contra o câncer, mas seria de grande utilidade tanto teórica como na gestão paciente. A realização de uma avaliação precisa desta questão requer dados de validação funcional que estão actualmente indisponíveis para a maioria dos genes. Como solução, foi utilizada a proporção de mutações motorista em genes de câncer conhecidos como a nossa métrica de interesse, aterrada pela compreensão de que genes do cancro são mais propensos do que os genes não-cancerosas para portadores de mutações motorista [13], [14]. Especificamente, testou-se as mutações motorista raros previstos por Candra são enriquecidos nos genes do cancro censo cósmico. Foram identificadas mutações motorista raras das mutações COSMIC GBM e OVC que são relatados apenas uma vez, e que não têm outras mutações em uma vizinhança de 3 pares de bases e não foram usados ​​como condutores em nossa formação e conjuntos de teste (Tabela S10 em S1 Arquivo) . Nos 8 genes conhecidos relacionados com o GBM (

ATM, EGFR, MDM2, MDM4, NF1, PDGFRA, PIK3CA

e

ROS1

), havia 36 mutações GBM, 14 (38%) de que foram previstos como motoristas por Candra. Esta percentagem foi significativamente maior do que a média (13,9%) de todo o conjunto de 1384 genes mutantes (p = 3,39 × 10

-5, teste de hiper-geométrica). Foi também maiores que os previstos por outros algoritmos, exceto para a pontuação especificidade variante do MutationAssessor, que previu 15/36 (41,7%) drivers (Tabela S11 em S1 Arquivo). Entre 15 genes conhecidos relacionados ao OVC (

AKT1, AKT2, ARID1A, BRCA1, BRCA2, CCNE1, CDK12, ERBB2, MLH1, MSH2, MSH6, PIK3R1, PMS2, ppp2r1a

e

STK11

) , havia 39 mutações OVC, 22 (56,4%) dos quais foram previstos como motoristas por Candra. Esta proporção foi significativamente maior do que a média (20,8%) de todo o conjunto de 5889 genes mutantes (p = 2,27 × 10

-7, teste de hiper-geométrica). Foi também maiores que os previstos por outros algoritmos, incluindo a 19/39 (48%) previsto por CHASM (Tabela S11 em S1 Arquivo).

Discriminando Drivers para diferentes tipos de cancro

A mutação pode desempenhar papéis diferentes em diferentes tipos de câncer (por exemplo,

BRAF V600

no câncer de cólon e melanoma). Examinamos se Candra pode indicar corretamente tal especificidade do tipo de câncer. Ao combinar os 67 e 61 mutações motorista do respectivo GBM.S1 e os conjuntos de dados OVC.S1, obtivemos um total de 115 mutações, 41 dos quais eram únicos no GBM e 40 em OVC (Tabela S12 em S1 Arquivo). Para cada um dos 115 mutações, computamos duas pontuações utilizando modelos GBM e OVC de Candra, respectivamente. Observou-se que as mutações encontradas em um tipo de câncer específico pontuaram significativamente mais alto utilizando modelos combinados do tipo de câncer do que os modelos não-correspondida (

p

= 0,0013 para GBM e

p

= 0,0021 para OVC, por Mann-Whitney U test). Além disso, mutações únicas para um tipo de câncer atingiram escores significativamente mais elevados utilizando os modelos correspondentes (

p

= 0,0029 para as mutações únicas para GBM e

p

= 0,0138 para as mutações únicas para OVC, pelo teste de Mann-Whitney). Em todos os casos, candra conseguida uma discriminação mais significativa do que CHASM (Tabela 3). Muitas mutações foram associadas com funções diferentes nestes dois tipos de câncer (Tabela S12 em S1 Arquivo). Por exemplo, o

KRAS

mutação G12V foi previsto como motorista em OVC, mas como um não-call no GBM. E o

NCOA1

mutação R562G foi previsto como motorista em OVC, mas como um passageiro no GBM.

A comparação com dados reais contra dados sintéticos

Nós suspeitamos que melhor desempenho de Candra sobre o de CHASM poderia ser parcialmente atribuída ao uso de mutações reais de passageiros (RPMs) em vez de SPMs em treinar os modelos. Acreditávamos que, embora SPMs pode refletir certas características mutagênicas de um tipo de cancro (por exemplo, a exposição a agentes mutagênicos ambientais), é provável insuficiente em representar outros fatores tais como a conservação evolutiva, o contexto de sequência e domínios de proteínas. Para obter uma visão mais profunda, foram realizados dois experimentos. Primeiro, foram comparados os RPMs com os SPMs em termos de suas pontuações especificidade variantes (VSC), partituras impacto funcional (FIS) e dezenas de conservação variante (VCS) calculado pela MutationAssessor. Estas pontuações, especialmente VSC, estavam entre as características mais preditivos no nosso validação rigoroso (Figuras S2-S3 no arquivo S1). As distribuições dessas pontuações indicaram que os RPMs foram significativamente mais prejudicial do que SPMs tanto para GBM e OVC, e, portanto, é provável melhores exemplos para distinguir os motoristas reais dos passageiros. Usando VSC, as diferenças entre as distribuições de RPMs, SPMs e motoristas foram mostrado na Figura 4. Resultados Da mesma forma significativa foi observada usando VCS e FIS. Em segundo lugar, nós treinamos CHASM para classificar idêntico número de RPMs e SPMs a partir do mesmo conjunto de drivers. CHASM realizada consideravelmente pior com RPMs (AUC = 0,907 para GBM e 0,938 para OVC, em média) do que com SPMs (AUC = 0,943 para GBM e 0,949 para OVC).

plotados estão a mutação do assessor pontuações especificidade variante de conjuntos de PMs sintéticas (gerados por CHASM), LECC pms, TCGA PMS e mutações motorista do conjuntos de teste 4 na Tabela 1, para GBM (a) e OVC (b), respectivamente. diferenças significativas (teste de Mann-Whitney U) entre duas distribuições de pontuação são indicados com

P

valores relatados.

Discussão

Nossa investigação resultou em uma nova ferramenta de software , Candra, que foi comprovadamente mais precisos do que outras ferramentas na previsão mutações driver específico de câncer do tipo-. Temos pré-computadas pontuação Candra para quase todos os possíveis (cerca de 77 milhões) Mutações em todo genoma inteiro em vários tipos de câncer principais e os usuários habilitados para realizar previsões muito eficientes que utilizam computadores ou servidores. Devido à grande quantidade de mutações missense ea baixa taxa de transferência de experiências funcionais existentes, mesmo pequenas melhorias na precisão da previsão pode levar a dramaticamente melhores ganhos de eficiência e redução de custos na validação mutações driver.

Uma distinção importante entre Candra e outros métodos é a inclusão de um grande conjunto (95) de características, recolhidos a partir de quase todos os métodos disponíveis. Embora isso garante a abrangência da Candra, também aumenta a dificuldade de obter um modelo ideal, devido à “maldição da dimensionalidade” (COD), ou seja, requer exponencialmente mais amostras para treinar um modelo robusto, com aumento do número de recursos [43] . O método utilizado pela SVM candra é mais robusto contra o COD do que outros classificadores, incluindo o algoritmo de floresta aleatório usado por CHASM [44]. Além disso, a abordagem de seleção de recursos em duas etapas que foram aplicados efetivamente aliviados COD, mantendo a facilidade de interpretação dos resultados, o que torna mais vantajoso do que outros, ou métodos de transformação baseado em filtro exaustiva [45].

A nossa resultados de seleção de características lançar alguma luz sobre a semelhança e dissemelhança entre GBM e OVC que pode ser explicada por diferentes mecanismos mutagénicos. Por exemplo, o cancro do ovário seroso alto grau de mutação tem quase universal de

TP53

e cerca de 50% tem aberrações previsto para alterar a reparação do ADN através de recombinação homóloga, em comparação com GBM que tem muito maior frequência de aberrações nas vias relacionadas com sinalização celular. Para ambos os tipos de câncer, descobrimos que uma mutação é mais provável que seja um motorista se ele ocorre em resíduos que são evolutiva conservadas, têm backbones duras, ou têm acesso menos solvente; embora mais motoristas ocorrer em resíduos evolutivamente conservadas em OVC do que em GBM (Figuras S2-S3 no arquivo S1). Por outro lado, as características que representam conhecimento do domínio de proteína, tais como UniprotDOM_PostModEnz e UniprotREGIONS, parecem transmitir informação mais específica sobre o tipo de cancro. Nos nossos conjuntos rigorosas, uma porção considerável (50%) dos condutores GBM estão localizados em proteínas domínios enzimáticos responsáveis ​​pela modificação pós-traducional (indicado por UniprotDOM_PostModEnz), contrastadas por cerca de 7% de passageiros GBM, 5% dos condutores OVC, e seis % dos passageiros OVC. Cerca de 70% dos condutores OVC estão localizadas em domínios de proteínas que podem mediar as interacções proteína-proteína ou outros processos biológicos (indicados por UniprotREGIONS), contrastou cerca de 5% de passageiros OVC, 24% dos condutores GBM, e 6,3% de passageiros GBM.

Deixe uma resposta