PLOS ONE: Priorizando mutações potencialmente druggable com DGENE: Uma ferramenta de anotação para Cancer Genome Sequencing Dados

Sumário

Um dos principais objetivos do sequenciamento do genoma do câncer é identificar mutações ou outras alterações somáticas que podem ser direcionados por drogas seletivos e específicos. DGENE é uma ferramenta de anotação projetado para rapidamente identificar genes pertencentes a uma das dez classes druggable que são frequentemente alvo de droga desenvolvimento do câncer. Essas classes foram exaustivamente povoada por combinar e manualmente curadoria dados de vários bancos de dados especializados e gerais. DGENE foi usado pelo projeto cancer Cancer Genome Atlas escamosas do pulmão de células, e aqui nós demonstrar ainda mais sua utilidade usando dados de sequenciamento de genomas de câncer de mama foi lançado recentemente. DGENE é projetado para ser usado por qualquer pesquisador de câncer, sem a necessidade de apoio de um especialista em bioinformática. Uma descrição completa de DGENE e as opções para a sua implementação são fornecidas aqui

Citation:. Kumar RD, Chang LW, Ellis MJ, Bose R (2013) Priorizando mutações potencialmente druggable com DGENE: Uma ferramenta de anotação para Cancer Genome Sequencing Dados. PLoS ONE 8 (6): e67980. doi: 10.1371 /journal.pone.0067980

editor: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapura

Recebido: 27 de fevereiro de 2013; Aceito: 24 de maio de 2013; Publicação: 27 de junho de 2013

Direitos de autor: © 2013 Kumar et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O apoio financeiro para este trabalho foi fornecido pelo NIH bolsas R01CA095614 e U01HG00651701 (a MJE), eo Edward Mallinckrodt, Fundação Jr. eo ‘mama Ohana Cancer Research Fund (a RB). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

estudos do genoma do câncer de sequenciação agora estão analisando 50 a 500 pacientes por estudo e estão documentando milhares de mutações somáticas [1], [2]. Novas ferramentas de anotação e análise são necessários para prever a relevância funcional destas alterações genéticas e orientar investigações subsequentes. Aqui, nós introduzimos uma ferramenta baseada em genes druggable que, em combinação com outras etapas de anotação e de filtragem, podem rapidamente priorizar um grande conjunto de mutações em um conjunto mais concentrado que pode ser testada em estudos funcionais.

Esta ferramenta , a que chamamos DGENE (conjunto de genes druggable), baseia-se no conceito do genoma druggable introduzido por Hopkins e noivo em 2002 [3]. Eles identificaram as classes de proteínas que se ligam podem potencialmente fármacos de moléculas pequenas e proposto que os genes modificadores da doença pertencem a uma classe druggable deve ser dada prioridade para o desenvolvimento de drogas [3], [4]. Este conjunto de genes druggable foi baseada na observação de que drogas aprovadas pela FDA e compostos em desenvolvimento não têm como alvo o genoma humano uniformemente, com algumas classes de genes, tais como os receptores acoplados à proteína G (GPCR) e cinases de proteína, sendo mais frequentemente alvo de pequenas moléculas.

DGENE acrescenta ao seu trabalho por meio da expansão e atualização do conjunto de classes druggable com base em esforços atuais de desenvolvimento de drogas, povoando as classes de forma abrangente e manutenção de qualidade através de curadoria manual. Neste artigo, descrevemos a lógica e construção de DGENE, demonstrar a sua utilidade em um conjunto lançado recentemente de câncer de mama dados de sequência de todo o exome [2] todo o genoma e e fornecem instruções para usar DGENE.

Resultados

DGENE é projetado como uma ferramenta de anotação e filtragem para priorizar mutações para avaliação funcional (Fig. 1a). O passo inicial na sua concepção foi a seleção de um conjunto de classes de genes que são altamente druggable e relevantes para a biologia do câncer. As aulas foram selecionados com base em esboços anteriores do genoma druggable [3], [4] e adicional sondagem da literatura, principalmente, com uma ênfase particular na biologia do câncer. Por exemplo, enquanto os transportadores e os canais iônicos são amplamente druggable, eles foram excluídos DGENE devido a uma falta de relevância estabelecida na tumorigênese. A versão atual do DGENE é construído em torno de dez classes de genes (Tabela 1). Nós demonstrar a validade desta abordagem, examinando um grupo de 299 medicamentos em fase de ensaios clínicos para câncer de pulmão [5]. Observou-se que mais de 60% destas drogas proteínas que estão dentro das 10 classes de DGENE alvo (Fig. 1b).

A, Druggability serve como uma tela racional numa tubagem hipotética para a redução de uma lista de genes em bruto para um número experimentalmente viável. B, medicamentos contra o câncer de pulmão no gasoduto classificados por tipo de destino, com alguns tipos de destino considerados amplamente druggable e incluído no DGENE. C, SNPS necessário um fluxo de trabalho simples. Russ

et al,

2005 e NucleaRDB [6] contribuiu. Um gene mapeado para nem a lista gene nem sinónimos NCBI. Seis genes foram identificados em apenas uma fonte e foram verificadas manualmente contra UniProt e Gene Ontology (GO) [9], [10]. Nada poderia ser confirmado como SNPS, deixando a classe final com 48 membros. D, O fluxo de trabalho elaborado para proteases é análoga à dos NHRS e outras classes. Porque UniProt servido como entrada, curadoria envolveu pesquisar a literatura primária, além de consultar GO.

Cada uma das 10 classes DGENE foi amplamente preenchido usando fontes adaptados incluindo bases de dados especializadas e artigos de revisão. Para uma dada classe, os resultados a partir de diversas fontes foram reconciliados pelo Gene Lista NCBI e entradas exclusivas a uma única fonte foram confirmados contra bases de dados como UniProt ou a literatura primária. receptores hormonais nucleares (NHR) ilustram um caso simples, com fontes bem curadores [6] exigindo pouco exame complementar (Fig. 1c). Para efeito de comparação, proteases necessário um fluxo de trabalho elaborado envolvendo fontes especializadas adicionais [7] e um maior grau de curadoria manual, incluindo pesquisas bibliográficas primárias (Fig. 1D). A lista final DGENE 2257 inclui os genes de dez classes (Tabela 1 e Tabela S1), e chama a partir de uma variedade de fontes e especializadas geral [6] – [14]. DGENE é totalmente modular e expansível: informação ou gene futuro aulas de interesse podem ser facilmente adicionados

O filtro DGENE recentemente tem sido utilizado pelo Cancer Genome Atlas (TCGA) de células escamosas projeto de câncer de pulmão para analisar mutações somáticas encontrados. em 178 casos de câncer de pulmão de células escamosas; Detalhes podem ser encontrados na publicação que [1]. Para ilustrar ainda mais a utilidade de DGENE, optamos por um estudo genômico recente dos cânceres de mama positivos 77 receptor de estrogênio como um caso de teste [2]. O conjunto de dados consiste de 46 cancros da mama que se submeteram a sequenciação do genoma inteiro, além de 31 tipos de câncer que foram submetidos a sequenciação exome, denotado por “BRC” e “CSB” códigos de pacientes, respectivamente. DGENE identificadas variantes de um único nucleótido 368 (SNV) de um total de 2622 como ocorrendo em 255 genes druggable (Fig. 2a-b). A exigência de recorrência em pacientes com múltiplas reduz o gene definir ainda mais (Fig. 2c). Os 37 genes que são ambos druggable e presente em pelo menos 2 pacientes estão listados na Figura 2d. O arquivo de entrada eo arquivo de saída DGENE a partir desta análise são fornecidos (Tabelas S2 e S3).

A, 368 SNVS ocorreu em genes considerados druggable de 2.622 eventos no total. B, 2199 genes tinham pelo menos um SNV, dos quais 255 são considerados druggable. C, Rastreio de genes comumente alterados reduz ainda mais lista de alvos. D, 37 entradas DGENE presente em pelo menos 2 de 77 amostras, organizado pela classe e os pacientes afetados.

Os resultados DGENE fornecer novas informações sobre o conjunto de dados do genoma do câncer.

PIK3CA

é mutado em 37/77 amostras, mas um doente adicional (BRC44) tinha uma deleção KPDL567 em-quadro no PIK3R1, uma subunidade reguladora que se liga PIK3CA. Esta supressão ocorre na interface de ligação PIK3R1-PIK3CA e podem alterar a sinalização de PI3-quinase [15]. DGENE sugere a importância desta mutação tanto através de sua relação com a PIK3CA e potencial druggability. mutações adicionais foram igualmente destacadas; por exemplo, o

TEX14

(nomes: expressa-testis de proteínas 14 ou SUGEN quinase 307) e

INSRR

(receptor relacionado com o receptor de insulina) tirosina quinases são dois alvos de medicamentos relativamente novos. TEX14 tem sido implicado no mieloma múltiplo e cancro da mama [16], [17], e INSRR tem sido implicada em cancros epiteliais do ovário e neuroblastomas [18], [19]. Ambos são susceptíveis druggable, mas também não ocorreu em alta freqüência e não foram destacados em uma análise global do conjunto de dados. A fim de demonstrar o valor dos resultados DGENE, a comparação foi feita aos resultados da pesquisa de uma base de dados existente de drogas, a PharmGKB (A farmacogenómica Base de Conhecimento). DGENE identificados mais genes que PharmGKB a partir deste conjunto de dados do cancro da mama (Figura S1, Tabela S4), incluindo a identificação de 4 tirosina quinases e 13 S quinases /T que foram recorrentemente mutantes nestes genomas do câncer de mama (Fig. 2D).

Figura 2d também ilustra duas advertências em usar DGENE. Mutações no

MAP3K1

são encontrados em 9/77 pacientes, ea maioria destes eventos são mutações de perda de função [2].

MAP3K1

‘s presença na análise saída DGENE demonstra que DGENE não fornece nenhuma informação sobre se uma mutação é o ganho de função, perda de função, ou funcionalmente em silêncio. Dada uma lista de símbolos de genes, DGENE só age como um filtro. A presença de

Titin Comprar e dois genes de colágeno (

COL28A1

e

COL6A3) ilustrar como muito grande genes, que contêm frequentemente componentes druggable e tendem a ser frequentemente mutado, vai continuam a filtrar através DGENE. A presença de um gene na saída DGENE não garante a importância biológica de uma dada mutação.

DGENE pode ser aplicada a qualquer conjunto de dados que contém uma lista de símbolos de genes. Para ilustrar isso analisamos número de cópia (CN) de dados gene dos cânceres de mama positivos para o receptor de estrogénio 46 que foram submetidos a sequenciação do genoma inteiro (codificados “BRC”) [2]. Os dados NC matérias implicado 19.528 genes através de quase 150.000 eventos, incluindo tanto focal e amplas mudanças NC. Como um ecrã inicial, somente os eventos abaixo do 20

th ou superiores a 80

percentil foram consideradas (0,7 × e 1,5 × mudanças, respectivamente), deixando 54,301 eventos em 16,924 genes (Tabela S5). Filtragem contra DGENE reduziu ainda mais o conjunto de 5421 mudanças NC em 1752 genes druggable (Figura 3A-C e Tabela S6). As perdas NC na família PTEN revelou um romance de observação (Figura 3d).

TPTE2

(nomes: transmembranar fosfoinositídeo 3-fosfatase e homólogo 2 ou PTPI angiotensina) é o membro mais comumente perdeu PTEN família, com perdas NC observado em 14/46 pacientes, o que é uma frequência de 3,5 vezes maior do que

PTEN

perdas NC (4/46). A literatura sobre TPTE2 é limitada e isto indica que TPTE2 pode inibir o crescimento das células e iniciar a apoptose, semelhante ao supressor de tumor PTEN, [20], [21], [22]. Esta nova descoberta de perda TPTE2 CN foi identificado porque DGENE destaca a associação entre os membros da família PTEN de um grande candidato CN alteração definido.

A, 5421 CNVs foram detectados em 1752 genes druggable em toda a amostra. A 20

th (0,7 ×) e 80

th (1,5 ×) percentis serviu como pontos de corte. B, apenas ganhos ( 1,5 ×). C, Perdas única ( 0,7 ×). D, Exibindo valores CNV família PTEN.

TPTE2

é o mais freqüentemente alterado. Cortes estão relaxados para 0,85 × e . 1.15 × para fins de exibição

Discussão

Nós desenvolvemos uma versão atualizada do genoma druggable identificando as classes de genes altamente druggable, preencher as classes usando up-to-date e recursos específicos, e confirmando manualmente os resultados. Nossa coleção de genes druggable, DGENE, é concebido especificamente para uso contra listas de mutação gerados pelo sequenciamento do genoma do câncer, embora possa ser usado para analisar qualquer lista gene humano. Nós também têm demonstrado que, em combinação com critérios de filtragem adicionais, DGENE pode rapidamente destacar mutações em alvos terapêuticos biologicamente e clinicamente plausíveis.

Limitações de DGENE são de que ele está inclinado para o modelo “oncogene vício” de câncer e para as metas de bem descritos, medicamentos de moléculas pequenas. Enquanto DGENE atualmente não contêm genes envolvidos na reparação do ADN, as proteínas de superfície celular, ou outros alvos potenciais da droga, classes adicionais são facilmente acomodados devido à modularidade do DGENE. DGENE também não faz nenhuma tentativa para identificar mutações como sendo ou perda ou ganho de função; No entanto, DGENE pode ser combinada com as contagens de impacto funcionais (tais como Peneire ou da mutação do assessor) para identificar mutações que são susceptíveis druggable e provavelmente funcional [23], [24]. DGENE destina-se como uma ferramenta fase de descoberta para orientar experiências no sentido de genes contra os quais os inibidores de pequenas moléculas pode ser rapidamente desenvolvidos.

Tal como acontece com todos os recursos baseados em dados, a actualização DGENE será da maior importância. as classes DGENE tendem a ser bem estudadas, como ilustrado pelo facto de 2,108 fora de 2257 entradas podem ser encontrados em SwissProt, uma colecção de avaliação manualmente anotações proteína [9]. Portanto, prevemos DGENE sendo bastante estável, e estão empenhados em fornecer actualizações anuais. Além disso, porque DGENE é facilmente expansível, que pode facilmente integrar novas classes de genes como o conhecimento dos avanços da biologia do câncer e classes de genes adicionais são direcionados.

DGENE é projetado para ser usado por pesquisadores de câncer e não exigem o apoio de um bioinformática especialista. DGENE está hospedado como uma ferramenta baseada na web através do Instituto do Genoma da Universidade de Washington (dgidb.genome.wustl.edu). Lá, os usuários podem filtrar listas de genes contra DGENE (através da página “Pesquisa Categorias”, ou baixar o arquivo delimitado por tabulação DGENE completa de texto (através das “Downloads” da página), que podem ser importados em vários pacotes estatísticos e usados ​​ou personalizado como necessário. a funcionalidade adicional do website inclui anotar entradas DGENE com informações específicas da droga quando disponível (M. Griffith e OL Griffith, manuscrito em preparação). em resumo, DGENE fornece um filtro rápido para identificar genes druggable em dez aulas de estudos genômicos de câncer, e está atualmente disponível para uso através de um site construído profissionalmente.

Métodos

Preencher Classes Gene

As aulas foram preenchidos com genes humanos através de um processo de inclusão a partir de bases de dados especializadas e comentários , padronização à lista gene NCBI, e curadoria manual dos genes que ocorrem em uma única fonte. Figura 1C e 1D retratar o processo totalmente para receptores hormonais nuclear (um caso simples) e proteases (um caso complexo), enquanto que a Tabela 1 descreve o conjunto de fontes especializadas usados ​​para cada classe. Os comentários e as bases de dados foram identificados por pesquisa bibliográfica e pode não ser exaustiva. curadoria manual de genes sugeridos pelos genes assegurada apenas uma fonte foram devidamente classificados. Para as classes onde UniProt /Gene Ontology não era necessária como fontes de entrada, foi realizada uma verificação simples contra a classificação UniProt /GO. Nos casos em que UniProt /GO foram fornecidos como entrada para a classe (como foi o caso de proteases), foi realizada a inspeção do alinhamento literatura e sequência referenciado.

Durante a curadoria manual, o viés foi para a inclusão. Genes foram deixados em sua respectiva classe, se eles nem mostrou homologia de sequência a um membro conhecido, ou se a evidência experimental sugeriu que eles tinham a funcionalidade adequada. Pseudogenes e genes que codificam produtos não-funcionais foram incluídos se mostrou homologia com um membro da classe incluído.

Um desafio frequente na consolidação de fontes díspares era a mistura de identificadores de genes e proteínas incompatíveis. Mapeamento à Lista de NCBI humano Gene (url: ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz, acessado em 3 de Julho de 2012) facilitou as comparações entre fontes. A lista gene humano NCBI representa a coleção total de genes humanos reconhecidos na base de dados do NCBI, bem como anotações atuais, e é atualizado diariamente. A lista gene NCBI provê um formato padrão para todos DGENE entradas -15 colunas, incluindo a NCBI geneID, símbolo oficial e, fundamentalmente, uma lista de sinônimos utilizados na literatura. Para cada entrada de 16

th coluna, classe, foi anexado. O mapeamento foi realizado através da conversão de nomes de proteína para nomes de genes com a Ferramenta ID Conversão David Gene [25], e através de pesquisa na lista de sinônimos fornecidos no arquivo NCBI para termos que não aparecem como um símbolo oficial.

aplicação de DGENE de amostras de câncer de mama 77

As anotações de mutação matérias analisadas neste trabalho utilizou up-to-date números de identificação de genes. As mutações nos genes que também aparecem em DGENE foram filtrados para uma tabela separada, e o termo classe de DGENE foi anexada como uma nova coluna. Agregação para paciente e classe permitida para a produção da Figura 2a. foi necessário Agregação para paciente e o gene para a produção da Figura 2b-d. Os dados NC matérias foram analisadas da mesma maneira, com os resultados retratado na Figura 3.

Software

A análise foi realizada em R 2.15.1 para Windows. Heatmaps foram produzidos em R utilizando o pacote de base, enquanto figuras e tabelas adicionais foram produzidos com o Microsoft Excel e PowerPoint.

Informações de Apoio

Figura S1.

doi: 10.1371 /journal.pone.0067980.s001

(PDF)

Tabela S1.

doi: 10.1371 /journal.pone.0067980.s002

(CSV)

Tabela S2.

doi: 10.1371 /journal.pone.0067980.s003

(XLS)

Tabela S3.

doi: 10.1371 /journal.pone.0067980.s004

(XLS)

Tabela S4.

doi: 10.1371 /journal.pone.0067980.s005

(XLS)

Tabela S5.

doi: 10.1371 /journal.pone.0067980.s006

(XLS)

Tabela S6.

doi: 10.1371 /journal.pone.0067980.s007

(XLS)

Reconhecimentos

Os autores agradecem Obi Griffith, Malaquias Griffith, Robert Pufahl, Li Ding, e Rob Mitra para discussões úteis e leitura crítica deste manuscrito. Os autores agradecem adicionalmente Malaquias Griffith e Obi Griffith para fornecer acesso a DGENE através dgidb.genome.wustl.edu.

Deixe uma resposta