PLOS ONE: ProKinO: Uma Ontologia de Análise Integrada das proteínas quinases em Cancer

quinases

Abstract

Fundo

de proteína são uma família grande e diversificada de enzimas que são genomically alterada em muitos cancros humanos . Direcionados esforços de seqüenciamento de genomas do câncer têm revelado os padrões de mutação de genes da proteína cinase de muitos tipos diferentes de câncer. Embora os dados mutacionais sobre cinases proteicas actualmente catalogadas em várias bases de dados, a integração de dados de mutação com outras formas de dados sobre a proteína-quinases, tais como sequência, estrutura, função e via é necessário identificar e caracterizar cancerosas causando mutações chave. análise integrativa dos dados da proteína quinase, no entanto, é um desafio devido à natureza díspar de fontes de dados da proteína quinase e formatos de dados.

Resultados

Aqui, descrevemos ProKinO, uma proteína quinase específica do ontologia, que fornece um vocabulário controlado de termos, sua hierarquia e as relações unificando sequência, estrutura, função, mutação e informações via on proteínas quinases. A representação conceitual de tais formas diversas de informação em um lugar não só permite uma rápida descoberta de informação significativa relacionada a uma proteína quinase específica, mas também permite a análise integrada em larga escala de dados da proteína cinase de maneiras que não são possíveis através de outros recursos específicos da quinase. Efetuamos várias análises integrativas de dados ProKinO e, como exemplo, descobriram que um grande número de mutações somáticas (~288 mutações distintas) associado com o

neoplasia hematopoiética

tipo de câncer mapa para apenas 8 quinases no ser humano kinome. Isto está em contraste com

glioma

, em que as mutações são distribuídos por 82 cinases diferentes. Nós também fornecemos exemplos de como a análise de dados de base ontológica pode ser usado para gerar hipóteses testáveis ​​sobre mutações cancerígenas.

Conclusão

Nós apresentamos um quadro integrado para grande escala análise integrativa de dados proteína quinase . Navegação e análise de dados ontologia pode ser realizada utilizando o navegador ontologia disponível em:. https://vulcan.cs.uga.edu/prokino

Citation: Gosal G, Kochut KJ, Kannan N (2011) ProKinO : Uma Ontologia de Análise Integrada das proteínas quinases em Câncer. PLoS ONE 6 (12): e28782. doi: 10.1371 /journal.pone.0028782

editor: Fazlul H. Sarkar, Wayne Escola de Medicina da Universidade de Estado, Estados Unidos da América

Recebido: 27 de julho de 2011; Aceito: 15 de novembro de 2011; Publicação: 14 de dezembro de 2011

Direitos de autor: © 2011 Gosal et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O financiamento para este trabalho foi fornecida pela Sociedade americana do Câncer (RSG-10-188-01-TBE) e da Geórgia Cancer Coalition (GCC). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o cancro é causado por uma acumulação de mutações, frequentemente em um subconjunto de genes que conferem uma vantagem de crescimento e sobrevivência. A família do gene da proteína-quinase, que controla as vias de sinalização importantes associados com o crescimento e sobrevivência celular, é uma das famílias mais sobre-representados de oncogenes [1]. sequenciação de 518 exões proteína quinase codificados no genoma humano alvejado (colectivamente chamado de kinome) revelou centenas de mutações no domínio de proteína cinase de [2]. Embora essas mutações estão atualmente catalogados em várias bases de dados [3], [4], [5], a identificação e caracterização experimental de mutações-chave que causam câncer é essencial para o desenvolvimento de novas terapias para o câncer.

Caracterização experimental de câncer mutações, no entanto, exige que um primeiro formular as hipóteses corretas com base na análise dos dados existentes. Em particular, é necessária a análise de dados de mutação à luz de outras formas de dados disponíveis sobre proteínas quinases tais como a seqüência, estrutura, função e caminho para desenvolver e testar novas hipóteses sobre o impacto funcional de mutações de câncer [6], [7], [8], [9]. análise integrativa dos dados da proteína quinase, no entanto, é um desafio devido à natureza díspar de fontes de dados da proteína quinase e formatos. Por exemplo, um pesquisador interessado na localização estrutural de uma mutação do cancro, ou a distribuição de mutações de cinase em vários tipos de câncer, tem que passar pelo processo propenso demorado e erro de coleta e análise de dados de diferentes fontes, muitas vezes em dados diferentes formatos. Embora vários recursos específicos da quinase, tais como KinBase [10], REI [11], PKR [12] e KinMutBase [4] foram desenvolvidos, estes recursos assenta essencialmente em um, ou alguns tipos, de dados de proteínas cinase (por exemplo, sequência , estrutura, ou mutação), deixando de lado o desafio de integração de dados.

ontologias [13] têm emergido como uma poderosa ferramenta para análise integrativa e quantitativa dos dados biológicos [14], [15], [16] , [17]. Ao capturar o conhecimento de domínio na forma de conceitos (classes) e relacionamentos, ontologias fornecem uma representação conceitual de dados de uma forma que os computadores podem ler e os seres humanos podem entender. Por exemplo, para uma resposta automática e informado para a consulta “mutações de cinase associada a tipos de câncer”, o computador precisa entender os conceitos, “mutações de cinase” e “tipos de câncer”, e as relações entre os conceitos, a saber, “

associado com “

. É esta representação conceitual do conhecimento que distingue ontologias a partir de bancos de dados relacionais, e permite a integração eficiente e de mineração de diversos conjuntos de dados [18]. Na verdade, várias ontologias têm sido desenvolvidos para capturar e extrair a riqueza de informações sobre genes (GO) [19], a sequência [20], as vias (https://rgd.mcw.edu/tools/ontology/ont_search.cgi

)

, a modificação de proteínas [21] e outros [20], [22]. ontologias focado em famílias de proteínas selecionadas como a família proteína fosfatase e familiar transportador também têm sido desenvolvidos [23]. No entanto, até agora, uma ontologia focado capturar o estado do conhecimento sobre a família de proteínas quinase não tem sido relatada.

Aqui, relatamos o Protein Kinase Ontologia (ProKinO). ProKinO fornece um vocabulário controlado de termos e relacionamentos sequência, estrutura, função, caminho de ligação, e dados de mutação na proteína cinases. ProKinO são codificados utilizando a Web Ontology Language (OWL) (https://www.w3.org/TR/owl-ref/), uma linguagem de ontologia autoria recomendado pelo World Wide Web Consortium (http: //www.w3. org /). A integração de diversos conjuntos de dados em um formato legível por máquina, não só permite a navegação de diversas formas de dados de proteínas quinase em um lugar, mas também permite consultas agregados sobre os dados existentes de formas que não são possíveis por meio de recursos específicos da quinase existentes. Por exemplo, as consultas agregados, como “conta de quinases associadas com o tipo de câncer” ou “contagens de mutações de câncer localizados em vários sub-domínios quinase” pode ser prontamente realizada utilizando ProKinO eo SPARQL Query Language ontologia (http: //www.w3 .org /TR /RDF-sparql-query /). Nós descrevemos o significado de tais consultas na descoberta de conhecimento e geração de hipóteses. Uma consulta de agregação “contagens de mutações de cinase em vários tipos de câncer”, por exemplo, revelou que as mutações associadas à

neoplasia hematopoiética

(288 mutações distintas) como principal objectivo apenas 8 quinases na kinome humana, em comparação com

glioma

, onde as mutações estão distribuídos por 82 quinases distintas. Da mesma forma, as consultas como “mutações segmentação características funcionais quinase” pode ser usado para gerar novas hipóteses sobre o impacto estrutural e funcional de mutações de cancro. Descrevemos também um navegador que permite a navegação rápida e exame dos dados ProKinO, acessível em:. https://vulcan.cs.uga.edu/prokino

Métodos

Organização do Conhecimento ProKinO

Para conceituar a riqueza de conhecimentos sobre a sequência da proteína quinase, estrutura, função, caminhos e doenças, que introduzimos vários conceitos-chave (classes) e relacionamentos (propriedades objeto) no ProKinO. Essas classes, organizados de forma hierárquica, e as relações entre essas classes, representar e descrever o conhecimento proteína quinase de forma análoga a um especialista de domínio.

Por exemplo, um especialista quinase descrevendo uma mutação específica descreveria o mutação no contexto do gene no qual a mutação não é encontrado, a cinase codificada pelo gene, do grupo ou da família da cinase pertence, o sub-domínio cinase a mutação está localizada no, e as vias em que o gene mutado participa . O esquema ProKinO foi concebido para captar e integrar o conhecimento proteína quinase usando os termos e as relações semelhantes para os tipicamente utilizados por um perito (Figura 1). Por exemplo, a relação entre o “gene” e a mutação “classes” é descrita pelo “

hasMutation”

alojamento (Figura 1), enquanto que o “

locatedin”

propriedade capta a relação entre o “Mutação” e classes “subdomínio chamado”. Da mesma forma, a sequência de uma quinase pertence é representada pela “

hasSequence”

propriedade entre o “Gene” e classes “sequência”, e os sub-domínios associados a uma determinada sequência é conceituada pelo “

hasSubDomain “

relacionamento (Figura 1). O percurso e reação informações relacionadas com quinases é conceituada pelo “

participatesIn”

relação entre “Gene” e “Caminho” e “

hasReaction”

entre “Caminho” e “Reação”. Para cruzar dados ProKinO referência às bases de dados externos e fontes, a classe “DbXref” e “

hasDbXref”

relacionamento foram introduzidos (ver Figura 1).

A figura mostra conceitos (classes) organizada em uma hierarquia de classe sub-classe (como ovais). As relações (propriedades de objetos) entre as classes são mostradas como linhas de cor vermelha. Os detalhes internos (propriedades de dados) de classes são mostradas como linhas de cor castanha. As instâncias de classes são mostrados como retângulos. O esquema ontologia completo pode ser acessado no site da ProKinO, e também fornecido como Figura S1.

A lógica por trás representando os dados da proteína cinase da maneira descrita acima é que ele fornece o contexto para a interpretação de dados de mutação . Isto pode ser ilustrado usando a mutação missense

p.L858M

em

EGFR

(Figura 1).

p.L858M

é uma mutação no

EGFR

quinase ter o tipo “missense”. A mutação está implicado no cancro

carcinoma

e localizado no domínio sub VII, que corresponde ao terminal-N do segmento de activação (denotado como o

Activação-Segmento-NT

na Figura 1) . A proteína codificada pelo

gene EGFR

participa de um caminho

Sinalização por EGFR

, que inclui

EGFR dimerização

como uma de suas reações. Outras classes e subclasses são igualmente ligado à mutação

p.L858M

através das relações descritas na Figura 1, proporcionando uma visão integrada de todos os dados que seriam necessários para fornecer o contexto estrutural e funcional para o

p. L858M

mutação.

Além das principais classes e propriedades de objetos descritos acima, várias sub-classes adicionais e propriedades do objeto foram definidos no ProKinO para capturar e representar o conhecimento disponível sobre a sequência da proteína quinase totalmente, estrutura, função e doenças. Por exemplo, os sub-classes da classe “mutação” – “ComplexMutation”, “DeletionMutation”, “InsertionMutation”, “SubstitutionMutation” e “OtherMutation” – capturar informação sobre os tipos de mutações identificadas em cinases. Da mesma forma, os três sub-classes sob a classe “FunctionalFeature” – “ModifiedResidue”, “TopologicalDomain”, “SignalPeptide” – capturar informações sobre os recursos funcionais específicas. Esta organização hierárquica de classes em ProKinO é mostrado na Figura 1.

Além das propriedades do objeto, as propriedades chave de dados tiverem sido introduzido para descrever a organização interna dos conceitos e facilitar a mineração de dados e extração. Por exemplo, a propriedade de dados, “

hasOtherName”

, armazena os outros nomes pelos quais um gene pode ser conhecidos na literatura (sinônimos). Por exemplo,

EGFR

é também referida como

EGFRvIII

,

erbB1

,

ERBB

, ou

Mena

na literatura. Ao incluir o “

hasOtherName” propriedade data

, todas as informações pertinentes ao

EGFR

pode ser obtido independentemente de qual nome de gene é usado como uma consulta.

Com um grande conjunto de classes e propriedades relacionadas com quinases no esquema concebido (consulte a Figura S1 para o esquema completo), ProKinO, representa uma conceitualização explícita e organização do conhecimento sobre proteínas quinases humanos. ProKinO atualmente contém 351 classes, 25 propriedades do objeto e 27 propriedades de dados (Tabelas S1, S2 e S3 para uma lista completa) capturar informação sobre sequência de proteína quinase, estrutura, função, caminho e doenças.

ProKinO População

ProKinO foi preenchido com dados de fontes de dados que são bem curadoria e mantidos. Os dados adquiridos foi armazenado como instâncias no esquema descrito acima (Figura 1).

aquisição e armazenamento de dados

Sequência.

Os dados relativos sequência da proteína quinase e classificação têm foram obtidas a partir de KinBase [10], o repositório para a sequência de quinase e classificação. Os 538 genes de quinase actualmente identificados no genoma humano foram classificados em grandes grupos e famílias com base na semelhança de sequências dentro do domínio da quinase. Como a classificação KinBase é amplamente aceita pela comunidade quinase, adotamos o mesmo esquema de classificação em ProKinO. O processo automático de aquisição de dados e população de KinBase inclui a extração, a integração ea população de informações a partir de 538 proteínas quinases humanos e sua classificação em vários grupos, famílias e subfamílias. Informações sobre nomes de genes, sinônimos e posição cromossômica também é obtido a partir KinBase. O conhecimento adquirido é preenchida como as instâncias da classe “ProteinKinaseDomain”, que é ainda classificados em grupos, famílias e sub-famílias como subclasses. Além disso, os dados de sequência de genes da proteína quinase em formato FASTA foi extraído e povoada como instâncias da classe “Sequence”.

Função.

As informações sobre os domínios funcionais e características funcionais associadas a quinase domínios foram obtidos a partir UniProt [24], um recurso curada de informações funcionais de proteínas. As informações sobre os domínios de regulação associados com domínios quinase, estruturas cristalinas resolvidos para cada quinase, isoformas identificadas para quinases, resíduo modificado, peptídeo sinal, domínio topológico, localização celular e especificidade de tecido também é obtido a partir UniProt. domínios funcionais relacionadas com proteínas cinases são preenchidos como instâncias da classe “FunctionalDomain”, e referências cruzadas Pfam [25], um banco de dados da família de proteínas, através da classe “DBxRef”. Da mesma forma, as informações sobre estruturas cristalinas é preenchida como instâncias da classe “Estrutura”, com referências cruzadas para o Protein Data Bank (PDB) [26]. informações característica funcional é armazenado como instâncias da classe “FunctionalFeature”, com sub-classes com base no tipo de recurso, como “ModifiedResidue”, “TopologicalDomain” e “SignalPeptide”.

Doenças.

Apesar de proteínas quinases têm sido associados a várias patologias humanas, a versão atual do ProKinO se concentra principalmente em câncer. Informações sobre mutações de câncer é obtido a partir COSMIC [3], que é um dos recursos mais antigos e curadoria para armazenar informações sobre mutações somáticas adquiridas associados com cancros humanos. Além de mutações, outras informações tais como sítios primários, histologia primária, amostras, descrições e outras características relevantes também foram obtidas e armazenadas como instâncias da classe “Mutação”. A classe “mutação” é especializada ainda em sub-classes de acordo com o tipo de mutação, ou seja, complexo, deleção, inserção, substituição e outros. Referências a PubMed, MEDLINE e COSMIC são fornecidos na classe “DbXref”.

Pathway.

Os dados Pathway é obtido a partir Reactome, um recurso via curadoria e peer-reviewed manualmente [27] . Caminhos e reacção são armazenados como instâncias da classe “BiochemicalEvent”. Por uma questão de clareza, adotamos os mesmos termos /conceitos utilizados na Reactome para representar informações via. “BiochemicalEvent” é um conceito usado em ambos Reactome e ProKinO para representar processos biológicos que convertem entidades de entrada para entidades de saída. “Pathway” e “Reacção” são sub-classes sob “BiochemicalEvent” (Figura 1). Por exemplo,

Sinalização por EGFR

é uma instância da classe “Caminho”, que está relacionado com a classe “reação” pela “

hasReaction”

propriedade (Figura 1). A classe “reação” tem várias reações para um determinado percurso.

dimerização EGFR

é uma das reações no

Sinalização por EGFR

via (Figura 1). Esta reação “

consome”

um complexo chamado

EGF: EGFR [membrana plasmática]

, e “

produz”

um complexo,

EGF: dímero EGFR [plasma membrana]

. Ambos os complexos são armazenados como membros da classe “Complex”.

Quinase Sub-domínios.

informações sub-domínio Para fornecer o contexto estrutural para mutações de câncer, nós incorporamos em ProKinO. Sub-domínios correspondem aos elementos do núcleo conservado motivos /estruturais que definem o domínio catalítico da quinase [28]. A notação subdomínio é amplamente utilizado para descrever a organização estrutural dos motivos e segmentos reguladores que compõem o domínio catalítico. Atualmente, a informação sub-domínio no quinases humanos não está disponível a partir de qualquer recurso público. O recurso a proteína quinase (PKR) fornece informações subdomínio em algumas quinases (18), mas não em todas as quinases. Para capturar a informação subdomínio em ProKinO, utilizou-se um modelo de motivo, que capta motivos principais correspondentes a cada um dos sub-domínios XII no domínio de cinase [6], [29]. O modelo motivo foi executado contra todos UniProt e sequências COSMIC para identificar o local de início e final de sub-domínios em sequências. Os locais de início e fim de sub-domínios foram armazenados em ProKinO como instâncias da classe “SubDomain”. Porque os limites sub-domínio são difíceis de delinear para proteínas quinases divergentes, tais como as quinases atípicos, a classe sub-domínio não está preenchido para todas as proteínas quinases.

Automatização de aquisição de dados e atualizações

Nós criamos um sistema de software especializado para preencher automaticamente ProKinO das fontes acima descritas. O software é escrito usando a linguagem de programação Java. O software executa todas as funções necessárias para a criação de ontologia e da população automática, incluindo a aquisição de dados, análise e processamento, bem como a criação de instâncias e as conexões entre eles usando as relações definidas no esquema ProKinO. A ontologia povoada é codificado e saída em OWL, uma linguagem de autoria ontologia e partilha recomendado pelo World Wide Web Consortium. Nosso software também usa Jena, um amplamente utilizado baseado em Java Application Programming Interface (API) (https://jena.sourceforge.net/) para analisar, criar e consultar Resource Description Framework (RDF) (http: //www.w3 .org /RDF /

) Comprar e OWL ontologias.

As ontologias e, consequentemente, todos os aplicativos e recursos, utilizando-os de software, são obrigados a evoluir com o tempo. ProKinO integra o conhecimento de fontes diferentes sem modificar qualquer um dos dados originais. Portanto, quaisquer alterações nas fontes de dados utilizadas na criação ProKinO exigem as mudanças correspondentes na ontologia para garantir que ele é up-to-date e consistente. As fontes de conhecimento utilizadas no ProKinO estão sujeitos a alterações frequentes e são atualizados em uma base regular. Por exemplo, UniProt é atualizada a cada três semanas e COSMIC aproximadamente a cada dois meses. Para o conhecimento integrado na ontologia a ser atual e consistente com os dados disponíveis nas fontes pai, ProKinO será atualizado pelo nosso processo de preenchimento automático em uma base regular, também. As informações de versão sobre todas as fontes de dados utilizadas para preencher ProKinO será incluído, bem. Para garantir que as necessidades da comunidade de usuários estão satisfeitos, qualquer modificação de esquema necessárias e extensões serão introduzidas nas novas versões ProKinO no momento apropriado. Todas as versões do ProKinO serão arquivados juntamente com as informações sobre as diferenças entre as versões. O ciclo de vida ontologia será seguido por um sistema de controle de versão [30], e quaisquer versões anteriores do ProKinO será facilmente acessível.

Resultados e Discussão

ProKinO Avaliação

Uma vez que o processo de desenvolvimento de ontologia é caro e demorado, é necessária uma avaliação cuidadosa do conteúdo ontologia para determinar a sua adequação em servir à finalidade do seu desenvolvimento. ProKinO foi avaliada pela sua precisão e utilidade. Temos usado duas abordagens para avaliar a precisão do conteúdo ProKinO: (i) uma abordagem manual, na qual um conjunto de instâncias e as relações entre eles são selecionados aleatoriamente e cruzados com conteúdo de fontes originais, e (ii) uma consulta à base de abordagem em que os dados ontologia é consultado para informações que podem ser facilmente cruz validados com dados de fontes originais.

abordagem manual.

na abordagem manual, os conjuntos de teste foram escolhidos para avaliar uma ampla a cobertura do conteúdo ontologia. A precisão dos dados foi verificada pelo cruzamento de validação com as fontes de dados originais. A integração dos dados em ProKinO também foi verificada por meio de avaliar os objectos de dados e propriedades introduzidas para precisão. Por exemplo,

relação EGFR

quinase com percursos representada como uma propriedade “

partcipatesIn”

foi verificado quanto à precisão pelo cruzamento validar o conteúdo em ProKinO com os dados originais disponíveis no Reactome. A nossa verificação não detectou nenhum erro em ProKinO. Os detalhes da avaliação são apresentados na Tabela S4.

abordagem baseada em Query.

Além da abordagem manual, uma abordagem com base em consulta foi utilizado para verificar o conteúdo da ontologia. A linguagem de consulta SPARQL foi utilizado para realizar as consultas. Por exemplo, a consulta “contagem de estruturas cristalinas para todas as proteínas quinases” resultou em 200 hits para

Cdk2

(Figura 2). Este resultado foi cruzada validado, verificando o

Cdk2

entrada “APO” em UniProt. Da mesma forma, a consulta “contagem de isoformas para todas as proteínas quinases” resultou em 20 hits para

FGFR2

e 19 para

FGFR1

(Figura 3). Este foi cruzada validado por verificação de

FGFR1 Comprar e

FGFR2

entradas isoformas em UniProt. Da mesma forma, “as contagens de quinases associadas com as vias” resultou em 11 caminhos para

SRC

, e 10 para o

PKACA

(

PRKACA

em Reactome). Este resultado foi também cruzada validado com a fonte original, isto é Reactome (Figura 4). Da mesma forma, “as contagens de quinases implicados em vários tipos de câncer” resultou no maior número de acertos relativos a

BRAF

(30 tipos de câncer) (Figura 5), ​​que foi cross-validado do banco de dados COSMIC.

os dez quinases na ordem decrescente de contagem são exibidas. O eixo Y mostra o número de estruturas resolvidas para cada um dos dez cinases sobre-representados. Estruturas resolvidas com inibidores foram incluídos na contagem total. Eixo dos X indica os nomes quinase. Aurora cinase é rotulado como aura. A consulta SPARQL usado para gerar este valor pode ser visualizado e excuted a partir do navegador ProKinO, selecionando “Consulta 1” sob o título “Consultas de Exemplo” guia na página principal.

Top 10 cinases são exibidos em ordem decrescente dos seus valores. O eixo Y mostra o número de isoformas validados para cada um dos kinass. A consulta SPARQL usado para gerar este valor pode ser visualizado e excuted a partir do navegador ProKinO, selecionando “Consulta 2” sob o título “Consultas de Exemplo” guia na página principal.

Top 10 quinases com a mais número de caminhos são exibidos em ordem decrescente. A consulta SPARQL para gerar esse número pode ser directamente visualizados e excuted a partir do navegador ProKinO, selecionando “Consulta 3” sob o título “Consultas de Exemplo” guia na página principal.

Os dez cinases são em ordem decrescente ordem de seus valores. A consulta SPARQL para gerar esse número pode ser directamente visualizados e excuted a partir do navegador ProKinO, selecionando “Consulta 4” sob a guia “Consultas de Exemplo” na página principal.

ProKinO Aplicação

O compêndio do conhecimento representado em ProKinO pode ser usado para uma variedade de aplicações, tais como mineração de dados, mineração de texto e anotação do genoma. Em particular, a representação de diversos dados da proteína quinase em forma legível por máquina permite consultas agregadas complexas sobre os dados da ontologia, de maneiras que não são possíveis por meio de recursos específicos da quinase existentes. A seguir, descrevemos algumas dessas consultas para ilustrar como os dados ProKinO pode ser usado para descoberta de conhecimento e geração de hipóteses. As consultas, que foram formuladas em SPARQL, também fornecem uma avaliação inicial da utilidade do ProKinO.

Consulta 1.

As consultas SPARQL “contagens de mutações de substituição missense em tipos de câncer”, e ” contagens de cinases proteicas com mutações missense “foi realizada em ProKinO para analisar a distribuição de mutações de cinase em vários tipos de cancro. Análise dos resultados gerados por esta consulta revelou que a distribuição de mutações quinase é muito diferente para diferentes tipos de cancro (Figura 6). Em particular,

carcinoma

(1168 mutações),

glioma

(180),

melanoma maligno

(201),

hematopoiética neoplasia

(288), e

linfóide neoplasia

(164) são altamente sobre-representados nas mutações quinase em comparação com outros tipos de câncer (Figura 6). Além disso, os 288 e 164 mutações associadas com

hematopoiética neoplasia

e

neoplasia linfóide

mapa para apenas 8 e 12 quinases, respectivamente. Isto está em contraste com

glioma

, em que as mutações são distribuídos por 82 cinases diferentes. Embora esta descoberta pode resultar do viés na sequenciação do kinomes câncer de tipos de câncer selecionados, também é possível que apenas algumas vias de sinalização (associado às 8 quinases) são alteradas no

hematopoiética neoplasia

, em comparação com

glioma

. Tais observações têm implicações na segmentação do kinome mutado para terapias e na geração de novas hipóteses para estudos experimentais.

Como mencionado no texto,

haematopoietic_neoplasm

tem 288 mutações em 8 quinases, enquanto

glioma

tem 180 mutações distribuídos por 82 quinases. A consulta SPARQL para gerar esse número pode ser directamente visualizados e excuted a partir do navegador ProKinO, selecionando “5a Query” e “5b Query” sob o título “Consultas de Exemplo” guia na página principal.

Consulta 2.

com base na observação da consulta 1, consultas adicionais SPARQL pode ser realizada para obter mais informações sobre os 8 quinases associadas a

hematopoiética neoplasia

. Por exemplo, a consulta solicitando para os “crimes de proteínas quinases que têm mutações missense no

hematopoiética neoplasia

” indica que

ABL1

,

KIT

,

FLT3

e

JAK2

são mais frequentemente mutado em comparação com outras quinases (Figura 7). Esta observação é consistente com os resultados relatados na literatura [31], [32], na sequência cruzada validar o conteúdo da ontologia.

Top 10 hits no fim da contagem decrescente são exibidos. A consulta SPARQL para gerar esse número pode ser visualizado e excuted a partir do navegador ProKinO, selecionando “Consulta 6” sob a guia “Consultas de Exemplo” na página principal.

Consulta 3.

consulta 2 (acima) pode ser mais refinado para obter hipóteses testáveis ​​sobre mutações cancerígenas. Por exemplo, as consultas solicitando características funcionais e localização sub-domínio para

ABL1

mutações associadas em

neoplasia hematopoiética

revelou que

Y253F

está localizado no funcionalmente importante

Glycine rica

loop (Sub-domínio I; Tabela S5), e mudou a propriedade resíduos “

fosfotirosina

“. Com esta informação, pode-se formular uma hipótese testável que “

Y253F

mutação contribui para anormal

ABL1

funções alterando o estado de fosforilação da rica circuito glicina”.

além das consultas descritas acima, formulamos várias consultas adicionais sobre ProKinO. Os resultados obtidos com estas consultas são fornecidos como figuras complementares (ver figuras S2, S3, S4, S5, S6, S7, S8, S9). A SPARQL consulta em si são fornecidos na Figura S10.

Future Directions

ProKinO é uma ontologia de termos e relacionamentos que capturam o estado do conhecimento sobre a família da proteína quinase. Representação do conhecimento proteína quinase na forma de ontologia permite a análise de mineração e sistemas de nível eficaz dos dados da proteína quinase, como demonstrado através de várias consultas SPARQL. Para permitir a navegação e análise integrativa de dados ontologia, um navegador ontologia foi desenvolvida. O navegador pode ser acessado a partir https://vulcan.cs.uga.edu/prokino.

Enquanto a versão atual do ProKinO centra-se em grande parte em genes da proteína quinase humanos, informações sobre outros organismos modelo pode ser incorporado em ProKinO através da adição de novas classes e propriedades de dados no esquema ontologia. Da mesma forma, a riqueza de informações geradas em substratos de proteína quinase através de dados fosfoazotados proteômica de alto rendimento podem ser incorporados para integrar dados de câncer com dados de proteômica. Além disso, prevemos ProKinO para ser útil no fornecimento de anotação consistente de mutações identificadas em estudos do genoma do câncer de sequenciamento.

Usando consultas específicas que têm demonstrado como os dados na ontologia pode ser usado para gerar novas hipóteses sobre o estrutural e funcional impacto das mutações. Em particular, a observação de que cerca de 288 mutações mapear para apenas oito quinases em

neoplasia hematopoiética

é novo e oferece novas hipóteses para estudos de acompanhamento. Do mesmo modo, a previsão de que

Y253F

mutação altera o estado de fosforilação do laço rico em glicina ABL tirosina quinase pode ser testada experimentalmente.

Deixe uma resposta