PLOS ONE: Identificação de cancro do fígado e suas relações com Doenças, drogas e Genes: Uma Abordagem literatura baseada

Abstract

Em biomedicina, a literatura científica é uma fonte valiosa para a descoberta de conhecimento. conhecimentos de mineração de dados textuais tornou-se uma tarefa cada vez mais importantes como o volume de literatura científica está crescendo sem precedentes. Neste trabalho, propomos um enquadramento para examinar uma determinada doença com base nas informações existentes fornecidos pela literatura científica. entidades relacionadas com a doença que incluem doenças, fármacos, e os genes são sistematicamente extraídos e analisados ​​usando uma abordagem baseada em rede de três níveis. Uma rede de papel-entidade e uma rede de co-ocorrência da entidade (nível macro) são explorados e utilizados para construir redes específicas de seis entidade (meso-nível). doenças importantes, drogas e genes, bem como as relações da entidade salientes (micro-nível) são identificados a partir dessas redes. Os resultados obtidos a partir da mineração de literatura baseada na literatura podem servir para auxiliar aplicações clínicas

Citation:. Zhu Y, Song M, Yan E (2016) Identificação de cancro do fígado e suas relações com Doenças, drogas e Genes: A literatura-Baseado Approach. PLoS ONE 11 (5): e0156091. doi: 10.1371 /journal.pone.0156091

editor: Ying Xu, Universidade da Geórgia, Estados Unidos

Recebido: 24 de agosto de 2015; Aceito: 09 de maio de 2016; Publicado em: 19 de maio de 2016

Direitos de autor: © 2016 Zhu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Data Availability:. Todos relevante os dados estão dentro do papel e seus arquivos de suporte de informação: S1 arquivo. tabela de entidade para genes, drogas e doenças. Ficheiro S2. tabela de associação de entidade papel

Financiamento:. Este projecto foi possível, em parte pelo Instituto de Museu e Biblioteca Serviços (número Grant Award: RE-07-15-0060-15), para o projeto intitulado “Construindo um quadro de pesquisa baseada em entidade para melhorar os serviços digitais em descoberta de conhecimento e entrega “. Além disso, o projecto foi apoiado em parte pelo Projeto de Pesquisa Bio-Sinergia (NRF-2013M3A9C4078138) do Ministério da Ciência, TIC e Planejamento Futuro através da Fundação Nacional de Pesquisa

Conflito de interesses:. Os autores declararam que existem interesses não há concorrentes.

Introdução

a literatura científica é a principal fonte para os estudiosos para se comunicar com os outros, bem como o público. Estudiosos publicar trabalhos e resultados de pesquisa presentes em conferências para transmitir idéias e difundir conhecimentos para a comunidade. Como a acessibilidade em linha de literatura acadêmica é reforçada, a taxa de crescimento da literatura acadêmica é sem precedentes alta. Um crescimento linear de publicações foi reportado para os campos tais como bioinformática [1]. Uma preocupação, como resultado de tais proliferações é o consumo desfasado da literatura científica. Para aliviar essa tensão, os estudiosos tentaram aplicar uma variedade de técnicas de mineração de texto, tais como a extração de informação [2], modelagem tópico [3], e sumarização documento [4], para destilar sistematicamente o conhecimento a partir de grandes corpora literatura científica.

em biomedicina, a literatura científica, principalmente a partir de PubMed [5] -a portal livre a publicações e citações no Medline, tem sido empregado em relação a técnicas de mineração de texto para ajudar na pesquisa biomédica. O foco é tipicamente às relações extrato entre entidades biomédicas, tais como associações de proteína de doenças [6], as relações genéticas [7], as relações gene com a droga [8, 9, 10], relações gene da doença [11, 12], e proteínas interacções -protein [13, 14]. Al-Mubaid Singh [6] aplicada uma abordagem de mineração de texto aos resumos Medline para descobrir associação proteína-doença e confirmou que a abordagem baseada em literatura é capaz de descobrir associações entre proteínas e doenças. Na mesma linha, Stephens e seus colegas [7] propôs um método para detectar as relações genéticas de resumos Medline e destacou a força dos métodos baseados em literatura, que é a capacidade de analisar grandes volumes de dados em um tempo limitado. Chang Altman [8] propôs um método para extrair as relações gene-droga da literatura e mostrou a eficácia de um método de co-ocorrência de extrair relações gene com a droga em artigos publicados (no nível de precisão de 78%). Da mesma forma, Chun e colegas [11] propôs um sistema que usa um algoritmo de aprendizado de máquina co-base-ocorrência para extrair automaticamente as relações entre genes e as relações de Medline, e enfatizou a importância de dicionários de genes e doenças. Temkin Gilder [13] propôs um método que é utilizado gramática livre de contexto para extrair proteínas interacções de textos não estruturados. Eles relataram que o método proposto registou uma taxa de precisão de 70% para a extracção de interacções entre proteínas, genes e moléculas pequenas (PGSM). Além de identificação relação, os estudos também têm incidido sobre entidades extrair tais como genes [15] e entidades químicas [16]. Stapley Benoit [15] genes extraídos da literatura por meio de informações co-ocorrência gene curadoria em bancos de dados genômicos para melhorar a recuperação de informação biomédica. Grego Couto [16] aplicado um método à base de validação semelhança semântica para melhorar a identificação de entidades químicas. Eles mostraram que o método pode ser usado como um método para auxiliar complementar outros métodos de identificação da entidade sem filtrações entidade redundantes. levantamentos detalhados sobre a mineração de texto e aplicações são disponibilizadas em Cohen Hersh [17], Zweigenbaum et al., [18] e Simpson e Demner-Fushman [19]. entidades extraídas e as relações de entidade podem ser analisados ​​usando técnicas como a centralidade da rede [20], a análise estatística [21], e análise de citação [22].

É evidente a partir desses estudos que a compreensão das várias relações entre biomédica entidades é uma pedra angular, porque essas entidades são melhor compreendidos por sondagem em suas interações com os outros. Há uma tendência emergente da aplicação de técnicas bibliométricos para estudar entidades biomédicas, cunhada pelo termo “Entitymetrics” [23]. Em Entitymetrics, bibliometria-driven entidade aborda os problemas de transferência de conhecimento e descoberta em três níveis diferentes: micro, meso e macro-nível. Enquanto muitos estudos citados examinada principalmente as formas de descobrir entidades biomédicas e das relações entidade a partir de literatura científica, não carece de uma investigação integrada que utiliza entidades extraídas e as relações da entidade para facilitar a descoberta de informações baseadas em literatura. Portanto, o objetivo deste estudo é preencher a lacuna entre as técnicas da entidade e extracção de relações entre entidades e a aplicação destas técnicas para obter insights sobre literatura científica.

Especificamente, as duas seguintes questões de pesquisa será investigada : 1) em biomedicina, dado um conjunto de literatura científica, o que entidades biomédicas ter um impacto maior sobre os outros e desta forma deve ser mais estudada? 2) Quais pares de entidades têm o potencial de ter relações significativas para a descoberta de informação, entidade e recomendação de relações entre entidades, e outros recuperação e aplicações clínicas? Neste sentido, os nossos servidores de estudo como uma ponte que liga estudos anteriores sobre a mineração de texto e aplicações com aplicações práticas para ajudar a investigação mais focalizada através de entidades e suas relações da mais alta importância. Para atingir este objetivo, propomos um quadro para a identificação de doenças importantes, drogas e genes para uma determinada doença. A estrutura compreende um método de extração de entidade e uma abordagem baseada em rede de três níveis para a análise de um conjunto de dados baseados em literatura.

O cancro é a principal causa de morte no mundo, entre as quais, cancro do fígado é a segunda principal causa de mortes por câncer [24]. Como muitos como 564 mil pessoas são diagnosticadas com câncer de fígado a cada ano, ea tendência tende a continuar por várias décadas em vários países desenvolvidos, como os Estados Unidos [25]. Sabe-se que a maioria dos casos de cancro do fígado iniciada a partir de outras partes do corpo e vários tipos de tumores podem crescer no fígado fígado porque compreende diferentes tipos de células [26]. Assim, neste amplo escopo de estudo de câncer de fígado baseado em literatura, com identificação entidades e relações importantes entre as entidades que são altamente relevantes para o câncer de fígado é visto como benéfico. A este respeito, podemos aplicar os métodos propostos para um conjunto de dados publicação para compreender a doença usando esta rica fonte de literatura científica.

dados e métodos

Dados

“Cancro do fígado “foi seleccionado como o termo semente para consultar PubMed. Foram recuperados 169,774 registros PubMed e baixado-los em formato XML. Nós, então, analisados ​​os registros baixado para extrair títulos e resumos para extração de entidade através da implementação de um módulo de análise SAX. O nosso conjunto de dados compreende 16,568 entidades (S1 arquivo. Entidades) e 1,023,204 entidade da entidade e do papel da entidade relações (S2 arquivo. Relações Papel-entidade). A Tabela 1 mostra a percentagem de cada tipo de entidades entre todos os 16,568 entidades. O processo de extração de entidade a partir dos registros baixados serão discutidos na seção método.

Visão Geral dos Métodos

Doença, drogas e entidades de genes foram extraídos de artigos obtidos a partir PubMed. entidades extraídos são usadas para construir uma rede de papel-entidade, bem como uma rede de co-ocorrência da entidade. Estas redes de nível macro foram ainda decomposto em três tipos de redes de nível meso (ou seja, redes de doenças, redes de drogas e redes de genes). Estas redes entidade específica são empregadas para investigar doenças importantes, drogas e genes, bem como as relações mais importantes dentro de cada grupo de entidades. Fig 1 mostra o diagrama esquemático para o método propor.

Nós explicamos duas etapas principais do método de análise proposto, extração de informação e de rede, nas seguintes subseções.

Extração de Informações.

Nós implementado um módulo de extração de entidade, estendendo Stanford CoreNLP [27]. Stanford CoreNLP fornece um conjunto de ferramentas de processamento de linguagem natural (NLP) de análise que pode levar os textos em língua inglesa e executar uma variedade de tarefas de PNL, como a separação frase, marcação Parte de-Speech (POS), e análise de dependência. O módulo de extração de entidade passou pelas quatro etapas seguintes. O primeiro passo é dividir um registro em frases. Utilizou-se o pipe “ssplit” fornecido em Stanford CoreNLP. O segundo passo é a construção de três dicionários para doenças, genes e drogas. Utilizou-se o banco de dados do CTD (https://www.ctdbase.org/) para criar os três dicionários. No total, o dicionário da droga compreende 151,729 nomes de fármacos; o dicionário doença compreende 11,937 nomes de doenças; e o dicionário gene compreende 297,514 nomes de genes. O terceiro passo é incorporar PubTator [28] para fortalecer os dicionários introduzido. Foi realizado um teste preliminar de extração de bio-entidades apenas com dicionários baseados em CTD e descobriu que a qualidade da extração de entidade não foi satisfatória. Assim, nós decidimos adicionar PubTator para fortalecer ainda mais os dicionários. PubTator, desenvolvido para cumprir duas tarefas, documento curadoria de triagem e bio-conceito de anotação, contém anotações bio-entidade para várias entidades, tais como produtos químicos, doenças, genes, mutações, e espécies. Fora destes tipos, estamos interessados ​​apenas em tipos de doença, de drogas e de genes. Pubtator contém genes 16,582,474, 26,788,622 24,915,999 doenças, e drogas. Quando se fundiu três dicionários CTD com três dicionários PubTator para drogas, doença e gene, verificamos se há uma entrada de dicionário comum compartilhada em ambos os dicionários. Se encontrado, só manteve uma entrada. Este duplicados passo eliminação resulta em 25,053,123 nomes de medicamentos para o dicionário de drogas, 26,791,436 nomes de doenças para o dicionário doença e 16,761,566 nomes de genes para o dicionário gene. O quarto passo é combinar frases indexado aos três dicionários. Nesta etapa, foram empregados os seguintes três sub-etapas: tokenization, lematização, e normalização

Tokenization.. Foi utilizada a técnica tokenization Stanford PTBTokenizer [29]. PTBTokenizer é projetado para ser um jejum tokenizer, baseado em regras para estar em conformidade com as convenções tokenization Penn Treebank [29].

lematização. Utilizou-se a técnica lematização que está disponível no pacote de Stanford CoreNLP. Ele fornece uma análise morfológica completo para a identificação precisa do lema para cada palavra. Lematização é semelhante à palavra decorrentes, mas ao invés de produzir uma haste da palavra, ele substitui o sufixo para obter o formulário palavra normalizada.

A normalização. Foi utilizada a técnica de cadeia normalização para reduzir a variação de cordas de maiúsculas e minúsculas e caracteres especiais, incluindo +, *,; e _. Strings com maiúsculas são alterados para aqueles com letras minúsculas, e /ou os caracteres especiais nomeados são removidos todos os textos de entrada e dados de dicionário. No caso de o caractere especial ‘-‘.., Ele é substituído por espaços em branco, permitindo que para os padrões de nome de entidade gerais

Análise de Redes

A análise de rede é composta por seis etapas (Fig 2) : 1) a construção de uma rede de papel-entidade; 2) a identificação das principais entidades; 3) a construção de uma rede de co-ocorrência da entidade; 4) a identificação de entidades altamente co-ocorreu com os principais entidades; 5) a construção de redes específicas da entidade (PageRank- e à base de intermediação); e 6) a exploração de redes específicas da entidade. Estes passos são elaborados nos parágrafos seguintes.

Uma rede de papel entidade foi construído usando as entidades extraídos. É uma rede heterogénea, não ponderada que contém quatro tipos de nós: papéis, doenças, fármacos e genes. A rede utiliza as relações entre papéis e entidades de modo que há uma vantagem, se um papel inclui uma entidade (isto é, uma doença, drogas, ou gene). A rede de papel entidade constitui a base para a identificação de entidades importantes através de investigações topológicas. Duas medidas baseadas em rede, PageRank e centralidade betweenness, foram usadas para identificar entidades importantes desta rede. PageRank é um algoritmo usado para classificar as páginas web de acordo com o impacto da inlinks [30]. Entidades classificados altamente pelos PageRank são aqueles com maior impacto. Betweenness central é um indicador de medição da influência de nós em termos da capacidade para transferir informação de uma rede [31]. Assim, com um nó central betweenness alta significa que desempenha um papel importante na transferência de informação para os outros. Na rede de papel-entidade, entidades com um papel central elevado betweenness desempenhar um papel-chave no conjunto da rede de ligação por outras entidades. Estes dois algoritmos ter sido aplicada a um número de áreas para identificar artefactos e agentes importantes. Por exemplo, Zhu Yan [32] aplicada PageRank para identificar subcampo importante dentro ciência da computação para entender seus padrões de difusão de conhecimento; Jing Baluja [33] aplicada PageRank para recuperar imagens altamente relevantes em uma pesquisa de imagens. Da mesma forma, betweenness central foi empregue para identificar os nós importantes para resolver o problema do controlo de rede em redes de comunicação [34]; Foi também aplicado a uma rede aliança para explorar novas tecnologias [35].

Uma rede de co-ocorrência foi então construído a partir da rede de papel-entidade. A rede de co-ocorrência é uma rede heterogénea, ponderada compreende doenças, fármacos e genes. relações de papel da entidade foram utilizados para calcular os valores de co-ocorrência. Ou seja, se dois ou mais entidades co-ocorreram dentro de um documento, o número de co-ocorrência foi gravado e tratado como o peso da rede de co-ocorrência da entidade. redes de co-ocorrência têm sido amplamente estudados [36, 37], com base na noção de que as entidades têm fortes interações com os outros tendem a co-ocorrem com frequência. Assim, as relações de co-ocorrência são uma característica importante para examinar as relações entre entidade.

Em uma rede de co-ocorrência da entidade, doenças que altamente co-ocorreram com doenças principais identificados a partir da rede de papel da entidade foram então extraídas . Porque nós temos dois conjuntos de doenças principais identificados separadamente do PageRank e centralidade betweenness, dois conjuntos de dados específicos da doença foram coletadas. Mais quatro conjuntos de dados (isto é, as drogas e genes) foram também construídas separadamente utilizando o mesmo método. Assim, cada um dos seis conjuntos de dados inclui as principais entidades e entidades que altamente co-ocorreram com estas entidades topo. Os seis conjuntos de dados foram utilizados para construir seis redes homogéneos (isto é, duas redes de doenças (baseado no PageRank e betweenness baseado no central), duas redes de drogas, e duas redes de genes), reservando o valor de co-ocorrência como peso ligação. Estes seis redes são as redes transformadas da rede de co-entidade ocorrência anterior, incluindo apenas um tipo de entidades bem como um pequeno conjunto de entidades importantes. As redes entidade específica são construídos para obter uma visão condensada e significativa da doença semente. Em cada uma das seis redes de entidade, que também extraído pares entidade altamente co-ocorreram. Como cada tipo de entidade está associada a redes específicas duas entidades (PageRank baseia-e de base centralidade betweenness), foram identificados dois conjuntos de pares dentro de um tipo de entidade.

Resultados

Nesta seção, nós sequencialmente relatar doenças importantes, drogas e entidades, bem como pares importantes de entidades na área de pesquisa de câncer de fígado.

entidades importantes

a Tabela 2 mostra dois conjuntos de doença top 10, drogas e genes: um baseado no PageRank e outro baseado em betweenness. Discutimos estas entidades importantes nas três subseções seguintes.

Doenças.

Como mostrado na Tabela 2, três doenças (ie, tumor, câncer e hepatoma) apareceram em ambas as listas . carcinoma hepatocelular, HCC, e hepatoma denotar o mesmo conceito e assim fazer cirrose e cirrose hepática. O carcinoma hepatocelular é um tipo comum de cancro do fígado causada por cirrose na maioria dos casos. A cirrose cirrose /fígado pode ser causada por hepatite [38]. Compare com o PageRank, betweenness centralidade inclui termos mais específicos (ie, autossômica recessiva, desordem hereditária, intra-hepática e cholangiocarcinoma extra-hepática, e CRLM e doença hepática adicional) e termos que não podem ser facilmente associados com o cancro do fígado, como tireotoxicose, disfunção mitocondrial e HPV. conexões estas “doenças de câncer de fígado pode ser os únicos que têm o potencial de ser mais compreendido.

Drugs.

Ao contrário de doenças, apenas um medicamento (ou seja, tirosina) apareceram em ambas as listas. inibidor da tirosina ou da tirosina quinase (TKI) é um medicamento utilizado para tratar o cancro do fígado através da inibição da tirosina-quinases que são enzimas que são usadas pelas células para transmitir sinais de crescimento e dividindo [39, 40]. Trastuzumab é utilizado para tratar o cancro da mama e tumores malignos [41] e folinato de cálcio é usado para reduzir os efeitos colaterais provocados pela utilização de alguns medicamentos anti-cancro [42]. Betweenness centralidade classifica compostos químicos altamente tais como metallocorrole, [11C] CH3OTf, 3-metilcolantreno, CBD (canabidiol) e dietilnitrosamina. Damos s breve visão para algumas drogas importantes nesta seção

Cisplatina:.. A cisplatina é usado para tratar vários tipos de câncer, incluindo câncer de fígado [43]

Glucose: As células do fígado são conhecidos por produzir glicose que ajuda humana manter os níveis de açúcar no sangue saudáveis. Se essas células se tornam cancerosas, em seguida, eles perdem a capacidade e isso faz com que as células tumorais se proliferam [44]

5-FU:.. 5-fluorouracil é uma droga usada para tratar câncer [45]

Glutationa: glutationa, também conhecida como gama-glutamil, é uma substância contida nas células. Ele é levado para desintoxicar e prevenir doenças cardíacas, vários tipos de câncer, etc. [46].

Além desses medicamentos, alguns elementos básicos, tais como oxigênio, aminoácido, a tirosina (um dos 22 aminoácidos ácidos) são também altamente classificados por PageRank. Estes elementos têm a capacidade de estimular as funções do corpo e tecidos do corpo de reparação.

Genes.

Ao contrário de doenças e medicamentos, duas listas na Tabela 2 não compartilham qualquer gene comum. Porque os genes são entidades mais granular do que doenças e drogas, eles não podem dizer respeito exclusivamente ao câncer de fígado. Os leitores podem visitar GeneCards (https://www.genecards.org), um banco de dados de genes humanos, para mais informações sobre estes genes.

características da rede de Entidade Redes

Principais entidades apresentados na Tabela 2 foram utilizados para identificação de outras entidades que altamente co-ocorreram com estas entidades em redes de co-ocorrência entidade. Em seguida, estas entidades completamente formam duas redes de doenças (baseado no PageRank e betweenness baseado no central), duas redes de drogas, e duas redes de genes, identificados a partir dos quais nós superiores pares de doenças, fármacos e genes. A Tabela 3 mostra as estatísticas de cada rede.

Como mostrado na Tabela 3, as redes baseadas em PageRank têm graus médios mais elevados, bem como graus médios ponderados. Isso indica que as entidades em redes baseadas em PageRank interagir mais ativamente com o outro. Para o comprimento de caminho médio, cada rede possui um comprimento médio da via semelhante (isto é, cerca de 3). Todas as redes são escassas, com densidade gráfico inferior a 0,1. A modularidade é usado para medir a probabilidade de que uma rede pode ser dividida em comunidades [47]. redes de doenças têm modularidade menor do que as redes de drogas e genes. Isto é porque as doenças geralmente interagir com muitas outras doenças. Enquanto as redes baseadas em centralidade betweenness ter mais comunidades do que as redes baseadas em PageRank, a rede doença à base de PageRank só tem duas comunidades, o que é muito menor do que o número mínimo de comunidades de outras redes. rede de gene baseada em centralidade betweenness registrou um coeficiente de agrupamento média de zero. Isto sugere que não há nenhum triângulo nesta rede, como genes apresentados na Tabela 2 (betweenness centralidade baseado em) têm características bastante distintas.

Pairs saliente de Doenças, drogas e Genes

Tabela 4 mostra altamente pares de doenças, fármacos, e genes co-ocorreram. Estes pares foram divididos em três grupos com base no número de co-ocorrência. Discutimos esses pares de entidades importantes nas três subseções seguintes.

Doenças.

redes de doenças baseada centralidade à base de PageRank e intermediação são visualizados em etiquetas Fig 3. Nó são proporcionais grau ponderada e a largura das ligações são proporcionais ao número de co-ocorrência entre duas doenças.

baseada PageRank (a) e intermediação baseada centralidade (b) redes de doenças.

A entidade mais importante na Figura 3 (A) é o tumor. Tumor altamente co-ocorreram com carcinoma hepatocelular, carcinoma hepatocelular, cancro, e de hepatoma. doenças importantes na Fig 3 (A) são geralmente as mesmas doenças que são altamente classificados por PageRank na Tabela 2.

Doenças na figura 3 (B) tendem a co-ocorrem com pouca freqüência com o outro, que está em contraste com a rede de uma doença à base PageRank. Uma possível explicação é que as doenças superior com centralidade alta betweenness não foram estudados muito em papéis; Assim, eles não co-ocorrem com frequência com outras doenças.

Seis pares de doenças (ou seja, carcinoma hepatocelular tumor, tumor-HCC, metástase de tumor de fígado, câncer de-HCC, tumor de metástases, e hepatoma -hepatitis B) apareceram em ambas as listas. Relações destas doenças são auto-explicativos, provavelmente, com a exceção de “O câncer de hepatoma-de mama”. Descobertas recentes descobriram que o cancro da mama, semelhante ao câncer, como câncer de cólon, câncer de bexiga e câncer de rim, é um dos tipos de câncer que pode se espalhar para os fígados [48].

Drugs.

Figura 4 mostra dois tipos de redes de drogas construídos a partir da rede de papel-entidade e a rede de co-ocorrência da entidade.

à base de PageRank (a) e (b) à base de redes de drogas centralidade betweenness.

Dez entidades mais visíveis mostrados na figura 4 (a) são exatamente o mesmo que o top 10 entidades classificados por PageRank na Tabela 2, enquanto o nível de visibilidade é diferente.

Duas drogas importantes na Fig 4 (B) são tirosina e dietilnitrosamina. Tirosina, tal como mencionado na secção anterior, é utilizado para tratar o cancro do fígado através da inibição da tirosina-quinases [36]. Dietilnitrosamina, o segundo classificado, co-ocorreu 392 vezes com outras drogas. O status de dietilnitrosamina é mais aparente na rede específica de drogas (o segundo classificado) do que na rede de papel-entidade (classificada como a 10ª). Este achado tem apoiado a necessidade de construir específicos, tais entidade redes, ao fazer isso, somos capazes de ganhar a compreensão mais granular da interatividade de entidades que podem ser negligenciados na rede global.

Top 15 pares de droga estão mostrado na Tabela 4. dois pares (ou seja, tirosina-serina e tirosina-imatinib) são mostrados em ambos PageRank- e listas baseadas centralidade betweenness. Ambos tirosina e serina pertencem aos mesmos aminoácidos proteingenic Group- que são blocos de construção das proteínas [49]. Imatinib é um tipo de inibidor usado tyrpsine-quinase para o tratamento de cancros. Na lista de centralidade betweenness, não há par ocorreram mais de 100 vezes.

Relações apresentados na Tabela 4 foram examinados por referência a recursos on-line, incluindo WebMD (https://www.webmd.com) e Drogas. com (https://www.drugs.com). Estes sites fornecem informações detalhadas sobre a droga, bem como serviços verificador de interação medicamentosa. Relações que foram mencionados pelos dois recursos on-line foram ousados-enfrentado na Tabela 4. Apenas duas relações (ou seja, bilirrubina-aspartato e tirosina-serina) não foram confirmados na lista com base em PageRank, enquanto na lista baseada na centralidade betweenness, duas relações (ou seja, gama-glutamil-glutamil-tirosina e de imatinib) foram confirmadas. Assim, a abordagem baseada em literatura é uma forma valiosa para ajudar ensaios clínicos.

Genes.

Figura 5 ilustra duas redes específicas de genes construídos a partir de uma coleção dos melhores genes e dos genes que ocorreu co-altamente com esses genes.

baseada PageRank (a) e intermediação baseada centralidade (b) redes de genes.

rede gene à base de centralidade betweenness inclui 47 genes significativos, que tem menos genes do que aquela baseada em PageRank, que tem 67 genes. Uma característica da Figura 5 (B) é que a maioria dos genes de co-ocorrido menos de cinco vezes com outros genes. Isto sugere que eles não foram amplamente estudados na literatura anterior e interações entre esses genes e câncer de fígado pode precisar de ser investigado.

A Tabela 4 mostra principais pares de 15 genes identificados a partir do gene à base de centralidade PageRank- e betweenness rede. Todos os pares na lista de centralidade betweenness ocorreu menos de 50 vezes. Investigar as interações entre doenças e genes pode ser mais difícil do que olhar para as relações entre doenças e doenças /drogas porque genes são entidades mais granulares e pode ativa ou latente referem-se a uma série de doenças ou drogas. Neste sentido, as interações apresentados neste estudo podem ser utilizadas para iniciar uma investigação significativa.

Para examinar as relações genéticas em Tabela 4, referenciado recursos on-line, incluindo BioGRID (https://www.thebiogrid.org), Biograph (https://www.biograph.be), CTD (https://www.ctdbase.org) e GeneCards (https://www.genecards.org). BioGRID confirmou três relações (isto é, p53-Bcl-2, Bax-p53, e histona HDAC), Biogr confirmou uma relação (isto é, p53-p21), e confirmou CTD uma relação (isto é, insulina-glucagon). As relações que foram confirmados por estes recursos online foram a negrito na Tabela 4. Ao contrário de doenças e de drogas, um número de relações de genes da Tabela 4 não foram confirmados por ensaios clínicos. Este é provavelmente devido ao grande volume de genes e suas relações que podem estar relacionados ao câncer de fígado.

Discussão e Conclusões

Neste estudo, propusemos uma abordagem baseada na literatura para identificar doença- entidades relacionadas, que incluem doenças, drogas e genes para câncer de fígado. Uma série de abordagens baseadas em rede foram aplicados para identificar entidades importantes entre as entidades extraídos. Principais doenças, fármacos, e os genes foram identificados por duas medidas distintas e foram obtidos desta forma dois grupos de entidades. Um grupo, formado com base em entidades que têm as maiores pontuações PageRank, inclui entidades que ganhou popularidade e foram amplamente investigados na literatura. Entidades incluídos neste grupo são importantes para a compreensão das doenças. O outro grupo, formado com base em entidades que têm a maior centralidade betweenness, inclui entidades que desempenharam papéis-chave em toda a rede em conectar outras entidades. Entidades neste grupo, possivelmente, possuem importância topológica em estudar a doença dada. Seis redes específicas da entidade foram construídos através da combinação da rede de co-ocorrência da entidade e as entidades superiores identificados para descobrir as relações entidade salientes. Uma parcela das relações entidade descobertos foi verificada por meio de ensaios clínicos

Foram obtidos Principais conclusões: 1.) PageRank e centralidade betweenness são complementares na identificação de entidades importantes. Como PageRank identifica entidades populares, enquanto betweenness centralidade identifica entidades influentes, o uso combinatória dos dois é uma forma razoável e eficaz para selecionar e examinar entidades importantes; 2) o uso de integração de redes globais e regionais efetivamente identifica entidades globais, bem como entidades que são importantes, mas não perceptível na topologia global. redes regionais tornam possível identificar pares importantes de entidades de um grande volume de ligações em redes globais; 3) doenças, drogas e genes apresentam características diferentes na identificação de entidades e pares de entidades que se relacionam com câncer de fígado importantes. doenças identificadas e pares de doenças têm a maior familiaridade enquanto a interpretação de medicamentos e genes identificados impõe mais desafios como mostrado na validação cruzada dos resultados com recursos externos. Isto implica um aumento do nível de exigência na pesquisa bio-entidade como as entidades estudadas tornam-se mais granular. Assim, a pesquisa similar em um nível mais detalhado é promissor e crítica no avanço da investigação biomédica à base de literatura; e 4) algumas relações identificadas pelo método proposto tem uma alta consistência com ensaios clínicos (ou seja, relações de drogas), enquanto alguns não (ou seja, as relações de genes). relações não confirmados não significam relações sem importância; em vez disso, eles se destacam entre muitos outros, porque eles significam relações potencialmente importantes que possam ser validadas em pesquisas futuras. Pesquisadores e profissionais podem levar os resultados da abordagem baseada em literatura como um ponto de iniciação de sua pesquisa. O método proposto pode servir para ajudar os ensaios clínicos para identificar as relações de entidades importantes.

Este estudo tem algumas limitações. Ligações entre entidades foram baseadas em relações de co-ocorrência. Co-ocorrência não pode demonstrar diretamente interações reais entre entidades.

Deixe uma resposta