PLOS ONE: Text Mining for Revisão da Literatura e Descoberta de Conhecimento em Avaliação de Risco do Câncer e Research

Abstract

Research in text mining biomédica está começando a produzir tecnologia que pode tornar as informações na literatura biomédica mais acessível para bio-cientistas . Um dos desafios atuais é integrar e aperfeiçoar esta tecnologia para apoiar reais tarefas científicas na área da biomedicina, e avaliar a sua utilidade no contexto de tais tarefas. Descrevemos CARANGUEJO – uma ferramenta de mineração de textos totalmente integrado, concebido para apoiar a avaliação química risco para a saúde. Esta tarefa é complexa e, requerendo uma revisão completa dos dados científicos existentes em uma determinada substância química demorado. Cobrindo humana, animal, dados mecanicista celular e outros de vários campos da biomedicina, isso é altamente variada e, portanto, difícil de colher a partir de bases de dados da literatura através de meios manuais. Nossa ferramenta automatiza o processo de extração de dados científicos relevantes na literatura publicada e classificando-a de acordo com várias dimensões qualitativas. Desenvolvido em estreita colaboração com os avaliadores de risco, a ferramenta permite navegar no conjunto de dados classificados de várias maneiras e compartilhar os dados com outros usuários. Nós apresentamos uma avaliação direta e baseada no usuário que mostra que a tecnologia integrada na ferramenta é altamente preciso, e relatar uma série de estudos de caso que demonstram como a ferramenta pode ser usada para apoiar descoberta científica na avaliação de risco do cancro e à investigação. Nosso trabalho demonstra a utilidade de um gasoduto de mineração de texto para facilitar as tarefas de investigação complexas em biomedicina. Discutimos maior desenvolvimento e aplicação de nossa tecnologia para outros tipos de avaliação dos riscos químicos no futuro

Citation:. Korhonen A, Ó Séaghdha D, Silins I, Sun L, Högberg J, Stenius U (2012) Texto Mining para revisão da Literatura e Descoberta de Conhecimento em avaliação de Risco do Câncer e Pesquisa. PLoS ONE 7 (4): e33427. doi: 10.1371 /journal.pone.0033427

editor: Neil R. Smalheiser, da Universidade de Illinois-Chicago, Estados Unidos da América

Recebido: 25 de novembro de 2011; Aceito: 08 de fevereiro de 2012; Publicação: 12 de abril de 2012

Direitos de autor: © 2012 Korhonen et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. AK e DOS são suportados pela Engenharia e Ciências físicas Research Council (www.epsrc.ac.uk) EP concessão /G051070 /1 para AK. LS é apoiado por uma concessão de Dorothy Hodgkin Postgraduate. IS, EUA e JH são suportadas pelo Conselho de Pesquisa sueco (https://www.vr.se/). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

uma nova pesquisa em biomedicina depende de fazer uso eficiente do conhecimento científico existente – uma tarefa que bio-cientistas estão encontrando cada vez mais difícil. Dada a taxa de crescimento exponencial dupla de literatura biomédica nos últimos anos [1], há agora uma necessidade urgente de desenvolver uma tecnologia que pode tornar as informações na literatura mais acessível e útil para os cientistas. Tal tecnologia pode ser baseada na mineração de texto. Baseando-se em técnicas de processamento de linguagem natural, recuperação de informação e mineração de dados, mineração de texto pode recuperar automaticamente, extrair e descobrir novas informações, mesmo em grandes coleções de texto escrito. Embora ainda não pode substituir os humanos em tarefas complexas, pode permitir que os seres humanos para identificar e verificar informações necessárias na literatura de forma mais eficiente e descobrir informações relevantes obscurecida pelo volume de informação disponível.

Nos últimos anos, mineração de texto biomédica tem aumentou em popularidade. Técnicas foram desenvolvidas para auxiliar, por exemplo, a extração de documentos, bases de dados, dicionários, ontologias, resumos e informações específicas (por exemplo, as interações entre proteínas e genes, novas hipóteses de investigação) de literatura relevante [2] – [4]. A avaliação de tais técnicas revelou resultados promissores. No entanto, a maior parte da avaliação foi directa na natureza e empregou padrões de ouro pré-determinados. Há agora um reconhecimento geral da necessidade de mover a pesquisa de mineração de texto biomédica mais perto à prática: integrar a tecnologia para apoiar reais tarefas científicas (por exemplo, o processo de descoberta científica) e avaliar a sua utilidade no contexto de tais tarefas [3] [5].

Uma série de estudos têm respondido a esta necessidade de avaliação centrado no usuário, embora a realização de estudos de usuários ainda está longe de ser universal. Alguns estudos têm medido o grau em que semi-automação podem acelerar uma curadoria ou outro fluxo de trabalho [6] – [8]. Uma segunda vertente, mais estreitamente relacionado com o nosso trabalho, procura descobrir novas relações entre entidades biológicas que são suportados pelo mas não explicitadas na literatura [9] – [11]; por exemplo, a existência de uma relação conhecida entre uma doença e um gene e entre o mesmo gene e uma droga pode sugerir um papel para o medicamento no tratamento da doença. avaliação do usuário neste contexto consiste em comparar as relações propostas para hipóteses anteriormente sugeridas e fazer julgamentos qualitativos para saber se eles parecem oferecer direções frutíferas para futuras pesquisas. Nossos estudos de caso siga o mesmo modelo básico, embora a tarefa em mãos, exigindo análise sintética de resumos completos, é uma mais complexa do que classificar as relações entre entidade menciona.

Neste artigo apresentamos uma nova, totalmente integrado sistema de mineração de texto projetado para suportar a tarefa complexa e altamente dependente da literatura de avaliação química risco para a saúde. Esta tarefa é crítica porque os produtos químicos desempenham um papel importante na vida cotidiana e seus riscos potenciais para a saúde humana deve ser avaliada. Com milhares de produtos químicos introduzidos a cada ano, muitos países em todo o mundo estabeleceram leis cada vez mais rígidas que regem a sua produção e utilização. Por exemplo, o Registro União Europeia recente, avaliação, autorização e restrição (REACH) [12] exige que todos os produtos químicos fabricados ou importados em grande quantidade devem ser submetidos a avaliação de risco minuciosa.

A avaliação de um grande número de produtos químicos é mais fácil dizer do que fazer. Utilizando a metodologia atualmente disponível, leva até dois anos para avaliar um único produto químico [13]. Embora o desenvolvimento de um sistema completamente novo para testes de toxicidade pode ajudar a melhorar a eficiência da avaliação química a longo prazo [14], há uma necessidade urgente de melhorar o estado da arte no curto e médio prazo.

avaliação de risco Chemical é um processo complexo que consiste em várias etapas que o compõem. O primeiro componente principal é tipicamente uma extensa revisão e análise dos dados científicos disponíveis sobre o produto químico em questão. Esta avaliação incide sobre quaisquer dados de potencial relevância – não apenas os dados humanos, mas também animais, celulares (in vitro) e outros dados mecanicistas [15]. A fonte primária para esses dados são pares literatura científica revisada.

De acordo com um relatório recente, os avaliadores de risco encontrar recolha e análise da literatura proibitivamente demorado [16]. Isto não é surpreendente uma vez que as ciências biomédicas, que a avaliação de risco químico baseia-se em (epidemiologia, biologia celular e de pesquisa de câncer, entre muitos outros) estão a desenvolver mais rapidamente do que nunca. Este desenvolvimento pode ser observado através da análise do crescimento do MEDLINE (Medical análise da literatura e Retrieval System Online) – Biblioteca Nacional EUA de (NLM) premier base de dados bibliográfica de Medicina, que é um recurso significativo literatura empregada na avaliação atual risco químico. Em 2005, esta base de dados incluiu 13 milhões de referências. Hoje ela inclui mais de 18 milhões, com 2.000-4.000 referências adicionadas a MEDLINE a cada dia; Na verdade, o banco de dados está crescendo a uma taxa de dois exponencial [1]. Os dados para um único produto químico podem ser encontrados espalhados em milhares de artigos de jornal (por exemplo, MEDLINE inclui mais de 30.000 artigos para o cádmio).

Actualmente, os avaliadores de risco e os cientistas usam sistemas como o PubMed para reunir literatura relevante de bancos de dados . Estes sistemas de retornar uma lista de artigos de revistas em resposta a consultas baseadas em palavras-chave. No entanto, dada a grande variedade e complexidade dos dados científicos utilizados para a avaliação de risco, o número de palavras-chave, os seus sinónimos e combinações potenciais simplesmente excede o que os avaliadores de risco humanos podem razoavelmente memorizar e manusear. O que é essencialmente necessário é muita tecnologia mais poderoso que vai além da busca baseada em palavras – a tecnologia que categoriza e classifica vários dados científicos com base em sua relevância, faz ligações entre artigos de outra forma desconectados, e cria resumos, estatísticas, visualizações e novas hipóteses de a literatura científica, deixando os avaliadores de risco para explorar os dados estruturados resultantes. O trabalho aqui relatado compartilha alguns dos objetivos do projeto MEDLINE semântica [17], [18], em adição de uma “semântica” camada de processamento automático através da funcionalidade de recuperação baseada em palavras de PubMed ou um motor de busca similar. Acreditamos que o nosso trabalho é diferenciado do MEDLINE Semantic pelo nosso uso de métodos estatísticos de PNL, pelo foco em uma tarefa pouco explorado configuração com uma informação distinta precisa e por nosso foco em avaliação centrado no usuário.

Se um dedicado ferramenta de mineração de texto foi desenvolvido para avaliação de risco químico que poderia ser usado para identificar de forma eficaz, a minha, e classificar os dados científicos na literatura biomédica, bem como para descobrir novos padrões em dados classificados. Facilitar a avaliação em larga escala de dados existentes, tal ferramenta poderia oferecer os meios para melhorar a precisão, rigor e eficiência da avaliação de risco químico. A ferramenta também pode ser usada para apoiar a investigação científica nos domínios em que a avaliação de risco se baseia.

Em Korhonen et al. [16] demos o primeiro passo para o desenvolvimento da tecnologia de mineração de texto para a avaliação de risco químico, centrando-se na avaliação do risco de câncer. Nós introduzimos uma taxonomia básica, que abrange os principais tipos de evidência científica utilizados para determinar propriedades cancerígenas de produtos químicos, e uma abordagem de aprendizado de máquina supervisionado que pode ser usada para classificar os resumos Medline para aulas de taxonomia relevantes. A avaliação mostrou que a taxonomia é bem formada e que a abordagem de aprendizagem de máquina é bastante precisa. Embora o experimento foi pequeno em escala e foi realizada nenhuma avaliação da utilidade prática da tecnologia para a avaliação de risco da vida real, os resultados foram no entanto promissora

Nós tomamos esta linha de investigação consideravelmente mais longe e introduzir caranguejo. – uma ferramenta de mineração de textos totalmente integrado destinado a apoiar todo o processo de revisão da literatura e descoberta de conhecimento em avaliação de risco de câncer. Disponível para usuários finais através de uma interface Web on-line, que permite aceder a PubMed, download de resumos científicos sobre produtos químicos escolhidos, e classificá-los de acordo com uma extensa taxonomia usando a tecnologia de aprendizado de máquina supervisionado. A ferramenta permite navegar no conjunto de dados classificadas de várias maneiras e compartilhar os dados com outros usuários. Nós apresentamos tanto a avaliação direta e baseado em tarefas da tecnologia integrada na ferramenta, juntamente com uma série de estudos de caso que demonstram a utilidade da ferramenta no apoio à descoberta de conhecimento na avaliação de risco do cancro e à investigação.

Nossa pesquisa demonstra que um gasoduto de mineração de texto relativamente ambicioso que consiste em ambas as fases de recuperação e multi-classificação pode ser útil para tarefas de investigação complexas em biomedicina. Embora actualmente aplicável ao câncer, a ferramenta pode ser directamente adaptados para suportar a avaliação e estudo de outros importantes riscos de saúde relacionados com produtos químicos (por exemplo, alergia, asma, distúrbios reprodutivos, entre muitos outros).

Métodos

as três sub-seções a seguir descrevem os principais componentes do Caranguejo: a taxonomia de avaliação do risco de câncer, o corpus de resumos MEDLINE anotada de acordo com as classes de taxonomia e o classificador baseado em aprendizado de máquina. A sub-seção final apresenta a arquitetura geral da ferramenta CARANGUEJO juntamente com a interface do usuário.

Taxonomia

No coração do caranguejo é uma taxonomia desenvolvida por especialistas em pesquisa de câncer, que especifica científica tipos de dados de relevância para a avaliação do risco de câncer. Nós levamos a taxonomia de Korhonen et al. [16] como um ponto de partida e estendida e refinado de várias maneiras. A taxonomia resultante inclui tipos de dados mencionados no diretrizes de avaliação de risco de câncer publicamente disponíveis (por exemplo, as diretrizes da EPA dos EUA [15]), bem como dados adicionais, mais detalhadas e recentes descobertas durante a análise de especialistas da literatura de avaliação de risco.

A taxonomia tem duas partes principais. A primeira parte (mostrado na Figura 1) concentra-se em

Evidência Científica para Carcinogênico Atividade

. Ele tem cinco classes de nível superior, que representam diferentes tipos de evidências científicas:

estudo Humana /epidemiologia

,

estudo animal

,

experimentos com células

,

Estudo sobre micro- organismos

, e

sistemas subcelulares

. Alguns destes adicionalmente dividir em sub-classes; por exemplo,

Estudo Humano

tem cinco sub-classes, incluindo

relacionados ao tumor e

Polimorfismo

. Adotamos todas as classes de nível superior e a maioria das sub-classes propostas pela Korhonen et al. [16]

A segunda parte da taxonomia (mostrado na Figura 2) concentra-se em

Modo de ação

(MOA;. Ou seja, a sequência de eventos-chave que resultam na formação do câncer , por exemplo, mutagênese, aumento da proliferação celular e ativação do receptor), capturando a atual compreensão de diferentes processos que conduzem à carcinogênese. Pegamos o simples taxonomia MOA de Korhonen et al. [16], que distingue dois tipos vulgarmente utilizados MOA –

Genotóxico

(isto é, um agente cancerígeno liga-se ao ADN) e

não genotóxicos /indirecta genotóxico

(isto é, um carcinogénio não se liga ao ADN) – como um ponto de partida. Nós adicionamos quatro sub-classes sob o

Não-genotóxico /class

genotóxico indireta (

Co-iniciação

,

Promoção

,

Progressão Comprar e

Multifase

), na sequência da recentemente proposta de classificação MOA de Hattis et al. [19]. Cada uma destas classes é subdividida em sub-classes de acordo com os tipos de elementos que podem indicar o tipo MOA em questão. Por exemplo,

citotoxicidade

pode fornecer evidências para ambos

Promoção e

Multifase

não genotóxico MOAs.

A taxonomia resultante contém 47 aulas . Cada classe está associada a uma série de palavras-chave (e frases chave) que, quando encontrado na literatura, são bons indicadores para a presença do tipo de dados científicos em questão (por exemplo, o

A morte celular

classe no

MOA

parte da taxonomia inclui palavras-chave, tais como

apoptose

,

DNA fragmentação

,

caspase-9

,

BCL2,

bax

,

apoptossomo

,

morte celular programada

,

Fas

,

necrótica morte celular

, e

viabilidade

). A Figura 3 mostra palavras-chave representativos de cada classe no

Evidência Científica para Carcinogênico Atividade

ramo taxonomia. A Figura 4 apresenta exemplos de palavras-chave para o

MOA

ramo taxonomia. As palavras-chave exibidos foram selecionados a partir do corpus anotado descrito abaixo.

Devido ao rápido desenvolvimento da ciência uma taxonomia como esta nunca será completa. No entanto, ele pode ser estendido e atualizado facilmente por especialistas através da nossa ferramenta.

Annotated Corpus

O software de classificação CARANGUEJO requer como dados de formação de um corpus (ou seja, uma coleção) de resumos MEDLINE que foram classificadas manualmente de acordo com a taxonomia. A Korhonen et ai. [16] corpus foi criado selecionando oito produtos químicos que são (i) bem pesquisado usando uma ampla gama de testes científicos e que (ii) representam os dois mais utilizados MOAs (

genotóxico

e

não -genotoxic

): 1,3-butadieno, o benzo (a) pireno, dietilnitrosamina, estireno, clorofórmio, dietilestilbestrol, fumonisina B1 e fenobarbital. foram então identificados um conjunto de 15 revistas que são usados ​​com freqüência para a avaliação do risco de câncer e fornecer em conjunto uma boa cobertura sobre os diferentes tipos de evidências científicas relevantes para a tarefa (por exemplo Cancer Research, Carcinogênese, Environmental Health Perspectives, mutagênese, entre outros). A partir dessas revistas, todos os resumos retornados por PubMed para os anos de 1998 a 2008, que incluem um dos 8 produtos químicos foram baixadas (1297 abstracts no total). Cada resumo foi então examinado por um especialista em avaliação de risco de câncer e atribuídas a classes de taxonomia relevantes através de uma anotação palavra-chave. Uma ferramenta de anotação foi desenvolvido e utilizado neste trabalho (veja Korhonen et al [16] para mais detalhes.)

O conjunto de dados anotada está disponível sob uma licença Creative Commons Attribution Non-Commercial (Informações S1 e S2).; tanto quanto sabemos, esta é a primeira vez que um corpus de dados anotação risco químico tem sido acessível ao público.

Nós re-anotada o corpus de Korhonen et al. [16] usando nossa taxonomia e estendeu-se consideravelmente: foram selecionados doze produtos químicos adicionais (apresentados na Tabela 1) – os que coletivamente representam os tipos de evidências científicas e MOAs coberto por nossa taxonomia estendida. Os resumos retornados por uma pesquisa PubMed para estes produtos químicos (todos dos anos 1999-2009) foram baixados e anotado por avaliadores de risco do câncer utilizando a ferramenta de anotação de Korhonen et al. [16]. O corpus combinada resultante consiste de 3078 resumos MEDLINE anotados para 20 produtos químicos. O número total de resumos e palavras-chave anotados que pertencem a cada classe taxonomia é mostrado na Figura 5 (ver colunas 1-3). Nós podemos ver que 1292 resumos foram classificados de acordo com o

Evidência Científica para Carcinogênico Atividade

sub-taxonomia, enquanto 1.766 foram classificados de acordo com a taxonomia MOA. O número de resumos e palavras-chave individuais associados com as classes de alto nível é alto, mas ficar cada vez menor à medida que avançamos nos níveis mais profundos da taxonomia.

experimentos de classificação

Classificador

O classificador CARANGUEJO atribui resumos MEDLINE invisíveis para classes de taxonomia apropriados usando uma técnica de aprendizado de máquina supervisionado. A técnica não depende de palavras-chave pré-definidas, mas ele usa um conjunto de funcionalidades de documentos linguísticos (descrita abaixo) e as anotações corpus associados (descrito na seção acima) como dados de treinamento para alcançar o desempenho ideal.

Korhonen et al. [16] utilizou um conjunto de Support Vector Machine (SVM) classificadores [20], um para cada classe taxonomia, para decidir quais (se houver) aulas de taxonomia descrever o conteúdo de um resumo. Desde SVMs tiveram um bom desempenho em muitas tarefas de mineração de texto [2], [21] e uma vez que eles produziram resultados promissores em experimentos preliminares de Korhonen et al. [16] podemos usá-los também em nosso sistema. No entanto, nós introduzimos um modelo melhorado e recursos adicionais para obter um melhor desempenho na nossa tarefa.

Semelhante a outros classificadores bem conhecidas, tais como regressão logística ou o perceptron, SVMs separar um conjunto de dados de treinamento em duas classes, aprendendo a função de decisão que corresponde a uma combinação de valores de características e pesos-metragens. Para SVMs esta função pode ser escrita como: (1) onde é um vetor de pesos aprendeu com dados de treinamento e é uma função que mapeia datapoints a partir do espaço de entrada para um “espaço recurso” (potencialmente diferente). O algoritmo de treinamento SVM define o vetor de pesos em correspondência com o

max-margem

princípio, a escolha do limite que maximiza a separação entre classes. Muitas vezes, o mapeamento de espaço de características não necessita de ser calculada directamente como o seu efeito pode ser capturado por meio do uso de um

função núcleo

que compara dois pontos de dados; isto permite SVM para aprender limites de decisão não lineares, mantendo a eficiência computacional da classificação linear. Os livros [22], [23] fornecem visões gerais abrangentes de SVMs e de métodos do kernel em geral.

Uma função de kernel padrão é o produto escalar ou

do kernel linear

, que usamos em Korhonen et ai. [16] 🙁 2) Uma função alternativa do kernel, adequados para comparar as distribuições de probabilidade (ou vectores L1-normalizados), pode ser derivada a partir da divergência Jensen-Shannon (JSD) [24] por meio de um método proposto por Hein e Bousquet [25 ] 🙁 3) Ó Séaghdha e Copestake [26] demonstram que este

do kernel JSD

produz um desempenho consideravelmente melhor do que o kernel linear em uma série de tarefas de classificação no processamento da linguagem natural; por isso, vamos aplicá-lo aqui com a expectativa de que ele irá melhorar a precisão da nossa anotação abstrato automática.

Os resumos são de entrada para o pipeline de classificação como XML PubMed, a partir do qual o conteúdo de cada resumo e algumas marcações associadas são extraídas . O texto do resumo é tokenised (divididos em suas fichas de palavras de componentes), usando o kit de ferramentas OpenNLP [27] e transformado em um “saco de palavras” característica vector que armazena o número de vezes que cada palavra ocorre no texto. Um conjunto separado de recursos registra as palavras que aparecem no título do resumo, para capturar a intuição de que as palavras do título tem um estatuto privilegiado em identificar o tema principal de um artigo. Esses recursos são complementados pela malha (

Medical Subject Headings

) posições fornecidas pelo MEDLINE; por exemplo, um resumo pode ter sido dado os cabeçalhos descritivos

Interações medicamentosas

e

Inibidores Enzimáticos

. As categorias pai ou

hiperónimos

destas rubricas na malha taxonomia também são adicionados; por exemplo, os hiperónimos de

Inibidores Enzimáticos

incluem

Molecular Mecanismos de Ação

e

Ações Farmacológicas

. Finalmente, todas as cadeias de caracteres de comprimento de 7 (incluindo pontuação e espaços frase-interno) são extraídos do texto e convertido para um outro conjunto de características; o comprimento da sequência de sete proposto segue Wang et al. [28], mas o uso de recursos baseados em caracteres para comparação de string tem uma longa história em bioinformática, por exemplo,

espectro do kernel

de Leslie et al. [29].

Em comparação com o sistema de Korhonen et al. [16], o nosso sistema integra as seguintes melhorias: (1) a utilização do kernel JSD em vez de o núcleo linear; (2) a utilização de características de palavras em epígrafe; . (3) a adição de hiperónimos Bones de

O classificador associado a cada classe taxonomia prevê um rótulo binário; Um resumo é classificada como sendo rotulado com essa classe ou não. Cada classificador é treinado de forma independente e faz a sua previsão de forma independente dos outros classificadores. No entanto, o facto de as classes estão localizados em uma taxonomia significa que existem na verdade dependências entre eles; Se o resumo é um exemplo positivo para

quebras de fita

então também é, por definição, um exemplo positivo para

modo de acção genotóxico

. Tais dependências são capturados por uma etapa de pós-processamento em que as classificações positivas a uma determinada classe são propagadas até a taxonomia a todas as classes mais altas.

A ferramenta CARANGUEJO

Em estreita consulta com os avaliadores de risco, desenvolvemos uma ferramenta online de mineração de texto que integra os componentes descritos nas sub-seções acima. A ferramenta tem uma estrutura de conduta, tal como ilustrado na Figura 6. Um utilizador pode definir o produto químico (s) de interesse e baixar a recolha correspondente de resumos de PubMed no formato XML. Os resumos são então pré-processado e classificado de acordo com a taxonomia como descrito acima. CRAB exibe, para um determinado produto químico, a distribuição de resumos classificados em diferentes partes da taxonomia. O usuário pode navegar o conjunto de dados, selecionando uma classe taxonomia e visualização de todos os resumos classificados como positivos para essa classe. O usuário também pode dar um feedback para o sistema de marcação marcas erroneamente classificadas; estes são, em seguida, removido do visor. Os resultados são armazenados em um banco de dados MySQL, permitindo o acesso de dados persistentes: os resultados das sessões anteriores podem ser revisitados e compartilhado com outros usuários. A Figura 7 mostra imagens que ilustram algumas funções da ferramenta. Fizemos CARANGUEJO disponível para usuários finais através de uma interface Web on-line que é acessível mediante solicitação via https://omotesando-e.cl.cam.ac.uk/CRAB/request.html.

as experiências relatadas aqui usar a implementação SVM fornecida pela biblioteca LIBSVM [30], personalizado para facilitar o uso do núcleo de JSD. Durante o treinamento, nós também realizar a seleção de recurso para remover os muitos recursos não-preditivos no interesse da eficiência e maior precisão. Cada recurso é pontuado de acordo com seu poder de discriminação em relação aos dados de treinamento usando o

F-score método de Chen e Lin [31]

. Validação cruzada nos dados de treinamento é usado para escolher a proporção de recursos para desfazer; isto é feito através da medição do desempenho com a parte superior de pontuação de características e mantendo o subconjunto que dá o melhor desempenho. O classificador SVM tem dois parâmetros usados ​​no treinamento, o parâmetro “custo” e o parâmetro de peso que define a ponderação relativa dos exemplos de treinamento positivos; desempenha um papel importante quando alguns rótulos são muito raros, como na aplicação na mão. Semelhante ao processo de seleção de características, ambos os parâmetros são estabelecidos através de um procedimento de busca da rede que explora a gama

Foi utilizado um 10 vezes metodologia de validação cruzada em nossa avaliação:. O conjunto de dados é dividida aleatoriamente em 10 partições disjuntos e tendo uma partição de cada vez que o classificador é treinado nos outros nove partições e fez para prever a rotulagem dos resumos na partição selecionada. Desta forma, cada resumo é marcado exatamente uma vez e podemos avaliar essas previsões utilizando medidas de Precisão (), Recall () e F-medida (e não deve ser confundido com o F-score usado para seleção de características) 🙁 4) ( 5) (6) onde, e representam o número de verdadeiros positivos, falsos positivos e falsos negativos, respectivamente. Estas medidas de avaliação são padrão em processamento de linguagem natural e mineração de texto. Dado um conjunto de previsões de etiquetas para todos os itens de dados, precisão, Recall e F-medida é calculada de forma independente para cada etiqueta. A fim de produzir uma medida de desempenho global desses escores por rótulo pode ser calculada a média (

Macro-média

) ou precisão simples e recordar figuras podem ser calculados para todo o conjunto de dados e um

micro-média

F-medida produzido utilizando a fórmula em (6). desempenho Micro-média tende a ser dominado pelas classes mais prevalentes, enquanto macro-média trata de desempenho todas as classes da mesma forma.

experiências de usuários e estudos de caso

Um teste de usuário foi conduzido para medir a aceitabilidade de a saída do classificador para os avaliadores de risco que seria utilizá-lo para o seu trabalho. Sete produtos químicos carcinogénicos foram seleccionadas (ver a primeira coluna da Tabela 2); Nenhum destes produtos químicos tinham sido anteriormente utilizado para fins de anotação, de classificação ou de avaliação. Um corpus de teste foi coletado para cada produto químico através de pesquisa PubMed para todos os artigos não-comentário mencionar o produto químico que foram publicados entre 1996-2010 (a partir de 07 de dezembro de 2010) nas revistas listadas na Tabela 3. O conjunto de dados resultante continha 2546 resumos. Como no uso realista, muitos destes resumos são irrelevantes para a avaliação dos riscos de cancro; o classificador deve distinguir artigos relevantes de artigos irrelevantes, bem como rótulos de classe apropriados atribuir. Os corpora de teste foram submetidos ao sistema de classificação para a anotação automática.

Os resumos classificados como positivos para pelo menos uma classe taxonomia foram inspeccionados por dois avaliadores de risco de trabalho de forma independente. Eles decidiram se os resumos devolvidos para cada classe foram corretamente rotulados ou não. Após a primeira rodada completa de anotação, o nível de concordância entre os avaliadores de risco foi calculada como a proporção de classificações sobre o qual ambos os anotadores tomaram a mesma decisão. Nós não utilizamos a medida de concordância Kappa interannotator [32], que é frequentemente usado em PNL, pois não é interpretável, quando a distribuição de classe é extremamente distorcida: se houver anotador aplica o mesmo rótulo para todas as instâncias (no nosso caso, carrega o comportamento desejado de anotar todos voltaram resumos como positivo) o valor Kappa será zero. O facto de a distribuição marginal das classes, tanto no próprio conjunto de dados e nas decisões de anotadores afecta a gama de possíveis e prováveis ​​pontuações Kappa tem sido observado em vários estudos [33] – [35]. Esses estudos geralmente recomendam que as estatísticas adicionais ser relatado como uma ajuda para melhor interpretar o significado de uma determinada pontuação Kappa; No entanto, no caso em que um anotador utiliza apenas um rótulo o efeito de atingir um estado patológico onde Kappa sempre igual a zero, independentemente das decisões da outra anotador e não há essencialmente nada para interpretar.

Uma vantagem óbvia de um texto de mineração ferramenta como o caranguejo é muito melhor eficiência de um componente importante da avaliação de risco: a revisão dos dados científicos existentes sobre o produto químico em questão. avaliadores de risco humanos podem passar meses realizando revisão parcial da relevante MEDLINE literatura [16], enquanto CARANGUEJO pode realizar uma revisão exaustiva em questão de segundos. Outro grande benefício é a capacidade de realizar a classificação multi-dimensional da literatura de acordo com a taxonomia, ou seja, os vários tipos de evidências científicas cada artigo oferece para avaliação de risco. Este tipo de classificação seria extremamente difícil e para executar à mão, especialmente para os avaliadores de risco inexperientes demorado, mas pode ser altamente valiosa porque permite que ambas as visões gerais quantitativas e qualitativas dos dados disponíveis.

Realizamos uma série de estudos de caso para demonstrar como tais visões gerais podem ser usados ​​para apoiar a avaliação do risco de câncer e pesquisa. A metodologia de tais estudos envolveu desenhar a distribuição ao longo etiquetas atribuídas pelo classificador para o conjunto completo de resumos MEDLINE citam produtos químicos de interesse directo para os avaliadores de risco. Estes resultados quantitativos são comparados com propriedades conhecidas de cada produto químico e também usados ​​para gerar novas hipóteses que merecem investigação mais experimental.

Resultados

Nesta seção, registramos avaliação direta e baseada no usuário de a tecnologia de classificação, e estudos de caso presentes teve como objetivo investigar a utilidade da ferramenta de caranguejo para avaliação de risco de vida real.

resultados da classificação

Nós primeiro tomou a taxonomia estendida e conjunto de dados e avaliaram a precisão do

Deixe uma resposta