PLOS ONE: Usando máquina baseada em regra de aprendizagem para o candidato Disease Gene Priorização e Classificação Amostra de Câncer Gene Expression Data

foi mostrado

Abstract

análise de dados de microarrays para fornecer uma ferramenta eficaz para estudar o câncer e doenças genéticas. Embora as técnicas de aprendizado de máquina clássicos com êxito foram aplicadas para encontrar genes informativos e de prever rótulos de classe para novas amostras, restrições comuns de análise de microarray, tais como pequenos tamanhos de amostra, um grande espaço de atributo e altos níveis de ruído ainda limitam suas aplicações científicas e clínicas. Aumentar a capacidade de interpretação de modelos de previsão, mantendo uma alta precisão ajudaria a explorar o conteúdo de informação em dados microarray de forma mais eficaz. Para este fim, avaliamos nossos sistemas baseados em regras de máquinas evolutivo de aprendizagem, BioHEL e GAssist, em três conjuntos de dados de câncer de microarray públicas, a obtenção de modelos baseados em regras simples para a classificação da amostra. Uma comparação com outros classificadores amostra microarray de referência com base em três diferentes algoritmos de seleção de recursos sugere que estas técnicas de aprendizagem evolutiva pode competir com métodos state-of-the-art, como máquinas de vetor de suporte. Os modelos obtidos chegar precisão acima de 90% em dois níveis de validação cruzada externo, com o valor acrescentado de facilitar a interpretação usando apenas combinações de regras simples if-then-else. Como um benefício adicional, uma análise de mineração literatura revela que priorizações de genes informativos extraídos de conjuntos de regras de classificação de BioHEL pode superar rankings de genes obtidos a partir de uma seleção de características para ensemble convencional em termos de informação mútua pontual entre os termos doença em causa e os nomes padronizados de top- genes classificados

Citation:. Glaab e, Bacardit J, Garibaldi JM, Krasnogor N (2012) usa a máquina baseada em regras de aprendizagem para o candidato Disease Gene Priorização e Amostra Classificação de gene do câncer de dados de expressão. PLoS ONE 7 (7): e39932. doi: 10.1371 /journal.pone.0039932

editor: Christos A. Ouzounis, O Centro de Investigação e Tecnologia, Hellas, Grécia |

Recebido: 29 Janeiro, 2012; Aceito: 29 de maio de 2012; Publicação: 11 de julho de 2012

Direitos de autor: © 2012 Glaab et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Nós reconhecemos apoio pelo programa Marie-Curie Early-Stage-Formação (conceder MEST-CT-2004- 007597), pela Engenharia e Ciências físicas Research Council do Reino Unido (EP /E017215 /1, EP /H016597 /1 e EP /J004111 /1) e da Biotecnologia e Ciências Biológicas Conselho Investigação (BB /F01855X /1). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

perfil de expressão gênica e análise de dados é uma abordagem amplamente utilizada para ganhar novos conhecimentos sobre a regulação de processos celulares em sistemas biológicos de interesse. Para o efeito, métodos estatísticos comuns e técnicas de aprendizado de máquina pode ser empregado, incluindo métodos de agrupamento para descobrir classes de amostras biológicas relacionadas, métodos de seleção para identificar genes informativos e métodos de classificação para atribuir rótulos de classe para amostras de células com condições biológicas desconhecidas.

Aqui vamos nos concentrar na análise de expressão gênica supervisionada de dados de microarranjos de câncer usando métodos de seleção e classificação. Novos progressos na precisão e facilidade de interpretação dos modelos de classificação microarray é de grande interesse prático, uma vez que um diagnóstico de câncer mais precisos usando microarrays iria ajudar a prevenir inadequado terapia seleção.

Apesar de precisão alta previsão de já ter sido alcançado em muitos microarray conjuntos de dados de câncer, os modelos são frequentemente muito complexos e difíceis de interpretar, e falta de robustez ao ser aplicado em dados externos de outras plataformas experimentais. Especificamente, os desafios surgem a partir de pequenos tamanhos de amostra, um grande número de genes não informativos, altos níveis de ruído, vários outliers e desvio sistemático. Enquanto experimentos muitas vezes pode ser realizado com alta reprodutibilidade num único laboratório, os resultados obtidos com base em diferentes tecnologias de chip e procedimentos experimentais de diferentes laboratórios muitas vezes são dificilmente comparáveis. Alguns desses problemas podem ser resolvidos através de métodos de normalização de cross-estudo e análise de microarray integrativa [1], [2] ou através da combinação de dados de microarranjos com os dados clínicos [3], [4]. técnicas de aprendizagem de conjunto para obter novas melhorias, em estudos anteriores, temos empregados [5] – [7] e dados integrados de vias celulares, redes de co-expressão e interações moleculares para a análise [8] – [11]. No entanto, continua a haver uma necessidade de métodos de previsão mais precisos, robustos e facilmente interpretáveis.

A fim de aliviar alguns dos problemas típicos de estudos de microarranjos atuais e mostrar os benefícios dos sistemas de aprendizado de máquina evolutiva baseados em regras para microarray classificação das amostras, resultante das capacidades de computação evolutiva e a interpretabilidade aumentada de regras de decisão, avaliamos os nossos sistemas de aprendizado de máquina previamente desenvolvidos BioHEL [12] – [15] e GAssist [16] – [20] em três grande escala, pública conjuntos de dados de câncer de microarray.

métodos de aprendizagem evolucionários já foram aplicados com sucesso em diferentes estudos de microarranjos, por exemplo, para selecionar subconjuntos informativos de genes [21] – [23], para o agrupamento e biclustering [24] – [26] e classificação das amostras [27] – [29]. Além disso, nos últimos anos, novas abordagens de classificação baseados em regras foram testadas com sucesso em dados de matriz gene high-dimensionais [30] – [33], proporcionando governo humano-interpretável define como modelos

Os sistemas de aprendizado de máquina apresentada em. neste artigo combinar esses dois paradigmas, a pesquisa evolucionária e aprendizado de regras, fornecendo tanto uma exploração do espaço de busca eficaz e um interpretability modelo melhorado. Em particular, as regras conjuntivo do BioHEL pode apontar o experimentador a potencial associação funcional entre os genes [34], e respectivas normas de faixa de valor fornecer ao usuário uma indicação de um gene tende a ser para cima ou para baixo-regulado na condição biológica correspondente, dada a gama de valor completa em todas as amostras. Uma ilustração de todo o protocolo de análise é mostrado na Fig. 1. Em primeiro lugar, nós normalizar cada conjunto de dados microarray e pré-filtro os atributos para reduzir a dimensionalidade. Em seguida, aplicamos nossos algoritmos de aprendizagem

BioHEL

[12] – [15] e

GAssist

[16] – [20], em combinação com diferentes algoritmos de seleção de recurso usando um esquema de validação cruzada e repita este processo com três classificadores alternativos (ver Protocolo experimental). Na última etapa, os resultados de previsão gerados e as sondas genéticas (mais tarde designado por seus genes correspondentes) que foram considerados como mais informativo pelo sistema de aprendizagem são analisados ​​estatisticamente e usando uma abordagem de texto de mineração para encontrar associações entre termos e das doenças em causa . correspondente identificadores de genes padronizados

O protocolo consiste em três etapas: 1) Pré-processamento; 2) Supervisionado análise; . 3) Pós-análise

Vamos discutir estes passos em detalhe de acordo com a seguinte estrutura: Na seção Métodos nós fornecemos uma descrição passo-a-passo das nossas experiências e explicar cada um dos usados técnicas em detalhes, lidando primeiro com as abordagens de seleção de atributos, em seguida, com o BioHEL sistemas de aprendizagem máquina e GAssist e, finalmente, com os conjuntos de dados e métodos de pré-processamento. A seção de Resultados contém os resultados de previsão de funcionamento BioHEL, GAssist e os classificadores alternativas sobre os três conjuntos de dados de câncer de microarray. Além disso, esta seção apresenta uma pós-análise dos resultados usando mineração de literatura biomédica. Na seção de Conclusões, nós fornecemos uma perspectiva sobre novas prorrogações possíveis do quadro de classificação.

Em resumo, o objetivo geral do estudo foi a obtenção de modelos mais biologicamente interpretáveis ​​de classificação amostra câncer de microarray, que permitem uma robusta priorização de biomarcadores putativos e alcançar precisões de previsão competitivos. Em vez de ajustar algoritmos ou re-desenvolvê-los a partir do zero para maximizar a precisão à custa de maior complexidade, o objetivo foi alcançado por um novo gasoduto análise que investiga o lucro como os diferentes algoritmos de seleção de recurso externo, e que explora os benefícios conhecidos da evolutivo existente algoritmos em termos de exploração do espaço de busca e exploração, e de métodos de aprendizagem baseados em regras em termos de facilidade de interpretação.

métodos

Experimental Protocolo

O nosso pipeline de análise para comparar tanto recurso métodos de seleção e previsão para a classificação da amostra microarray consiste em três etapas básicas: pré-processamento de dados, supervisionado análise dos dados e pós-análise dos resultados

na primeira etapa, os conjuntos de dados de microarrays são pré-processados. e normalizados (ver conjuntos de dados de seção). Em seguida, uma validação cruzada externa é realizada [35], isto é, em cada ciclo da validação cruzada, em primeiro lugar um método de selecção característica é aplicada sobre os dados de formação de corrente e o subconjunto resultante de características é utilizada para classificar as amostras de conjunto de teste com um método de aprendizagem de máquina. Este procedimento é empregado usando tanto validação cruzada 10 vezes (CV, com splits aleatória, mas splits consistentes em todas as comparações) e deixar-one-out CV (LOOCV) e diferentes combinações de seleção de recursos e algoritmos de classificação. Especificamente, os métodos de seleção incluem o filtro univariado “Partial-Mínimos Quadrados Recurso baseado Selection” (PLSS), o filtro combinatória “baseada em Correlação Seleção de Recursos” (CFS) [36] eo método de seleção de recurso incorporado “com base aleatória Floresta Seleção de Recursos “(RFS, todos os métodos de seleção são discutidos em detalhe abaixo). Os métodos de classificação incluem nossos próprios métodos BioHEL e GAssist, uma máquina de vetores de suporte [37], um classificador aleatória Floresta (RF) [38] e da “Análise de Previsão de microarrays” método (PAM) [39]; veja fluxograma na Fig. 1.

Na última etapa do protocolo, usamos uma análise de mineração literatura para comparar rankings de sondas genéticas informativas (referidos como

genes

na seção Resultados, porque todas as provas genéticas selecionadas poderia ser mapeado para um identificador único gene via as informações de mapeamento fornecido pelo fabricante do chip), obtidos a partir de métodos de seleção de clássicos e de um pós-processamento dos modelos baseados em regras geradas pela abordagem BioHEL.

Conjuntos de dados

Todos os métodos são avaliados em três conjuntos de dados de câncer de microarray pública que representam três tipos diferentes de câncer: câncer de próstata (52 amostras de tumor vs. 50 controles) [40], linfoma (58 amostras de linfoma de células B difuso de grandes vs. 19 amostras linfoma folicular) [41], e um conjunto de dados do cancro da mama obtido a partir da colaboração de Queens Medical Centre, em Nottingham (84 amostras luminais vs. 44 amostras não-luminais) [6], [42] – [44] (ver Tabela 1 ). Detalhes para cada conjunto de dados e método de pré-processamento utilizado nesta avaliação comparativa são fornecidos no material S1. Todos os conjuntos de dados pré-processados ​​também estão disponíveis on-line (https://icos.cs.nott.ac.uk/datasets/microarray.html), incluindo os subconjuntos de validação cruzada após a seleção de recurso.

apresentam métodos de seleção

o elevado número de recursos (sondas genéticas) e do número relativamente pequeno de observações (amostras) em estudos de microarranjos típicas colocam vários problemas estatísticos, que são conhecidos como a “maldição da dimensionalidade” na aprendizagem de máquina (ver [45]). Portanto, após a normalização e pré-filtragem dos conjuntos de dados originais, que se aplicam abordagens de selecção para extrair característica diferentes conjuntos compactos de atributos discriminatório anterior para a aplicação dos métodos de classificação. Além disso, a fim de avaliar em que medida o nosso aprendizado de máquina evolutiva aproxima BioHEL e GAssist são capazes de classificar as amostras, sem seleção de atributos antes, avaliamos o desempenho preditivo dessas abordagens com e sem a seleção de recurso externo dedicado.

para explicar a diversidade de métodos de seleção de recurso, três tipos de critérios de seleção são considerados separadamente: um filtro univariada (PLSS [46]), um filtro de combinatória (CFS [36]) e uma abordagem de seleção incorporado (RFS [38]) . Importante, consideramos apenas os algoritmos que são garantidos para ter um tempo de execução viável, mesmo em grandes conjuntos de dados, e em vez de tentar identificar todas as características relevantes, pretendemos evitar a seleção de recursos redundantes, o que pode degradar o desempenho da classificação (ver [47 ] para uma comparação do

todo problema

selecção relevantes contra o

problema minimal-óptima

selecção considerada aqui). Para uma revisão geral sobre a seleção de características aproxima em bioinformática, consulte [48].

Para todos os métodos de seleção de atributos o tamanho máximo recurso subconjunto foi definido como 30 para evitar o excesso de encaixe, reduzir a complexidade do modelo ea probabilidade de incluir características falsos positivos (no entanto, os métodos são autorizados a seleccionar com flexibilidade menos de 30 recursos). Este limite superior foi escolhido de acordo com os resultados de estudos estimam o número aproximado de recursos a serem seleccionados em diferentes tipos de estudos de microarranjo para obter apenas as sondas genéticas com valor informativo significativo sobre o atributo resultado (usando modelos diferentes para calcular a pontuação de significância p-valor , veja [49] – [51]). Os métodos de selecção são descritos em detalhes nos parágrafos seguintes.

Parcial-Mínimos Quadrados Seleção de Recursos Baseado (PLSS)

Como representante de um filtro univariada clássica, um método usando o Partial Least quadrados (PLS) [52] algoritmo é empregado. Especificamente, as características são ordenados por os valores absolutos do vector de ponderação que definem o primeiro componente latente num modelo PLS que foi construída sobre os dados de treinamento. Como mostrado anteriormente [53], a ordenação de recursos obtidos a partir desta abordagem é equivalente ao F-estatística utilizada na análise de variância (ANOVA). Assim, em vez do cálculo PLS, o próprio F-estatística poderia ter sido usado, mas PLSS proporciona uma maneira mais eficiente de realizar o cálculo (o algoritmo rápido SIMPLS [54] é utilizado para esta finalidade).

correlação Baseada Seleção de recursos (CFS)

o método do filtro combinatória CFS [36] pesquisas para subconjuntos de características que têm alta correlação com a variável de resultado, mas baixa correlação entre si. Este conceito é formalizada pela seguinte pontuação recurso subconjunto: (1) onde está o subconjunto seleccionado com características, é a correlação média característica de classe e a correlação média-metragem recurso. Enquanto o denominador reduz a pontuação para as características correlacionadas para eliminar variáveis ​​redundantes, o numerador promove características com alta correlação com a variável de classe para retê-los discriminadores como poderosos. Tal como proposto na publicação CFS original, um best-primeira estratégia de busca gananciosa foi empregado para explorar o espaço recurso subconjunto [36].

Aleatório Floresta Seleção de recursos com base (RFS)

Em contraste com CFS e o algoritmo PLSS, o atributo selecção com base no classificador aleatória Floresta [38] um método utiliza directamente incorporado no algoritmo de predição. Especificamente, um modelo aleatório Floresta é construído através da formação de muitos, árvores de decisão não podadas binários em sub-amostras de bootstrap dos dados de treinamento. A importância de um recurso pode ser avaliado com base na medida de Gini nó de índice de impureza [55], através do cálculo da redução média nesta medida (ODM) a partir de nós pai para os seus nós descendentes diretos sobre todos os nós da árvore, ou, alternativamente, pela média redução na precisão (MDA). Diferentes estudos de aprendizagem automática tenham obtido resultados diferentes em relação a robustez comparativa do MDA e ODM [56], [57], mas em dados de expressão de genes de microarranjos os resultados para estas duas medidas de impurezas foram observadas como sendo muito similares [58]. Assim, apenas o critério ODM serão considerados neste estudo. Um subconjunto característica é obtida a partir do atributo correspondente ranking por selecção das melhores características (aqui, é escolhido de tal modo que os tamanhos de subconjunto obtidos são comparáveis ​​aos do método de CFS)

Classificação:. BioHEL e GAssist

BioHEL (Bioinformatics Orientada aprendizagem hierárquica) [12] – [15] é um sistema de aprendizagem de máquina evolutiva empregando o paradigma iterativo regra de aprendizagem (IRL) [59], [60] (código-fonte do BioHEL está disponível on-line: http: //icos.cs.nott.ac.uk/software/biohel.html). O procedimento IRL começa com uma regra vazia e o conjunto completo de observações como entrada. regras de classificação são adicionados de forma iterativa para o conjunto de regras até à sua combinação abrange todas as amostras. Os resultados finais são estruturados conjuntos de regras, também conhecidas como

listas de decisão

[61]. Um exemplo real conjunto de regras obtido no conjunto de dados do cancro da próstata é mostrado na Fig. 2 e destaca os diferentes tipos de regras em BioHEL:

regras conjuntivas

, que podem fornecer informações sobre possíveis associações funcionais entre genes;

regras faixa de valor

, que destacam o para cima preferencial ou para baixo-regulação de genes em diferentes condições biológicas e a robustez para uma atribuição de classe em termos de largura de parente ou estreiteza de uma faixa de valores de expressão; e

regras padrão

, que se aplicam se nenhuma das regras específicas anteriores é correspondida. Cada vez que uma nova regra de decisão que foi aprendido e adicionado a um conjunto de regras correspondente, as observações que abrange são removidos dos exemplos dados.

“Exp (x)” é a abreviação de “Expressão do gene x”, em que x é um símbolo do gene HUGO, “” representa o e-operador conjuntivo, “[X, Y]” é um intervalo de valores de expressão na qual o valor do atributo deve situar-se a cumprir uma premissa da regra, e “- “é um operador de atribuição de classe, seguido pela classe da regra de saída. Regra 5 é uma regra padrão que se aplica se nenhuma regra acima é correspondida.

Para explorar o espaço de busca de possíveis regras de forma eficiente, BioHEL usa um algoritmo genético geracional padrão (GA), que é aplicado em cada IRL iteração para encontrar a melhor regra para as amostras que ainda não tenham sido abrangidos pelas regras encontrados em iterações anteriores. Desde que o gás é não determinística, múltiplas repetições do processo de aprendizado de regras com conjuntos de formação idênticos podem ser usados ​​para aumentar a probabilidade de encontrar a regra ideal. Além disso, repetições do processo de aprendizagem completo (ou seja, a geração de um conjunto de regras completo e não apenas uma única regra) também pode ser aplicado, a fim de combinar vários conjuntos de regras para uma previsão de maioria votação consensual e beneficiar dos efeitos de redução de variância de aprendendo conjunto [62].

a fim de encontrar a melhor regra em cada iteração IRL, a função de fitness utilizada no GA representa tanto para a precisão ea generalidade, ou seja, o número de observações cobertas, de uma regra . Em BioHEL, esta função de fitness é baseado no mínimo Descrição Comprimento (MDL) princípio [63] e recompensas governa com.

alta precisão, ou seja, regras que classificam a maioria das amostras corretamente,

alta cobertura , ou seja, regras que correspondem muitas amostras e

baixa complexidade, ou seja, regras com predicados simples.

A definição exata da função de fitness do BioHEL foi apresentado e discutido em outro lugar [15]. No entanto, no que respeita à cobertura de regra, vale a pena mencionar que as regras em BioHEL que cobrem uma percentagem mínima de observações receber uma recompensa alta, mas depois de superar esse limite, a recompensa adicional para cobrir mais amostras for menor.

BioHEL foi fortemente influenciado por seu software antecessor

GAssist

[16] – [20] (https://icos.cs.nott.ac.uk/software/gassist.html), a partir do qual ele tem herdou a representação do conhecimento. Em contraste com a abordagem IRL empregados em BioHEL, GAssist é um sistema de aprendizagem classificador Pittsburgh-style [64], ou seja, os indivíduos que são evoluídos em uma GA geracional são regras de classificação não individuais, mas os conjuntos de regras que representam tentativas de solução completa do problema de mineração de dados . Para a definição exata da fórmula de fitness do GAssist, consulte [16].

comparações empíricas anteriores do BioHEL e GAssist têm mostrado que GAssist tende a ter um melhor desempenho em pequenos conjuntos de dados, ao passo que o seu sucessor BioHEL proporciona desempenho superior em grandes conjuntos de dados , tanto em termos de número de casos e /ou número de atributos. Assim, nós empregamos ambos os métodos aqui para investigar o seu poder preditivo em relação a dados de microarranjos. Em particular, BioHEL foi o único preditor para que um aplicativo em dados de microarranjos, sem seleção de recursos externos foi possível em um tempo de execução viável para os LOOCV executado, portanto, este método de aprendizagem foi aplicado com e sem seleção de recurso externo.

o procedimento de validação cruzada, BioHEL ea algoritmos de referência e métodos de seleção de recurso alternativo foram integrados em nosso web-based software de análise de dados microarray publicamente disponível

ArrayMining

[5].

métodos de Avaliação e parâmetros de execução

O principal método de avaliação utilizado neste estudo é um esquema de validação cruzada conhecida como

de dois níveis externa validação cruzada

[35]. Em um

externo de validação cruzada, o algoritmo de seleção de recurso é aplicado de forma independente para cada conjunto de treinamento gerado entre os ciclos do processo de validação. Esta abordagem evita o viés de seleção de validação cruzada interna clássica, onde a seleção recurso só é realizada uma vez em todo o conjunto de dados antes da validação cruzada [65].

dois níveis

validação cruzada externa usa uma validação cruzada aninhado adicional para otimizar os parâmetros para o algoritmo de previsão usando uma pesquisa grid. Nós aplicamos este segundo nível da validação cruzada para ajustar os parâmetros para o valor de referência alternativa preditores SVM, RF, e PAM.

BioHEL é usado com os mesmos parâmetros padrão conforme indicado em [15], exceto para o número de iterações que é definido para 500 e as probabilidades de generalização e especialização que são ajustados para 0,5. GAssist é aplicado utilizando os seus parâmetros por defeito [19], excepto para o número de iterações que é definida como 500 bem. Ambos GAssist e BioHEL foram executados 100 vezes para cada conjunto de treinamento com diferentes sementes aleatórias. Cada execução resultou em um conjunto de regras. Um conjunto das resultantes 100 conjuntos de regras foi utilizado para prever o conjunto de teste correspondente.

Para comparar BioHEL e GAssist contra métodos comumente utilizados para a classificação da amostra microarray, o procedimento de validação cruzada inteira foi aplicada a três alternativa classificadores de referência: uma máquina de vetor de suporte (SVM) [37], um classificador floresta aleatório (RF) [38] e da “Análise de Previsão de microarrays” método (PAM) [39]

a máquina de vetores de suporte. que usamos é um kernel linear C-SVM do e1071-pacote do ambiente de aprendizagem estatística R, um wrapper para a biblioteca LIBSVM bem conhecido. Outros núcleos polinomiais e o kernel função de base radial foram testados sem fornecer resultados superiores nas nossas experiências (dados não apresentados). Esta observação corresponde bem aos resultados anteriores na literatura, segundo a qual SVMs do kernel lineares desempenham frequentemente semelhante ou melhor em dados de microarranjos de SVMs usando kernels polinomiais de grau mais elevado [66], [67]. Para empregar o RF eo método PAM, foram utilizados os pacotes R correspondentes

Floresta aleatória

e

PAMR

que estão ambos disponíveis no site do Comprehensive R Archive Network (CRAN, http: //cran .R-project.org).

para a comparação do nosso método com alternativas da literatura nós só abordagens consideradas utilizando validação cruzada para avaliação, uma vez que os métodos baseados em uma única partição conjunto aleatório de treinamento /teste estão agora amplamente considerado como pouco confiável [65]. Pela mesma razão, nós também exclui métodos da literatura utilizando validação cruzada interna, em vez de validação cruzada externo, sempre que isso foi claramente afirmado pelos autores.

Desde de nível superior análise estatística dos dados de microarranjos pode depender significativamente sobre o procedimento de pré-processamento de dados, que, adicionalmente, investigar a robustez dos resultados de previsão e de seleção de atributos para diferentes pré-processamentos aplicados ao maior conjunto de dados de referência. Novas pré-processamentos foram obtidos utilizando dois filtros dobra de mudança diferentes e 4 diferentes configurações para o número máximo de recursos selecionados, e todo o protocolo de análise foi executado novamente para cada uma destas variantes. A estabilidade dos resultados foi analisada tanto em termos de resultados de previsão de cross-validados e o número de recursos selecionados compartilhados entre todos os CV-ciclos (ver Material de S1 para os resultados e discussão de todos robustez análises).

é importante ressaltar que os modelos de previsão obtidos só são aplicáveis ​​a amostras da mesma plataforma, tipo de célula, condições ambientais e procedimento experimental. No entanto, como nossos classificadores de apoiar ambos os dados de entrada contínuas e discretizadas, eles são compatíveis com a maioria dos métodos de normalização de estudo cruzado que têm sido propostos na literatura para estender a aplicabilidade de modelos de aprendizagem de máquina em diferentes plataformas experimentais (temos desenvolvido previamente um estrutura de software que fornece acesso a vários destes métodos de integração multi-plataforma on-line correspondente [5]).

Literatura Mining Análise de genes selecionados

a expressão diferencial estatisticamente significativa dos genes e sua utilidade como preditores em um modelo de aprendizado de máquina para a classificação da amostra pode indicar associações funcionais entre esses genes e as condições biológicas das células sob consideração (estritamente falando, nossos modelos utilizam sondas genéticas, em vez de genes, mas desde que obteve um mapeamento único para todas as sondas seleccionadas, vamos nos referir a seus genes correspondentes a seguir). No entanto, embora estas fontes de informação são úteis para a priorização de genes de doenças candidatos em estudos biomédicos, única evidência experimental ou conhecimento prévio da literatura pode demonstrar uma associação funcional com as condições biológicas de interesse.

Um dos mais genes candidatos promissores obtidos a partir de nossa análise do conjunto de dados de câncer de mama foi avaliada com sucesso em um estudo experimental em colaboração com o Centro Médico da rainha em Nottingham por imuno-histoquímica utilizando microarrays de tecido em todo 1140 amostras de câncer de mama invasivo (ver nossa publicação anterior [6], a visualização do conjunto de dados [68], e na seção de resultados abaixo), no entanto, uma validação experimental de todos os genes mais bem classificados em todos os conjuntos de dados de câncer três microarray não estava dentro do âmbito do presente estudo.

Portanto, a fim de analisar possíveis associações entre as condições de doença representadas pelas três conjuntos de dados e os genes informativos obtidos a partir dos métodos de seleção de atributos e os atributos que ocorrem mais frequentemente em conjuntos de regras de BioHEL, uma análise de mineração literatura foi aplicada a estes genes usando artigos de texto completo de o banco de dados PubMed. Especificamente, marcou associações putativas entre os nomes padronizados de genes topo do ranking e termos de doença a partir de um vocabulário controlado (Medical Subject Headings (MeSH) títulos de doença), determinando a frequência de ocorrência e co-ocorrência dos termos correspondentes e computação da pointwise informação mútua (PMI) [69]. O PMI de dois termos e, ocorrendo com relativa frequência f () e f (), e co-ocorrem com relativa frequência f (,) em um banco de dados de documentos é definido da seguinte forma: (2)

A termos de doença MeSH específicos usados ​​aqui foram “neoplasias prostáticas” para o conjunto de dados de câncer de próstata “, neoplasias da mama” para o conjunto de dados do cancro da mama, e “linfoma, b-cell” para o conjunto de dados linfoma de células b (artigos PubMed são anotados manualmente por especialistas com estes e outros termos do thesaurus vocabulário controlado MeSH). O PMI-valor para um par de termos gene /doença pode assim ser utilizado para classificar e priorizar potenciais associações funcionais e esquemas de pontuação baseados em PMI semelhantes têm sido utilizados anteriormente para classificar a similaridade dos genes e drogas usando mineração de literatura [70].

Uma vez que os PMI-scores para pares de prazo único gene /doença não são confiáveis ​​o suficiente para comparar a utilidade de diferentes priorizações gene da doença, nós primeiro lugar, calculada a soma de PMI-escores positivos em todos os genes mais bem classificados obtidos a partir de quer os métodos de seleção de recursos ou os atributos que ocorrem mais frequentemente no BioHEL conjuntos de regras. Genes com PMI-scores negativos eram considerados irrelevantes ea pontuação correspondente foi definido como zero, uma vez que a magnitude da pontuação negativa é provável sujeitos a ruído aleatório. Os montantes finais das pontuações foram comparadas com pontuações correspondentes para 100 conjuntos de genes de tamanho combinado selecionados aleatoriamente a partir das plataformas de microarray correspondentes. pontuações significância P-valor foi estimado por vezes a proporção de PMI-pontuações mais elevadas foram atingidas pelo modelo aleatório em comparação com os métodos de selecção algorítmicos. Os genes de topo do ranking foram definidos como aqueles genes que tinham sido seleccionados por, pelo menos, dois métodos diferentes de selecção característica, (ou seja, genes correspondentes a uma selecção conjunto), que resultou em conjuntos compactos de menos de 20 atributos seleccionados para cada um dos três conjuntos de dados (ver secção resultados). O mesmo número de genes foram selecionados entre as características que ocorrem mais frequentemente no BioHEL conjuntos de regras a fim de obter uma comparação justa entre esta seleção de recursos com base em BioHEL ea seleção de características para ensemble obtidos a partir dos métodos de selecção dedicados.

resultados e Discussão

a comparação dos resultados de previsão

Uma visão geral dos resultados de previsão comparativos obtidos com todas as combinações de recurso de seleção, métodos de previsão e conjuntos de dados é dada na Tabela 2 para CV 10 vezes e Tabela 3 para LOOCV. Abaixo os resultados para todos os conjuntos de dados são discutidas.

Prostate Cancer

No conjunto de dados de câncer de próstata, os melhores resultados de previsão com BioHEL foram alcançados sem seleção de recurso externo, proporcionando uma precisão média de 94% (CV de 10 vezes), ou quando se combina com o filtro BioHEL PLSS (AVG. Acc. 94%, LOOCV). Entre os classificadores de referência alternativas consideradas neste estudo (SVM, RF e PAM, ver Quadros 2 e 3), apenas a combinação PLS /PAM alcançado a mesma precisão para CV 10 vezes e a combinação CFS /RF atingiu uma precisão ligeiramente superior para LOOCV (95%).

Deixe uma resposta