PLOS ONE: Melhor Classificação da Lung Cancer Tumores com base nas propriedades estruturais e físico-química de proteínas utilizando Data Mining Models

Abstract

divergência Detectando entre tumores oncogênicos desempenha um papel fundamental no diagnóstico e terapia do cancro. Este trabalho foi focado na concepção de uma estratégia computacional para prever a classe de tumores de câncer de pulmão a partir das propriedades estruturais e físico-químicas (1497 atributos) de sequências de proteínas obtidos a partir de genes definidos por análise de microarray. A metodologia proposta envolveu o uso de técnicas híbridas de seleção de características (rácio de ganho e de correlação com base avaliadores subconjunto com Seleção de Recursos Incremental), seguido pela previsão Bayesian Rede de discriminar tumores de câncer de pulmão como pequenas células Lung Cancer (SCLC), Non-Small Cell Lung Cancer ( NSCLC) e as classes comuns. Além disso, esta metodologia eliminou a necessidade de amplas estratégias de limpeza de dados sobre as propriedades da proteína e revelou o conjunto ideal e mínimo de recursos que contribuíram para a classificação tumor do cancro do pulmão com uma precisão melhorada em comparação com o trabalho anterior. Nós também tentou prever via agrupamento supervisionado as possíveis agregados nos dados de tumor de pulmão. Nossos resultados revelaram que algoritmos de agrupamento supervisionado apresentaram desempenho ruim em diferenciar as classes de tumor de pulmão. seleção de características híbridas identificou a distribuição de solvente acessibilidade, polarizabilidade e hidrofobia como as características mais alto classificados com seleção de recursos Incremental e previsão Bayesian Rede gerar o Jack-knife precisão validação cruzada ótima de 87,6%. categorização precisa de genes oncogénicos causando SCLC e NSCLC com base nas propriedades estruturais e físico-químicas das suas sequências de proteína é esperado para desvendar a funcionalidade das proteínas que são essenciais para a manutenção da integridade genómica de uma célula e também actuam como uma fonte informativo para a concepção de fármacos, alvejando propriedades de proteínas essenciais e sua composição que são verificadas em tumores de câncer de pulmão

Citation:. Ramani RG, Jacob SG (2013) Melhor Classificação da Lung Cancer tumores com base nas propriedades estruturais e físico-química de proteínas utilizando Data Mining modelos. PLoS ONE 8 (3): e58772. doi: 10.1371 /journal.pone.0058772

editor: Vladimir N. Uversky, University of South Florida College of Medicine, Estados Unidos da América

Recebido: 22 Dezembro, 2012; Aceito: 06 de fevereiro de 2013; Publicação: 07 de março de 2013

Direitos de autor: © 2013 Ramani, Jacob. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Esta pesquisa trabalho é uma parte do conselho de India para a instrução técnica (AICTE), Índia-projecto financiado pela Esquema Promoção Research intitulado “Classificador eficiente para os dados clínicos de vida (Parkinson, cancro da mama e p53 mutantes) através de análise de relevância recurso e classificação” com os números de referência 8023 /RID /RPS-56 /2010-11 e 200-62 /FIN /04/05/1624. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

tumores oncogênicos são a principal causa de morte em todo o mundo com câncer pulmonar que ostenta a maior número de mortes malignas [1] – [3]. Tabagismo e uso de tabaco, juntamente com diversos agentes cancerígenos ambientais aumento da susceptibilidade humana a esta doença mortal [4] – [5]. Gene Polimorfismo em causa com a desintoxicação de substâncias cancerígenas têm sido associados com a formação de tumores pulmonares. Tumores no pulmão foram amplamente classificados como não-pequenas células Lung Cancer (NSCLC), afetando cerca de dois terços dos pacientes com uma baixa taxa de sobrevivência e de pequenas células Lung Cancer (SCLC), ambos os quais respondem a diferentes formas de terapia [6] – [10]. Isto conduz à necessidade de identificar precisamente diferenças patológicas entre estes dois tipos de tumores.

padrões de expressão genética a partir de análise de microarray habilitado a sub-classificação de tipos de cancro do pulmão que relacionado com o grau de demarcação do tumor, e natureza da terapia taxa de sobrevivência vítima [11] – [14]. Era um facto estabelecido que a carcinogénese pulmonar foi um processo que envolveu mudanças fenotípicas graduais que ocorreram como resultado da activação de onco-genes e desactivação dos genes supressores de tumor [8]. Relatórios até agora na literatura não conseguiram identificar quaisquer biomarcadores fiáveis ​​para esta condição desde experimentos wet-lab frequentemente consumido mais tempo, experiência e de capital com retornos incertos [1], [4] – [6]. microarrays tecnologia tem sido utilizada no passado recente para detectar biomarcadores apropriados mas apresentam metodologias foram mais suscetíveis a ignorar fatos potenciais contidos em amostras de tecido de pacientes [14]. Daí a determinação de potenciais e informativos marcadores (de diagnóstico e prognóstico), tanto do ponto de vista biológico e molecular é altamente essencial para estudar e avaliar a distinção genética e molecular que caracteriza tumores e metástases tumorais Nó estadiamento (TNM) na carcinogênese de pulmão para tornar possível um diagnóstico eficaz e corroboram estratégias terapêuticas.

Em empresas de pesquisas recentes, vários classificadores e modelos de mineração de dados têm sido usados ​​que tinha como alvo a categorização adequada dos tumores de câncer de pulmão. Quarenta e uma amostras caracterizadas por 26 atributos calculados a partir da razão de massa-para-carga (m /z) e alturas de pico de proteínas identificadas por espectrometria de massa de amostras de soro do sangue a partir de cancro do pulmão afectado e os pacientes não-afectados foram utilizados para treinar uma classificação e árvore de regressão (CART) modelo [13]. classificação molecular de NSCLC com base em uma abordagem de trem-teste percentual foi utilizado para avaliar a confiabilidade do cDNA classificações baseadas em microarranjos de cânceres humanos ressecados pulmão de não pequenas células (NSCLCs) [14]. No prosseguimento da investigação Linear Análise Discriminante e Redes Neurais Artificiais classificação de linhas de células de câncer de pulmão individuais (SCLC e NSCLC) foi realizada com base em marcadores de metilação do DNA [13]. Os resultados relataram que a análise Rede Neural Artificial dos dados de metilação do DNA era uma técnica potencial para desenvolver métodos automatizados para a classificação do cancro do pulmão. Em outro estudo Support Vector Machine [14] foi usado na análise de banco de dados de expressão de genes de câncer de pulmão e os resultados propôs que o conhecimento prévio incorporados em classificação de câncer com base em dados de expressão gênica foi essencial para melhorar a precisão da classificação. classificação automática de estágios do câncer de pulmão TNM de relatórios de patologia de texto livre usando simbólica classificação baseada rule- foi tentada [15]. A metodologia foi avaliada com base em parâmetros de precisão e matrizes de confusão contra um banco de dados de preparo equipe multidisciplinar por decisões e um sistema de classificação baseado em texto-aprendizagem de máquina utilização de máquinas de vetor de suporte.

A presente investigação centrou-se em um artigo muito recente por Hosseinzadeh et.al [1] que tinha como objetivo classificar os tumores de câncer de pulmão com base nas propriedades estruturais e físico-químicas de proteínas utilizando modelos de Bioinformática. Nós escolhemos este papel por três razões principais. (I) O trabalho é o mais recente e os dados estão disponíveis publicamente. (Ii) A pesquisa envolveu uma abundância de estratégias de limpeza de dados e pré-processamento, que poderiam ser evitados. (Iii) O trabalho envolveu algumas suposições sobre os dados obtidos que não são adotadas neste trabalho. Além disso, o método proposto neste trabalho foi capaz de gerar maior precisão da classificação na diferenciação entre tumores de câncer de pulmão com base nas propriedades de proteínas, mantendo os dados originais e eliminando suposições. Precisamente este artigo faz as seguintes contribuições: (a) projeto de uma nova metodologia com técnicas de seleção de híbridos para identificar as características de proteína ideal que distinguem entre tumores de câncer de pulmão com maior precisão. (B) eliminou a necessidade de limpeza de dados e pressupostos em significado atributo. (C) Contribuir características identificadas são acreditados para influenciar a concepção de medicamentos que poderiam direcionar a propriedade de proteínas que levam a tumores de câncer de pulmão.

Materiais e Métodos

Dataset

O Gene Set Enriquecimento análise base de dados (AGEE db) [16] foi utilizada para obter os conjuntos de genes que contribuem para o desenvolvimento do NSCLC e SCLC. Foi obtido a partir da Enciclopédia de Quioto de genes e genomas (KEGG) [17] conjuntos de genes. Um total de 84 genes [17] estavam presentes no conjunto de genes SCLC enquanto 54 genes [17] foram encontrados contribuindo para NSCLC. A fim de discriminar precisamente entre as duas classes de tumores, os genes que ocorrem geralmente em ambos os tumores foram colocados em uma classe diferente chamado COMUM. A força do gene definido para Quimioterapia era 59, 29 NSCLC incluídos enquanto o conjunto de genes COMUM resumiu a 25. As proteínas para cada grupo de genes foram obtidos a partir da base de dados do cartão Gene [18] e as sequências de proteínas correspondentes extraído da base de dados UniProt Base de Conhecimento [19]. Estas sequências foram guardadas como ficheiros de texto e carregou-se PROFEAT servidor Web [20] – [21] para calcular as propriedades estruturais e físico-químicas associadas com a proteína. Um total de mil quatrocentos e noventa e sete atributos foram computados e representado como Fi.jkl onde ‘l’ representava o valor de descritor e ‘k’ denotado o descritor enquanto ‘j’ indicou o recurso e ‘i’ significa o grupo de funções [ ,,,0],20] – [21]. Os recursos e as suas anotações foram fornecidos como S1 Arquivo. O conjunto de dados completo que inclui 1497 características e 113 amostras de tumor [17] foram carregados no WEKA 3.7.7 software de aprendizado de máquina [22] e do tipo de tumor foi definido para ser a classe alvo. O conjunto de dados pré-processados ​​completo é fornecido como S2 Arquivo. A variação no tamanho da amostra em comparação com o trabalho anterior é atribuída a possíveis updations no banco de dados. A metodologia proposta neste trabalho de pesquisa é descrita na seção seguinte

Proposta Computacional Metodologia

A metodologia proposta composto de duas fases:. A fase de treinamento e a fase de previsão. A fase de treinamento incorporou o processo de preparação de dados, seleção de características e classificação, enquanto a avaliação envolver fase de predição do modelo classificador usando Jack-knife teste de validação cruzada com base nos parâmetros de desempenho [23] – [24]: Matthews Correlação Co-eficiente ( MCC) e precisão. A representação esquemática da metodologia proposta é apresentado na Figura 1. A preparação de dados fase de categorização incorporados dos conjuntos de genes de entrada como SCLC, NSCLC e as classes comuns. Isto foi seguido pela seleção de recursos Híbrido com Seleção de recursos incrementais. Os modelos de classificação foram então construídas e comparadas para identificar a técnica de previsão de melhor desempenho computacional na classificação tumor de pulmão utilizando proteína propriedades estruturais e físico-químicas. Seleção

Híbrido recurso.

Característica ranking de apresentado significativa recursos na ordem da sua contribuição para categorizar as amostras de acordo com as diferentes classes de destino [25] – [28]. Como a maioria dos algoritmos de seleção de recurso focado no ranking dos atributos de acordo com seu valor de significância, a responsabilidade de escolher a restrição limitando descansou com o usuário [29] – [31]. Por isso, a fim de automatizar o processo de encontrar o mínimo conjunto ainda óptima de recursos, os algoritmos de seleção de recurso de classificação foram seguidos por correlação Subconjunto avaliadores [32], que incluiu características altamente correlacionadas com a classe e menos correlacionadas entre si. Uma vez que tanto o ranking e subconjuntos avaliadores foram utilizados para obter o conjunto de recursos óptima, este foi denominado a estratégia Seleção de Recursos Hybrid. A descrição dos métodos utilizados nesta pesquisa está detalhada abaixo

Ganho Critério Rácio

Ganho critério ratio [33] -.. [34], revelou a associação entre um atributo e o valor classe , sendo calculado principalmente do ganho de informação utilizando os valores Informações entropia (InfoE) [35]. Após ter obtido o valor da entropia H (S

R), e assumindo ‘F’ para ser o conjunto de todos os recursos, e S

R a ser o conjunto de todos os registros, Value (r, f) é considerado como sendo o valor de uma instância específica ‘r $ \\ raster = “RG1” $ S ‘para a função’ f $ \\ raster = “RG1” $ F ‘. Ganho de informações para o atributo foi calculado usando a equação (1) da seguinte forma [35] 🙁 1)

Para calcular o valor intrínseco para um teste, foi adotada a seguinte fórmula: (2)

o Índice de Ganho de Informação [33] – [35] foi calculado como a relação entre o ganho de informação eo valor intrínseco, de acordo com a equação (3) (3)

os atributos foram assim classificados de acordo com sua posição na ordem decrescente da pontuação Rácio Ganho e foram utilizados para o método CFS subconjunto avaliador descrito abaixo.

Seleção Correlação Característica (CFS) Subconjunto avaliador.

a hipótese CFS [36] sugeriu que as características mais preditivos necessários para ser altamente correlacionada à classe alvo e menos relevante para outros atributos preditor. A equação seguinte [36] – [37] gravado o valor de uma função S subconjunto de características que consistiu ‘K’ (4) onde, foi o valor médio de todas as correlações função de classificação, e foi o valor médio de todos em funcionalidades correlações de recursos. O critério CFS [36] foi definida da seguinte forma:

(5) Onde e variáveis ​​foram referidos como correlações. Os atributos que retratados uma correlação elevada com a classe de destino e menos relevância para o outro foram escolhidos como o melhor conjunto de atributos.

Os atributos filtrados pelo método CFS Subconjunto avaliador foram adicionados de uma maneira incremental para identificar o melhor conjunto de características que contribuíram para categorização tumor de pulmão. Esta metodologia é relatado abaixo.

Seleção de recursos incrementais.

O preditor atributos gerados pelo Rácio Ganho e Atributo avaliador método CFS subconjunto (Seleção de Recursos híbrido) foram posteriormente utilizados para a seleção de recursos incrementais (IFS ) [38] – [39] para determinar o conjunto mínimo e óptimo de características. Por adição de cada recurso, um novo conjunto de recursos foi obtido eo k

th conjunto de recursos poderia ser indicado como (6)

Onde M denota o número total de subconjuntos de previsão. Na construção de cada conjunto de recursos, o modelo preditor foi construído e testado através de Jack-knife método de validação cruzada. O MCC e Precisão de validação cruzada foi medida, levando à formação de tabela de IFS com o número de características e a precisão de classificação eles foram capazes de gerar. ‘AT

o’ era o conjunto de recursos mínimo e ideal que alcançou o maior MCC e precisão.

A fim de determinar o melhor modelo de classificação para a classificação tumor de pulmão [40], um total de cinco previsão de referência técnicas viz, Support Vector Machine [29], Random Floresta [1], o algoritmo de vizinho mais próximo [39], Bayesian Learning Network [22] e do Comité aleatório (classificador Ensemble) [22] foram analisadas e comparadas. Nossos resultados afirmou que a abordagem bayesiana Rede gerado maior precisão na classificação do tumor com o conjunto de recursos ideal.

Aprendizagem Bayesiana rede.

A fase de aprendizagem nesta abordagem incorporou o processo de encontrar uma rede Bayesiana apropriada [41] dado um conjunto de dados D mais de R, onde R = {r

1, r

n}, n ≥1 foi o conjunto de variáveis ​​de entrada. A tarefa de classificação consistia em classificar uma variável V = v

0 chamado de variável de classe (NSCLC /SCLC /COMMON) dado um conjunto de variáveis ​​de R = r

1. . . r

n. Um classificador C: R → V foi uma função que mapeada uma instância de ‘r’ para um valor de “V”. O classificador foi aprendido a partir de um conjunto de dados D que consistia em amostras de mais de (r, v) [42]. A rede Bayesiana sobre um conjunto de variáveis ​​de R era uma estrutura de rede B

s, um gráfico acíclico dirigido (DAG) sobre o conjunto de variáveis ​​R e um conjunto de tabelas de probabilidade [43] foi dado por (7)

Onde pa (r) foi o conjunto de pais de r no B

S ea rede representou uma distribuição de probabilidade dada pela Eq. (8) (8)

A inferência feita a partir da rede Bayesiana [41] – [43] foi para alocar a categoria com a probabilidade máxima [44]. O Estimador simples com o método de busca local K2 usando Bayes Score foram utilizadas (parâmetros padrão) para a execução do algoritmo em [22] WEKA 3.7.7. Os métodos de agrupamento são informados sobre na seção seguinte

Clustering Supervisionado

agrupamento Enquadramento [45] -.. [47] desviado agrupamento sem supervisão na medida em que foi aplicado em exemplos já categorizadas com o principal objectivo de detectar grupos que apresentavam alta densidade de probabilidade em relação a uma única classe. agrupamento supervisionado necessário o número de aglomerados que ser mantido a um mínimo, e objectos foram atribuídos a grupos usando a noção de proximidade em relação a uma dada distância da função [48] – [49]. agrupamento supervisionado avaliou uma técnica de agrupamento com base nos dois critérios seguintes [47] – [49]:

Class impureza, a impureza (X):

Ele foi medida pela percentagem de exemplos marginais os diferentes grupos de um agrupamento X. um exemplo marginal foi um exemplo que pertencia a uma classe diferente da classe mais freqüente no seu cluster.

Número de clusters, k.

nesta pesquisa compararam as classes para agrupar precisão avaliação de sete algoritmos de agrupamento [22] ou seja Expectation-Maximização (eM) Algoritmo, COBWEB [22], agrupamento hierárquico, K-Means clustering, Farthest Primeira Clustering, o agrupamento baseado na densidade e Clustering filtrada. O número de clusters foi atribuído automaticamente no algoritmo COBWEB enquanto que os algoritmos restantes permitiu que o usuário selecione o número desejado de grupos [22]. Alguns algoritmos exibiram melhor desempenho na inclusão de todos os atributos para o agrupamento enquanto o desempenho deteriorou-se nos conjuntos de dados de seleção de características híbridas. Os métodos de avaliação de desempenho e parâmetros são informados sobre nas secções subsequentes.

Jack-faca validação cruzada teste.

métodos de previsão estatística [50] foram utilizados para medir o desempenho preditor, a fim de avaliar a sua eficiência em aplicações práticas. Neste estudo, o método de validação cruzada canivete [50] – [51] foi utilizado para verificação e validação de precisão classificador desde relatórios anteriores declarou que ele seja menos arbitrária na natureza e amplamente aclamado pelos pesquisadores e profissionais para estimar o desempenho de preditores. Em canivete validação cruzada [38] – [39], [52], cada um dos registros estatísticos no conjunto de dados de treinamento por sua vez foi apontada como uma amostra de teste e o preditor foi treinado pelas amostras restantes. Durante o processo de jaque-knifing [23] – [24], [39], tanto o conjunto de dados de treino e conjunto de dados de teste foram realmente aberto, e uma amostra estatística movido de um grupo para o outro. Nesta pesquisa, os seguintes índices [50] – [52] foram adotadas para testar a metodologia proposta (9) (10), onde o reflexo do coeficiente de correlação de Mathews.; refletida a precisão, ou seja, a taxa de classe tumor do cancro do pulmão previu corretamente; TP, TN, FP e FN indicado o número de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos, respectivamente.

Resultados Experimentais e Discussão

Os resultados experimentais são discutidos em três seções. O mais importante descreve o ranking das propriedades estruturais e físico-químicas de acordo com sua relação de ganho. A lista completa de atributos foi classificada eo arquivo é fornecido como Tabela S1. A segunda seção lida com os resultados de Seleção de recursos incrementais, enquanto a seção final retrata o desempenho comparativo dos modelos de classificação de referência sobre as propriedades de seqüência de proteína na categorização de tumores pulmonares.

Híbrido função Seleção

A total de 1497 atributos foram inicialmente carregados como os dados de treinamento com 113 instâncias [17] – [18]. Nenhum registro foi duplicado e não houve valores perdidos. Na classificação dos atributos pelo critério da razão de ganho, um total de 134 atributos foram atribuídos um rácio de ganho maior do que zero. O subconjunto avaliador CFS devolvido características 39 como o subconjunto mais óptima que estava altamente correlacionada com a classe de destino, mas menos correlacionados entre si. Esses recursos foram, então, utilizados para o processo de recurso Seleção Incremental. Os resultados das técnicas de seleção de características híbridas são dadas como Tabela S1.

Característica Incremental Seleção

Os atributos classificados do subconjunto avaliador CFS foram, então, a entrada na ordem decrescente de sua posição para o classificador . Em cada entrada de atributo, o MCC e precisão do classificador no teste de Jack-knife foi calculado. A Bayesian Learning Network foi encontrada para dar a maior MCC previsão de 0,812 e precisão de 87,6% com 36 características. As curvas IFS gerado na precisão classificador eo MCC correspondente está representado na Figura 2. A precisão da previsão ideal com a metodologia proposta para cada subconjunto recurso é dado na Tabela 1. Os resultados completos do processo de Seleção de Recursos Incremental em todos os três Seleção de Recursos híbrido conjuntos de dados são apresentados na Tabela S2.

(A) A curva IFS gerado utilizando a Classificação Accuracy in Lung Tumor categorização. O eixo x representa o número de recursos enquanto o eixo Y representado a precisão de validação cruzada canivete. O pico de precisão da classificação alcançada foi de 87,6%, com 36 características. Os 36 principais características derivadas de Seleção de Recursos híbrido abordagem (CFS subconjunto Rácio Ganho +) formam o conjunto de recursos ideal. (B) A curva IFS gerado utilizando os valores obtidos a partir de MCC algoritmos de classificação. O pico da MCC é 0,812 com 36 características. Os 36 principais características derivadas pela abordagem Seleção de Recursos híbrido (Rácio Ganho + CFS subconjunto) formaram o conjunto de recursos ideal.

Modelos Classificador

modelos de classificação de referência que tenham sido relatada [14], [38] – [39] [53] – [54] para gerar alta precisão na classificação dos dados biológicos foram comparadas para determinar a técnica de predição melhor que gerou a maior precisão na previsão. O desempenho comparativo dos modelos de classificação com o conjunto de recursos gerados pela técnica de Seleção de Recursos híbrido é descrito na Tabela 2. O desempenho é comparado com base no MCC e precisão da previsão.

Clustering Models

Este estudo utilizou sete algoritmos de agrupamento [22], a fim de comparar o seu desempenho em categorizar as classes de tumores de pulmão com base nos valores de atributos. Os resultados de geração de algoritmos de clusterização no conjunto de dados antes e após a realização de seleção de características híbridas são apresentados. As classes para agrupar os resultados da avaliação são retratados na Tabela 3. É evidente a partir dos resultados tabulados que algoritmos de agrupamento não eram úteis em fornecer qualquer ideia nova sobre o significado do atributo na detecção de aglomerados desde sua precisão desempenho foi substancialmente reduzido. As discussões sobre os dados e os resultados são apresentados na secção seguinte.

Discussão

influência das propriedades

estruturais e físico-químicas

Houve diversas pesquisas sobre pulmão classificação do cancro [55] – [65], mas o único estudo computacional anterior sobre a influência da sequência da proteína com base propriedades estruturais e físico-químicas na categorização de tumores pulmonares foi feito por Hosseinzadeh et.al [1], que utilizaram a árvore de decisão gerada pelo aleatório classificador floresta para identificar os atributos que contribuem. Neste estudo, utilizamos a menor árvore entre os modelos de árvore de 10 de decisão geradas pelo classificador aleatória Floresta [66] no conjunto de dados de treinamento, a fim de identificar os atributos que mais contribuem para a classificação tumor de pulmão. Embora o algoritmo Comissão aleatória também retratado 100% de precisão e um alto MCC a 1 na fase de formação, os resultados obtidos em Jack-knife validação cruzada não eram tão alta como a Floresta Modelo aleatória. O modelo de árvore de decisão com o menor número de nós gerados pela Floresta aleatória no conjunto de dados de treinamento é retratado na Figura 3. A visualização desta árvore tornou mais fácil para identificar a composição de cada propriedade proteína em diferentes tipos de tumores de câncer de pulmão, proporcionando assim uma fonte para a concepção de medicamentos visando a composição de proteína.

os seguintes novos insights sobre as propriedades da proteína foram obtidas a partir da Floresta Modelo aleatório com um novo conjunto de funcionalidades discriminativos que está sendo relatado pela primeira vez em discriminar as classes de tumores pulmonares.

composição de dipeptídeos foi a característica mais discriminante entre as classes. F1.2 [dipeptídeos Composição], F5.3 [Descritor de Distribuição], F4.1 [Geary Auto-correlação] e F6.1 [Sequence número de acoplamento fim] foram as propriedades da proteína significativas subsequentes usadas pela Floresta Modelo aleatória para discriminar a pulmonares aulas tumorais.

Um valor baixo do F5.3.2 [volumes Normalizada vdw] e F composição [7.1] pseudo amino-ácido mudou os registros para a classe COMUM. A alta F5.3.1 [distribuição de hidrofobia] e F5.3.3 [distribuição de polaridade] foi encontrado entre os genes comuns em ambas as classes de tumores enquanto que uma menor concentração do mesmo foi encontrado entre os genes de tumores NSCLC. Isso direciona a investigação molecular para projetar drogas que reduzem a distribuição de hidrofobia e polaridade enquanto a elevar os volumes vdw normalizados e composição em aminoácidos pseudo para direcionar as classes comuns de tumores.

Uma composição de alta dipeptídeo era característica do genes NSCLC e um valor relativamente baixo representou os tumores SCLC. Uma alta concentração de F5.3.1 [Distribuição de hidrofobia] e F5.3.7 [distribuição de solventes de acessibilidade] ficou evidente nas classes comuns de tumores. Estes achados sugerem projetar drogas que aumentam a composição dipeptídeo para ajudar na cura de tumores SCLC e drogas que reduzem a composição dipeptídeo para curar tumores NSCLC. Projeto Além disso de drogas que diminuem a distribuição de hidrofobia e acessibilidade solvente poderia ajudar na cura de tumores de ambos os tipos.

Foi evidente que uma demarcação rigorosa entre as categorias de tumor era uma tarefa complicada, pois muitas propriedades foram encontrados para exibir composição semelhante em ambas as classes de tumores. No entanto, a metodologia proposta foi encontrado para diferenciar entre as classes de tumor com uma alta MCC de 0,812 e precisão da classificação de 87,6%, o maior relatado até agora na categorização tumor de pulmão baseado -property proteína.

Comparação de Trabalho anterior

Como afirmado anteriormente, o único estudo computacional anterior sobre categorização tumor de pulmão com base nas propriedades estruturais e físico-químicas à base de sequência de proteína foi relatado por Hosseinzadeh et.al [1] que fez uma comparação de dez técnicas de seleção de características diferentes e relatou o conjunto de recursos gerado pelo critério Rácio Ganho para gerar precisão de validação ideal 10 vezes cruz de 86% com o classificador aleatória Forest. Sua metodologia incorporou 114 sequências com 30 genes na classe NSCLC, 59 no CPPC e 25 na classe comum dos tumores. Além disso a sua metodologia também envolveu extensa limpeza de dados e pré-processamento. Aqui temos feito uso das 113 sequências [16] – [18] a partir dos conjuntos de genes KEGG correspondentes às classes de tumores NSCLC e SCLC e segregados os genes sob as três classes viz, NSCLC, SCLC e comum. O número de registros resumiu a 113 com 29 genes [16] – [17] na classe NSCLC. Este estudo teve por objetivo identificar o conjunto mínimo e ideal de recursos para categorizar as classes de tumor de pulmão para uso na prática de diagnóstico e concepção de medicamentos. Por isso foi utilizado o critério Rácio Ganho, critério de Ganho de Informação e Symmetric Incerteza para classificar as características e depois aplicado o avaliador subconjunto Correlação de funções [22] com um limiar de busca de terminação de 5 e Melhor Primeiro Pesquisa abordagem para identificar o mais pequeno subconjunto de recursos com um alta correlação de classe de destino e menos correlação entre si. Isto resultou em um subconjunto de recursos com 39 características. Ao comparar a precisão de validação cruzada canivete de cinco modelos de classificação de referência, o algoritmo de aprendizagem Bayesiana Rede foi encontrado para gerar o maior MCC de 0,77 com uma precisão de 85% com todos os três subgrupos de seleção de características híbridas. Ao aplicar Seleção de Recursos Incremental obtivemos o conjunto de recursos mais eficiente de 36 recursos (recurso subconjunto de Rácio Ganho + CFS) gerando uma precisão de 87,6%.

O trabalho anterior de Hosseinzadeh et.al relataram uma alta precisão de 86% apenas nos dados limpos após a remoção de registros duplicados, registros correlatos e com base nos valores de desvio padrão. Ao considerar os mesmos dados, o nosso trabalho proposto tem conseguido uma maior precisão com os dados originais, não modificados poupando assim tempo de processamento, através da eliminação do processo de limpeza de dados. A fim de trazer para fora a comparação mais claramente que nós identificamos a precisão da Random Floresta com Rácio Ganho (anteriormente proposto modelo classificador) sobre os dados originais que foi capaz de gerar uma ótima precisão de apenas 79,6%, com 26 características da relação de ganho – conjunto de recursos CFS em comparação com o nosso método proposto que produziu% de precisão 87,6 com 36 características de um mesmo subconjunto recurso. Acreditamos que a nossa metodologia proposta pode ser facilmente estendido para classificar e discriminar entre outros tumores oncogênicos desde que os dados originais foi retido para análise computacional. No entanto, o método anterior parece ter gerado uma alta precisão (86%), apenas sobre os dados limpos o que o torna uma limitação ao estender a metodologia a outros conjuntos de dados de câncer. Além disso, o modelo anteriormente proposto implicaria dados adicionais de tempo de pré-processamento quando aplicada a novos conjuntos de dados de câncer.

comparação com outros métodos

Foram comparados três métodos de seleção de atributos [22] ou seja Ganho de Informação, Symmetric incerteza e Rácio de Ganho. Nós aplicamos CFS subconjunto avaliador em todos os conjuntos de recursos classificados pelos três algoritmos. Todos os cinco algoritmos de classificação de referência [67] – [68] foram aplicadas sobre os conjuntos de dados apresentam reduzidos. Os resultados estão tabelados na Tabela 2. Todos os três métodos de previsão indicadas consistentemente alta precisão com a técnica de predição Bayesiana rede. A precisão óptima foi obtida somente durante o processo de Seleção de Recursos Incremental com o Coeficiente de Ganho e CFS combinação subconjunto avaliador que atingiu uma precisão melhorada de 87,6% com 36 características.

Deixe uma resposta