PLOS ONE: Classificação de Lung Cancer Tumores com base nas propriedades estruturais e físico-química de proteínas por Bioinformatics Models

Abstract

rápida distinção entre o câncer de pulmão de pequenas células (CPPC) e câncer de pulmão de células não pequenas (NSCLC) tumores é muito importante para o diagnóstico da doença. Além disso descritores estruturais e físico-químicas derivadas de sequências são muito úteis para a previsão de aprendizagem de máquina de proteína estrutural e classes funcionais, proteínas classificar e do desempenho de previsão. Aqui, neste estudo é a classificação dos tumores de pulmão com base em 1497 atributos derivados de propriedades estruturais e físico-químicas de sequências de proteínas (com base em genes definidos por análise de microarray) investigados através de uma combinação de ponderação atributo, algoritmos de agrupamento sem vigilância supervisionada e. Oitenta por cento dos recursos métodos de ponderação seleccionados, como autocorrelação, composição dipeptídeo e distribuição de hidrofobicidade como a proteína mais importante atributos de classificação de SCLC, NSCLC e classes comuns de tumores pulmonares. Os mesmos resultados foram observados pela maioria dos algoritmos de indução de árvore enquanto descritores de distribuição hidrofobia eram ricos em sequências de proteínas comuns em ambos os grupos e distribuição de carga nestas proteínas foi muito baixa; mostrando proteínas comuns foram muito hidrofóbico. Além disso, as composições de dipéptido polar em proteínas SCLC foram maiores do que as proteínas de NSCLC. Alguns modelos de agrupamento (sozinho ou em combinação com algoritmos atributo de ponderação) foram capazes de quase classificar proteínas e SCLC NSCLC. Floresta aleatório algoritmo de indução de árvores, calculado sobre folhas de um-para fora e 10 vezes validação cruzada) mostra que mais de 86% de precisão no agrupamento e prever três diferentes tumores de câncer de pulmão. Aqui, pela primeira vez a aplicação de ferramentas de mineração de dados para classificar efetivamente três classes de tumores de câncer de pulmão sobre a importância da composição dipeptídeo, autocorrelação e descritor de distribuição tem sido relatada

Citation:. Hosseinzadeh F, Ebrahimi M, Goliaei B, Shamabadi N (2012) Classification of Lung Cancer tumores com base nas propriedades estruturais e físico-química de proteínas por Bioinformática Models. PLoS ONE 7 (7): e40017. doi: 10.1371 /journal.pone.0040017

editor: Hassan Ashktorab, Howard University, Estados Unidos da América

Recebido: 27 Março, 2012; Aceito: 30 de maio de 2012; Publicação: 19 de julho de 2012

Direitos de autor: © 2012 Hosseinzadeh et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Os autores não têm apoio ou financiamento para relatar

Conflito de interesses:. Os autores declararam que não existem interesses conflitantes

Introdução

câncer

pulmão é a principal causa de mortes por câncer. no mundo todo. Entre os cancros do pulmão, cancro do pulmão de células não pequenas (NSCLC) afecta cerca de 80% dos pacientes e, quando diagnosticados numa fase localizada, a sobrevivência de 5 anos é de cerca de 50%, ao passo que diminui a 8% e 3%, no caso de comprometimento dos linfonodos ou metástase, respectivamente [1]. A inalação de fumo do tabaco e outros agentes cancerígenos ambientais é considerada um importante fator etiológico [2]. Estudos epidemiológicos continuar a fornecer evidências de que a variabilidade genética na resposta individual a agentes cancerígenos pode modificar a suscetibilidade ao câncer. Polimorfismos de genes envolvidos na desintoxicação de substâncias cancerígenas, e aqueles que modulam e danos no DNA reparação após a exposição cancerígena, têm sido associados aos riscos de câncer de pulmão [3].

Os pacientes com tumores de pulmão de células não pequenas (escamosas , AC, e de grandes células) são tratados de forma diferente daqueles com tumores de células pequenas, distinção, portanto, patológica entre estes dois tipos de tumor de pulmão é muito importante. Os padrões de expressão de genes tornaram possível a sub classificação de adenocarcinoma em subgrupos que se correlacionavam com o grau de diferenciação do tumor, bem como a sobrevivência do paciente. análise de expressão gênica promete, assim, para ampliar e aperfeiçoar a análise padrão patológico [4]. Tem sido largamente aceite que a carcinogénese do pulmão é um processo de passos múltiplos e alterações fenotípicas resultou de activação de oncogenes e inactivação de genes supressores de tumor [5]. cancro do pulmão de células não pequenas (NSCLC) é a principal causa de mortalidade por cancro em todo o mundo. Actualmente, não existem biomarcadores confiáveis ​​estão disponíveis para orientar a gestão desta condição. microarrays tecnologia pode permitir biomarcadores apropriados sejam identificados, mas as plataformas atuais faltam foco da doença e são, portanto, provável que perca informações potencialmente vital contida em amostras de tecido de pacientes. Uma combinação de grande escala seqüenciamento in-house, perfil de expressão gênica e sequência pública e mineração de dados de expressão gênica foram usadas para caracterizar o transcriptoma do NSCLC [6]. Identificação de um produto biológico prognóstico útil e marcador molecular é, por conseguinte, importante para avaliar os biológicos e moleculares características que diferem a partir de tumor, nódulo linfático, metástases TNM no cancro do pulmão de células não pequenas (NSCLC), a fim de prever o prognóstico e estabelecer métodos preventivos [7 ]. Um melhor entendimento da patogênese molecular de SCLC seria provavelmente sugerem estratégias para diagnóstico precoce e novas terapias moleculares-alvo [8].

Em estudos recentes, alguns classificadores são usados ​​para classificação dos genes do cancro ou proteínas, por exemplo KNN classificador pode ter alguma utilidade para alguns problemas de classificação microarray, agindo em todo o conjunto de dados não-dimensão reduzida. Eles mostram que o aumento da dimensionalidade desses conjuntos (considerando pares, triplos ou quatro-tuplas, em vez de sequências de transcrição individuais, um por um) pode levar a melhorias significativas com cada dimensão adquirida [9]. Em outro estudo, características de proteínas expressas em maligno, benigno e ambos os tipos de câncer foram comparados utilizando diferentes técnicas de triagem, métodos de agrupamento, modelos de árvore de decisão e indução de regras generalizada (GRI) algoritmos para procurar padrões de similaridade em dois grupos de câncer de mama benignas e malignas [10] ou o desenvolvimento e teste de um classificador bayesiano ingênuo com base nas propriedades seqüência dos genes ea função molecular e processos biológicos em que estão envolvidos, a fim de revelar suas características únicas que podem ajudar no sentido da identificação de novos genes do cancro candidato [11 ] ou a implementação de um método sistemático que prevê o envolvimento de câncer de genes através da integração de bases de dados heterogêneas, baseando-se em: (i) interações proteína-proteína; (Ii) a expressão diferencial de dados; e (iii) as propriedades estruturais e funcionais de genes de câncer [12].

Também na classificação do câncer de pulmão, em vários estudos, os modelos de mineração de dados têm sido utilizados. Por exemplo, um modelo de classificação e regressão árvore (CART) foi treinado para classificar os 41 espécimes clínicos como a doença /não-doença com base em 26 variáveis ​​calculadas a partir da razão de massa-para-carga (m /z) e alturas de pico das proteínas identificadas por espectrometria de massa de as amostras de soro de sangue de pessoas com e sem cancro do pulmão [13], ou uma abordagem de teste de formação para a classificação molecular de cancro do pulmão não pequenas células ressecado que, neste estudo, uma abordagem de teste de formação foi usado para testar a fiabilidade de ADNc classificações de cancros humanos ressecados não-pequenas células do pulmão (NSCLCs) analisadas por micromatriz de ADNc [14] baseia-microarray. No outro estudo, a classificação de linhas celulares de cancro indivíduo pulmão (SCLC e NSCLC) foi realizada com base em marcadores de metilação do DNA usando de análise discriminante linear e redes neurais artificiais, e no resultado, este trabalho suporta a promessa de análise ANN de dados de metilação do DNA como uma abordagem poderosa para o desenvolvimento de métodos automáticos de classificação de cancro do pulmão [15]. Em outro estudo de análise de câncer de pulmão gene banco de dados de expressão incorporada conhecimento prévio com o método de classificação baseado em máquina de vetores de suporte, juntamente com a aplicação de máquina de vetores de suporte como a abordagem discriminante, e um método proposto, que incorporou o conhecimento prévio para a classificação do câncer com base em dados de expressão gênica para melhorar a precisão [16]. Para classificar automaticamente pulmão tumor-nódulo-metástase (TNM) estágios do câncer de relatórios de patologia de texto livre com a classificação baseada em regras simbólico. As matrizes de medição de precisão e confusão foram usadas para avaliar os estágios TNM classificados pelo sistema baseado em regras simbólico. O sistema foi avaliado contra um banco de dados de preparo equipe multidisciplinar por decisões e um sistema de classificação baseado em texto-aprendizagem de máquina utilização de máquinas de vetor de suporte [17]. características estruturais e físico-químicas derivadas de sequência têm sido frequentemente utilizados no desenvolvimento de modelos de aprendizagem estatísticos para prever proteínas e peptídeos de diferentes perfis estruturais, funcionais e de interação.

PROFEAT (Funções de proteína) é um servidor web para a computação comumente características estruturais e físico-químicas -Usado de proteínas e péptidos da sequência de aminoácidos [18]. classes funcionais estrutural e as características físico-químicas têm sido frequentemente utilizados para predizer proteína estrutural derivada da sequência e [19], [20], [21], [22], [23], as interacções proteína-proteína [24], [25], [26], localizações subcelulares [27], [28] e peptídeos de propriedades específicas [29] a partir da sua sequência. Estas características são muito úteis para representar e distinguir proteínas ou peptídeos de diferentes perfis estruturais, funcionais e de interação, que é essencial para o sucesso da aplicação de métodos de aprendizagem estatísticos na previsão dos perfis estruturais, funcionais e de interação de proteínas e peptídeos, independentemente da similaridade de sequência [ ,,,0],30].

neste estudo, com atenção para a importância da classificação dos tumores de pulmão no diagnóstico e tratamento desta doença e aplicação e utilidade das características estruturais e físico-químicas derivadas de sequências de proteínas, a classificação de 2 tipos de tumores de pulmão com base nas propriedades estruturais e físico-químicas das proteínas investigadas usando de bioinformática e ferramentas de mineração de dados.

Materiais e Métodos

Preparação de dados

análise Microarray no GSEA db ( Conjunto de banco de dados de genes Análise de Enriquecimento) utilizado para extrair os genes envolvidos em ambos os tipos de tumores do pulmão (SCLC) ou NSCLC. Alguns genes eram comuns em ambos os tumores assim chamado por conjunto comum. Proteínas para cada grupo de genes (SCLC = 59, NSCLC = 30 ou COMMON = 25) extraído por servidor DAVID (https://david.abcc.ncifcrf.gov) e sequências de proteína extraída da UniProt Base de Conhecimento (Swiss-Prot e tremem) banco de dados. Uma milhares e noventa e sete características de proteína ou atributos computados por PROFEAT web (https://jing.cz3.nus.edu.sg/cgi-bin/prof/prof.cgi), incluindo proteínas estruturais e físico-químicas. Um índice Fi.jkl é usado para representar a l

th valor descritor do k

th descritor do j

th recurso no i

th grupo recurso, que serve como uma referência fácil o manual PROFEAT fornecidas na página inicial do servidor e uma lista desses grupos de recursos apresentados na Tabela S1 (detalhes foram apresentados no Apêndice S1) [18]. Um conjunto de dados desses recursos proteína foi importado para rápida Miner (Rapid Miner 5.0.001, Rapid-I GmbH, Stochumer Str. 475, 44227 Dortmund, Alemanha), software, e do tipo de tumor (SCLC, NSCLC ou ordinárias) foi definido como o alvo ou o rótulo atributo.

Limpeza de dados

características duplicadas removidas comparando todos os exemplos uns com os outros sobre a base da seleção especificada de atributos (dois exemplos foram assumidas iguais se todos os valores de todos atributos selecionados foram iguais). Então atributos inúteis removido do conjunto de dados. atributos numéricos que possuíam desvios padrão sejam inferiores ou iguais a um limiar dado desvio (0,1) assumida como sendo inúteis e removido. Finalmente, correlacionadas características (com Pearson correlação maior que 0,9) omitido. Após a limpeza, o número de atributos e registros diminuiu e esta base de dados marcado como Final banco de dados Limpo (FCdb).

Atributo Ponderação

Para identificar as características mais importantes e para encontrar os possíveis padrões em recursos que contribuem para tumores de câncer de pulmão, 10 algoritmos diferentes de ponderações de atributos foram aplicados ao conjunto de dados limpos (FCdb), conforme descrito abaixo.

Peso por ganho de informação.

Este operador calculado o relevância de um recurso pelo cálculo do ganho de informação na distribuição de classe.

Peso por razão de ganho de informação.

Este operador calculada a relevância de um recurso pelo cálculo do ganho de informação rácio de distribuição de classe.

Peso pela regra.

Este operador calculada a relevância de um recurso pelo cálculo da taxa de erro de um Modelo Oner no exemplo dado, sem este recurso.

Peso desvio.

este operador criado pesos dos desvios-padrão de todos os atributos. Os valores foram normalizados pela média, o mínimo ou o máximo do atributo.

Peso por qui-quadrado estatística.

Este operador calculada a relevância de um recurso pela computação, para cada atributo de um exemplo de conjunto de entrada, o valor da estatística qui-quadrado em relação ao atributo de classe.

Peso pelo índice de Gini.

este operador calculada a relevância de um atributo pelo cálculo do índice de Gini da distribuição de classe, se o exemplo dado conjunto teria sido dividido de acordo com a função.

Peso pela incerteza.

Este operador calculada a relevância de um atributo medindo a incerteza simétrica em relação à classe.

Peso por alívio.

Este operador mediu a relevância de recursos, por amostragem, exemplos e comparando o valor da característica de corrente para o exemplo mais próximo do mesmo e de uma classe diferente. Esta versão também trabalhou para várias classes e conjuntos de dados de regressão. Os pesos resultantes foram normalizados no intervalo entre 0 e 1.

Peso pelo SVM (Support Vector Machine).

Este operador utilizados os coeficientes do vetor normal um SVM linear como pesos-metragens.

Peso por PCA (análise de componentes principais).

Este operador usado os fatores do primeiro dos componentes principais como pesos-metragens.

atributo Seleção

Depois modelos atributo de ponderação correu na FCdb, cada atributo de proteína (feature) ganhou um valor entre 0 e 1, que revelou a importância desse atributo que diz respeito à um atributo alvo (tipo de tumores). Todas as variáveis ​​com pesos superiores a 0,50 foram selecionadas e 10 novos conjuntos de dados criado. Estes conjuntos de dados recém-formados foram nomeados de acordo com os seus modelos atributo de ponderação (ganho de informação, relação de ganho de Informação, Regra, desvio, qui-quadrado, índice de Gini, Incerteza, Alívio, SVM e PCA) e foram utilizados para se juntar com os modelos posteriores (supervisionada e não supervisionada ). Cada modelo de agrupamento supervisionado ou não supervisionado foram realizadas 11 vezes; a primeira vez que foi executado no conjunto de dados principal (FCdb) e, em seguida, sobre os 10 conjuntos de dados recém-formados (os resultados de ponderação atributo).

Unsupervised Clustering Algoritmos

Os algoritmos de agrupamento listados abaixo foram aplicada sobre os 10 conjuntos de dados recém-criados (gerados como os resultados de 10 diferentes algoritmos atributo de ponderação (bem como o conjunto de dados principal (FCdb).

K-Means.

Este operador utiliza kernels para estimar a distância entre objetos e clusters. por causa da natureza de grãos, é necessário somar sobre todos os elementos de um cluster para calcular uma distância.

K-Medoids.

Este operador representa uma implementação de k-Medoids. Este operador irá criar um atributo de cluster, se ainda não estiver presente.

árvore indução Models

DecisionTrees.

Cinco modelos de indução de árvore de decisão, incluindo árvore, Parallel árvore de decisão, decisão Stump, Random árvore e aleatória Floresta correu no conjunto de dados principal (FCdb). um modelo paralelo árvore de decisão com base em peso, o que aprende uma árvore de decisão podadas com base em um teste arbitrário relevância recurso (atributo esquema de ponderação como operador interno), aplicado a 10 conjuntos de dados diferentes criados a partir de seleção de atributos de ponderação (SVM, Índice de Gini, Incerteza, PCA, Chi Squared, Rule, Alívio, Ganho de Informação, Rácio Ganho de Informação e Desvio).

Previsão máquina baseada por sair de um limite de 10 vezes Cruz Validação

Árvore de decisão.

dezesseis modelos de aprendizagem de máquina executado em quatro algoritmos de árvore de decisão (

Árvore de decisão, paralelas Árvore de decisão, decisão Stump

e

Aleatório Floresta

) com quatro diferentes critérios (

Relação de ganho, Ganho de Informação, Índice de Gini

e

Precisão

) em todos os 11 conjuntos de dados para encontrar um modelo adequado (s ) para prever a precisão e os erros de classificação de classes com base em atributos de proteína. Para calcular a precisão de cada modelo, 10 vezes validação cruzada [14] é usado para treinar e testar modelos em todos os padrões. Para executar a validação cruzada, todos os registros foram aleatoriamente divididos em 10 partes, 9 conjuntos foram utilizados para treinamento e 10 um para o teste (deixe one-out). O processo foi repetido 10 vezes ea precisão para verdadeiro, falso total e precisão do cálculo. O final de precisão relatado como a média da precisão em todos os dez testes.

Resultados

Limpeza de dados

O conjunto de dados inicial continha 114 registros (sequências de proteína) com 1497 características de proteína . Desses registros, 59 registros foram classificados como classe SCLC, 30 registros pertenciam à classe NSCLC e 25 registros foram classificados como de classe comum. Após a remoção de duplicatas, atributos inúteis, e as características correlacionadas (limpeza de dados) o número de recursos de proteína diminuiu para 1089 recursos

Atributo Ponderação

Os dados foram normalizados antes de executar os modelos.; esperava-se que todos os pesos seria entre 0 e 1. Características ganharam peso valores superiores a 0,50 com pelo menos 50% dos algoritmos de ponderação consideradas como características de proteínas importantes (Tabela S2).

algoritmos de agrupamento não supervisionado

Dois algoritmos de agrupamento sem supervisão diferentes (K-means e K-medoides) foram aplicados sobre FCdb e dez conjuntos de dados criado usando seleção de atributos (ponderação) algoritmos. Nenhum dos algoritmos de agrupamento foram capazes de diferenciar plenamente as proteínas que envolvidos em quaisquer tipos de tumor pulmonar (Tabela S3).

Árvore indução Models

Cinco modelos de indução de árvore (árvore de decisão, Árvore de Decisão paralelas , a Decisão Stump, Random Árvore e aleatória Forest) funcionou em FCdb e 10 conjuntos de dados que geraram após a realização de 10 algoritmos atributo de ponderação. No total gerado 151 árvores (modelo aleatório Floresta si incluiu 10 modelos)

Vários modelos induzidos árvores simples, enquanto outros foram complicadas.; 9 Árvore de Decisão e 35 modelos aleatórios floresta foram as melhores árvores para distinguir claramente entre dois tipos de câncer.

Distribuição de hidrofobicidade foi o atributo mais importante usado para construir a árvore quando o modelo de árvore de decisão aplicada à Informação Ganho conjunto de dados ( Figura 1). Quando o valor para esta característica foi mais do que 30,628, as proteínas caiu na classe COMUM. Os descritores de autocorrelação e composições dipeptídicos foram as outras características utilizadas para construir o resto da árvore. Se a composição de ácido cisteína-glutâmico ([F1.2.1.24]: dipeptídeo polar) foi mais do que 0,087, a proteína pertencia ao tumor SCLC e de outra forma caiu em classe NSCLC. Composição dos dipéptidos não polares em proteínas NSCLC foi mais do que as proteínas SCLC ([F1.2.1.218]: Met-Val) e overhand, composições dipept�icos de proteínas CPPC são mais polares do que as proteínas NSCLC ([F1.2.1.326]: Thr- Gli, [F1.2.1.98]: Phe-Val). . Os detalhes desse modelo tornaram-se no abaixo

Na sequência de pontos importantes podem ser extraídas do tress, em geral, estes resultados têm relatado pela primeira vez:

F1.2 (composição dipeptídeo), F3.1 (Moran de autocorrelação) e F5.3 (descritor de distribuição) foram as características mais importantes de proteínas usadas por modelos de árvore de decisão de classificar três classes de câncer de pulmão (SCLC, NSCLC, comum).

distribuição de hidrofobia (F5.3.1) na classe comum era muito alto, enquanto a distribuição dos encargos (F5.3.5) foi muito baixa (Figura 2).

em geral, a composição dos dipéptidos não polares na classe SCLC foi menor do que proteínas e composição do dipeptídeo polar em proteínas associadas SCLC COMUNS foi maior do que a classe NSCLC (Figura 1).

na primeira etapa se a distribuição da carga foi igual ou inferior a 22.703 as proteínas caiu de classe comum; composição dipeptídeo foi outra característica importante para a elaboração desta árvore.

máquina baseada Previsão de sair de um-out 10 vezes Cruz Validação

As precisões de todos os algoritmos de previsão induzidas são apresentados na Tabela S4. Quase, as precisões médios de todos os modelos mostraram maior precisão de 60%. Os menores precisão obtida quando modelo Cepo decisão correu no conjunto de dados de Socorro com os critérios do Índice de Gini (41,89%). A melhor precisão previu alcançado quando Aleatório Floresta modelo de árvore de decisão correu em dataset regra com Rácio Ganho (86,00%)

Discussão

O câncer de pulmão pode ser dividido em dois grupos de acordo com a patologia:. Non cancro -pequena do pulmão (NSCLC) (80,4%) e cancro de pequenas células do pulmão (16,8%) [31]. Os pacientes com tumor de pulmão de não pequenas células são tratadas de forma diferente daqueles com tumores de células pequenas. A distinção patológica entre o cancro de pequenas células do pulmão (SCLC) e cancro do pulmão de não pequenas células é, portanto, muito importante [4]. Muitos estudos têm considerado a classificação de câncer de pulmão [16], [32], [33], [34], [35], [36], [37], [38], [39]. Por exemplo, os padrões de expressão RNA associados com pulmão de não pequenas células sub câncer de classificação têm sido relatados, mas há diferenças substanciais nos genes-chave e características clínicas desses subconjuntos que ponham em causa a sua importância biológica. Neste estudo recente, uma abordagem de teste de formação têm usado para testar a confiabilidade de cDNA classificações baseadas em microarranjos de cânceres humanos ressecados pulmão de não pequenas células (NSCLCs) analisados ​​por cDNA microarray. Estes resultados demonstraram que a expressão do gene de perfis pode identificar classes moleculares de CPNPC ressecados que classifica correctamente uma coorte de teste cego, e se correlaciona com suplementos e avaliação histológica padrão [14]. Em resumo, o apoio extenso e detalhado para a ideia de que gene classificação dos tumores baseada em expressão em breve se tornará clinicamente útil para o cancro do pulmão forneceram [4]. classificação molecular de NSCLC utilizando um teste quantitativo objectivo pode ser altamente precisos e podem ser traduzidos para uma plataforma de diagnóstico para a aplicação clínica ampla [40].

descritores estruturais e físico-químicas derivadas de Sequência têm sido frequentemente usadas na previsão de aprendizagem de máquina de proteína estrutural e classes funcionais [19], [20], [21], [22], [23], [24], as interacções proteína-proteína [24], [25], [26], [41], localizações subcelulares [27], [28], [42], [43], péptidos contendo propriedades específicas [29], [44], os dados de microarray [45] e a previsão da estrutura secundária da proteína [46]. Estes descritores servem para representar e distinguir proteínas ou peptídeos de diferentes perfis estruturais, funcionais e de interacção, explorando suas características distintas em composições, correlações, e distribuições dos aminoácidos constituintes e suas propriedades estruturais e físico-químicas [18], [20], [ ,,,0],26], [30] e isso provou que atualmente utilizados descritor conjuntos são geralmente úteis para a classificação de proteínas eo desempenho de previsão pode ser melhorada, explorando combinações de descritores [47].

no presente estudo, foi utilizado estrutural e propriedades físico-químicas das proteínas que envolvem em quaisquer tipos de tumores pulmonares para a classificação deles e detectar propriedades de proteínas mais importantes que participaram distinguir de tumores pulmonares. Várias técnicas de modelagem foram aplicadas para estudar 1497 atributos de proteínas que envolvidos em duas e quatro tipos (dados não publicados) de câncer de pulmão. Quando o número de variáveis ​​ou atributos é suficientemente grande, a capacidade de unidades de processo é significativamente reduzida. algoritmos de limpeza de dados foram usadas para remover atributos correlacionados, inúteis ou duplicadas, o que resulta em um banco de dados menor [48], [49]. Cerca de 15% dos atributos descartados quando estes algoritmos foram aplicados sobre os conjuntos de dados originais

Dez modelos atributo de ponderação diferentes aplicados em conjunto de dados limpos final.; à medida que cada algoritmo utiliza um padrão específico para definir as características mais importantes, assim, os resultados podem ser diferentes [50]. Os grupos de recurso de F5.3 (descritores de distribuição), F1.2 (composição dipeptídeo) e F3.1 (autocorrelação) foram os atributos mais importantes selecionados por modelos atributo de ponderação para distinguir entre SCLC, NSCLC e classes comuns de tipos de tumor de pulmão, tal como definido por 80% dos algoritmos de atributo de ponderação (Tabela S2).

Além disso, as árvores de decisões apropriadas, resultados compatíveis com algoritmos de ponderação de atributos foram mostradas e a mesma proteína grupos de atributos (F2.1, F3.1 , F5.3 e F1.2) selecionado como os atributos mais importantes na classificação de proteínas do tumor do pulmão. Além disso, a maioria das árvores induzidas apresentaram atributos F5.3, distribuição de hidrofobia em proteínas comum era muito alto e distribuição de resíduos carregados nestas proteínas foi muito baixa, portanto, os resultados proteínas confirmados de classe comuns foram muito hidrofóbico.

A importância da hidrofobicidade foi destaque em alguns estudos [51], [52], [53]. É bem sabido que a hidrofobicidade desempenha um papel importante na determinação das propriedades dos aminoácidos, péptidos e proteínas. Em outro estudo, resíduos hidrofóbicos foram predominantes na lenta gama de dobrar, e resíduos hidrofílicos freqüência ocorreu na faixa rápida. Em geral, o meio ambiente circundante de proteínas é a água. Tipicamente, as cadeias laterais de resíduos hidrófobos estão enterrados no interior de proteínas para formar núcleo hidrofóbico, o que está para além da água, enquanto que as cadeias laterais de resíduos hidrofílicos estão expostos à superfície da proteína, o que está próximo de água molecular [ ,,,0],54]. Portanto, os resultados do nosso estudo, pela primeira vez, confirmar que a importância de hidrofobia em permitir dobrar rápida das proteínas comuns entre dois tipos de tumores pulmonares e aumentando a sua capacidade para a propriedade tumorigénico.

composição de dipeptídeos foi outros grupos apresentam proteínas importantes selecionados como importante no presente estudo. Em nossos estudos recentes, que mostraram que dip�tidos específicas desempenhar o papel central na classificação do câncer de mama e estabilidade auréola proteína e termo de estabilidade [10], [55], [56]. A importância da classificação baseada na sequência de detecção de várias proteínas expressas em cancro da mama e da importância do dipéptido Ile-Ile no agrupamento de proteínas, foram relatados lá [10]. Neste trabalho, a maioria dos modelos de árvore de decisão mostrou que a composição de dipeptídeo polar em proteínas SCLC foram mais do que proteínas NSCLC e vice-versa, resultando proteínas NSCLC para mostrar mais hidrofobia. Estes resultados têm relatado pela primeira vez e pode ser um dos principais fatores para facilitar SCLC tumores distribuição.

No presente estudo, o descritor de autocorrelação foi outro grupo característica importante para classificação dos tumores de pulmão. descritores de autocorrelação são uma classe de descritores topológicos, também conhecidos como índices de conectividade molecular, descrever o nível de correlação entre dois objetos (sequências de proteínas ou peptídeos) em termos de sua propriedade específica estrutural ou físico-químicas [57], que são definidos com base na distribuição de propriedades de aminoácidos ao longo da sequência [58]. Oito propriedades de aminoácidos são utilizados para derivar os descritores de autocorrelação: escala de hidrofobicidade [59]; índice de flexibilidade média [60]; parâmetro polarizabilidade [61]; energia livre de solução de aminoácidos em água [61]; áreas de superfície acessível resíduos [62]; os volumes de resíduos de aminoácidos [63]; parâmetros estereoquímicos [64]; e mutabilidade relativo [65]. Um estudo recente mostrou que a informação AASA (sequência de aminoácidos de autocorrelação) é muito eficaz para representar a relação entre a sequência de proteína e as taxas de dobragem correspondentes [54]. Assim, as propriedades de autocorrelação pode desempenhar um papel importante na dobragem de três tumores de cancro do pulmão estudadas aqui e esta característica tem sido relatada pela primeira vez neste estudo. abordagem autocorrelação teve o uso bem-sucedido para a modelagem de propriedades moleculares, atividades biológicas [66], [67] e previsão de teor de hélice de proteínas [68]. Num estudo recente, um método para reconstruir a distribuição de tensão ao alterar o método de autocorrelação, “método de autocorrelação combinada” proposto. Em experiências utilizando um fantasma de tumor da mama e um tecido extraído incluindo um tumor canceroso, cada imagem módulo de elasticidade, obtido pelo método de autocorrelação combinadas e o modelo de elementos finitos do tecido 3-D claramente visível a região mais difícil do material macio circundante ou tecido. Estes resultados revelam que o método de autocorrelação combinada é um meio promissor para tumores diagnosticar [69], como mostrado neste trabalho.

algoritmos de agrupamento não supervisionado têm sido amplamente empregados em uma variedade de áreas das ciências biológicas, incluindo diagnósticos e processamento de imagem [70], EST [71], a detecção do câncer [72], a análise do promotor [71], genes e proteínas bioinformática [56], [73], [74], [75], [76]. Aqui, foram utilizados dois métodos diferentes sem supervisão de agrupamento (K-means e K-medoides) sobre FCdb e 10 conjuntos de dados criados a partir de atributos de proteína, que foram atribuídos pesos elevados. Os desempenhos destes algoritmos variou significativamente. Alguns métodos foram capazes de quase atribuir proteína NSCLC na classe correta (por exemplo, o algoritmo K-Medoids, quando aplicado a FCdb e Desvio, Índice de Gini, Ganho de Informação, PCA e conjuntos de dados de incerteza). Os resultados mostraram que o algoritmo K-Medoids era quase capaz de classificar proteínas SCLC para a classe correta quando é executado no conjunto de dados Chi Squared. Mas nenhum algoritmo de agrupamento foi capaz de classificar corretamente proteínas ordinárias em respectiva classe (Tabela S3). Para o agrupamento mais exata de proteínas que pertenciam a quaisquer tipos de tumores de pulmão, outros modelos de clustering, como EM aplicada aos dados com maior precisão (dados não publicados).

Como mostrado na Tabela S4, as precisões globais para indução de árvores

Deixe uma resposta