PLOS ONE: Melhoria da classificação do câncer pulmonar, utilizando Radial Basis Function Rede Neural com Affine Transformadas de Representação Voss

Sumário

O cancro do pulmão é uma das doenças responsáveis ​​por um grande número de casos de morte relacionadas ao câncer em todo o mundo. O padrão recomendado para o rastreamento e detecção precoce do cancro do pulmão é a tomografia computadorizada de baixa dose. No entanto, muitos pacientes diagnosticados morrer dentro de um ano, o que faz com que seja essencial para encontrar abordagens alternativas para o rastreio e detecção precoce do cancro do pulmão. Nós apresentamos métodos computacionais que podem ser implementadas em um sistema multi-genómica funcional para a classificação, o rastreio e detecção precoce de vítimas de câncer de pulmão. Amostras de dez genes biomarcadores previamente relatado para ter a maior frequência de mutações de câncer de pulmão e sequências de genes normais biomarcadores foram, respectivamente, coletados a partir das bases de dados do NCBI cósmica e para validar os métodos computacionais. Os experimentos foram realizados com base nas combinações de Z-curva e afins tetraedro transforma, histograma da Gradiente Orientado (HOG), perceptron multicamadas e Gaussian Radial Basis Function (RBF) redes neurais para obter uma combinação apropriada de métodos computacionais para conseguir um melhor classificação de pulmão genes biomarcadores de câncer. Os resultados mostram que uma combinação de transformações afim de representação Voss, características genômicas HOG e rede neural RBF Gaussian perceptível melhora a precisão da classificação, especificidade e sensibilidade dos genes biomarcadores de câncer de pulmão, bem como a realização baixo erro quadrado médio

Citation.: Adetiba E, Olugbara OO (2015) Melhoria da classificação do câncer pulmonar, utilizando radial Basis Function Rede Neural com Affine Transformadas de Voss Representação. PLoS ONE 10 (12): e0143542. doi: 10.1371 /journal.pone.0143542

editor: Xia Li, Harbin Medical University, CHINA

Recebido: 17 Agosto, 2015; Aceito: 05 de novembro de 2015; Publicação: 01 de dezembro de 2015

Direitos de autor: © 2015 Adetiba, Olugbara. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Data Availability: Para este estudo , o Catálogo do Somatic mutações em câncer (COSMIC) é um banco de dados de mutações somáticas no cancro humano, que os autores utilizaram. Top dez genes com maior frequência de mutações no pulmão têm os seguintes símbolos: TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 e SMARCA4. Esses símbolos foram obtidos a partir do banco de dados do Comité de Nomenclatura Gene HUGO (HGNC)

Financiamento:.. Financiado pela Universidade de Tecnologia de Durban Investigação e Suporte Pós-Graduação

Competir interesses: Os autores declararam que existem interesses não há concorrentes.

Introdução

o câncer de pulmão é um tumor maligno no tecido dos pulmões humanos que continua sendo uma das mais principais causas de casos de morte relacionadas ao câncer em todo o mundo [1]. Baixa dose de tomografia computadorizada (TC) é o padrão recomendado para o rastreamento e detecção precoce do cancro do pulmão [2]. No entanto, a taxa de sobrevivência de cancro do pulmão é muito baixa e mais de metade dos doentes diagnosticados com a doença morrem dentro de um ano [3]. O cancro do pulmão desenvolve por causa de um dano genético sustentado para células pulmonares normais por agentes cancerígenos da fumaça do cigarro e outras fontes. foram relatados mais de 50 estudos retrospectivos sobre tabagismo e CP para demonstrar um avanço notável no risco de câncer de pulmão para fumantes ou fumantes passivos em comparação aos não-fumantes [4]. De fato, estudos recentes [5,6] atestaram a fumar como indiscutivelmente uma das principais causas de câncer de pulmão, embora cerca de 10% dos casos de câncer de pulmão são atribuídos aos efeitos cancerígenos do gás radônio, arsênico, níquel, amianto, cromo e susceptibilidade genética. A queima do tabaco no resultado de cigarro em processos químicos, como a pirólise, oxidação, hidrogenação, descarboxilação e desidratação dos constituintes. Assim, mais de 3000 produtos químicos são produzidos a partir dos quais cancerígenos responsáveis ​​por cânceres são faseada para as fases de partículas e de vapor. Os agentes cancerígenos na fase particulada incluem o benzo (a) pireno, dibenzo (a) antraceno, 5-methylchrysene, benzofluoranthenes, nicotina, N-nitrosonornicotene, catecol, níquel, cádmio e polônio. Do mesmo modo, os agentes cancerígenos em fase de vapor são de hidrazina, cloreto de vinilo, uretano, formaldeído, óxidos de azoto e nitrosodiethylamme. Estas gamas de produtos químicos ou são iniciadores de câncer, substâncias cancerígenas completas, promotores de tumor ou co-cancerígenos. Consequentemente, eles quimicamente ativar os oncogenes e desativar os genes supressores de tumor no pulmão de células normais para produzir mutações que resultam em tumores [7,8].

A disponibilidade de grandes volumes de dados de mutação câncer de pulmão fez com que o tratamento da doença rápido avanço para além das abordagens tradicionais, tais como cirurgia, radioterapia e quimioterapia. Para um tratamento moderno da doença, variedades de medicamentos para promover “medicina personalizada” foram desenvolvidos para atingir as várias mutações genéticas para parar o crescimento do cancro antes de se tornar avançado e metastático. Estes medicamentos provaram ser altamente eficazes com menos efeitos colaterais em comparação com as quimioterapias tradicionais. Exemplos de terapias específicas aprovadas para o tratamento do câncer de pulmão incluem gefitinib, erlotinib, bevacizumab, sorafenib e peptídeo de 28 aminoácidos (p28). Estas terapias alvo mutações em TP53 e EGFR [9-11]. No entanto, a necessidade de desenvolver métodos computacionais baseados genômicos para a classificação, rastreio e detecção precoce do cancro do pulmão é altamente decisivo. Isto é porque a CT baixa dose recomendada é de uma tecnologia baseada em imagem que não pode ser usado para a detecção de mutações [2,4,7,11]. Automatic genômica baseada classificação, rastreio e detecção precoce do cancro do pulmão é meio caminho andado para ajudar em recomendar vítimas de mutações genéticas conhecidas no pulmão para tirar proveito das terapias direcionadas disponíveis ou participar em ensaios clínicos para novos medicamentos.

Em [12], marcadores de metilação do DNA e redes neurais foram relatados como ferramentas potencialmente viáveis ​​para a classificação automática de câncer de pulmão em pequenas células Lung cancer (SCLC) e Non-Small Cell Lung cancer (NSCLC). Markey et ai. [13] desenvolveu uma classificação e regressão Tree (CART) treinou com 26 características para classificar 41 amostras clínicas como a doença ou não a doença. Os recursos foram calculados a partir de espectroscopia de massa de amostras de soro sanguíneo de câncer de pulmão e indivíduos não-cancerosas usando a razão e de pico alturas massa-carga de proteínas. Ramani e Jacob [14] desenhou um método computacional usando propriedades estruturais e físico-químicas de sequências de proteínas. Eles usaram a rede Bayesiana em seu método para classificar tumores de câncer de pulmão para SCLC, NSCLC e as classes comuns. Guan et al. [15] utilizada Support Vector Machine (SVM), o conhecimento e Previsão Análise biológica prévia para Microarray (PAM) para classificar o câncer de pulmão adenocarcinoma. Os referidos estudos são passos necessários para a direção certa, mas desvendar o conteúdo de mutações de tumores pulmonares não foi completamente abordado na literatura. Isto implica que as promessas dos terapias direcionadas para prender prontamente mutações no pulmão pode ser ilusória na ausência de métodos relevantes para rastreio e detecção precoce de mutações de câncer de pulmão. Pesquisadores têm sugerido que os genes biomarcadores frequentemente mutados pode ser aproveitado através da concepção de kits de rastreio e detecção precoce do cancro do pulmão [16]. Em linha com esta sugestão, um método de previsão câncer de pulmão foi desenvolvido em [17]. O método foi validado com conjuntos de dados de EGFR, KRAS e TP53, que são os três principais genes biomarcadores frequentemente mutados para prever mutações no cancro do pulmão [16]. Conjuntos e não do conjunto de variantes Perceptron multicamadas (MLP) e SVM rede neural foram comparados para prever seis classes de genes de biomarcadores e a melhor precisão da previsão de 95,90% foi obtido utilizando o conjunto da rede neural MLP [17].

o primeiro objectivo geral deste estudo é estender a cobertura genômica do método relatado em [17] a quatorze classes dos dez melhores genes biomarcadores de câncer de pulmão frequentemente mutados. Foi enfatizado na literatura de que o desempenho de algoritmos de classificação pode ser afectada por um grande número de classes [18]. Consequentemente, o segundo objetivo deste estudo é descobrir um conjunto de características afins genômicas invariantes para melhorar a classificação de genes biomarcadores do cancro do pulmão, apesar do maior número de classes. Este objectivo específico foi alcançado por explorar o Z-curva e afins tetraedro transformações de representação Voss, bem como o Histograma da Gradiente Orientado (HOG). O Z-curva e afins tetraedro transformações são usados ​​como métodos de nucleotídeos de transformação, porque eles intrinsecamente gerar representação dimensionalmente reduzido de transformação Voss com menor custo computacional [19,20]. Além disso, os nucleótidos afins transformadas são análogos aos sinais de imagem de cor, o que faz com que seja fácil de usar o método de HOG do domínio de processamento de imagem para extrair um conjunto de características genómicas para melhorar a classificação dos genes de biomarcadores de cancro do pulmão. O terceiro objectivo deste estudo é obter uma combinação adequada de métodos computacionais para a melhoria da classificação de genes biomarcadores de câncer de pulmão. Combinações de transformações afim de representação Voss, método HOG, rede neural MLP e Gaussian Radial Basis Function (RBF) rede neural que experimentalmente explorado para alcançar este objectivo.

Materiais e Métodos

Data Set

normal (sem mutação) sequências de nucleótidos de dez genes biomarcadores diferentes foram obtidos a partir do Centro Nacional de Informação Biotecnológica (NCBI) banco de dados. A razão para a escolha do NCBI é que é uma das bases de dados mais amplamente utilizados no Collaborative Consenso sequência codificante de consórcio (CCDS). Os outros bancos de dados CCDS são Ensembl Genome Browser Universidade da Califórnia em Santa Cruz Genome navegador e Wellcome Trust Sanger Institute (WTSI) Genoma do navegador. As bases de dados CCDS proporcionar um acesso fácil à mesma sequência de ADN de referência para qualquer gene biomarcador, independentemente das diferenças entre os dados e os métodos utilizados para a sequenciação. O consórcio CCDS faixas anotações de proteínas idênticas alta qualidade no mouse de referência e de genomas humanos com um número de identificação estável chamado CCDS ID. A estabilidade da ID CCDS é porque o consórcio constantemente faz esforços para assegurar que CCDS existentes são constantemente atualizado por qualquer membro colaborando [21]. O símbolo, descrição, ID CCDS e número de nucleotídeos dos dez pulmonares genes biomarcadores de câncer usados ​​para este estudo são apresentados na Tabela 1.

Os dados de mutação para este estudo foram adquiridos a partir do Catálogo do Somatic as mutações no cancro do banco de dados (COSMIC) e que compreendem dos dez melhores genes biomarcadores em câncer de pulmão. O banco de dados COSMIC desenvolvido e hospedado pela WTSI contém casos de mutações somáticas curadoria e arquivados nos genes-chave de biomarcadores de câncer em todo amostras de câncer de muitos [22]. Os dez principais genes biomarcadores no banco de dados COSMIC com a maior frequência de mutações no pulmão como no momento em que este estudo foi realizado têm símbolos TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 e SMARCA4 [23 ]. Os símbolos foram obtidos a partir da base de dados HUGO Comité de Nomenclatura Gene (HGNC) ea maioria destes genes biomarcadores foram especificamente relatados genes biomarcadores como frequentemente mutados no câncer de pulmão [24-29]. No total, foram extraídas amostras de 10784 mutações de câncer de pulmão e o conjunto de dados utilizado para a nossa experimentação contém catorze classes diferentes, que são

normal

,

EGFR Supressão

,

EGFR Substituição

,

KRAS Substituição

,

TP53 Supressão

,

TP53 Substituição

,

NF1 Substituição

,

KMT2C Substituição

,

CDKN2A Substituição

,

STK11 Supressão

,

STK11 Substituição

,

KMT2D Substituição

,

ZNF521 Substituição

e

SMARCA4 Substituição

.

as estatísticas globais das amostras com curadoria e única de dados normais e as mutações são apresentados na Tabela 2. os dados de mutação eliminação para genes biomarcadores como KRAS, NF1, KMT2C, CDKN2A, KMT2D, ZNF521 e SMARCA no banco de dados cósmicos são inexistentes ou extremamente poucos, que informou a nossa decisão de excluí-los de nossas amostras de dados.

Transformar Nucleotídeos Genomic em Cor Images of

O gene como uma unidade básica de hereditariedade é composta de uma sequência específica de ácido desoxirribonucleico (ADN) ou de ácido ribonucleico (ARN). Um ADN é um polímero constituído por pequenas moléculas chamadas nucleótidos que podem ser distinguidos por quatro bases. Estas bases são a adenina (A) = C

5H

5N

5, citosina (C) = C

4H

5N

3O, guanina (G) = C

5H

5N

5O e timina (T) = C

5H

6N

2O

2. Consequentemente, um DNA pode ser completamente especificado por uma sequência que consiste dos quatro alfabetos {A, C, G, T}. O primeiro passo essencial no processamento de uma sequência de DNA requer a sua conversão a partir de uma série de alfabetos para o equivalente numérico [30-32]. caracterização numérica de sequências de DNA pode ajudar a maquinar características genómicas apropriadas que capturam a essência da composição e distribuição base de uma forma quantitativa. Isso poderia ajudar na identificação da sequência de DNA e comparação para detectar o grau de similaridade genética ou de dissimilaridade. A composição de base fornece o conteúdo total de cada uma das bases numa sequência de DNA e pode ser facilmente determinada. No entanto, a distribuição de base, que é mais difícil de determinar é mais informativa e que dá uma melhor discriminação entre os vários genes, mesmo se os números de composição de base são os mesmos [31]. Por conseguinte, tanto a composição da base de distribuição e de uma sequência de ADN pode ser explorada para caracterizar numericamente sequências genómicas.

O método de codificação numérica particular usado, determina quão bem a composição de bases e distribuição de uma sequência de ADN que é capturado. Muitos métodos de codificação numérica têm sido relatados na literatura com cada um tendo suas vantagens e desvantagens [33]. A transformação Voss é um dos métodos mais utilizados para a codificação numérica de nucleótidos [34,35]. É um detector espectral eficiente de distribuição de base e as características de periodicidade [33] e representa as sequências de ADN com quatro sequências indicadoras binários como: (1) em que 1 indica a presença da base b, na posição N, 0 significa a sua ausência em nesse local e N é o comprimento da sequência de ADN a ser codificado. No entanto, a representação Voss é altamente redundante [33]. Alguns outros métodos existentes, tais como o Z-curva e Tetrahedron transformações afins podem ser usadas para tratar a redundância na representação Voss [36]. O Z-curva e tetraedro representações reduzir o custo computacional nas fases posteriores de sequências de DNA.

A transformação Z-curva foi desenvolvido para codificar seqüências de DNA com a semântica biológicos mais [37]. Ela usa uma representação geométrica adequada para reduzir o número de representações Voss de quatro para três de uma forma compacta, que é simétrica a todas as quatro bases. O Z-curva contém toda a informação transportada pelas sequências de ADN correspondentes e, por conseguinte, a análise de uma sequência de ADN pode ser realizada através do estudo da Z-curva correspondente [20]. Os vectores de Z-3-dimensional da curva são expressos em [20,36] 🙁 2)

A transformação tetraedro é semelhante à transformação Z-curva, em que as quatro bases de nucleótidos são transformados em vectores de três dimensões Nesse ponto a partir do centro de um tetraedro com os seus vértices. Estes vetores 3-dimensionais são definidos como [36-37] 🙁 3), onde

r

,

g

e

b

no subscrito dos vetores são vermelho, indicadores verde e azul. Na verdade, Tetrahedron transformação tem sido referido na literatura como a transformação ‘RGB’ de uma sequência de ADN [33].

De modo a processar de forma eficiente os vectores de RGB (Equações 2 e 3) para se obter o correspondente RGB imagens, um número apropriado de janelas que corresponde à altura da imagem (H), um tamanho de janela apropriada que corresponde à largura da imagem (W) e a sobreposição são escolhidos para definir matrizes tridimensionais AXL. Neste estudo, o número de janelas foi determinado com base no comprimento da sequência de DNA (N) no gene biomarcador. O tamanho da janela de 200 e uma sobreposição de 50 nucleotídeos foram utilizados [38,39]. As matrizes foram normalizadas dentro da gama de 0-255 para retratar cada uma delas como uma imagem em tons de cinzento. Estas três imagens em tons de cinza são processados ​​como uma imagem de cor no espaço de cor RGB.

Reconhecimento de Padrões e recurso de extração

A tarefa de classificação de padrões a serem executadas por um classificador padrão envolve essencialmente a catalogação de dados brutos em classes desejadas de acordo com os padrões intrínsecas nos dados. classificação automática padrão foi realizada com precisão em várias áreas de aplicação utilização de máquinas [40]. A complexidade de um classificador padrão depende fortemente da dimensão do vector de característica e o número das amostras de dados de treino. Uma representação característica dimensional compacto ou baixa que retém o conteúdo descritivo do conjunto de dados original é altamente desejável para a exigência de memória eficientes, acelerando o tempo de processamento e minimizar a complexidade computacional de um classificador de padrões. Alguns dos métodos de extração de características e de redução de dimensionalidade existentes em estatísticas são Fator Análise (FA), Análise de Componentes Independentes (ICA) e Análise de Componentes Principais (PCA).

Em sinal e domínio de processamento de imagem, vários outros métodos têm foi desenvolvida para extrair características representativas de um conjunto de dados original que resultará em redução de dimensão. Estes métodos incluem Vector quantização (VQ), Escala Característica Invariant Transform (SIFT), acelerou recursos robustos (SURF), Análise de Componentes Principais SIFT (PCA-SIFT), Padrões binários locais (LBP) e Histograma da Gradiente Orientado (HOG) [ ,,,0],41-44]. O porco é particularmente descrito na literatura como um método de extracção de forma forte, aparência e textura [43-45]. Nós selecionamos método HOG para uso neste estudo por causa de suas propriedades atraentes, como melhor invariância à iluminação. Além disso, um estudo anterior demonstrou que o método HOG superou o método LBP para a extracção de características genómicas compactos [17]. Na implementação original do método de porco, um bloco de 3×3 células e 9 lixeiras foram usados ​​para gerar um vector de características de elementos 81 a partir de uma imagem em tons de cinzento e testado para ser ideal para detecção de pedestres [44]. No entanto, por causa das baixas dimensões de algumas imagens genômicas, aplicamos as dimensões mínimas de bloco 2×2 de células e 9 caixas para gerar um HOG genômica vetor de característica compacta de 36 elementos de uma imagem em tons de cinza. A imagem em tons de cinza foi obtido a partir de uma imagem a cores da sequência de ADN usando o MATLAB. As características genômicas HOG extraídos foram posteriormente alimentados em um classificador padrão para classificar genes biomarcadores de câncer de pulmão.

Neste estudo, dois rivais classificador de padrões state-of-the-art explorado para a classificação dos genes biomarcadores de câncer de pulmão são o Multilayer Perceptron (MLP) rede neural e rede neural radial Basis Function (RBF). Eles são amplamente utilizados para resolver os problemas de classificação de padrões e aproximação de funções [46-58]. No entanto, os classificadores padrão têm pontos fortes intrínsecos e fracos devido às suas propriedades distintivas. Redes neurais MLP tem a capacidade de detectar implicitamente associações não-lineares complexas entre variáveis ​​independentes e dependentes. No entanto, eles exigem maiores recursos computacionais e são propensos ao problema de superajuste. Por outro lado, as redes neurais RBF têm uma forte vantagem de ser simples para projetar, eles têm uma boa capacidade de generalização, eles executam de forma robusta e são tolerantes com ruído de entrada [59]. No entanto, eles podem não ter um melhor desempenho do que as redes neurais MLP em todas as circunstâncias. O desempenho de cada classificador padrão dependerá, obviamente, da natureza do problema a ser considerado. Redes neurais MLP pode produzir uma saída mais equipado para atravessar definidas do que as redes neurais RBF dados de validação, mas as redes neurais RBF exigem menos tentativas e erros do que as redes neurais MLP. Além disso, cada classificador padrão pode executar de forma diferente para diferentes funções de aproximação. Uma vez que a função subjacente que se aproxima nossos dados experimentais era desconhecida previamente, achamos prudente experimentar com os dois classificadores padrão para descobrir o que funciona bem para a tarefa de classificação neste estudo.

Modelos Experimentais e Avaliação de Desempenho

Quatro modelos experimentais foram considerados neste estudo para descobrir um conjunto de características afins genômicas invariantes e determinar uma combinação adequada de métodos computacionais para a melhoria da classificação de genes biomarcadores de câncer de pulmão. Figura 1 mostra o desenho de uma arquitectura genérica para os quatro modelos experimentais. Os modelos experimentais foram implementados utilizando o ambiente de programação MATLAB R2012a. Com base nos modelos experimentais, os experimentos foram realizados em um computador que contém um processador Intel Core i5-3210M, que opera a uma velocidade 2.50GHz, 6.00GB RAM, 500 GB de disco rígido e executa o sistema operacional de 64-bit Windows 8. Em todos os quatro modelos experimentais, o conjunto de dados foi particionado em formação 70%, 15% e o teste de validação de 15%. No primeiro modelo experimental, a representação Z-curva foi utilizada para obter uma imagem a cores a partir da representação Voss, método HOG foi utilizado para gerar um vector de características genómico de 36 elementos de imagem a cores e rede neural MLP foi usada para classificar a característica vetor. No segundo modelo experimental, a representação Tetrahedron foi usada em vez da representação de Z-curva utilizado no primeiro modelo experimental. Por conseguinte, alterando o método de codificação de a-Z curva para o tetraedro é a diferença entre o primeiro e o segundo modelos experimentais. No terceiro modelo experimental, a representação Z-curva foi utilizada para obter uma imagem a cores a partir da representação Voss, método HOG foi utilizado para gerar um vector de características genómico de 36 elementos de imagem a cores e rede neural Gaussiana RBF foi usada para classificar a vector recurso. O quarto modelo experimental foi concebido para utilizar a representação tetraedro, em vez da representação Z-curva, que é a única diferença entre este quarto modelo experimental e o terceiro modelo experimental.

As configurações do neural MLP redes para o primeiro e o segundo modelos experimentais são as mesmas. Há 36 neurônios na camada de entrada porque o HOG genômica vector recurso tem 36 elementos. A camada da rede neural MLP saída contém 14 neurônios, porque existem 14 classes no conjunto de dados genômicos. Tem sido sugerido que mais camadas escondidas com um elevado número de neurónios geralmente levam a menos mínimos locais [60]. Assim, duas camadas ocultas foram examinadas e a rede neural foi testado com 100, 200, 300, 400 e 500 neurónios para determinar experimentalmente o número apropriado de neurónios para cada uma das camadas escondidas. A rede neural MLP utiliza uma função de activação linear na camada de entrada para transmitir as características exactas sem qualquer transformação. A função tangente hiperbólica foi usado nos neurônios nas camadas ocultas e saída para tirar o máximo partido das suas propriedades não-linearidade e diferenciabilidade. Estas propriedades são qualidades essenciais para um ótimo desempenho de redes neurais MLP [60]. Além disso, a rede neural MLP foi configurado com 500 épocas de treinamento, taxa de aprendizagem de 0,1, tempo máximo de formação de 120 s, gradiente de desempenho mínimo de 1e-6, verificações de validação de 500 e meta de 0.

As configurações de desempenho das redes neuronais RBF gaussiana nos terceiro e quarto modelos experimentais são as mesmas. As redes neurais Gaussian RBF foram configurados para ter o objetivo MSE de 0, distribuídos de 0,1, 36 neurônios na camada de entrada e 14 neurônios na camada de saída. Estas configurações são baseadas no número de elementos em cada vector de características e o número de classes de genes biomarcador no conjunto de dados. No entanto, uma rede neural Gaussian RBF normalmente contém uma camada escondida e adiciona automaticamente os neurônios da camada escondida até encontrar a média especificada quadrado objetivo de erro. O treinamento das redes neurais Gaussian RBF foi interrompida quando o número de neurônios na camada intermediária atingiu o valor padrão máximo de 534, que é o número de instâncias do conjunto de dados de treinamento.

Quatro métricas de desempenho diferentes comumente usados ​​em a literatura para avaliar o desempenho de um classificador padrão foram utilizados para avaliar quantitativamente os desempenhos de MLP e RBF Gaussian rede neural padrão classificadores. Essas métricas de desempenho são a precisão, erro médio quadrático (MSE), especificidade e sensibilidade. A precisão de um classificador padrão pode ser calculado a partir da matriz de confusão como a percentagem de entidades classificadas correctamente. Isto é equivalente à soma dos elementos da diagonal da matriz de confusão, dividido pelo número total de elementos das classes. O MSE é a média do quadrado da diferença entre o produto esperado e à produção efectiva de um classificador padrão. A probabilidade de que um classificador padrão classifica corretamente uma instância não-positivo, como negativo é chamado especificidade ou taxa negativa True (TNR). A probabilidade de que um classificador padrão de etiquetas as instâncias da classe alvo corretamente é chamado de sensibilidade ou verdadeira taxa positiva (TPR). As características do receptor operacionais (ROC) é o enredo da sensibilidade contra 1-especificidade para ilustrar graficamente a relação entre sensibilidade e especificidade de um classificador padrão [60-62].

Resultados experimentais

A resultados comparativos dos Z-curva e tetraedro transformações são apresentados pela primeira vez de verificar se os conjuntos de recursos obtidos com relação aos dois transformações afins são invariáveis. As Figs 2 e 3 mostram, respectivamente, as parcelas de espectro de potência do Z-curva e Tetrahedron representações de sequências de ADN de genes de biomarcadores na Tabela 1. Cada forma do espectro correspondente obtido usando a representação Z-curva (Figura 2) pode ser vista como sendo altamente semelhante ao obtido usando a representação tetraedro (Figura 3). Este resultado dá uma indicação de uma forte semelhança entre o Z-curva e tetraedro representações. O Z-curva formas espectrais dos genes biomarcadores são singularmente diferentes um do outro (Figura 2) e a mesma tendência é observada entre os formatos dos genes biomarcadores obtidos usando a representação tetraedro (Fig 3). Pode ser observado a partir das duas figuras, que as formas espectrais do gene TP53 biomarcador tem detalhes espectrais densas com envelopes espectrais de grandes amplitudes. Por outro lado, as formas espectrais do gene de EGFR biomarcador nas duas figuras conter detalhes espectrais densas de baixas amplitudes com dois picos de amplitudes elevadas em K = K = 1200 e 2400. As formas espectrais do gene KRAS biomarcador em ambas as figuras têm espectral fina detalhes que terminam antes de K = 600 sem mostrar qualquer pico conspícua. As formas espectrais do gene KMT2C biomarcador tem detalhes planas espectrais com picos de grande amplitude no K = K = 5000 e 10000, em ambas as figuras. Semelhante às formas espectrais do gene KRAS biomarcador, as formas espectrais do gene CDKN2A biomarcador em ambas as figuras têm detalhes finos espectrais que terminam antes de K = 500, ao contrário das formas espectrais do gene biomarcador KRAS que terminam após K = 500. O espectral formas de NF1, STK11, KMT2D, ZNF621 e genes biomarcadores SMARCA4 todos têm dois picos de amplitudes diferentes em diferentes valores de K, que é uma indicação da singularidade desses genes biomarcadores.

Além disso, as imagens de cor obtidos utilizando o Z-curva e Tetrahedron representações de todos os genes de biomarcadores na Tabela 1 são, respectivamente, mostrado nas Figuras 4 e 5. Isto é claramente observado através da inspecção visual subjectiva que as texturas das imagens correspondentes do biomarcador genes obtidos usando as duas transformações afins são semelhantes. Além disso, pode ver-se que as imagens de genes biomarcadores TP53, KRAS, CDKN2A e STK11 têm texturas pesadas e conter manchas pretas ou verde visíveis no canto inferior direito das imagens. As texturas das imagens de EGFR, ZNF521 e SMARCA4 em ambos os números são grosseiro com apenas a imagem de SMARCA4 tendo muito pequena mancha negra ou verde no canto inferior direito. No entanto, as imagens de genes biomarcadores KMT2C, NF1 e KMT2D têm texturas macias. Mesmo que as texturas das imagens correspondentes são semelhantes em cada gene biomarcador, suas cores são diferentes.

Uma avaliação objectiva por quantitativamente analisar as texturas de imagem foi realizado para complementar os resultados da avaliação subjetiva de texturas de imagem dos genes de biomarcadores (Figs 4 e 5). Ao fazer isso, calculamos os valores estatísticos de segunda ordem Haralick de contraste e homogeneidade [63]. Altos valores de contraste são normalmente esperado para texturas pesadas e valores baixos para texturas suaves. Homogeneidade valores são o inverso dos valores de contraste e maior será o contraste, a parte inferior da homogeneidade e vice-versal. Os valores Haralick obtidos para cada uma das imagens coloridas dos dez genes biomarcadores obtidos usando o Z-curva e Tetrahedron representações são mostrados na Tabela 3. A tabela mostra que os valores de contraste das imagens de cor Z-curva transformadas avaliar de um modo semelhante como aqueles das imagens a cores tetraedro transformado (valor em suporte denota a patente de um gene biomarcador). Para as imagens de cor Z-curva transformado, o gene biomarcador KRAS ocupa o primeiro lugar com o mais alto valor de contraste de 13099, enquanto gene KMT2D biomarcador ocupa a última posição com um valor de contraste de 6358. Entretanto, para as imagens coloridas tetraedro transformado, o gene CDKN2A biomarcador ocupa o primeiro lugar com o mais alto valor de contraste de 13495, enquanto gene KMT2D biomarcador ocupa a última posição com um valor de contraste de 6392.

os valores homogeneidade das imagens coloridas Z-curva transformadas também classificar de forma semelhante como os da tetraedro transformada imagens coloridas. Para as imagens de cor Z-curva transformado, o gene biomarcador KRAS ocupa o primeiro lugar com um valor de homogeneidade de 0,0342, enquanto gene biomarcador KMT2D ocupa a última posição com um valor de homogeneidade de 0,0445. No entanto, para as imagens coloridas tetraedro transformado, o gene TP53 biomarcador ocupa o primeiro lugar com um valor de homogeneidade de 0,0339, enquanto o gene biomarcador KMT2D ocupa a última posição com um valor de homogeneidade de 0,0448. [36].

Deixe uma resposta