PLOS ONE: Multi-Classe Clustering of Cancer subtipos através SVM Based Ensemble de Soluções de Pareto-ótimas para gene marcador Identification

Abstract

Com o avanço da tecnologia de microarrays, é agora possível estudar os perfis de expressão milhares de genes em diferentes condições experimentais ou amostras de tecido simultaneamente. conjuntos de dados de câncer de microarray, organizados como amostras em comparação com genes de moda, estão sendo usados ​​para a classificação de amostras de tecido em subtipos benignos e malignos ou os seus. Eles são também úteis para a identificação de marcadores de genes potenciais para cada subtipo do cancro, o que ajuda no diagnóstico bem sucedida de determinados tipos de cancro. Neste artigo, apresentamos uma técnica de classificação do câncer sem supervisão baseada no agrupamento genético multiobjetivo das amostras de tecidos. A este respeito, uma codificação com código real dos centros dos grupos é utilizado e compacidade cluster e separação são simultaneamente optimizadas. O conjunto resultante de soluções quase Pareto-ótimas contém uma série de soluções não-dominadas. Uma nova abordagem para combinar a informação de agrupamento possuído por as soluções não-dominadas através Máquina Support Vector (SVM) classificador foi proposto. agrupamento final é obtido por consenso entre os agrupamentos gerados por diferentes funções do kernel. O desempenho do método de agrupamento multiobjetivo proposto foi comparada com a de vários outros algoritmos de microarray de cluster para três conjuntos de dados de câncer de referência publicamente disponíveis. Além disso, os testes de significância estatística foram realizados para determinar a superioridade estatística do método de agrupamento proposto. Além disso, os marcadores de genes relevantes foram identificados usando o resultado agrupamento produzido pelo método de agrupamento proposto e demonstrado visualmente. relações biológicas entre os marcadores genéticos também são estudadas com base na ontologia gênica. Os resultados obtidos encontram-se promissora e pode possivelmente ter um impacto importante na área da classificação do cancro sem vigilância, bem como a identificação do gene marcador por múltiplos subtipos de cancro

citação:. Um Mukhopadhyay, Bandyopadhyay S, Maulik L (2010 ) multi-Class Clustering of Cancer subtipos através SVM Based Ensemble de Soluções de Pareto-ótimas para gene marcador de identificação. PLoS ONE 5 (11): e13803. doi: 10.1371 /journal.pone.0013803

editor: Alfons Navarro, da Universidade de Barcelona, ​​Espanha |

Recebido: 26 de maio de 2009; Aceito: 28 de setembro de 2010; Publicação: 12 de novembro de 2010

Direitos de autor: © 2010 Mukhopadhyay et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. SB e UM reconhecer Departamento de Ciência e Tecnologia, Índia (Grant No. DST /INT /MEX /RPO-04/2008 (ii)) para suportar parcialmente este trabalho. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o advento da tecnologia de microarray tornou possível o estudo dos perfis de um grande número de genes em diferentes condições experimentais ou amostras de tecido simultaneamente expressão. Isto tem impacto significativo sobre a investigação do cancro. tecnologia de microarray está a ser utilizado no diagnóstico de cancro através da classificação das amostras de tecido. Quando os conjuntos de dados de microarray amostras são organizadas como contra forma do gene, em seguida, eles são muito úteis para a classificação de diferentes tipos de tecidos e a identificação desses genes cujos níveis de expressão são bons indicadores de diagnóstico. Os conjuntos de dados de microarray, em que as amostras de tecido representam as amostras de células cancerosas (malignas) e não cancerosos (benignos), a classificação deles vai resultar em cancro de classificação binária. Por outro lado, se as amostras são de diferentes subtipos de cancro, em seguida, torna-se o problema de classificação do cancro multi-classe. classificação de câncer de múltiplas classes e detecção de marcadores genéticos para cada subtipo de câncer é uma tarefa mais difícil em comparação com a classificação binária.

A maioria das pesquisas na área de diagnóstico de câncer têm-se centrado na classificação supervisionada de conjuntos de dados de câncer através de formação, validação e ensaio para classificar as amostras de tumor como malignos ou benignos, ou seus subtipos [1] – [6]. No entanto, a classificação não supervisionada ou agrupamento de amostras de tecidos também devem ser estudados uma vez que em muitos casos, as amostras de tecido marcados não estão disponíveis. Neste artigo, exploramos a aplicação do agrupamento genético multiobjetivo para a classificação não-supervisionada das amostras de tecidos em dados de câncer multi-classe.

Um conjunto de dados de microarrays expressão gênica que consiste em genes e amostras de tecido é normalmente organizada de matriz 2D de tamanho. Cada elemento representa o nível de expressão do gene para o po da amostra de tecido th. Clustering [7], [8], uma importante ferramenta de análise de microarray, é usado para a classificação não-supervisionada das amostras de tecidos. métodos de agrupamento particionar um conjunto de objetos em grupos com base em alguma semelhança /diferença métrica, onde o valor de pode ou não ser conhecido

a priori

.

Os algoritmos genéticos (AGs) [9] tem foi efetivamente usado para desenvolver técnicas de agrupamento eficientes [10], [11]. Estas técnicas utilizam uma única medida validade cluster como a função de aptidão para refletir a bondade de um agrupamento codificado. No entanto, uma única medida de validade do cluster é raramente igualmente aplicável para diferentes propriedades de dados. Este artigo coloca o problema de aglomeração como uma otimização multiobjetivo (MOO) [12] – [15] problema. Ao contrário de otimização objetivo único, no MOO, pesquisa é realizada ao longo de vários, funções muitas vezes conflitantes, objetivas. O conjunto solução final contém uma série de soluções Pareto-ótimas, nenhum dos quais pode ser melhorado em qualquer um objetivo sem degradar-lo em outro. Não-dominado Sorting Genetic Algorithm-II (NSGA-II) [15], uma ferramenta de otimização multiobjetivo evolutiva popular, tem sido aplicado com sucesso no domínio do agrupamento e classificação de dados de expressão de genes microarray [16] – [18]. Neste artigo, também, um algoritmo de agrupamento multiobjective baseado no NSGA-II [13] foi adoptada que otimiza a compacidade cluster e separação de cluster simultaneamente. Uma questão desafiadora na MOO é a obtenção de uma solução final a partir do conjunto de soluções Pareto-ótimas. A este respeito, um método novo que usa Support Vector Machine (SVM) [19] classificador é descrito neste artigo. O procedimento utiliza os pontos para os quais a maioria das soluções não-dominadas produzem mesmos rótulos de classe para treinar o classificador SVM com um kernel particular. pontos restantes são classificados pelo classificador treinado. A classificação final é obtida por consenso entre as soluções de cluster gerados por diferentes funções do kernel.

Além disso, a solução de cluster produzidas pela técnica MOGASVM agrupamento proposto foi usado para identificar os marcadores genéticos que são os principais responsáveis ​​para distinguir um determinado classe de tumor a partir das restantes. Relação sinal-ruído (SNR) de classificação gene estatística baseada tem sido utilizada para este fim.

O desempenho da técnica MOGASVM agrupamento proposto foi demonstrada em três conjuntos de dados de câncer de referência publicamente disponíveis, viz., SRBCT , neoplasias de adultos e tumor cerebral. A superioridade da técnica proposta, em comparação com K-means clustering [7], a expectativa de maximização de agrupamento (EM) [20], único objetivo de agrupamento baseado em GA que otimiza a combinação de compacidade cluster e separação (SGA), ligação média hierárquica cluster [7], Mapas de Kohonen (SOM) de agrupamento [21], o consenso agrupamento [22] e uma técnica de agrupamento proposto recentemente chamado SIMM-TS [12], é demonstrado tanto quantitativa quanto visualmente. A superioridade da técnica MOGASVM agrupamento foi também provou ser estatisticamente significativa por meio de testes de significância estatística. Finalmente, demonstrou-se como o resultado de agrupamento MOGASVM pode ser usado para identificar os marcadores de genes relevantes para os conjuntos de dados SRBCT. Também um estudo da importância biológica dos genes marcadores têm sido realizados com base na ontologia gênica.

Materiais e Métodos

Multiobjective Optimization usando Algoritmos Genéticos

Em muitas situações do mundo real lá pode haver vários objectivos que deve ser optimizado ao mesmo tempo, a fim de resolver um determinado problema. Isto está em contraste com os problemas abordados por gás convencionais, que envolvem a optimização de apenas um único critério. A principal dificuldade na considerando multiobjetivo é que não há nenhuma definição aceite óptimo neste caso, e, portanto, é difícil comparar uma solução com outra. Em geral, estes problemas admitir várias soluções, cada uma das quais é considerado aceitável e equivalente quando a importância relativa dos objectivos é desconhecido. A melhor solução é subjetiva e depende da necessidade do tomador de designer ou decisão.

métodos de pesquisa e otimização tradicionais, como a busca gradiente descendente, e outras não convencionais, como o recozimento simulado é difícil estender como é o caso multiobjetivo, desde a sua concepção básica exclui a consideração de múltiplas soluções. Pelo contrário, os métodos da população com base como algoritmos evolucionários são bem adequados para o tratamento de tais situações. A otimização multiobjetivo pode ser formalmente indicado como [23], [24]. Encontrar o vetor de variáveis ​​de decisão que satisfaz restrições de desigualdade: (1) restrições de igualdade (2) e otimiza a função vetorial (3) As restrições dadas em Eqns. (1) e (2) definir a região viável que contém todas as soluções admissíveis. Qualquer solução fora desta região é inadmissível uma vez que viola uma ou mais restrições. O vector indica uma solução óptima em. No contexto da otimização multiobjetivo, a dificuldade reside na definição de otimização, uma vez que é apenas raramente que vamos encontrar uma situação onde um único vetor representa a solução ideal para todas as funções objetivo

.

O conceito de

Pareto-optimality

é útil no domínio da otimização multiobjetivo. A definição formal de Pareto-optimização do ponto de vista problema de minimização pode ser dada como segue. Um vector de decisão é chamado de Pareto-óptima, se e apenas se não houver que domina, isto é, não existe tal thatin outras palavras, é de Pareto-óptima, se não existe nenhum vector viável que provoca uma redução em algum critério sem um aumento simultâneo pelo menos, uma outra. Neste contexto, duas outras noções viz.,

fracamente não-dominado

e

soluções

fortemente não-dominadas são definidos [23]. Um ponto é uma solução não-dominada fracamente, se não existe tal que, para. Um ponto é uma solução fortemente não dominado se não existe tal que, por, e por pelo menos uma,. Em geral, Pareto óptimo admite um conjunto de soluções chamado

não-dominado

soluções.

Existem diferentes abordagens para resolver problemas de otimização multiobjetivo [23], [24], por exemplo, agregando, a população com base não-Pareto e técnicas baseadas em Pareto. Em agregando técnicas, os diferentes objectivos são geralmente combinados em um usando método baseado ponderação ou objetivo. Vector Evaluated Algoritmo Genético (VEGA) é uma técnica na abordagem baseada em não-Pareto a população em que diferentes subpopulações são usados ​​para os diferentes objectivos. Multiple GA Objectivo (MOGA), não-dominado Sorting GA (NSGA), niched Pareto GA (NPGA) constituem uma série de técnicas sob as abordagens baseadas em Pareto. No entanto, todas estas técnicas, descritas em [24], são essencialmente não-elite na natureza. NSGA-II [15], Força Pareto Algoritmo Evolutivo (SPEA) [25] e SPEA2 [26] estão algumas técnicas elitistas mais recentes. NSGA-II é uma melhoria sobre sua versão anterior NSGA no tempo termos de computação. Além disso, NSGA-II introduz um modelo elitista romance combinando as populações pai e filho e propagar as soluções não-dominadas da população total para a próxima geração de assegurar uma melhor taxa de convergência para globalmente óptima frente Pareto. Também propõe um método de comparação lotada para a seleção do torneio binário que proporciona uma melhor diversidade na frente de Pareto. Em [15], que tem sido demonstrado que NSGA-II tem um melhor desempenho comparado com várias outras técnicas de MOO. Daí a técnica de agrupamento multiobjective considerado neste trabalho utiliza NSGA-II como a estrutura de otimização subjacente. No entanto, poderia ter sido usado qualquer outra ferramenta de otimização multiobjetivo evolutiva.

Multiobjective Agrupamento baseado NSGA-II

Nesta seção, descrevemos o uso de NSGA-II para a evolução de um conjunto de perto soluções de cluster -Pareto-óptimas [13]. compacidade Cluster ea separação cluster são consideradas como as funções objetivo que são otimizados simultaneamente. A técnica é descrita abaixo em detalhe.

String Representação e População Inicialização.

No agrupamento com base NSGA-II, os cromossomos são compostos de números reais que representam as coordenadas dos centros de os clusters. Suponhamos que o tamanho do conjunto de dados é, isto é, as amostras de tecido aglomerados algoritmo cada um dos quais é descrito por genes (características). Para clusters, cada cromossoma, portanto, tem um comprimento de, onde é a dimensão de dados (o número de genes no presente caso). Como já utilizados 200 genes que têm variações maiores através das amostras, a dimensão é, por conseguinte, 200 para cada conjunto de dados. Os centros codificados em um cromossomo na população inicial são selecionados aleatoriamente pontos distintos do conjunto de dados.

Calculando os objetivos.

Para computar as funções objetivo, em primeiro lugar os centros codificados em um determinado cromossomo são extraiu-se. Depois disso, cada ponto de dados é atribuído ao seu centro de agrupamento mais próximo e os centros de fragmentação são atualizados tomando a média dos pontos atribuídos a ele. Os pontos são então transferido para os centros dos grupos mais próximos. O cromossomo também é atualizado com os novos centros de cluster

A compacidade global de uma solução de cluster é definido da seguinte forma:. (4) onde denota a distância entre o ponto th e do centro do cluster th. indica o agrupamento th. Note-se que o baixo valor de indica que os clusters são altamente compacto. Assim, o objectivo é minimizar.

O segundo objetivo é a separação cluster. Isto é definido como segue: (5) Para obter aglomerados bem separados, o objectivo deve ser maximizada. Como aqui NSGA-II é modelado como um problema de minimização, o segundo objetivo é tomado como o recíproco.

Operações genéticos.

As operações genéticas popularmente utilizados são

selecção

,

cruzamento

e

mutação

. A operação de seleção usada aqui é a seleção do torneio binário lotado usado em NSGA-II [15]. Após a seleção, os cromossomos selecionados são colocados na piscina acasalamento e convencional de cruzamento único ponto é realizada com base na probabilidade de crossover. Depois disso, cada cromossoma é submetido a mutação, dependendo da probabilidade de mutação, em que um centro de agrupamento aleatório é escolhido a partir dele e, em seguida, mudou-se ligeiramente.

A parte mais característica de NSGA-II é o seu funcionamento elitismo, que o progenitor e populações infantis são combinados e as soluções não-dominadas da população combinada são propagadas para a próxima geração. Para os detalhes sobre os diferentes processos genéticos, os leitores podem consultar [15]. As cordas quase Pareto-ótimas de última geração proporcionam as diferentes soluções para o problema de agrupamento.

Support Vector Machine Classificador

máquina de vetor de suporte (SVM) classificadores são inspirados na teoria de aprendizagem estatística e eles executam minimização do risco estrutural sobre uma estrutura de conjunto aninhado de separar hiperplanos [19], [27]. Vendo os dados de entrada como dois conjuntos de vectores num espaço dimensional, uma SVM constrói uma hiperplà de separação em que o espaço, o que maximiza a margem entre as duas classes de pontos. Para calcular a margem, dois hiperplanos paralelos são construídos em ambos os lados de um separador, que são “empurrado contra” as duas classes de pontos. Intuitivamente, uma boa separação é conseguido através da hiperplà que tem a maior distância ao vizinho pontos de dados de ambas as classes. Maior margem ou a distância entre estes hiperplanos paralelos indica uma melhor erro generalização do classificador. Fundamentalmente, o classificador SVM é projetado para problemas de duas classes. Ele pode ser estendido para lidar com problemas multi-classe através da concepção de uma série de SVMs um contra todos ou um-contra-um dois-classe.

Suponha que um conjunto de dados consiste em vetores de características, onde, denota a rótulo de classe para o ponto de dados. O problema de encontrar o vetor de peso pode ser formulado como minimizar a seguinte função: (6) sujeito a (7) Aqui, é o viés ea função mapeia o vetor de entrada para o vetor de característica. A formulação dupla é dado, maximizando o seguinte: (8) sujeito a (9) Apenas uma pequena fração dos coeficientes são diferentes de zero. Os pares correspondentes de entradas são conhecidos como vetores de suporte e eles definir completamente a função de decisão. Geometricamente, os vetores de suporte são os pontos que ficam perto do hiperplano de separação. Aqui é chamado o

função de kernel

.

Funções

Kernel ajudar a mapear o espaço de características em maior espaço dimensional. A função do kernel pode ser linear ou não linear, como polinomial, sigmoidal, funções de base radial (RBF), etc. Os quatro funções do kernel usados ​​neste artigo são os seguintes:

Linear:

polinomial:

Sigmoidal:

radial Basis Function (RBF):.

a versão estendida do SVM de duas classes que lida com problema de classificação multi-classe através da concepção uma série de one-contra-todos SVMs de duas classes [27] é usado aqui. Por exemplo, um problema de classe é tratada com SVMs de duas classes, cada um dos quais é usado para separar uma classe de pontos de todos os pontos restantes.

Obtendo o Clustering final das soluções não-dominadas

Como o agrupamento multiobjective produz um conjunto de soluções não-dominadas na geração final, é necessário aplicar alguma técnica para obter a solução de cluster final, a partir deste conjunto. Esta secção descreve o esquema proposto para combinar o algoritmo de agrupamento multiobjetiva baseado no NSGA-II com o classificador SVM para esta finalidade. Na abordagem combinada, com o nome MOGASVM, cada solução não-dominada é dada igual importância e uma técnica de votação por maioria é aplicada. Isto é motivado pelo fato de que, devido à presença de pontos de treinamento, classificação supervisionada geralmente executa melhor do que a classificação não-supervisionada ou clustering. Aqui temos explorado esta vantagem ao selecionar alguns pontos de treinamento usando votação por maioria sobre as soluções não-dominadas produzidos pelo agrupamento multiobjective. A técnica de votação por maioria dá um conjunto de pontos para os quais a maioria das soluções não-dominadas atribuir o mesmo rótulos de classe. Assim, estes pontos podem ser pensado para ser agrupados de forma adequada e, assim, podem ser utilizados como os pontos de formação do classificador SVM. Posteriormente, os restantes pontos de baixa confiança são classificados usando o classificador treinado. O processo é repetido para diferentes funções do kernel e o agrupamento final é obtida através de votação por maioria entre os vetores de etiquetas de cluster produzidas pelas diferentes funções do kernel. Os passos de MOGASVM são descritos abaixo

Passo 1:. Executar MOGA clustering para obter um conjunto, de não-dominado cordas solução que consiste de centros de cluster

Passo 2:. Decode cada solução e obter o vector rótulo de cluster para cada solução, atribuindo a cada ponto ao seu centro de agrupamento mais próximo

Passo 3:. reorganizar os vetores de etiquetas cluster para torná-las consistentes, ou seja, o cluster na primeira solução deve corresponder a se agrupar em todos outras soluções. Por exemplo, o vector rótulo cluster é equivalente a

Passo 4:. Mark os pontos que são dadas o mesmo rótulo de classe para, pelo menos, soluções, como os pontos de treinamento, onde,, é o limiar de votação por maioria. Os rótulos de classe dos pontos será classe

Passo 5:.. Treinar o classificador SVM com alguma função do kernel usando os pontos de treinamento

Passo 6: Gerar os rótulos de classe para os pontos restantes usando o classificador SVM treinados

Passo 7:.. Repita os passos 5-6 para as quatro funções do kernel considerados aqui e obter os vetores de etiquetas de quatro clusters

Passo 8: Combine os quatro vetores rótulo de agrupamento através maioria conjunto de votação, ou seja, cada ponto é atribuído uma etiqueta classe que obtém o número máximo de votos entre os quatro soluções de cluster. Os laços são quebrados aleatoriamente.

Os tamanhos dos conjuntos de treinamento e testes dependem do parâmetro (limiar de votação por maioria), que determina o número mínimo de soluções não-dominadas que deve concordar uns com os outros no contexto de votação. Se tem um alto valor, o tamanho do conjunto de treino é pequena. No entanto, implica que o maior número de soluções não-dominadas concordar uns com os outros e, assim, a confiança do conjunto de treinamento é alto. Pelo contrário, se tem um valor baixo, o tamanho do conjunto de treino é grande. Mas isso indica que um número menor de soluções não-dominadas têm um acordo entre si eo conjunto de treinamento tem baixo nível de confiança. Durante a experimentação, tentámos valores diferentes para e verificaram que o desempenho de MOGASVM é em geral melhor quando está no intervalo entre 0,4 e 0,6. Isto tem sido observado para todos os conjuntos de dados aqui considerados. Portanto, para alcançar um equilíbrio entre o tamanho ea confiança do conjunto de treinamento, depois de várias experiências, temos que definir o parâmetro para um valor de 0,5. No entanto, este parâmetro pode ser exposto para o usuário que pode ajustá-lo de acordo com seu /sua necessidade.

Número de Clusters

Para definir o número de clusters, o índice de silhueta é utilizado [28] . Define-se como se segue. Suponhamos que representa a distância média de um ponto de outros pontos do cluster ao qual o ponto está atribuído, e representa o mínimo das distâncias médias do ponto a partir dos pontos dos outros agrupamentos. Agora a largura do ponto de silhueta é definida como: (10) índice de silhueta é a largura média de silhueta de todos os pontos de dados (as amostras de tumor) e reflecte a compacidade e a separação dos aglomerados. O valor do índice de silhueta varia de -1 a 1 e maior valor indica um melhor resultado clustering. O valor não tem qualquer tendência aumentando ou diminuindo monotónica com o número de aglomerados. Assim, este índice é um bom indicador para a escolha do número de clusters [28].

Para selecionar o número de clusters, o algoritmo MOGASVM é executado para diferentes valores de a partir de, sendo o número de pontos de dados. Para cada um, ele é executado vezes a partir de diferentes configurações iniciais ea corrida dando o melhor valor é tomada. Entre estes melhores soluções para valores diferentes, o valor de a solução para produzir o valor máximo do índice é escolhido. O mesmo valor é utilizado para todos os algoritmos para uma comparação justa.

Lidar com os Outliers

Sabe-se que a presença de outliers pode afetar o desempenho dos algoritmos de agrupamento. O algoritmo proposto MOGASVM agrupamento calcula a média dos aglomerados durante updation cromossoma que é susceptível de ser afectada devido à presença de outliers no conjunto de dados. Para lidar com isso, nós modificamos o algoritmo proposto como segue. Durante o updation cromossomo, em vez de tomar as médias dos pontos em um cluster, calculamos a

medoide do cluster. A medoide cluster, ao contrário do cluster dizer, é um ponto real no cluster a partir do qual a soma das distâncias para os outros pontos do cluster é mínimo. Desde medoide é um ponto de dados reais, é menos influenciada pela presença de outliers [29]. O resto dos passos do algoritmo modificado permanece mesmo. Durante a experimentação, verificou-se que o algoritmo de agrupamento multiobjetiva medoide-base funciona de forma semelhante como a abordagem baseada em média para os três conjuntos de dados considerados neste artigo. Portanto, não relataram os resultados para a abordagem baseada em medoide. Isto sugere que os conjuntos de dados aqui considerados são, possivelmente, livre de valores atípicos. No entanto, isto pode não ser verdadeiro para os outros conjuntos de dados e, nesse caso, será preferível utilizar a abordagem medoide baseada em vez de uma a-base média. É de notar que os encontrar medoides é computacionalmente mais caro do que encontrar o meio. Mas é possível precompute a matriz completa distância e mantê-la na memória durante a execução do algoritmo de agrupamento para um desempenho mais rapidamente, porque o número de amostras no conjunto de dados de microarray amostra de genes é normalmente muito menor em comparação com o número de genes.

Métricas de desempenho

Duas medidas de desempenho, por exemplo, porcentagem Classificação Precisão () e Índice de Rand Ajustado () são considerados para a comparação dos resultados produzidos por diferentes algoritmos. Estes são definidos abaixo.

Percentagem Classificação Precisão.

Nós definimos a Precisão percentual Classification () para comparar uma solução de cluster com o verdadeiro clustering. Suponhamos que é o verdadeiro agrupamento das amostras em um conjunto de dados de expressão de genes e é um resultado agrupamento dada por algum algoritmo de agrupamento. Let ser o número de pares de pontos que pertencem aos mesmos grupos e em ambas, ser o número de pares de pontos que pertencem a grupos diferentes em ambos e, e ser o número total de pares de pontos, isto é,. A é definido como: (11) O valor mais elevado de meios uma melhor adequação entre e. Evidentemente.

Ajustado Índice de Rand.

O índice Rand Ajustado () [30] também é usado para comparar uma solução de cluster com o verdadeiro clustering. Suponhamos que é o verdadeiro agrupamento das amostras em um conjunto de dados de expressão de genes e é um resultado agrupamento dada por algum algoritmo de agrupamento. Let, e designam respectivamente o número de pares de pontos pertencentes ao mesmo grupo em ambos e, o número de pares que pertencem ao mesmo grupo em mas para diferentes aglomerados em, o número de pares pertencentes a grupos diferentes em, mas ao mesmo agrupam-se, e o número de pares que pertencem a diferentes grupos em ambos e. O índice Rand ajustado é então definida da seguinte forma: (12) O valor de situa-se entre 0 e 1 e de maior valor indica que é mais semelhante ao. Evidentemente,.

A identificação dos genes marcadores

Nesta seção, demonstraram como a técnica de agrupamento MOGASVM proposto pode ser utilizado para identificar os marcadores genéticos que são os principais responsáveis ​​para distinguir as diferentes classes de amostras de tecido. Aqui demonstramos o processo para o conjunto de dados SRBCT (descrito na secção seguinte). Isto foi feito como se segue.

Em primeiro lugar, é aplicada MOGASVM para agrupar as amostras do conjunto de dados pré-processados ​​em quatro classes correspondentes aos subtipos de tumor EWS, Nb, BL e RMS, respectivamente. Para obter os marcadores de genes para o subtipo de EWS, o resultado de agrupamento é tratado como duas classes: uma classe corresponde aos tumores EWS e a outra classe corresponde aos tipos de tumor remanescentes. Tendo em conta estas duas classes, para cada um dos genes, uma estatística chamada relação sinal-ruído (SNR) [1] é calculado. O SNR é definido como (13) onde e, denotam, respectivamente, a média e desvio padrão de classe para o gene correspondente. Note-se que maior valor absoluto de SNR para um gene indica que o nível de expressão do gene é alta em uma classe e baixo noutro. Assim, esta tendência é muito útil para distinguir os genes que são expressos de forma diferente nas duas classes de amostras. Depois de calcular a estatística SNR para cada gene, os genes são classificados em ordem de seus valores de SNR descendente. A partir da lista ordenada, top 10 genes são selecionados como os marcadores de genes (5 regulada para baixo, isto é, SNR negativo e 5-regulada, ou seja, SNR positivo) para o subtipo EWS. Os 10 melhores marcadores de genes para os outros subtipos de tumor são seleccionados de forma semelhante, isto é, considerando-se duas classes de cada vez, um correspondente à classe de tumores para os quais os genes marcadores estão a ser identificado, e a outra correspondente a todas as classes de tumor remanescentes.

foi observado que o conjunto dos 10 genes selecionados em corridas diferentes de MOGASVM varia ligeiramente de uma corrida para outra. Assim, enquanto relatando os marcadores de genes finais para os dados SRBCT, que relataram as mais frequentemente selecionados 10 genes mais de todas as execuções. As frequências dos genes selecionados também foram relatados. Além disso, o resultado de agrupamento obtidos utilizando os 40 genes marcadores para os dados SRBCT (10 para cada um dos 4 subtipos de cancro) é comparado com os resultados de agrupamento obtidos utilizando inicialmente selecionados 200 genes para mostrar a eficácia do uso de somente os genes marcadores para agrupamento.

Os conjuntos de dados

neste artigo, três conjuntos de dados disponíveis publicamente câncer de benchmark, viz.,

SRBCT

,

Adulto malignidade

e

tumor cerebral

conjuntos de dados foram utilizados para experiências. Os conjuntos de dados são descritos nesta seção.

redondas pequenas tumores de células do sangue (SRBCT).

Os tumores pequenos glóbulos redondos (SRBCT) são 4 diferentes tumores de infância chamado assim por causa de sua aparência semelhante na histologia de rotina [5]. O número de amostras é de 63 eo número total de genes é 2308. Eles incluem a família de Ewing de tumores (EWS) (23 amostras), neuroblastoma (NB) (8 amostras), linfoma de Burkitt (BL) (12 amostras) e rabdomiossarcoma (RMS ) (20 amostras). Este conjunto de dados está disponível ao público em https://www.ailab.si/supp/bi-cancer/projections/info/SRBCT.htm.

Adulto malignidade.

Estes dados consistem em 190 amostras tumorais, que abrangem 14 tipos de tumor comuns a oligonucleótidos de microarray [6]. Os 14 tipos de tumores são: adenocarcinoma da mama (BR) (11 amostras), adenocarcinoma da próstata (RP) (10 amostras), adenocarcinoma pulmonar (LU) (11 amostras), adenocarcinoma colorrectal (CR) (11 amostras), linfoma (LY) (22 amostras), carcinoma de células de transição da bexiga (BL) (10 amostras), melanoma (ML) (11 amostras), adenocarcinoma uterino (UT) (10 amostras), a leucemia (LE) (30 amostras), carcinoma das células renais (RE ) (11 amostras), adenocarcinoma pancreático (PA) (11 amostras), adenocarcinoma do ovário (OV) (11 amostras), mesotelioma pleural (ME) (11 amostras) e sistema nervoso central (SNC) (20 amostras). O número de genes é 1363. Este conjunto de dados está disponível ao público no seguinte endereço:.. https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer

Brain Tumor

Deixe uma resposta