PLOS ONE: Melhorando a Precisão Cancer classificação através Gene Pairs

Abstract

Estudos recentes sugerem que a desregulação de vias, ao invés de genes individuais, pode ser fundamental no desencadeamento de carcinogênese. A desregulação via é frequentemente causada pela desregulação simultânea de mais do que um gene na via. Isto sugere que o gene robusto par combinações podem explorar as reações bio-moleculares subjacentes que são relevantes para a desregulamentação via e, assim, eles poderiam fornecer melhores biomarcadores para o câncer, em comparação com genes individuais. A fim de validar essa hipótese, neste trabalho, foi utilizado gene combinações de pares, chamados dobletes, como entrada para os algoritmos de classificação do câncer, em vez dos valores de expressão originais, e mostrou que a precisão da classificação foi melhorado de forma consistente em diferentes conjuntos de dados e classificação algoritmos. Nós validou a abordagem proposta usando nove conjuntos de dados de câncer e cinco algoritmos de classificação, incluindo Análise Previsão para Microarrays (PAM), Árvores de Decisão C4.5 (DT), Naive Bayesian (NB), Support Vector Machine (SVM), e k-Nearest Neighbor (

k-

NN)

Citation:. Chopra P, Lee J, Kang J, Lee S (2010) Melhorar Cancer precisão da classificação Usando pares de genes. PLoS ONE 5 (12): e14305. doi: 10.1371 /journal.pone.0014305

editor: Joel S. Bader, Johns Hopkins University, Estados Unidos da América

Recebido: 02 de fevereiro de 2010; Aceito: 18 de novembro de 2010; Publicação: 21 de dezembro de 2010

Direitos de autor: © 2010 Chopra et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo Projeto Grant Segundo Cérebro Korea 21, um Ásia Grant Microsoft Research, uma Fundação Nacional de Pesquisa da Coreia (NRF) de subvenção financiada pelo governo coreano (MEST) (2010-0.015.713, 2009-0086140), e uma Ciência Coreia e Foundation Engineering (KOSEF) de subvenção financiada pelo governo coreano (MEST) (R01-2008-000-20564-0). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o uso de microarranjos de DNA resultou na identificação e acompanhamento dos genes marcadores de câncer numerosas. Estes genes têm sido amplamente utilizados para diferenciar não apenas amostras de tecido canceroso as saudáveis ​​normais, mas também entre diferentes sub-tipos de cancro [1] – [3]. De um ponto de vista diagnóstico, é importante para identificar correctamente tecido canceroso de modo que o tratamento mais adequado pode ser determinado o mais cedo possível.

Numerosas classificadores foram propostas e avaliadas quanto à sua precisão comparativa no cancro identificar correctamente tumores [4] – [7]. O mais proeminente destes classificadores são PAM [8], SVM [9], [10],

k-

NN [11], DT [12], Top Scoring Pair (TSP) [13], e

k-

Top Scoring Pair (

k-

TSP) [6]. Os resultados destes estudos indicam que não há nenhuma classificador único que tem a mais alta precisão para todos os conjuntos de dados de expressão de microarray. Neste artigo, apresentamos um novo método que utiliza pares de genes para melhorar a precisão global dos métodos de classificação existentes, sem alterar os algoritmos subjacentes.

Uma pesquisa recente revelou que as vias biomoleculares podem ser biomarcadores mais fortes para o câncer, como em comparação com a desregulamentação dos genes individuais [14]. A desregulação de um subconjunto diferente de genes, associadas com a mesma via, pode resultar na desregulação da via. Inspecção dos combinações de genes pode, assim, ser mais eficaz para a classificação do cancro, em comparação com inspeccionar independentemente genes individuais. Motivada pelo que, o método proposto utiliza a informação derivada das combinações de pares de genes, em vez de os valores originais de expressão dos genes. Nós usamos a informação derivada como a entrada para os métodos de classificação existentes. Mostra-se que estas combinações de pares de genes, chamados dupletos, consistentemente melhorar a precisão da classificação dos algoritmos de classificação existentes.

O significado do método proposto é que, sem alterar os algoritmos de classificação subjacente podemos melhorar significativamente o desempenho do algoritmos de dupletos simplesmente construir e utilizando-os como entrada, em vez de os valores de expressão de genes em bruto. Os dupletos podem ser construídos de várias maneiras. Neste trabalho, fizemos uma experiência com três tipos diferentes de dobletes:

sumdiff

,

mul

e

assinar

dobletes. O

sumdiff

dupletos são construídas tomando a soma e diferença de todos os pares dos vectores de expressão do gene de tal modo que um dupleto é representada como uma soma vectorial ou diferença de dois vectores de genes. O

mul

dobletes são igualmente construídos tomando multiplicação, eo

Sinal

dobletes são construídas tomando os sinais das diferenças dos dois vectores de genes. Consulte a seção “Materiais e Métodos” para mais detalhes.

Resultados

LOOCV

(

Deixar One Out Cruz Validação

) foi realizada para medir a precisão da classificação à base de gibão. Para testar uma amostra, todas as amostras, mas a um testado, são usados ​​para calcular a de genes, e os genes são organizados de acordo com as descendente valores absolutos das pontuações. A fórmula usada para calcular essa pontuação é (1) onde representam significa a classe; representam os desvios; e representa o número de amostras para as duas classes e, respectivamente.

, em seguida, seleccionar a parte superior 0,2%, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, 10% do número total de genes no conjunto de dados para a tomada de dobletes. Nós podar ainda mais os dobletes de modo que nenhum gene aparece mais de uma vez no conjunto final de dobletes. O algoritmo que usamos para formular estes doublets originais do conjunto de dados de expressão microarray inicial é descrito como abaixo

Input

:. Gene Expression Matrix com genes e amostras, vetor classe para as amostras e para a número de genes necessários para a análise

saída

:.. dobletes únicas

1. Compute t-escores de matriz usando vector classe

2. Faça uma lista ordenada de todos os genes, em diminuir o valor da sua absoluta t-score.

3. Tome as principais genes da lista ordenada, e extrair seus valores de expressão do. A nova matriz de expressão tem linhas e colunas.

4. Faça dobletes de obter uma nova matriz, com linhas e colunas.

5. Calcule t-escores de matriz usando vector classe.

6. Faça uma lista ordenada de todos os dobletes em, no valor decrescente da sua absoluta t-score.

7. Inicializar como uma lista vazia.

8. forall

dobletes

em

(em ordem decrescente de t-score absoluto); Se nenhum dos genes no gibão está em, em seguida, adicione gibão para

9. Volte

A precisão dos algoritmos originais é medida usando todos os valores de expressão matérias dos genes como entrada. Devemos nos referir à precisão do algoritmo original, por exemplo, para o PAM, como PAM, ea precisão obtida usando

sumdiff /mul /assinar

dobletes como entrada para PAM como

sumdiff /mul /sinal-

PAM, respectivamente. A Figura 1 compara a precisão do classificador PAM padrão para que de

sumdiff /mul /sinal-

PAM, obtida tomando-se os melhores genes%, para os nove conjuntos de dados listados no Quadro 1. Pode-se observar que, mesmo tendo uma pequena percentagem dos principais genes e fazendo dobletes poderia melhorar o desempenho do PAM. O

sumdiff /mul /do sinal de

PAM classificador supera o classificador PAM padrão em muitos conjuntos de dados.

Para os dois conjuntos de dados, CNS e DLBCL, este ganho é substancial. Por exemplo, com

sinal-

PAM usando os melhores genes 2%, a precisão aumentou de 82,4% para 91,2% para o conjunto de dados do SNC; e para o conjunto de dados DLBCL, a precisão aumentou de 85,5% para 97,4%. A precisão média do classificador PAM para os nove conjuntos de dados aumentou de 88,7% para 90,6%, 89,3% e 91,7% com

sumdiff

,

mul

e

do sinal

PAM com os melhores genes 2%, respectivamente.

podemos fazer duas observações deste resultado. Apenas um pequeno número dos principais genes são necessários para atingir melhorias e que as melhorias são bastante consistente entre os conjuntos de dados. A fim de mostrar ou não estas observações ainda são válidos para outros métodos de classificação, realizamos os mesmos experimentos usando diferentes métodos de classificação, incluindo a DT, NB, SVM e

k-

classificadores NN.

a Figura 2 mostra os resultados da comparação com a dT. A precisão da DT foi melhorado consistentemente entre os nove conjuntos de dados. Em alguns casos, as melhorias foram significativas. Por exemplo,

sumdiff-

DT melhorou a precisão da DT de 64,8% para 77,3% no conjunto de dados Pros.2 usando os melhores genes% 4; de 73,6% para 93,1% no conjunto de dados da leucemia com apenas os melhores genes 0,2%; e de 80,5% para 98,7% no conjunto de dados DLBCL com apenas os melhores genes 0,2%. Da mesma forma,

mul-

DT melhorou a precisão da DT de 64,8% para 84,1% no conjunto de dados Pros.2 usando os melhores genes 0,4%; de 84,9% para 100% no conjunto de dados Pros.3 com os melhores genes 0,4%; e de 80,5% para 97,4% no conjunto de dados DLBCL com os melhores genes 1%. Finalmente,

do sinal

DT melhorou a precisão da DT de 84,9% para 97,0% no conjunto de dados Pros.3 usando os principais genes de 0,2%; de 73,6% para 95,8% no conjunto de dados leucemia com os principais genes de 0,6%; e de 77,4% para 93,6% no conjunto de dados Colon com os principais genes de 0,6%. Em média, ao longo dos nove conjuntos de dados, a precisão da DT foi melhorado a partir de 78,9% para 85,2%, 84,2% e 89,1%, utilizando

sumdiff

,

mul

e

assinar

dobletes com os melhores genes 0,8%, respectivamente.

da mesma forma para NB, a precisão foi significativamente melhorada com

sumdiff

e

mul

dobletes. O resultado é mostrado na Figura 3. Uma observação interessante que fizemos é que para NB o

Sinal

dobletes têm consistentemente um desempenho pior do que os outros, independente do número dos principais genes utilizados para a geração de gibão. Isso ocorre porque os

Sinal

dobletes transformar os valores de expressão em variáveis ​​binárias indicando a ordem de nível de expressão entre os genes nos pares de genes e os valores binários transformadas não retêm informações suficientes para calcular a probabilidade de classe utilizados para a classificação . Assim, os

assinar

dobletes não são adequados para os classificadores NB. No entanto, os ganhos de desempenho com

sumdiff

e

dobletes mul foram substanciais. No conjunto de dados Pros.1, tanto

sumdiff /mul-

NB melhorou a precisão de 62,8% para 91,2% com os principais genes de 0,2%; no conjunto de dados do cólon, a precisão foi melhorou de 56,5% para 87,1% e 88,7% com os genes de topo 1%, respectivamente. Por fim, no conjunto de dados DLBCL, a precisão foi melhorada a partir de 80,5% para 96,1% e 92,2% com os melhores genes 0,2%, respectivamente. Em média, a precisão melhorou de 81% para 90,7% e 89,5% com

sumdiff

e

mul

dobletes com os melhores genes 0,2%, respectivamente.

SVM é conhecido por ser um dos classificadores mais robustas em muitos domínios. Embora seu desempenho foi convincente por si só, observou-se que em alguns casos a nossa abordagem gibão melhorou o seu desempenho de forma significativa. O resultado é mostrado na Figura 4. No conjunto de dados do cólon, o ganho de desempenho foi mais impressionante. A precisão melhorou de 82,3% para 87,1%, 87,1% e 93,6% com

sumdiff /mul /sinal

dobletes com os principais genes 1%, respectivamente. No conjunto de dados Pros.2, a precisão foi melhorou de 76,1% para 80,7%, 84,1% e 85,2% com a parte superior 8%, 0,2% e 1% de genes, respectivamente. Em média, a precisão melhorou de 91,2% para 92%, 91,9% e 89,4% com

sumdiff /mul /assinar

dobletes com os principais genes 4%, respectivamente.

por último, para

k-

NN, o mesmo foi observado, como é mostrado na Figura 5. para

k-

NN, o ganho de desempenho foi substancial em quase todos os conjuntos de dados. Por exemplo, no conjunto de dados Leucemia, a precisão melhorou de 84,7% para 98,6%, 98,6% e 100%, com

sumdiff /mul /sinal

dobletes com a parte superior 2%, 0,8% e 0,2% genes , respectivamente. Em média, a precisão melhorou de 84,3% para 91%, 90,1% e 90,7% com

sumdiff /mul /assinar

dobletes com os principais genes 4%, respectivamente.

outros do que o

sinal

parelhas no classificador NB, o uso de três dobletes levou a um melhor desempenho dos classificadores de base. taxas de precisão média dos classificadores de base ao longo dos nove conjuntos de dados variou de 79% a 91% (ou seja, DT = 79%, kNN = 84%, NB = 81%, SVM = 91%, e PAM = 89%). Por outro lado, as suas taxas médias com dupletos oscila em uma gama mais elevada, ou de 89% a 92% (ou seja,

do sinal DT = 89%,

sumdiff-

kNN = 91 %,

sumdiff-

NB = 89%,

sumdiff-

SVM = 92% e

mul-

PAM = 90%; todas as figuras com os principais genes 4% ). Os classificadores de base mostrou uma diferença de desempenho substancial entre eles. Quando se trata de dupletos, no entanto, a diferença foi minimizada e o desempenho foi melhorado. Todos os três tipos gibão quase igualmente contribuído para a melhoria de desempenho através de vários conjuntos de dados (exceto o

assinar

parelhas no NB). O

sumdiff /mul /assinar

dobletes com os melhores genes 4% marcados precisões médios ao longo dos cinco classificadores de 88,7% (std. 3.4), 88,5% (std. 3,8), e 85,4% (std. 9.9 ), respectivamente.

sumdiff

dobletes demonstrou um desempenho ligeiramente melhor do que os outros fizeram. Este resultado é possivelmente atribuível ao seguinte fato: O

sumdiff

dobletes capturar ambos os para cima e relações para baixo (ou seja, up-cima, para baixo-para baixo e de cima para baixo) e das relações de ordem do valores de expressão de cada par de genes. Pelo contrário, o

mul

dobletes capturar o ex sozinho, e o

assinar

dobletes capturar este último sozinho. (Veja a seção Materiais para mais detalhes.)

Discussão

Um estudo recente sugeriu que a desregulamentação nível via é mais importante para a carcinogénese do que a desregulamentação dos genes individuais [14]. Um percurso é tipicamente desregulada pela desregulação de mais de um gene que está associado com essa via. Isto apoia a nossa motivação para usar dobletes como recursos para classificação, como os dobletes poderia capturar potencialmente mais informações sobre a desregulamentação nível pathway do que os genes individuais. Neste estudo, no entanto, os dobletes foram agrupados de diversas vias; ou seja, não se limitando aos dos pares de genes pertencentes às mesmas vias. Ao permitir que todas as combinações genéticas possíveis, buscou-se captar não só as interações intra-via direta, mas também alguns dos potenciais associações inter-via indireta. Pretendemos prosseguir em nosso trabalho futuro, os casos em que apenas os dobletes intra-via são utilizados.

Uma série de estudos independentes atestaram a eficácia da combinação de pares de genes. Zhou e seus colegas introduziram uma técnica chamada

de segunda ordem análise de correlação

em que as correlações de pares de genes são utilizados para a classificação funcional de genes [15]. Sua abordagem funciona, como segue: Primeiro computadorizada são todas as correlações de pares de genes dentro de cada conjunto de dados (correlações de 1ª ordem); então, os padrões de correlação são analisados ​​através de múltiplos conjuntos de dados (correlações de 2ª ordem). A seleção é feita de pares de genes que mostram elevadas correlações em vários conjuntos de dados, e os dobletes formulário selecionados. Um dupleto está representada como um vector de tal modo que a sua dimensão e o valor, respectivamente, correspondem a um conjunto de dados e para o valor de correlação do par de genes no conjunto de dados correspondente. Os dupletos são então agrupadas utilizando a correlação como similaridade métrica. Os dobletes agrupados são considerados para compartilhar funções similares, porque eles são transformados-on e off coletivamente através de conjuntos de dados.

Também desenvolvemos técnicas de integração de dados de microarranjos que exploram as relações inter-gene, tais como

correlação assinatura

[16] e

assinatura cubo

[17]. O

assinatura correlação

projecta os dados de expressão de microarray heterogéneos para um espaço de informação coerente onde um gene é representada pelo vector de suas correlações contra uma série de genes de referência. Se o mesmo conjunto de pontos de referência é usado, os conjuntos de dados de microarray heterogéneos, que não poderiam ter sido directamente combinados, podem ser integrados, porque as assinaturas de correlação dos genes têm dimensões compatíveis. O

cubo assinatura

generaliza os princípios da assinatura de correlação, proporcionando um quadro de mineração de dados microarray heterogêneo, onde os dados são representados em termos relativos (isto é, as relações inter-genes). Assim, o algoritmo de mineração é coerente aplicável em toda a conjuntos de dados. Além da integração de dados de microarrays, também aplicamos o princípio para o problema de agrupamento e introduziram um quadro de agrupamento novela,

SignatureClust

[18].

SignatureClust

dados agregados microarray após projetando-o em um espaço de assinatura definido por um conjunto de genes marco escolhidas pelo usuário, permitindo que os biólogos para obter diferentes perspectivas dos mesmos dados subjacentes simplesmente mudando os genes marco.

também foi provado que a informação inter-gene é útil para fins de classificação cancro. O

K-

TSP explora as alterações nos níveis de expressão de pares de genes, a fim de melhorar a precisão da classificação [6]. O

k-

TSP classificador usa pares de genes que são semelhantes aos nossos

Sinal

dobletes. O

k-

TSP classificador identifica os pares de genes cujas ordens expressão são invertida de forma consistente em toda as classes; isto é, se na maioria das amostras de controlo e na maioria das amostras de cancro, em seguida, o

K-

TSP classificador que se refere ao par de genes e como um bom indicador de classes. O

k-

TSP classificador encontra os pares top-, referidos como (Top Pares de pontuação) TSP, e usa-los para determinar as classes. O

k-

TSP classificador combina a previsão de cada TSP usando o voto por maioria não ponderada para determinar a classe final de uma amostra. Recentemente, o

k-

algoritmo TSP também tem sido utilizado para melhorar a precisão da classificação do classificador SVM [19].

O nosso método é diferente do

k-

classificador TSP em três aspectos importantes. Em primeiro lugar, -TSP é projetado para trabalhar com apenas um tipo de emparelhamento gene (semelhante aos nossos

Sinal

dobletes), enquanto que o nosso método não está limitado a tipos específicos de emparelhamento. Neste artigo, definimos três dobletes, isto é,

sumdiff

,

mul

e

assinar

, mas vários outros dobletes também pode ser usado com a estrutura proposta. Em segundo lugar, o nosso método de uso actuais bem estabelecida classificadores em vez de conceber novos modelos de classificação. Isso foi possível porque o nosso método separa o emparelhamento passo gene (ou seja, a etapa de características) a partir da construção modelo de classificação. Por último, o

k-

TSP classificador utiliza frequência como uma métrica para atribuir pontuação para os seus pares de genes, enquanto que nós usamos confiável

t-scores

. A Tabela 2 resume os resultados precisão do dobletes e os classificadores de base, bem como a precisão do TSP e

k-

TSP. TSP refere-se ao caso em que apenas o único TSP mais influente foi usado para a classificação. O TSP e

k-

classificadores TSP relatou um desempenho robusto, superando a maioria dos classificadores de base. Ainda assim, os dois classificadores ficam aquém com a finalidade de nosso estudo. Este estudo é significativo na medida em que foi demonstrado que um método de extração de características baseada gibão simples notavelmente melhora a precisão dos classificadores convencionais todo o caminho até ao nível de algoritmos de classificação especializadas, como a TSP e

k-

TSP.

os 15 melhores dupletos e suas vias KEGG associados para o conjunto de dados do SNC são mostrados na Tabela 3. Uma possível explicação sobre o porquê a precisão dupleto é mais elevado do que os dos classificadores de linha de base poderia ser que as vias associado com cada elemento do dupleto são de algum modo interligados um com o outro, e, portanto, formar um biomarcador mais robusto em relação a cada uma das vias tomadas individualmente. No entanto, uma investigação mais robusta é necessária antes de qualquer hipótese pode ser validado. Em nosso trabalho futuro, pretende-se realizar uma análise sistemática destes dobletes superior, suas vias associadas e suas possíveis ligações com o câncer.

Temos demonstrado que a combinação dos dados de expressão de pares de genes aumenta a precisão de classificadores. Também mostramos que o aumento do número de genes para fazer dupletos não resulta necessariamente num aumento proporcional na precisão. Isto é importante porque podemos ter uma precisão muito elevada mesmo que usar um pequeno subconjunto do número total de genes. Assim, a complexidade computacional de dupletos de computação, que pode, potencialmente, ser quadrada do número total de genes no conjunto de dados, não é crítica uma vez que apenas um pequeno subconjunto dos genes é utilizada.

Os genes compreendendo o início dobletes também fornecem resultados facilmente interpretáveis, em comparação com outros métodos, como SVM. Embora SVM pode proporcionar uma maior precisão do que outros, é essencialmente uma caixa preta e nenhuma visão pode ser adquirida com as genes biomarcadores. Dupletos, por outro lado, são facilmente interpretável. Doublets identificar quais genes e que pares de genes podem servir como biomarcadores para a classificação tumor.

No futuro, pretendemos analisar estes doublets em todo conjuntos de dados e tipos de câncer para selecionar pares de genes biomarcadores de câncer mais robustos. Especialmente, vamos investigar como os dobletes individuais mapear as relações reais dos genes, tais como a supressão ou a estimulação, e como as relações função no que respeita à carcinogênese. É ainda o objectivo de exame da eficácia dos doublets em classificar conjuntos de dados de câncer de multi-classe.

Conclusão

A contribuição deste trabalho é duplo. Em primeiro lugar, introduziu dupletos, um novo método para combinar dados de expressão a partir de pares de genes. pares de genes são biomarcadores mais robustas em relação a genes individuais, talvez reflectindo o facto de que os genes estão interagindo para executar uma função molecular e a desregulação dos genes na interacção, ao invés de genes independentes, podem ser responsáveis ​​pela desregulação das vias críticos. Em segundo lugar, há uma combinação dupletos com classificadores convencionais para produzir classificadores cuja precisão é maior do que a de os originais. Nós validou o quadro usando cinco classificadores bem conhecidos, incluindo PAM, DT, NB, SVM, e kNN. Nós mostramos que dobletes pode ser facilmente incorporado nos classificadores existentes sem ter que mudar os algoritmos subjacentes, e que o uso de dobletes pode sempre melhorar a precisão da classificação dos algoritmos originais em diferentes conjuntos de dados.

Materiais e Métodos

Gene Doublets

haja

N

genes em uma amostra de tecido, e que haja

M

tais amostras de tecido. O conjunto de dados do cancro pode então ser representada como a matriz de dimensão. Então, denotaria o valor da expressão do

i

gene -ésimo, no

j

-ésima amostra. O vector gene = denotaria o valor do

i

gene -ésimo através das

M

amostras de tecido, e o vetor coluna = representaria o

j

-ésima expressão amostra de tecido em todo o

N

genes. Os rótulos de classe para as amostras de tecidos são representados por = vetor, onde, o conjunto de todos os rótulos de classe. Para o nosso problema de classificação binária, onde denota canceroso e denota amostras de tecidos normais.

Para cada par de genes em um conjunto de dados, definimos um vetor gibão positivo e um vector gibão negativo como (2) (3)

Assim, para nosso conjunto de dados com genes, temos dobletes positivos e negativos doublets, e nosso conjunto de dados microarray original da dimensão é transformada em uma matriz. Cada linha nesta nova matriz representa um dupleto (positivo ou negativo). Denotamos esta matriz como, com dimensão, onde; Assim, os dobletes definidos são conhecidos como

sumdiff

dobletes. Em outra variação de fazer dobletes, definimos o

mul

dobletes como: (4) e

assinar

dobletes como: (5)

O

sumdiff

dobletes capturar até-up, as relações dos valores de pares de genes de expressão para baixo para baixo (ou seja dobletes positivos) e de cima para baixo (ou seja, dobletes negativos). Além disso, os dupletos negativos capturar a ordem dos valores de expressão de entre os genes do par de genes. Tenha em atenção que os conjuntos de dados foram processados ​​para que um valor mínimo de 10 e um máximo de 16,000. Em seguida, os valores foram convertidos através de. Assim, todas as amostras foram padronizadas para média zero e variância unitária. O

mul

dobletes não só captar as relações up-cima, para baixo para baixo, e up-down de pares de genes, mas também ampliar as relações através da multiplicação. No entanto, o

mul

dobletes não captam as ordens de expressão entre os genes. Por outro lado, o

assinar

dobletes capturar as ordens de expressão inter-gene sozinho.

Métodos de classificação de dados Microarray e

Os dados microarray é tomada a partir de vários estudos, é mostrada na Tabela 1. Estes são os mesmos conjuntos de dados que foram utilizados em [6] para comparar TSP e

k-

TSP com vários classificadores. Os microarrays consistem de os dados de expressão para os tecidos associados com cólon, sangue, pulmão, mama, próstata, e cancro do sistema nervoso central. O número de amostras e do número de genes em cada estudo são também mostrados na Tabela 1. Para os classificadores da linha de base, foram utilizadas as implementações disponíveis em Bioconductor (a PAM) [20] e Weka (para a DT, NB, SVM e kNN) [21].

Classificação precisão

Nós usamos o

LOOCV

(

Deixar One out Cruz Validação

) método para estimar a precisão do classificador. Para cada amostra no conjunto de dados, usamos o resto das amostras no conjunto de dados para prever a classe da amostra. A precisão da classificação de cada conjunto de dados é a razão entre o número de amostras corretamente classificados (verdadeiros positivos + verdadeiros negativos) para o número total de amostras em que conjunto de dados.

Reconhecimentos

Este documento é uma versão substancialmente alargado do nosso trabalho preliminar apresentado na Conferência Internacional 2009 IEEE em Bioinformática e Biomedicina [22]. O trabalho apresentado na conferência apresentou os resultados preliminares limitados apenas a um algoritmo de classificação particular, PAM. Neste trabalho prolongado, nós generalizada dos resultados, mostrando que a informação derivada de pares de genes robustos poderia melhorar a precisão da classificação do cancro independente dos algoritmos de classificação subjacentes. Também discutimos a interpretação dos pares de genes nos dobletes altamente indicativas e sua associação com o câncer.

Deixe uma resposta