PLOS ONE: Cancer subtipo Descoberta e Biomarcador Identificação através de um novo e robusto algoritmo de rede Clustering

Abstract

Em biologia do câncer, é muito importante para entender as mudanças fenotípicas dos pacientes e descobrir novos subtipos de câncer. Recentemente, tecnologias baseadas em microarranjos lançaram luz sobre este problema com base em perfis de expressão genética que podem conter valores atípicos, quer devido a razões químicos ou eléctricos. Estes subtipos não descobertos pode ser heterogêneo com relação a redes ou vias subjacentes, e estão relacionadas com apenas alguns dos biomarcadores interdependentes. Isso motiva a necessidade de que os métodos baseados na expressão de genes robustos capazes de descobrir esses subtipos, elucidar as estruturas de rede correspondentes e identificação de biomarcadores de câncer relacionados. Este estudo propõe o agrupamento t de Student baseado em modelo penalizado com covariância sem restrições (PMT-UC) para descobrir subtipos de câncer com as redes de cluster específicos, tendo dependências de genes em conta e ter robustez contra valores extremos. Enquanto isso, a identificação de biomarcadores e reconstrução da rede são alcançados através da imposição de uma sanção adaptativa sobre os meios e as matrizes de escala inversa. O modelo é equipado via o algoritmo expectativa de maximização utilizando o laço gráfico. Aqui, um critério de selecção genética baseada em rede que identifica biomarcadores não os genes como individuais, mas como sub-redes é aplicada. Isto permite-nos para implicar biomarcadores discriminativos baixos que desempenham um papel central na sub-rede interligando muitos genes diferencialmente expressos, ou têm estruturas de rede subjacentes específicos do cluster. Os resultados da experiência em conjuntos de dados simulados e um conjunto de dados de câncer disponíveis atestam a eficácia, a robustez da PMT-UC em descobrir subtipo de câncer. Moveover, PMT-UC tem a capacidade de selecionar biomarcadores relacionados com câncer que foram verificados na pesquisa bioquímica ou biomédica e aprender a correlação biológica significativa entre os genes

Citation:. Wu MY, Dai DQ, Zhang XF, Zhu Y (2013) Cancer subtipo Descoberta e Biomarcador Identificação através de uma nova e robusta, Clustering algoritmo de rede. PLoS ONE 8 (6): e66256. doi: 10.1371 /journal.pone.0066256

editor: Zhi Wei, New Jersey Institute of Technology, Estados Unidos da América

Recebido: 08 de fevereiro de 2013; Aceito: 02 de maio de 2013; Publicação: 17 de junho de 2013

Direitos de autor: © 2013 Wu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Subvencionado pela National Science Foundation da China (90920007, 11171354), e do Ministério da Educação da China (20120171110016). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Com a acumulação cada vez mais de perfis de expressão do genoma, método baseado em microarray torna-se uma técnica fundamental para a identificação de genes relacionados com o cancro (biomarcadores) e descobrindo novos subtipos de câncer [1]. Comparado com fatores de risco clínicos e patológicos, como idade do paciente, tamanho do tumor e status do receptor de esteróides, compreendendo os genes subjacentes podem obter insights sobre a fisiologia câncer [2] – [4], e é mais eficaz para a detecção de novos subtipos de câncer, tais como o cancro da mama [5], [6], câncer de ovário [7], o cancro do cólon [8]. Estes subtipos podem ter diferenças em redes reguladoras do gene ou proteína de sinalização gene ou expressão de proteína, [9]. Prevendo estes subtipos de perfis de expressão de gene pode ser vista como um problema de agrupamento, e encontrar os genes para a previsão pode ser considerado como um problema de escolha da variável a partir de dados não marcados de elevada dimensionalidade.

Um desafio de descoberta do subtipo do cancro é que as diferenças de nível de rede ou através de via estes subtipos podem fazer as abordagens de agrupamento convencionais com base na expressão do gene perfis diferenças inadequadas [9]. A descoberta destas redes e vias é muito importante para a compreensão da função biológica de genes colectiva e o seu impacto sobre as alterações fenotípicas dos pacientes [9] – [12]. Além disso, os biomarcadores são muitas vezes independentemente seleccionados com base nas suas capacidades discriminativas [13]. No entanto, os genes muitas vezes precisam interagir com os outros a participar em alguns processos biológicos ou funções moleculares [14] – [17]. Alguns deles podem não ser expresso diferencialmente, mas pertence a uma sub-rede que tem actividade global discriminativo ou é uma via útil para um subtipo específico [3], [9], [18]. Portanto, a tarefa de descobrir os subtipos, elucidando suas estruturas de rede correspondente, e escolhendo biomarcadores baseados em rede ainda é muito importante em áreas biomédicas.

Existem vários métodos de agrupamento aplicadas em conjuntos de dados de expressão de genes para particionar amostras biológicas [19]. O agrupamento com base num modelo que tem uma estrutura probabilística sólido é amplamente utilizado na biomarcador e subtipo do cancro descoberta devido ao seu bom desempenho, facilidade de interpretação e facilidade de execução [20]. Actualmente, o processo de selecção do gene de a maioria das abordagens são concebidos através da imposição de restrições de penalização sobre a probabilidade de conseguir uma solução escasso.

Para a aglomeração baseado em modelo penalizado, a fim de reduzir o número de parâmetros, um comum suposição é de que cada agrupamento tem uma matriz de covariância diagonal, de modo que os genes são assumidos como sendo independente. Cada cluster é muitas vezes modelado como variável aleatória retirados de distribuição de Gauss mistura, e combinado com várias penalidades, como pena, pena adaptativa e grupo contrário à pena [21], [22]. Uma vez que o log-probabilidade de distribuição de Gauss decai de forma quadrática com a distância do centro, que é sensível a outliers que são comumente observados em experimentos de microarranjos por razões quer químicos ou eléctricos [23]. t agrupamento A mais robusta do estudante baseado no modelo penalizado com covariância diagonal (PMT-DC) é introduzido em [24] para lidar com o barulho e genes extremas. Eles também fornecem uma maneira para o ranking genes de acordo com as suas contribuições para o processo de agrupamento com um procedimento de inicialização. No entanto, os métodos acima ignorar dependências entre genes dentro de subtipos de câncer. Um modelo de mistura Gaussian regularizado é proposta a tomar várias dependências em conta, permitindo um tratamento de matrizes gerais covariância. Um algoritmo de maximização da expectativa (EM) utilizando o laço gráfica é utilizado para estimativa de parâmetros, e alcança melhores subtipo descobrindo desempenho e selecção de genes [20]. Como um intermediário entre uma diagonal e uma matriz de co-variância geral, uma outra idéia que a modelagem de uma matriz de covariância usando algumas variáveis ​​latentes como foi feito na mistura de analisadores fator é introduzido [25]. Tem mais constrangimentos e é mais complexo do que o método baseado numa matriz de covariância sem restrições. No entanto, é mais eficaz se alguns induzida pela variável latente pressuposto covariância detém no conjunto de dados a expressão do gene. Ambos os métodos têm dificuldade em lidar com os valores extremos, devido à sua suposição de Gauss. Estes métodos baseados em modelos penalizados convencionais selecionar apenas genes com base na resposta média, e ignorar as suas implicações para as redes subjacentes ou caminhos que são muito importantes para a compreensão da função biológica coletiva.

motivado pelos desafios colocados pela subjacente redes ou vias e valores extremos observados no conjunto de dados de expressão gênica de alta dimensão e as limitações dos métodos acima, este estudo propõe o agrupamento t de Student baseado em modelo penalizado com covariância sem restrições (PMT-UC) para a descoberta subtipo de câncer e identificação de biomarcadores. O novo método proposto baseia-se na distribuição t de Student multivariada que faz com que o algoritmo de não ser afectada pelos genes extremas ou não usuais. Ao contrário PMT-DC com a suposição independente, a fim de considerar a relação entre genes e descobrir os subtipos de câncer que diferem em termos de estruturas de rede subjacentes, a covariância sem restrições específica do cluster é usado em vez de covariância diagonal. O desenvolvimento de algoritmos para estimar grafos esparsos através da aplicação de uma sanção para a matriz inversa covariância [26], [27] tornar a ideia de que tomar dependência gene em conta viável. Nós impor uma penalidade de adaptação sobre os meios e as matrizes de escala inversa para alcançar identificação biomarcador baseado em rede e reconstrução da rede. O modelo é ajustado por meio de um algoritmo EM, utilizando o laço gráfica. Um novo critério de selecção do gene é introduzido para encontrar os genes seguintes: genes informativos que têm meios de cluster específicos, os genes que não são expressos diferencialmente mas interagem com alguns genes discriminativos para formar uma função biológica colectivo, e os genes que tenham de aula estruturas de rede subjacentes específicos. Ao aplicar o novo modelo para os conjuntos de dados simulados e um conjunto de dados de câncer publicamente disponível, mostramos que o algoritmo é robusto contra valores extremos no agrupamento, seleção de genes e processos de reconstrução da rede simultaneamente, e dá resultados competitivos com os algoritmos state-of-the-art em detecção de novos subtipos de câncer. Muitos biomarcadores identificados foram verificados na pesquisa bioquímica ou biomédica. A análise Gene Ontology (GO) mostra que os genes na mesma sub-rede selecionada pelo novo método proposto tem correlação biológica e funcional significativa.

Métodos

Esta seção introduz o aluno baseado em modelo penalizado de t agrupamento com covariância sem restrições (PMT-UC) para selecionar um pequeno número de genes, que podem ser usados ​​para classificar as amostras em grupos que ocorrem naturalmente, e para descobrir a relação entre os genes.

o quadro de PMT -uc

Suponha que existem amostras dimensionais independentes, em que representa a expressão gênica de genes. Os genes foram padronizados para ter uma média 0 e variância 1 ao longo de observações.

Cada amostra deve vir de uma distribuição mistura com os componentes dos quais a função densidade de probabilidade é (1) em que inclui todos os parâmetros o modelo, é o não negativo mistura proporção para o componente com, e são os parâmetros desconhecidos conjunto correspondente a.

Cada componente é especificado como a distribuição t de Student multivariada com os parâmetros estabelecidos, onde está o parâmetro de localização, é a escala matriz e é os graus de liberdade. Ele tem a densidade de probabilidade (2) onde é a função gama, e denota a Mahalanobis ao quadrado distância entre e. A média e a matriz de covariância da distribuição t de cada aluno é e, respectivamente. Em geral, o conjunto de parâmetros pode ser estimada através da maximização da função de probabilidade logarítmica.

No entanto, uma vez que o número de genes, muitas vezes é muito mais do que o número de amostras, a estimativa de probabilidade máxima de é provavelmente singular. A matriz de escala inversa é denotado como com os elementos. Nos últimos anos, um número de autores introduzem muitas abordagens para se obter uma covariância definida positiva, aumentando a esparsidade de [26], [27]. A estrutura de uma rede é geralmente construídos com base na correlação ou correspondência parcial [28]. Neste trabalho, a correlação parcial pode ser derivada da matriz de escala inversa. A correlação parcial é utilizado em vez de correlação para apresentar a relação entre os dois genes, devido à sua capacidade de factoring a influência de outros genes. Portanto, pode reflectir a relação entre os genes para o agrupamento e pode ser considerada como as redes ou vias para os genes. A afirmação de que a maioria dos genes (produtos de genes) só interagem com alguns genes (produtos de genes) indica que a dispersão em termos de interpretação biológica [15]. Nós impor uma penalidade de adaptação sobre os elementos fora da diagonal de lidar com a dispersão de [29].

Além disso, a dispersão da média é considerada, que é frequentemente utilizado para a seleção dos genes. O gene discriminativo baseada média é definido para ter meios de cluster específicos, não importa se ele tem um comuns ou de cluster específicos variações [20]. Mais especificamente, tem pelo menos um diferente de zero dado que as amostras foram normalizadas para ter média 0 para cada gene. Portanto, nós impor uma penalidade de adaptação em cada para reduzi-lo a zero [29].

Em seguida, com base na função de log-verossimilhança penalizada que consiste em função de log-probabilidade e termo de penalidade, a função objetivo do PMT- UC a ser maximizada é como se segue: (3) onde, e inclui os parâmetros de regularização e não negativos para s e s, respectivamente. Os parâmetros de regularização controlar a dispersão do modelo. Quanto maiores forem os valores de e, mais genes será noninformative e independente. A penalidade de adaptação é uma versão ponderada da pena com um peso ou para cada componente. Ele consegue as três propriedades desejáveis ​​ao mesmo tempo que pode produzir soluções esparsas, assegurar a coerência da selecção do modelo, e resultar em estimativas imparciais para grandes coeficientes [30].

Inference Algoritmo

Este estudo utiliza a expectativa maximização (eM) algoritmo [31] para a otimização da função objetivo para um dado fixo e. Tal como em [20], [24], cada amostra é assumida como tendo um vector indicador não observada correspondente, especificando o componente de mistura que pertence. Se vem do componente, em seguida, caso contrário. Dado, segue uma distribuição t de Student com a função de densidade de probabilidade. De acordo com o facto de a distribuição t de Student pode ser escrito como uma distribuição gaussiana multivariada com a matriz de covariância escalado pelo recíproco de uma variável aleatória Gamma, a falta de dados adicional é introduzido, em que cada elemento de segue a distribuição Gama [32]. Em seguida, o de dados completo de log-verossimilhança penalizada dos dados completo é (4), onde pode ser expressa como o produto das funções densidade de probabilidade de distribuição de Gauss e Gama (ver texto S1 para detalhes).

O EM algoritmo aplica iterativamente um passo expectativa (e) para calcular o valor esperado dos no que diz respeito à estimativa actual dos parâmetros no th iteração, e uma maximização (m) passo para encontrar os parâmetros actualizados, maximizando, até se conseguir um critério de paragem.

passo E. O valor da depende dos três expectativas seguintes (ver texto S2 para detalhes).

Uma vez que segue a distribuição Multinomial e vem da distribuição da mistura com a função de densidade de probabilidade, o valor de é dada por (5)

pode ser considerada como a probabilidade posterior de pertença ao conjunto th. Vendo que a distribuição Gama é conjugado a si mesmo (self-conjugada) em relação a uma função de probabilidade de Gauss, temos (6) e

(7), onde é a função Digamma [32].

M etapa. Em primeiro lugar, a actualização de é dada pela equationwith a restrição como

(8) Em segundo lugar, o valor de no th iteração é uma solução da equação (9), onde. Neste papel, uma vez que a solução de (9) está na forma de não-fechado, a função R “nlminb” é usado para encontrar a solução numérica para [24].

Em terceiro lugar, o objectivo é o de maximizar ( 10) para obter a atualização para. No passo, os pesos adaptativas são definidos para ser

(11) O parâmetro é introduzido de modo a proporcionar estabilidade e para assegurar que um componente de valor zero pode escapar de zero na iteração seguinte [33]. Quando é muito pequeno, o componente de valor zero tem ainda tão grande peso que ele permanecerá zero na iteração seguinte. Quando for muito grande, ele faz a diferença entre as s ou s não significativas e permite que muitos componentes diferentes de zero-valorizado, resultando em um modelo complexo e impreciso. Foi-lhe atribuído vários valores durante o processo experimental. Mostrou-se que é apropriado. As estimativas iniciais e são escolhidos como os resultados estimados pela penalidade.

Ao considerar a diferenciabilidade de com relação a dois casos que e, a estimativa de atualização é a seguinte (ver texto S3 para maiores detalhes) [20] : Se (12), em seguida; caso contrário

(13) Depois de deixar os termos alheios a dentro, temos (14), onde

Este problema de optimização pode ser resolvido usando o laço gráfico do qual a correspondente R pacote “glasso” está disponível no CRAN [27]. O laço gráfica é concebido para considerar o problema de estimar grafos esparsos por uma penalidade lasso aplicada à matriz covariância inversa [27]. É primeiro proposto para a maximização do gaussiano de probabilidade logarítmica dos dados com respeito à matriz covariância. O novo método proposto tem em conta, em vez da matriz de covariância de amostra, em que contém uma informação a posteriori da amostra, e pode reduzir o efeito de outliers sobre este problema de optimização.

Selecção do modelo

há três parâmetros que necessitam de ser estimada antes do algoritmo PMT-UC, incluindo o número de agrupamentos, e os parâmetros de penalização. Neste trabalho, o seguinte peso aproximado de provas (AWE) critério baseado em uma aproximação para a log-verossimilhança classificação é usada para seleção de modelos: (15), onde é o número efetivo de parâmetros do modelo com e [34], [ ,,,0],35]. Ele impõe uma sanção mais elevada do modelo mais complexo do BIC e é capaz de identificar o número correto de aglomerados, mesmo quando as densidades de componentes são mal especificado [36], [37]. Uma pesquisa da rede é aplicada para encontrar o melhor que tem a AWE mínimo.

O subtipo Descobrindo via Clustering

Após a estimação dos parâmetros na PMT-UC, os clusters podem, então, ser definida como amostras seguintes a distribuição semelhante, que é determinada pelo valor da probabilidade a posteriori. Dada uma amostra, PMT-UC prevê o subtipo de câncer do perfil de expressão gênica por aquilo que dá a maior probabilidade posterior, isto é.

Elucidar a rede subjacente Estruturas

Podemos, então, elucidar o estruturas de rede subjacentes específicos do cluster com base na matriz de escala inversa. Uma rede específica do cluster pode ser representado como um gráfico não dirigida, com os genes que os vértices e as bordas como as suas relações com base na. Bordas conectar esses genes cujas correlações derivadas parciais são maiores do que. Em seguida, uma sub-rede é definido como um conjunto contendo genes e arestas que induz um único componente ligado nessa rede. Estas sub-redes de cluster específicos indicam as diferentes relações entre os genes com vários subtipos de câncer e são considerados como as estruturas de rede subjacentes.

com base na rede de Biomarcadores Identificação

Devido a que os genes em uma célula raramente agir sozinho, mas formam uma rede de interações [14], os biomarcadores são identificados como sub-redes de interação genes em vez de genes individuais neste papel. Especificamente, em primeiro lugar, escolher as sub-redes definidas acima. Em segundo lugar, em consideração do facto de que o gene ruidoso e o gene informativo não estão correlacionados com o outro [20], [38], as sub-redes que possuem pelo menos um gene de médias com base discriminativa são escolhidos como biomarcadores de sub-rede. Este critério de selecção do gene pode identificar os genes que não são expressos diferencialmente mas interagir com alguns genes discriminativos para formar uma função biológica colectiva. Finalmente, as sub-redes restantes dos quais a estrutura interna (a relação entre os genes) são diferentes entre também são consideradas como biomarcadores para explicar as estruturas de rede subjacentes específicos do cluster.

O algoritmo final para PMT-UC

a Figura 1 resume o algoritmo detalhado para descobrir subtipos de câncer, estruturas de rede subjacentes e biomarcadores baseados em rede via PMT-UC. Para qualquer determinado, o resultado de K-meio é usado como a inicialização para o algoritmo EM. A fim de evitar o óptimo local do K-means, corremos todo o algoritmo de cinco vezes com aleatório inicialização K-means, e escolha o resultado que lhe dá o maior valor de função objetivo (3).

resultados e Discussão

Simulações

Um conjunto de dados com genes redundantes é simulado para avaliar o agrupamento, a seleção genética e desempenho da rede reconstrução do método. O conjunto de dados tem amostras e genes informativos com dimensão de entrada. é considerado como sendo maior do que o tamanho da amostra de cada grupo de modo a que a covariância amostra de cada grupo não é reversível. Os primeiros genes informativos vêm de uma distribuição t de Student multivariada dimensional para o th cluster. Os restantes genes ruidosos que são independentes dos genes informativos são independentes e identicamente distribuídos da distribuição t de Student univariado para todos os clusters. Os graus de liberdade vai afetar o nível de ruído do conjunto de dados. Quanto menor o grau de liberdade das caudas mais gordas do conjunto de dados terá.

Em primeiro lugar, o conjunto de dados com dois clusters é simulada, tendo amostras para cada cluster. Três casos são considerados nas experiências seguintes foi investigar os efeitos dos valores extremos no desempenho do método de [24]. Quando, a distribuição do conjunto de dados simulado é aproximado da distribuição Gaussiana. Para cada um dos três casos, os quatro set-ups seguintes são consideradas:

set-up 1 tem meios de cluster específicos com e, e matriz de escala diagonal comum com, onde está a matriz de identidade dimensional

set-up 2 tem meios de cluster específicos com e, e matriz de escala não-diagonal comum com. é uma matriz simetria escasso que tem os elementos da diagonal e os elementos não diagonais, com excepção de,.

set-up 3 tem meios de cluster específicos com e, e usa duas matrizes escala esparsas gerais gerados pela procedimento semelhante ao descrito em [9], [26]. Uma matriz diagonal com os mesmos elementos da diagonal positivos é gerado em primeiro lugar, em seguida, um determinado número de nonzeros são aleatoriamente inserido nos locais não-diagonais de secção especificado da matriz simetricamente. O número de entradas não-diagonais não nulos é definida como. Um múltiplo da identidade é adicionar à matriz de assegurar a limitação positiva. Finalmente, cada elemento é dividido pelo correspondente elemento da diagonal para gerar a matriz de escala inversa. Neste set-up, e.

set-up 4 tem meios de cluster específicos com e, e matrizes de escala não-diagonais semelhantes como set-up 3 com e.

Sob o padrão simulado como acima referido, que definido, e semelhante à que introduzido em [20]. Para cada set-up, a simulação é repetido 50 vezes e equipado com, e.

baseado no modelo PMT-UC é comparado com o clustering Gaussian baseado em modelo penalizado com covariância sem restrições (PMG-UC) e penalizada t agrupamento do aluno com covariância diagonal (PMT-DC) em termos dos seguintes critérios de avaliação. O Índice Rand (RI), o Índice ajustado Rand (ARI) e as frequências dos números selecionados (N) de clusters (K) são utilizados para avaliar a capacidade do método para o agrupamento [20]. A fim de quantificar a capacidade do método para a reconstrução de rede, a distância de Hamming estrutural (SHD) entre redes reais e inferidos é calculado, que é o número de diferenças de ponta para transformar uma rede para outra rede [9]. A SHD menor indica a aproximação mais próxima para a verdadeira rede. Os dois índices seguintes são utilizados para avaliação do desempenho de seleção genética, o número de variáveis ​​informativos selecionado incorretamente ser noninformative (falsos negativos, FN) e o número de variáveis ​​noninformative corretamente selecionado (verdadeiros negativos, TN) [20].

efeito do parâmetro.

o efeito do parâmetro que está concebido para a estabilidade do algoritmo no desempenho do PMT-UC é discutido em termos das cinco medidas introduzidas acima (RI, ari , SHD, FN e TN). Particularmente, corremos PMT-UC em um conjunto de dados fixa sob o set-up 4 com que o conjunto de dados tem maior nível de ruído, um menor número de genes com os meios de cluster específicos e alguns genes com estruturas de rede de cluster específicos, com diferentes valores de ( ). A Tabela 1 mostra as médias e desvios-padrão de cinco medidas em 50 simulações em relação a vários valores de sobre este set-up. Quando não é muito grande, o desempenho do algoritmo tende a ser bastante robustos para a escolha de. Uma vez que os resultados com mostram uma melhoria sobre as outras situações, é definido para 0,1 nas experiências seguintes.

Efeito da inicialização.

A convergência da PMT-UC é estudado por considerando os resultados correspondentes com relação a diferentes inicializações usando K-means. Este estudo também depende do set-up 4 com. Um conjunto de dados simulado é fixo e todo o procedimento é aplicado dez vezes de que cada vez que utiliza cinco K-significa inicializações. Os desvios-padrão dos parâmetros selecionados e resultados da experiência destes dez experimentos podem ser considerados como os índices de avaliação para a convergência das PMT-UC. Para reduzir a variabilidade, cinco conjuntos de dados são gerados, e as médias e desvios-padrão dos resultados de cada conjunto de dados são lista na Tabela 2. É mostrado que os resultados da seleção de clusters e gene não tem mudança significativa com diferentes inicializações. No entanto, o algoritmo completo PMT-UC tem uma certa variância em termos de parâmetros e os resultados SHD que correspondem a reconstrução da rede.

Resultados Clustering.

Os resultados da experiência de agrupamento de os quatro afinações com estão apresentados na Tabela 3. uma vez que os conjuntos de dados provenientes de uma distribuição aproximada de distribuição de Gauss, tanto PMT-UC e PMG-UC sempre identificar correctamente os dois grupos. Para set-ups 1, 2, 3, PMT-UC funciona um pouco melhor do que PMG-UC na identificação de estruturas de agrupamento, como resumido pelo RI ou Ari na Tabela 3. Para set-up 4, com a presença de mais variáveis ​​de ruído com base na média, RI e Ari de PMG-UC diminuir drasticamente a 0,734 e 0,47. Para set-up 1 com o verdadeiro modelo com uma matriz de covariância diagonal, tanto PMT-UC e PMT-DC tem performances de agrupamento semelhantes. Quanto mais forte a correlação entre as variáveis, o mais provável para a PMT-DC para obter mais clusters por engano e têm desempenho agrupamento pobres. Especialmente, para PMT-DC com a suposição de independência, o conjunto de dados no set-up 4 tem apenas cinco genes informativos, o que resulta em elevada taxa de erros de agrupamento.

Para investigar o efeito dos valores extremos, nós utilizar os graus menores e. A Tabela 3 também apresenta os resultados para as quatro set-ups com estes dois casos. Como esperado, PMG-UC executa mal com graus menores, e que é mais sensível a observações extremas. Para set-up 1, os resultados de agrupamento de PMT-DC não mudam significativamente com a diminuição dos graus por sua robustez e suposição de independência. No entanto, muitas vezes não pode encontrar as verdadeiras estruturas de cluster nos outros três set-ups. Em resumo, os resultados para set-ups 1-4 quando demonstrar que PMT-UC tem um desempenho melhor do que o agrupamento PMG-UC e PMT-DC para os conjuntos de dados com genes informativos independentes ou correlatas, e é robusto a outliers.

reconstrução de rede.

Figura 2 mostra os boxplots de SHD específica do cluster entre as redes estimados e verdadeiros com mais de 50 simulações para os acima de quatro set-ups dos três casos, quando é definido para 2. Além disso, marcamos o padrão de dispersão média, que é a matriz de frequência relativa para PMG-UC e PMT-UC. Desde PMT-DC assume uma covariância diagonal, que não está representada aqui. A matriz de frequência relativa é composta de a frequência relativa de diferente de zero estimada de cada elemento da matriz escala inversa ao longo dos 50 repetições. A Figura 3 mostra os resultados de cluster específicos dos primeiros genes informativos (ver S4 texto para os resultados dos genes totais). Nós produzimos as seguintes observações com base nos resultados apresentados nas Figuras 2 e 3. Em todos os casos, PMT-UC fornece menor SHD em relação às outras duas abordagens. Quando com o qual a distribuição t de Student é semelhante à distribuição de Gauss, tanto PMT-UC e PMG-UC são capazes de recuperar a estrutura de covariância inversa escassos para set-up 1. Mostra-se que, embora ambos PMT-UC e PMG-UC tem suposição não-diagonal, eles podem chegar a covariância diagonal como a verdade por um suficientemente grande penalidade sobre os elementos fora da diagonal das matrizes inversa covariância. Para set-up 2, PMT-UC pode identificar com precisão a localização dos nonzeros quase todas as simulações. Enquanto isso, com o alto valor dos nonzeros fora da diagonal de covariância, PMG-UC também pode recuperar o padrão de covariância inversa às vezes. No entanto, quando as correlações parciais dos genes não são elevados no set-up 3, com a pena, PMG-UC não tem desempenho reconstrução boa rede diferente daquela do PMT-UC. Para a afinação 4, com o aumento do ruído, em termos da média, o resultado de PMG-UC é obscura. Quando ou com que o conjunto de dados tem maior nível de ruído, PMG-UC é incapaz de recuperar a estrutura de rede. No entanto, PMT-UC ainda pode descobrir a relação entre genes no âmbito da rede.

Em cada caixa, a marca central é a mediana, as bordas da caixa são os percentis 25 e 75, os bigodes estender-se ao a maioria dos pontos de dados extremos não são considerados valores discrepantes e valores atípicos são traçados individualmente. Os resultados apresentados para PMT-UC, PMG-UC e PMT-DC nas quatro set-ups de três casos. SHD1 e SHD2 estão os resultados para o primeiro e segundo grupos, respectivamente

TRUE:. 1 e TRUE: 2 são as partes do original e correspondente aos primeiros genes informativos para os primeiro e segundo conjuntos , respectivamente. PMT-UC: 1 e PMT-UC: 2 são a estimativa das partes das matrizes de escala inversa utilizando PMT-UC. PMG-UC: 1 e PMG-UC: 2 são a estimativa das partes das matrizes inversa covariância usando PMG-UC

selecção

Gene

A avaliação selecção dois genes.. índices FN e TN também estão resumidos na Tabela 3. para os quatro set-ups, PMG-UC tende a escolhe mais genes que são pouco informativa do que PMT-UC e PMT-DC. No set-ups 1 e 3, os genes informativos ter meios de cluster específicos e podem ser selecionados por todos os três métodos quando o conjunto de dados tem baixo nível de ruído. Para set-ups 2 e 3, há dois genes que não são diferencialmente expressos, mas interagem com alguns genes discriminativos, e cinco genes que também não diferencialmente expressos, mas têm diferentes estruturas de rede subjacentes, respectivamente. A Tabela 3 mostra que, entre os três métodos só PMT-UC pode descobrir esses genes.

O conjunto de dados com vários clusters finas de cauda.

Para, um conjunto de dados adicionais com os conjuntos mais finos-atado é

Deixe uma resposta