PLOS ONE: SPARCoC: um novo enquadramento para Padrão Molecular Discovery and Cancer Gene Identification

Abstract

É um desafio para agrupar pacientes com câncer de um determinado tipo histopatológico em subtipos moleculares de importância clínica e identificar as assinaturas genéticas diretamente relevante para os subtipos. abordagens de agrupamento atuais têm limitações inerentes, que os impedem de avaliar a heterogeneidade sutil dos subtipos moleculares. Neste artigo, apresentamos um novo quadro: SPARCoC (Dispersa-CoClust), que é baseado em um romance Common-fundo e modelo de decomposição Dispersa-plano (CSD) e a técnica de co-agrupamento melhoria máxima Block (MBI). SPARCoC tem vantagens claras em comparação com as abordagens amplamente utilizados alternativas: agrupamento hierárquico (Hclust) e fatoração de matriz não negativo (NMF). Nós aplicamos SPARCoC ao estudo de adenocarcinoma de pulmão (ADCA), um tipo histológico extremamente heterogênea, e um desafio significativo para subtipagem molecular. Para os testes e verificação, usamos a expressão do gene de alta qualidade de perfil de dados de pacientes ADCA pulmão, e identificar assinaturas de prognóstico de genes que poderiam se aglomeram pacientes em subgrupos que são significativamente diferentes em sua sobrevivência global (com valores de p 0,05). Os resultados baseiam-se apenas perfil de expressão gênica análise de dados, sem incorporar qualquer outra seleção de características ou informações clínicas; somos capazes de replicar nossos resultados com conjuntos de dados completamente independentes. SPARCoC é amplamente aplicável a dados genômicos em larga escala para capacitar descoberta de padrões e identificação gene do cancro

Citation:. Ma S, Johnson D, Ashby C, Xiong D, Cramer CL, Moore JH, et al. (2015) SPARCoC: um novo enquadramento para Padrão Molecular Discovery and Cancer Gene Identificação. PLoS ONE 10 (3): e0117135. doi: 10.1371 /journal.pone.0117135

Editor do Academic: Xia Li, Harbin Medical University, CHINA

Recebido: 27 de agosto de 2014; Aceito: 19 de dezembro de 2014; Publicação: 13 de março de 2015

Direitos de autor: © 2015 Ma et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: O SPARCoC quadro (Dispersa-CoClust para Pattern Discovery and Molecular Cancer Subtipagem) é implementado em MATLAB eo código fonte está disponível em:. https://bioinformatics.astate.edu/code

Financiamento: SM é apoiada pelo Conselho Hong Kong Research Grants (RGC) Esquema Início de Carreira (ECS) (ID do Projeto: CUHK 439513). S.Z. é suportado por concessão do NSF (CMMI-1161242). J.M. é suportado pelo NIH concede LM010098 e LM009012. Este trabalho também é parcialmente suportado pelo Instituto Nacional de bolsas de Saúde do Centro Nacional de Investigação Recursos (P20RR016460) e do Instituto Nacional de Ciências Médicas Gerais (P20GM103429). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Há um interesse significativo no desenvolvimento de abordagens computacionais eficazes para estudar maciças de dados de perfis genômicos, tais como dados de expressão gênica todo o genoma, de pacientes com câncer. Devido à heterogeneidade do tumor do cancro (ver [1-5]), que é bem conhecido para o campo, é um desafio para analisar os dados genômicos, a fim de agrupar pacientes com câncer de um determinado histológica ou tipo de câncer patológico em diferentes subgrupos moleculares ( subtipos) de importância genética, biológica e clínica, e identificar os genes do cancro ou padrões de genes que são diretamente relevantes para distinguir os diferentes subtipos. esforços de investigação na subtipagem molecular e cancro gene descoberta de assinaturas pode capacitar aplicações médicas importantes e traduções clínicos, tais como diagnóstico molecular, prognóstico e medicina personalizada.

Recentemente, há estudos em caracterizações moleculares abrangentes de diferentes tipos de câncer, incluindo o de mama estudo de câncer molecular [6-9], o cancro colorectal (CRC) de classificação [10], adenocarcinoma câncer de pulmão (ADCA) ou de células escamosas (SQ) subtipagem [11-15]. A subtipagem molecular de cada um destes estudos envolve a aplicação de um agrupamento específico ou método biclustering /co-agrupamento. agrupamento hierárquico (Hclust) [16], fatoração da matriz não negativo (NMF) [17], o agrupamento integrativa (ICluster) [18] e ConcensusClusterPlus [19] são os vários métodos populares usados ​​atualmente na subtipagem molecular desses estudos de câncer de mama, colo-rectal câncer ou cancro do pulmão etc [6-15].

No entanto, os métodos de agrupamento existentes [por exemplo, 16-19] têm limitações inerentes. Eles geralmente funcionam bem para distinguir diferentes tipos histológicos ou patológicos de cancros, mas não para distinguir subtipos moleculares detalhados finas de um tipo de câncer heterogêneo histológica. Também devido ao desafio computacional para analisar grandes volumes de dados genômicos, a maioria dos métodos atuais optar por usar um modelo computacional aproximado como base. As abordagens atuais geralmente pré-processar os dados de todo o genoma para gene ou seleção de recursos; ou eles dependem fortemente de informação clínica para orientar o agrupamento de pacientes com câncer [11-15]. No entanto, o pré-processamento dos dados pode perder as informações de genes importantes ou padrões de genes associados ao cancro, e de ser muito dependente de informações clínicas potencialmente introduzir viés ao câncer de subtipagem molecular heterogênea. As limitações dos métodos de agrupamento atuais serão discutidos em grande detalhe na próxima secção Métodos.

Percebendo uma das limitações inerentes de métodos existentes é que as características comuns no fundo dos dados genômicos em larga escala de câncer pacientes podem obscurecer a detecção de variações de dados raros, mas cruciais, ou seja, as características genômicas importantes que definem as finas subtipos moleculares detalhados dos pacientes. Como no processamento de imagem, quando apresentados com milhares de imagens de vigilância de uma mesma área de fundo, se pudéssemos eliminar a distração do fundo comum e se concentrar apenas nas informações do primeiro plano interessante esparsa, poderíamos facilmente e claramente detectar os padrões importantes. Aqui, apresentamos SPARCoC (Dispersa-CoClust), um novo quadro de agrupamento não supervisionado para descobrir padrões moleculares e subtipos moleculares de câncer. O quadro é baseado em um esquema conhecido como common-fundo esparsa-plano decomposição (CSD) e uma técnica conhecida como a melhoria máxima Block (MBI) quadriculado co-clustering. Este novo quadro parece ter vantagens significativas em subtipagem molecular do cancro e identificação gene assinatura. Como veremos mais tarde, por exemplo (Fig. 1A) que o agrupamento por semelhança (que é a filosofia por trás quase todos os métodos de agrupamentos existentes) é fundamentalmente falho no contexto de subtipagem molecular do câncer. Em vez disso, a capacidade de detectar a anormalidade escondida por trás do fundo comum é a característica fundamental da nossa nova abordagem

(a) Um exemplo artificial:. Dado o gene de entrada expressão M matriz, onde estão os “genes interessantes” escondido? (Isto é, quais são os genes significativos para distinguir os potenciais subtipos moleculares diferentes?) Os genes “interessantes” não são facilmente detectáveis ​​a partir de uma dada matriz M usando os métodos de agrupamento populares actuais, por exemplo, NMF ou Hclust. No entanto, podemos ver claramente o “primeiro plano” (a co-cluster de tamanho 5 × 5, mostrado em verde da matriz Y) após a distractive “background” matriz X é removido através da decomposição. Os genes “interessantes” (linhas 10-14) são diferencialmente expressos em amostras /colunas 10-14 da matriz Y. (B) O novo quadro de agrupamento. Este novo quadro inclui dois módulos: o common-fundo e decomposição esparsa-plano (CSD) e a máxima Bloco Improvement (MBI) co-clustering. Dada uma matriz M, o módulo CSD irá se decompor M e gerar um “primeiro plano” matriz Y; Então, o módulo de co-agrupamento MBI vai trabalhar sobre a matriz Y e a saída dos co-agregados, fornecer a informação de grupos de amostras ou grupos de genes que estão associadas a certos grupos de amostras.

O nosso quadro de agrupamento realiza agrupamento por “esparsa-plano” comunalidade

,

enquanto muitos métodos de agrupamento atuais normalmente realizar agrupamento por “fundo” comum

.

Nós avaliamos este novo quadro para o estudo de adenocarcinoma de pulmão (ADCA), que é um câncer de pulmão heterogêneo tipo histológico extrema (https://www.cancer.gov/cancertopics/) e que agora é um paradigma para a subtipagem molecular. Os estudos de câncer de pulmão por muitos pesquisadores já demonstraram a viabilidade de classificação de câncer (descoberta classe e previsão de classe) com base em perfis de pacientes com câncer [20-24, 13, 14] a expressão do gene. Muitos estudos conduta gene expressão agrupamento e busca de assinaturas de expressão gênica; no entanto, as assinaturas genéticas prognósticos publicados de diferentes estudos não têm (ou, muito poucos) genes em comum [25]. Esta falta de sobreposições podem indicar que muitos genes estão envolvidos na patologia do cancro de pulmão; igualmente, provavelmente, ele também pode ser uma consequência de armadilhas imprevistos com o agrupamento baseado em um pequeno número de genes após o corte e pré-processamento.

Nós aplicamos SPARCoC para analisar a expressão do gene todo o genoma de perfis de dados de pacientes ADCA pulmão. Estes conjuntos de dados (coletivamente com perfis de mais de 600 amostras de pulmão ADCA paciente) são de alta qualidade e recolhidos com extensa informação clínica dos pacientes. SPARCoC poderia agrupar pacientes ADCA ADCA pulmão e fase I do pulmão com base em seus perfis de expressão gênica em subgrupos com significativamente diferentes resultados de sobrevivência clínicos, e as assinaturas de genes identificados, quando verificados usando conjuntos de dados de perfis de pacientes totalmente independentes, poderia separar os pacientes em subgrupos de resultados de sobrevivência distintas . Especificamente, a análise de Kaplan-Meier da sobrevivência global de ADCA pulmão e pacientes ADCA fase I do pulmão com a assinatura de 128 gene identificado demonstraram que os grupos de alto e baixo risco são significativamente diferentes em sua sobrevivência global (com valores de p 0,05). Note-se que o processo de pulmão ADCA pacientes clustering, identificação gene assinatura, análise de sobrevivência e de validação cruzada é clássico para o campo (Os leitores interessados ​​são referidos, por exemplo, [11-15]).

Acreditamos nosso novo SPARCoC quadro, quando aplicado ao perfil genômico de pacientes com câncer, pode potencialmente levar a novas descobertas no estudo de subtipagem molecular do câncer para orientar tratamentos médicos e nova identificação de genes de câncer ou padrões genéticos para o prognóstico de câncer ou como alvos médicos.

Métodos

SPARCoC: um novo enquadramento para molecular descoberta de padrões e gene do câncer de identificação

o novo quadro de agrupamento (Fig. 1) inclui dois módulos: o fundo comum e sparse- decomposição primeiro plano (CSD) e a máxima Bloco Improvement (MBI) co-clustering. O que se segue é uma visão geral e algumas breves discussões dos dois módulos. No módulo CSD, o modelo computacional baseia-se na optimização esparso; no módulo de co-clustering, é adotado um modelo de otimização bloco. Tal como é discutido em detalhe no que se segue, a SPARCoC quadro tem novas características que o tornam muito eficaz na descoberta padrão molecular, e o nosso modelo computacional é diferente do modelo de principal análise robusta componente (RPCA) e outro agrupamento actual e biclustering /Co métodos -clustering.

Um exemplo para ilustrar a ideia do nosso quadro de agrupamento com decomposição CSD e co-agrupamento MBI (ver Fig. 1)

Este exemplo contém três arquivos (veja S1 de arquivo para os detalhes dos arquivos de exemplo): M.csv, Y.csv e X.csv. A matriz de fundo X (tamanho: 20 × 20; entrada de valores que variam de 1 a 100) é uma matriz de rank-one gerado aleatoriamente em MATLAB; a matriz Y primeiro plano (tamanho: 20 × 20 com valores de entrada tudo pronto para ser 0, com excepção de um co-cluster de tamanho 5 × 5 com valores de entrada tudo pronto para ser 10) é adicionado à matriz fundo X, obtemos o M matriz (tamanho: 20 × 20), que agora é uma matriz de classificação de dois. Quando dada a M.csv (a matriz M), o nosso modelo de decomposição CSD retorna exactamente X.csv (matriz X) e Y.csv (matriz Y) como dada (Note-se que o modelo de CSD que é utilizada a (M3) modelo, que será mais tarde especificada, com K = 1 e o nível de ruído δ = 0). Quando testamos o desempenho de MBI na Y.csv (a matriz Y), obtemos o co-cluster exatamente correto de tamanho: 5 × 5. Este exemplo artificial mostra que o nosso novo quadro de agrupamento baseado na decomposição CSD eo co-agrupamento MBI pode efetivamente separar a informação de primeiro plano “interessante” (de genes interessantes e amostras interessantes) a partir da informação de fundo. Gostaríamos de salientar que mesmo com este exemplo simples, é difícil para outras abordagens de agrupamento, como NMF, para separar corretamente as amostras interessantes de outras amostras quando a matriz M é dado.

The Common -background e decomposição Dispersa-plano (CSD) módulo

Foram utilizados os dois modelos seguintes para common-fundo e decomposição esparsa-plano:. (M1) e (M2)

(Modelo 1 ) o modelo é para escrever uma dada matriz M como a soma das três matrizes: X, Y e Z, de tal maneira que M = X + Y + Z, enquanto o símbolo X representa um Terminou-uma matriz em forma de X = x * ι, onde x é um vetor de decisão e ι é o todo-um vetor linha, e Z é a matriz de ruído. Especificamente, o modelo em questão é (M1)

Note que X tem, assim, uma estrutura comum-vector no sentido de que todos os vetores de X de coluna são as mesmas.

Deve ser salientado que o nosso modelo de common-vector é, teoricamente, diferente do modelo RPCA proposto em Candes et al. [26] e Chandrasekaran et al. [27]. A principal diferença é RPCA requer X para ser de baixo grau, mas o nosso modelo (M1) requer X para ser um especial rank-one matriz. O G

1 norma no objectivo de (M1) promove, naturalmente, a dispersão em Y. matriz Recentemente, um modelo semelhante para a extracção do fundo de imagens também foi considerado independentemente por Li, Ng e Yuan [28] no contexto de processamento de imagem para aplicações em sistemas de videovigilância. Podemos resolver (M1) pelo chamado Método Direcção alternada de Multiplicadores (ADMM), que é uma rotina de otimização de primeira ordem, o que nos permite resolver os modelos de tamanho muito grande.

(Modelo 2) Considere a expressão do gene matrizes m

K da mesma dimensão mxn, e k = 1, 2, …, K. Índice k denota uma determinada condição. Para um determinado k, matriz M

k = (a

k

ij) m × n contém o nível da expressão gênica i, em vez alínea j, onde i = 1, 2, …, m e j = 1, 2, …, n. Podemos modelar a flutuação do nível de expressão de fundo por uma matriz de baixo grau, e os restantes matrizes esparsas, em seguida, refletir a novos conhecimentos de que “mostra” a expressão dos “interessantes” ou genes “ativos”. Esta informação pode ser usada para analisar a relação ou correlação entre o nível de expressão do gene /padrão e tipo /subtipos. O modelo de otimização de interesse é: (M2), onde ǁY

0 é o L

0 norma-(aka a cardinalidade) de Y

i, denota o nível de ruído, e

i 0 é um parâmetro de ponderação escolhidos apropriadamente. O modelo de relaxamento convexa correspondente é:. (M3)

Note que (M3) torna-se um modelo comum-vector (M1), quando adicionamos uma restrição adicional X = x * ι a ele

Consulte o seguinte para o código pseudo para o fundo comum e modelo de decomposição esparsa-plano (M1)

Entrada:. a matriz de dados

M

, eo parâmetro δ nível de ruído.

saída: o vector common-fundo

x

ea matriz esparsa-primeiro plano

Y

Comece:.

(Inicialização ). Definir a função aumentada de Lagrange para (M1):

Note que

D

é o multiplicador de Lagrange associado com a restrição de igualdade em (M1), e

r Art 0 é um parâmetro de penalidade. Definir valores iniciais:

Y

: =

Y

0,

Z

: =

Z

0,

D

; =

D

0. Defina o valor para o parâmetro

r

. Definir o contador de loop

k

: = 0.

(minimizando a função Lagrangeana aumentada em relação ao

x

,

Y

,

Z

alternadamente). Resolver os seguintes três problemas de otimização simples sequencialmente:

(Actualização do multiplicador de Lagrange). Calcule

(critério de parada)

. Se algum critério de parada for atendida, então pare. Caso contrário, defina

k

: =

k

+1, e ir para a Etapa 1.

(processando

x

e

Y

). Saída do vector common-fundo

x

k + 1 | ea matriz esparsa-primeiro plano

Y

k + 1 | .

A melhoria máxima Block (MBI) módulo de co-agrupamento

A nossa abordagem de agrupamento é baseado em um modelo de otimização tensor e um método de otimização denominado Melhoria Bloco máxima (MBI) [29]. Considere o seguinte formulação para o problema co-cluster para uma determinada dados tensor definir M ∈ R

n1 × n2 … × nd: onde f é uma dada medida de proximidade. Em [29], o chamado

melhoria máxima do bloco

método (MBI) é proposto para resolver o modelo acima (CC), com resultados encorajadores numéricos. Os leitores interessados ​​são encaminhados para o nosso trabalho anterior [29] para os pseudo-códigos do modelo MBI para co-agrupamento tensor e para 2D matriz de co-clustering. Note-se que o modelo acima para co-tensor de agrupamento é

exacta, no sentido em que se co-existem aglomerados exactos, em seguida, o modelo acima, na sua óptima atinge o valor mínimo de zero.

O MBI Análises de agrupamento podem ser aplicados a co-conjunto de dados de expressão de genes em matrizes 2D (genes em comparação com amostras), bem como os dados em forma tensor de alta-dimensional. A nova estrutura é flexível na medida em que é fácil de incorporar uma variedade de medições da qualidade do agrupamento. Nosso teste experimental preliminar demonstra sua eficiência e eficácia [30, 29]. MBI, como um sistema de co-agrupamento tabuleiro de damas, sem qualquer gene-aparamento, poderia fornecer a identificação de subtipos de câncer e também os genes correlacionados com os subtipos ao mesmo tempo, enquanto a maioria das abordagens anteriores bi-agrupamento ou co-agrupamento (por exemplo LAS [31 ], QUIBC [etc 32],) estão mais focados na extração de padrões de expressão gênica coerentes, geralmente não um bom desempenho para subtipos de câncer. Teoricamente, em comparação com outras abordagens co-agrupamento, o nosso modelo é baseado em uma formulação exata para co-agrupamento, enquanto busca de uma solução aproximada para o modelo exato. Nesse sentido, outras abordagens (por exemplo, o método SVD low-rank matriz [33] eo método NMF [17]), base dos esforços em uma formulação aproximada de co-clustering.

Leve o método NMF como um exemplo, que é uma das abordagens actualmente amplamente utilizada para a subtipagem molecular do cancro. Há dois problemas inerentes para NMF: (1) que requer as entradas da matriz de expressão do gene de entrada a ser todos os valores não-negativos; (2) divide a matriz de entrada para o mesmo número de grupos para as linhas (genes) e para as colunas (amostras). Uma vez que o número de genes (~ 30000) é geralmente significativamente maior do que o número das amostras (cerca de várias centenas), pode não ser muito importante a divisão dos genes (linhas) e as amostras (colunas) para o mesmo número de grupos, em que geralmente o número de diferentes subtipos moleculares é pequeno, digamos entre 2 e 5. Por exemplo, quando o número de grupos de k = 2, o método terá uma NMF 2 × 2 separação de uma matriz de expressão de gene de cerveja (tal como 22.000 linhas × 276 colunas) em 4 blocos, dando origem a uma separação muito aproximada da matriz. Em pé de igualdade a nossa abordagem MBI é flexível o suficiente para produzir uma separação adequada fino detalhada, digamos, com o número de grupos de linhas k

1 100 e o número de grupos de colunas k

2 = 2.

Nós gostaríamos de salientar que o número de k

1 e k

2 são parâmetros dimensão importante para a co-agrupamento MBI. Não existem métodos eficientes que possam derivar os números ideais para k

1, k

2, mas poderíamos aplicar um processo de busca local [29] para procurar um número óptimos locais para k

1, k

2.

Nota abordagens de agrupamento que quase todos sem supervisão nem sempre vai gerar exatamente os mesmos grupos formar todas as corridas com diferentes configurações de parâmetro no mesmo conjunto de dados. Tal como a abordagem NMF, o novo algoritmo MBI pode ou não convergem para a mesma solução para cada ensaio, em função das diferentes condições iniciais aleatórios. Também aplicamos a idéia de agrupamento consenso, tendo em conta as informações de cada duas amostras sendo agrupados a partir de um certo número de MBI é executado. Se duas amostras são do mesmo tipo ou subtipo, nós, então, esperar que as designações de amostra variam pouco de corrida a corrida [17].

características inovadoras do nosso novo quadro SPARCoC

A seguir fornece o fundamental do-fundo comum e modelo de decomposição Dispersa-plano (CSD) e a melhoria máxima Block (MBI) técnica de co-clustering, e também resume os novos recursos do SPARCoC em comparação com métodos de agrupamento existentes:

Onde estão o câncer genes importantes para a definição de diferentes subtipos moleculares de câncer? Uma das principais descobertas através de nosso estudo indica que eles representam o “plano” do perfil de expressão gênica de dados de pacientes, normalmente escondidos dentro da “base” de um oceano de dados de expressão gênica ruidosos. O esforço do nosso novo quadro de agrupamento baseado na decomposição CSD e co-agrupamento MBI é definir subgrupos moleculares distintos de pacientes e para ajudar a destacar as importantes “primeiro plano” genes de tomada de impacto de seu fundo barulhento.

Note-se que quase todos os outros métodos de agrupamento atual e co-agrupamento são baseados na noção de identificar os aspectos comuns; portanto, eles estão presos pelos padrões de fundo

,

ao invés de focar sobre o “plano” rico em informações do

de dados de expressão gênica (ver Fig. 1A).

A módulo de decomposição CSD facilita o efeito dos importantes genes “interessantes” para se destacar da “base”, assim, ajudar a identificar os genes do câncer e subtipos moleculares muito bem detalhados, que de outra forma seria impossível detectar (consulte 1A, Tabela 1).

o módulo de co-agrupamento MBI, como uma abordagem co-agrupamento tabuleiro de damas, pode gerar tanto agrupamento linha e agrupamento de colunas, ao mesmo tempo, e, assim, ajudar a identificar genes do cancro (linhas) que define os diferentes moleculares aglomerados /subgrupos de pacientes (colunas) (ver Fig. 2).

a nossa abordagem pode ser aplicada a grande escala conjuntos de dados de perfil genômico de pacientes sem qualquer gene aparar ou seleção de recurso. Ele acaba por ser muito eficiente e funciona em todo o genoma conjuntos de dados de expressão de genes, bem como outros conjuntos de dados, tais como mutação, o número de cópias, miRNA, metilação, sequenciamento exome e inverter matriz proteína frase etc. É capaz de identificar, potencialmente, novos subtipos moleculares de câncer e genes do cancro ou padrões genéticos.

. Para os conjuntos de dados de expressão de genes estudados aqui, MBI co-agrupamento oferecer simultaneamente os agrupamentos (linha) de genes e as amostras agrupamentos (coluna), identificando os genes associados com os diferentes tipos ou subtipos. (A) mapa de calor mostra co-clusters claras identificadas pela MBI. A trama é baseada em valores reais da matriz Y de perfil de expressão gênica de dados (dados1 com três tipos: Coid /20, CM /13, NL /17; recorra a um arquivo S1). Cada linha corresponde a um gene; cada coluna corresponde a uma amostra. O mapa de calor mostra os valores de expressão de 100 genes em todos os 3 tipos diferentes. (B) mapa de calor mostra co-clusters claras identificadas pela MBI. O enredo é baseado nos valores da matriz Y para o Canadá dataset stage1 (mapa de calor para o Canadá dataset stage1 com 562 genes com k

1 = 100 e k

2 = 2. Os dois grupos são separados por uma grossa preta linha vertical).

consulte os resultados de testes fornecidas aqui e na informação de suporte (

ver

S1 Arquivo

para resultados de testes adicionais

), que demonstram as claras vantagens do nosso novo quadro de agrupamento. Os resultados de teste mostram que: (1) a abordagem CSD facilita a identificação de marcadores de genes, tornando marcadores de genes potenciais se destacam do “fundo”; (2) a abordagem MBI tem melhor desempenho em relação Y em M, em que M é a matriz original e a expressão do gene Y é a matriz esparsa gerado através da decomposição CSD; (3) o nosso novo quadro de agrupamento funciona muito melhor em comparação com as abordagens de agrupamento amplamente utilizados, por exemplo, Hclust e NMF (ver também Fig 3A e 3B, Fig 3C e 3D;.. Os valores de p menores de teste de log rank (Fig . 3; Tabela 2) e as percentagens mais baixas de 3 anos de sobrevida global de grupos de alto risco (

também ver

S1 Arquivo

para obter os resultados dos testes

) implicam nosso modelo MBI CSD + é um melhor modelo de cluster).

(a) e (b). Comparação de parcelas de sobrevivência de Kaplan-Meier, com base nos agregados sem supervisão de agrupamento hierárquico (Hclust) e a de MBI, quando for dada a mesma matriz de expressão do gene M (pulmão ADCA Canadá conjunto de dados do Shedden et al. [7]. (A) de Kaplan plot Meier sobrevivência baseado em Hclust. (b) parcela de sobrevida de Kaplan-Meier com base em MBI agrupamento (com leave-one-out-de validação cruzada (LOOCV) ~ 99% de precisão). MBI mostra uma melhor separação do subgrupo agressiva do outros dois subgrupos comparados com o Hclust Bryant et ai [6] os valores de p são calculados pelo teste de log-rank;.. o LOOCV foi feito o uso de PAM [18] (c) e (d) comparação de Kaplan-Meier.. parcelas de sobrevivência com base no agrupamento sem supervisão de NMF (c), e que de MBI (d), quando for dada a mesma matriz de expressão do gene M (pulmão ADCA Canadá conjunto de dados a partir de Shedden et al. [7]). quando dado o mesmo teste de expressão do gene dados, as curvas de sobrevivência de MBI agrupamento mostra uma separação mais significativa do que os de NMF clustering. os valores de p são calculados pelo teste de log-rank.

em comparação com outros métodos de agrupamento sem supervisão, nosso novo framework cluster executa de forma robusta em geral, e demonstra um resultado de agrupamento substancialmente melhorada em determinados conjuntos de dados. Na verdade, o desempenho de um algoritmo de agrupamento pode ser significativamente afetada pelos conjuntos de dados: alguns conjuntos de dados com tipos distintos como tipos de “maçã e laranja”, enquanto alguns outros conjuntos de dados com tipos havendo diferença muito sutil como diferentes tipos “Apple”. O objetivo deste artigo é, de facto, a propor um novo quadro de agrupamento eficaz cuidadosamente projetado, a fim de enfrentar os desafios do câncer de subtipagem molecular heterogênea (diferenciando sutilmente alteradas tipos “maçã”). A seguir, nós aplicamos a nossa nova estrutura para estudar o grande desafio, extremo adenocarcinoma câncer de pulmão heterogêneo (ADCA pulmão e fase I ADCA pulmão).

Resultados

Nesta seção, analisamos alta -Qualidade perfil de expressão gênica de dados de coletivamente ~ 600 amostras de pacientes, e nosso método prontamente fornece grupos de pacientes ADCA de pulmão com os resultados de sobrevivência clínicas distintas e identifica assinaturas de gene, que, quando verificados usando conjuntos de dados completamente independentes, são capazes de distinguir pacientes ADCA pulmão para subgrupos com sobrevida global significativamente diferentes (valores de p 0,05). Poderíamos replicar nossos resultados usando conjuntos de dados completamente independentes. As análises estatísticas são conduzidas para demonstrar a robustez dos resultados.

Nós usamos SPARCoC para analisar perfis de adenocarcinoma de pulmão expressão gênica pacientes (ADCA) e apresentar os resultados de nossas subtipagem molecular e descoberta gene assinatura prognóstico. Com base em todo o genoma expressão gênica perfis de pacientes ADCA pulmão, aglomerados SPARCoC os pacientes em subgrupos distintos; e sobrevida global do paciente é significativamente diferente entre os subgrupos. Ele ajuda a identificar assinaturas do gene do cancro, que, quando verificados com os dados de perfil de expressão de genes completamente independente, poderia separar os pacientes ADCA ADCA pulmão e fase I de pulmão em subgrupos com diferentes resultados de sobrevivência clínicos.

Note-se que os resultados aqui apresentados são baseados apenas na análise de dados de perfil de expressão gênica, sem incorporar qualquer outra seleção de recurso, ou informações clínicas, o que é diferente de outras análises na literatura (por exemplo, [34, 35, 15] ). No entanto, ainda podemos ver que somos capazes de replicar nossos resultados com conjuntos de dados completamente independentes

.

Para os testes e verificação, usamos em nosso estudo os seguintes conjuntos de dados com perfis de coletivamente mais de 600 expressão gênica amostras de doentes do pulmão ADCA; esses grandes conjuntos de dados são de alta qualidade e são coletados com extensa informação clínica dos pacientes com câncer.

Os conjuntos de dados utilizados

Jacob conjunto de dados.

442 amostras ADCA, com a expressão do gene e dados clínicos do Instituto Nacional do Câncer Consórcio Challenge (NCI) do Director [11]. Este conjunto de dados consiste em 4 grupos de pacientes diferentes, incluindo Toronto /Canadá (TC, n = 82, com a fase I n = 57), Memorial Center Sloan-Kettering Cancer (MSKCC, n = 104, com a fase I n = 62), H . Lee Moffit Cancer Center (HLM, n = 79, com a fase I n = 41), e da Universidade de Michigan Cancer Center (UM, n = 177, com a fase I n = 116). Semelhante como em [15], conjuntos de dados TC e MSKCC são combinados chamado TM (n = 186), e conjuntos de dados HLM e UM combinados em conjunto chamado HM (n = 256).

ACC conjunto de dados.

117 amostras ADCA de Aichi Cancer Center, obtidos a partir https://www.ncbi.nlm.nih.gov/geo, número de acesso GSE13213 [36].

GSE5843 conjunto de dados.

46 amostras ADCA (estádio IA 16 amostras; estágio IB 30 amostras)., obtidos a partir https://www.ncbi.nlm.nih.gov/geo, número de acesso GSE5843 [37]

é sabido que cancro do pulmão é a principal causa de morte relacionada ao câncer em todo o mundo (https://seer.cancer.gov/statfacts/). Cerca de 50% dos pacientes com estágios I e II do cancro do pulmão de células não pequenas (NSCLC), eventualmente, morrem de doença recorrente, apesar de ressecção cirúrgica. É significativo para descobrir subtipos moleculares do câncer pulmonar com os resultados clínicos distintos de tal forma que cada subtipo molecular propôs diretrizes de tratamento que incluem ensaios específicos, terapias específicas e ensaios clínicos. No entanto, é difícil de estudar as diferenças heterogêneos sutis de subtipos moleculares de adenocarcinoma de pulmão (ADCA) e, especialmente, aqueles de fase I de pulmão ADCA, sem acesso a grupos de poderoso agrupamento não supervisionado abordagens, tais como a novela SPARCoC framework cluster desenvolvido aqui (consulte a a comparação da nossa abordagem clustering e NMF ou Hclust na seção anterior e Arquivo S1). desempenho

Clustering pulmão adenocarcinoma (ADCA) pacientes

subgrupos distintos de pacientes de TM e HM conjuntos de dados.

A TM e conjuntos de dados HM foram usados ​​como os conjuntos de dados de treinamento para a nossa análise.

Deixe uma resposta