PLOS ONE: Comparação da Utility prognóstico do Diverse dados moleculares entre lncRNA, DNA metilação, microRNA, e mRNA em cinco Cancers

Humana

Abstract

Introdução

Avanços em tecnologias de alta capacidade têm gerado diversos marcadores moleculares informativos para previsão de desfecho câncer. Longa não-codificante RNA (lncRNA) e metilação do DNA à medida que novas classes de marcadores promissores estão surgindo como principais moléculas em cancros humanos; No entanto, o utilitário prognóstico dos dados moleculares tão diverso continua a ser explorado.

Materiais e Métodos

Foi proposto um gasoduto computacional (IDFO) para prever a sobrevida do paciente por meio da identificação de biomarcadores relacionados com o prognóstico utilizar MULTI dados moleculares -tipo (mRNA, microRNA, metilação do DNA, e lncRNA) de 3198 amostras de cinco tipos de câncer. Foi avaliado o desempenho preditivo de ambos os dados moleculares individuais e dados moleculares multi-tipo integrado na estratificação sobrevida do paciente, e comparou sua importância relativa de cada tipo de câncer, respectivamente. A análise de sobrevivência utilizando regressão de Cox multivariada foi realizada para investigar o impacto dos marcadores IDFO-identificadas e as variáveis ​​tradicionais sobre os resultados clínicos.

Resultados

Usando a abordagem IDFO, obtivemos um bom desempenho preditivo do conjuntos de dados moleculares (inicializar precisão: 0,71-,97) em cinco tipos de câncer. Impressionantemente, lncRNA foi identificado como o melhor preditor de prognóstico nas coortes validados de quatro tipos de câncer, seguido de metilação do DNA, mRNA, e depois microRNA. Encontramos a incorporação de dados moleculares multi-tipo mostrou poder de predição semelhante aos dados moleculares do tipo single, mas com a excepção das combinações de metilação lncRNA + DNA em dois tipos de câncer. A análise de sobrevida de modelos de risco proporcional confirmou uma alta robustez para lncRNA e metilação do DNA como fatores de prognóstico independente de variáveis ​​clínicas tradicionais.

Conclusão

Nosso estudo fornece insights sobre a compreensão sistematicamente o desempenho prognóstico da diversidade molecular dados em ambos os padrões individuais e agregados, que podem ter uma referência específica aos estudos relacionados subsequentes

Citation:. Xu L, Fengji L, Changning L, Liangcai Z, Yinghui L, Yu L, et al. (2015) Comparação do utilitário prognóstico do dados moleculares Diverse entre lncRNA, DNA metilação, microRNA, e mRNA em cinco cancros humanos. PLoS ONE 10 (11): e0142433. doi: 10.1371 /journal.pone.0142433

editor: Rossella Rota, Ospedale Pediatrico Bambino Gesu ‘, ITALY

Recebido: 09 de julho de 2015; Aceito: 21 de outubro de 2015; Publicação: 25 de novembro de 2015

Direitos de autor: © 2015 Xu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Dados Disponibilidade: Os dados são os dados do paciente. Devido a restrições éticas, os dados estão disponíveis a partir do Cancer Genome Atlas (TCGA) Portal de dados para pesquisadores que cumpram os critérios de acesso aos dados confidenciais:. Https://tcga-data.nci.nih.gov/tcga/

financiamento:. Os autores não têm apoio ou financiamento para relatar

Conflito de interesses:. Os autores declararam que não existem interesses conflitantes

Introdução

previsão de prognóstico do câncer é crucial para controlar a dor, a progressão e a morte dos doentes. predição de resultados precisos pode ser usado clinicamente para selecionar o melhor de várias terapias disponíveis para pacientes com câncer e melhorar suas chances de sobrevivência [1, 2]. Tradicionalmente, o prognóstico é baseada em parâmetros patológicos clínicos, tais como o estágio do tumor, metástases, ea idade de diagnóstico patológico [3]. Recentemente, uma série de biomarcadores moleculares distintas foram pesquisados ​​e aplicados para acessar o desfecho clínico dos pacientes, tais como (estados de fosforilação, receptores de superfície celular) à base de proteínas, com base DNA-(SNP, CNV), ea base RNA-( mRNA, microRNA, ncRNA) [4-7]. Além disso, há evidências crescentes de que sugere que o RNA não-codificante de comprimento (lncRNA) e metilação de ADN pode mediar resultados supressores oncogénicos ou tumorais, representando novas classes de biomarcadores promissores [5]. No entanto, a maioria dos estudos se concentrar em qualquer uma linhagem de câncer única ou em dados de plataformas individuais, ao passo que uma comparação abrangente para determinar o poder prognóstico relativo para cada classe de moléculas para um cancro específico ideal seria fornecer uma plataforma de diagnóstico mais eficaz. Isso também permitiria considerar se alvo os biomarcadores conjunta proporcionaria um melhor controle dos cânceres [2]. Apesar da crescente disponibilidade de dados que descrevem essas várias moléculas, estudos anteriores ou quadros disponíveis /oleodutos não investigou estas questões.

Estratégias como RT-PCR e imuno-histoquímica têm investigado um número considerável de biomarcadores para o prognóstico [8- 10]. No entanto, a maioria dos biomarcadores foram encontrados por “palpites” ao invés de

via

uma abordagem sistemática, genome-wide. Além disso, apenas alguns foram utilizados num ambiente clínico e a utilidade da maioria destes marcadores baseados em wet-lab continua a ser determinado [4]. Mais recentemente, usando perfis de alto rendimento, abordagens computacionais como abordagens de aprendizado de máquina [11-16] e diferentes modelos de sobrevivência [17-19] estão a ser aplicadas para identificar biomarcadores candidatos com os valores de prognóstico para a doença. Embora essas metodologias ter acumulado grande quantidade de assinaturas moleculares com precisões aceitáveis, pouca pesquisa sistemática foi realizada para determinar o poder prognóstico de diversas assinaturas moleculares e sua importância relativa. Isto é porque a maioria dos estudos sofrem de um ou vários dos quatro problemas que se seguem: (i) deficiência de perfis moleculares, (ii) se limitando a linhagem cancro único, (iii) estratégias subdesenvolvidos para explorar preditores óptimas em termos de dados de elevada dimensão e tumoral heterogeneidade. grande quantidade, no entanto, o projeto Cancer Genome Atlas (TCGA) agregadas dos dados genômico foi encontrado para aumentar a compreensão das patologias clínicas de diferentes plataformas moleculares em cânceres humanos [20-23], o que ajudaria a tradução de dados biológicos em utilidade de prognóstico.

neste estudo, temos implementado um gasoduto para identificar biomarcadores relacionados com o prognóstico em perfis multi-cas, incluindo RNA-seq, de metilação do DNA Bead Chip, e microRNA-seq e comparou o seu poder prognóstico relativo em cinco cancros TCGA . Durante o processo de modelagem, biomarcadores cruciais para o resultado clínico foram classificadas e selecionadas usando nossa abordagem iterativa Supressão Característica Optimal (IDFO). Além disso, foram avaliados os utilitários preditivos de tanto individual e integrado preditores multi-cas para investigar sua contribuição para modelar o desempenho e o poder preditivo de diversos preditores moleculares respectivos cancros foram ainda avaliadas em conjuntos de testes independentes. Análise de sobrevivência foi usado para determinar a utilidade de prognóstico de preditores IDFO-identificados, isoladamente ou em combinação com as variáveis ​​clínicas. Além disso, para facilitar o uso da nossa abordagem, nós também implementou um código disponível publicamente fonte R (CAPM.R), que permite que os pesquisadores para construir modelos de prognóstico para outros conjuntos de dados. Nosso estudo fornece um sistema de avaliação dinâmica dos riscos para a previsão do prognóstico do câncer, que não só revela o utilitário prognóstico de dados multi-cas em todos os tipos de câncer, mas também facilita a compreensão da lncRNA e metilação do DNA como potenciais marcadores prognósticos na progressão tumoral.

Materiais e Métodos

Os conjuntos de dados

Nós montados 3198 amostras de tumores publicamente disponíveis em dados baseados em array entre os cinco tipos de câncer a partir do projeto Cancer Genome Atlas (TCGA), que foram publicados em [20, 24-27] (Tabela a em ficheiro S1 descreve as distribuições de amostra detalhadas). Todas as amostras de tumor foram seleccionados com base nos seguintes critérios: (a) as assinaturas (transcritos de ARNm /lncRNA /microRNA, sondas de metilação do DNA) ausentes em 50% das amostras de tumor foram removidos como o irrelevante, (b) as amostras com informações clínicas combinado ( por exemplo, o tempo de sobrevivência, idade, estágio do tumor), (pacientes c) tumorais com apenas até uma sobrevivência mês após a cirurgia foram excluídos para evitar qualquer influência confusão potencial de complicações pós-operatórias. A maior parte das amostras tumorais foram compostas de três conjuntos de dados de perfis moleculares diferentes, que foram ARN-SEQ, microARN-SEQ, e a metilação do ADN do grânulo de chip. Quatro tipos de assinaturas moleculares foram extraídos como preditores do prognóstico dos três perfis de dados moleculares, incluindo lncRNA e mRNA assinaturas de perfis de RNA-seq, assinaturas de metilação do DNA eram da metilação do DNA Bead ChIP 450k /27k e assinaturas de microRNA eram da microRNA- perfis de seq. Para cada perfil de dados molecular, foram selecionados aleatoriamente de dois terços das amostras tumorais para construir (ou seja, ‘trem’) modelos de previsão para identificar as melhores preditores de desempenho, eo terço restante das amostras foram utilizados para um teste independente destes preditores. Os conjuntos de dados correspondentes aos diferentes tipos de cancro foram analisados ​​separadamente. Além disso, para prever o resultado de pacientes, amostras de tumor foram atribuídos a qualquer um “bom” ou “pobres” grupos de resultado como etiquetas prognóstico. O limiar de dois grupos de desfecho foi definido com base na caracterização clínica dos respectivos tipos de câncer (que têm a vantagem de produzir dois grupos de resultado com tamanho igual em cada câncer).

A dicotomização dos dados de sobrevivência

Nós dicotomizada os dados de sobrevivência censuradas para cada tipo de câncer através da atribuição de um limite de tempo de corte como: 2 anos para pacientes com adenocarcinoma de cólon (COAD), 3 anos para o carcinoma de células escamosas do pulmão (LUSC), carcinoma cistadeno serosa (OV), uterina carcinoma corpus endometrioid (UCEC), e 5 anos para carcinoma invasivo da mama (BRCA). Os pacientes que viviam além do tempo de corte foram rotulados como “bom prognóstico” do falecido foram rotulados como “mau prognóstico”. Os pacientes com tempos de sobrevivência censurados que foram antes o limite de corte foram excluídos (por exemplo, menos de 1 mês)

Pré-processamento de perfis genômicos e epigenoma

RNA-seq:. TCGA RNA-seq nível 2 os dados foram normalizados e processados ​​por meio do cálculo da base de leituras por quilo por milhão mapeado lê valor (RPKM) para a expressão de transcritos de lncRNA /ARNm. Para coincidir com as transcrições reunidos em detalhados lncRNAs /mRNAs, todas as transcrições foram alinhados com o Genoma Humano pela lista de referência a partir da UCSC (GRCh37 /hg19), enquanto transcrições com metade dos seus comprimentos com em um lncRNA /mRNA foram identificadas como um jogo [28]

MicroRNA-seq:. níveis de expressão de microRNA foram ensaiadas

via

3 dados do nível de sequenciamento TCGA microRNA (Illumina Genoma analisador Hiseq 2000). As expressões calculadas para transcrições alinhando a um determinado miRNA foram recuperados de ambos os arquivos de miRNA isoformas e quantificação (disponível no portal de dados TCGA juntamente com metarquivos anotação de cada conjunto de dados) [29]

DNA metilação Bead Chip:. O ADN conjuntos de dados de metilação, na maioria dos grupos de tumor são compostos da Ilumina 450K e /ou plataformas de matriz 27K. Assim, foram selecionadas as CpGs as sobreposições (medidos com o tipo Infinium ensaio II) que estavam presentes em ambas as duas plataformas (Infinium 450K e 27K) e não tinha valores em falta mais de 10% em todas as amostras em cada tipo de câncer, respectivamente .

Assinatura metodologia de avaliação: IDFO

A abordagem IDFO foi composta por três procedimentos básicos (Fig 1):

O Risco Priorização Prognosis (PRP) Classificação. Havia um grande número de variáveis ​​candidatos dentro dos perfis moleculares diferentes, o que custaria enorme cálculo durante o treinamento do modelo. Para superar esta “dimensão maldição”, desenvolvemos este pré-biomarcador estratégia de classificação: Prognóstico de Risco Priorização (PRP) para filtrar as variáveis ​​de prognóstico mais representativos como funcionalidades de treino inicialmente modelo para cada perfil molecular, respectivamente. Neste processo, exploramos duas etapas:

um cálculo de para extrair diferencialmente expressos /assinaturas metilados

x

i

entre os dois grupos de resultado. Como fórmula, (1) Aqui foi o valor médio de expressão /metilação da assinatura

x

i

no grupo 1

st, e foi o valor médio de expressão /metilação de

x

i

na

ed grupo 2,

σ

foi o desvio padrão de dois respectivo grupo, 1 = grupo um, 2 = grupo dois.

P

unicox

, um cálculo de univariada Cox

valor p

da assinatura molecular

x

i

, que utilizou os valores de expressão /metilação de

x

i

como a variável para uma análise de sobrevivência de regressão univariada de Cox.

finalmente, o

PRP

valor de risco

da assinatura

x

i

foi calculada como usando esta fórmula, (2) onde derivado de Eq 1.

edifício

Modelo. Para avaliar de forma abrangente a capacidade de prognóstico de moléculas multi-plataforma para os respectivos tipos de câncer, utilizamos 5 modelos de aprendizagem de máquina em combinação com 4 estratégias de extração de recurso para estabelecer um pipeline de desempenho. Foram utilizadas duas outras etapas: construção de modelo e seleção de recursos. Cinco algoritmos de aprendizado de máquina (ver, em métodos suplementares em arquivo S1) foram propostas na construção de modelos, que são o suporte da máquina vetor (SVM) vizinhos (KNN) mais próximas k-, regressão, logística (LR), floresta aleatório (RF) e NaiveBayes ( NB). O desempenho de cada classificador foi avaliada utilizando o método 632-Bootstrap, usando esta fórmula, (3) Onde

n

foi o número total de repetições, e foram os

i

th

precisão trem experiência e precisão do teste. Aqui nós dividir dois terços amostras para treinamento e um terços amostras para testes, sendo que ambos foram extraídos dos conjuntos de treinamento originais.

Seleção de características. Neste procedimento, propusemos quatro estratégias de extração de características, ou seja, como SVM-RFE, RF-IS, laço e PFS (métodos suplementares em arquivo S1) para determinar o melhor conjunto de recursos de forma abrangente. O processo de selecção recurso começou com o algoritmo PRP classificou n-weighted-top recursos (para números detalhados ver métodos suplementares e Figura A em arquivo S1) e, em seguida, de forma iterativa eliminado um número ou uma fração das características menos importantes /cruciais determinados com base em respectiva estratégias de extração até que a precisão máxima de bootstrap foi obtido. Durante o processo de otimização de recurso, uma precisão média de 10.000 vezes aleatório re-amostragem com reposição foi calculada como a precisão estimativa para cada iterativos conjuntos de recursos selecionados. Para avaliar a estabilidade das fileiras de dispositivos de PRP, uma simulação de Monte Carlo usando o pacote de R GTCM [30] também foi realizada seleccionando aleatoriamente um número igual apresenta para os respectivos modelos moleculares em cada tumor. Finalmente, o modelo de inicialização mais alta foi identificado como o melhor modelo de prognóstico e suas características exibido fora foram então testados em conjunto de teste para validação independente. A construção do modelo, análise estatística e gráficos foram realizadas utilizando Bioconductor (www.bioconductor.org)

Este fluxograma contém três etapas básicas:. (I) Classificação do PRP de características moleculares, (ii) construção do modelo e (iii) a optimização de recursos e de validação.

Estatísticas

Student

t

testes foram utilizados para comparar as assinaturas diferenciais expressa (mRNAs, lncRNAs, a metilação do DNA, e microRNAs) entre os dois grupos de risco. O Wilcoxon signed rank teste foi adotada para avaliar a significância estatística de distribuição de sobrevivência dos dois grupos prognóstico classificados por modelos MCPHR, por esta fórmula, (4) Onde

S

1 e

S

2 foi a taxa de sobreviventes em dois grupos de risco,

V

1 e

V

2 foi a variação do

S

1 e

S

2.

o teste da razão de verossimilhança foi utilizado para comparar o ajuste de dois modelos (por exemplo, modelos de previsão IDFO com e sem variáveis ​​adicionais), que foi com base no cálculo das razões de probabilidade. A função de verossimilhança foi calculado usando esta fórmula, (5) em que

S

(

t

i

) foi a função de sobrevivência que mostrou a proporção de

i

th

paciente vivo em tempo de

t

; A função de densidade

f

(

t

i

) era a probabilidade de morrer no pequeno intervalo de tempo

t

;

w

i

foi a taxa de sobrevivência média ponderada calculada a partir, onde

V

i

foi a variação das taxas de sobrevivência ;

n

foi o número total de doentes nos respectivos grupos. A Kaplan-Meier Análise e log-rank modelos de probabilidade foram usadas para testar as diferenças na sobrevivência e as curvas de Kaplan-Meier foram desenhados com base na pontuação de risco médio.

valores p Online em todos os testes estatísticos inferior a 0,05 foram considerados significativos. As análises estatísticas acima foram realizadas utilizando os pacotes R:. “Sobrevivência” e “survcomp ‘

multivariada Cox proporcional Hazard Regressão

O multivariada Cox modelo de regressão de risco proporcional, como a modelagem matemática mais popular abordagem foi aplicada para estimar as taxas de risco, riscos relativos, correspondentes intervalos de 95% de confiança (IC) e curvas de sobrevivência utilizando vários /múltiplos variáveis ​​explicativas (variáveis ​​moleculares e /ou clínicos). Como um exemplo, um modelo paramétrico foi baseada na distribuição exponencial usando esta fórmula, (6) Quando,

h (

t

) foi a função de risco, o

x

>

1,

x

2,

… x

k

foram as co-variáveis, e

β

1,

β

2,

,

β

k

foram os coeficientes dos respectivos co-variáveis, onde

β 0

representou o fator de risco covariável relacionadas com “prognóstico reservado” ao contrário,

β 0

indicou o fator protegido covariável relacionadas com “bom prognóstico”. A constante

α

neste modelo representava um perigo log-linha de base, uma vez que log

h

(

t

) =

α

ou

h

(

t

) =

exp

(

α

) quando todo o

x

valores foram zero.

Os escores de risco

.

R

(

t

) foi calculado para o risco prognóstico de cada paciente, e definido como uma combinação linear de variáveis ​​de previsão, ponderados pelos seus respectivos coeficientes de regressão de Cox, e calculada usando esta fórmula, ( 7) Onde

R

(

t

) foi o escore de risco de pacientes

t

,

h

(

t

) foi o valor de risco calculado pelo modelo de regressão de Cox multivariada (derivado pela Equação 6)

códigos R:. CAPM

para permitir que os usuários apliquem o nosso gasoduto construído para outros conjuntos de dados, implementamos um publicamente disponível o código fonte R (CAPM.r) para executar previsão prognóstico do câncer, que está disponível gratuitamente no https://www.escience.cn/people/lixu/index.html.

resultados

Avaliação do desempenho prognóstico de diversos dados moleculares

o fluxograma do nosso estudo é mostrado na Figura 2. Montamos 3198 amostras de tumores publicamente disponíveis em dados baseados em array entre os cinco tipos de câncer TCGA: carcinoma invasivo da mama ( BRCA) [26], adenocarcinoma do cólon (COAD) [27], carcinoma de células escamosas do pulmão (LUSC) [25], carcinoma uterino corpus endometrióide (UCEC) [31] e carcinoma seroso cistadeno (OV) [24]. Os cinco tipos de câncer foram escolhidos por seus companheiros TCGA incluiu amostras suficientes com vários tipos de dados moleculares e informação clínica (Tabela A em arquivo S1). Cada tipo de câncer foi composta de quatro perfis de dados moleculares, incluindo (i) lncRNA: Illumina HiSeq 2000 RNA Sequenciação V2; (Ii) mRNA: Illumina HiSeq 2000 RNA Sequenciação V2; (Iii) a metilação do DNA: DNA humano Illumina Infinium metilação 27K, 450K; (Iv): microRNA: Illumina Genome Analyzer /HiSeq 2.000 plataforma de microRNA sequenciamento. A fim de avaliar exaustivamente o poder preditivo dos quatro tipos de assinaturas moleculares para os seus respectivos tipos de cancro, nós construímos um grupo de 5 classificadores (SVM [32], KNN [33], NaiveBayes [34], Floresta aleatória [35], logística multinomial regressão [14]) em combinação com 4 apresentam estratégias de extração: The Least Absolute Encolhimento e seleção Operator (LASSO) [36], com base Máquina Support Vector característica recursiva eliminação (SVM-RFE) [37], a seleção de características com base aleatória Floresta espectro importância (RF-IS) [38], e seleção Priorização-eliminado recurso (PFS) (métodos suplementares em arquivo S1) para construir um gasoduto computacional prognóstico que nomeou como o método Optimization Feature iterativo Supressão (IDFO, consulte Métodos e Fig 1).

Este gasoduto contém quatro principalmente procedimentos: Informática I). Montamos uma coleção de 3198 amostras de tumores em cinco tipos de cânceres humanos, que composto por quatro tipos de dados moleculares, incluindo: lncRNA, microRNA, mRNA, e metilação do DNA. Cada tipo de dados moleculares nos respectivos cancros foi transformado em matriz baseada matriz usando métodos de pré-processamento CAPM. II) ranking do recurso. características moleculares associados com prognóstico foram analisadas e classificadas de acordo com o algoritmo de PRP. Para cada tipo de dados moleculares, foram selecionados top-weighted 100 assinaturas como os conjuntos de recursos iniciais em cada um dos cinco tipos de câncer, respectivamente. III) construção do modelo e seleção de recursos. Neste processo, adotamos cinco classificadores em combinação com quatro algoritmos de seleção de recurso para estabelecer a linha de base previsão prognóstico. Durante o processo de seleção de recursos, cada grupo de recursos foi treinada com 10.000 vezes randomização eo painel recurso melhor desempenho com a maior precisão de bootstrap foi escolhido para cada dados moleculares por câncer. IV) Validação. Para avaliar o poder preditivo de cada dados moleculares, as melhores características do espectáculo foram ainda aplicados ao teste independente em cada coortes de câncer, respectivamente.

Durante o processo de otimização de recurso, os classificadores para cada dados moleculares foram inicialmente treinado pelo Risk Priorização algoritmo Prognosis (PRP; ver Métodos) classificou recursos e, em seguida, de forma iterativa eliminado um número ou uma fração das características menos importantes /cruciais que foram determinadas por estratégias de extração de quatro recurso até se observar o painel ideal de recursos. Para avaliar a estabilidade do método PRP, uma simulação de Monte Carlo (MCS) também foi realizado para seleccionar o tamanho igual de recursos como a validação aleatória para os respectivos perfis em cada tumor. Um classificador com a mais alta precisão de bootstrap [39] foi identificada como o modelo óptimo e os melhores indicadores de desempenho foram então testados em coortes de ensaios independentes. As performances modelo de cada dados moleculares ( “comboio”) em combinação com estratégias de seleção respectiva funcionalidade são realçadas na figura 3a-3e. Observou-se que, 1) a precisão do programa de inicialização de todos os classificadores variou 0,71-0,97 (Tabela B no Arquivo S1), o que indica bom desempenho da abordagem IDFO para vários tipos de câncer; 2) os PRP classificou conjuntos de recursos resultou em muito mais precisos em comparação com conjuntos de recursos aleatórios selecionados MCS (precisão média: PRP = 0,81, MCS = 0,59; unilateral Wilcoxon signed rank test:

P Art 1.12e -5); 3), e não houve diferença aparente entre os algoritmos de classificação no que diz respeito aos tumores, e o desempenho de diversas assinaturas moleculares não variou significativamente entre os tipos de câncer, confirmando uma altamente robusta de dados genômicos e epigenéticas na previsão de prognóstico; 4) de todos os 20 modelos ideais de prognóstico (5 cancros * 4 conjuntos de dados moleculares), 12 dos 20 (60%) foram obtidos pelo algoritmo PFS, seguido por laço (30%) e SVM-RFE (10%), que indicou que a nossa abordagem selecção característica inovadora proposta teve bom desempenho semelhante aos métodos tradicionais (Tabela B no Arquivo S1). Posteriormente, para comparar o desempenho preditivo dos quatro tipos de assinaturas moleculares com uma validação imparcial, aplicamos as melhores preditores do prognóstico de cada modelo de formação a um conjunto de testes independente. Notavelmente, como é mostrado na Figura 3-F, as assinaturas lncRNA ilustrado o melhor desempenho em quatro tipos de câncer: (precisão conjunto de teste: 0,78,

N

test Set Online = 159) BRCA, COAD (precisão conjunto de teste: 0,85,

N

test set Online = 48), LUSC (precisão conjunto de teste: 0,77,

N

conjunto de teste

= 56), e OV precisão conjunto de teste (: 0,79,

N

test set Online = 75). metilação do DNA foi o segundo melhor preditor de BRCA (precisão conjunto de teste: 0,76,

N

test Set Online = 73), COAD (precisão conjunto de teste: 0,79,

N

conjunto de teste

= 67), LUSC (precisão conjunto de teste: 0,77,

N

test set Online = 42), câncer de ovário (precisão conjunto de teste: 0,7,

N

conjunto de teste

= 146), e os terceiros melhores preditores em UCEC (precisão conjunto de teste: 0,8,

N

conjunto de teste

= 81). mRNA e microRNA como marcadores de linha de base clínicos tradicionais, foram classificados menor do que nossas expectativas iniciais. mRNA foi o terceiro melhores preditores em BRCA (conjunto de teste de precisão: 0,64,

N

test Set Online = 159), COAD (precisão conjunto de teste: 0,64,

N

conjunto de teste

= 48), LUSC (precisão do teste set: 0,76,

N

test set Online = 56) e OV (teste definir a precisão: 0,6,

N

conjunto de teste

= 75). dados microRNA resultou em pior poder preditivo em comparação com todos os outros tipos de dados. Além disso, devido ao desempenho notável de lncRNAs na estratificação de sobrevida do paciente, que ainda realizada a recuperação da literatura para examinar a possibilidade de qualquer evidência da correlação entre lncRNAs IDFO-selecionados e progressão prognóstico. De todos os 157 preditores lncRNA ideais em cinco tipos de câncer (21 em BRCA, 36 em COAD, 33 em LUSC, 41 em OV, 37 em UCEC), 22 lncRNAs havia sido relatado na literatura (Tabela F e Figura B no Arquivo S1). Estes resultados sugerem que a nossa abordagem poderia identificar prognóstico associado lncRNAs confiáveis, e postulou lncRNAs recentemente identificados, quer isoladamente ou como marcadores de compostos, pode ser crucial para a prática clínica.

(AE) As melhores modelos preditivos de cada dados moleculares de cinco cancros humanos entre diferentes estratégias de seleção de atributos (colunas apresentam indicado estratégias de seleção: Lasso, PFS, SVM-RFE, RF-é, e MCS; linhas indicadas assinaturas moleculares), (F) precisões conjunto de teste de quatro tipos de molecular assinaturas em cinco cancros TCGA (linhas indicadas tipos de dados moleculares, colunas indicadas tipos de câncer). A fim de distinguir entre os resultados de treinamento e testes, utilizamos itens de cor azul para os resultados de formação (Fig 3A-3E) e itens de cor vermelha para os resultados dos testes. * BRCA = mama carcinoma invasivo; COAD = adenocarcinoma do cólon; LUSC = Lung carcinoma de células escamosas; UCEC = uterina Corpus endometrioid Carcinoma; OV = cystadenocarcinoma serosa.

Integração de biomarcadores multi-cas com o prognóstico previsão

Os estudos recentes sugeriram que as assinaturas multi-cas integradas poderiam melhorar de forma eficiente o desempenho do modelo [28, 40]. Para explorar se tal hipótese era apropriado para a previsão de sobrevida global dicotomizada, estendemos nossa abordagem IDFO investigar o desempenho da modelagem integrada de dados moleculares multi-tipo em cinco tipos de câncer. Como modelos integrativos exigir amostras não só composta de perfis multi-cas, mas também aqueles que preenchem os critérios prognósticos, observou-se um final de 20 grupos de dados multi-cas integradas nos cinco tipos de câncer, incluindo 15 grupos de dupla combinação e 5 triplos -combination grupos (ver Tabela C no arquivo S1). Como não havia um número insuficiente de amostras de microRNA-seq sobreposição com os outros três perfis moleculares, as assinaturas de microRNA foram excluídos na análise de modelagem integrada. Tabela C no arquivo S1 listou as precisões de previsão ( ‘teste’) dos 20 modelos integrados. Em resumo, 80% das combinações de dados multi-cas integrados não mostraram significativamente melhorada poder preditivo em comparação com os seus dados individuais moleculares (Fig 4A-4C), excepto para os modelos de metilação lncRNA + de ADN em dois tipos de cancro de OV e UCEC (Fig 4D e 4E) (OV: unilateral teste de Wilcoxon, metil DNA + lncRNA

vs metil DNA

:.

P Art 1.2E-4, metil DNA + lncRNA

vs

lncRNA:

P Art 4.7E-3; UCEC:. metil DNA + lncRNA

vs metil DNA

:.

P Art 1.7e-4, metil DNA + lncRNA

vs

lncRNA:

P Art 8.2e-5).. Além disso, com o aumento dos tipos moleculares, o desempenho dos grupos de combinação tripla estava em conformidade com o nível médio dos modelos moleculares do tipo único com perturbações limitadas em todos os cinco tipos de cancro. Consequentemente, a maioria dos modelos de dados multi-cas integradas mostrou poder preditivo semelhante com seus respectivos modelos de dados moleculares individuais, sugerindo que o conteúdo de informação de dados multi-plataforma integrada pode ser em grande parte redundante em termos de estratificação sobrevida do paciente. Resultados semelhantes também foram observados em um estudo recente do cancro da mama tratamento de modelagem [1].

(A) BRCA (N

sobrepõe

= 178), (B) COAD (N

sobrepõe

= 161), (C) LUSC (N

sobrepõe

= 97), (D) OV (N

sobrepõe

= 145), (E) UCEC (N

sobrepõe

= 84). Para os respectivos modelos em cada tipo de câncer, foi realizada 10.000 vezes de divisão aleatória com 2/3 e 1/3 formação testes usando gasoduto IDFO. A caixa vermelha pontilhada indicado o desempenho melhorou significativamente de dois modelos integrados (D) OV e (E) UCEC comparado com os modelos de tipo de dados individuais (frente e verso teste de Wilcoxon,

P Art 0,01); a caixa azul pontilhada indicou os três modelos de tipos de dados individuais de mr, LNR e metanfetamina. O grupo integrado são compostas de dois double-combinação e triple-combinação modelos de assinatura molecular. grupo individual continha os três modelos de tipos de dados moleculares individuais. A linha cinzenta em sete caixas mostra os padrões preditivos de grupos integrados e grupos individuais. N

sobrepõe

é o número de amostras a sobreposição ocorreu em todos os três perfis de dados moleculares (mRNA, lncRNA e metilação do DNA), LNR = lncRNA, mr = mRNA, meth = metilação do DNA, mr + LNR = mRNA + lncRNA, mr + meth = mRNA + de metilação do DNA, LNR + meth = lncRNA + de metilação do DNA, mr + LNR + meth = mRNA + lncRNA + de metilação do DNA

Survival análise:. validação dos preditores IDFO em dados de sobrevivência censurado

Além de examinar a associação entre preditores IDFO e os resultados clínicos em BRCA, COAD, LUSC, UCEC e OV, que sujeita os melhores preditores de respectivos perfis de dados ao multivariada Cox riscos proporcionais regressão ( MCPHR) análise [41] para avaliar a correlação de IDFO-preditores com o risco de prognóstico e investigar suas utilidades clínicas.

Deixe uma resposta