PLOS ONE: Online Software Análise de Sobrevivência para avaliar o valor prognóstico da Biomarkers Usando Transcriptoma dados em Non-Small-Cell Lung Cancer

Abstract

Na última década, o tratamento otimizado para o cancro do pulmão de células não pequenas teve levar a um melhor prognóstico, mas a sobrevivência geral ainda é muito curto. Para entender melhor a base molecular da doença temos de identificar biomarcadores relacionados com a sobrevivência. Aqui nós apresentamos o desenvolvimento de uma ferramenta online adequado para o tempo real meta-análise de conjuntos de dados publicados microarray câncer de pulmão para identificar biomarcadores relacionados com a sobrevivência. Foram pesquisados ​​os repositórios caBIG, GEO e TCGA para identificar amostras com dados de expressão gênica publicados e informações sobrevivência. A análise de regressão Cox univariada e multivariada, o enredo de sobrevida de Kaplan-Meier com taxa de risco eo valor P logrank são calculados e plotados em R. A ferramenta de análise completo pode ser acessado online em: www.kmplot.com/lung. Todos juntos 1.715 amostras de dez conjuntos de dados independentes foram integradas no sistema. Como demonstração, foi utilizada a ferramenta para validar a 21 biomarcadores de sobrevivência associada previamente publicados. Destes, a sobrevivência foi melhor predito por CDK1 (p 1E-16), CD24 (p 1E-16) e CADM1 (p = 7E-12) em adenocarcinomas e por CCNE1 (p = 2.3E-09) e VEGF ( p = 3.3E-10) em todos os pacientes com NSCLC. genes adicionais significativamente correlacionados à sobrevivência incluem RAD51, CDKN2A, OPN, EZH2, ANXA3, ADAM28 e ERCC1. Em resumo, nós estabelecemos uma base de dados integrada e uma ferramenta online capaz de análise uni e multivariada para

in silico

validação de novos candidatos biomarcadores em câncer de pulmão não-pequenas células

Citation:. Gyorffy B, Surowiak P, Budczies J, Lánczky a (2013) Software Análise on-line Sobrevivência para avaliar o valor prognóstico da Biomarkers Usando Transcriptoma dados em Non-Small-Cell Lung Cancer. PLoS ONE 8 (12): e82241. doi: 10.1371 /journal.pone.0082241

editor: Srikumar P. Chellappan, H. Lee Moffitt Cancer Center Research Institute, Estados Unidos da América

Recebido: 27 de julho de 2013; Aceito: 22 de outubro de 2013; Publicação: 18 de dezembro de 2013

Direitos de autor: © 2013 Gyorffy et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Os autores trabalho foi apoiado pela concessão 83.154 OTKA PD, pelo projecto Predict (grant no 259303 do Health.2010.2.4.1.-8 apelo da UE.) e pela concessão KTIA U_BONUS_12-1-2013-0003. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Embora as opções de tratamento do câncer de pulmão têm melhorado significativamente na última década, levando a uma melhor sobrevida para pacientes com cada estágio da doença, ainda é líder de mortes relacionadas ao câncer nos Estados Unidos, com 160 mil mortes por ano [1 ]. Com cerca de 85% de todos os casos o tipo mais comum de cancro é o cancro do pulmão de não-pequenas células do pulmão (NSCLC), que inclui o adenocarcinoma, o carcinoma de células escamosas, carcinoma de células grandes, carcinoma broncoalveolar e [2]. À semelhança de outras entidades de câncer podemos esperar novos subtipos moleculares a surgir no futuro, como é agora bem aceito que a microscopia de luz histológica baseada subdivisão usa apenas uma das muitas manifestações fenotípicas das mudanças genéticas que fundamentam o desenvolvimento do câncer de pulmão [2].

a identificação de genes cuja expressão alterada está associada com diferenças de sobrevivência pode colocar o conhecimento para identificar aqueles que poderiam servir como indicadores de estado biológico do tumor. Em essência, existem dois cenários possíveis para isso: como biomarcador pode ser um gene individual ou uma assinatura que compreende um conjunto de genes. Enquanto numerosos genes individuais associados à sobrevida têm sido publicados nos últimos trinta anos, novos modelos moleculares multigênicas baseada em microarrays prognósticos utilizando assinaturas genômicas única surgiram nos últimos dez anos [3], [4], [5], [6] [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [ ,,,0],19]. Um pré-requisito para a reprodutibilidade dessas assinaturas genômicas é a disponibilidade de dados brutos, que só foi assegurada por publicações dos últimos seis anos [9], [10], [11], [12], [13], [ ,,,0],14], [15], [16], [17], [18]. Notavelmente, em dois casos não a assinatura como um todo, mas os genes, enquanto cada um individualmente importantes marcadores prognósticos foram identificados [15], [19].

A descoberta inicial de um marcador de prognóstico deve ser seguido por vários validação estudos. Em seguida, os resultados destes são geralmente sintetizados em uma meta-análise de um grande número de, preferivelmente, mais do que mil pacientes. Aqui, unindo dados relevantes de diversos estudos, poder estatístico é aumentada e estimativas mais precisas podem ser alcançados. Várias meta-análises anteriores se esforçado para executar tal uma meta-análise de estudos anteriores para os candidatos de genes solitários incluindo VEGF [20], MMP9 [21], a ciclina E [22], survivin [23] e CDK1 [24].

Aqui, nós integrados disponíveis a nível de genoma conjuntos de dados transcriptomic e depois usou esse banco de dados para executar uma meta-análise de sobrevivência sugerido anteriormente associado biomarcadores-candidatos. Nós também criou um portal global para essa meta-análise que permite a validação expresso de novos candidatos, sem grande escala esforço bioinformática num quadro automatizado.

Materiais e Métodos

Construção de banco de dados de microarray do cancro do pulmão

Nós exploramos a Cancer Biomedical Informatics Grid (caBIG, https://cabig.cancer.gov/, amostras de microarrays são publicados no projeto caArray), a Expressão gênica Omnibus (GEO, http: //www. ncbi.nlm.nih.gov/geo/) e The cancer Genome Atlas (TCGA, https://cancergenome.nih.gov) para identificar conjuntos de dados de câncer de pulmão, usando as palavras-chave “pulmão”, “câncer”, “pequenas células” , “NSCLC”, “sobrevivência”, “GPL96”, “GPL3921” e “GPL570” (e os nomes alternativos das plataformas de microarray). A pesquisa foi restrita a publicações com dados de expressão gênica por microarrays simultaneamente disponíveis e publicados características clínicas, incluindo a sobrevivência. Para testar a aleatoriedade, um teste de classificação de pares foi realizada para os dados clínicos recolhidos, incluindo idade, sexo, história de tabagismo, histologia, estágio, grau, sucesso da cirurgia, radioterapia e quimioterapia aplicada para todos os pacientes em WinStat 2013. Para o teste de classificação de pares, as amostras foram primeiro separados segundo conjuntos de dados. Em seguida, cada amostra ( “X”) na série foi comparado com todos os valores que ocorrem mais tarde na lista de todas as amostras ( “Y”) – pressupondo aleatoriedade, a probabilidade de X Y é 1/2. As correlações entre variáveis ​​clínicas ea sobrevivência foram investigados e gráficos de Kaplan-Meier para estes foram plotados usando WinStat 2013. Entre as diferentes plataformas de microarray, Affymetrix HG-U133A (GPL96), HG-U133 mais 2,0 (GPL570) e HG-U133A 2.0 ( GPL3921) foram incluídos, porque estes são usados ​​regularmente e porque essas matrizes tem 22,277 conjuntos de sondas em comum. A utilização dos mesmos conjuntos de sondas permite medir o mesmo gene com uma precisão semelhante, escala relativa e faixa dinâmica.

Para evitar a possibilidade de viés devido a erros de matriz, temos realizado uma verificação de qualidade para todas as matrizes. Neste, o fundo (entre 19 e 218), a matéria-Q (entre 0,5 e 14), a percentagem de chamadas presentes (mais de 30%), a presença de bioB- /C- /D- picos, a GAPDH 3 ‘ a 5 «rácio (abaixo de 4,3) e o 3-beta actina ” relação a 5 (abaixo de 18) foram verificadas. Os valores de limiar corresponde ao intervalo de 95% das matrizes, como descrito anteriormente [25]. O controle de qualidade não era possível para GSE4573, quanto a esse conjunto de dados apenas os dados normalizada MAS5 estava disponível. A filtragem foi adicionado à base de dados para excluir matrizes potencialmente enviesados. Além disso, comparamos todos os arquivos de microarranjos utilizando a expressão classificada de todos os genes para manchar microarrays re-publicada em diferentes estudos.

Set-up do servidor para a sobrevivência on-line cálculo

Os arquivos unprocessed.CEL foram MAS5 normalizada no ambiente R (https://www.r-project.org) usando a biblioteca simpleaffy (https://bioinformatics.picr.man.ac.uk/simpleaffy/). Nós selecionamos MAS5 para a normalização como entre os melhores métodos de normalização quando contrastados com os resultados das medições de RT-PCR em nosso estudo anterior [26]. Além disso, MAS5 pode ser aplicada a matrizes individuais, possibilitando uma perfeita extensões futuras da base de dados. Para a base de dados completa, apenas as sondas comuns medidos em todas as três plataformas de matriz foram retidos (n = 22277). Em seguida, um segundo escalonamento normalização foi realizada para centrar a expressão média para cada conjunto de 1000 – esta técnica pode reduzir significativamente os efeitos de lote. expressão gênica e dados clínicos foram integrados usando PostgreSQL, um sistema de banco de dados objeto-relacional open source (https://www.postgresql.org/).

Para avaliar o valor prognóstico de um gene, cada um percentual (de expressão) entre os quartis superiores e inferiores foram calculadas e o melhor limiar de realização foi utilizado como o ponto de corte final de uma análise de regressão de Cox univariada. Histologia, grau, estágio, sexo e tabagismo pode ser usado na análise multivariada. No entanto, a análise multivariada usa menos pacientes como a análise univariada, porque não cada paciente tem toda a informação clínica. lote de sobrevida de Kaplan-Meier e a razão de risco com intervalo de confiança de 95% e valor P logrank foram calculados e plotados em R usando a função “survplot” do pacote Bioconductor “sobrevivência”. O script R usado pelo software para realizar a análise de Kaplan-Meier e para identificar o melhor ponto de corte está disponível como script R S1.

Todo o caminho computacional é feita acessível para re-análise em uma plataforma on-line independente disponível software rodando em um servidor Debian Linux (https://www.debian.org) desenvolvido por Apache (https://www.apache.org). Os scripts do lado do servidor o foram desenvolvidos em PHP, estes controlar a interface do usuário, os pedidos ea entrega dos resultados. O pacote RODBC fornece uma camada de middleware entre R e o banco de dados PostgreSQL. Esta plataforma pode ser alcançado através da internet via https://www.kmplot.com/lung.

Validação de publicado anteriormente sobrevivência associada biomarcadores

Uma busca Pubmed foi realizada para identificar a sobrevivência do cancro do pulmão biomarcadores associados utilizando todas as combinações de palavras-chave do “câncer de pulmão”, “NSCLC”, “adenocarcinoma”, “carcinoma de células escamosas”, “sobrevivência”, “expressão do gene”, “assinatura” e “meta-análise”. Foram incluídos apenas estudos publicados em Inglês. Os critérios de elegibilidade também incluiu a investigação do biomarcador em, pelo menos, 50 pacientes – biomarcadores descritos em modelos experimentais só foram omitidos. Para cada gene /assinatura as condições exactas em que foi identificados foram recuperados, e estes foram utilizados como filtragem quando seleccionar os pacientes para a análise de sobrevivência.

Para visualizar o desempenho dos diferentes conjuntos de dados em biomarcadores incluindo diferente número de pacientes, que foram gerados lotes de funil que descreve a relação de risco (e os intervalos de confiança) no eixo horizontal versus o tamanho da amostra sobre o eixo vertical para cada conjunto de dados. Também adicionado uma opção para a interface de linha para realizar simultaneamente a análise em cada um dos conjuntos de dados individuais. Finalmente, a significância foi estabelecido em p 0,01

Resultados

Construção de banco de dados de microarray de câncer de pulmão combinados

Foram identificados todos juntos 1.715 pacientes, 1.120 em sete conjuntos de dados GEO, 133. pacientes em TCGA e 462 pacientes em caArray. Não houve amostras repetidamente publicados. Uma amostra (GSM370984) falhou dois parâmetros no controle de qualidade – essa matriz foi excluído todas as análises. Além disso, em 215 matrizes de um parâmetro estava fora da gama de 95% de todas as matrizes – estas matrizes podem ser excluídas das análises por seleccionar o “excluir matrizes outlier” na interface de linha. A sobrevida global foi publicado em 1.405 pacientes e tempo para a primeira progressão foi publicado em 764 pacientes. Reunimos idade, sexo, história de tabagismo, histologia, estágio, grau, sucesso da cirurgia, radioterapia e quimioterapia aplicada para todos os pacientes – nenhum desses parâmetros foi significativa no teste de classificação de pares indicando distribuição aleatória dos dados. Um resumo dessas propriedades clínicas para cada conjunto de dados utilizada é apresentada na Tabela 1. A sobrevivência dos pacientes estratificados por subtipo, sexo, história de tabagismo e estágio é apresentado na Figura 1.

Definir -up of plataforma on-line de análise de sobrevivência

Nós empregamos gráficos de Kaplan-Meier para visualizar a associação entre o gene sob investigação e sobrevivência. Antes da análise, os pacientes foram filtradas utilizando os parâmetros clínicos disponíveis para incluir apenas aqueles pacientes onde a importância do gene está a ser avaliado. Além de opções de filtragem específicos para os parâmetros clínicos, foi implementado um algoritmo que inclui o uso de todos os percentis entre o quartil inferior e superior para identificar o melhor ponto de corte desempenho.

Para o nosso conhecimento, desenvolvimento actual é o primeiro sistema que possibilite em tempo real, análise de sobrevida multivariada de genes em coortes transcriptomic disponíveis.

a validação de biomarcadores NSCLC previamente publicados

Foram identificados 21 sobrevivência associada genes individuais previamente publicados e 7 assinaturas de expressão gênica (listadas na Tabela S1 ). Cada um destes biomarcadores candidatos foram investigados em uma coorte tendo características clínicas similares como os pacientes em que foram originalmente descritos. Para genes medidos por vários conjuntos de sondas sobre os microarrays, aqueles com a mais alta qualidade foram utilizados (alta qualidade: a expressão média mais de 500 ou expressão máxima ao longo de 1000, de baixa qualidade: Expressão média abaixo de 100, intermédios: todas as outras sondas). No caso de haver várias sondas de alta qualidade, em seguida, foi utilizado o melhor desempenho. Os resultados da análise são apresentados na Tabela 2 e Figura 2.

de meta-análise destes genes e as assinaturas na respectiva amostra coorte produziu CCNE1, CDC2 e CADM1 como os genes individuais com o melhor desempenho (A-C) e o assinatura de Yamauchi et al. (D). Um gráfico de funil que descreve as taxas de risco (com intervalos de confiança) versus número da amostra para CDC2 e VEGF mostra estimativa mais confiável, com tamanhos de bancos de dados maiores (E-F).

Discussão

a importância de biomarcadores de câncer é realçada pelo sucesso do gene HER2 no câncer de mama. a alta expressão de HER2 foi o primeiro marcador de pior sobrevida, mas a introdução da terapia anti-HER2 alvo mudou o quadro:. Hoje pacientes positivos para HER2 têm um melhor prognóstico em comparação com as mulheres com doença negativa HER2 [27]

Aqui , usando uma base de dados integrada de dez conjuntos de dados transcriptomic previamente publicados, que validou a associação com a sobrevivência de um conjunto de genes de cancro do pulmão de células não pequenas. Geralmente, as associações mais fortes foram encontrados também por aqueles investigados em uma meta-análise anterior (VEGF, CCNE1 e CDK1). Para todos estes genes maior expressão foi associada com a sobrevivência mais curto. Com mais de 5.000 pacientes, a meta-análise de VEGF [20] empregou o maior número de pacientes – a nossa análise também confirmou a correlação da expressão de VEGF ea sobrevida global em pacientes com NSCLC em análise univariada e multivariada. A importância do VEGF é devido à disponibilidade dos agentes que inibem directamente orientadas a sua activação. Curiosamente, para um dos genes de (CDK1) uma meta-análise anterior, na verdade, rejeitado uma correlação entre o gene e sobrevivência [24]. Em contraste, os nossos resultados representam uma validação independente em larga escala do gene. Em genes individuais, apenas alguns foram associados com maior sobrevida ao exibir maior expressão – que incluem CADM1, ANXA3, ADAM28, XIAP e XAF1. segmentação terapêutica futura destes só será possível através de uma abordagem diferente para a maioria dos genes em que maior expressão na verdade resulta em menor sobrevida.

Após a cirurgia, cerca de dois terços das recorrências para a doença fase inicial ocorrer em locais distantes . Portanto, a erradicação de micrometástases deve ter uma alta prioridade o mais cedo possível. Uma meta-análise prévia de todos os ensaios investigando benefício quimioterapia demonstrou uma melhoria de 5% na sobrevida global [28]. Esta vantagem de sobrevivência com quimioterapia também foi mantida em 9 anos de follow-up. Por estas razões, o uso da quimioterapia adjuvante é o padrão atual de tratamento para pacientes com estágio inicial NSCLC. Em nosso sistema de análise que integrou o uso de quimioterapia para permitir a validação dos genes especificamente relacionados com a sobrevivência em pacientes de quimioterapia tratada.

Um fator etiológico para o cancro do pulmão é o fumo de cigarro que responde por quase 85% de toda casos. desenvolvimento de cancro do pulmão é semelhante a outros tipos de cancro envolvendo uma progressão gradual de uma transformação maligna impulsionado pelo efeito conjugado dos alterações genéticas induzidas por carcinogéneos inalados [29]. Ao mesmo tempo, o número de anteriormente nunca fumador pacientes com cancro do pulmão está também a aumentar [30]. Reunindo novos insights sobre o mecanismo subjacente e fatores etiológicos nesses pacientes é necessário compreender melhor a doença e desenvolver novas estratégias de tratamento [2]. No nosso banco de dados nós tivemos a história de tabagismo de 1.042 pacientes (desses 187 não fumante) e a ferramenta meta-análise também inclui a opção de restringir a qualquer fumante em coortes não-fuma de pacientes. opções de filtragem adicionais incluem o uso de sexo (dados está disponível para 1.564 pacientes) e estadiamento (697 pacientes). Combinações destas opções permitem validar candidatos biomarcadores em sub-grupos com um tamanho não alcançado por nenhum dos estudos individuais anteriores.

Anteriormente, dentro do projeto desafio dos administradores para o adenocarcinoma do pulmão, o uso combinado de clínica e informações a expressão do gene tiveram o melhor desempenho para predizer o prognóstico [17]. A análise multivariada no software on-line permite a comparação das variáveis ​​clínicas e moleculares. Infelizmente, nem toda a informação clínica é publicado para cada paciente – o que limita significativamente o potencial de qualquer análise multivariada incluindo ambas as variáveis ​​de expressão clínicas e genéticas

Devemos também mencionar alguns problemas com meta-análises que podem afectar a sua validade. – estes incluem preconceitos relacionados à seleção de pacientes, a heterogeneidade clínica, a diferentes medidas de resultado, a técnicas metodológicas e estatísticos [31]. Uma opção para o teste polarizações é traçar o tamanho da amostra contra o tamanho do efeito como este é normalmente enviesada e assimétrica na presença de um viés [32]. Basicamente, sem viés, a maior variação deve ser observado mais nos estudos pequenos e menos em grandes estudos. Este é o conceito do gráfico de funil original, que foram empregados para demonstrar a correlação entre as taxas de perigo e tamanhos de amostra por dois genes selecionados. Nós adicionamos uma opção de análise para a nossa ferramenta para executar os cálculos em cada conjunto de dados separado para permitir a construção rápida de tais análises para qualquer gene.

Finalmente, temos também avaliadas as assinaturas de expressão de genes previamente publicados para prever a sobrevida. Hoje, a aplicação clínica de assinaturas multigênicas ainda é controversa, já que muitos deles fazem prognósticos não outperform utilizando parâmetros convencionais. Aqui, dos sete assinaturas, dois foram capazes de prever a sobrevida na fase I [13], e em todos os pacientes com NSCLC [14].

Em resumo, através da utilização de conjuntos de dados de microarray do genoma publicados nos últimos cinco anos anos, temos integrado com sucesso um banco de dados em larga escala adequada para o

in silico

validação de candidatos biomarcadores em câncer de pulmão de células não-pequenas.

Informações de Apoio

Tabela S1. : Lista de genes envolvidos em conjuntos de genes previamente publicados

doi:. 10.1371 /journal.pone.0082241.s001

(XLS)

R Script S1. roteiro

R usado para gerar Kaplan-Meier parcelas

doi: 10.1371 /journal.pone.0082241.s002

(R)

Deixe uma resposta