PLOS ONE: SurvExpress: Uma ferramenta de validação on-line de Biomarcadores e banco de dados para dados de expressão gênica cancro utilizando Análise de Sobrevivência

Sumário

A validação de biomarcadores multi-gene para os resultados clínicos é uma das questões mais importantes para o prognóstico do câncer. Uma importante fonte de informações para a validação virtual é o elevado número de conjuntos de dados de câncer disponíveis. No entanto, a avaliação do desempenho prognóstico de uma assinatura de expressão gênica ao longo conjuntos de dados é uma tarefa difícil para biólogos e médicos e também demorado para Estatísticos e bioinformatas. Portanto, para facilitar as comparações de desempenho e validação de biomarcadores de sobrevivência para os resultados do cancro, nós desenvolvemos SurvExpress, um banco de dados de expressão gênica em todo o cancro com resultados clínicos e uma ferramenta baseada na Web que fornece análise de sobrevivência e avaliação de risco de conjuntos de dados de câncer. A principal entrada do SurvExpress é apenas a lista gene biomarcador. Geramos um banco de dados câncer de recolher mais de 20.000 amostras e 130 conjuntos de dados com informações clínicas censurado cobrindo tumores mais de 20 tecidos. Implementamos uma interface web para executar a validação de biomarcadores e as comparações neste banco de dados, onde uma análise de sobrevida multivariada pode ser realizado em cerca de um minuto. Nós mostramos a utilidade e simplicidade de SurvExpress em duas aplicações biomarcador para câncer de mama e de pulmão. Em comparação com outras ferramentas, SurvExpress é o maior, mais versátil e mais rápida ferramenta gratuita disponível. SurvExpress web pode ser acessado no https://bioinformatica.mty.itesm.mx/SurvExpress (um tutorial está incluído). O site foi implementado em JSP, JavaScript, MySQL, e R.

Citation: Aguirre-Gamboa R, Gomez-Rueda H, Martínez-Ledesma E, Martínez-Torteya A, Chacolla-Huaringa R, Rodriguez-Barrientos Um, et ai. (2013) SurvExpress: um biomarcador ferramenta de validação on-line e banco de dados para dados de expressão gênica cancro utilizando análise de sobrevivência. PLoS ONE 8 (9): e74250. doi: 10.1371 /journal.pone.0074250

editor: William C. S. Cho, a rainha Elizabeth Hospital, Hong Kong

Recebido: 21 Abril, 2013; Aceito: 31 de julho de 2013; Publicação: 16 de setembro de 2013

Direitos de autor: © 2013 Aguirre-Gamboa et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Os autores somos gratos pelo apoio financeiro da Cátedra de Bioinformática CAT220 pelo ITESM (Tecnológico de Monterrey) e CONACyT concede 83929 e 140601. os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito.

Conflito de interesses:. os autores declararam que não existem interesses conflitantes

Introdução

Cancro provoca milhões de mortes em todo o mundo. Para melhorar os tratamentos, vários marcadores biológicos têm sido propostos para o prognóstico de risco e a resposta ao tratamento. biomarcadores recentemente publicados em muitos tipos de cancro e contêm numerosos genes baseiam-se principalmente sobre a expressão do gene. Eles foram gerados usando perfis de microarray e, ultimamente, com recurso a tecnologias de RNA-Seq. Muitas vezes, identificados biomarcadores são desenvolvidos para um tecido e subtipos de cancro específico. No cancro da mama, por exemplo, mais do que 40 marcadores foram propostos contendo entre 3 e 512 genes e cujo desempenho preditivo de prognóstico ou terapêutica depende, o estado do receptor da hormona, e o número de genes [1], [2]. Por outro lado, a avaliação do desempenho de biomarcadores propostas em diferentes populações ou avaliação de biomarcadores concorrentes são tarefas difíceis, apesar de centenas de conjuntos de dados públicos disponíveis. As principais limitações são o tempo e os recursos necessários para a aquisição, processamento, normalização, filtragem e modelagem estatística de grandes conjuntos de dados de expressão de genes. Isto é importante uma vez que vários dos motivos envolvidos na falha de biomarcadores em ensaios clínicos estão relacionados com a análise de dados [3]. Para a análise de biomarcadores, como ferramentas ITTACA, Kmplot, RecurrenceOnline, BC-GeneExMiner, GOBO, e têm sido propostos PrognoScan [1], [4] – [9]. No entanto, estas ferramentas têm restrições graves (Tabela 1), complicando e limitando a avaliação de biomarcadores múltiplos genes em cancro. Algumas das principais limitações incluem considerando apenas um gene no momento ou um conjunto específico de genes; concentrando-se em câncer de mama ou de ovário conjuntos de dados ou para uma plataforma específica expressão do gene Affymetrix; exigindo o upload de dados de expressão gênica Affymetrix (arquivos .CEL); e usando uma única quantidade por gene, mesmo que algumas plataformas de microarray fornecer mais sondas.

Para resolver estes problemas e facilitar comparações de desempenho e validações de biomarcadores prognósticos e preditivos para os resultados do cancro, nós desenvolvemos SurvExpress. SurvExpress é uma ferramenta baseada em web banco de dados de expressão gênica e abrangente fornecendo análise de sobrevivência e avaliação de risco em conjuntos de dados de câncer usando uma lista gene biomarcador como entrada. A ferramenta está disponível em https://bioinformatica.mty.itesm.mx/SurvExpress. A ferramenta inclui um tutorial que descreve a análise de opções, gráficos, tabelas, conceitos-chave relacionados com a análise de sobrevivência e métodos representativos para identificar biomarcadores a partir de dados de expressão de genes.

Materiais e Métodos

Aquisição de banco de dados

Os conjuntos de dados foram obtidos principalmente a partir de GEO (https://www.ncbi.nlm.nih.gov/geo/) e TCGA (https://tcga-data.nci.nih.gov) depois de procurar palavras-chave relacionadas com as tecnologias de câncer, sobrevivência e expressão do gene. Além disso, alguns foram obtidos a partir de sites do autor e de ArrayExpress (https://www.ebi.ac.uk/arrayexpress/). A fonte de dados utilizada é mostrado na interface web. Nós favoreceu tipos de câncer acima de dois grupos e conjuntos de dados contendo dados de sobrevivência de mais de 30 amostras em que censura indicador eo tempo até à morte, recidiva, recaída, ou metástase diferentes foram fornecidos. Os dados clínicos foram fornecidos pelos autores do conjunto de dados via e-mail pessoal quando não está disponível on-line em repositórios correspondente. Conjuntos de dados foram anotados a partir de arquivos de provedor como encontrado até setembro de 2012, e foram quantil-normalizado e LOG2 transformado quando necessário. De TCGA, todos os conjuntos de dados foram obtidos ao nível do gene (nível 3). dados de contagens de RNA-Seq log2 foram transformadas. Em alguns tipos de câncer, onde muitos conjuntos de dados foram encontrados para a mesma plataforma de expressão do gene, nós também fornecemos uma meta-base de fundidos. Em meta-bases, conjuntos de dados foram quantil normalizada; sondas médias foram equalizados conservando o desvio padrão de cada coorte; e conjuntos de dados foram incorporadas pela ID de sondas. No momento em que nós fornecemos meta-bases de mama, pulmão e cancro do ovário. Para facilitar as pesquisas genéticas e conversões entre identificadores de genes, a informação genética humana foi utilizado e obtido a partir do site do NCBI FTP (ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz). Para simplificar a interface do usuário, conjuntos de dados foram agrupados por órgão relacionado ou tecido usando ontologias doença [10].

Interface Web Implementação

Duas interfaces de usuário simples e leve HTML com base em páginas de servidor Java, JavaScript , R, Ajax, Apache, MySQL e foram implementadas (Figura 1A). Na

Input

página, os usuários introduzir a lista de genes com base em identificadores de genes compatíveis NCBI (símbolo oficial, Entrez, Ensembl, HGNC, ou outros) e selecione o conjunto de dados de destino. Os usuários também podem escolher como tratar genes com mais de uma sonda. O

Análise

página extrai as linhas do conjunto de dados relacionados a genes na biomarcador e proporciona uma interface web. Em seguida, os usuários podem avaliar o biomarcador em uma variedade de maneiras, incluindo ligar e desligar genes específicos, estratificar amostras de informações disponíveis clínica (por exemplo, estágio, grau, idade, os resultados bioquímicos e estado de mutação), especificando amostras de treinamento e teste, e pesando genes em vez de utilizar o acessório de Cox. Os resultados são exibidos em parcelas comuns e flexíveis prontas para publicação e tabelas dentro da página

Análise

. Uma versão PDF dos resultados também pode ser obtido.

O painel A mostra um diagrama esquemático do fluxo de trabalho SurvExpress enquanto o Painel B mostra instantâneos das interfaces de marcação dos campos de entrada necessários. Na primeira

Input

página da web, o usuário pode colar a lista de genes (marcadas com o número 1, que pode ser símbolos, identificador Entrez Gene e outros identificadores) e escolha o conjunto de dados de cerca de 140 conjuntos de dados disponíveis ( marcados com 2 e 3). SurvExpress valida e procura os genes e conjunto de dados para mostrar o

Análise

página web onde o usuário seleciona o resultado censurado (tag 4) e visualiza os resultados (inferior direito expandidas na Figura 2). Todo o processo pode ser alcançado em menos de um minuto para um número apreciável de genes.

prognóstico Índice de Estimativa

O índice prognóstico (PI), também conhecido como o escore de risco, é utilizada para gerar grupos de risco. O PI é conhecido como o componente linear do modelo de Cox [11], pi =

β

1x

1+ β

2x

2 + … + β

px

p

onde

x

i

é o valor da expressão e

β

I

pode obtido a partir da Cox montagem. Cada

β

I

pode ser interpretado como um coeficiente de risco. SurvExpress implementa dois procedimentos para estimar as

β

coeficientes. O primeiro procedimento é o modelo de Cox clássica, onde todos os genes estão incluídas num modelo único. A montagem é feita em R (https://cran.r-project.org) usando o

sobrevivência

pacote. No segundo procedimento, o utilizador pode especificar um peso para cada gene em vez de usar os valores da Cox encaixe. Essa opção é útil para fazer comparações com biomarcadores computados com outras Cox modelos matemáticos.

Risco Estimativa

SurvExpress implementa dois métodos para gerar grupos de risco. O primeiro método (padrão) gera os grupos de risco, que dividem a PI ordenadas (valores mais elevados para um risco mais elevado) ao número de grupos de risco deixando igual número de amostras em cada grupo. Para dois grupos de risco, isto é equivalente a dividir o PI pela mediana. O segundo método para produzir grupos de risco utiliza um algoritmo de otimização do PI ordenada. Resumidamente, para dois grupos, um teste de log-rank é realizada ao longo de todos os valores de PI providenciado. Em seguida, o algoritmo escolhe o ponto de divisão em que o p-valor é mínimo. Este procedimento é generalizado para mais do que dois grupos optimizar várias vezes um grupo de risco no tempo até que não se observam alterações. Os detalhes deste processo são descritos no tutorial fornecido no site SurvExpress.

Saídas

As saídas incluídas correspondem às métricas e gráficos comuns utilizados para avaliar o desempenho dos dados de sobrevivência. Um exemplo dos resultados gerados por SurvExpress é mostrado na Figura 2. O painel A mostra os gráficos de Kaplan-Meier, por grupo de risco, o teste log-rank de diferenças entre os grupos de risco, a estimativa de risco-razão molar, e os índices de concordância, que estimativa a probabilidade de que os indivíduos com um risco mais elevado irá experimentar o evento depois de indivíduos com um risco mais baixo [12]. O painel B mostra uma associação visual de informações clínicas disponíveis para grupos de risco. O painel C ilustra um mapa de calor dos valores de expressão de genes. O painel D mostra gráficos de caixas de valores de expressão de genes em todos os grupos de gene em conjunto com o valor p da diferença correspondente. Painel E demonstra o enredo otimização grupo de risco. Painel F mostra fragmentos das tabelas para os coeficientes beta, incluindo correspondentes valores de p Cox, índice prognóstico por amostra, e Cox informações conexão do

sobrevivência

pacote no R. Outro Pesquisa avançada lotes também estão disponíveis no tutorial fornecida em SurvExpress. Outros ‘parcelas’ avançadas incluem SurvivalROC que estima sensibilidades e especificidades dependentes do tempo para os grupos de risco a sobrevivência [13], mas precisa de alguns minutos para computar. parcela adicional, detalhes e interpretações dos resultados são descritos no tutorial fornecido no site da SurvExpress.

Esta figura mostra os resultados de um cancro da mama meta-base de incluído no SurvExpress. O painel A mostra a curva de Kaplan-Meier para os grupos de risco, índice de concordância, e p-valor do log-rank igualdade testes de curvas de sobrevivência. O painel B mostra informações clínicas disponíveis relacionados com grupo de risco, índice prognóstico, e os dados de resultado. O painel C mostra uma representação do mapa de calor dos valores de expressão de genes. Painel D mostra um gráfico de caixa entre os grupos de risco, incluindo o teste p-valor para diferença usando o teste t (ou f-teste para mais de dois grupos). Painel E mostra a relação entre grupos de risco e índice prognóstico. Painel F mostra fragmentos de tabelas com o resumo do encaixe Cox e os índices prognósticos. Os detalhes são fornecidos em SurvExpress Tutorial.

Resultados e Aplicações

Database

Embora a coleta de dados vai continuar, até à data, temos recolhidos em torno de amostras 20.000 câncer distribuídos em 140 conjuntos de dados que cobrem mais de 20 tecidos (Tabela 2). A principal limitação para incluir mais conjuntos de dados foi que a ausência de censurar informações em repositórios. No entanto, a recolha SurvExpress ultrapassa a de ferramentas semelhantes em termos da cobertura de tecido, o número de amostras, a estimativa preditor multivariada, e a funcionalidade (Tabela 1). Dos 20 tipos de câncer, o mais representados por seu número de conjuntos de dados foram mama, hematológica, pulmão, cérebro e ovário, atingindo cerca de 70% da arrecadação de banco de dados. É surpreendente que a maioria das ferramentas existentes estão concentradas principalmente no câncer de mama, embora um número semelhante de conjuntos de dados está disponível para outros tipos de câncer. Por conseguinte, uma das vantagens imediatas de SurvExpress é a disponibilidade para efectuar análise poderosa para estes tipos de cancros altamente estudados. Além disso, SurvExpress permitirá a validação dos biomarcadores em tipos de cancro que não tenham sido considerados por outras ferramentas, tais como rim, fígado, gastrointestinal, pâncreas, osso, da cabeça e pescoço, e uterina. Na interface Web, nós também incentivar os usuários a sugerir ou enviar dados para aumentar o câncer e conjunto de dados de cobertura

Interface Web

Os dois interfaces web composto por três seções:.

Input Análise

e

resultados

(Figura 1B). O

página de entrada

é facilmente operado escrever ou colar uma lista de genes e especificando o conjunto de dados de destino (números 1 a 3 na Figura 1B). Ele também inclui um link para o tutorial que descreve todas as opções e fornece interpretações abrangentes das saídas. A subsequente

Análise

e

Resultado

página é obtido em poucos segundos (cerca de 1 segundo por genes e 200 amostras). Na

Análise

seção, o usuário especifica o resultado do conjunto de dados selecionado no qual a análise será realizada (número 4 na Figura 1B). O

Resultados

seção (Figura 2) é obtido alguns segundos depois de apresentar uma análise. Esta seção inclui saídas, tais como as curvas de Kaplan-Meier para os grupos de risco, comparação visual das informações clínicas para grupos de risco, um mapa de calor dos valores de expressão gênica, diagramas de caixa da expressão gênica por grupo de genes e de risco, uma parcela de risco processo de otimização grupo, tabelas de coeficientes de Cox, índices prognósticos, e Cox informações encaixe, e um link para obter os scripts R utilizados.

Validação e Aplicações

Devido às limitações em outras ferramentas, comparações múltiplas de genes através de ferramentas não eram possíveis. Ainda, SurvExpress pode proporcionar resultados semelhantes para outras ferramentas, quando um único gene é usado. No entanto, para avaliar a funcionalidade e estimativas de SurvExpress, foram realizadas duas análises que avaliam o desempenho de biomarcadores de prognóstico bem conhecidas e propostas. Utilizou-se o biomarcador OncotypeDX de recorrência do câncer de mama e dois biomarcadores publicados para a sobrevivência do cancro do pulmão.

OncotypeDX biomarcador para o câncer de mama.

Como um exemplo para testar um biomarcador em vários conjuntos de dados, usamos os 16 genes OncotypeDX [14]. OncotypeDX estima uma pontuação recorrência que é oferecido principalmente para início de carreira, o estrogênio positivo, nódulos linfáticos cânceres de mama negativo. Os genes incluídos são

AURKA

,

BAG1

,

BCL2

,

BIRC5

,

CCNB1

,

CD68

,

CTSL2

,

ERBB2

,

ESR1

,

GRB7

,

GSTM1

,

MKI67

,

MMP11

,

MYBL2

,

PGR

, e

SCUBE2

(

ACTB

,

GAPDH

,

GUSB

,

RPLP0

, e

TFRC

genes utilizados como referência no ensaio de RT-PCR não foram usados ​​aqui). Para estimar a contagem, OncotypeDX utiliza um algoritmo de ponderação equivalente a um peso multiplicado por expressão de genes normalizados pela referência [14] correspondente. Em SurvExpress usamos Cox encaixe (como uma aproximação uma vez que a expressão do gene de dados não é normalizada para fazer referência a genes) em quatro conjuntos de dados de cancro da mama (Tabela 3). Outras definições foram a média máxima de linha para genes com várias sondas, e dois grupos de risco dividido na mediana do índice prognóstico. Para testar o biomarcador em várias condições, os conjuntos de dados foram escolhidos de modo a reflectir os pacientes apropriados para o ensaio (Wang [27] e Ivshina [26]), os doentes com informações parciais além evento diferente (TCGA [25]), e pacientes sem informação clínica (Kao [15]). Os resultados mostrados na Figura 3 e resumidos no Quadro 4 sugerem que, em geral, Oncotype DX pode separar grupos significativamente baixo e de alto risco em quatro conjuntos de dados testados. Além disso, foram obtidos índices satisfatórios de concordância e as áreas sob a curva ROC. Estes resultados podem ser obtidos usando SurvExpress em poucos minutos. Para demonstrar as características analíticas do SurvExpress, nós também realizada a avaliação de sobrevivência estratificar as amostras utilizando as notas de tumor fornecidas pelos autores (AJCC Stage no conjunto de dados TCGA e grau no conjunto de dados Ivshina). Os resultados representativos para o conjunto de dados Ivshina são mostrados na Figura 4. A figura sugere que o desempenho, dado pelo índice de concordância eo teste log-rank para grupos de risco, diminui ao longo série. Os resultados para o conjunto de dados TCGA são mostrados no Tutorial disponível no site da SurvExpress.

amostras de censura são mostrados como “+” marcas. eixo horizontal representa o tempo para o evento. Dataset, evento resultado, escala de tempo, o índice de concordância (IC), e p-valor do teste log-rank são mostrados. Curvas vermelhas e verdes denotam grupos de alto e baixo risco, respectivamente. Os números vermelhos e verdes abaixo do eixo horizontal representa o número de indivíduos que não apresentem o caso de o grupo de risco correspondente ao longo do tempo. O número de indivíduos, o número de censurado, eo CI de cada grupo de risco são mostradas nas inserções superior direito.

Legends como na Figura 3.

Comparação de dois biomarcadores de câncer de pulmão.

Para o câncer de pulmão de pequenas células não-(NSCLC), pelo menos 16 biomarcadores têm sido propostas [16]. Aqui foram comparados dois biomarcadores propostos para a sobrevivência do NSCLC que tentam prever o mesmo evento (sobrevivência) e utilizar um número semelhante de genes; No entanto, os genes são diferentes. . O primeiro biomarcador NSCLC foi proposto por Boutros

et al

[17] e contém os seguintes genes:

STX1A

,

HIF1A

,

CCT3

,

HLA-DPB1

,

RNF5

, e

MAFK

. O segundo biomarcador NSCLC foi proposto por Chen

et al.

[18] e contém os genes

DUSP6

,

MMD

,

STAT1

,

ErbB3

, e

LCK

. Portanto, é de interesse clínico para comparar o seu desempenho. Para isso, foi realizada uma análise SurvExpress utilizando a média máxima de linha para genes com várias sondas, dois grupos de risco de médio índice prognóstico, e Cox montagem. Utilizou-se um pulmão de compilação especiais meta base no nosso grupo de pesquisa, que é composta de mais de 1.000 amostras obtidas a partir de seis autores (Bild [19], Raponi [20], Zhu [21], Hou [22], NCI [23 ], Okayama [24]), a expressão do gene equivalente plataforma Affymetrix, e contendo todos os genes do biomarcador.

Os resultados mostram que ambos os biomarcadores são capazes de grupos de risco independentes caracterizadas por diferenças de expressão do gene (ver de Kaplan-Meier e diagramas de caixa, respectivamente, na Figura 5). No entanto, o p-valor da separação de grupos de risco, o índice de concordância, ea significância dos coeficientes foram um pouco melhor na biomarcador Chen. Para a análise dos biomarcadores mais profundamente, testou-se o biomarcador por autor base de dados utilizando a funcionalidade SurvExpress estratificação (este também pode ser conseguida realizando uma análise por SurvExpress conjunto de dados de autor). Os resultados para as seis autores estão resumidos na Tabela 5. Três exemplos representativos são mostrados na Figura 6. Os resultados mostram que o biomarcador Boutros falhar em quatro conjuntos de dados (o teste log-rank de a diferença nos grupos de risco não é significativa), enquanto o Chen biomarcador funciona melhor em quase todos os conjuntos de dados. Em resumo, estes resultados sugerem que o desempenho de Chen biomarcador é superior.

curvas de Kaplan-Meier como na Figura 3. Mapa de calor mostra a expressão de cada gene (linhas) ao longo de amostras (colunas) em grupos de risco. Baixa expressão é representado em graus verdes e elevada expressão em graus vermelhos. coeficientes beta correspondentes do encaixe Cox é mostrado. Duas estrelas (**) marca genes cuja montagem Valor de p 0,05, um asterisco (*) para genes marginais significativas com valor de p 0,10, e não estrelas para genes cuja p-valor é 0,1. Os diagramas de caixa comparar a diferença da expressão gênica entre os grupos de risco, utilizando um teste t.

Legends como na Figura 3.

Conclusão

em comparação com outras ferramentas, SurvExpress é a maior e a ferramenta gratuita mais versátil para executar a validação de biomarcadores multi-gene para a expressão do gene em cancros humanos. A análise requer apenas a lista de genes e pode ser realizada em cerca de um minuto por conjunto de dados. As aplicações mais comuns para testar o desempenho de biomarcadores incluem a avaliação de um biomarcador em outras populações ou estado clínico e a comparação de biomarcadores concorrentes. Nós mostramos essas duas aplicações de SurvExpress comparando o desempenho de um biomarcador de câncer de mama em vários conjuntos de dados, incluindo os tipos de tumor, e determinando o melhor biomarcador de dois biomarcadores alternativos de câncer de pulmão. Concluímos que SurvExpress é uma ferramenta web valioso e abrangente e banco de dados do cancro com resultados clínicos adaptados para avaliar rapidamente biomarcadores de expressão gênica.

Deixe uma resposta