PLOS ONE: Desbloqueio Biomarcador Discovery: Grande aplicação em larga escala de Aptamer proteômica Tecnologia de detecção precoce de pulmão Cancer

Abstract

Fundo

O cancro do pulmão é a principal causa de mortes por câncer em todo o mundo. Novos meios de diagnóstico são necessários para detectar câncer de pulmão estágio inicial, pois pode ser curada com cirurgia. No entanto, a maioria dos casos são diagnosticados tarde demais para a cirurgia curativa. Aqui nós apresentamos um estudo de biomarcador clínico abrangente de câncer de pulmão e a primeira aplicação clínica em larga escala de uma nova tecnologia proteômica baseada em aptâmero para descobrir biomarcadores de proteínas no sangue na doença.

Metodologia /PRINCIPAIS CONCLUSÕES

Foi realizado um estudo caso-controle multicêntrico em amostras de soro arquivadas de 1.326 indivíduos de quatro estudos independentes de câncer de pulmão de células não pequenas (NSCLC) em populações expostas ao tabaco de longo prazo. Os soros foram recolhidos e tratados no âmbito de protocolos uniformes. soros caso foram coletados de 291 pacientes dentro de 8 semanas da primeira câncer de pulmão comprovada por biópsia e antes da remoção do tumor por cirurgia. soros de controlo foram coletadas de 1.035 participantes do estudo assintomáticos com ≥10 anos-maço de cigarro. Medimos 813 proteínas em cada amostra com uma nova tecnologia proteómica à base de aptâmero, identificou 44 biomarcadores candidatos, e desenvolveu um painel de 12 proteínas (caderina-1, ligando de CD30, endostatina, HSP90α, LRIG3, MIP-4, pleiotrofina, PRKCI, RGM-C, SCF-sR, SL-selectina, e YES) que discrimina NSCLC dos controles com sensibilidade de 91% e especificidade de 84% na formação cross-validados e sensibilidade de 89% e 83% de especificidade em um conjunto de verificação independente, com desempenho semelhante para estágio inicial e final de NSCLC.

Conclusões /Significado

Este estudo é um avanço significativo na proteômica clínicos em uma área de alta necessidade clínica não satisfeita. Nossa análise excede a amplitude e alcance dinâmico de proteoma interrogado de estudos clínicos publicados anteriormente de plataformas de perfil largo proteoma do soro incluindo espectrometria de massa, matrizes de anticorpo, e matrizes de auto-anticorpos. A sensibilidade e especificidade do nosso painel de 12 biomarcador melhora em painéis de expressão de proteínas e genes publicados. verificação separada de desempenho classificador fornece evidências contra o excesso de montagem e é encorajador para a próxima fase de desenvolvimento, validação independente. Este estudo cuidadoso fornece uma base sólida para desenvolver testes extremamente necessários para identificar câncer em estágio pulmonar precoce

Citation:. Ostroff RM, Bigbee WL, Franklin W, Ouro L, Mehan M, Miller YE, et al. (2010) Desbloqueio de Biomarcadores Discovery: Grande aplicação em larga escala de Aptamer proteômica Tecnologia para a detecção precoce do cancro do pulmão. PLoS ONE 5 (12): e15003. doi: 10.1371 /journal.pone.0015003

editor: Irina Agoulnik, Universidade Internacional da Flórida, Estados Unidos da América

Recebido: 06 de agosto de 2010; Aceito: 07 de outubro de 2010; Publicação: 07 de dezembro de 2010

Direitos de autor: © 2010 Ostroff et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O câncer de pulmão paciente e Pluss competência controle assunto e anotação em conjunto com a coleta de amostra de sangue, processamento e armazenamento na Universidade de Pittsburgh Cancer Institute foi apoiada por uma Programas especializados de Investigação Excellence (SPORE) subvenção do National Cancer Institute (NCI) de os EUA Nacional Institutes of Health (NIH) dos Estados Unidos da América em Câncer de pulmão (P50 CA090440) para JMS. Pulmonares estudos de câncer na NYU foram apoiados por bolsas do Detecção Precoce Research Network (EDRN) do NCI do NIH dos Estados Unidos da América e do Fundo de bandeira E. Stephen para o cancro do pulmão de HIP, e uma subvenção de Biomarcadores do NCI do NIH dos Estados Unidos da América (5U01CA086137) para WR. estudos de câncer de pulmão no Roswell Park Cancer Institute, foram apoiados em parte por um Centro de Suporte Grant Câncer (5P30CA016056) do NCI do NIH dos Estados Unidos da América. Universidade de contribuições Colorado para este estudo foram apoiados por uma concessão SPORE do NCI do NIH dos Estados Unidos da América (P50-CA58187) e uma subvenção do EDRN do NCI do NIH dos Estados Unidos da América (U01 -CA85070). SomaLogic financiou a pesquisa com biomarcadores de proteômica. SomaLogic teve um papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito. que não SomaLogic financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. Os autores leram a política da revista e os seguintes conflitos. R Ostroff, L Ouro, M Mehan, A Stewart, J Walker, S Williams, D Zichi, E Brody são empregados em tempo integral de SomaLogic. Isto não altera a adesão dos autores para os PLoS ONE políticas em dados e materiais de compartilhamento.

Introdução

O câncer de pulmão é a principal causa de mortes por câncer, porque ~84% dos casos são diagnosticados numa fase avançada [1] – [3]. Em todo o mundo em 2008, -1,5 milhões de pessoas foram diagnosticadas e ~1.3 milhões morreram [4] – uma taxa de sobrevivência inalterada desde 1960. No entanto, os pacientes diagnosticados em um estágio inicial e ter experiência cirurgia uma sobrevida de 5 anos em geral 86% [2], [3]. Novos diagnósticos são, portanto, necessárias para identificar câncer em estágio pulmonar precoce

Durante a última década a utilidade clínica de uma dose baixa de CT foi avaliada [5] – [8]. Com a esperança de que imagens de alta resolução pode ajudar detectar câncer de pulmão mais cedo e melhorar os resultados dos pacientes, tanto quanto o rastreio tem feito por mama e colorretal [9]. conclusões definitivas sobre o rastreio CT e mortalidade do cancro do pulmão aguardam os resultados de ensaios clínicos randomizados em os EUA [8] e na Europa [10] – [13]. CT pode detectar, tumores pulmonares pequenas em fase inicial, mas distinguindo cancros raros de doenças benignas comuns é difícil e conduziu a procedimentos desnecessários, exposição à radiação, ansiedade e custo [6], [14] – [16]. Nós (JMS, JLW, e colegas) informou recentemente tais conclusões para o rastreio Estudo Pittsburgh Lung (Pluss), o maior estudo de rastreio CT-única instituição notificados até à data [5].

Outros tipos de biomarcadores têm também sido procurado [17]. As proteínas são atraente, porque eles são uma medida imediata do fenótipo, em contraste com o ADN que proporciona o genótipo, em grande parte, uma medida do risco de doença [18]. biomarcadores de proteínas individuais são a base do diagnóstico molecular na clínica hoje. é amplamente Acredita-se que múltiplos marcadores biológicos podem melhorar a sensibilidade e especificidade dos testes de diagnóstico, e que as doenças complexas como o câncer alterar as concentrações de várias proteínas [19]. No entanto, a descoberta de vários biomarcadores de proteína medindo muitas proteínas simultaneamente (proteômica) em amostras complexas como o sangue tem sido difícil por razões de cobertura, precisão, rendimento, variabilidade pré-analítica, e os custos [20].

Para ativar a descoberta de biomarcadores , foi desenvolvida uma nova tecnologia de proteómica que se baseia numa nova geração de reagentes de ligação às proteínas aptâmero e tem potencialmente uma larga aplicação [18]. O ensaio de corrente mede 813 diferentes proteínas humanas em apenas 15 mL de sangue com baixos limites de detecção (média 1:00 e tão baixas quanto 100 FM), 7 registros de gama dinâmica global e alta reprodutibilidade (5% coeficiente médio de variação) [ ,,,0],18]. Aqui nós apresentamos a primeira aplicação clínica em larga escala da nossa tecnologia proteômica para descobrir biomarcadores de proteínas no sangue em um estudo de caso-controle multicêntrico grande conduzido em amostras arquivadas de 1.326 indivíduos de quatro estudos independentes de câncer de pulmão de células não pequenas (NSCLC) em populações expostas ao tabaco de longo prazo.

Materiais e Métodos

Ética Declaração

Todas as amostras foram coletadas de participantes do estudo após a obtenção do consentimento informado escrito ao abrigo de protocolos de pesquisa clínica aprovado pela seguindo conselhos de revisão institucional: The University of Pittsburgh Institutional Review Board (Pitt); A Escola New York University of Medicine Institutional Review Board (NYU); O Instituto do Câncer Institutional Review Board Roswell Park (RP); e The Cape Cod Healthcare Institutional Review Board (BS).

Design Estudo

Os objetivos deste estudo foram para descobrir biomarcadores que discriminam NSCLC de fumantes com ≥10 anos de história tabagismo, a treinar e cross-validar um classificador multi-biomarcador de NSCLC para cumprir os critérios de desempenho pré-especificados, e para verificar o desempenho desse classificador com um conjunto separado de amostras cegas. O desenho geral do estudo é mostrado na Figura 1. Nós concebido e executado neste estudo para padrões rigorosos atuais para estudos clínicos biomarcador [21] – [23] com os objectivos de maximizar a robustez biomarcador, validade e fiabilidade na fase de descoberta, e minimizar os efeitos potenciais de variabilidade pré-analíticas. O estudo foi um projeto de descoberta de fase, caso-controle. características críticas do projeto de estudo incluem o seguinte. O projeto de perguntas e estudo clínico foram pré-especificado antes da identificação e aquisição de amostras. As amostras foram adquiridas a partir de quatro centros de estudo independentes, a fim de controlar a variabilidade potencial pré-analíticas. procedimentos operacionais padrão rigorosos foram seguidas para garantir a amostra e anonimato dos dados e ofuscante em todos os tempos (veja abaixo). Um conjunto de amostras de verificação constituída por 25% de todas as amostras do estudo foi aleatória e a identificação desse conjunto foi cegado. O plano de análise estatística foi pré-especificado e incluiu critérios de desempenho minimamente aceitáveis ​​de sensibilidade e especificidade

Amostra Cohort

A coorte amostra foi composta por 1.326 amostras de soro obtidas de quatro Biorepositórios independentes:. Nova york University (NYU) [24]; Roswell Park Cancer Institute (RPCI) [25]; A Universidade de Pittsburgh (Pitt) [5]; e um biorrepositório comercial (BioServe (BS)) (Tabela 1). Todas as amostras foram coletadas de participantes do estudo após a obtenção do consentimento informado ao abrigo de protocolos de pesquisa clínica institucionalmente aprovados como descrito [5], [24], [25]. Ambas as amostras de soro caso e controle foram coletadas a partir de quatro centros de estudo. As características clínicas da coorte de estudo para os conjuntos de treino e de verificação estão mostrados na Tabela 2. O teste e a histologia dos casos de NSCLC é mostrado na Tabela 3. A amostra coorte incluiu pacientes diagnosticados com patológica ou estágio clínico I-III NSCLC e uma alta -risco população de controlo com uma história de tabagismo a longo prazo, incluindo ativos e ex-fumantes com ≥10 anos-maço de cigarro. As populações de controle foram selecionados aleatoriamente dentro de cada estudo para representar a população de pacientes em risco para o câncer de pulmão que seriam candidatos para rastreio CT, com uma proporção de caso: o controle de 1:3.5. As amostras de sangue para os casos foram coletadas de pacientes no prazo de oito semanas do primeiro diagnóstico de câncer de pulmão comprovada por biópsia e antes da remoção do tumor por um procedimento cirúrgico. Todos os casos utilizados neste estudo foram confirmados como câncer de pulmão primário de avaliação patologia. NSCLC encenação foi atribuído pela estadiamento patológico de 240 indivíduos e estadiamento clínico para 51 indivíduos. controles nódulo benigno ter pelo menos um ano de dados de acompanhamento e diagnóstico não-malignas. controles Fumante eram participantes do estudo assintomáticos com ≥10 anos-maço de cigarro. controles fumador de NYU e Pitt foram nódulo livre por CT; estatuto nódulo é desconhecido para os controles fumador de RP e BS. Dados demográficos foram coletados por meio de questionários de auto-relato. Dados adicionais para casos foi adquirido por meio de revisão de prontuários clínicos. teste de função pulmonar foi avaliada pela espirometria para um subconjunto dos participantes do estudo.

Collection Serum, processamento, armazenamento e expedição

Todas as amostras de soro foram coletadas seguindo protocolos uniformes recomendados pela Detecção precoce Research Network do Instituto Nacional do Câncer [22]. Três dos centros (NYU, Pitt e RPMC) de soro colhidas em tubos Vacutainer top vermelhos (Becton Dickinson, Raritan, NJ) e um centro (BS) de soro colhidas em tigre top tubos SST Vacutainer (Becton Dickinson). Todas as amostras foram deixadas a coagular e o soro foi recuperado por centrifugação dentro de 2-8 horas após a colheita e armazenadas a -80 ° C. HIPAA amostras, identificou-de enviados foram congeladas em gelo seco para SomaLogic a partir dos centros de estudo e armazenados a -80 ° C. As amostras foram descongeladas uma vez para alíquotas antes da análise proteômica.

Amostra Blinding

A fim de evitar potenciais vícios, este estudo seguiu um procedimento operacional padrão rigoroso para a amostra de-identificação e de cegueira, de tal forma que todas as amostras físicas e registros de dados foram identificados exclusivamente por um número de código de barras único, não identificáveis ​​e a chave foi armazenada em um banco de dados seguro acessível apenas aos administradores responsáveis ​​designados. Todas as alíquotas de amostras executados neste estudo foram armazenadas em tubos idênticos identificados apenas por código de barras atribuído. O código ofuscante amostra foi quebrado apenas de acordo com o plano de análise pré-especificada para efeitos de formação classificador com o conjunto de treino e verificação classificador com o conjunto de verificação. Para o conjunto de amostra de verificação, uma chave de cegueira única foi gerada e fornecida exclusivamente a um leitor de terceiros (KC), não afiliados com os centros de estudo ou SomaLogic, para marcar e relatar os resultados de verificação finais.

Análise proteômica

As amostras de soro foram analisadas em nosso descoberta plataforma proteômica como descrito na Gold et al [5]. Resumidamente, esta tecnologia utiliza novos aptâmeros de ADN que contêm os nucleótidos modificados como reagentes de ligação altamente específica da proteína num ensaio multiplexado única que transforma a quantidade de cada proteína alvo em uma quantidade correspondente de aptâmero, que é quantificada com uma matriz de hibridação costume. quantidades de proteína são registadas como unidades fluorescentes relativas (RFU), que podem ser convertidos em concentrações com curvas padrão. A plataforma é altamente automatizado [26] e escalável para acomodar uma vasta gama de processamento de amostras. Neste estudo, 813 alvos de proteína foram medidos em 15 ul de soro para cada indivíduo, e todas as 1326 soros foram analisados ​​em um processo contínuo ao longo de um período de oito dias. No geral, os resultados são análogos aos de um pouco mais de 1.000.000 de medições de ELISA de alta qualidade. As amostras foram processadas em várias placas de microtitulação de 96 poços, e todos os 1.326 amostras foram distribuídas aleatoriamente e as suas identidades foram completamente cego durante todo o processo de análise de proteómica.

Biomarcador selecção

Biomarcadores foram seleccionados com uma estratégia desenhado para identificar analitos com o mais alto desempenho na classificação de casos NSCLC de controles em todos os locais de estudo e que foram menos afetados por variáveis ​​pré-analíticas. Na primeira etapa desta análise, nós eliminado analitos que apresentaram variação inesperada em comparação com controles internos, devido, por exemplo, a instabilidade amostra. Neste processo, nós escolhemos um conjunto de analitos que um bom desempenho em um total de análises de seis Naive Bayes (NB) formação classificador. Primeiro, dividiu o conjunto de treinamento em duas populações distintas para controlar uma possível variabilidade biológica entre eles: (1) todos os casos e os controles com nódulos benignos identificadas pelo CT; e (2) todos os casos e todos os outros controles fumador (status nódulo desconhecido). Para cada população, comparou casos a controlos que analisa três formação NB projetado para controlar a variabilidade potencial pré-analítica entre os locais de estudo. As análises de três NB começou com um único conjunto de biomarcadores potenciais com base nos seguintes critérios: (1) os casos em comparação com controles KS≥0.3 para todas as comparações dentro de cada um dos quatro locais de estudo; (2) casos em comparação com controles KS≥0.3 para comparar todos os locais combinados; (3) ambos os critérios de um e dois foram atendidas. Para cada análise, foi utilizado um algoritmo de busca para a frente gananciosos para selecionar subconjuntos de potenciais biomarcadores, construir classificadores NB (ver abaixo), e marcou o seu desempenho para a classificação de câncer de pulmão e controles usando o conjunto de treinamento. Neste processo, esta abordagem meta-heurística busca eficiente espaço classificador para identificar potenciais biomarcadores que apresentam melhor desempenho na classificação. Nós usamos uma simples medida de desempenho diagnóstico de classificadores, a soma numérica de sensibilidade + especificidade, e mede a frequência com que potenciais biomarcadores foram selecionados pelo algoritmo guloso para inclusão em painéis classificador com sensibilidade + especificidade ≥1.7. Este passo produziu um conjunto de biomarcadores potenciais para cada um dos seis análises paralelas. Foi selecionado o conjunto final de biomarcadores como a união destes seis conjuntos.

Métodos Estatísticos

A estatística KS é uma medida não-paramétrico da diferença entre duas distribuições. O de duas amostras KS Estatística é: onde e são distribuições cumulativas empíricos para duas populações de valores

O classificador Naive Bayes assume independência entre as amostras e modelos as distribuições das aulas de treinamento para fazer previsões [27. ]. Nós usamos distribuições normais para modelar nossos dados. No entanto, as características em nossos dados, muitas vezes contêm distribuições com caudas pesadas estimativa de modo máxima verossimilhança dos parâmetros da distribuição executa mal. Portanto, nós modelamos nossas distribuições como distribuições log-normal e utilizado o algoritmo de Gauss-Newton para ajustar os dados.

Foram construídos classificadores Bayesianos utilizando conjuntos de potenciais biomarcadores identificados como descrito acima. Foi utilizado um modelo paramétrico para capturar a distribuição proteína subjacente para um determinado estado. O modelo paramétrico simples para a função de densidade de probabilidade (pdf) para uma única proteína é uma distribuição normal, completamente descrita por uma média u e variância σ

2 (Eq. 1). (1)

Muitos distribuições de proteína foram observados como normal em relação ao logaritmo da concentração. Os cdfs numéricos podem estar apto para uma distribuição normal em concentrações de log x (Eq. 2). (2)

Os modelos de ajustar os dados. modelos mais complexos das funções de distribuição de probabilidade podem ser utilizados quando tal se justifique, mas o modelo simples, desde que uma boa descrição dos nossos dados.

Para combinar vários marcadores, usamos uma distribuição normal multivariada para modelar a função de densidade de probabilidade (pdf ) para cada classe. Para n marcadores, o PDF multivariada é dada pela seguinte equação (Eq. 3). (3)

onde x é um vector n-componente de níveis de proteína, μ é um vector n-componente de proteína significativo níveis, Σ é a matriz nxn covariância e | Σ | e Σ

-1 são o seu determinante e inverso. Na sua forma mais simples, podemos assumir uma representação diagonal para Σ. Uma tal aproximação conduz a um modelo Naive Bayes, o qual assume a independência entre os marcadores. Neste trabalho, nós exclusivamente usar o modelo Naive Bayes para a construção de classificadores. Os valores de parâmetros para μ e Σ utilizado na classificação de Bayes ingénuos foram obtidos a partir de análise de regressão não-linear como anteriormente descrito.

A adição de marcadores subsequentes com boas KS distâncias irá, em geral, melhorar o desempenho de classificação se o subsequentemente marcadores adicionados são independentes do primeiro marcador. Temos procurado por painéis de marcadores ideais com um algoritmo de “ganancioso”, que é qualquer algoritmo que segue a resolução de problemas meta-heurística de fazer a escolha localmente ótima em cada fase com a esperança de encontrar o ótimo global. Usamos a sensibilidade (fração de verdadeiros positivos) mais especificidade (fração de verdadeiros negativos) como uma pontuação classificador. A abordagem algoritmo usado aqui é descrito como se segue. Todos os classificadores individuais de analito foram gerados a partir de uma tabela de biomarcadores potenciais e adicionou-se uma lista. Em seguida, todos os possíveis adições de um segundo analito para cada um dos classificadores individuais analito armazenados foram realizados, guardar um número predeterminado (neste caso 10000) dos melhores pares de pontuação relativa a uma nova lista. Todos os possíveis três classificadores marcadores são exploradas usando essa nova lista dos melhores classificadores de dois marcadores, mais uma vez salvar o melhor mil destes. Este processo continua até que a pontuação tanto planaltos ou começa a deteriorar-se como marcadores adicionais são adicionados

Resultados

Foram analisadas 1.326 amostras de soro de quatro Biorepositórios independentes:. New York University (NYU) [24] ; Roswell Park Cancer Institute (RPCI) [25]; A Universidade de Pittsburgh (Pitt) [5]; e um biorrepositório comercial (BioServe (BS)) (Tabela 1). O estudo incluiu pacientes com diagnóstico de estágio patológico ou clínica I-III NSCLC e uma população de controle de alto risco com uma história de tabagismo a longo prazo, incluindo ativos e ex-fumantes com ≥10 anos-maço do cigarro (Tabela 2 e 3). As populações de controle foram selecionados aleatoriamente dentro de cada estudo para representar a população de pacientes em risco para o câncer de pulmão que seriam candidatos para rastreio CT, com uma proporção de caso para o controle de 1 a 3,5.

As amostras foram aleatoriamente distribuídos em conjuntos segregadas para formação classificador e verificação (Figura 1), sem diferenças significativas na demografia entre estes conjuntos (Tabela 2). Mais de 45% dos casos NSCLC foram patologicamente confirmada estágio IA ou IB ou estágio clínico I com adenocarcinoma representando o principal diagnóstico histológico (Tabela 3). Todos os pacientes com câncer de pulmão teve um diagnóstico de câncer comprovada por biópsia.

Nós medimos a quantidade de 813 proteínas em cada uma das 1.326 amostras com a nossa plataforma de descoberta de proteômica [18]. Seguimos um plano de análise de duas fases pré-especificado para identificar biomarcadores e desenvolver um classificador para distinguir indivíduos com cancro do pulmão de controles dentro do conjunto de treino (fase de formação) e para verificar o desempenho do classificador com o conjunto de verificação independente cego (fase de verificação). A fase de treinamento envolveu duas etapas -. Seleção de biomarcadores e de formação algoritmo com validação cruzada

Para selecionar biomarcadores foi realizada uma análise sistemática que estreitou o campo potencial biomarcador para o treinamento algoritmo para aumentar a probabilidade de uma verdadeira descoberta, mas ainda lançou um relativamente amplo net. Foi utilizado um método de Naive Bayes (NB) para avaliar sistematicamente o desempenho potencial biomarcador com critérios pré-especificados. Nós aplicamos o método NB para subconjuntos dos dados de treinamento para ampliar nosso elenco para os potenciais biomarcadores (ver Métodos). Os resultados identificaram um conjunto de 44 biomarcadores potenciais (Tabela 4) que distinguem o cancro do pulmão de controles através de uma série de comparações no conjunto de treinamento, minimizando a variabilidade pré-analítica potencial – artefatos introduzidos por variações na coleta e armazenamento de amostras (ver abaixo) [28] , [29].

para desenvolver um potencial diagnóstico para distinguir NSCLC de controles, treinamos classificadores NB começando com os 44 biomarcadores potenciais foram identificados utilizando um algoritmo de busca para a frente “gananciosos” e dez vezes estratificada validação cruzada, começando com três biomarcadores e adicionando mais um em cada passo. Foi avaliado o desempenho do classificador com critérios de desempenho pré-especificados (Tabela 5). Foram construídos 45 sete para classificadores de doze biomarcadores a partir deste conjunto de 44 biomarcadores potenciais que preencheram os critérios de desempenho, o que sugere que não há redundância significativa na informação contida dentro do conjunto de potenciais biomarcadores. Cross-validado desempenho classificador atingido um patamar de desempenho com doze biomarcadores. Seguindo o nosso plano de análise, foram selecionados a partir dos 45 classificadores resultantes aquele com o maior desempenho geral de critérios pré-especificados (Tabela 5), ​​incluindo a discriminação das NSCLC de controles, a detecção da doença Estágio I, e detecção de câncer em doença pulmonar obstrutiva crônica (DPOC). No conjunto de treino, o classificador conseguido 91% de sensibilidade, especificidade% 84, e uma área sob a curva (AUC) de 0,91 (Figura 2). Os resultados (Tabela 6) mostram que a sensibilidade é mantida para a Fase I NSCLC (90% para o conjunto de treino). O classificador bem realizados em amostras de todos os sites de quatro estudos (Figura 3).

Os doze biomarcadores são apresentados na Tabela 7. As concentrações séricas estimados para estes marcadores tempo de 4 logs (22:00-100 nm). Cerca de metade do grupo de controlo tinha nódulos pulmonares benignos detectados por tomografia computadorizada (Tabela 2), e o desempenho do classificador em que subgrupo foi semelhante à do conjunto (Tabela 6). Também testamos o efeito de outros atributos que podem afetar o desempenho do classificador, como idade, história de tabagismo e DPOC, mas encontrou pouco efeito (Tabelas 8 e 9). Idade tem um efeito moderado sobre a forma da curva ROC porque a probabilidade de cancro aumenta com a idade, mas este efeito pode ser controlado ajustando a probabilidade anterior de cancro no modelo classificador de Bayes. O desempenho da classificação do algoritmo fixo foi testado em conjunto verificação independente cego e verificado por um terceiro leitor partido para alcançar sensibilidade de 89% e 83% de especificidade, quase igualando o desempenho conjunto de treinamento.

Para determinar se os nossos resultados de classificação foram afetados tanto pela idade, tabagismo, ou história de tabagismo, que são os dados demográficos com diferenças significativas entre as populações de estudo e controle (Tabela 2), que comparou o desempenho do classificador em subconjuntos da conjunto de treino população divididos em grupos com base no valor médio destes atributos. Os resultados mostram desempenho semelhante para o classificador todos os subgrupos (Tabela 8). Para avaliar melhor se os nossos resultados da classificação foram afetados tanto pela idade, tabagismo, ou história de tabagismo, testamos para a correlação potencial dos doze biomarcadores com essas variáveis. Os resultados não mostraram correlações, exceto para a endostatina, que mostrou uma correlação moderada, aumentando com a idade. Este efeito pode ser compensado através do ajuste da probabilidade anterior de cancro no modelo classificador de Bayes. Também se avaliou a especificidade do classificador para a discriminação de controlos conhecidos têm obstrução (medido por contagem OURO). Os resultados são apresentados na Tabela 9. dados espirometria foi incompleta para os casos de NSCLC, por isso, não pôde calcular a sensibilidade.

variabilidade pré-analíticas subjaz falhas comuns para traduzir biomarcadores candidatos para testes clinicamente úteis [20], [29]. Nós avaliamos a variabilidade pré-analítica neste estudo medindo as diferenças de níveis de proteína dentro da mesma classe de doença (NSCLC ou controle) entre sites diferentes e compará-las às diferenças observadas entre NSCLC e populações de controlo. Os resultados (Figura 4) apresentam uma variabilidade significativa entre os locais de pré-analítica. No entanto, as proteínas mais afetadas são distintos de potenciais biomarcadores NSCLC. Muitas proteínas que apresentam variabilidade pré-analítica (Tabela 10) são conhecidos por serem suscetíveis a variações na coleta de amostras e manipulação [28], [29]. Este resultado confirma que a variabilidade pré-analítica existe em nosso estudo e fornece evidências de que, como projetado, o nosso estudo supera amplamente esta variabilidade para maximizar as chances de descobrir verdadeiros, biomarcadores robustas de NSCLC

Linha superior:. Distâncias KS para NSCLC contra distribuições de controlo. linha inferior: KS médias distâncias para todos os 12 comparações de pares, entre os quatro locais, de amostras de casos e controles analisados ​​separadamente. As proteínas foram ordenados por subtracção da distância NSCLC KS a partir do local médio KS distância. Este grupos de biomarcadores NSCLC revelado (canto superior direito) contrastando com marcadores pré-analíticas (canto inferior esquerdo).

Discussão

Os resultados preliminares deste estudo são 44 potenciais biomarcadores de câncer de pulmão que as fases de discriminar casos de I-III NSCLC de em risco pesados ​​controles fumador que podem ser combinados em painéis classificador que atendam e superem critérios pré-especificados de desempenho. Os resultados deste estudo são novos no seguinte: (1) a maioria das proteínas identificadas neste estudo não foram anteriormente identificados como biomarcadores de cancro do pulmão de soro; (2) nós identificamos novos painéis de biomarcadores de proteínas que distinguem os casos de câncer de pulmão a partir de controles apropriados com alta sensibilidade e especificidade na, um conjunto de verificação cego independente; e (3) deste estudo alcança um novo nível de padrão de prova em estudos de biomarcadores de proteômica clínicos como resultado de um grande tamanho da amostra, um projeto de estudo para controlar a variabilidade pré-analítica, e a capacidade exclusiva desta tecnologia proteômica para interrogar o proteoma circulando quantitativamente com uma amplitude, sensibilidade e gama dinâmica inigualável por outras plataformas amplas séricos de perfis [18], incluindo espectrometria de massa [18], matrizes de anticorpo [18], e matrizes de auto-anticorpos [18], [30] – [32]. Este estudo é a primeira aplicação em larga escala desta tecnologia e o maior estudo biomarcador proteômica clínica até à data. Como tal, este estudo tem como objetivo superar a confusão e as limitações de estudos de biomarcadores de proteômica clínicos que contribuem em grande parte para a falta de tradução para a clínica devido à falsa descoberta [20] críticos. Esses fatores de confusão e limitações incluem a integridade clínica da amostra, a variabilidade pré-analítica, e desenho do estudo inadequado e poder.

O melhor classificador geral realizando usado 12 dos 44 biomarcadores e alcançou 91% de sensibilidade e especificidade de 84% na formação cross-validado e desempenho similar de sensibilidade de 89% e 83% de especificidade na validação cego. Estes resultados fornecem evidências de que estes biomarcadores são válidas e que o classificador não era sobre-ajuste aos dados de treinamento. Este desempenho ea plausibilidade biológica (seguinte) dos 12 biomarcadores são encorajadores para a próxima fase de desenvolvimento – validação em um estudo clínico independente

Os 12 biomarcadores identificados neste estudo (Tabela 4) englobam funções de celular. movimento, inflamação e monitoramento imunológico que pode contribuir para o desenvolvimento do câncer. A maior parte das 12 proteínas têm sido associados geralmente com a biologia do cancro, alguns têm sido identificados como biomarcadores de cancro do pulmão candidato, nenhum tenha sido validado como biomarcadores de cancro do pulmão, e nenhum é utilizado clinicamente [33], [34]. Quatro dos 12 proteínas foram identificadas em cultura de soro e tecido de cancro de pulmão de células ou como biomarcadores de cancro do pulmão candidato – caderina-1 [35], endostatina [36], a HSP90 [37], e pleiotrofina [38]. Oito das 12 proteínas, ligando CD30, LRIG3, MIP-4, PRKCI, RGM-C, SCF-sR, SL-selectina, e sim, não foram previamente identificados no soro como biomarcadores de câncer de pulmão e representam novos achados.

Seis das 12 proteínas, ligando CD30, endostatina, HSP90, MIP-4, pleiotrofina, PRKCI, e foram observados SIM-regulada no cancro do pulmão neste estudo, consistentes com suas funções biológicas propostas na proliferação, invasão, ou hospedar resposta inflamatória e imunitária ao tumor. ligando de CD30 é um membro da superfamília de ligando de TNF, que estimula o crescimento de células-T.

Deixe uma resposta