PLOS ONE: Priorização dos candidatos Cancer marcador a partir das imagens imuno-histoquímica de coloração depositado na proteína humana Atlas

Abstract

descoberta marcador de câncer é um tema emergente em proteômica quantitativos de alto rendimento. No entanto, a tecnologia omics normalmente gera uma longa lista de candidatos marcador que requer um processo de filtragem de trabalho intensivo, a fim de tela de marcadores potencialmente úteis. Especificamente, vários parâmetros, tais como o nível de sobre-expressão do marcador no tipo de cancro de interesse, que está relacionado com a sensibilidade e a especificidade do marcador entre os grupos do cancro, são as considerações mais importantes. A expressão da proteína de perfil com base em imagens de coloração imuno-histoquímica (IHQ) é uma técnica vulgarmente usada durante tais procedimentos de filtragem. Para investigar sistematicamente a expressão da proteína no cancro diferente contra tecidos normais e tipos de células, a proteína humana Atlas é um recurso mais abrangente porque inclui milhões de imagens de IHC de alta resolução com anotações comissariada por especialistas. Para facilitar a filtragem de candidatos potenciais biomarcadores de grande escala genómica conjuntos de dados, neste estudo que propusemos uma abordagem de pontuação para quantificar IHC anotação dos tecidos emparelhados cancerosas /normal e tipos de células cancerosas /normal. Temos exaustivamente calculada a pontuação de todos os 17219 anticorpos testados depositadas no Protein Human Atlas com base em suas imagens IHC acumulados e obtidos 457110 notas que cobrem 20 diferentes tipos de cânceres. Os testes estatísticos demonstrar a capacidade do método de pontuação proposto dar prioridade a proteínas específicas do cancro. 100 melhores candidatos potenciais marcadores foram priorizados para os 20 tipos de câncer com significância estatística. Além disso, um estudo do modelo foi realizado de 1482 proteínas de membrana identificados a partir de uma comparação quantitativa de tecidos normais e cancerosos adjacentes emparelhados de doentes com cancro colo-rectal (CRC). A abordagem de pontuação proposto demonstrou priorização bem sucedido e identificou quatro marcadores CRC, incluindo dois dos mais amplamente utilizado, ou seja, CEACAM5 e CEACAM6. Estes resultados demonstram o potencial desta abordagem de pontuação em termos de descoberta marcador de câncer e desenvolvimento. Todas as pontuações calculadas estão disponíveis em https://bal.ym.edu.tw/hpa/

Citation:. Chiang SC, Han CL, Yu KH, Chen YJ, Wu KP (2013) Priorização de Câncer os candidatos de marcador a partir das imagens de coloração imuno-histoquímica depositado na proteína humana do Atlas. PLoS ONE 8 (11): e81079. doi: 10.1371 /journal.pone.0081079

editor: Chien-Sheng Chen, da Universidade Central Nacional, Taiwan

Recebido: 13 Julho, 2013; Aceito: 08 de outubro de 2013; Publicação: 26 de novembro de 2013

Direitos de autor: © 2013 Chiang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pela Universidade Yang-Ming, Academia Sinica (Projeto de Pesquisa em Nanociência e Tecnologia) e do Conselho Nacional de Ciência de Taiwan. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

proteômica quantitativas tem sido amplamente utilizada na descoberta de marcador de câncer com um certo grau de sucesso [1] – [7]. Este tipo de estudo normalmente gera uma quantidade enorme de dados que precisam ser ainda analisados ​​de modo a identificar marcadores candidatos. Embora não haja nenhuma maneira padrão para a tela marcadores de câncer de conjuntos de dados de proteômica maciças [8], estes esforços tenham entregue uma série de marcadores de câncer em potencial [9] – [11]. Embora várias abordagens têm sido desenvolvidos, os biomarcadores de mineração de dados proteomic de alto rendimento depende principalmente de alterações na expressão de proteínas de dobragem entre os normais e cancerosas grupos [12]. Um marcador de cancro boa está prevista para ser altamente sobre-expresso em cancro do grupo adequado, e o grau de sobre-expressão precisa de ser significativa e específica para o cancro de interesse.

Um método que é capaz de definir o cancro -specificity de uma proteína para o cancro de interesse é, portanto, indispensável. Para criar um índice de câncer de especificidade, precisamos ter informações expressão nas várias proteínas em indivíduos saudáveis ​​e em pacientes com diferentes tipos de câncer. A aquisição de tais dados proteomic, no entanto, é de recursos e por grupos de investigação académica pequena escala demorado. Felizmente a proteína humana Atlas (HPA) está disponível; esta forma abrangente anota um grande número de genes e proteínas expressas em vários tipos de tecidos normais e de cancro [13] – [15]. HPA é um banco de dados baseada em anticorpos. Através da aplicação de microsséries de tecido e técnicas de coloração imuno-histoquímica (IHQ), HPA tem abrangente acumulado milhões de imagens de alta resolução com anotações comissariada por especialistas. coloração IHC é considerado como uma técnica eficaz na pesquisa proteomic [16], [17]. Na base destas imagens, especialmente aqueles que utilizam a coloração IHC, o HPA foi eficazmente utilizado em vários estudos para a descoberta de marcador de cancro [18] – [24]. A abordagem utilizada com o HPA nestes estudos, no entanto, consultas manuais envolvidos. Desde a anotação das imagens IHC é ordinal e indicados por barras de gradiente, a aquisição de níveis de expressão de proteína da HPA é intuitiva e de trabalho intensivo. Além disso, ao examinar as barras de gradiente de as anotações IHC, julgamento subjetivo entra em jogo e isso pode tornar a interpretação do nível de expressão da proteína pelos pesquisadores inconsistentes através de imagens diferentes. Assim, de forma sistemática para quantificar dados de expressão de proteína do HPA, o que permitiria a especificidade do câncer de proteínas a ser definido com base em anotações IHC de HPA, torna-se essencial.

Neste estudo, propusemos uma abordagem de pontuação baseado na anotação das imagens IHC da HPA. A abordagem de pontuação leva em conta os niveis de expressão de uma proteína em tecidos normais /cancerosas e a importância /especificidade de qualquer sobre-expressão da proteína no tecido de cancro. Com base no mecanismo proposto de pontuação, que priorizados exaustivamente todos os anticorpos testados em HPA (17219 anticorpos no HPA versão 10.0) para 20 tipos diferentes de cancros. Uma análise estatística dos resultados foi levada a cabo por o de uma amostra

t

-test e este demonstrou que a abordagem de pontuação proposto é capaz de identificar as proteínas que são sobre-expressos em tecidos de cancro, e identificar quando tal é a sobre-expressão significativa e específica para o cancro de interesse. Nós também usamos uma coorte amostra de 1482 proteínas [25] para avaliar a eficácia da abordagem de pontuação proposto. A abordagem de pontuação, em combinação com mudanças de dobragem de proteínas, foi capaz de identificar quatro candidatos marcador para o cancro colorectal da coorte de amostra. Os quatro candidatos marcador seleccionado incluído CEACAM 5 e CEACAM6, que são os marcadores mais utilizados para o câncer colorretal no presente; eles são usados ​​primariamente para a monitorização de prognóstico [26]. Os outros dois candidatos marcador seleccionado, acampamento e ANXA4, também foram relatados como potenciais marcadores para cancro colorectal [27] – [29]. Os resultados da avaliação demonstram o potencial da abordagem de pontuação proposto quando ela é aplicada a descoberta marcador de cancro. Todas as pontuações calculadas estão disponíveis para consulta através de um web site, “HPA Scoring” no https://bal.ym.edu.tw/hpa/.

Materiais e Métodos

O IHC imagens de HPA

neste estudo, imuno-histoquímica (IHQ) coloração imagens do HPA versão 10.0 lançado em 12 de setembro de 2012 (https://www.proteinatlas.org/) foram usadas para priorizar genes ou proteínas representadas por anticorpos. entradas de dados do HPA são indexados usando seus nomes de genes. No HPA versão 10.0, existem 14012 genes, os perfis de expressão de proteínas que são medidos utilizando anticorpos 17219 em 46 tipos de tecidos humanos normais, 20 tipos de tecido de cancro, e 47 linhas de células humanas. HPA versão 10.0 tem abrangente acumulado milhões de imagens de IHC de alta resolução com anotações comissariada por especialistas, entre os quais 5.108.055 foram utilizados neste estudo.

Validação dataset

Uma coorte de 1482 proteínas de membrana expressa em tumor emparelhados e tecidos normais adjacentes de 28 pacientes com diagnóstico de câncer colorretal foi usado como nosso conjunto de dados de validação [25] (Tabela S1). informações clínicas sobre os 28 pacientes são apresentados na Tabela S2. Este conjunto de dados foi originalmente criado para rastrear potenciais marcadores para o cancro colorectal.

Mapeando o câncer e tecidos normais

A abordagem de pontuação proposto baseia-se principalmente sobre o uso de diferenças de expressão de proteínas entre câncer e tecidos normais. Por isso houve uma necessidade de mapear a relação entre os vários tipos de câncer e seus tecidos normais emparelhados. Estes mapeamentos, que foram extraídos a partir do HPA, estão listados na Tabela 1. Um tipo de cancro pode ser definida em uma série de mapeamentos diferentes se se encontra emparelhado com mais do que um tipo de célula em um tecido normal (por exemplo, cancro do colo do útero está emparelhado com célula glandular e do epitélio escamoso cervical, uterina) ou emparelhado com mais do que um tipo de tecido normal (por exemplo, cancro colo-rectal é emparelhado com o tecido do cólon e do recto). Os diferentes mapeamentos são analisadas isoladamente na nossa abordagem é aplicada. Por favor, note que não há nenhum mapeamento definido para câncer de ovário, devido a uma falta de IHC coloração resulta na HPA para o tecido do ovário normal. Além disso, como carcinoma hepatocelular e cholangiocarcinoma são totalmente diferentes tipos de câncer, eles foram considerados como diferentes tipos de câncer em nossos mapeamentos mesmo se eles foram todos classificados como câncer de fígado no HPA. Eventualmente, 27 mapeamentos foram definidas para 20 tipos de câncer usando o HPA. Por favor note que nós não investigar subtipos de câncer, como o carcinoma lobular e carcinoma do ducto, que são os cânceres de mama, porque, nesses casos, o número de amostras de tecido no HPA é bastante limitado. A nossa abordagem é orientada por anticorpos; cada anticorpo no HPA é utilizado para avaliar a não mais do que 12 pacientes com um certo tipo de cancro. Se classificarmos ainda mais as 12 imagens IHC correspondentes em diferentes subtipos de câncer, que seria muito difícil tirar qualquer conclusão a partir de evidências estatisticamente significativa que se baseia unicamente no 10 imagens IHC. Gostaríamos de enfatizar que olhar para subtipos de câncer é um aspecto muito importante da descoberta marcador de câncer. Faremos o nosso esforço nessa direção quando o HPA ou outro banco de dados é capaz de fornecer um número suficiente de imagens IHC de diferentes subtipos de câncer.

diferenças de expressão como detectado pelo anticorpo em relação ao câncer mapeados e tecidos normais

para um determinado mapeamento e um dado anticorpo, o nosso objectivo foi determinar a diferença de expressão (

ED

) da proteína alvo entre o câncer emparelhados e amostras de tecidos normais. Os níveis de expressão de uma proteína em tecidos são determinadas com base nas anotações fornecidas pelo HPA. Cada gene no HPA é anotada; este consiste de um gene de informação e proteína resumo, o anticorpo e o antigénio, e uma gama de diferentes tipos de perfis de expressão. Neste estudo, as anotações

Intensidade

e

Quantidade

para a coloração IHC são usados ​​para definir o nível de uma proteína em tecidos expressão. A anotação

Intensidade

representa o nível de coloração de anticorpos. A anotação

Quantidade

representa a fração de células marcadas positivamente. Uma vez que uma proteína pode ser reconhecido por mais do que um anticorpo devido a múltiplos locais de ligação, certos genes em HPA são avaliadas utilizando mais do que um anticorpo. Uma vez que os anticorpos utilizados para criar o HPA não são todas da mesma qualidade, a avaliação dos resultados destes anticorpos pode ser inconsistente. Para abordar esta questão, a nossa abordagem proposta é projetado para ser, a fim de superar quaisquer inconsistências na qualidade de anticorpo orientada por anticorpos. anticorpos diferentes para um determinado produto do gene são consideradas entradas de dados distintos e processadas separadamente.

Para a proteína alvo, a sua expressão em tecidos é caracterizado pelas anotações

Intensidade

e

Quantidade

. As duas anotações são primeiro transformados de forma ordinal de forma numérica. Os quatro valores fortes, moderada, fraca e negativos que são usados ​​para descrever

Intensidade

são transformadas em 3, 2, 1 e 0, respectivamente. A transformado

Intensidade

é denotado por

I

. Da mesma forma, os cinco valores 75%, 75% -25%, 25%, raro, e negativos que são usados ​​para descrever

Quantidade são transformados em 75, 50, 25, 5 e 0 , respectivamente. A transformado

Quantidade

é denotado por

Q

. O factor de base que define a expressão de uma proteína em tecidos é então calculada usando

I

×

Q

(Figura 1A).

Inicialmente, os níveis de expressão de proteína (A) ea diferença de expressão (

ED

) entre tecido canceroso e do tecido normal para todos os anticorpos que cobrem todos os mapeamentos são calculados. (B) O significado do alvo

ED

com respeito ao mapeamento de interesse é determinada por uma distribuição z cumulativa. (C) A especificidade do alvo

ED

com respeito ao mapeamento de interesse é determinada por uma outra distribuição z cumulativa. (D) O resultado do anticorpo no que respeita ao mapeamento de interesse é determinada com base no seu nível de expressão de proteínas em tecido de cancro e a importância da sua especificidade e

ED

.

para o tipo de célula normal, não importa quantas vezes o anticorpo é usado para executar a coloração IHC, HPA relata apenas um par de

Intensidade

e

Quantidade

pontuações. Temos, portanto, apenas um par de

I

e

Q

valores para o tipo de célula normal. A expressão da proteína no tipo de célula normal,

ein

(expressão em condições normais), é, por conseguinte, definidos como se segue: Por exemplo, existe apenas um par de

Intensidade

e

Quantidade

(Moderado, 75%) quando o HPA034966 anticorpo é utilizado para a coloração IHC de células glandulares de tecido da mama normal, temos, portanto,

ein

= 2 × 75 = 150. em geral, o valores de

Ein

terá um intervalo de 0 a 225.

Em contraste com a situação para o tecido normal, para um determinado tipo de câncer, o HPA reporta um par de

Intensity

e

Quantidade

cada vez que o anticorpo é utilizado para realizar a coloração IHC. Consequentemente, nós geralmente têm vários pares de

I

e

Q

valores para um determinado tipo de câncer. Assim, a expressão de uma proteína num determinado tipo de cancro,

EiC

(expressão em cancro), é definido como a média de expressão da proteína em tecidos de pacientes diagnosticados com este câncer: em que

N

é o número de pacientes testados diagnosticadas com este cancro. Por exemplo, o HPA034966 anticorpo foi utilizado para realizar a coloração IHC em 12 pacientes com câncer de mama e como resultado, o HPA fornece 12 pares de

Intensidade

e

Quantidade

pontuação; estes são: (Strong, 75%), (Moderado, 75%), (Strong, 75%), (Strong, 75%), (Moderado, 75%), (Moderate , 75%), (Moderado, 75%), (Moderado, 75%), (Moderado, 75%), (Moderado, 75%), (Moderado, 75% ), e (Moderado, 75%). Temos, portanto,

EiC

= (3 × 75 + 2 × 75 + 3 × 75 + 3 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 x 75 + 2 x 75) /12 = 2025/12 = 168,75. No geral, os valores de

EiC

também terá um intervalo de 0 a 225.

Finalmente, a diferença de expressão,

ED

, de um determinado anticorpo para um determinado mapeamento é definido como

ED

=

EiC Restaurant -.

Ein

(Figura 1A)

pontuações de anticorpos em relação ao mapeamento tecido

para um dado anticorpo e uma dada mapeamento, é esperado que o anticorpo para receber uma pontuação elevada, se (1) a proteína alvo é sobre-expresso no tecido de cancro, e (2) o grau de sobre-expressão é significativa e específica para o mapeamento. A pontuação do anticorpo para o mapeamento é, portanto, determinada usando os seguintes passos (Figura 1):

determinar a expressão de proteínas e ED de todos os anticorpos. Na etapa inicial, primeiro determinar os níveis de expressão de proteína

EiC

e

Ein Compra de todos os anticorpos em HPA para todos os mapeamentos. A diferença expressão

ED

de anticorpos é determinada usando

EiC Restaurant –

Ein

(Figura 1A). Por favor note que este passo inicial pode ser considerada como a “inicialização do sistema” e é realizada apenas uma vez; o calculado

EiC

‘s,

Ein

‘ s, e

ED

‘s permanecem constantes para a pontuação de todos os anticorpos.

determinar a significância da meta ED. Nós gostaríamos de saber se o

ED

do anticorpo alvo é significativo em relação ao mapeamento de interesse. O

ED

valores de todos os anticorpos para esse mapeamento são normalizados por transformação z-score para remover viés inter-experimento, onde μ

g Comprar e σ

g Quais são a média e desvio padrão de todos estes

ED

‘s, respectivamente. O

significado

do

ED

do anticorpo alvo para o mapeamento,

SG

, é definida pela distribuição z cumulativa

SG

=

P

(

Z

z

g

(

ED

)) (Figura 1B).

SG

pode ser considerada como a colocação do anticorpo alvo entre todos os anticorpos com respeito ao mapeamento de interesse. O valor de um

SG

estará dentro da gama de 0 a 1.

determinar a especificidade do alvo ED. Também queremos saber se o alvo

ED

é específico para o mapeamento de interesse. O

ED

‘s do anticorpo alvo a todos os mapeamentos são normalizados pela transformação z-score para remover viés inter-experimento, onde μ

p

e σ

p Quais são a média e desvio padrão de todos estes

ED

‘s, respectivamente. O

especificidade

do

ED

do anticorpo alvo para o mapeamento,

SP

, é definida pela distribuição z cumulativa

SP

=

P

(

Z

z

p

(

ED

)) (Figura 1C).

SP

pode ser considerada como a classificação do mapeamento de destino entre todos os mapeamentos com a respectiva ao anticorpo alvo. O valor de um

SP

também vai estar dentro do intervalo de 0 a 1.

Determinar a pontuação do anticorpo alvo. A pontuação de um dado anticorpo alvo em relação a um dado mapeamento de interesse é definida como (Figura 1D). O valor de um

Pontuação

vai estar dentro do intervalo de 0 a 225.

Resultados e Discussão

Temos exaustivamente calculada a pontuação para todos os anticorpos utilizados no HPA para cada um dos 27 mapeamentos e isto resultou em pontuações 457110. Em vez de resumir isso em uma enorme arquivo suplementar plana, todas as pontuações calculadas estão disponíveis em um site que permite que as consultas sejam feitas (https://bal.ym.edu.tw/hpa/) (Figura 2). O web site, HPA Scoring, oferece dois modos de consulta: uma consulta pelo nome do gene e uma consulta por tipo de câncer. Para um determinado nome de gene, HPA Scoring lista a pontuação e classificação dos anticorpos usados ​​para cada mapeamento (Figura 2A). Para um determinado mapeamento de um tipo de câncer, HPA Scoring relata uma lista de genes, as entradas em que são classificadas segundo a pontuação anticorpo (Figura 2B). Na parte seguinte do estudo, proceder a uma verificação da existência ou não a abordagem de pontuação proposto é capaz de identificar anticorpos que satisfazem os seguintes critérios. Em primeiro lugar, que a proteína é capturado sobre-expresso no tecido de cancro alvo, e, em segundo lugar, que o grau de sobre-expressão é significativa e específica para o cancro. Na segunda parte desta verificação, nós também têm usado o cancro colorectal como a doença de modelo e aplicado um método de descoberta marcador de câncer especificamente utilizando a nossa abordagem de pontuação proposto ao conjunto de dados câncer colorretal

.

(A) O resultado da consulta pelo nome do gene. (B) O resultado da consulta pelo mapeamento de um tipo de câncer.

A capacidade da abordagem de pontuação para identificar proteínas abundantes em tecidos de câncer

Para cada mapeamento, nós selecionar o 100 melhores anticorpos de acordo com a sua

Scores

, e realizar um one-sample

t

-teste, a fim de verificar se ou não a média

EiC

destes 100 anticorpos é estatística mais elevada do que a de todos os anticorpos testados. O one-sample

t

-teste é frequentemente utilizado para medir a diferença média entre uma amostra e uma população conhecida dizer. Nós aplicamos a uma amostra

t

-test porque nós podemos determinar a média

EiC

de todos os anticorpos testados, ou seja, a média da população. As significâncias estatísticas do

EiC

média das diferenças entre os anticorpos top100 e todos os anticorpos testados para cada mapeamento estão listadas na Tabela 2. De acordo com o

p

-Valores relatados pela de uma amostragem

t

-teste, todos os 27

EiC

significam diferenças são estatisticamente significativas. Os resultados destes testes demonstram a capacidade da nossa abordagem de pontuação para identificar proteínas abundantes em tecidos de câncer.

O significado e câncer especificidade da

ED

de anticorpos topo do ranking

a fim de garantir que a abordagem de pontuação proposto é capaz de identificar proteínas que são significativamente sobre-expressos em tecidos de câncer, realizamos uma one-sample

t

-teste para verificar se ou não a média

ED

dos 100 melhores anticorpos é estatisticamente maior do que a de todos os anticorpos testados. As significâncias estatísticas do

ED

média das diferenças entre as 100 melhores anticorpos e todos os anticorpos testados são listados na Tabela 3. De acordo com o

p

-Valores relatado pelo uma amostra

t

-teste, todos os 27

ED

significam diferenças são estatisticamente significativas. Os resultados do teste demonstram a capacidade da nossa abordagem de pontuação para identificar proteínas que são altamente expressos no cancro de interesse. Por favor, note que as 100 principais anticorpos têm uma tendência up-regulada (positivo

ED

amostra média) para todos os 27 mapeamentos. Este contraste com os resultados para a maioria dos anticorpos testados, que mostram uma tendência regulada para baixo em tecidos de câncer (22 das 27 mapeamentos têm um negativo

ED

média da população).

os anticorpos top100 de cada mapeamento também foram usadas para verificar se ou não o método de pontuação proposto é capaz de identificar proteínas cuja sobre-expressão é específica para o cancro de interesse. Para os 100 melhores anticorpos de um mapeamento específico, sua média

ED

é determinado para cada um dos 27 mapeamentos. foram então organizados os 27

ED

médias obtidas em um mapa de calor com grande

ED

valores coloridas em azul escuro e pequeno

ED

valores coloridas em azul claro (Figura 3) . A entrada (

i

,

j

) no mapa de calor representa a média

ED

dos 100 melhores anticorpos do

j

mapeamento -ésimo calculado para o

i

mapeamento -ésimo. A coluna mais à direita, todas as listas a média

ED

valores de todos os anticorpos testados calculados para cada um dos 27 mapeamentos; ou seja, as entradas localizadas dentro desta coluna são populacionais

ED

meios. portanto, o mapa heap tem as dimensões de 27 por 28. As entradas azuis escuros localizados ao longo da diagonal revelam que a média

ED

dos anticorpos seleccionados para um mapeamento são específicos para esse mapeamento. Em contraste, a maioria das entradas no mapa heap tem média

ED Compra de anticorpos seleccionados de um mapeamento que são semelhantes à população

ED

dizer se eles são testados para outro mapeamento. Cada linha no mapa pilha confirma a observação de que, para um determinado mapeamento, a média

ED

valores dos anticorpos seleccionados para este mapeamento é maior do que a de anticorpos seleccionados para outros mapeamentos. Cada coluna no mapa de calor também concorda com uma outra observação, ou seja, para os 100 anticorpos selecionados para um mapeamento específico, sua média

ED

só é significativo para o mapeamento selecionado e é semelhante à média da população para outros mapeamentos. Os resultados desta avaliação demonstrar que o

ED

de anticorpos topo do ranking é específico para o câncer de interesse.

Neste mapa de calor, grande

ED

valores são coloridos azul escuro e pequenos

valores ED

são de cor azul claro. A entrada (

i

,

j

) no mapa de calor representa a média

ED

dos 100 melhores anticorpos do

j

mapeamento -ésimo calculado para o

i

mapeamento -ésimo. A coluna mais à direita, todas as listas a média

ED

de todos os anticorpos testados calculados para cada um dos 27 mapeamentos.

Em resumo, a abordagem de pontuação proposto mostra um grande potencial como meios de identificar proteínas abundantes e específicos do cancro em tecidos.

a aplicação da abordagem de marcador de câncer descoberta

Nesta seção, usamos um coorte de avaliação para demonstrar como a abordagem de pontuação proposto pode ser utilizado para rastrear possíveis marcadores para o câncer. A coorte é composta por 1.482-regulada proteínas de membrana de 28 pacientes que tinham sido diagnosticados com cancro colo-rectal [25]. Nós aplicamos as seguintes três regras de filtragem a fim de selecionar possíveis marcadores de câncer desta coorte. Regras semelhantes para os dois últimos listados abaixo têm sido amplamente utilizados na descoberta de biomarcadores.

Regra 1. Uma proteína com anticorpo marcar 100 em ambos o mapeamento colorectal-e-vírgula ou o mapeamento colorectal-reto é selecionado.

Regra 2. uma proteína-regulada com uma mudança dobra média 2 é selecionado.

Regra 3. uma proteína com uma mudança dobra 2 em mais de 14 pacientes up-regulada é selecionado.

as proteínas selecionadas por esses critérios foram analisados ​​detalhadamente usando o

Biomarcador filtro fornecido pelo IPA (Ingenuity Systems, https://www.ingenuity.com). Cada proteína com potencial biomarcador ou doença aplicativo é anotado pelo IPA durante este processo.

Foram avaliados oito combinações de critérios de filtragem. Cada uma das combinações leva em consideração diferentes combinações das várias regras de filtragem. Os resultados de filtragem são apresentados na Figura 4. Estas regras que são usados ​​para rastrear genes estão marcados um sinal de adição na Figura 4A e caso contrário, eles são marcados com um sinal de menos. Para cada combinação, o número de genes, genes filtrados com anotação biomarcador, e genes com anotação doença também está listada na Figura 4A. Especial atenção deve ser dada à combinação 1. Nesta combinação, simplesmente corresponde a todos os 1482 proteínas contra a version10.0 HPA para ver quantos genes relacionados são indexados no HPA; Especificamente, não há regras de filtragem explícitas são aplicadas para selecionar possíveis marcadores. Há 1114 genes indexados, entre os quais 244 genes têm anotação biomarcador e 914 genes têm anotação doença do IPA. O resultado da combinação 1 forma a nossa amostra populacional. As proporções dos biomarcadores anotados e genes relacionados com a doença para os genes filtradas de cada combinação são apresentados na Figura 4B. A proporção dos resultados de filtragem para a população de amostra é mostrado na Figura 4C. Ou seja, as proporções dos genes filtrados para todos os genes de 1114 indexados, os biomarcadores filtrados para os 244 marcadores anotados, e os genes relacionados com a doença filtrados para os 914 genes relacionados com a doença anotados; estes estão listados na Figura 4C. A Figura 4C é um gráfico de painel que possui dois painéis; a superior tem um eixo que cobre a gama completa de dados, enquanto o inferior tem um eixo que incide sobre os dados na gama de 0% -25%.

(A) As regras que são usados ​​para genes de tela são marcados com um sinal de mais e caso contrário, há um sinal de menos. Para cada combinação, o número de genes, genes filtrados com anotação biomarcador, e genes com anotação doença são listados. (B) As proporções de biomarcadores anotados e genes relacionados com a doença de genes filtradas de cada combinação são mostrados. (C) A proporção dos resultados de filtragem para a nossa população de amostra é mostrado. Esta figura é um gráfico de painel que tem dois painéis; a superior tem um eixo que cobre a gama completa de dados, enquanto o inferior tem um eixo que se concentra em dados dentro da gama de 0% -25%.

, em seguida, aplicado Combinações de dois, três e 4 para avaliar o efeito da regra 1, Regra 2 e Regra 3, respectivamente. Combinação de dois, ou seja, um artigo por si só, permitido um certo grau de sucesso na descoberta de biomarcador; a proporção dos biomarcadores anotados para os genes filtrado aumentou de 21,9% para 29,8% (Figura 4B). Além disso, a combinação 2 tem a capacidade para rastrear os genes relacionados com a doença e a proporção dos genes relacionados com a doença anotados para os genes filtrado aumentou de 82,0% para 87,5% (Figura 4B). Aplicando Combinação 2 diminui o tamanho da amostra para 15,1%, mas mantém 20,5% dos biomarcadores anotados e 16,1% dos genes anotados relacionados com a doença (Figura 4C). Aplicando Combinação 3, ou seja, Regra 2 sozinho, uniformemente encolhe o tamanho da amostra, os biomarcadores anotados, e os genes relacionados com a doença anotados (4,3%, 4,1%, 4,2%, Figura 4C). A proporção dos biomarcadores anotados e genes relacionados com a doença para os genes filtrados também é mantida ao mesmo nível que os da população de amostra (20,8%

vs 21,9%;. 79,2

vs

. 82,0%, Figura 4B). O efeito da aplicação de combinação 3 é um pouco como amostragem aleatória. Combinação 4, ou seja, regra 3 sozinho, tem melhor capacidade de triagem biomarcador entre as três regras de filtragem; a proporção dos biomarcadores anotados para os genes filtrado aumentou de 21,9% para 35,3% (Figura 4B). Aplicando Combinação 4 uniformemente diminui o tamanho da amostra e os genes relacionados com a doença anotados (3,1% e 3,0%), mas mantém a 4,9% dos biomarcadores anotado (Figura 4C). Parece que a aplicação de regras 1 e 3 são as duas estratégias eficazes ao executar descoberta de biomarcadores.

Nós também avaliar o desempenho de combinações que utilizam duas regras de filtragem juntos. Combinação 5 aplica Regras 1 e 2, combinação 6 aplica Regras 1 e 3, e combinação 7 aplica regras 2 e 3. Todos os três combinações encolher dramaticamente o tamanho da amostra a uma escala que é adequado para a validação wet-lab; Combinações de aplicação 5, 6, 7 e gera 13, 8, e 14 genes filtrados, respectivamente (Figura 4A). Combinação 6 retém a maior parte dos biomarcadores. A proporção de biomarcadores anotadas a genes filtrado aumentou de 21,9% para 75% (Figura 4B). Combinações 5 e 7 produzir resultados semelhantes em termos de identificar biomarcadores anotados, enquanto Combinação 5 tem uma melhor capacidade de triagem de genes relacionados com a doença. A proporção dos genes relacionados com a doença anotados para os genes filtrada é 92,3% quando se aplica Combinação 5 mas apenas 64,3% ao aplicar Combinação 7 (Figura 4B). A avaliação dos resultados de acordo com nossa observação que a regra 1, em combinação com a Regra 3 é capaz de efetivamente selecionar potenciais biomarcadores.

Deixe uma resposta