Abstract
descoberta marcador de câncer é um tema emergente em proteômica quantitativos de alto rendimento. No entanto, a tecnologia omics normalmente gera uma longa lista de candidatos marcador que requer um processo de filtragem de trabalho intensivo, a fim de tela de marcadores potencialmente úteis. Especificamente, vários parâmetros, tais como o nível de sobre-expressão do marcador no tipo de cancro de interesse, que está relacionado com a sensibilidade e a especificidade do marcador entre os grupos do cancro, são as considerações mais importantes. A expressão da proteína de perfil com base em imagens de coloração imuno-histoquímica (IHQ) é uma técnica vulgarmente usada durante tais procedimentos de filtragem. Para investigar sistematicamente a expressão da proteína no cancro diferente contra tecidos normais e tipos de células, a proteína humana Atlas é um recurso mais abrangente porque inclui milhões de imagens de IHC de alta resolução com anotações comissariada por especialistas. Para facilitar a filtragem de candidatos potenciais biomarcadores de grande escala genómica conjuntos de dados, neste estudo que propusemos uma abordagem de pontuação para quantificar IHC anotação dos tecidos emparelhados cancerosas /normal e tipos de células cancerosas /normal. Temos exaustivamente calculada a pontuação de todos os 17219 anticorpos testados depositadas no Protein Human Atlas com base em suas imagens IHC acumulados e obtidos 457110 notas que cobrem 20 diferentes tipos de cânceres. Os testes estatísticos demonstrar a capacidade do método de pontuação proposto dar prioridade a proteínas específicas do cancro. 100 melhores candidatos potenciais marcadores foram priorizados para os 20 tipos de câncer com significância estatística. Além disso, um estudo do modelo foi realizado de 1482 proteínas de membrana identificados a partir de uma comparação quantitativa de tecidos normais e cancerosos adjacentes emparelhados de doentes com cancro colo-rectal (CRC). A abordagem de pontuação proposto demonstrou priorização bem sucedido e identificou quatro marcadores CRC, incluindo dois dos mais amplamente utilizado, ou seja, CEACAM5 e CEACAM6. Estes resultados demonstram o potencial desta abordagem de pontuação em termos de descoberta marcador de câncer e desenvolvimento. Todas as pontuações calculadas estão disponíveis em https://bal.ym.edu.tw/hpa/
Citation:. Chiang SC, Han CL, Yu KH, Chen YJ, Wu KP (2013) Priorização de Câncer os candidatos de marcador a partir das imagens de coloração imuno-histoquímica depositado na proteína humana do Atlas. PLoS ONE 8 (11): e81079. doi: 10.1371 /journal.pone.0081079
editor: Chien-Sheng Chen, da Universidade Central Nacional, Taiwan
Recebido: 13 Julho, 2013; Aceito: 08 de outubro de 2013; Publicação: 26 de novembro de 2013
Direitos de autor: © 2013 Chiang et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados
Financiamento:. Este trabalho foi apoiado pela Universidade Yang-Ming, Academia Sinica (Projeto de Pesquisa em Nanociência e Tecnologia) e do Conselho Nacional de Ciência de Taiwan. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito
CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes
Introdução
proteômica quantitativas tem sido amplamente utilizada na descoberta de marcador de câncer com um certo grau de sucesso [1] – [7]. Este tipo de estudo normalmente gera uma quantidade enorme de dados que precisam ser ainda analisados de modo a identificar marcadores candidatos. Embora não haja nenhuma maneira padrão para a tela marcadores de câncer de conjuntos de dados de proteômica maciças [8], estes esforços tenham entregue uma série de marcadores de câncer em potencial [9] – [11]. Embora várias abordagens têm sido desenvolvidos, os biomarcadores de mineração de dados proteomic de alto rendimento depende principalmente de alterações na expressão de proteínas de dobragem entre os normais e cancerosas grupos [12]. Um marcador de cancro boa está prevista para ser altamente sobre-expresso em cancro do grupo adequado, e o grau de sobre-expressão precisa de ser significativa e específica para o cancro de interesse.
Um método que é capaz de definir o cancro -specificity de uma proteína para o cancro de interesse é, portanto, indispensável. Para criar um índice de câncer de especificidade, precisamos ter informações expressão nas várias proteínas em indivíduos saudáveis e em pacientes com diferentes tipos de câncer. A aquisição de tais dados proteomic, no entanto, é de recursos e por grupos de investigação académica pequena escala demorado. Felizmente a proteína humana Atlas (HPA) está disponível; esta forma abrangente anota um grande número de genes e proteínas expressas em vários tipos de tecidos normais e de cancro [13] – [15]. HPA é um banco de dados baseada em anticorpos. Através da aplicação de microsséries de tecido e técnicas de coloração imuno-histoquímica (IHQ), HPA tem abrangente acumulado milhões de imagens de alta resolução com anotações comissariada por especialistas. coloração IHC é considerado como uma técnica eficaz na pesquisa proteomic [16], [17]. Na base destas imagens, especialmente aqueles que utilizam a coloração IHC, o HPA foi eficazmente utilizado em vários estudos para a descoberta de marcador de cancro [18] – [24]. A abordagem utilizada com o HPA nestes estudos, no entanto, consultas manuais envolvidos. Desde a anotação das imagens IHC é ordinal e indicados por barras de gradiente, a aquisição de níveis de expressão de proteína da HPA é intuitiva e de trabalho intensivo. Além disso, ao examinar as barras de gradiente de as anotações IHC, julgamento subjetivo entra em jogo e isso pode tornar a interpretação do nível de expressão da proteína pelos pesquisadores inconsistentes através de imagens diferentes. Assim, de forma sistemática para quantificar dados de expressão de proteína do HPA, o que permitiria a especificidade do câncer de proteínas a ser definido com base em anotações IHC de HPA, torna-se essencial.
Neste estudo, propusemos uma abordagem de pontuação baseado na anotação das imagens IHC da HPA. A abordagem de pontuação leva em conta os niveis de expressão de uma proteína em tecidos normais /cancerosas e a importância /especificidade de qualquer sobre-expressão da proteína no tecido de cancro. Com base no mecanismo proposto de pontuação, que priorizados exaustivamente todos os anticorpos testados em HPA (17219 anticorpos no HPA versão 10.0) para 20 tipos diferentes de cancros. Uma análise estatística dos resultados foi levada a cabo por o de uma amostra
t
-test e este demonstrou que a abordagem de pontuação proposto é capaz de identificar as proteínas que são sobre-expressos em tecidos de cancro, e identificar quando tal é a sobre-expressão significativa e específica para o cancro de interesse. Nós também usamos uma coorte amostra de 1482 proteínas [25] para avaliar a eficácia da abordagem de pontuação proposto. A abordagem de pontuação, em combinação com mudanças de dobragem de proteínas, foi capaz de identificar quatro candidatos marcador para o cancro colorectal da coorte de amostra. Os quatro candidatos marcador seleccionado incluído CEACAM 5 e CEACAM6, que são os marcadores mais utilizados para o câncer colorretal no presente; eles são usados primariamente para a monitorização de prognóstico [26]. Os outros dois candidatos marcador seleccionado, acampamento e ANXA4, também foram relatados como potenciais marcadores para cancro colorectal [27] – [29]. Os resultados da avaliação demonstram o potencial da abordagem de pontuação proposto quando ela é aplicada a descoberta marcador de cancro. Todas as pontuações calculadas estão disponíveis para consulta através de um web site, “HPA Scoring” no https://bal.ym.edu.tw/hpa/.
Materiais e Métodos
O IHC imagens de HPA
neste estudo, imuno-histoquímica (IHQ) coloração imagens do HPA versão 10.0 lançado em 12 de setembro de 2012 (https://www.proteinatlas.org/) foram usadas para priorizar genes ou proteínas representadas por anticorpos. entradas de dados do HPA são indexados usando seus nomes de genes. No HPA versão 10.0, existem 14012 genes, os perfis de expressão de proteínas que são medidos utilizando anticorpos 17219 em 46 tipos de tecidos humanos normais, 20 tipos de tecido de cancro, e 47 linhas de células humanas. HPA versão 10.0 tem abrangente acumulado milhões de imagens de IHC de alta resolução com anotações comissariada por especialistas, entre os quais 5.108.055 foram utilizados neste estudo.
Validação dataset
Uma coorte de 1482 proteínas de membrana expressa em tumor emparelhados e tecidos normais adjacentes de 28 pacientes com diagnóstico de câncer colorretal foi usado como nosso conjunto de dados de validação [25] (Tabela S1). informações clínicas sobre os 28 pacientes são apresentados na Tabela S2. Este conjunto de dados foi originalmente criado para rastrear potenciais marcadores para o cancro colorectal.
Mapeando o câncer e tecidos normais
A abordagem de pontuação proposto baseia-se principalmente sobre o uso de diferenças de expressão de proteínas entre câncer e tecidos normais. Por isso houve uma necessidade de mapear a relação entre os vários tipos de câncer e seus tecidos normais emparelhados. Estes mapeamentos, que foram extraídos a partir do HPA, estão listados na Tabela 1. Um tipo de cancro pode ser definida em uma série de mapeamentos diferentes se se encontra emparelhado com mais do que um tipo de célula em um tecido normal (por exemplo, cancro do colo do útero está emparelhado com célula glandular e do epitélio escamoso cervical, uterina) ou emparelhado com mais do que um tipo de tecido normal (por exemplo, cancro colo-rectal é emparelhado com o tecido do cólon e do recto). Os diferentes mapeamentos são analisadas isoladamente na nossa abordagem é aplicada. Por favor, note que não há nenhum mapeamento definido para câncer de ovário, devido a uma falta de IHC coloração resulta na HPA para o tecido do ovário normal. Além disso, como carcinoma hepatocelular e cholangiocarcinoma são totalmente diferentes tipos de câncer, eles foram considerados como diferentes tipos de câncer em nossos mapeamentos mesmo se eles foram todos classificados como câncer de fígado no HPA. Eventualmente, 27 mapeamentos foram definidas para 20 tipos de câncer usando o HPA. Por favor note que nós não investigar subtipos de câncer, como o carcinoma lobular e carcinoma do ducto, que são os cânceres de mama, porque, nesses casos, o número de amostras de tecido no HPA é bastante limitado. A nossa abordagem é orientada por anticorpos; cada anticorpo no HPA é utilizado para avaliar a não mais do que 12 pacientes com um certo tipo de cancro. Se classificarmos ainda mais as 12 imagens IHC correspondentes em diferentes subtipos de câncer, que seria muito difícil tirar qualquer conclusão a partir de evidências estatisticamente significativa que se baseia unicamente no 10 imagens IHC. Gostaríamos de enfatizar que olhar para subtipos de câncer é um aspecto muito importante da descoberta marcador de câncer. Faremos o nosso esforço nessa direção quando o HPA ou outro banco de dados é capaz de fornecer um número suficiente de imagens IHC de diferentes subtipos de câncer.
diferenças de expressão como detectado pelo anticorpo em relação ao câncer mapeados e tecidos normais
para um determinado mapeamento e um dado anticorpo, o nosso objectivo foi determinar a diferença de expressão (
ED
) da proteína alvo entre o câncer emparelhados e amostras de tecidos normais. Os níveis de expressão de uma proteína em tecidos são determinadas com base nas anotações fornecidas pelo HPA. Cada gene no HPA é anotada; este consiste de um gene de informação e proteína resumo, o anticorpo e o antigénio, e uma gama de diferentes tipos de perfis de expressão. Neste estudo, as anotações
Intensidade
e
Quantidade
para a coloração IHC são usados para definir o nível de uma proteína em tecidos expressão. A anotação
Intensidade
representa o nível de coloração de anticorpos. A anotação
Quantidade
representa a fração de células marcadas positivamente. Uma vez que uma proteína pode ser reconhecido por mais do que um anticorpo devido a múltiplos locais de ligação, certos genes em HPA são avaliadas utilizando mais do que um anticorpo. Uma vez que os anticorpos utilizados para criar o HPA não são todas da mesma qualidade, a avaliação dos resultados destes anticorpos pode ser inconsistente. Para abordar esta questão, a nossa abordagem proposta é projetado para ser, a fim de superar quaisquer inconsistências na qualidade de anticorpo orientada por anticorpos. anticorpos diferentes para um determinado produto do gene são consideradas entradas de dados distintos e processadas separadamente.
Para a proteína alvo, a sua expressão em tecidos é caracterizado pelas anotações
Intensidade
e
Quantidade
. As duas anotações são primeiro transformados de forma ordinal de forma numérica. Os quatro valores fortes, moderada, fraca e negativos que são usados para descrever
Intensidade
são transformadas em 3, 2, 1 e 0, respectivamente. A transformado
Intensidade
é denotado por
I
. Da mesma forma, os cinco valores 75%, 75% -25%, 25%, raro, e negativos que são usados para descrever
Quantidade são transformados em 75, 50, 25, 5 e 0 , respectivamente. A transformado
Quantidade
é denotado por
Q
. O factor de base que define a expressão de uma proteína em tecidos é então calculada usando
I
×
Q
(Figura 1A).
Inicialmente, os níveis de expressão de proteína (A) ea diferença de expressão (
ED
) entre tecido canceroso e do tecido normal para todos os anticorpos que cobrem todos os mapeamentos são calculados. (B) O significado do alvo
ED
com respeito ao mapeamento de interesse é determinada por uma distribuição z cumulativa. (C) A especificidade do alvo
ED
com respeito ao mapeamento de interesse é determinada por uma outra distribuição z cumulativa. (D) O resultado do anticorpo no que respeita ao mapeamento de interesse é determinada com base no seu nível de expressão de proteínas em tecido de cancro e a importância da sua especificidade e
ED
.
para o tipo de célula normal, não importa quantas vezes o anticorpo é usado para executar a coloração IHC, HPA relata apenas um par de
Intensidade
e
Quantidade
pontuações. Temos, portanto, apenas um par de
I
e
Q
valores para o tipo de célula normal. A expressão da proteína no tipo de célula normal,
ein
(expressão em condições normais), é, por conseguinte, definidos como se segue: Por exemplo, existe apenas um par de
Intensidade
e
Quantidade
(Moderado, 75%) quando o HPA034966 anticorpo é utilizado para a coloração IHC de células glandulares de tecido da mama normal, temos, portanto,
ein
= 2 × 75 = 150. em geral, o valores de
Ein
terá um intervalo de 0 a 225.
Em contraste com a situação para o tecido normal, para um determinado tipo de câncer, o HPA reporta um par de
Intensity
e
Quantidade
cada vez que o anticorpo é utilizado para realizar a coloração IHC. Consequentemente, nós geralmente têm vários pares de
I
e
Q
valores para um determinado tipo de câncer. Assim, a expressão de uma proteína num determinado tipo de cancro,
EiC
(expressão em cancro), é definido como a média de expressão da proteína em tecidos de pacientes diagnosticados com este câncer: em que
N
é o número de pacientes testados diagnosticadas com este cancro. Por exemplo, o HPA034966 anticorpo foi utilizado para realizar a coloração IHC em 12 pacientes com câncer de mama e como resultado, o HPA fornece 12 pares de
Intensidade
e
Quantidade
pontuação; estes são: (Strong, 75%), (Moderado, 75%), (Strong, 75%), (Strong, 75%), (Moderado, 75%), (Moderate , 75%), (Moderado, 75%), (Moderado, 75%), (Moderado, 75%), (Moderado, 75%), (Moderado, 75% ), e (Moderado, 75%). Temos, portanto,
EiC
= (3 × 75 + 2 × 75 + 3 × 75 + 3 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 × 75 + 2 x 75 + 2 x 75) /12 = 2025/12 = 168,75. No geral, os valores de
EiC
também terá um intervalo de 0 a 225.
Finalmente, a diferença de expressão,
ED
, de um determinado anticorpo para um determinado mapeamento é definido como
ED
=
EiC Restaurant -.
Ein
(Figura 1A)
pontuações de anticorpos em relação ao mapeamento tecido
para um dado anticorpo e uma dada mapeamento, é esperado que o anticorpo para receber uma pontuação elevada, se (1) a proteína alvo é sobre-expresso no tecido de cancro, e (2) o grau de sobre-expressão é significativa e específica para o mapeamento. A pontuação do anticorpo para o mapeamento é, portanto, determinada usando os seguintes passos (Figura 1):
determinar a expressão de proteínas e ED de todos os anticorpos. Na etapa inicial, primeiro determinar os níveis de expressão de proteína
EiC
e
Ein Compra de todos os anticorpos em HPA para todos os mapeamentos. A diferença expressão
ED
de anticorpos é determinada usando
EiC Restaurant –
Ein
(Figura 1A). Por favor note que este passo inicial pode ser considerada como a “inicialização do sistema” e é realizada apenas uma vez; o calculado
EiC
‘s,
Ein
‘ s, e
ED
‘s permanecem constantes para a pontuação de todos os anticorpos.
determinar a significância da meta ED. Nós gostaríamos de saber se o
ED
do anticorpo alvo é significativo em relação ao mapeamento de interesse. O
ED
valores de todos os anticorpos para esse mapeamento são normalizados por transformação z-score para remover viés inter-experimento, onde μ
g Comprar e σ
g Quais são a média e desvio padrão de todos estes
ED
‘s, respectivamente. O
significado
do
ED
do anticorpo alvo para o mapeamento,
SG
, é definida pela distribuição z cumulativa
SG
=
P
(
Z
≤
z
g
(
ED
)) (Figura 1B).
SG
pode ser considerada como a colocação do anticorpo alvo entre todos os anticorpos com respeito ao mapeamento de interesse. O valor de um
SG
estará dentro da gama de 0 a 1.
determinar a especificidade do alvo ED. Também queremos saber se o alvo
ED
é específico para o mapeamento de interesse. O
ED
‘s do anticorpo alvo a todos os mapeamentos são normalizados pela transformação z-score para remover viés inter-experimento, onde μ
p
e σ
p Quais são a média e desvio padrão de todos estes
ED
‘s, respectivamente. O
especificidade
do
ED
do anticorpo alvo para o mapeamento,
SP
, é definida pela distribuição z cumulativa
SP
=
P
(
Z
≤
z
p
(
ED
)) (Figura 1C).
SP
pode ser considerada como a classificação do mapeamento de destino entre todos os mapeamentos com a respectiva ao anticorpo alvo. O valor de um
SP
também vai estar dentro do intervalo de 0 a 1.
Determinar a pontuação do anticorpo alvo. A pontuação de um dado anticorpo alvo em relação a um dado mapeamento de interesse é definida como (Figura 1D). O valor de um
Pontuação
vai estar dentro do intervalo de 0 a 225.
Resultados e Discussão
Temos exaustivamente calculada a pontuação para todos os anticorpos utilizados no HPA para cada um dos 27 mapeamentos e isto resultou em pontuações 457110. Em vez de resumir isso em uma enorme arquivo suplementar plana, todas as pontuações calculadas estão disponíveis em um site que permite que as consultas sejam feitas (https://bal.ym.edu.tw/hpa/) (Figura 2). O web site, HPA Scoring, oferece dois modos de consulta: uma consulta pelo nome do gene e uma consulta por tipo de câncer. Para um determinado nome de gene, HPA Scoring lista a pontuação e classificação dos anticorpos usados para cada mapeamento (Figura 2A). Para um determinado mapeamento de um tipo de câncer, HPA Scoring relata uma lista de genes, as entradas em que são classificadas segundo a pontuação anticorpo (Figura 2B). Na parte seguinte do estudo, proceder a uma verificação da existência ou não a abordagem de pontuação proposto é capaz de identificar anticorpos que satisfazem os seguintes critérios. Em primeiro lugar, que a proteína é capturado sobre-expresso no tecido de cancro alvo, e, em segundo lugar, que o grau de sobre-expressão é significativa e específica para o cancro. Na segunda parte desta verificação, nós também têm usado o cancro colorectal como a doença de modelo e aplicado um método de descoberta marcador de câncer especificamente utilizando a nossa abordagem de pontuação proposto ao conjunto de dados câncer colorretal
.
(A) O resultado da consulta pelo nome do gene. (B) O resultado da consulta pelo mapeamento de um tipo de câncer.
A capacidade da abordagem de pontuação para identificar proteínas abundantes em tecidos de câncer
Para cada mapeamento, nós selecionar o 100 melhores anticorpos de acordo com a sua
Scores
, e realizar um one-sample
t
-teste, a fim de verificar se ou não a média
EiC
destes 100 anticorpos é estatística mais elevada do que a de todos os anticorpos testados. O one-sample
t
-teste é frequentemente utilizado para medir a diferença média entre uma amostra e uma população conhecida dizer. Nós aplicamos a uma amostra
t
-test porque nós podemos determinar a média
EiC
de todos os anticorpos testados, ou seja, a média da população. As significâncias estatísticas do
EiC
média das diferenças entre os anticorpos top100 e todos os anticorpos testados para cada mapeamento estão listadas na Tabela 2. De acordo com o
p
-Valores relatados pela de uma amostragem
t
-teste, todos os 27
EiC
significam diferenças são estatisticamente significativas. Os resultados destes testes demonstram a capacidade da nossa abordagem de pontuação para identificar proteínas abundantes em tecidos de câncer.
O significado e câncer especificidade da
ED
de anticorpos topo do ranking
a fim de garantir que a abordagem de pontuação proposto é capaz de identificar proteínas que são significativamente sobre-expressos em tecidos de câncer, realizamos uma one-sample
t
-teste para verificar se ou não a média
ED
dos 100 melhores anticorpos é estatisticamente maior do que a de todos os anticorpos testados. As significâncias estatísticas do
ED
média das diferenças entre as 100 melhores anticorpos e todos os anticorpos testados são listados na Tabela 3. De acordo com o
p
-Valores relatado pelo uma amostra
t
-teste, todos os 27
ED
significam diferenças são estatisticamente significativas. Os resultados do teste demonstram a capacidade da nossa abordagem de pontuação para identificar proteínas que são altamente expressos no cancro de interesse. Por favor, note que as 100 principais anticorpos têm uma tendência up-regulada (positivo
ED
amostra média) para todos os 27 mapeamentos. Este contraste com os resultados para a maioria dos anticorpos testados, que mostram uma tendência regulada para baixo em tecidos de câncer (22 das 27 mapeamentos têm um negativo
ED
média da população).
os anticorpos top100 de cada mapeamento também foram usadas para verificar se ou não o método de pontuação proposto é capaz de identificar proteínas cuja sobre-expressão é específica para o cancro de interesse. Para os 100 melhores anticorpos de um mapeamento específico, sua média
ED
é determinado para cada um dos 27 mapeamentos. foram então organizados os 27
ED
médias obtidas em um mapa de calor com grande
ED
valores coloridas em azul escuro e pequeno
ED
valores coloridas em azul claro (Figura 3) . A entrada (
i
,
j
) no mapa de calor representa a média
ED
dos 100 melhores anticorpos do
j
mapeamento -ésimo calculado para o
i
mapeamento -ésimo. A coluna mais à direita, todas as listas a média
ED
valores de todos os anticorpos testados calculados para cada um dos 27 mapeamentos; ou seja, as entradas localizadas dentro desta coluna são populacionais
ED
meios. portanto, o mapa heap tem as dimensões de 27 por 28. As entradas azuis escuros localizados ao longo da diagonal revelam que a média
ED
dos anticorpos seleccionados para um mapeamento são específicos para esse mapeamento. Em contraste, a maioria das entradas no mapa heap tem média
ED Compra de anticorpos seleccionados de um mapeamento que são semelhantes à população
ED
dizer se eles são testados para outro mapeamento. Cada linha no mapa pilha confirma a observação de que, para um determinado mapeamento, a média
ED
valores dos anticorpos seleccionados para este mapeamento é maior do que a de anticorpos seleccionados para outros mapeamentos. Cada coluna no mapa de calor também concorda com uma outra observação, ou seja, para os 100 anticorpos selecionados para um mapeamento específico, sua média
ED
só é significativo para o mapeamento selecionado e é semelhante à média da população para outros mapeamentos. Os resultados desta avaliação demonstrar que o
ED
de anticorpos topo do ranking é específico para o câncer de interesse.
Neste mapa de calor, grande
ED
valores são coloridos azul escuro e pequenos
valores ED
são de cor azul claro. A entrada (
i
,
j
) no mapa de calor representa a média
ED
dos 100 melhores anticorpos do
j
mapeamento -ésimo calculado para o
i
mapeamento -ésimo. A coluna mais à direita, todas as listas a média
ED
de todos os anticorpos testados calculados para cada um dos 27 mapeamentos.
Em resumo, a abordagem de pontuação proposto mostra um grande potencial como meios de identificar proteínas abundantes e específicos do cancro em tecidos.
a aplicação da abordagem de marcador de câncer descoberta
Nesta seção, usamos um coorte de avaliação para demonstrar como a abordagem de pontuação proposto pode ser utilizado para rastrear possíveis marcadores para o câncer. A coorte é composta por 1.482-regulada proteínas de membrana de 28 pacientes que tinham sido diagnosticados com cancro colo-rectal [25]. Nós aplicamos as seguintes três regras de filtragem a fim de selecionar possíveis marcadores de câncer desta coorte. Regras semelhantes para os dois últimos listados abaixo têm sido amplamente utilizados na descoberta de biomarcadores.
Regra 1. Uma proteína com anticorpo marcar 100 em ambos o mapeamento colorectal-e-vírgula ou o mapeamento colorectal-reto é selecionado.
Regra 2. uma proteína-regulada com uma mudança dobra média 2 é selecionado.
Regra 3. uma proteína com uma mudança dobra 2 em mais de 14 pacientes up-regulada é selecionado.
as proteínas selecionadas por esses critérios foram analisados detalhadamente usando o
Biomarcador filtro fornecido pelo IPA (Ingenuity Systems, https://www.ingenuity.com). Cada proteína com potencial biomarcador ou doença aplicativo é anotado pelo IPA durante este processo.
Foram avaliados oito combinações de critérios de filtragem. Cada uma das combinações leva em consideração diferentes combinações das várias regras de filtragem. Os resultados de filtragem são apresentados na Figura 4. Estas regras que são usados para rastrear genes estão marcados um sinal de adição na Figura 4A e caso contrário, eles são marcados com um sinal de menos. Para cada combinação, o número de genes, genes filtrados com anotação biomarcador, e genes com anotação doença também está listada na Figura 4A. Especial atenção deve ser dada à combinação 1. Nesta combinação, simplesmente corresponde a todos os 1482 proteínas contra a version10.0 HPA para ver quantos genes relacionados são indexados no HPA; Especificamente, não há regras de filtragem explícitas são aplicadas para selecionar possíveis marcadores. Há 1114 genes indexados, entre os quais 244 genes têm anotação biomarcador e 914 genes têm anotação doença do IPA. O resultado da combinação 1 forma a nossa amostra populacional. As proporções dos biomarcadores anotados e genes relacionados com a doença para os genes filtradas de cada combinação são apresentados na Figura 4B. A proporção dos resultados de filtragem para a população de amostra é mostrado na Figura 4C. Ou seja, as proporções dos genes filtrados para todos os genes de 1114 indexados, os biomarcadores filtrados para os 244 marcadores anotados, e os genes relacionados com a doença filtrados para os 914 genes relacionados com a doença anotados; estes estão listados na Figura 4C. A Figura 4C é um gráfico de painel que possui dois painéis; a superior tem um eixo que cobre a gama completa de dados, enquanto o inferior tem um eixo que incide sobre os dados na gama de 0% -25%.
(A) As regras que são usados para genes de tela são marcados com um sinal de mais e caso contrário, há um sinal de menos. Para cada combinação, o número de genes, genes filtrados com anotação biomarcador, e genes com anotação doença são listados. (B) As proporções de biomarcadores anotados e genes relacionados com a doença de genes filtradas de cada combinação são mostrados. (C) A proporção dos resultados de filtragem para a nossa população de amostra é mostrado. Esta figura é um gráfico de painel que tem dois painéis; a superior tem um eixo que cobre a gama completa de dados, enquanto o inferior tem um eixo que se concentra em dados dentro da gama de 0% -25%.
, em seguida, aplicado Combinações de dois, três e 4 para avaliar o efeito da regra 1, Regra 2 e Regra 3, respectivamente. Combinação de dois, ou seja, um artigo por si só, permitido um certo grau de sucesso na descoberta de biomarcador; a proporção dos biomarcadores anotados para os genes filtrado aumentou de 21,9% para 29,8% (Figura 4B). Além disso, a combinação 2 tem a capacidade para rastrear os genes relacionados com a doença e a proporção dos genes relacionados com a doença anotados para os genes filtrado aumentou de 82,0% para 87,5% (Figura 4B). Aplicando Combinação 2 diminui o tamanho da amostra para 15,1%, mas mantém 20,5% dos biomarcadores anotados e 16,1% dos genes anotados relacionados com a doença (Figura 4C). Aplicando Combinação 3, ou seja, Regra 2 sozinho, uniformemente encolhe o tamanho da amostra, os biomarcadores anotados, e os genes relacionados com a doença anotados (4,3%, 4,1%, 4,2%, Figura 4C). A proporção dos biomarcadores anotados e genes relacionados com a doença para os genes filtrados também é mantida ao mesmo nível que os da população de amostra (20,8%
vs 21,9%;. 79,2
vs
. 82,0%, Figura 4B). O efeito da aplicação de combinação 3 é um pouco como amostragem aleatória. Combinação 4, ou seja, regra 3 sozinho, tem melhor capacidade de triagem biomarcador entre as três regras de filtragem; a proporção dos biomarcadores anotados para os genes filtrado aumentou de 21,9% para 35,3% (Figura 4B). Aplicando Combinação 4 uniformemente diminui o tamanho da amostra e os genes relacionados com a doença anotados (3,1% e 3,0%), mas mantém a 4,9% dos biomarcadores anotado (Figura 4C). Parece que a aplicação de regras 1 e 3 são as duas estratégias eficazes ao executar descoberta de biomarcadores.
Nós também avaliar o desempenho de combinações que utilizam duas regras de filtragem juntos. Combinação 5 aplica Regras 1 e 2, combinação 6 aplica Regras 1 e 3, e combinação 7 aplica regras 2 e 3. Todos os três combinações encolher dramaticamente o tamanho da amostra a uma escala que é adequado para a validação wet-lab; Combinações de aplicação 5, 6, 7 e gera 13, 8, e 14 genes filtrados, respectivamente (Figura 4A). Combinação 6 retém a maior parte dos biomarcadores. A proporção de biomarcadores anotadas a genes filtrado aumentou de 21,9% para 75% (Figura 4B). Combinações 5 e 7 produzir resultados semelhantes em termos de identificar biomarcadores anotados, enquanto Combinação 5 tem uma melhor capacidade de triagem de genes relacionados com a doença. A proporção dos genes relacionados com a doença anotados para os genes filtrada é 92,3% quando se aplica Combinação 5 mas apenas 64,3% ao aplicar Combinação 7 (Figura 4B). A avaliação dos resultados de acordo com nossa observação que a regra 1, em combinação com a Regra 3 é capaz de efetivamente selecionar potenciais biomarcadores.