PLOS ONE: um método computacional para predição de Excretores Proteínas e Aplicação de Identificação do câncer gástrico marcadores na urina

Sumário

Um método computacional novo para a previsão de proteínas excretadas na urina é apresentado. O método baseia-se na identificação de uma lista de características distintivas entre proteínas encontradas na urina de pessoas saudáveis ​​e proteínas não seja considerada de excreção de urina. Estas características são utilizadas para formar um classificador para distinguir as duas classes de proteínas. Quando usado em conjunto com os dados de proteínas que são diferencialmente expressos em tecidos doentes de um tipo específico

relação

tecidos de controlo, este método pode ser utilizado para prever potenciais marcadores de urina para a doença. Aqui nós relatamos o algoritmo detalhada deste método e um aplicativo para identificação de marcadores de urina para o câncer gástrico. O desempenho do classificador treinado em 163 proteínas foi validada experimentalmente usando matrizes de anticorpos, alcançando 80% verdadeira taxa positiva. Ao aplicar o classificador de genes diferencialmente expressos em câncer gástrico

vs

tecidos gástricos normais, verificou-se que lipase endotelial (EL) foi substancialmente suprimida nas amostras de urina de 21 pacientes com câncer gástrico

contra

21 indivíduos saudáveis. No geral, nós demonstramos que a nossa previsão para proteínas de excreção de urina é altamente eficaz e pode potencialmente servir como uma ferramenta poderosa na busca de biomarcadores da doença na urina em geral

Citation:. Hong CS, Cui J, Ni Z, su Y, D Puett, Li F, et al. (2011) Um método computacional para predição do Excretores Proteínas e Aplicação de Identificação do câncer gástrico marcadores na urina. PLoS ONE 6 (2): e16875. doi: 10.1371 /journal.pone.0016875

editor: Vladimir Brusic, Instituto de Câncer Dana-Farber, Estados Unidos da América

Recebido: 22 de setembro de 2010; Aceite: 31 de dezembro de 2010; Publicação: 18 de fevereiro de 2011

Este é um artigo de acesso aberto distribuído sob os termos da declaração Creative Commons Public Domain que estipula que, uma vez colocado no domínio público, este trabalho pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita

Financiamento:. Este estudo foi apoiado em parte pela National Science Foundation (CCF-0621700, DBI0542119004, 1R01GM075331), Universidade de Jilin, a Universidade da Geórgia, a Geórgia Cancer Coalition, a Research Alliance Geórgia e os Institutos nacionais de Saúde (1R01GM075331, DK69711). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

O rápido avanço da

cas

técnicas nos últimos anos tornou possível a busca de biomarcadores para doenças humanas específicas de uma forma sistemática e abrangente, que é melhorar substancialmente a nossa capacidade de detectar doenças em estágios iniciais. A maioria dos estudos anteriores de biomarcadores têm sido focados na marcadores séricos [1], principalmente por causa da riqueza de soro conhecido na contendo sinais para várias condições fisiológicas e fisiopatológicas.

Em comparação com os marcadores séricos, marcadores urinários existentes são principalmente relacionada com a do trato urinário ou doenças estreitamente associados. Somente nos últimos anos melhorou análises proteômicas de amostras de urina revelou que, como soros, urina é também uma rica fonte de informações para a detecção de doenças humanas, como a enxertia

contra

-host doença e doença arterial coronariana [2], [3], [4]. Note-se que a urina é formado por meio de filtração de sangue através dos rins; portanto, algumas proteínas no sangue podem passar através dos filtros e ser excretado na urina. Como resultado, as proteínas urinárias não somente reflectir as condições do rim e do tracto urogenital, mas também as dos outros órgãos que podem ser distai do rim, tal como pelo menos 30% das proteínas urinárias não são originalmente a partir do tracto urogenital [5], [6]. A multiplicidade de informações na urina torna-se uma fonte de atrativo para o rastreio biomarcador uma vez que, em comparação com o soro, a composição da urina é relativamente simples, e de recolha de urina é mais fácil e não invasiva [7], [8].

Marcador identificação na urina poderia ser feito através de análises proteômicas comparativos de amostras de urina de pacientes com grupos de doenças e de controlo específicos. O desafio em tais pesquisas para marcadores urinários de forma cega é duplo. (A) A urina pode ter um grande número de proteínas /péptidos (em contraste com o anterior entendimento [8]) com relativamente baixa abundância. (B) A gama dinâmica na abundância destas proteínas pode abranger algumas ordens de grandeza, mais largos do que o intervalo tipicamente cobertos por um espectrómetro de massa [9]. Por estas razões, análises comparativas, em particular (semi) análises quantitativas, de dados de proteômica de amostras de urina pode ser muito desafiador. Isso pode ser uma das principais razões que não existem marcadores de urina confiáveis ​​para diagnóstico de câncer.

O nosso estudo centra-se no desenvolvimento de um método computacional para proteínas prever com precisão que são excretor de urina (ver Figura 1 para o contorno da abordagem ). Estas proteínas deve ter propriedades específicas que lhes permitem ser segregada a partir de células da primeira e, em seguida, a ser filtrado para fora através da membrana glomerular em rins. Um estudo proteômica recente identificou mais de 1.500 proteínas /peptídeos que são excretados na urina através de membranas saudáveis ​​glomerular [8]. Usando este conjunto de proteínas e proteínas consideradas não ser excretor de urina, nós identificamos uma lista de características distintivas entre essas duas classes de proteínas e treinou uma máquina de vetor de suporte (SVM) com base classificador de prever se uma determinada proteína pode ser excretado na urina . O método de previsão foi validado experimentalmente usando matrizes de anticorpo em conjunto com manchas de Western, e os resultados são muito encorajadores.

Este classificador tem sido aplicado para predizer as proteínas que podem ser excretados na urina com base na identificados diferencialmente genes expressos em câncer gástrico

tecidos gástricos contra

de referência; e um número de potenciais marcadores de urina para o cancro gástrico foram identificados. Um contributo essencial neste trabalho é que ele oferece uma maneira nova e eficaz para orientar estudos de proteômica de urina, sugerindo proteínas marcadoras candidato, portanto, permitindo pesquisas marcador alvo usando técnicas mediadas por anticorpos como Western blot e Elisa, que são substancialmente mais viável do que em larga escala comparativa análises proteômicas de amostras de urina sem qualquer alvo com a qual trabalhar. Embora este programa previsão tem sido aplicada aos dados câncer gástrico neste estudo, nenhuma informação específica do câncer gástrico foi utilizado neste programa; Assim, ele pode ser usado para pesquisas de marcadores de urina para outras doenças

Métodos

Este estudo consiste em três componentes principais:. (i) a construção de um classificador para a previsão de proteínas de excreção de urina; (Ii) avaliação do desempenho do classificador, aplicando-a a um conjunto de proteínas para o qual é conhecido o estado das proteínas de excreção; e (iii) aplicação do classificador validado com dados de câncer gástrico para demonstrar a sua eficácia na resolução do problema de urina de identificação do marcador de expressão genética.

Esta pesquisa foi aprovada pelo Comitê de Ética da Universidade de Georgia, Athens, Georgia, EUA (Gabinete do vice-Presidente para a Investigação DHHS Assurance ID nO. FWA00003901, do Projecto Código 2009-10705-1) e pela chinesa Institutional Review Board supervisionar seres humanos em Jilin University College of Medicine, Changchun, China. Um termo de consentimento, aprovado pelo IRB na Universidade da Geórgia e IRB chinesa, foi coletado de cada sujeito. Todos os indivíduos estão conscientes de que quaisquer dados de pesquisa pode ser usado para documentos ou publicações como indicado no formulário de consentimento.

a. Um algoritmo para prever proteínas excretores

O entendimento geral da excreção de proteína dos tecidos para a urina é que algumas proteínas são secretadas ou vazaram a partir de células em circulação no sangue e, em seguida, uma parte destas proteínas, juntamente com algumas proteínas nativas em sangue, pode ser excretado na urina. Nossos objetivos são os primeiros a identificar características distintivas para tais proteínas de excreção de urina e, em seguida, para construir um classificador com base nestas características para prever quais proteínas em células pode ser excretado na urina. Para o melhor do nosso conhecimento, não houve nenhum trabalho publicado destinada a resolver este problema. A importância em ter essa capacidade é que ele fornece uma ligação efectiva na ligação

ómicos

análises dos tecidos à pesquisa do marcador na urina, fornecendo marcadores candidatos na urina que pode ser estudado usando abordagens baseadas em anticorpos.

O primeiro passo no desenvolvimento de uma capacidade tal preditivo, ou seja, um classificador, é ter um conjunto de dados de treino que contém proteínas que podem e que pode não ser excretado na urina, com base no qual um conjunto de características distintivas poderia possivelmente ser identificados. Felizmente, encontramos um grande conjunto de dados de proteômica de amostras de urina de pessoas saudáveis ​​em um estudo recentemente publicado [8], que contém mais de 1.500 proteínas singulares, dos quais 1.313 têm IDs de adesão SwissProt. Temos usado esses 1.313 proteínas como os dados de treinamento positivos para o classificador a-ser treinado. O procedimento seguinte foi usado para gerar um conjunto de treino negativo: seleccionar arbitrariamente pelo menos uma proteína a partir de cada família Pfam que não contém quaisquer dados formação positivo, e o número de proteínas seleccionadas a partir de cada família é proporcional ao tamanho da família [ ,,,0],10], [11]. Como resultado, 2.627 proteínas foram selecionadas e utilizadas como o conjunto de treinamento negativo.

Foram examinados 18 características físico-químicas calculadas a partir de sequências de proteínas, que são potencialmente úteis para o problema de classificação com base no entendimento geral da excreção urinária de proteínas . Os detalhes das características 18 e os programas informáticos utilizados para calcular deles estão listados na Tabela S1. Algumas destas características são representadas por múltiplos valores de características, por exemplo, a composição de aminoácidos de uma sequência de proteína é representada por 20 valores de características; Em geral, os 18 recursos são representados usando 243 valores-metragens. Em seguida, identificou um subconjunto de valores características do 243, que podem distinguir entre o os dados de treinamento negativos usando um classificador baseado em SVM positivo e. O kernel RBF foi utilizada em nosso treinamento SVM, considerando a sua capacidade de lidar com atributos não-lineares [12], [13].

Para verificar quais os recursos inicialmente considerados são realmente úteis, a ferramenta de seleção de características fornecida em LIBSVM [12] foi usado para selecionar as características mais exigentes entre os 243. Outras ferramentas de seleção recurso pudesse ser usado, mas temos uma experiência considerável na utilização desta ferramenta e achei que fosse adequada. Códigos utilizados neste estão disponíveis ao público no site LIBSVM (https://www.csie.ntu.edu.tw/~cjlin/libsvm/); também fizemos o programa relevantes acessíveis a https://seulgi.myweb.uga.edu/files. Um F-score [12], definido da seguinte forma, é usado para medir o poder de distinção de cada valor de recurso para o nosso problema de classificação,

em que se refere aos valores de recursos de treinamento (k = 1, …, m) ;

n

+ e

n

– são o número de proteínas no positivo (+) e negativo (-) conjunto de dados de treinamento, respectivamente; ,, São as médias do

i

valor recurso th em todo o conjunto de dados de treinamento, o conjunto de dados positivos e o conjunto de dados negativos, respectivamente; e e são o

i

recurso th do

k

th proteína nos dados de treinamento positivos e negativos, respectivamente. Geralmente, quanto maior a F-score, mais discriminativo o recurso correspondente é. Em nossa seleção, todos os recursos com F-scores acima de um limiar pré-selecionados foram retidos e utilizados na formação do classificador final. Para encontrar um limite F-score ideal, considerada uma lista de possíveis limites e, em seguida, selecionar o melhor, com base nos resultados de treinamento

.

A formação do nosso classificador baseada em SVM é feito usando um procedimento padrão fornecido em LIBSVM [12] para encontrar valores de dois parâmetros

C Comprar e γ que dão uma classificação melhor nos dados de treinamento, onde

C

controla o trade-off entre os erros de treinamento e margens de classificação e γ determina a largura do núcleo usado [12]. Nosso procedimento de formação é resumido da seguinte forma [12]:

Obtenha o F-score para cada valor de característica;

Para cada um dos limiares pré-selecionado, faça o seguinte

Remova o os valores de recursos com o F-pontuações mais baixas do que o limiar;

aleatoriamente dividir os dados de treinamento em um sub-formação e um conjuntos sub-validação com idêntica dimensão;

treinar um SVM com um kernel do RBF na sub-conjunto de treinamento de pesquisa para valores ótimos de

C Comprar e γ, e depois aplicá-lo aos dados de sub-validação e calcular o erro de classificação;

Repita os passos (i) – (iii) cinco vezes e calcular o erro médio de validação;

Escolha o limiar que lhe dá o menor erro médio de validação, e manter as características com F-score acima do limiar selecionada; e

Retrain uma SVM com base nos recursos selecionados como o classificador final.

b. Os conjuntos de dados utilizados para avaliar o desempenho do classificador

Um conjunto de dados independente foi utilizado para avaliar o desempenho do classificador treinado para o qual o estado de excreção de cada proteína é conhecida. O subconjunto positiva deste conjunto de dados tem 460 proteínas humanas encontradas na urina de indivíduos saudáveis ​​por três estudos de proteômica urinário [14], [15], [16], eo subconjunto negativo contém 2.148 proteínas selecionadas usando o mesmo procedimento descrito anteriormente, mas faz não se sobrepõem com o conjunto negativo usado para formação

Deixe uma resposta