PLOS ONE: O exome Cancer Gerado por Alternative mRNA emenda Dilui Previsto HLA Classe I de epitopos Density

Abstract

Vários estudos têm mostrado que o câncer regular ativamente splicing alternativo. mecanismos de splicing alterados em chumbo câncer para transcritos específicos do cancro diferentes do conjunto de transcritos que ocorrem apenas no tecido saudável. Ao mesmo tempo, a apresentação alterada de classe I HLA epítopos é frequentemente observada em vários tipos de câncer. A sub-regulação de genes relacionados com o antigénio HLA de classe I de processamento tem sido observado em vários tipos de cancro, conduzindo a menos antigénios HLA classe I na superfície da célula. Aqui, usamos uma ampla análise peptidoma de formas de splicing alternativos previstos, com base em um banco de dados acessível ao público, para mostrar que os peptídeos sobre-representados nas variantes de processamento de cancro compreendem um número significativamente menor previu classe I HLA epitopos em comparação com péptidos de transcrições normais. Os péptidos sobre-representados em transcritos do cancro são, no caso dos três HLA de classe I mais comuns supertipo representantes consistentemente encontrado para conter menos epitopos previstos em comparação com o tecido normal. Observou-se uma diferença significativa na composição de aminoácidos entre as sequências de proteína associada com o tecido normal versus cancro, como transcrições encontradas no cancro são enriquecidos com aminoácidos hidrofílicos. Esta variação contribui para a observada probabilidade significativamente menor de peptídeos específicos do cancro a ser previstos epitopos em comparação com peptídeos encontrados no tecido normal

Citation: Stranzl T, Larsen MV, Lund O, Nielsen M, Brunak S (2012. ) O exome Cancer Gerado por Alternative mRNA emenda Dilui Previsto HLA Classe I de epitopos Densidade. PLoS ONE 7 (9): e38670. doi: 10.1371 /journal.pone.0038670

editor: Kjetil Tasken, da Universidade de Oslo, Noruega |

Recebido: 28 Dezembro, 2011; Aceito: 09 de maio de 2012; Publicado: 25 Setembro, 2012 |

Este é um artigo de acesso aberto, livre de todos os direitos autorais e pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita. O trabalho é feito disponível sob a dedicação de domínio público da Creative Commons CC0

Financiamento:. Este trabalho foi apoiado por uma bolsa do Conselho Dinamarquês de Pesquisa de Tecnologia e Produção Ciências (Project “Doença Gene Finding, somáticos Mutações, e Vaccine design “; principal receptor financiamento, Søren Brunak) e foi apoiado pelo National Institutes of Health (HHSN26620040006C contrato). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

variantes de processamento específico para o cancro são de interesse significativo como eles podem estar envolvidos na patogênese e pode ainda ser consideradas potenciais biomarcadores e gerar novos alvos para o câncer [1], [2]. O sistema imunitário humano é capaz de dar resposta a alguns destes antigénios específicos de cancro, como mostrado pela primeira vez por um antigénio específico de melanoma, MAGE-1, capaz de estimular células T humanas [3], [4]. Mais geralmente, os indivíduos com actividade elevada ou média citotóxica de linfócitos de sangue periférico são adicionalmente associadas a um risco significativamente menor de cancro, sugerindo um papel para os mecanismos naturais de defesa do hospedeiro imunológicos no cancro [5].

O splicing alternativo pode alterar a estrutura de ARNm por inclusão ou pular de exões, e este pode alterar a função, a estabilidade ou as propriedades de ligação de proteínas codificadas e, assim, contribuir para doenças humanas, tais como cancro [6]. Num estudo para investigar acontecimentos de processamento alternativo em tecidos do ovário e da mama afectados por tumores, verificou-se que cerca de metade de todos os eventos de splicing nestes tecidos são alterados em tumores, muitos deles devido ao salto de exon [7]. tendências semelhantes foram observados em outros tipos de cancros, por exemplo, no cancro do cólon e no tumor testicular [8], [9], bem como no cancro gástrico, onde foram encontrados genes que mostram uma expressão diferencial entre linhas celulares de cancro e os correspondentes tecidos normais [ ,,,0],10]. Para além do cancro a ser envolvida em vias dysregulating, contribuindo assim para alterações no splicing e o gene de expressão alternativo controlados por estas proteínas [11], antigénio dos leucócitos humanos (HLA) da classe I de antigénios de componentes de processamento e a expressão do HLA, também foram exibidas para serem regulados negativamente em conexão com câncer [12], [13]. Um estudo investigando alterações de HLA expressão de classe I em 12 pacientes com câncer ovariano relataram baixos níveis de HLA de classe I antígenos em células tumorais de todos os pacientes. Uma linha de células de tumor derivadas do paciente mostrou uma perda de haplótipos completa, incluindo o locus de HLA-A2 [14].

Estas observações são interpretados como mecanismos adoptadas pelos tumores para escapar à vigilância imunitária e para evitar o reconhecimento de células de tumor e destruição [15], [16]. Tem sido sugerido que a eliminação de tumores em crescimento pelo sistema imune pode conduzir a selecção de variantes de tumor que são eficientes no reconhecimento evitando sistema imunitário [17]. Há, assim, parece ser dados cumulativos para o cancro a ser acoplado ao splicing alternativo, bem como a uma eficácia na evasão do sistema imunitário por regulação negativa e alterar a expressão de HLA. A maioria dos estudos relativos splicing alternativo específico para o cancro para a vigilância do sistema imunitário são alteradas, no entanto, de tamanho limitado e, na maioria dos casos esporádicos. Aqui, nós queria investigar, em um estudo em grande escala, se já o exome alternativo de câncer na etapa de mRNA splicing contém um viés em comparação com transcrições normais no conjunto de I epítopos possível HLA de classe.

Resultados

Transcrições sobre-representados no câncer contêm menos epitopos previstos restritas pelos três HLA de classe mais comum que supertipos

o objetivo deste estudo foi investigar, através de um conjunto de dados em larga escala, se peptidomes específicos para o câncer contra o tecido normal têm diferentes propriedades relacionadas com o grau alterado de vigilância do sistema imunológico. Para fazer isso, construímos dois conjuntos de peptídeos, um sobre-representada por tecido canceroso e uma sobre-representados por tecido normal. versões globalmente permutados desses conjuntos foram produzidos como descrito em Materiais e Métodos. A permutação mundial destrói características estruturais dentro das 9-meros de ligação de HLA, apenas a manutenção das propriedades de composição globais. Para comparação, nós construímos localmente permutado conjuntos normais e cancerosas, permutando cada péptido separadamente, preservando assim a composição de aminoácidos local de cada péptido. Para investigar as propriedades relacionadas ao sistema imunológico, epitopos potenciais que cobrem toda a classe 12 HLA supertipos I foram preditos usando NetMHCpan. Para cada supertipo, foram calculadas as percentagens de epitopos previstos para os conjuntos de dados de seis peptídeos: normal, normal, globalmente e normal permutated localmente, câncer e câncer globalmente e câncer localmente permutated

É bem conhecido que alguns HLA de classe. I supertipo representantes são mais comuns do que outros. Por conseguinte, espera-se que para os alelos HLA menos frequentes, os resultados são mais propensos a incluir o ruído. A fonte do nosso conjunto de dados, a base de dados ASTD, é em grande medida originário a partir de dados de EST de HLA sem informações específicas. dados EST se baseia principalmente em caucasianos europeus [18]; portanto, podemos seguramente assumir que os tipos de HLA mais comuns na população europeia também são mais comuns em nosso conjunto de dados. As frequências de alelos de HLA foram obtidos a partir do banco de dados dbMHC [19]. número aproximado de fenótipo esperado por supertipo na população europeia são apresentados na Tabela 1.

Os três representantes supertipo mais comuns na população europeia são HLA-A * 02:01, HLA-A * 01 :01 e HLA-A * 03:01. Para esses três representantes supertipo, as transcrições associados com tecido normal tem uma porcentagem significativamente maior de epitopos previstos do que transcrições sobre-representados no câncer. A Figura 1 mostra os números observados, em percentagens de epitopos previstos por 9-mers, para os diferentes conjuntos de dados para estas três representantes supertipo mais comuns. Todos observadas diferenças entre tecidos normais e cancerosas mostrados na Figura 1 são significativos (p 0,006, teste de 2 amostras de igualdade de proporções).

Os dados são apresentados para os três alelos mais comuns HLA-I no Europeia população. Cada barra mostra a percentagem de epitopos previstos por 9-mer no respectivo conjunto. Cada conjunto é composto de peptídeos que são ou sobre-representados no tecido normal ou câncer. Globalmente permutado ou versão dos conjuntos de péptidos localmente permutado foram construídos como descrito em Materiais e Métodos. Todas as diferenças observadas entre câncer e tecidos normais são significativos (p 0,006, teste de 2 amostras para a igualdade de proporções).

Para a maioria de HLA de classe I supertipos, transcrições cancerosas contêm menos epitopos previstos

Além disso, a percentagem de epitopos previstos para sequências permutados e não-permutados para todos os representantes do supertipo 12 é mostrada na Tabela 2. Aqui, observou-se uma tendência semelhante, em comparação com a nossa observação para os três supertipos mais comuns na população europeia . Para sequências não permutado, sete dos doze representantes supertipo (HLA-A * 01:01, HLA-A * 02:01, HLA-A * 03:01, HLA-A * 24:02, HLA-A * 26:01, o HLA-B * 15:01 e 58:01 * HLA-B) tinha uma fracção significativa menor de epitopos previstos em sequências designadas para patologia do cancro. A diferença estatisticamente significativa, onde peptídeos associados ao câncer contido epítopos mais preditos foi, por outro lado, apenas observado para um representante supertipo, ou seja, HLA-B * 27:05.

Ao analisar sequências permutated , foram observados resultados semelhantes. Apenas um representante supertipo (HLA-B * 40:01, permutado localmente) tinham significativamente mais epitopos nas sequências de cancro permutados previsto que nas sequências normais permutados. Por outro lado, permutados, sequências normais tiveram consistentemente para ambos os conjuntos permutados locais e globais mais epitopos previstos para sete representantes supertipo (HLA-A * 01:01, HLA-A * 02:01, HLA-A * 03:01 , HLA-A * 24:02, HLA-A * 26:01, o HLA-B * 15:01, 58:01 * HLA-B). Por estas sete representantes supertipo, a diferença entre os conjuntos de dados normais e cancerosas, são significativos na permutado bem como os conjuntos de dados não permutados. A observação de que as transcrições do cancro contêm menos epitopos previstos para HLA de classe I mais supertipo representantes, é estável, quando diferentes limiares para a predição de epítopos potenciais são aplicados (dados não mostrados).

motivo HLA e de aminoácidos composição polarizações

A diferença relativa na densidade epitopo previsto entre o normal eo câncer é, para os nossos alelos HLA mais comum previamente definidos, relativamente estável. Além disso, a diferença na densidade de epitopo é maior quando se comparam não permutado para conjuntos de péptidos permutados globalmente. Para HLA-A * 02:01, uma diminuição notável de epitopos previstos é observado quando comparando péptidos não permutado normais e de cancro para péptidos permutados normais e cancerosas. Como pode ser visto a partir da Tabela 2 e Figura 1, a diferença em percentagem de epítopos é a maior quando se comparam as sequências não permutado para as sequências permutados globalmente (normal: 0,83 vs 0,73, câncer: 0,77 vs 0,69). Para HLA-A * 01:01, a percentagem de epitopos em não permutado contra sequências permutados parece ser relativamente estável (normal: 0,82 vs 0,80, câncer: 0,77 vs 0,76), ao passo que permutado HLA-A * 03:01 sequências têm mais epítopos do que as sequências não-permutado correspondentes previsto (normal: 0,94 vs 1,01, câncer: 0,91 vs 0,96). Para esses três representantes supertipo, a percentagem de epitopos previstos em peptídeos permutados localmente sempre cai entre as respectivas percentagens de sequências não-permutados e globalmente permutados. peptídeos localmente permutados preservar a única composição de aminoácidos local, e peptídeos permutados globalmente têm suas propriedades estruturais locais destruídos e preservar a única composição de aminoácidos global. Estas observações indicam que ambas as propriedades globais e locais de aminoácidos estrutural são factores que definem as diferenças observadas nas densidades de epitopo entre peptidoma normal e cancro.

Uma análise da composição de aminoácidos foi realizada em relação a todos sobre-representados 9-meros associados com normal e câncer. Descobrimos que resíduos hidrofílicos são mais comuns em polipeptídeos de transcrições de câncer do que dos polipeptídeos normais. As relações de relações N /C, em comparação com a escala de hidrofilicidade de aminoácidos por Hopp-Woods, a escala de hidrofobia por Wimley-White, bem como a classificação média de aminoácidos de acordo com a frequência da sua ocorrência por 38 escalas de hidrofobicidade publicados são mostrados na Figura 2. na Figura 2, os resíduos são mais comuns em cancro se N /C é menor do que 1. Os resíduos hidrofílicos são marcados preto.

rácios N /C em relação à escala de hidrofilia de Hopp-Woods (a) , escala Wimley-Branco hidrofobicidade (B) e a classificação média de aminoácidos com base em 38 escalas de hidrofobicidade (C). Relação N /C é a relação de frequências observadas dos respectivos aminoácidos de polipéptidos de sobre-representados transcritos a partir de tecidos normais e de cancro. Se o valor de N /C 1, o amino ácido é mais comum em tecidos normais; Se o valor de N /C 1, o amino ácido é mais comum no cancro. As barras verdes referem-se a aminoácidos mais hidrofóbicos, ao passo que as barras pretas referem-se a aminoácidos mais hidrófilos. Todos os índices N /C maior ou menor que 1 são significativos. (P 0,001, calculados usando o Wilson marcar [45] e Bonferroni corrigido)

O Hopp-Woods e escalas Wimley-brancos estão fortemente correlacionados com as relações N /C com um coeficiente de correlação de Spearman de -0,72 e 0,78, respectivamente. A escala de aminoácidos classificação média está correlacionada com um coeficiente de correlação de -0,65. Todos os três coeficientes de correlação são significativas (P-value 0,003, teste exato de permutação). Nenhuma correlação foi encontrada para outras propriedades de aminoácidos como massa, área superficial ou volume (dados não mostrados).

É impressionante observar que todos os aminoácidos hidrofílicos fortes (KPRQ, escala Hopp-Woods) são enriquecidos em sequências associadas com câncer. Uma observação semelhante é feita para escala Wimley-White: Foram identificados sete aminoácidos significativamente mais comuns no cancro (APERKDQ). Seis deles (todos, exceto A) estão dentro dos sete aminoácidos mais hidrofílicos com base na escala Wimley-White. A tendência inverteu-se encontrado com aminoácidos hidrofóbicos. Os principais aminoácidos relevantes classificados por ambos Hopp-Woods e Wimley-Scott como hidrofóbico (WFICM) são mais comuns em sequências associadas a transcrições de tecido normal.

Com base nestes resultados, pode-se sugerir uma explicação para a diferença de densidade entre o epitopo peptidoma normal e cancro. Os motivos de ligação para os 3 representantes supertipo mais frequentes são mostrados na Figura 3. Dos quatro aminoácidos mais preferidos nas posições HLA-A * 02:01 de ancoragem, três aminoácidos (VMI) são enriquecidas em transcritos normais, enquanto que apenas um (L) é tão comum em indivíduos normais como em cancro. Isto leva à conclusão de que, pelo menos, parte das diferenças observadas na percentagem de epitopos previstos em normal versus cancro são transcritos devido ao amino ácido composição. A mesma tendência é encontrado para HLA-A * 01:01. Os dois aminoácidos mais frequentes no motivo (YT) também são mais frequentemente encontrado no tecido normal, enquanto S é neutro e o próximo aminoácido comum, D, é mais comum em cancro. O aminoácido mais comum para HLA-A * 03:01 (K) é ligeiramente mais comuns no cancro, enquanto que o segundo lado frequente (Y) é, devido a uma forte preferência para caber péptidos de tecidos normais, a tendência para deslocar aminoácidos mais comuns em variantes de processamento associados com o tecido normal. Para todos os três motivos, foi calculado ainda preconceitos média ponderada, com base em índices de N /C e frequências de aminoácidos (ver materiais e métodos). As polarizações ponderados foram calculados tanto para os respectivos 5 aminoácidos mais frequentes por motivo, bem como todos os 20 aminoácidos. Para todos os três motivos observou-se uma preferência geral para aminoácidos encontrados no nosso conjunto de tecido normal.

Os três tipos de HLA mais comuns na população europeia. A altura de uma coluna de cartas é igual ao conteúdo de informação nessa posição, enquanto que a altura de cada carta dentro de uma coluna é proporcional à frequência do correspondente aminoácido nessa posição [44].

Discussão

o splicing alternativo de transcritos de ARNm é um mecanismo importante para a geração de complexidade genómico e tem sido demonstrado que diferem entre o cancro e os correspondentes tecidos normais [1], [8], [9]. Além disso, em alguns casos cancros regular negativamente a HLA de classe I, os componentes de processamento de antigénio e de HLA de classe I expressão para evitar a detecção pelo sistema imunológico. Estas observações levaram-nos a investigar se transcrições encontradas no compartilham características de tecido de cancro que reduziriam o reconhecimento sistema imunológico. Aqui, temos realizado uma análise em larga escala visando identificar impressões relacionadas sistema imunitário que podem diferenciar o câncer de transcrições normais. Com base no banco de dados ASTD, um banco de dados fornecendo formas de emenda previstos, foram identificados dois conjuntos de dados peptídeo; um associado com transcrições sobre-representados no câncer e um associados com transcrições sobre-representados no tecido normal. Usando state-of-the-art ferramentas immunoinformatics previsão, o próximo analisados ​​os dois conjuntos de dados para as diferenças em termos de probabilidade de ser apresentado em HLA de classe prevalente moléculas I, e, portanto, potenciais para ativar o sistema imunológico.

Descobrimos que peptídeos, que devido ao splicing alternativo são expressos em tecido de câncer, contêm menos epitopos previstos restritas pelos três HLA de classe mais comum que alelos de péptidos expressos no tecido normal. Usando conjuntos de dados permutados globalmente, de forma consistente, para o I alelos três HLA de classe mais comum, descobriu que a perda observada na densidade epitopo na peptidoma câncer é mantida também para os conjuntos de dados permutados. Isto indica fortemente que as diferenças na composição de aminoácidos entre os péptidos a partir de transcritos de splicing alternativo normais e cancerosas são a força motriz da densidade reduzida epitopo previsto.

A razão para a mudança observada na frequência de aminoácidos específicos em proteínas associadas com cancro, em comparação com o tecido normal é desconhecida, mas o fenómeno tem sido anteriormente observado em estudos destinados a identificar biomarcadores para a detecção de fase precoce do cancro: em um estudo recente, os níveis de alanina, isoleucina, leucina e valanine foram encontrados para ser aumentada no pâncreas de ratos com cancro do pâncreas, em comparação com as amostras de ratos com pancreatite crónica e ratos saudáveis ​​[20]. Em outro estudo, os níveis de N-metilalanina e lisina foram encontrados para ser significativamente aumentada no plasma de doentes com cancro pancreático, enquanto que o nível de glutamina e fenilalanina foi encontrado para ser diminuída [21]. Estes estudos identificaram diferenças na composição de aminoácidos de um único tipo de cancro com base em plasma de sangue e amostras de tecido. Nós, por outro lado, analisar peptídeos câncer sobre-representados em geral. Como seria de esperar, as conclusões relativas à concentração de aminoácidos relatados neste estudo não são concorrentes com os dos estudos do tipo de câncer individuais.

Uma possível explicação de por que observamos menos epitopos previstos em peptídeos, que devido a splicing alternativo são expressos no cancro, pode ser que o sistema imunitário do hospedeiro restringe a exome cancro. Nesse caso, a pressão do sistema imunitário desfavorece células cancerosas que apresentam novos epítopos na superfície da célula. Uma explicação alternativa – o que não exclui a explicação anterior – toma como ponto de partida a mudança observada na frequência de amino ácido, especialmente o aumento em aminoácidos hidrofílicos em proteínas cancerosas

Tem sido anteriormente mostrado que mutações em missense. o domínio BRCA da mama de alto risco e pacientes com câncer ovariano frequentemente alvo aminoácidos fortemente hidrofóbicos [22]. Além disso, tem sido sugerido que a estabilização de uma estrutura de proteínas é, em grande parte devido ao efeito hidrofóbico [23]. Por conseguinte, o aumento em aminoácidos hidrofílicos tem um efeito destabilizador na estrutura da proteína, que está em concordância com a proteína por perda de função que está correlacionada com a progressão do cancro. Isto é exemplificado por um estudo sobre Mutações herdadas do gene supressor de tumor,

BRCA-1 |, o que pode predispor a mama ou câncer de ovário [24]. Neste estudo, verificou-se que as mutações alvo predominantemente aminoácidos hidrófobos conservados que são responsáveis ​​para a dobragem e a estabilidade. Uma vez que, em particular, a HLA de classe mais comum alelo I, A * 02:01, prefere aminoácidos hidrófobos nas posições de ancoragem, um aumento em aminoácidos hidrofílicos conduzirá inevitavelmente a menos epitopos previstos. A redução na densidade de epitopo em péptidos associados com o cancro podem, portanto, ser uma propriedade intrínseca de proteínas que são desestabilizadas pela diminuição de aminoácidos hidrofóbicos, como parte da progressão para cancro. Estamos, no entanto, não tem conhecimento de estudos que mostram um aumento geral de aminoácidos hidrofóbicos toda diferentes formas de câncer.

Um viés de menos epitopos potenciais devido ao câncer foi previamente mostrado por Wiedenfeld et al [25]. Os péptidos causadas por mutações missense de p53 foram mostrados para ter um ajuste diminuiu para a HLA-A * 02:01 motivo. Todas as variantes previstas dos péptidos foram quer a partir de pacientes com outros alelos ou o alelo foi perdido durante a tumorigénese. O ajuste diminuiu para o motivo HLA devido a mutações está em coerência com nosso estudo que investigou as diferenças de densidade epitopo devido ao splicing alternativo. Para nosso conhecimento, este é o primeiro estudo que indica que as transcrições de câncer de splicing alternativo tendem a expressar menos epitopos potenciais do que transcrições de splicing alternativo encontradas no tecido normal. A diferença identificadas na composição de aminoácidos para com os aminoácidos hidrofílicos no exome cancro alternativa splicing é uma possível explicação para a tendência do potencial de HLA de classe I epitopos. A preferência por aminoácidos hidrofílicos no passo de splicing alternativo de ARNm pode suportar o desenvolvimento de cancro, proporcionando-o com a possibilidade de evadir o sistema imune do hospedeiro. Neste caso, levando a menos potencial de HLA de classe I epítopos apresentados na superfície da célula.

Materiais e Métodos

Extração de dados da base de dados ASTD

O splicing alternativo e Transcrição banco de dados de diversidade (ASTD) fornece acesso a uma coleção de eventos de splicing alternativos e transcrições de genes de humanos, ratos e ratinhos [26]. O objectivo da base de dados é para analisar os mecanismos de processamento alternativo em larga escala do genoma. Ele integra um oleoduto computacional para a detecção e caracterização dos padrões de splicing de isoformas, bem como os intrões e exões alternativos. O banco de dados contém transcrições previsto, gerado pelo mapeamento de etiquetas de seqüências expressas (ESTs) de genoma sequências. Nosso estudo é baseado na versão ASTD v1.1 compilação 9 (acessível em ftp://ftp.ebi.ac.uk/pub/databases/astd/). A base de dados abrange 14,194 genes humanos e enumera 50,581 transcrições originais, não abrangidas por genes ENSEMBL. Com base em evidências relacionadas a partir de bibliotecas de ADNc, muitas dessas transcrições são etiquetados com informação patologia. A informação patologia é dado como ontologias Evoc, que é controlada para um vocabulário de dados de expressão de genes unificadores [27]. Como uma alternativa para o banco de dados ASTD, teríamos gostado de usar dados de sequência de RNA, mas não conseguiu identificar qualquer banco de dados utilizável, fornecendo a cobertura de todo o genoma de potenciais transcrições, juntamente com informações patologia.

Dois conjuntos de dados foram gerados com base em informações patologia anotada. Todos os transcritos marcados com a informação de ser expresso em tecidos normais foram designados para o subconjunto N. Este subconjunto consistiu de 30,739 transcrições derivadas a partir de genes de 11.980. Um segundo subconjunto, C, com transcrições relacionadas com o cancro, consistiu de 27,967 transcrições derivadas de 10.730 genes

O subconjunto câncer consiste de todas as transcrições marcados com termos Evoc relacionados ao câncer.; que está a ser um subgrupo de tumor na hierarquia ontologia Evoc (Tabela 3). Vários termos Evoc pode ser associado ao mesmo transcrito.

Para nossa análise, estávamos interessados ​​em transcritos associados exclusivamente ao tecido normal ou a um ou mais dos termos de câncer Evoc. Dois novos subconjuntos consistem em transcrições única associados a condições normais ou cancerosas Evoc foram criados. Fora de 30,739 transcritos associados ao normal, 16.566 foram associados exclusivamente com o tecido normal, devido ao banco de dados ASTD, e não com câncer (único conjunto N). O subconjunto de transcritos associados exclusivamente com câncer (conjunto C único) consiste de 13.794 transcrições (ver Tabela 4). Transcrições abrangidos por cada conjunto de dados são únicos para qualquer tecido normal ou cancro, tal como definido pela base de dados ASTD. O banco de dados ASTD não fornece informações de patologia para todas as transcrições nem listas de todos os tipos de tecidos potenciais ou patologias. Assim, nós nos referimos a nossos conjuntos de transcritos associados exclusivamente para normal ou câncer como sobre-representados em qualquer tecido normal ou câncer.

Tradução de proteínas

Todas as transcrições atribuído a qualquer patologia normal ou cancro foram convertidas com a respectiva sequência de proteína usando Ribossoma virtual [28]. A ORF mais longa entre todas as três grelhas de leitura foi escolhida como a sequência de proteína traduzida. A sequência de proteína e transcrição correspondente foram descartados se nenhuma ORF foi encontrado ou se a sequência de proteína resultante foi menor do que 9 aminoácidos. O limiar de 9 aminoácidos foi escolhido como podemos aplicar posteriormente a previsão epitopo em péptidos 9-mero, embora estejamos conscientes de que as proteínas desta pequenos pode não ser funcional. Aplicando este filtro resultou em um conjunto normal de 16,490 transcrições e um conjunto de câncer de 13,721 transcrições.

Geração de originais 9-meros

Todas as proteínas atribuídos a ambos estados normais ou cancerosas patologia foram divididos em sobrepostas sequências de péptidos 9-mero. sequências de péptidos que foram encontrados em ambos os grupos foram removidos, levando à criação de dois conjuntos de péptidos 9 mer únicas. Existem 1,856,231 exclusivos, 9-meros no grupo normal (N-peptidoma) e 1,684,028 exclusivos, 9-meros do grupo de cancro (C-peptidoma). Note que conjuntos normais e cancerosas não consistem em proteínas completas; eles só consistem em péptidos 9-mero únicas não encontradas em outro conjunto. conjuntos permutados tanto do N único e conjunto C única foram criados. Para cada conjunto, um local permutado e um globalmente permutated conjunto de péptidos 9-mero foi gerado. Os conjuntos permutado locais foram construídos permutando cada 9-mer, mantendo, assim, a composição de aminoácidos dentro de cada 9-mer fixo. Os conjuntos globais permutados foram feitas pela construção de novas aleatoriamente 9-meros de todos os aminoácidos dentro de cada conjunto. Isso preserva a composição de aminoácidos global dentro dos conjuntos exclusivos N e C, as propriedades locais de cada 9-mer são, no entanto, destruído.

previsão do potencial de HLA de classe I epítopos

O método de previsão NetMHCpan-2.4 [29], [30] foi usado para prever epitopos potenciais para a classe I 12 HLA supertipos [31]. O método NetMHCpan-2.4 foi treinado em um conjunto de dados validado experimentalmente de mais de 100.000 peptídeo quantitativa – interações HLA de classe I que cobrem mais de 100 moléculas de HLA e foi avaliado como o melhor método específico do pan para o péptido de HLA obrigatório em um grande estudo de benchmark [32]. Um limite aceite em geral para a ligação é uma pontuação de classificação de 1% [33], [34] (força de ligação cai dentro da parte superior 1% em relação a um grande conjunto de péptidos aleatórios naturais), que também é o limiar, utilizado ao longo deste estudo .

As percentagens de epítopos potenciais por 9-mer para todos os 6 jogos (normal 9-meros, Normal permutados globalmente 9-meros, Normal permutados localmente 9-meros, câncer 9-meros, cancro permutated globalmente 9- mers e câncer localmente permutated 9-meros) foram calculados. P-valores para diferença na percentagem de epitopos previstos entre 9-meros normal e câncer de não-permutado e subconjuntos permutados foram calculados por um teste de 2 amostras para a igualdade de proporções e ajustados para testes múltiplos (correção de Bonferroni).

escalas aminoácido

a abundância de aminoácidos de tecido normal em comparação com tecido de câncer foi determinado com base em todos os únicos 9-meros nos dois conjuntos de dados. As frequências relativas para todos os aminoácidos de ambos os conjuntos normais e cancerosas foram calculados. proporção observada de frequências (N /C) de aminoácidos entre tecidos normais e cancerosas foi correlacionada com Hopp-Woods hidrofilicidade [35] e escala de hidrofobicidade Wimley-White [36] valores. A relação foi ainda mais correlacionada com a escala de classificação média per aminoácidos como publicado pela Simpso]. De acordo com Simpson [37], a escala é baseada na classificação média de aminoácidos de acordo com a frequência da sua ocorrência em cada posto de seqüência para 38 escalas de hidrofobicidade publicados [38]. Outras escalas investigados são volume médio de resíduos enterrados [39], [40], van der Waals de volume [41] e área de superfície total acessível [42].

Bootstrapping foi aplicado para testar se uma escala de propriedade de aminoácidos está correlacionada com a expressão enriquecida de resíduos em ambos 9-meros normais ou de cancro exclusivos. Para cada escala, o coeficiente de correlação de Spearman foi calculado e a importância da correlação foi estimada utilizando o teste de permutação exata.

viés HLA motivo

motivos de ligação a HLA foram gerados a partir de dados NetMHCpan-2.4 formação . Posição do peso-matrizes específicas foram calculadas usando ponderação sequência e ajuste da contagem de baixas [43]. logotipos sequência foram visualizados como descrito por Schneider e Stephens [44], em que cada letra representa sua frequência proporcional do correspondente aminoácido nessa posição. Com base em frequências de aminoácidos e proporção observada de frequências (N /C) de aminoácidos entre tecidos normais e cancerosas, calculou-se para a HLA-A * A02:01, HLA-A * A01:01 e HLA-A * A03: 01 motifs respectiva viés global no sentido quer o nosso peptídeo normal ou câncer definido definido. Isto foi feito para todos os 20 aminoácidos e para os 5 aminoácidos ocorrências mais frequentes por motivo. Por posição, a tendência para se encaixar de um modo preferido, quer para o normal ou cancro do peptidoma foi calculada pela soma das respectivas frequências de aminoácidos multiplicado com os valores relacionados N /C para todos os 20 aminoácidos.

Deixe uma resposta