PLOS ONE: Identificação Pathogen Signatures no cancro da próstata usando RNA-seq

Abstract

Infecções da próstata por bactérias, vírus do papiloma humano, polyomaviruses, vírus da leucemia murina (MLV) relacionados com gammaretroviruses xenotr�icas, citomegalovírus humanos e outros membros da família herpesvírus têm sido amplamente pesquisados. No entanto, muitos estudos têm resultados conflitantes e controversas. Neste estudo, nós investigamos sistematicamente os transcriptomes de amostras da próstata humanos para as assinaturas genômicas únicas destes patógenos usando dados de RNA-seq de ambos os pacientes chineses e ocidentais. RNA-seq humanos e não humanos leituras foram mapeados em genomas de referência humana e patógeno respectivamente, utilizando ferramentas de alinhamento Bowtie e CLAT. infecções de agentes patogénicos e integrações foram analisados ​​na adesão às normas de estudos publicados. Entre os nove micróbios patogénicos (Propionibacterium acnes, HPV, HCMV, XMRV, BKV, JCV, SV40, EBV e HBV) analisadas, Propionibacterium genes acnes foram detectadas em todas as amostras de tumor da próstata e todas as amostras adjacentes, mas não em amostras de próstata de saudável indivíduos. SV40, HCMV, EBV e de baixo risco HPVs transcritos foram detectados numa amostra de tumor e duas amostras adjacentes de pacientes com câncer de próstata chineses, mas não em todas as amostras de pacientes com câncer de próstata ocidentais; XMRV, sequências de BKV e JCV não foram identificados em nosso trabalho; HBV, como um controlo negativo, estava ausente de todas as amostras. Além disso, nenhuma integração patógeno foi identificado em nosso estudo. Enquanto uma validação adicional é necessária, a nossa análise fornece evidências de infecções Propionibacterium acnes em tumores de próstata humanos. diferenças observadas em infecções virais através de etnia continuam a ser confirmada com outros conjuntos de dados de câncer de próstata grande. Os efeitos de infecções bacterianas e virais e suas contribuições para a patogênese do câncer de próstata, exigirá uma investigação contínua sobre patógenos associados

Citation:. Chen Y, Wei J (2015) Identificação de Pathogen Signatures no cancro da próstata usando RNA-seq. PLoS ONE 10 (6): e0128955. doi: 10.1371 /journal.pone.0128955

Editor do Academic: Andrew McDowell, University of Ulster, Reino Unido

Recebido: 24 de setembro de 2014; Aceito: 01 de maio de 2015; Publicação: 08 de junho de 2015

Direitos de autor: © 2015 Chen, Wei. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos os dados relevantes estão dentro do papel e seus arquivos de suporte de informação

Financiamento:. AstraZeneca forneceu apoio sob a forma de salários para os autores JW e YC, mas não tinha nenhum papel adicional no desenho do estudo, recolha e análise de dados, a decisão de publicar ou preparação do manuscrito. Os papéis específicos destes autores são articuladas na seção “autor contribuições”

Conflito de interesses: Um ou mais dos autores são empregados por uma empresa comercial (AstraZeneca R D Mölndal).. Isto não altera a adesão dos autores para PLOS ONE políticas em dados e materiais de compartilhamento.

Introdução

Como a segunda causa mais comum de morte por câncer entre os homens [1], o câncer de próstata (APC) continua a ser uma grande preocupação de saúde pública. Uma quantidade significativa de evidência revelou que a inflamação crónica pode estar associada com o aparecimento de CaP [2, 3]. infiltrados inflamatórios crônicos são achados comuns em amostras de tecido da próstata e infecções patógenos são considerados uma das possíveis causas do mesmo.

É sabido que Propionibacterium acnes (

P

.

acnes

) desempenham um papel importante na saúde humana e doenças [4].

P

.

acnes

na pele geralmente tem um efeito positivo na saúde humana, prevenindo a colonização de microorganismos patogênicos, mas quando o hospedeiro torna-se comprometida (trauma, lesão ou alterações no estado imunológico), ele pode exibir potencial patogênico [5, 6]. A presença de

P

.

acnes

foi fortemente correlacionada com a inflamação histológica, sugerindo que esta bactéria pode estar ligado ao desenvolvimento de câncer [7, 8]. Vários estudos têm demonstrado a alta prevalência da bactéria Gram-positivas

P

.

acnes

nos tecidos da próstata de homens diagnosticados com a doença da próstata [9, 10]. A infecção de uma linha de células epiteliais da próstata com

P

.

acnes

induz uma forte resposta inflamatória de acolhimento e de transformação, o que poderia ser um gatilho para o início ou progressão do câncer [6, 10].

Os vírus causam 10-15% de todos os cânceres humanos. A associação entre as infecções causadas por vírus de ADN e o desenvolvimento de tumores está bem estabelecida em muitos tipos de cancro. Os vírus associados com cancros humanos são conhecidos como ‘vírus tumorais’. A maior parte destes vírus são capazes de se integrarem no genoma do hospedeiro e imortalizando a célula-alvo, a fim de facilitar a sua própria replicação. A célula infectada expressa os genes virais, que são capazes de induzir o crescimento celular, proliferação e evitar a apoptose. Por exemplo, um vírus alta da hepatite B (HBV) e carga hepatite B crónica (HBC) infecção aumenta o risco de desenvolvimento de carcinoma hepatocelular. HBV é um vírus de ADN que pode integrar o DNA no genoma do hospedeiro, aumentando assim o rendimento da proteína de transactivador HBxAg. HBxAg está envolvida em muitas vias metabólicas [11]. Recentemente, alguns pesquisadores identificaram eventos de integração HBV recorrentes nos genes conhecidos e putativos relacionadas com o cancro, tais como TERT, MLL4 e CCNE1. Estes genes demonstrou a expressão do gene regulada positivamente em tumores, mas não em tecidos normais [12]. A elucidação das associações de vírus de DNA do tumor vai aumentar nosso conhecimento fundamental de mecanismos oncogenesis e fornecer uma base para iniciativas de prevenção do câncer.

Cada vez mais a pesquisa indicou que as infecções virais podem levar à inflamação crônica ou recorrente da próstata e até mesmo iniciar ou promover a carcinogênese [13-15]. produtos virais são capazes de interagir com a via de sinalização do interferão e induzir a transformação celular sinergicamente [16]. Um certo número de vírus são relatados para ser associada com infecções de cancro da próstata ou próstata, isto é, vírus de papiloma humano (HPV), poliomavírus (BK, JC, e SV40), e membros da família do vírus do herpes (HCMV, EBV) [17-21].

HPV é agora reconhecida como uma das principais causas do cancro do colo do útero [22]. HPVs de alto risco também têm sido frequentemente identificado em ambos os tecidos da próstata benignas e malignas [23]. Existem mais de 100 tipos diferentes de HPV e mais de 30 destes tipos são transmitidos sexualmente, fazendo HPV o mais comum doença sexualmente transmissível. Os diferentes tipos de HPV são divididos em duas categorias-Super aqueles que são mais propensos a desenvolver o cancro e os que são menos susceptíveis. As formas chamados “alto risco” são mais propensos a levar ao desenvolvimento de câncer, enquanto que os vírus “baixo risco” raramente se transformar em câncer.

infecção HCMV normalmente passa despercebido em pessoas saudáveis, embora pode ser fatal para o, como as pessoas infectadas pelo HIV, transplantados de órgãos, ou crianças imuno-comprometido. Após a infecção, o HCMV tem a capacidade de se manter latente dentro do corpo ao longo de grandes períodos. Eventualmente, pode causar carcinoma mucoepidermoide e, possivelmente, outras doenças malignas. Também está relatado que o HCMV pode estar associada com o cancro da próstata [19, 24]. O vírus Epstein-Barr (EBV), mais conhecida como a causa da mononucleose infecciosa, está implicado em alguns linfomas malignos e carcinomas linfoepitelioma-like [25].

polyomaviruses são pequenos (40-50 nanômetros de diâmetro) não envelopados vírus de ADN, e na forma icosaédrica. Eles são potencialmente oncogênicos (tumor-causando); e muitas vezes persistir como infecções latentes em um hospedeiro sem causar doença, mas podem causar tumores em um hospedeiro de uma espécie diferente, ou de um hospedeiro com um sistema imunitário ineficaz. Os poliomavírus que infectam os seres humanos, incluindo os vírus BK (BKV), vírus JC (JCV), e vírus de símio 40 (SV40), tipicamente causar infecções que são sub-clínicas e persistente [18].

A leucemia murina Xenotropic vírus relacionados com o vírus (XMRV) foi descoberto pela primeira vez em pacientes com PCA e mais tarde em pacientes com síndrome da fadiga crônica (SFC) [26, 27]. Alguns outros estudos forneceram evidências de infecção XMRV em CaP [28-31], embora sua associação com CFS e PCA foi amplamente desacreditada [32, 33]. Estudos recentes têm sugerido que a presença de XMRV pode ser um resultado da contaminação com ADN de rato [34, 35]. Porque alguns resultados que indicam a presença de XMRV em CaP não pode ser totalmente atribuída a provar a contaminação [36], aqui nós examinamos a possível ligação entre XMRV e PCA.

Descobrindo os efeitos genômicos de patógenos conhecidos em ACP continua a ser um desafio. Enquanto a maioria das pesquisas CaP tem incidido sobre a detecção de alvo baseada em PCR de vírus, o avanço da próxima geração de tecnologia de sequenciação faz todo interrogatório genoma possível. Nosso objetivo é analisar os dados de RNA-seq de pacientes com CaP chineses e ocidentais, a fim de identificar os patógenos e sua integração dentro dos genomas de acolhimento.

Materiais e Métodos

Três conjuntos de dados de RNA-seq

Conjunto de dados 1:. de dados single-end miRNA-seq de uma amostra CaP comprovada por biópsia em pool e uma amostra de controlo de pool de pacientes australianos sem câncer detectável

Small seqüenciamento RNA foi usado para traçar o perfil e comparar miRNAs na fracção celular não espermatozóides do líquido seminal de homens com câncer comprovada por biópsia (uma amostra composta a partir de 6 homens) e homens com PSA elevado soro, mas os resultados das biópsias negativas (uma amostra composta a partir de 6 homens) [37]. O ARN foi extraído usando o reagente Trizol (Life Technologies) e limpo usando kits RNeasy Mini (Qiagen). . Os dados single-end miRNA-seq foi transferido da EBI ENA (https://www.ebi.ac.uk/ena/data/view/SRP041082)

Conjunto de dados 2: emparelhado-end mRNA- dados seguintes da tecidos CaP de pacientes caucasianos.

transcriptomes (poli a +) de 20 tumores de próstata e 10 tecidos adjacentes combinados foram sequenciados utilizando a plataforma Illumina GAII. O ARN foi extraído de amostras utilizando o kit Ribopure (Ambion). Amostras de RNA total foram processadas para sequenciação utilizando o protocolo transcriptoma Ilumina-ARNm SEQ. O estado patológico de amostras de tumor foi confirmada antes do processamento, e as amostras de tumor tinha uma percentagem de células de tumor 80% com pontuações de Gleason de 6 a 9 [38]. Os dados mRNA-seq foi transferido da EBI ENA (https://www.ebi.ac.uk/ena/data/view/SRX022060-SRX022089)

Conjunto de dados. 3: emparelhado-end mRNA-seq dados de tecidos CaP chineses.

o cancro da próstata e tecidos normais adjacentes a partir de 14 pacientes, obtidos a partir da Changhai Hospital Xangai foram utilizados como um grupo de sequenciação de ARN (usando Ilumina HiSeq 2000 máquina de sequenciação). As amostras de tumor tinha pontuações de Gleason variando de 4 a 8 [39]. Os dados mRNA-seq foi transferido da EBI ENA (https://www.ebi.ac.uk/ena/data/view/ERP000550). Cinco amostras (4T, 5T, 6N, 11T, 12 N) não tinha emparelhado-end disponível lê, que foram analisadas usando uma estratégia single-end.

Todos os conjuntos de dados foram gerados no formato FASTQ. A recolha de amostras, seqüenciamento e informações clínicas dos 3 conjuntos de dados de RNA-seq foi listado no arquivo S1. A duração média de leitura para Conjunto de dados 1, 2, 3 é 49bp, 36bp e 90bp respectivamente.

Pathogens investigados em nosso trabalho

Fizemos uma revisão sistemática da literatura de vírus e bactérias relatado em câncer de próstata e, finalmente, selecionou sete vírus HPV, HCMV, XMRV, BKV, JCV, SV40, EBV e um bacterium- Propionibacterium acnes (

P

acnes

.) para investigar as associações de agentes patogénicos com CaP. Nós também utilizamos o vírus HBV, o que pode causar hepatite B e raramente ocorre em pacientes com PCA como um vírus de controlo negativo para avaliar nossos resultados de análises de sequenciação.

sequências de referência utilizados para o mapeamento

A referência sequências consistia em sequências humanas e de patógenos. sequências do genoma e transcriptoma humanos foram baixados do site da NCBI (NCBI construir 37). Propionibacterium acnes e todas as sequências do genoma e transcriptoma virais também foram retirados do NCBI construir 37.

detecção de patógenos e análise de locais de integração de agentes patogénicos

dados de mRNA-seq gasoduto análise para conjunto de dados 2 e Conjunto de dados 3.

Foi utilizado o NGS QC Toolkit (v2.3) [40] para eliminar o mau mRNA-seq lê. Dois critérios foram utilizados para selecionar boas leituras: cutOffQualScore = 20 e cutOffReadLen4HQ = 90, o que significa que 90% das bases de uma leitura qualificado deve ter índices de qualidade = 20. Todas as análises posteriores foram baseadas em mRNA-seq limpo lê.

Ambos Bowtie [41] e a ferramenta de BLAT alinhamento BLAST-like [42] foram utilizados em nosso pipeline de detecção de vírus. Bowtie é um alinhador ler ultra-rápida que pode rapidamente mapear dezenas de milhões de single-end ou emparelhado-end lê. Usamos Bowtie2 (versão 2.1.0) e aplicado parâmetros padrão para realizar o alinhamento.

BLAT é uma ferramenta de alinhamento como BLAST, mas estruturado de forma diferente. Ele pode eficientemente mapear curto lê através de junções exão-exão e identificar novas junções de processamento alternativo. Aqui usamos v.35 BLAT independente. Os parâmetros utilizados para alinhar lê com sequências de referência são os seguintes:. MinScore = 20, minIdentity = 88, stepSize = 5, e no modo combinado-fino e sem belas artes

Antes de mapear o lê, foi realizado um alinhamento entre as sequências humanas e de agentes patogénicos para identificar sequências de consenso, as quais foram utilizadas para filtrar falsos fusões. Como mostrado na Fig 1A, em bruto leituras foram primeiramente mapeado para sequências de referência e de agentes patogénicos humanos com Bowtie2, e, em seguida, lê não mapeado (apenas para o comprimento (li) 30) foram escolhidos para realizar o alinhamento local com BLAT. Se dois emparelhado-end leituras foram mapeados exclusivamente com uma leitura mapeado para sequências humanas ea outra leitura mapeado para sequências de patógenos específicos, a ponta emparelhado lê foram considerados um candidato à fusão homem-patógeno ler. Se uma leitura de um-end emparelhado lê foi mapeado de forma única para sequências humanas ou de agentes patogénicos, ea outra leitura final foi exclusivamente a partir de duas partes: uma parte mapeado para sequências humanas ea outra parte a sequências de agentes patogénicos, foi rotulado de humanidade crua evento de fusão patógeno. Depois de detectar todos os eventos de fusão matérias, aplicamos os nossos critérios para filtrar os falsos positivos lê e selecionar os candidatos de fusão.

(A) pipeline de detecção de patógenos (B) Fusão Lê com uma parte (P1) mapeado para sequências humanas e outro (P2) mapeado para patógenos sequências. Lê marcados em azul são mapeados para sequências humanas, lê marcados em verde são mapeados para sequências de agentes patogénicos, lê marcados em preto são não mapeado.

Para cada single-end ler com uma parte (P1) mapeado para sequências humanos e outro (P2) mapeado para patógenos sequências (ver Fig 1B), foram utilizados os seguintes critérios para a filtragem de fusão:

é necessário que P1 é estritamente mapeado para sequências humanas e P2 é estritamente mapeado para sequências de patógenos . Nem P1 nem P2 podem sobrepor-se com sequências de consenso

A relação P1 mapeada /(P1 + P2) ou P2 /(P1 + P1). = 0,8.

P1 ou P2 deve ser mapeado de forma exclusiva.

P1 ou P2 não deve ter sequências de baixa complexidade.

Depois de obter a fusão candidato lê, mapeamos-los às sequências de consenso humanas-patógeno para remover fusões falsos positivos nos casos em que a fusão lê provavelmente vieram de sequências de consenso. Finalmente, também verificado manualmente a sua fiabilidade, navegando o seu alinhamento com o BLASTN ferramenta web (https://blast.ncbi.nlm.nih.gov/Blast.cgi) para garantir que as regiões P1and P2 foram mapeados em sequências humanas e de patógenos .

gasoduto análise de dados miRNA-seq para conjunto de dados 1.

Mirna-seq é um tipo de RNA-seq, que utiliza a tecnologia de sequenciamento de última geração para sequenciar MicroRNAs. Primeiro, filtrados a matéria lê com um índice de qualidade de base inferior a 20. Em seguida, removido o adaptador 3 ‘sequenciamento usando um script BioPerl (disponível em https://www.bioperl.org/wiki/Removing_sequencing_adapters). Havia pequenos RNAs como fragmentos de mRNA degradadas, rRNAs, tRNAs, miRNAs, siRNAs na limpos lê.

Porque o nosso objectivo é detectar se existem agentes patogénicos nas amostras utilizando os dados de miRNA-seq, analisamos a limpo lê usando o pipeline de mRNA-seq para single-end lê.

medição representação patógeno.

Em nosso estudo, quantificado representação patógeno é determinada por uma medida da contagem global de mapeada lê para o genoma do patógeno e os mRNAs do patógeno expressas em amostras humanas.

Foram calculados os níveis de mRNA patógeno expressas por excluindo elementos do genoma não transcrita do patógeno. Isto elimina e reduz o potencial de nonsense e lê o número de elementos genómicos não transcrita de agentes patogénicos a partir do conjunto de dados. As contagens de nível de transcrição e de nível gene foram calculados e FPKM (fragmentos por quilobases do exão por milhão de fragmentos mapeados) foram normalizados utilizando Abotoaduras [43]. Em seguida, um corte filtragem FPKM de 1,0 [44] ou transcrição contagem = 2 foi usado para determinar o nível de transcritos expressos. Qualquer nível de expressão patógeno abaixo do ponto de corte foi rotulado como não tendo qualquer expressão de mRNA óbvio.

Resultados

Foram analisados ​​três conjuntos de dados de RNA-seq de CaP Amostras- dois da população ocidental e um do populacional chineses usando os métodos descritos na secção Materiais e métodos deste trabalho de pesquisa. Para um dos dados de seq miARN conjunto de dados, 1% de cerca de 100M cru leituras foram mapeados para o genoma humano (porque a maior parte das leituras devem ser mapeados para a biblioteca de miARN humano). Para 2, consistindo em doentes ocidentais da próstata do conjunto de dados, a contagem de alinhamento efectivo foi de cerca de 17M em média. Cerca de 86% de leituras foram mapeados para o genoma humano. Para dados de ajuste 3, que consistem em pacientes da próstata chineses, a contagem de alinhamento efectivo foi de aproximadamente 56M em média. Cerca de 85% de leituras foram mapeados para o genoma humano.

Sem vírus, mas

P

.

acnes

detectada na amostra CaP de Conjunto de dados 1

Deixe uma resposta