PLOS ONE: Uma comparação de uma única molécula e amplificação baseada Sequencing of Cancer Transcriptomes

Abstract

A segunda onda da próxima geração de tecnologias de sequenciamento, referido como single-molécula de seqüenciamento (SMS), carrega a promessa de criação de perfis amostras diretamente, sem a utilização de etapas de reação em cadeia da polimerase usados ​​por sequenciação à base de amplificação métodos (como). Para examinar os méritos de ambas as tecnologias, examinamos mRNA resultados de sequenciamento de single-molécula e sequenciação à base de amplificação em um conjunto de linhas celulares de cancro e tecidos humanos. Observamos uma tendência cobertura característica em relação transcrições alta abundância em sequenciação à base de amplificação. Uma maior fracção de AS lê tampa genes altamente expressos, tais como aquelas associadas com processos de translação e genes de manutenção, resultando em relativamente menor cobertura de genes em baixo e de nível médio abundância. Em contraste, a cobertura de transcritos alta abundância planaltos fora de usar SMS. Por conseguinte, o SMS é capaz de sequenciar transcrições abundância lower- mais profundamente, incluindo alguns que são detectadas pelos métodos AS; No entanto, estes incluem muitos mais artefatos de mapeamento. Uma melhor compreensão dos fatores técnicos e analíticos introdução de preconceitos específicos da plataforma em aplicações transcriptoma de sequenciamento de alto rendimento será fundamental em estudos de meta-analítica de plataforma cruzada

Citation:. Sam LT, Lipson D, Raz T, Cao X, Thompson J, Milos PM, et al. (2011) Uma comparação de uma única molécula e amplificação baseada Sequencing of Cancer transcriptomes. PLoS ONE 6 (3): e17305. doi: 10.1371 /journal.pone.0017305

editor: Thomas Preiss, Chang Instituto Victor Cardiac Research (VCCRI), Austrália |

Recebido: 18 Outubro, 2010; Aceito: 28 de janeiro de 2011; Publicação: 01 de março de 2011

Direitos de autor: © 2011 Sam et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. AMC é suportado pelo Prêmio Cientista Clínica Fundação de Caridade Doris Duke, um Burroughs Bem-vindo Foundation Award na Clínica Translational Research, ea Fundação do cancro da próstata. AMC é uma Cancer Society Research Professor americano. CAM atualmente deriva apoio da Associação Americana de Pesquisa do Câncer Amgen Fellowship em clínica /translacional Research, a Fundação Canárias e da American Cancer Society Detecção Precoce pós-doutorado, e uma Investigator Award Foundation Prostate Cancer Young. LTS é suportado pela Universidade de Michigan Programa de Formação de Bioinformática. DL, TR, JT e PMM são funcionários da Helicos BioSciences Corporation. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. DL, TR, JT e PMM são funcionários da Helicos BioSciences Corporation. Isto não altera a adesão dos autores para todos os PLoS ONE políticas em dados e materiais de compartilhamento.

Introdução

amostras de sequenciamento em resolução única molécula é visto como o próximo passo na evolução do Próximo Generation Sequencing (NGS). Essas tecnologias já produziram quantidades sem precedentes de dados com resolução de nível de nucleotídeos, e estão transformando a nossa capacidade de observar os sistemas biológicos. tecnologia NGS tem tido um impacto especial no estudo da transcriptomes através de sequenciamento de mRNA ou RNA-Seq. Oferecendo uma ampla faixa dinâmica e visão verdadeiramente global, esta aplicação NGS é rapidamente suplantando abordagens existentes para o monitoramento transcriptomes complexos onde ambos os comprimentos de transcrição e concentrações são altamente heterogêneo. A natureza multifacetada da RNA-Seq permitiu uma análise aprofundada da transcrição abundância [1], [2], [3], splicing alternativo [4], [5], [6], [7], novela transcrição detecção [8], descoberta de biomarcadores [9], [10], [11], a detecção de patógenos e caracterização [12], [13], [14], e da descoberta gene de fusão [15], [16], [17] .

A primeira onda de plataformas de sequenciamento “próxima geração”, tais como os da Applied Biosystems, Illumina, Ion Torrent, e Roche /454, utilizam PCR baseada passos de amplificação na preparação de amostras e sequenciamento e são, portanto, classificados como amplificação sequenciamento base (AS) métodos. Um segundo conjunto de plataformas, descrita como “única molécula sequenciamento ‘(SMS) [18] por Helicos e Pacific Biosciences, eliminar os passos de amplificação envolvidas no processo de preparação de amostras e sequenciamento e assim professam para fornecer uma visão mais precisa do transcriptoma.

AS técnicas normalmente envolvem dois passos de amplificação; a primeira amplificação ocorre durante a criação da biblioteca de ADNc de cadeia dupla a partir do ARNm fragmentado. Os ADNc foram ligados a um par de moléculas adaptadoras, e amplificado por PCR. Um segundo passo de amplificação é levada a cabo com as cadeias de ADNc individuais do adaptador ligado hibridaram com iniciadores ligados a um substrato de vidro ou de silício para produzir aglomerados locais de moléculas idênticas utilizando amplificação isotérmica ou emulsão de PCR. Tomados em conjunto, estes dois passos têm o potencial para introduzir selectivamente sobre-representados em segmentos e os genes como dados. Tem sido observado que existe esse viés [19], [20], [21], [22], no entanto, o seu efeito sobre a cobertura de transcrição e quantificação não tenha sido completamente explorada em amostras complexas com transcritos em concentração variável. O protocolo SMS Helicos envolve a criação de moldes de cadeia simples de cDNA diretamente do mRNA e hibridização desses modelos poli-adenilada para oligômeros complementares ligadas a uma lâmina de vidro para o seqüenciamento (Figura S1).

Resultados

Avaliação da SMS RNA-Seq através de perfis transcrição

Para avaliar sistematicamente as diferenças entre as duas tecnologias de sequenciamento, foram analisados ​​os resultados de RNA-Seq de sequenciamento baseado em amplificação (aS) e uma única molécula de seqüenciamento (SMS) através um conjunto de doze linhas celulares de cancro e amostras de tecido. Em particular, a nossa abordagem tentou descobrir tendências recorrentes que podem ser introduzidos pelos passos de amplificação implícitos na AS. O nosso conjunto de dados inicial utilizado para avaliar o desempenho quantificação é composta de amostras a partir das linhas celulares de cancro da próstata DU145, RWPE, VCaP, e LNCaP, e tecido de tumor do cancro da próstata um com uma amostra normal adjacente correspondente. Fora do nosso set, três amostras de cada um dos VCaP e LNCaP foram estruturados como um estudo de curso de tempo com 0 h, 24 h, e 48 pontos h tempo.

Em nossa análise das duas tecnologias, optamos por utilizar a ferramenta de alinhamento preferencial para cada tecnologia em uma abordagem de “melhor vs. melhor”. AS leituras foram alinhadas com o alinhador Bowtie [23] enquanto lê SMS foram alinhadas com IndexDP [24] (Figura S2). Lê alinhando a contaminantes biológicos conhecidos, tais como o ADN mitocondrial, RNA ribossomal, e de tecnologia específica contaminantes, tais como sequências adaptadoras e oligómeros de comprimento, foram filtrados para fora do conjunto de dados antes da análise.

Para avaliar a variação entre SMS e como as tecnologias, adotamos um procedimento de contagem de leitura simples, semelhante a outras metodologias de quantificação de RNA-Seq [1], [2]. Lê a partir de pistas simples de AS e tecnologias SMS executados em paralelo, foram alinhados com 56.722 Universidade da Califórnia transcrições Santa Cruz (UCSC) (versão hg18). Em seguida, enumerou-leituras por transcrição e normalizado com base no número de alta qualidade, não-contaminante leituras por amostra para obter valores em lê por milhão (RPM). Para evitar a incerteza associada com multi-mapeamentos para isoformas de genes, apenas melhor single-métodos de mapeamento foram usadas para quantificar os genes para comparação. melhores mapeamentos individuais foram obtidos a partir AS lê definindo Bowtie para relatar apenas o alinhamento da mais alta qualidade única por leitura. melhores alinhamentos individuais foram derivados de SMS lê aceitando alinhamentos com a pontuação mais alta qualidade. Os valores de todas as isoformas de transcrito do gene, tal como definido por UCSC, foram somadas para dar origem a valores em termos de alinhamentos por milhão lê para cada um dos genes de 29.416. Os valores de cobertura em leituras por quilobases por milhão (RPKM) foram calculados pela soma valores RPKM das isoformas de cada gene. Através de uma cabeça a cabeça comparação entre AS e SMS lê de amostras idênticas correr em paralelo nas duas plataformas, observou-se uma sistemática sobre-representação dos altos transcrições expressam na AS, em comparação com SMS. Esse viés resultou em cobertura reduzida de genes de expressão de baixo nível médio e levando a geral menor sensibilidade de detecção de transcrição no AS. Reprocessamento de um subconjunto de amostras como o uso de IndexDP e repetindo a análise descartada diferenças técnicas na atribuição lido como a causa desse viés representação. À medida que as tecnologias de sequenciamento e químicas continuam a avançar, esperamos AS plataformas irá superar a limitação de detecção de transcrição expresso baixo pelo aumento da produção.

propriedades globais de AS e resultados SMS

sequenciamento do transcriptoma foi realizada em paralelo em plataformas aS e SMS para 12 amostras, incluindo linhas celulares de cancro da próstata e 10 tecidos de câncer 2 de próstata. No geral, nós geramos 2,8-19.700.000 matéria-AS e SMS lê em cada uma das 12 amostras. Aproximadamente 30-60% destes lê passado etapas de filtragem iniciais e alinhadas com a nossa referência transcriptoma. SMS lê foram produzidos em duas corridas máquina separada, enquanto AS leituras foram produzidos por 6 corridas de máquinas independentes. Este procedimento resultou em 2.1-15 milhões e 2,8-8.000.000 lê para SMS e AS, respectivamente, o que alinhados com a nossa referência transcriptoma. Em 10 das 12 amostras utilizadas na avaliação, SMS produziu mais alinháveis ​​lê em termos absolutos, com uma mediana de 1.39x em todas as 12 amostras. resultados SMS continha mais lê alinhando a contaminantes conhecidos, variando de 12% a 51% do total lê, com mediana de 22%. A fracção de leituras alinhando a contaminantes no COMO variou de 2,6% a 14% com uma média de 4,2%. SMS ler comprimento era variável e uma etapa de filtragem restrita utilizável lê para um intervalo de comprimentos entre 24 pb e 57 pb na primeira corrida, e 25 pb e 64 pb na nossa segunda corrida, produzindo uma leitura comprimento médio contar ponderada de aproximadamente 33 pb em cada uma das doze amostras (Tabela S1). A mediana de 97% de todos os SMS lê tinha comprimentos entre 25 pb e 47 pb em todas as 12 amostras (Figura S3). AS lê foram gerados em um comprimento mínimo de 36 pb em cada amostra, embora os primeiros e últimos bases foram ignorados para a produção de alta qualidade lê pelo menos 34 pb de comprimento. Tudo AS leituras foram considerados como tendo um máximo de 36 comprimento pb. Reprodutibilidade entre repetições técnicos da linha de células DU145 foi alto para ambos os métodos de SMS como e, com uma correlação de Pearson de

r

= 0,98 para ambas as tecnologias (Figura S4). Lê tanto como e SMS também foram alinhadas permitindo 25 mapeamentos máximos para avaliar a distribuição entre uniquely- e multiplicando mapeados lê ao nível do gene, embora apenas single-melhores mapeamentos foram utilizados para fins de quantificação e comparação. Ambas as tecnologias alcançaram taxas de mapeamento exclusivos muito semelhantes de 72% e 75% em AS e SMS, respectivamente. A partir destes dados alinhados matérias, examinamos a distribuição relativa de leituras através genes observados em nossas amostras, comparando as suas contagens de leitura normalizados. Como esperado, observou-se um amplo acordo em termos de valores de expressão gênica entre as tecnologias (Figura S5). No entanto, observou-se um padrão recorrente de sobre-representação das transcrições de alta abundância pela metodologia AS, em comparação com SMS.

viés Cobertura em amplificação de sequenciamento

Comparação de transcriptoma lê da mesma amostras quantificadas em paralelo a partir do AS e SMS plataformas revela uma orientação distinta em como os resultados para uma ligeira sobre-representação de genes altamente expressos em relação ao SMS, conforme mostrado na Figura 1A. Essa diferença foi avaliada qualitativamente através da divisão dos genes em quartis de igual número, ordenados por valores observados no AS, com o primeiro quartil representando os genes mais alto que expressam, o segundo quartil representando genes de expressão de nível médio, e o terceiro e quarto quartil definir o genes com os mais baixos níveis de transcrições (Figura 1B). transcrições altamente expressos tendiam a ter mais cobertura de leitura no AS, enquanto SMS tendem a cobrir as transcrições expressas inferior de forma mais eficaz (Tabela S3). Esta cobertura adicional de transcrições de alta concentração consistentemente parecia ser à custa de transcritos expressos mais baixos, o que tende a ser mais completamente sequenciado utilizando SMS (Tabela S4).

(A) Single-melhor dologia mapeamento plot quantil-quantil base demonstra indícios de sobre-representação das transcrições altamente expressos na sequenciação à base de amplificação comparação com os métodos de molécula única. (B) Distribuição de lê através genes pelo mostra a concentração de transcrição diminuiu cobertura de SMS dos genes mais altamente expressos, com as leituras vai médio e expressores de baixo nível. (C) As diferenças na distribuição de leituras de chumbo a um aumento da sensibilidade de transcritos de baixa expressão. (D) Nove dos genes candidatos vistos acima do nível de ruído 0,3 RPKM demonstrou qualquer amplificação por RT-PCR, embora apenas

HIST1H4C

apresentaram alta abundância.

A fim de garantir que estes preconceitos não eram o resultado de usar um alinhador diferente para cada tecnologia, aS lê foram re-alinhadas usando o alinhador IndexDP usado para SMS lê para um subconjunto das amostras, composto pelo VCaP-24 h, VCaP-48 h, LnCaP -24 h, LNCaP-48 h, e as amostras DU145_1 (Figura S6). Muito alta correlação dos valores de nível gene comparando bowtie e IndexDP alinhamentos para o conjunto de AS lê descartada diferenças entre ferramentas de alinhamento como a origem dos desvios observados. Por exemplo, a correlação de valores de nível do gene no h amostra LnCaP-24 foi alta entre os métodos de alinhamento em

r

= 0,97. Da mesma forma altos níveis de correlação acima de

r = 0,95

foram observadas nas amostras restantes. Padrões semelhantes de alta expressor sobre-representação AS foram observadas utilizando IndexDP alinhamentos de AS lê no lugar de alinhamentos padrão usando gravata borboleta, como mostrado na Figura S7. Com diferenças metodológicas essencialmente descartada, buscou-se observar os efeitos deste viés de cobertura de alta concentração, examinando a detecção de transcritos em níveis baixos.

Aumento SMS sensibilidade resulta de uma elevada cobertura de transcritos baixa abundância

para avaliar os efeitos do aumento da cobertura em meados de baixo teor transcrições nível em SMS, foi calculado o número de genes observadas acima de um limite de ruído em apenas uma das duas tecnologias. Usando o 0,3 RPKM nível de ruído de corte com base em Ramskold, et ai. [25], o número de genes detectados em apenas uma única tecnologia variou entre um máximo de 4,851 e um valor mínimo de 2.048 e um máximo de 1276 e um valor mínimo de 145 no SMS e AS (Figura 1C), respectivamente, em todo o conjunto de amostras. Foi observada diferença log vezes entre os números de genes detectados em apenas um dos vs. SMS AS tecnologia como variamos o valor de corte entre 0,1 e 3,0 RPKM RPKM (Figura S8) em incrementos de 0,1 RPKM. Estes limites foram escolhidos para analisar a sensibilidade dos dois métodos através de uma gama de valores a partir de um nível de ruído próximo de zero para uma ordem de grandeza maior do que o previamente relatado. Estratificação dos genes observados em uma única tecnologia em classes de comprimento de 0-300 pb, 300-3000 pb e 3000 pb + demonstrado que este não era devido a diferenças na preparação de amostras específicos de tecnologia, como o protocolo AS especifica um -300 etapa de seleção tamanho bp que o procedimento SMS não exige. Esta classe mostra relativamente baixa representação através de limiares de ruído em ambas AS e SMS. Então, fez esta avaliação um passo além e analisou os resultados de SMS e como técnicas de tentar encontrar genes detectáveis ​​apenas em uma tecnologia.

genes Uniquely detectados em SMS

Para fundamentar potencial vieses de representação nas duas plataformas e a sensibilidade adicional sugerido de SMS, o próximo consultado para genes que foram detectados acima de um limite de ruído por SMS, mas estavam abaixo desse limiar em aS. Nós escolhemos para analisar a amostra DU145 como foi o exemplo mais completamente sequenciado com duas repetições executado utilizando cada tecnologia. Usando um limiar de 0,3 RPKM, optamos por testar a expressão de 23 genes em nossas amostras DU145 usando RT-PCR, dez dos quais demonstrou amplificação detectável. Além disso, sequenciado a linha de células DU145 muito mais cuidadosamente, a fim de garantir que as nossas detecções não se deveram a fatores técnicos em uma única corrida máquina. Como mostrado na Figura S9, este conjunto de genes teve melhor cobertura sequenciamento em SMS, em comparação com AS através do total de 94.427.789 lê gerado em nosso segundo conjunto de pistas. Esta lista foi gerada pelo exame da distribuição de leituras e mapas de cobertura das 50 principais genes cuja cobertura RPKM mostrou a maior diferença entre as técnicas de SMS como e e tinha nomes oficiais HUGO [26]. Os candidatos foram escolhidos para a presença de longo ( 36 pb) e mapeamento lê bem distribuída alinhamentos de leitura ao longo do comprimento dos transcritos. Dos genes validados detectados apenas por SMS, Só

HISTH1H4C

foi encontrado para estar presente na amostra DU145 com alta confiança, como mostrado na Figura 1D. Nove outros genes candidatos

AK5

,

ACVRL1

,

AMHR2

,

CERKL

,

MAFA

,

MAGI2

,

PIP5K1B

,

FAM49A

, e

TPRXL

mostrou amplificação fraca. Neste conjunto de genes, amplificação só foi visto além ciclo de 30 tornando difícil confirmar a sua presença. A seguir, procurou examinar os genes mais representado que podem contribuir para a redução da sensibilidade utilizando técnicas de sequenciação à base de amplificação.

consistente sobre-representação de genes de alta expressão na sequenciação à base de amplificação

no geral, 393 genes foram encontrados para ser consistentemente dentro do conjunto de topo de 500 genes sobre-representados de acordo com a contagem de mapeamento de leitura normalizado em pelo menos 40% de nossas amostras (Tabela S2). Destes 393 genes, dez genes foram encontrados para ser sobre-representados pela contagem de mapeamento de leitura normalizada em todos os 12 das amostras consideradas no estudo. Os mapas de cobertura da

RPLP0

e

RPL31

, sobre-representados em todas as 12 amostras, e

SPINT2

, sobre-representados nas 11 amostras, demonstram esse viés de cobertura nestes três elevados que expressam transcritos (Figura 2A, B, C). Em seguida, examinaram a composição e distribuição de leituras em alguns destes altamente sobre-representados transcrições.

Os mapas de cobertura de amplificação baseada e única molécula de seqüenciamento demonstraram significativamente maior cobertura de (A)

RPLP0

, (B)

RPL31

, e (C)

SPINT2

. A remoção de leituras com as mesmas posições de partida, suprimindo estritamente a amplificação de fragmentos de ARNm específicos, reduz significativamente o “spikiness” visto nestes casos. (D) Duplicate lê, definida como lê superior a um por locus início e ler comprimento, são relativamente bem distribuída ao longo do comprimento de todas as transcrições observadas em todas as amostras no nosso conjunto de avaliação.

Impacto da duplicado lê-base amplificação sequenciamento

O gene

RPLP0

tinha muito maior cobertura total de mapeamento no AS em todas as doze amostras (Figura S10). Para mitigar agressivamente o efeito de amplificação na cobertura deste gene, duplicado leituras foram removidos (permitindo apenas uma leitura por local de início única) para ambas as tecnologias como foi feito em estudos anteriores [21], [22]. Isto resultou em supressão de muitos dos picos observados na EA. Em contraste, a cobertura do SMS do gene pareceu ser relativamente consistente em todo o comprimento da

RPLP0

transcrição antes e após este procedimento. Esta diferença substancial no comportamento entre duplicado antes e após ler a remoção de, em comparação com o SMS sugere que a amplificação é um factor contributivo significativo na polarização observada. Comportamento semelhante é observado no

RPL31

e

SPINT2

genes também.

Foram considerados tanto locus de alinhamento e ler comprimento em nossa definição de duplicação ler, permitindo uma leitura em cada locus com um comprimento de leitura única. Olhando através do transcriptoma usando esta definição de duplicação ler, observou-se uma distribuição mais ou menos normal, ao longo do comprimento de todas as transcrições capturadas. A diferença de 3 vezes no número mediano de duplicado lê entre AS e SMS em todos os transcritos observados em todas as amostras foi mantida em toda a parte do comprimento transcrição (Figura 2D). Este padrão de duplicação ler é semelhante à observada na literatura entre metodologias de sequenciação de amplificação dependentes e livre de amplificação padrão [27]. A remoção do duplicado lê, permitindo que apenas uma leitura por locus, produziu resultados inconsistentes em todo o conjunto de amostras (Figura S11). Em alguns casos, o processo de redução a sobre-representação no mais alto dos genes que expressam, no entanto, a tendência apareceu a permanecer em outras amostras. O procedimento também reduziu drasticamente o número de utilizável lê por uma média de 47% em todo o conjunto de 12 amostras (Figura S12). Embora esta metodologia de remoção de leitura naïve duplicado teve algum efeito positivo na redução as discrepâncias entre AS e SMS em termos de quantificação transcrição, os efeitos drásticos que tem sobre o número de leituras utilizável em AS sugere uma abordagem diferente pode ser desejável. Com esse entendimento do impacto da duplicado lê, analisamos o conjunto de genes recorrentemente sobre-representados para ver se eles sequenciaram biologicamente categorias interessantes de genes.

análise Gene Ontology do conjunto de 393 recorrentemente sobre-expressos genes

através das amostras, genes associados com a maquinaria de replicação da célula constituída a maior parte do sobre-representados transcritos por número normalizado total de mapeamento lê na maioria das amostras. Análise do gene ontologia do conjunto de 393 genes sobre-representados de forma consistente que mostra que eles são componentes da maquinaria de tradução da célula (Figura 3), uma classe geralmente encontrado em níveis elevados em todas as doze amostras utilizadas nesta avaliação. Isto sugere mais uma vez que o procedimento de amplificação implícita na preparação como biblioteca exagera um viés particular em relação a estas transcrições já abundantes. O número total de leituras cair em cada uma das classes observadas a ser sobre-representados no AS foi uma média de 2.23x maior em relação ao SMS, embora genes sobreposição entre as classes. Com menos de um foco em máquinas de translação e de limpeza genes de alta concentração, que, em seguida, tentou aplicar SMS em encontrar fusões de genes no transcriptoma.

GO análise dos 393 maioria dos super-representados genes encontrados usando nossa análise recorrência na Função Molecular (MF) e sub-árvores processo Biológico (BP) demonstra que os processos de translação e componentes do ribossoma estão sobre-representadas em todos amostras na sequenciação à base de amplificação.

Re-descoberta do gene conhecido fusões usando uma única molécula de seqüenciamento

Foi avaliada a aplicabilidade do SMS leitura única na descoberta de fusão do gene pela tentativa de re-descobrir fusões de genes conhecidos na linha de células VCaP, conhecida por abrigar

TMPRSS2-ERG

, em um

de

processo novo. Como mostrado na Figura S13, primeiro alinhado todos os possíveis leituras contra o transcriptoma e do genoma utilizando IndexDP. O mapeamento não lê, que abrigam quimeras, foram subsequentemente alinhado contra o transcriptoma retornando os lê que tinha um alinhamento parcial de pelo menos 18 nucleótidos. A porção intermédia da leitura que não alinhar é definida como a saliência. Todas as leituras tendo os mesmos alinhamentos parciais, o que sugere um ponto de interrupção comum, foram agrupados. Todos os aglomerados foram então comparados para determinar se a saliência de uma região de ponto de interrupção tinha semelhança com a saliência de um ponto de interrupção independente reconstruindo assim a junção de fusão. Por fim, todos os restantes não mapeamento leituras foram alinhados contra as novas junções de fusão.

Para este efeito, uma amostra da linha celular VCaP foi sequenciado mais extensivamente em 2 canais, gerando 31198128 lê alinhado com o transcriptoma ou genoma . A amostra VCaP foi preparado com um canal cada um com e sem fragmentação. A fusão de referência entre o gene específico da próstata

TMPRSS2 Comprar e ETS membro da família oncogênico,

ERG

[28], foi encontrado para ser coberto por 53 lê de gerar 65 milhões lê na linha de células VCaP (Figura 4).

esquemática do rearranjo intra-cromossômica no cromossomo 21 fusão

TMPRSS2

(amarelo) para

ERG

(roxo).

Discussão

Este é o primeiro estudo que avalia o desempenho de RNA-Seq usando uma única molécula de seqüenciamento em comparação com técnicas baseadas em amplificação existentes. Embora as características da SMS lê irá variar dependendo da plataforma, espera-se que a distribuição de leituras entre várias concentrações de transcritos de permanecer relativamente consistente. A técnica de SMS foi capaz de gerar mais utilizável lê em dez dos doze amostras consideradas na quantificação e cobertura de avaliação RNA-Seq, produzindo uma média de 78% mais lê nestas 10 amostras. Mais importante, estas leituras tendem a ser menos concentrada ao mais alto transcritos abundância como mostrado na Figura 1B, em que fracção do total lê mapeamento para os mais altos transcritos abundância em SMS é 4% inferior à do AS. Uma vez que a técnica como acumula uma grande fracção de leituras de sequenciação transcritos de alta abundância, a detecção de genes menor abundância são reduzidos. As grandes diferenças entre a maior ea segunda maior quartil de transcritos expressos sugere que este efeito não é linear como transcrição abundância aumentos na amostra. A ampla gama de expressão transcrição em amostras biológicas faz esta distribuição leitura distorcida da cobertura de um fator importante ao criar o perfil mRNAs ao nível dos nucleótidos, a partir de modelos que podem assumir uma correlação linear entre a abundância de transcrição e cobertura sequenciamento.

A número de leituras em duplicado observado nas amostras em todos os transcritos foi, não surpreendentemente, três vezes mais elevada em comparação com aS SMS. A remoção da duplicata lê é um procedimento bem definido em experimentos envolvendo sequenciamento de DNA, mas é menos clara quando o sequenciamento do transcriptoma, onde concentrações variáveis ​​de transcrição levar naturalmente a lê de segmentos de mRNA idênticos. Esta ressalva se deve às transcrições altamente expressos contribuem duplicado falso positivo lê devido à amostragem aleatória de leitura começar locais ao longo da transcrição. No entanto, os transcritos altamente expressos no SMS provavelmente gerar um grande número destes falsos positivos também. Como resultado, esta fonte de falso positivo duplicado lê é improvável que seja o principal fator por trás das grandes diferenças observadas no número de duplicatas entre AS e SMS. A remoção de duplicados lê através da filtragem de todas as leituras para além de uma única leitura de um único locus parece ser uma solução incompleta que apresenta vários factores de confusão quando usando único lê. Primeiro, o processo de remoção de duplicatas é inconsistente, afectando a representação tendenciosa de leituras em apenas um subconjunto dos casos observamos. Em segundo lugar, o processo de remoção duplicado também reduziu o rendimento utilizável da sequência de cada execução experimental, a cerca de metade, embora esta seja uma sobreavaliação devido à natureza incipiente do método. Finalmente, estes métodos de remoção de duplicados impor um limite de cobertura para cada pico de transcrição que é equivalente ao comprimento de leitura. O processo naïve foi aplicado para a eliminação de duplicatas é certamente muito agressivo e este problema pode ser atenuado parcialmente usando bioinformática mais sofisticados e métodos estatísticos. No entanto, estes processos de confusão impor factores adicionais aos dados que SMS evita inteiramente devido à natureza directa da metodologia de sequenciação. Em alternativa, o uso de emparelhamento de extremidade também lê produz o mapeamento e a sequência de informação adicional que melhora o processo de identificação e remoção duplicado. As diferenças que resultam das características destas duas metodologias podem levar a disparidades na cobertura dos genes ao longo do espectro de expressão.

Pequenas diferenças na distribuição de leituras no quartil mais elevado de genes expressos ter um efeito grande sobre a cobertura dos restantes genes expressos. Por exemplo, o quartil mais baixo de todos os genes observados em ambas as tecnologias na amostra VCaP h-24 compõe 0,4% de a soma total de normalizada lê visto no quartil mais alto expressa por AS. Uma redução de 1% no número de leituras usado para sequenciar os mais altos genes que expressam no quartil diante pode ser usado para triplicar a cobertura dos mais baixos genes que expressam quando lê são aplicados dentro do conjunto. O resultado da deslocando a distribuição de leitura para reduzir genes que expressam é visto entre o VCaP-0 h e VCaP AS amostras. Ambas as amostras produziram um número relativamente semelhante de leituras, com 3.636.454 e 3.352.960 lê VCaP-0 h e VCaP, respectivamente. No entanto, o VCaP-0 h amostra tem mais do que duas vezes a fracção do total lê cair nas mais baixas quartis 2 com 2,2% e 0,9%, no respectivo VCaP-0 H e amostras VCaP. Ele vem como nenhuma surpresa que na VCaP-0 h amostra, somos capazes de observar 16,813 genes acima do limite de ruído de 0,3 RPKM enquanto em VCaP, só observar 13.866 genes acima deste limiar. Do mesmo modo, a cobertura de polarização de alta abundância reduzida através concentrações variáveis ​​permite que a abordagem de SMS 2 a 6 vezes mais cobertura na metade inferior de todos os genes expressos. O comprimento de leitura variável do SMS lê contribui para o ruído de quantificação, em comparação com AS, devido ao número de curta lê que mapear de forma ambígua. Estes mis-mapeamentos pode contribuir para o maior número de genes observadas nos níveis mais baixos de expressão. O exame da lê mapeamento de genes que se encontram apenas no SMS mostra a presença de mais do que 30% de SMS longa lê ( 36 pb de comprimento) numa mediana de 17% dos genes (aproximando a distribuição do comprimento de leitura em todas as amostras) , deixando uma vantagem de 1,7 vezes em favor da sensibilidade SMS se genes detectada com apenas curtas de 24 a 35-mero lê todas as detecções são considerados devido ao ruído. Embora uma proporção significativa deste ruído é diretamente atribuível a ambiguidades no mapeamento com precisão curta lê, a presença de tempo ( 36 pb) alinhada lê não é uma garantia da presença transcrição. Em um grande número de casos em que detectados genes há muito tempo lê alinhados a eles, falsos positivos foram atribuídas a estes longo lê mapeamento para elementos repetitivos ou regiões de baixa complexidade dentro das transcrições.

Os resultados de validação de PCR sugerem que o uso de

Deixe uma resposta