PLOS ONE: RNA-Seq revela spliceosome e proteassoma Genes como a maioria das transcrições consistentes em Cancer Cells

Humana

Abstract

quantificação exacta da expressão gênica por qRT-PCR depende de normalização contra um expresso de forma consistente gene controle. No entanto, os genes de controle de uso comum, muitas vezes variam muito entre as amostras, especialmente em câncer. O advento da tecnologia de sequenciamento de próxima geração oferece a possibilidade de genes de controle selecionar melhor com o mínimo de célula para célula variabilidade nos níveis de transcrição de estado estacionário. Aqui analisamos os transcriptomes de 55 amostras de leucemia para identificar os genes mais consistentes. Esta lista é enriquecido por componentes do proteassoma (ex.

PSMA1

) e spliceosome (ex.

SF3B2

), e também inclui o fator de iniciação da tradução

EIF4H

e muitos genes de ribonucleoproteínas nucleares heterogêneos (ex.

HNRNPL

). Nós validaram a consistência dos nossos novos genes de controle em 1933 cancerosas e tecidos normais utilizando dados de RNA-seq publicamente disponíveis e sua utilidade na análise de qRT-PCR é claramente demonstrado

Citation:. MacRae T, Sargeant T, Lemieux S, Hébert J, Deneault e, Sauvageau G (2013) RNA-Seq revela spliceosome e proteassoma Genes Transcrições como mais consistente em células cancerosas humanas. PLoS ONE 8 (9): e72884. doi: 10.1371 /journal.pone.0072884

editor: Robert W. Sobol, da Universidade de Pittsburgh, Estados Unidos da América

Recebido: 03 de abril de 2013; Aceito: 22 de julho de 2013; Publicação: 17 de setembro de 2013

Direitos de autor: © 2013 MacRae et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada por doações do Genome Québec (https://www.genomequebec.com/en) e Genome Canada (https://www.genomecanada.ca) para GS, JH, SL e Brian Wilhelm. A obra de TS foi possível graças Governo do Estado de Infra-estrutura de Apoio Operacional vitoriana e Australian Government NHMRC IRIISS. A pesquisa de TS foi apoiada por um programa de NHMRC Grant (1.016.647). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. Este trabalho foi financiado pela Genome Québec e Genome Canada. Os financiadores não têm interesse financeiro nesta pesquisa. Não há produtos em desenvolvimento ou produtos comercializados a declarar. Os autores apresentaram recentemente um pedido provisório de patente intitulada “Métodos e genes para a normalização da expressão do gene” (US Serial No .: 61 /774.271; arquivamento data 07 de março de 2013). Isto não altera a adesão dos autores para todas as políticas de PLoS One sobre os dados e materiais de compartilhamento, como detalhado em linha no guia para os autores.

Introdução

A normalização dos níveis medidos de um gene de juros contra um gene controle consistentemente expressa é a ação mais importante levando a precisão em termos quantitativos transcriptase reversa PCR experimentos (qRT-PCR). No entanto, enquanto que os níveis de controlo do gene pode variar muito, dependendo de amostras utilizadas, eles são geralmente seleccionados com base unicamente na convenção de [1] – [6]. O advento da RNA-seqüenciamento (RNA-seq) by Next Generation Sequencing (NGS) de milhares de transcriptomes de amostras humanas oferece novas possibilidades para identificar e selecionar genes de controle que mostram o menor variação dentro do conjunto de amostras para o cálculo de expressão gênica relativa usando o método DDCT.

leucemia e outras amostras de câncer são propensas a maior variabilidade da expressão do gene em comparação com tecidos normais devido a selecção clonal e instabilidade genética. Dado o aumento do interesse na identificação e perfil de expressão de genes marcadores de cancro para a medicina personalizada, existe uma clara necessidade de normalização optimizada de dados de expressão de genes através da identificação de genes de controlo com a menor variação possível.

Estudos anteriores têm sido feito na tentativa de determinar melhores genes endógenos de controlo com base em dados publicamente disponíveis microarray [7], [8]. Em tais estudos, os dados de microarray de vários tecidos e condições foram analisadas a fim de determinar os genes cuja expressão variou menos, revelando os genes codificadores de proteínas ribossomais principalmente. tecnologia Next Generation Sequencing (NGS) tem agora substituído microarrays como o padrão ouro na análise de expressão gênica global. A análise da expressão do gene por NGS tem muitas vantagens sobre os microarrays, incluindo uma gama dinâmica mais elevada e menor susceptibilidade à variação técnica [9] – [13]. valores de expressão normalmente utilizadas para o ARN-SEQ são normalizados para o comprimento do gene e o número total de leituras para cada amostra (leituras por quilobase de transcrição mapeado por milhão lê: RPKM) [9], permitindo a fácil comparação entre os conjuntos de dados. Por conseguinte, a mineração de dados ARN-SEQ fornece um método ideal para identificar os genes mais consistente para uso como controlos endógenos.

Aqui nós explorar os dados de ARN-SEQ de um painel de 55 amostras de paciente de leucemia, bem como 8 ARN publicamente disponíveis conjuntos de dados -seq de The Cancer Genome Atlas (TCGA), (https://cancergenome.nih.gov/) para identificar genes melhores de controle endógenos. Em primeiro lugar, demonstram a variabilidade de genes de controle padrão, bem como os candidatos sugeridos pela análise de dados microarray. Nós identificar novos genes de controle com menor variação entre câncer múltiplas e tipos de tecidos normais, revelando principalmente genes envolvidos em processos de splicing de RNA e de degradação de proteínas. Em seguida, demonstram a eficácia de uma selecção destes genes em qRT-PCR. Este novo painel de genes de controle altamente consistentes vai ser de grande utilidade na pesquisa do câncer e doença futura monitorização.

Materiais e Métodos

As amostras dos pacientes

amostras de leucemia usado no Leucégène conjunto de dados foram coletados pelo Québec leucemia Cell Bank com um consentimento informado e aprovação do projeto pelo Conselho da-Rosemont Maisonneuve Hospital e Université de Montréal de Ética em Pesquisa, conforme descrito [14]. amostras de sangue do cordão umbilical humano foram coletadas de voluntários saudáveis ​​por Hema-Quebec com um consentimento informado por escrito e aprovação do projeto pelo Conselho de Ética em Pesquisa Ste. Justine Hospital e Université de Montréal.

RNA-seq

RNA-seq foi realizada como descrito [14]. Os dados discutidos nesta publicação foram depositados em Gene Expression Omnibus NCBI [15] e são acessíveis através do número de acesso GEO Series GSE48173 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc = GSE48173).

qRT-PCR

o ARN total foi isolado a partir de células leucémicas de sangue do cordão umbilical e células CD34 + usando a solução Trizol, de acordo com o protocolo do fabricante (Invitrogen /Life Technologies, Burlington, ON, Canadá ). células do sangue CD34 + cordão umbilical humano foram isolados a partir de sangue total de cabo usando o cabo de RosetteSep kit sangue CD34 Pré-enriquecimento, seguido pelo kit Cord Blood CD34 + Seleção EasySep humano, de acordo com as orientações do fabricante (stemcell Technologies, Vancouver, BC, Canadá), produzindo 70 -86% CD34 +. amostras de sangue CD34 + cordão de cinco indivíduos diferentes foram imediatamente utilizados para transcrição reversa. Além disso, CD34 + amostras de sangue do cordão umbilical de doze indivíduos adicionais foram classificados usando classificador de células FACS Aria (Becton-Dickinson, San Jose, CA, EUA) para manter apenas CD34_APC + /células CD45RA_PE- (Antibodies: Becton-Dickinson, San Jose, CA, EUA ) antes de prosseguir com a transcrição reversa. A transcrição reversa do RNA total foi realizada utilizando transcriptase inversa de MMLV e hexâmeros aleatórios de acordo com as instruções do fabricante (Invitrogen /Life Technologies, Burlington, ON, Canadá). ensaios de expressão foram realizados para medir os níveis de expressão de genes utilizando 2 × rápida Mistura de PCR (Applied Biosystems /Life Technologies, Burlington, ON, Canadá), iniciadores padrão (Invitrogen /Life Technologies, Burlington, ON, Canadá) e uma sonda específica de Universal Probe Library (Roche Diagnostics, Laval, QC, Canadá). reações qRT-PCR foram feitas no rápido Real-Time System ABI 7900HT PCR (Applied Biosystems /Life Technologies, Burlington, ON, Canadá). Para RQ (quantificação relativa) cálculos, a partir de uma dada amostra de teste, o Ct (ciclo limite) valores para cada gene foram normalizados para o gene de controlo (dCt = Ct Alvo – Ct de controlo) e em comparação com o DCT significativo do sangue CD34 + cordão amostra (calibrador), utilizando o método DDCT (DDCT = DCT amostra – dCt calibrador; RQ = 2∧-DDCT). condições de ciclização qRT-PCR foram as seguintes: 2 minutos a 50 ° C e 10 minutos a 95 ° C, seguido de 40 ciclos de 15 segundos a 95 ° C e 1 minuto a 59 ° C

a variabilidade de genes de controle comumente usados ​​em dados de RNA-seq

Para estes estudos, fizemos uso de dados de RNA-seq obtidos no nosso projeto Leucégène, que foi adquirida a partir de um painel de paciente 55 leucemia amostras (43 AML, 12 ALL) a partir do Québec leucemia Cell Bank (BCLQ). Analisou-se ainda mais os dados de ARN-SEQ de vários cancros e de tecidos normais associadas, incluindo AML, da mama, do pulmão, do cólon e do rim, todos publicamente disponível a partir do genoma do cancro Atlas (TCGA). O conjunto de dados TCGA combinado representa dados de um total de 1933 pacientes (207 do tecido normal e 1726 amostras de tecido de cancro) (Tabela S1).

Para avaliar a consistência gene expressão, nós examinamos a variabilidade nos valores RPKM entre paciente diferente amostras através de um determinado conjunto de dados RNA-seq. Isto foi conseguido por meio do cálculo do coeficiente de variação (CV) e a variação máxima de dobragem (MFC) para cada gene em várias amostras dentro de cada conjunto de dados; em que CV representa o desvio padrão dividido pela média RPKM, e representa o MFC RPKM máxima dividida pelo valor mínimo RPKM.

O primeiro analisada a consistência expressão de genes de controlo 19 normalmente utilizados na Leucégène e o TCGA combinada conjuntos de dados. genes de controle padrão foram classificadas menor para o maior CV (Tabela 1). Utilizando esta abordagem, verificou-se que o gene de controlo utilizada mais consistente, em ambos os conjuntos de dados, foi TATA Binding Protein (

TBP

), obtendo-se um VC igual a 22,8 ou 44,9% e um MFC igual a 2,5 ou 12,2, em Leucégène ou conjuntos de dados TCGA combinados, respectivamente. Ableson (

ABL1

), um gene de controle comumente utilizado para as amostras de leucemia, rendeu um CV ligeiramente inferior no conjunto de dados TCGA combinada (39,8%), mas teve uma alta MFC (26,9). A maioria dos genes de controlo vulgarmente utilizadas exibiram variabilidade, com valores que variam CV 27,2-69,1% em Leucégène (mediana CV = 42,6%), e 47,0-116,2% em TCGA os dados combinados (mediana CV = 61,4%). Não inesperadamente, notou-se que a variabilidade dos genes foi maior nos dados TCGA combinada, o que representa um conjunto mais diverso de amostras de cinco tipos diferentes de cancro e três tipos diferentes de tecidos normais. Este maior grau de variação nos dados TCGA combinada foi mais evidente nos valores de MFC, que são mais fortemente afectadas por diferenças extremas de expressão em amostras individuais. valores MFC variou de 2,5 a 31,7 vezes na Leucégène (mediana = 8,3), e 12.2 639,5 vezes nos dados TCGA combinadas (mediana = 84,0).

Foram examinados ainda mais a coerência de 12 de candidato expressão genes de controle identificadas por de Jonge

et al.

[7] como sendo os genes mais consistentemente expressos em uma coleção de experiências microarray. Esta lista gene consiste em 10 genes codificadores de proteínas ribossomais, bem como

SRP14

e

OAZ1

(Tabela 2). Utilizando a abordagem de cima, verificou-se que os candidatos identificados a partir de dados de microarray mostrou variabilidade semelhante aos dos genes de manutenção padrão, com um CV médio igual a 48,5 ou 51,6% e uma mediana de MFC igual a 8.3 ou 44.5, em Leucégène ou combinado TCGA conjuntos de dados, respectivamente. O gene mais consistente a partir desta lista foi Signal Partícula de Reconhecimento de 14 kDa (

SRP14

). De nota, enquanto estes genes apresentaram variabilidade semelhante nos dados Leucégène definidas em comparação com os genes de controlo vulgarmente utilizadas, que se mostrou ser ligeiramente menos variável no conjunto de dados combinado TCGA. No entanto, houve uma variabilidade ainda significativo dentro dos dados TCGA, que apresentou os valores de% CV até 82,0 por

rps16

e valores MFC até 1.208,3 para

RPL9

.

Seleção de genes de controle melhorou de Leucégène dados RNA-seq

a fim de identificar genes de controle melhorado com a expressão mais consistente, nós estabelecemos os pontos de corte para% CV e MFC que foram menores do que os valores obtidos para a maioria dos genes de controlo vulgarmente utilizadas. Dentro do conjunto de dados Leucégène, analisou-se todo o transcriptoma de 21,892 genes e seleccionados aqueles que tiveram um CV% inferior a 25 e um MFC inferior a 5, para duas gamas diferentes de expressão: RPKM maior do que ou menor do que 100 significa (mas maior do que 25). Estes genes foram, então, classificados menor para o maior CV% (Tabela 3). Usando esses critérios, foram identificados 20 genes de controle candidato com níveis RPKM média superior a 100, e genes de controle de 99 candidatos com os níveis RPKM médios inferiores a 100 (Tabela 3 contém os 20 melhores genes; a lista completa está disponível na Tabela S2). A lista completa dos 119 genes com suas descrições está disponível na Tabela S4. Destes, são seleccionados 15 genes para validação com base na sua elevada classificação nos dados Leucégène, bem como ter expressão relativamente consistente nos vários conjuntos de dados (TCGA Tabela S3). Os genes de controle candidato recentemente identificados são:

HNRNPK, PCBP2, SLC25A3, GNB1, HNRNPL, SRP14

(RPKM 100); e

PSMD6, PSMA1, PSMF1, VPS4A, SF3B2, EIF4H, ZNF207, UBE2I

(RPKM 100). EIF4H teve expressão ligeiramente mais elevado nos vários conjuntos de dados TCGA, e, portanto, foi incluído no grupo de genes com expressão mais elevada para análises subsequentes.

agrupamento funcional de genes de controle de candidatos

avaliaram a classificação funcional de toda a nossa lista de 119 genes identificados a partir do conjunto de dados Leucégène usando o algoritmo DAVID [16], [17] (Tabela S5). Curiosamente, uma parcela significativa destes genes altamente consistentes caiu em duas principais categorias funcionais: (. Ex

SF3B2

) RNA splicing /processamento, com uma pontuação de enriquecimento de 5,92; ea atividade ligase proteassoma /ubiquitina, com uma pontuação de enriquecimento de 5,76 (ex.

PSMA1).

Validação de novos genes de controle em outros conjuntos de dados de câncer de RNA-seq

a consistência dos genes 15 de controlo de expressão candidato foi ainda analisada em 8 conjuntos de dados diferentes de TCGA, representando 6 tipos diferentes de cancro e amostras de tecidos normais, bem como em dados normais obtidos do sangue do cordão por Leucégène (Tabela S1). Os genes candidatos de controlo 15 provou ser muito consistentemente expressos em todos os 4 conjuntos de dados de tecidos normais, cada um produzindo um CV inferior ou igual a 25%, e um MFC inferior ou igual a 10 (Tabela A3). De nota, os genes candidatos demonstrou maior consistência nas amostras de sangue 17 CD34 + na medula (enriquecido normal do tronco e células progenitoras), que cada rendeu CV inferior ou igual a 15%, e MFCs inferior a 2. Dentro dos conjuntos de dados do tumor, nós observado uma maior variabilidade, com a maior CV sendo 42% para

SLC25A3

no cancro do rim, eo maior MFC sendo 24 para

SF3B2

no cancro da mama. No entanto, a maioria dos genes candidatos exibiram menor variabilidade em todos os conjuntos de dados, em comparação com os genes de manutenção padrão. Foi determinada uma pontuação para cada gene candidato baseia-se no número de conjuntos de dados analisados ​​(total de 10) em que o CV e os valores MFC respeitadas nossos critérios de selecção inicial (CV 25%, MFC 5). Os genes foram, então, classificados de acordo com este sistema de pontuação. Calculou-se também a variabilidade dos genes de controlo candidato, usando o conjunto combinado TCGA dados (Figura 1 e Tabela 4) expressão. Tal como acontece com os genes de controle padrão, que foi observada maior variabilidade em comparação com os conjuntos de dados individuais, refletindo a diversidade de tipos de tecidos incluídos. No entanto, todos os 15 genes candidatos exibidos consistência que era maior do que a maioria dos genes de controlo vulgarmente utilizadas. Os valores de CV foram menores do que a de

TBP

, no entanto,

UBE2I

e

SF3B2

resultou em valores de CV ligeiramente mais elevados do que

ABL1

. Só

SF3B2

deu um MFC maior do que a de

ABL1

(Tabela 4). A maioria dos genes candidatos tinham valores de CV na menor 5

th quantil e o restante caiu abaixo dos 25

th quantil, em contraste com os genes de controlo de padrão, dos quais HPRT1 e GAPDH eram, na verdade, mais variável do que metade os genes presentes em níveis semelhantes de expressão (figura 1).

a média da expressão representa a média de todos os valores RPKM para um determinado gene através do conjunto de dados combinado TCGA (1933 amostras). O coeficiente de variação é igual ao desvio padrão dividido pela média RPKM. Cada ponto representa um único gene: pequenos pontos cinzentos representam toda transcriptoma; caixas verdes escuras e claras representam novos genes de controlo de expressão com maior ou menor do que 100 RPKM, respectivamente; caixas vermelhas representam os genes de controle padrão indicados. linhas azuis curvas representam a th 5

, 25

th, 50

th e 75

th quantiles de coeficiente de variação para um determinado nível de expressão (de mais escuro a mais claro) calculados sobre as janelas de 2.000 classificados genes centrada sobre um determinado valor médio RPKM.

no geral, os 15 genes de controle recém-selecionados apresentar um maior grau de coerência na expressão do gene em comparação com os genes de controle comumente usados, conforme determinado pela RNA -seq. Os genes do ranking mais elevado, conforme determinado por ter baixo coeficiente de variação (CV) e alteração máxima dobra (MFC) valores em a maioria dos conjuntos de dados analisados ​​são: HNRNPL e ZNF207, com expressão alta e média escalas, respectivamente

validação QPCR de novos genes de controle

a fim de avaliar a eficácia dos genes de controle recentemente identificados para análise de RT-PCR quantitativa (qRT-PCR), desenvolvemos ensaios para os candidatos utilizando a sonda Biblioteca Universal (Roche ) (Tabela S6). Novos ensaios foram concebidos para abranger fronteiras intrão, e testado para a eficiência óptima por análise da curva padrão.

SRP14

foi excluído devido à incapacidade de conceber um ensaio que mede intron. qRT-PCR foi realizado para cada um dos 14 novos genes, assim como por 5 genes de comando standard (

GAPDH, ACTB, TBP, HPRT1, ABL1

), em ADNc a partir de um painel de 14 amostras de leucemia (10 AML, 4 ALL) mais uma amostra de células CD34 + sangue do cordão umbilical (utilizando quantidades iguais de RNA). A expressão consistência média (M) de cada gene foi calculada utilizando o algoritmo GeNorm [18] (Figura 2). Por qRT-PCR, todos os 14 dos genes de controle recentemente identificados apresentaram menores valores M do que os genes de controle padrão, confirmando que eles foram mais consistentemente expressos nas amostras de leucemia, de acordo com os dados de RNA-seq, com

EIF4H

e

PSMA1

ser o mais consistente nesta condição experimental.

consistência expressão Média (M) foi calculada com o algoritmo GeNorm [18] com base em qRT-PCR para o gene de controle indicado em um painel de 14 amostras de leucemia e uma amostra de sangue do cordão umbilical. Os valores mais baixos M relacionam com genes que se concluiu terem níveis de expressão mais consistente entre as amostras utilizadas.

Embora seja amplamente presume que os dados RNA-seq correlaciona-se bem com os dados qRT-PCR, há pouca evidência disponíveis para abordar este tema. Por isso, avaliamos a expressão de

CD33 Comprar e

FLT3

(dados não mostrados) nas mesmas 15 amostras de leucemia e sangue do cordão umbilical, a fim de demonstrar a correlação entre os valores do delta Ct (DCT) RPKM e para este gene. Estes dois genes foram seleccionados devido à sua conhecida variabilidade de expressão na leucemia. Os valores de Ct delta para cada amostra foram calculadas utilizando um gene de controlo padrão (

GAPDH), ou um gene de controlo recentemente identificado (

HNRNPL, EIF4H, PSMA1, ou SF3B2

). análise de correlação de Spearman de

CD33

dados de expressão demonstrou alta correlação entre RPKM e dCt (ρ = -0,9714 a -0,9893 para

EIF4H

), exceto quando

GAPDH

foi usado como o gene de controlo (ρ = -0,775) (Figura 3). Análise com

FLT3

apresentou correlação similar. O menor grau de correlação entre RPKM e dCt quando se utiliza

GAPDH como gene de controlo demonstra a importância da selecção do gene controlo adequado em experiências de qRT-PCR.

dCt representa a diferença entre o valor de Ct de

CD33 e a do gene de controlo indicada, para uma dada amostra leucémica, medido por qRT-PCR. RPKM é plotado em uma escala log-2 e representa o leituras por quilobases de transcrição por milhão mapeados lê obtidos para cada amostra leucêmica por RNA-seq. ρ representa o coeficiente de correlação de Spearman entre a RPKM e o DCT obtido com o gene de controle indicado.

Para abordar ainda a importância da seleção de genes controle adequado na análise de qRT-PCR, foram calculados a quantificação relativa ( RQ) valores para um gene consistentemente expressa (

EIF4H

), utilizando

GAPDH

ou

HNRNPL Compra de normalização (Figura 4). Como esperado, o RQ de

EIF4H

variaram muito pouco entre as amostras de leucemia quando

HNRNPL

foi utilizado como o gene de controlo (CV = 14%; MFC = 1,6). No entanto, os valores de RQ das mesmas amostras calculada utilizando

GAPDH

variada tanto quanto 10,7 vezes, com valores RQ entre 0,22 e 2,29 (CV = 88%). Normalização com

GAPDH

resultou em até uma diferença de 5,3 vezes em

expressão EIF4H

dentro de amostras individuais, em comparação com

HNRNPL

normalização. Estes resultados destacam a importância do uso de genes de controle mais consistentes, identificados neste estudo na análise de qRT-PCR, e ainda validar os nossos genes de controle recentemente identificados.

RQ representa quantificação relativa de

EIF4H

determinada por qRT-PCR, calculada pelo método DDCT com qualquer um

GAPDH

ou

HNRNPL

como o gene controle, em relação à amostra CD34 + sangue do cordão umbilical (CB). O eixo X indica o ID da amostra leucêmica. CV (expressa em percentagem) indica que o coeficiente de variação e é igual ao desvio padrão dividido pela média de RQ CD33 calculada usando o gene de controlo indicada. MFC (alteração média vezes) representa o máximo dividido por valor mínimo RQ.

Discussão

Avaliação da expressão gênica por RT-PCR quantitativa (qRT-PCR) depende de normalização com um controlo do gene endógeno, resultando na quantificação relativa do gene de interesse. A maioria dos investigadores utilizar apenas um único gene de controlo, a selecção das quais é frequentemente baseado unicamente em convenção [3], [6]. Os genes de controle mais comumente usadas foram originalmente selecionado devido aos seus elevados níveis de expressão em todos os tecidos, em vez de sua baixa variabilidade entre tecidos [6]. No entanto, vários estudos têm mostrado que estes genes podem variar consideravelmente [1] – [5], que levanta dúvidas sobre a exactidão dos valores de quantificação relativa

Enquanto muitos estudos têm sido feitos em tentativas para determinar melhores métodos para. normalização da expressão do gene [6], [18] – [20], a maioria dos pesquisadores ainda optar por utilizar o método DDCT com um ou dois genes de controle, sem a devida validação desses controles. Tem havido relativamente poucos estudos que visam identificar novos genes cuja expressão níveis de controlo são mais consistentes do que as de uso comum, como é aqui apresentado. Um par de estudos que têm sido realizados com este objetivo comum invocado meta-análise de dados microarray [7], [8], enquanto o nosso estudo utiliza próxima dados de geração de sequenciamento. Ambos os estudos identificados proteína principalmente ribossomal (

RP

) que codifica genes, enquanto que a nossa análise não revelou quaisquer genes desta família. De facto, demonstramos aqui que os genes RP específico delineado de Jonge

et ai.

[7] são semelhantes à dos genes de controlo padrão com respeito à sua variabilidade na expressão do gene, como determinado por RNA- SEQ.

RP

genes representam o grupo mais altamente expresso de genes (aproximadamente 50% dos 100 genes mais altamente expresso em dados de ARN-SEQ analisados, dados não mostrados). Portanto, uma possível explicação para a discrepância entre as análises realizadas em microarray vs. dados de RNA-seq poderia ser que a saturação do sinal de fluorescência em microarrays tem levado a uma falsa impressão de consistência. Enquanto o cálculo RPKM de genes curtos (tais como

RP

genes) pode ser propenso a maior variabilidade técnica do que genes longos, em níveis de expressão elevados este efeito é pequeno, eo CV é dominada pela variação biológica. Na verdade, os valores CV para

genes RP

no conjunto de dados combinado TCGA mostrou uma distribuição equitativa de todos os níveis de expressão (dados não mostrados), o que implica que não há tendência para os genes RP nos dados de ARN-SEQ.

análise de RNA-SEQ tem muitas vantagens sobre os microarrays para a análise da expressão do gene global. Mais notavelmente, porque ARN-SEQ leituras são digital em vez de analógico, não é muito baixo sinal de fundo, e praticamente nenhum limite superior para a detecção, resultando em uma gama dinâmica muito maior [9] – [13], [21]. Estudos revelaram um elevado grau de reprodutibilidade técnica com ARN-SEQ sobre microarrays [9], [10], e que os níveis de expressão de ARN-SEQ se correlacionam melhor com os dados de qRT-PCR, independentemente da plataforma de sequenciação utilizada [21]. dados de microarray é susceptível a erros resultantes de artefactos de hibridação, a saturação do sinal fluorescente, e requer normalização complicado [10] – [12]. RNA-seq contorna essas questões; no entanto, outras fontes potenciais de erros existem, como viés de comprimento gene, o viés na sequenciação das regiões GC ricos, problemas técnicos na preparação da biblioteca, ou erros no mapeamento de leitura [10], [12]. RNA-seq também não é limitada pelo conhecimento prévio do transcriptoma de serem estudados, permitindo a identificação de novos transcritos e SNPs.

Aqui nós identificar um total de 119 genes cuja expressão é mais consistente que o controlo utilizada genes através de um painel de 55 amostras de leucemia, tal como determinado pela RNA-seq. classificação funcional destes por DAVID revelou dois principais grupos de enriquecimento: (. ex

PSMA1, PSMF1, UBE2I

) genes envolvidos nas vias de degradação proteassoma /ubiquitina, e genes envolvidos no splicing e processamento (ex RNA

SF3B2

,

SRSF9

). Além desses grupos funcionais, encontramos 12 genes envolvidos na transcrição e 7 envolvidos na tradução (ex.

EIF4H

). Um grupo proeminente de genes identificados (n = 8) são as ribonucleoproteínas nucleares heterogéneos (ex.

HNRNPL, HNRNPK

), alguns dos quais também estão envolvidos nos processos celulares acima. De nota, o estudo de Popovici

et al.

[8] também identificaram dois

RNPhn

genes, gene da subunidade um proteassoma,

ubiquitina B Comprar e

C

e

EIF4H

como tendo expressão altamente consistente em todos os conjuntos de dados de microarranjos de câncer de mama dez. Em concordância com os estudos de de Jonge e Popovici, também identificamos

SRP14

como um bom gene controle. Embora

SRP14

era um candidato forte, não fomos capazes de projetar um ensaio qRT-PCR-medindo intron para ele, e, portanto, não foi incluído em nossos experimentos de validação.

Dos 119 genes seleccionado a partir dos dados de RNA-seq de leucemia, 14 foram selecionados com base em sua consistência em outros conjuntos de dados de RNA-seq (TCGA) para validação por qRT-PCR. Este foi essencial para ter em conta potenciais enviesamentos inerentes ao processo de ARN-SEQ, tais como a selecção de poli-A + ARN, a fragmentação de ADNc e preparação da biblioteca, bem como potenciais desvios introduzidos bioinformatically [12]. No entanto, constatou-se que todos os 14 genes testados mostrou-se mais consistente por qRT-PCR em uma seleção de 14 amostras de leucemia do que os genes de controle padrão. Além disso, mostrámos que os valores obtidos pelo RPKM ARN-SEQ se correlacionam bem com os valores obtidos DCT por qRT-PCR, e que essa correlação é dependente do gene de controlo utilizado para o cálculo dCt. Nós também demonstram claramente o impacto da selecção gene controle adequado em experimentos de qRT-PCR, uma vez que o cálculo dos valores de quantificação relativa (RQ) de

EIF4H

(um gene altamente consistente por RNA-seq) variou significativamente quando

GAPDH

foi usado em oposição ao nosso novo controle,

HNRNPL

.

RT-PCR quantitativo é cada vez mais utilizado para fins de monitoramento de diagnóstico e de doença, tais como a avaliação da doença residual mínima (MRD) na leucemia. Dada a natureza altamente sensível destes ensaios, é de extrema importância para usar o melhor gene controle possível para a normalização. Ableson (

ABL1

) tem sido demonstrado ser o gene de controlo mais consistente testados para a detecção de DRM [22]. No entanto, os genes de controle identificados aqui todo provou ser mais consistente do que

ABL1

tanto pela RNA-seq e qRT-PCR de amostras de leucemia, o que os torna candidatos ideais para uso em MRD.

Embora os genes de controle aqui apresentados foram inicialmente selecionados devido à sua consistência em amostras de leucemia, nós selecionamos aqueles que também eram relativamente consistente em outros tipos de câncer, bem como amostras normais associadas, portanto, potencialmente ampliando sua utilidade como genes gerais de controlo para a maioria dos tecidos humanos. Com base nos nossos estudos de validação, esperamos que os nossos novos controles irá superar os genes de controle padrão em uma ampla variedade de tipos de amostras. No entanto, para outros tipos de cancro, podem existir genes melhores de controlo, que pode ser determinada utilizando a mesma abordagem utilizada aqui. Será importante para os pesquisadores para validar esses novos controles antes da sua utilização, com mais diversos tipos de tecidos.

Seria interessante para avaliar a consistência dos nossos novos genes de controle no mouse ou outros organismos modelo. Até à data, há menos publicamente dados de ARN-SEQ disponíveis disponíveis para tipos de células não-humanos. Embora grupos como The Encyclopedia of DNA Elements (ENCODE) Consortium proporcionam fácil acesso a uma riqueza de dados NGS com vários tipos de células do rato representada [23], a maioria dos experimentos de RNA-seq tem apenas 2-3 repetições, em contraste com o grande número de amostras humanos utilizados nos conjuntos de dados Cancer Genome Atlas (TCGA). Como a tecnologia NGS torna-se mais amplamente disponível, em breve poderá ser viável para avaliar a consistência desses genes de controle em outros organismos.

Em conclusão, temos feito uso de dados de RNA-seq para identificar 14 novos genes de controle com expressão consistente em vários tipos de câncer. Estes genes, incluindo

HNRNPL

,

EIF4H

e

PSMA1

, foram validados por qRT-PCR para o uso como genes de controle na leucemia.

Informações de Suporte

Tabela S1.

Os conjuntos de dados de ARN-SEQ analisadas neste estudo. Leucégène, os dados de RNA-seq gerados em colaboração entre a leucemia de células Bank of Quebec e com a instalação Genomic Núcleo do Instituto de Investigação em Imunologia e Cancro (IRIC); . TCGA, The Cancer Genome Atlas Portal de Dados (https://cancergenome.nih.gov/)

doi: 10.1371 /journal.pone.0072884.s001

(XLSX)

Tabela S2.

Deixe uma resposta