PLOS ONE: Câncer Humano Longo RNA não codificante transcriptomes

Sumário

Uma vez pensado para ser uma parte da “matéria escura” do genoma, longos RNAs não-codificantes (lncRNAs) estão emergindo como um componente funcional integrante do transcriptoma de mamíferos. LncRNAs são uma nova classe de ARNm semelhante transcritos que, apesar de nenhum potencial de codificação da proteína conhecida, demonstram uma grande variedade de funções estruturais e funcionais em biologia celular. No entanto, a magnitude da contribuição de expressão lncRNA aos tecidos e cancros humanos normais não foi investigada de uma forma abrangente. Neste estudo, nós compilamos 272 humana análise serial da expressão gênica bibliotecas (SAGE) para delinear padrões de transcrição lncRNA em um amplo espectro de tecidos e cancros humanos normais. Usando um romance lncRNA gasoduto descoberta nós analisado mais de 24 milhões de etiquetas SAGE e relatar perfis de expressão lncRNA através de um painel de 26 tecidos humanos normais diferentes e 19 cancros humanos. Nossos resultados mostram grande expressão, específico do tecido lncRNA em tecidos normais e de expressão lncRNA altamente aberrante em cancros humanos. Aqui, apresentamos um primeiro atlas geração para lncRNA profiling no câncer

Citation:. Gibb EA, Vucic EA, Enfield KSS, Stewart GL, Lonergan KM, Kennett JY, et al. (2011) Câncer não-codificante humano longo RNA transcriptomes. PLoS ONE 6 (10): e25915. doi: 10.1371 /journal.pone.0025915

editor: Eric J. Bernhard, National Cancer Institute, Estados Unidos da América

Recebido: 01 de agosto de 2011; Aceito: 13 de setembro de 2011; Publicação: 03 de outubro de 2011

Direitos de autor: © 2011 Gibb et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada por doações do Canadian Institutes for Health Research (CIHR) [MOP 86.731, 77.903 MOP para WLL, MOP 13690 para CJB]; National Institutes of Health [NIH 2R01 CA103830 – 6A1]; Departamento de Defesa [CDMRP W81XWH-10-1-0634]; Fundação CIHR e Michael Smith para de Pesquisa em Saúde (MSFHR) pós-doutorado Fellowships [para E.A.G.]; e CIHR Frederick Banting e Charles Best Canada Graduate Scholarship [para E.A.V.]. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

instabilidade do genoma e mutação são uma marca registrada de câncer [1]. As alterações genéticas e epigenética resultar na expressão aberrante de genes codificadores de proteínas e muitas classes de RNAs não-codificantes (ncRNAs), incluindo microARNs (miARNs). MiRNAs provaram ser grandes jogadores na carcinogênese humana, apesar de constituir apenas uma pequena fração de ncRNAs [2].

Uma vez pensado para ser a “matéria escura” do genoma, ncRNAs surgiram como um componente integral de o transcriptoma de mamífero [3], [4], [5]. Estas moléculas enigmáticas são definidos pela falta de sequência de codificação da proteína, ainda podem desempenhar ambas as funções estruturais e funcionais na célula [6], [7]. NcRNAs pode foram agrupadas em duas classes principais, a pequena ncRNAs, que incluem miRNAs e outras transcrições não-codificantes de menos de 200 nucleótidos (nt), e os lncRNAs mais recentemente descrito, que variam de 200 nt para 100 kilobases (kb ) [8].

lncRNAs pode ser intergênico, intrônica, antisense ou sobreposição com genes codificadores de proteínas ou outras ncRNAs [9], [10], [11], [12]. O repertório conhecido de funções lncRNA está se expandindo rapidamente – com papéis demonstradas como mediadores de mRNA decadência [13], andaimes estruturais para subestruturas nucleares [14], [15], como genes do hospedeiro para miRNAs [16], [17], e como reguladores da cromatina remodelação [18], [19], [20], [21] – embora as identidades funcionais de muitos lncRNAs ainda para ser descoberto [6], [7], [22]. Recentemente, cancros humanos têm sido descritos para ter expressão alterada de repetições satélite [23], transcritos de ultra regiões conservadas (t-UCRs) [24], e transcritos anti-sentido [25]. Além das mudanças de expressão, acumulando evidências indicam expressão aberrante de lncRNAs podem desempenhar um papel funcional importante na biologia do câncer [26], [27], [28]. O HOX RNA intergênico antisense bem estudado (

HOTAIR

), por exemplo, é altamente expresso em cancros da mama e metástases de cancro da mama e desempenha um papel na redirecionamento complexos de cromatina remodelação [29]. Da mesma forma, alta expressão do salpico nuclear lncRNA associado associada à metástase pulmonar adenocarcinoma transcrição 1 (

MALAT1

) modula splicing alternativo e tem sido associado a metástases e mau prognóstico em pacientes com câncer de pulmão [30], [31] . Enquanto estes exemplos são intrigantes, a extensão da contribuição de expressão lncRNA diferencial de câncer humano é actualmente desconhecida.

Com uma estimativa conservadora de 23.000 lncRNAs no genoma humano, estas transcrições rivalizar com os ~20,000 genes codificadores de proteínas [5], [11], [32], [33]. Ao longo das últimas duas décadas, microarray profiling gerou uma riqueza de informações sobre os padrões de expressão de genes codificadores de proteínas em cancros humanos. No entanto, como sondas específicas lncRNA estão sub-representadas em microarrays comerciais utilizados em perfis do transcriptoma do cancro, estes dados não se aplicam a ncRNAs. sequenciamento global das populações de RNA é uma nova abordagem utilizada ao perfil níveis de expressão de RNA que irá capturar a extensão da expressão lncRNA. Recentemente, perfis de expressão ncRNA do genoma foram determinadas em 11 amostras representando diferentes tipos de tecidos humanos [34].

Um método baseado em sequência para enumerar a abundância de transcritos poliadenilados é SAGE [35]. Como muitos próprios lncRNAs estão poliadenilado, níveis de transcrição lncRNA pode ser deduzido por meio de enumeração directa de etiquetas de seqüências usando a tecnologia SAGE correspondente. Na verdade, duas lncRNAs anti-sentido foram descobertos usando um método baseado no SAGE [25]. Desde a invenção da tecnologia SAGE em meados de 1990, numerosas bibliotecas SAGE que representam uma diversidade de tecidos humanos e de rato, normais e malignas e linhas celulares tornaram-se publicamente disponíveis [36]. Dos 755 bibliotecas SAGE humanos no Omnibus banco de dados Gene Expression (GEO), ~276 incluem bibliotecas SAGE derivados de cancros ou displasias humanos [37].

Neste estudo, nós compilamos 272 bibliotecas SAGE humanos para delinear lncRNA padrões de transcrição em um amplo espectro de tecidos e cânceres humanos. Usando um costume lncRNA gasoduto descoberta, nós analisado mais de 24 milhões de etiquetas de seqüências SAGE deduzir (1) os padrões de expressão lncRNA específicas em 26 tecidos humanos e descobriu ubiquamente expressa, bem como lncRNAs específicos de tecidos, e (2) os padrões de expressão aberrante de lncRNAs em 19 cancros humanos.

resultados

Montagem bibliotecas SAGE humanos de tecidos normais e cancerosas

Um total de 1.824 bibliotecas SAGE (em suma SAGE, SAGE longa e SAGE-seq format) de origem humana e não-humanos são publicamente disponíveis através de GEO. Para explorar expressão lncRNA na mais ampla gama de tipos de tecidos humanos e tipos de cancro, nós baixado 360 GEO accessioned bibliotecas humanos curta SAGE composta de bibliotecas com curadoria do Projeto do Genoma do Câncer Anatomia (324 bibliotecas) e tecido pulmonar e conjuntos de dados de câncer (36 bibliotecas) ( tabela S1). bibliotecas individuais foram filtrados para a profundidade sequência, mantendo apenas as bibliotecas com 50.000 etiquetas de matérias-primas, para fornecer 272 SAGE bibliotecas para análise usando nosso pipeline descoberta lncRNA (Tabela S2). As bibliotecas SAGE 272 são compostas por um total de 24,436,076 marcadores de sequências em bruto com uma contagem média de marcação em bruto 90212 por biblioteca. Colectivamente, as bibliotecas durou 26 tipos de tecidos humanos normais, incluindo os 19 tipos de cancro humano, e 9 tipos de tecidos derivados de bibliotecas de linhas de células (Figura 1, Tabela S3).

(CL) indica uma biblioteca SAGE que foi gerado a partir de uma mistura de linhas de células humanas.

longas

não-codificantes de dutos descoberta RNA

para gerar perfis de expressão lncRNA, foi desenvolvido um gasoduto descoberta lncRNA para mapear tag-to-lncRNA jogos (Figura 2). Uma matriz tag de expressão SAGE foi construído a partir de todas as tags exclusivos (n = 716,330) identificados dentro do conjunto de dados de 272 bibliotecas. Unigene mapeada e as marcas SAGE não mapeados (n = 269.785 e n ​​= 446,545, respectivamente) foram separados em matrizes distintas de expressão que foram subsequentemente filtradas para reter apenas as etiquetas com, pelo menos, 2 contagens de tags matérias em 3 ou mais bibliotecas SAGE. Usando SAGE Genie para atribuir identificadores de genes para o Unigene IDs, 263 das 61,054 marcas filtrada com correspondente Unigene IDs mapeados para lncRNAs conhecidos e 15,773 marcas quer faltava nomes de genes ou tinham anotações ambíguas (loci por exemplo transcrito, cDNAs, genes hipotéticos). Com base na ausência de associação confirmado com genes conhecidos, estes jogos 15.773 tag-a-Unigene ID foram consideradas como marcas lncRNA candidatos

Os números indicam programas ou etapas de filtragem da seguinte forma: (1). Filtragem para reter apenas aqueles bibliotecas com um mínimo de 50.000 contagens de tags cru, (2) a identificação de marcas SAGE únicas e construção de SAGE matriz tag de expressão, (3) etiquetas de mapeamento SAGE para IDs UniGene usando arquivos de mapeamento SAGE Genie, (4) as listas de filtragem para reter apenas tags com ≥ 2 contagens crua em uma ≥3 de 272 bibliotecas, (5) determinar a identidade do gene usando SAGE Genie (6), separando Unigene mapeamento tags para lncRNAs e transcrições ambíguas, (7) reunindo marcas ambíguas e tags não mapeados, (8) etiquetas de seqüências de mapeamento à lista de referência de 9,891 lncRNAs usando SeqMap, um programa de mapeamento tag-to-gene, (restantes marcas podem mapear para lncRNAs ou transcrições antisense não anotadas não incluído na nossa lista de referência) (9) tag filtragem de partidas pelo sentido vertente, (10) pooling frente etiquetas de mapeamento e tags determinados a partir Unigene, e (11) confirmando partidas tag-a-lncRNA e somando contagens de tags para lncRNAs com tag várias correspondências. Uma lista completa de lncRNAs é fornecido como Tabela S5 e partidas tag-a-lncRNA são fornecidos como Tabela S6.

Os 15,773 marcas UniGene com identificadores de genes ambíguas foram combinados com os 17,816 não mapeados, tags filtradas para um total de 33,589 marcas SAGE com o potencial de gerar tag-to-lncRNA jogos. Usando SeqMap, mapeamos 7.040 dos 33,589 tags às sequências lncRNA da lista lncRNA de referência (Tabela S4). A proporção de marcação-a-lncRNA corresponde é consistente com o facto de que a lista de referência de 9,891 lncRNAs representa apenas uma porção dos cerca de 23.000 lncRNAs no genoma [33]. As tags restantes que não mapeiam para lncRNAs da nossa lista de referência pode representar transcritos antisenso de genes codificadores de proteínas ou outras ncRNAs que foram filtradas.

da lncRNA tag 7.040 partidas, 3.831 mapeados na orientação para a frente, enquanto 3209 mapeada na direcção inversa. Em SAGE, etiquetas transcrição correspondentes na orientação para a frente são provavelmente derivado do transcrito, enquanto as tags correspondente na orientação inversa não são. Isto é verdade independentemente do facto de o gene é normalmente transcrito a partir do mais ou menos cadeia de ADN. Neste estudo, nós estávamos interessados ​​nos perfis de um conjunto com curadoria de lncRNAs, em vez de romance descoberta do gene de expressão. Como partidas tag reversa não corroboram a expressão dos lncRNAs aqui descritos, essas marcas foram excluídos da análise posterior.

Os 3.831 marcas recém mapeados para lncRNAs foram combinadas com as 263 marcas identificadas a partir de mapeamento Unigene para um total de 4.094 marcas mapear de forma única para lncRNAs. Onde várias marcas mapeado para um lncRNA distinta, as marcas foram entrou em colapso pela soma das contagens de tag para capturar todas as variantes de transcritos e isoformas. O resultado final foi uma matriz de expressão lncRNA consistindo de 2.649 lncRNAs distintas (Tabelas S5 e S6). Os lncRNAs com a expressão mais elevada foram detectáveis ​​na maioria ( 90%) das 272 bibliotecas (Tabela 1). Estes exemplos caracterizados incluídos como paraspeckle nuclear montagem transcrição 1 (

NEAT1

) e crescimento de 5 (

GAS5

) específica prisão-.

RNA não-codificante Longo perfis de expressão em tecidos humanos normais

dos 272 bibliotecas SAGE, 72 representados tecidos humanos normais. Expressão de lncRNAs foi detectado em todos os tipos de tecidos, embora o número de lncRNAs únicas detectadas variado consideravelmente (Figura 3A). Em média, havia 145 lncRNAs distintos de etiquetas médios por milhão (TPM) de 20 detectados em cada tecido. Os tecidos tais como o nó de linfa e vesícula biliar mostraram o maior número de lncRNAs distintas, enquanto que o menor número de lncRNAs distintas foram encontradas no músculo e no fígado.

(A) Número de lncRNAs distintas expressas em tecidos humanos normais, células brancas do sangue e de células estaminais embrionárias com um TPM média mínima de 20. os valores entre parênteses indicam o número de bibliotecas SAGE para cada tecido. (B) Exemplos de lncRNAs detectada exclusivamente num único tecido humano normal ou em células estaminais embrionárias (ESC) com um nível de expressão mínima de 10 TPM. Para tecidos com duas ou mais bibliotecas, os valores de TPM-se a média. LncRNAs sem nomes sejam rotulados com um ID Ensembl.

A seguir, focada nesses bibliotecas para determinar se os perfis de expressão lncRNA de tecidos específicos poderiam ser gerados (Tabela S7). Figura 4A mostra os 20 melhores lncRNAs mais altamente expressa detectadas no painel de tecidos normais. lncRNAs distintas, detectada em níveis elevados de expressão em tecidos normais incluídas aquelas caracterizadas na literatura como

NEAT1

,

GAS5 Comprar e transcrição específicos X-inativo (

XIST

). No entanto, pelo menos metade dos lncRNAs altamente expressos são novos e actualmente não caracterizada. Para confirmar os perfis de expressão lncRNA, nós questionaram os padrões das lncRNAs mais altamente expresso utilizando dados RNA-Seq do projeto Illumina BodyMap Human 2.0 de expressão. Estes dados foi recentemente adicionado à liberação Ensembl 62 e é apresentado como uma faixa opcional. Dos nossos lncRNAs mais altamente expressos, a maioria foram amplamente expresso nas amostras de tecidos do conjunto de dados Illumina, de acordo com os nossos resultados (Tabela S8, figuras S1 e S2). Ao mesmo tempo, a expressão lncRNA também se verificou ser altamente variáveis, com cada tecido humano tendo um padrão único de expressão lncRNA (Figura 4B). Curiosamente, um número de lncRNAs foram expressas de uma forma exclusiva tecido (Figura 3B).

(A) lncRNAs com a mais alta expressão geral (B) lncRNAs com a maior variância por um coeficiente de variação (CV) teste. Mc_ui_heatmap indicam a intensidade relativa (normalizada TPM) de cada lncRNA entre dezassete tecidos humanos, as células brancas do sangue e de células estaminais embrionárias humanas. Onde mais de uma biblioteca SAGE estava disponível, os valores de TPM foram em média. Para o mapa de calor, o limite máximo foi de 300 TPM. LncRNAs sem nomes sejam rotulados com um ID Ensembl.

perfis de expressão longas RNA não codificante em cancros humanos

aberrante expressão do gene que codifica a proteína é bem descrito no câncer. No entanto, a expressão aberrante de ncRNAs, incluindo miARNs e lncRNAs, só recentemente foi associada a esta doença [2], [26], [27], [38]. Para delinear perfis de expressão lncRNA associados com cancros humanos, criamos uma matriz de expressão câncer humano com base em 167 bibliotecas SAGE câncer incluído no nosso conjunto de dados (Tabela S9). Para o conjunto de dados de câncer de pulmão, metaplasia, displasia e tecidos inflamatórios foram excluídos da análise uma vez que estes representam estágios pré-cancerosas [39], [40]. A Figura 5A mostra os 20 melhores lncRNAs mais altamente expressos através dos cancros perfilados. Tal como os tecidos normais, a expressão lncRNA no cancro humano, também se verificou ser altamente variável (Figura 5B).

lncRNAs (A) com a mais alta expressão geral (B) lncRNAs com a maior variância por um coeficiente de variação (CV) de teste. Mc_ui_heatmap indicam a intensidade relativa (normalizada TPM) de cada lncRNA entre dezassete cancros humanos e de células estaminais embrionárias humanas. Onde mais de uma biblioteca SAGE estava disponível, os valores de TPM foram em média. Para o mapa de calor, o limite máximo foi de 300 TPM. LncRNAs sem nomes sejam rotulados com um ID Ensembl.

cancros humanos demonstram alterou significativamente os padrões de expressão lncRNA

Para determinar a extensão da expressão lncRNA diferencial de câncer humano, criamos três matrizes de expressão para cada cancro da mama, do cérebro e do pulmão, que incluiu um mínimo de cinco normal e cinco bibliotecas SAGE cancro (Tabela S10). As matrizes de expressão mamários, cerebrais e lncRNA pulmão foram independentemente classificadas para lncRNAs significativas e diferencialmente expressos (p-valor 0,05, mudança expressão ≥2 vezes com base em um teste não-paramétrico de permutação [41]). Em cada tipo de câncer, encontramos pelo menos 200 lncRNAs ter expressão diferencial significativa com base nestes critérios (Figura 6A). Curiosamente, havia sobreposição entre os lncRNAs que foram diferencialmente expressos em cada tecido (Figura 6B), incluindo 8 lncRNAs que foram diferencialmente expressos em todos os três tipos de cancro (Tabela 2). Os dez lncRNAs maioria cima e para baixo-regulado para cada câncer são encontrados na Tabela S11.

(A) Número de lncRNAs que mostram as mudanças de expressão significativos. O número de lncRNAs determinado ter significativa (BH p-valor 0,05) a expressão diferencial de duas vezes ou mais relatados. barras sólidas indicam genes regulados positivamente, enquanto bares com marcas de hachuras indicam genes regulados negativamente (B) Diagrama de Venn das lncRNAs diferencialmente expressos em carcinomas humanos.

distribuição cromossômica de longos RNAs não-codificantes

Construímos um lote de distribuição para determinar a distribuição cromossômica dos 9.891 genes lncRNA em nossa lista de referência lncRNA (Tabela S3). Os lncRNAs são distribuídos ao longo do genoma e estão presentes em todos os cromossomas (Figura 7). genes e miARNs de codificação da proteína parecem compartilhar uma distribuição semelhante cromossoma (Spearman correlação p 0,05, Figura S3A). No entanto, a distribuição cromossômica de lncRNAs não se correlacionou com tanto genes ou miRNAs codificadores de proteínas (Spearman de correlação p 0,05, Figuras S3B, S3C)

gene de codificação de proteínas (n = 20.655), microRNA (n. = 1.746) e RNA não-codificante de comprimento (n = 9.891) coordenadas foram baixados da Ensembl V62 usando Biomart.

Discussão

Nos últimos anos, o conceito de genoma funcional tem foi re-escrito para incluir uma variedade de classes de recém-descobertas de ncRNA transcrições [42], [43], [44], [45]. Embora o significado funcional de RNAs não-codificadores longos tem sido reconhecido [46], [47], a abundância ea escala de mudanças de expressão lncRNA no cancro está apenas começando a vir à luz. Por esta razão, traçando a paisagem transcricional de lncRNAs em todos os tipos de tecidos e câncer humano é um passo fundamental na compreensão de significado funcional lncRNA no câncer.

Aqui, nós apresentamos o primeiro multi-tecido, cross-câncer de expressão lncRNA profiling estude. Em larga escala expressão profiling conjuntos de dados, tais como o SAGE, representam um recurso valioso para investigar o padrão de lncRNAs poliadenilados expressão. Embora esta abordagem exclui o perfil de lncRNAs não poliadenilados, que, no entanto, o perfil facilita simultânea de milhares de lncRNAs poliadenilados em uma ampla gama de tecidos e tipos de cancro humanos. Usando 272 SAGE bibliotecas, representando 26 tecidos humanos não malignas, 19 tipos de câncer humano e 9 linhas celulares de cancro, temos produzido um primeiro atlas de geração de perfis de expressão lncRNA cross-cancerosas como um recurso para esta área de rápido crescimento de pesquisa do câncer. As estimativas actuais do número de lncRNAs codificadas no genoma humano variam amplamente, variando desde ~7,000 a 23.000 ou mais [7]. Estas estimativas rivalizar com a abundância dos genes estimados 20.000 codificadores de proteínas. Nossa análise mostrou que lncRNAs estão distribuídos em todos os 22 autossomos e cromossomos sexuais, mas o padrão de distribuição não se correlacionou com tanto genes codificadores de proteínas ou miRNAs (Figura 7, Figura S3).

Exame de 72 bibliotecas SAGE de tecidos humanos normais revelou expressão lncRNA no cérebro, mama, esófago, vesícula biliar, coração, fígado, pulmão, nódulos linfáticos, músculo, peritoneu, placenta, próstata, a retina, a espinal medula, estômago, tiróide, tecido vascular, células estaminais embrionárias e branco células sanguíneas. Nós encontrar padrões amplos e altamente diferenciais de expressão lncRNA em tecidos humanos normais (Figuras 3 e 4), corroborando um relatório anterior de padrões ncRNA de tecidos específicos [34]. Por exemplo, o lncRNA NCRNA00116 foi altamente expressa nos tecidos contrácteis, nomeadamente coração (TPM = 349) e músculo (TPM = 399). LncRNAs ENSG00000230658 e ENSG00000235621 mostrou muito elevada expressão (TPM = 888) na placenta e do esôfago (TPM = 820), respectivamente, mas baixa ou indetectável expressão em outros tecidos, o que pode indicar um papel específico de tecido para estas transcrições. O associado do cérebro e supressor tumoral putativo lncRNA maternalmente expressa 3 (

MEG3

) [48], exibiu a mais alta expressão no cérebro no nosso conjunto de dados (TPM = 677), mas mostraram expressão de baixo nível em outros tipos de tecidos ( A Figura 4). Colectivamente, estes dados sugerem algumas lncRNAs pode funcionar de um modo específico do tecido.

Apenas ~ 1% dos lncRNAs foram expressas ubiquamente em todos os tecidos examinados. Estes lncRNAs constantemente expressas são reminiscentes dos padrões de genes codificadores de proteínas “limpeza” [49] expressão. As onze lncRNAs na Tabela 1 foram expressos em pelo menos 90% de 272 bibliotecas SAGE no nosso conjunto de dados, o que implica que estes transcritos podem participar em processos biológicos comuns. No entanto, o nível de expressão absoluta variou para cada tecido, por vezes, por centenas de TPM (Figura 4). Isto sugere certas lncRNAs pode ser necessário em diferentes níveis celulares em diferentes tecidos ou em condições diferentes, bem como vários genes codificadores de proteínas expressas constitutivamente [50], [51], [52]. O conceito de funcionamento lncRNAs como reguladores constitutivamente expressos foi anteriormente proposto. Por exemplo, o lncRNA

XIST

é fundamental para o desenvolvimento do sexo feminino devido ao seu papel funcional na inativação do cromossomo X [47], [53]. Concordante, um número de lncRNAs mais altamente e frequentemente expressa em nosso conjunto de dados têm associações anteriores com processos biológicos fundamentais, incluindo

NEAT1

, um andaime estrutural para formação paraspeckle [14], [54],

MALAT1

que regula splicing alternativo [31] e gene de acolhimento snorna 6 (

SNHG6

) que hospeda um snoRNA, cuja função na modificação do RNA [55]. Estes achados sugerem que lncRNAs pode ser crucial para a manutenção do tecido normal e função.

Nesta análise do tipo cross-câncer, descobrimos que lncRNAs expressos de maneira aberrante em um câncer específico também pode ser alterada em outros tipos de câncer. Por exemplo, enquanto

MEG3

é altamente expressa em tecidos normais do cérebro, este lncRNA foi fortemente diminuída em nossos conjuntos de dados de câncer de cérebro, e surpreendentemente assim na vesícula, cancros da retina e da próstata, de acordo com o papel supressor de tumor proposto para

MEG3

[48], [56], [57]. Em outro exemplo, o gene hospedeiro miR155 (

miR155HG

), um lncRNA processado para a miARN

miR-155

, foi altamente sobre-expresso em linfoma de células B consistentes com relatórios anteriores [16], mas também foi também regulada no esôfago e da vesícula biliar câncer.

RNAs não-codificantes longos são também implicados na regulação da embriogênese [58], [59], [60]. lncRNAs fetais reativados em cancros podem representar reguladores críticos da pluripotência ou crescimento celular. Por exemplo, o câncer urotelial lncRNA associada 1 papéis (

UCA1

) demonstrou, tanto o desenvolvimento embrionário e está implicado no cancro da bexiga, apoiando este conceito [61]. Em nossos conjuntos de dados, encontramos várias lncRNAs com baixa expressão em tecidos normais, mas com alta expressão em ambas as células-tronco embrionárias e câncer (Tabela S12). Embora estes lncRNAs fetais reativados representados exemplos principalmente descaracterizados,

H19

, um lncRNA bem estudado com as associações, tanto o desenvolvimento dos mamíferos e câncer [53], foi também detectado em nosso conjunto de dados. Curiosamente,

NEAT1

, que é constitutivamente e altamente expresso em tecidos normais [34], [62], com a excepção de células estaminais embrionárias, foi regulada negativamente em pulmão, fígado, e os cancros do esôfago da retina (retinoblastoma).

Desde ampliações genómicas e supressões são mecanismos-chave da desregulamentação gene no câncer, investigamos as alterações na expressão lncRNA em regiões genômicas freqüentemente alterada em mama, cérebro e câncer de pulmão. Comparação do significativamente (p 0,05) desregulada lncRNAs comuns entre os tecidos de cérebro, da mama e do cancro de pulmão revelou oito lncRNAs foram regulados diferencialmente (≥2 vezes) em comparação com o tecido normal. Curiosamente, os três destes lncRNAs – ENSG00000226380, ENSG00000230937 e ENSG00000253288 – estavam localizados em 7q32.3, 1q32.2, e 8q24.23, respectivamente, em regiões completamente desprovido de genes codificadores de proteínas. Como os genes que codificam proteínas e miARNs, é possível que a expressão diferencial lncRNA é accionada por mecanismos semelhantes de ruptura, incluindo número de cópias de ganho /perda ou padrões de metilação aberrante. Com efeito, a amplificação de nível elevado de lncRNA contendo loci, tais como cytoband 19p12 foi reportado no cancro da mama [63], enquanto que a amplificação elevado nível de 12p13.2 (que contém um número de loci lncRNA) tem sido relatada em cancro da mama, glioblastoma, astrocitoma e câncer de pulmão de células escamosas [64], [65], [66], [67]. Do mesmo modo, a expressão aberrante de um número de lncRNAs foi ligada a padrões de metilação alterados [68], [69]. No entanto, o mecanismo (s) de condução expressão aberrante lncRNA permanece em grande parte desconhecido.

Enquanto lncRNAs foram documentados por quase três décadas, a magnitude e diversidade de expressão lncRNA só recentemente foi apreciado. Estima-se que lncRNAs no número genoma humano para as dezenas de milhares de pessoas, duplicando o número de genes alvos potenciais em redes de expressão do gene do cancro. Em larga escala, cross-tecido e câncer estudos são cruciais para a compreensão da regulação da expressão lncRNA e como estas novas transcrições integrar com nossa compreensão atual do transcriptoma de mamíferos. Além disso, uma compreensão mais profunda de expressão lncRNA não só irá expandir o número de potenciais genes de câncer alvo, mas também facilitar o desenvolvimento de terapias anti-cancro novos, como a regulação de genes mediados por RNAs antisense [70] ou de segmentação interações lncRNA em proteínas [28 ].

Materiais e Métodos

SAGE bibliotecas

Este estudo usa bibliotecas SAGE publicamente disponíveis para análise de dados. Um total de 360 ​​bibliotecas SAGE, incluindo 324 do Projeto (CGAP) coleção Cancer Genome Anatomy biblioteca SAGE (GSE15309), 19 pulmonares bibliotecas epitélio brônquico (GSE3707), 13 bibliotecas cancro do pulmão (GSE7898) e 4 nunca fumador bibliotecas epitélio brônquico (GSE5473 ), foram baixados do GEO (Tabela S1). Bibliotecas construídas a partir de amostras não-humanos, bem como de longo SAGE e bibliotecas SAGE-seq não foram utilizados neste estudo. Para facilitar a comparação direta das bibliotecas SAGE foram filtrados para reter apenas as bibliotecas com 50.000 tag cru conta resultando em 272 bibliotecas adequado para análise (Tabela S2)

Long lista de referências não-codificante RNA

o gasoduto descoberta lncRNA é baseada em uma lista de referência de lncRNAs humanos com curadoria de banco de dados genômica liberação Ensembl linha 62, construída sobre o Consórcio referência Genome liberar GRCh37 [71]. A lista de referência lncRNA foi compilado a partir de 1.239 ENSEMBL (V62) IDs designados como ‘lincRNAs’ (longos RNAs não-codificantes intergênicas, uma subclasse de lncRNAs) e 8.652 IDs ENSEMBL (V62) são designados como ‘transcrições transformados »para um total de 9.891 lncRNAs (Tabela S4). Todos os lncRNAs usadas para consultar as bibliotecas SAGE foram Ensembl curadoria transcrições sem um quadro de leitura aberta previsto. As sequências de todas as transcrições lncRNA foram recuperados a partir Ensembl (V62) usando o sistema de gerenciamento de dados Biomart.

SAGE tag-to-gene mapeamento

scripts personalizados Perl foram usadas para criar uma matriz de expressão as tags únicas SAGE através das 272 bibliotecas (scripts Perl: getuniquetags.pl e makeTable_April20.pl). As tags SAGE foram mapeados para IDs UniGene usando scripts personalizados Perl e um arquivo de mapeamento curta SAGE (arquivo de mapeamento: Hs_short) baixados da SAGE Genie (https://cgap.nci.nih.gov/SAGE), para criar uma matriz de Unigene ID mapeado tags e uma matriz de etiquetas não mapeados (script Perl: extractUnmappedTags_Unigene). As duas matrizes de marcas não mapeados e Unigene expressão mapeados marcas foram independentemente filtrada para reter apenas tags com contagens de tags matérias de 2 ou mais, aparecendo em pelo menos 3 bibliotecas SAGE.

Para o Unigene mapeados etiquetas, identificadores de genes eram atribuídos a IDs UniGene usando SAGE Genie. A partir deste conjunto de dados, etiquetas contendo conhecido ou lncRNAs candidatos foram extraídas manualmente. lncRNAs candidatos são Unigene identificações com nenhum nome gene ou combinando uma ou mais das seguintes descritores: ‘não codificante “,” não-proteína “,” ADNc “,” locus de transcrito’, ‘IMAGE clone’, ‘CHR (#) ORF (#) ‘,’ ‘,’ família hipotética com semelhança de sequência ‘,’ FLJ (#) “, ou” KIAA (#) “. Os candidatos lncRNA marcas foram fundidas com as tags não mapeados e usado como um único conjunto de dados a partir do qual a identificar sequência corresponde à lista de referência lncRNA.

O SeqMap programa de mapeamento tag-to-gene foi usado para identificar perfeita (0 descasamentos) tag corresponde às sequências de transcrição a partir da lista lncRNA referência. Marcações de mapeamento para lncRNAs foram filtrados para reter os correspondentes à frente ( «sentido») costa, enquanto partidas tag reversa não corroboram a expressão dos lncRNAs candidatos e não foram mais analisadas. As etiquetas de cadeia para a frente que foram mapeadas para lncRNAs então combinada com as etiquetas UniGene que mapeados para lncRNAs para criar uma matriz de SAGE expressão Tags mapeamento para lncRNAs. Esta matriz foi remapeado para a lista de referência lncRNA para confirmar precisas tag-to-lncRNA jogos.

pré-processamento de dados

Nos casos em que várias tags mapeados para o mesmo lncRNA, as marcas foram comprimidas pela soma dos tag conta para capturar todas as variantes lncRNA transcrição e isoformas (script Perl: sumRows.pl). SAGE tags de mapeamento para mais do que uma lncRNA foram descartados. contagens de tag-primas para cada biblioteca SAGE foram normalizados para TPM para facilitar a comparação adequada entre as bibliotecas. matrizes de expressão adicionais incluíram apenas bibliotecas SAGE de interesse para uma determinada análise, ao remover todas as colunas com bibliotecas SAGE indesejados. Estes submatrizes foram filtrados para remover lncRNAs com expressão sem ser detectado. Quando um tecido ou cancro foi representado por mais do que uma biblioteca de SAGE, o TPM normalizada-se a média. Finalmente, todos os IDs V62 ENSEMBL foram levantadas para Ensembl V63, qualquer falta ou transferido IDs foram removidos da lista lncRNA final.

A análise estatística

Para garantir a significância estatística na comparação entre tecidos normais com tecidos cancerosos

Deixe uma resposta