PLOS ONE: Intra-Gene DNA metilação variabilidade é um prognóstico marcador Clinicamente Independent em Cancers

Feminina

Abstract

Nós introduzir uma medida novela per-gene de intra-gene de metilação do DNA variabilidade (IGV) com base na Illumina Infinium HumanMethylation450 plataforma, que é prognósticos preditores independentes de bem-conhecidos da evolução clínica. Usando IGV, derivamos um painel gene assinatura prognóstico robusta para o cancro do ovário (OC,

n

= 221), o que valida em dois conjuntos de dados independentes de Clínica Mayo (

n

= 198) e TCGA (

n

= 358), com significância de

p

= 0,004 em ambos os conjuntos. A assinatura prognóstico gene-OC painel é constituído por quatro grupos de genes, que representam processos biológicos distintos. Mostramos as medições IGV destes grupos de genes são, provavelmente, um reflexo de uma mistura de heterogeneidade intra-tumoral e o factor de transcrição (TF) de ligação /actividade. IGV pode ser usado para prever o resultado clínico em pacientes individualmente, proporcionando um substituto leitura dos processos da doença de difícil medida

Citation:. Bartlett TE, Jones A, Goode EL, Fridley BL, Cunningham JM, Berns EMJJ, et ai. (2015) Intra-Gene DNA metilação variabilidade é um Clinicamente Independent prognóstico marcador em cancros das mulheres. PLoS ONE 10 (12): e0143178. doi: 10.1371 /journal.pone.0143178

editor: Dajun Deng, Peking University Hospital do Câncer e do Instituto, CHINA

Recebido: 05 de outubro de 2015; Aceito: 30 de outubro de 2015; Publicação: 02 de dezembro de 2015

Direitos de autor: © 2015 Bartlett et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: dados de metilação do DNA para o OC principal dados em conjunto analisado aqui foram depositados na expressão gênica Omnibus (GEO), sob o número de acesso GSE72021

Financiamento:. Este trabalho foi financiado (MW, AJ) pelo Sétimo Programa-Quadro da União Europeia ( FP7 /2007-2013) sob concessão concordância de número 305428 (Project EpiFemCare), pelo Instituto Nacional de Pesquisa da Universidade de Saúde College London Hospitals Biomedical Research Centre, e pela Recurso Eva eo Translational Research Network europeia em Oncologia ginecológica (ENTRIGO) do Sociedade Europeia de Oncologia ginecológica (ESGO). TEB recebeu financiamento da Engenharia e Ciências Físicas Conselho UK Research (ESPRC) e do Conselho de Investigação Médica do Reino Unido (MRC) via UCL complexa. ELG recebeu financiamento do Fred C. e Katherine B. Fundação Andersen, NIH concede R01-CA122443, P50-CA136393 (a Mayo Clinic cancro do ovário SPORE) e P30-CA15083. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Competir interesses:.. Os autores declararam que não existem interesses conflitantes

abreviações : BRCA, O cancro da mama carcinoma invasivo; DNAM, metilação de DNA; CE, câncer endometrial; ENCODE, Enciclopédia de elementos de DNA; FDR, a taxa de descoberta False; ITH, heterogeneidade intra-tumoral; OC, O câncer de ovário; IGV, a variabilidade genética intra de metilação do DNA; TCGA, The Cancer Genome Atlas; TF, fator de transcrição; UCEC, uterina corpus endometrial carcinoma

Introdução

As diferenças de metilação do DNA (DNAM), os níveis estão entre as primeiras alterações na carcinogénese humana [1] e são uma marca registrada de câncer [2], oferecendo a potencial para novas estratégias para prever o resultado da biologia e cancro. As diferenças epigenética que essas alterações originem são mais estáveis ​​do que as diferenças no nível de expressão do gene. Os níveis de expressão de genes, medida pelo RNA, estão sujeitos a variação periódica e transitória (tal como a variação diurna e instabilidade mRNA), que não se aplicam a DNAM. A identificação de indicadores confiáveis ​​de diferenças nos padrões DNAM pode proporcionar uma vantagem valiosa para o desenvolvimento de biomarcadores de câncer baseados em DNA em tecidos e fluidos corporais.

O câncer de ovário (OC) e cancro do endométrio (CE) são os mais comuns ginecológicos cancros [3]. Apenas um em cada três pacientes com OC estágio avançado sobrevivem por cinco anos após o diagnóstico inicial [4]. Muito pouco se sabe sobre a biologia OC e como manipular esta doença terapeuticamente. DNAM alterações são importantes no cancro [5]; o epigenoma é uma interface entre o genoma e do ambiente [6, 7], e, portanto, DNAM mudanças podem medir a exposição a fatores de risco ambientais de câncer. biomarcadores DNAM que representam um substituto para padrões de interação gene ter sido previamente associado com o resultado clínico em uma ampla variedade de cânceres [8], bem como especificamente em cancros das mulheres [9].

Amostra de provar variabilidade DNAM em locais genómicos específicos é conhecida por ser importante no desenvolvimento do cancro [10, 11], e foi recentemente mostrado que um aumento na variabilidade intra-gene de DNAM (IGV), uma medida da amostra dentro de variabilidade metilação ( Fig 1a), é altamente associado com tecidos cancerosos em comparação com saudável [12]. metilação diferencial é o método vulgarmente utilizado pelos quais os níveis de metilação são comparados entre os tecidos, fenótipos e condições experimentais (equivalente a expressão diferencial de genes). Aqui, nós desenvolvemos uma assinatura prognóstico com base em IGV que é independente de características de prognóstico clínico bem conhecidos, e mostram que esta assinatura prognóstico IGV é provável uma leitura substituto reflectindo uma mistura de intra-tumoral heterogeneidade e factor de transcrio (TF) de ligação /actividade .

(a) o nível de metilação média sobre uma região genômica específica é calculado separadamente para o TSS200 (promotor) e regiões genômicas corpo gene. A curva azul indica a nova posição da curva de vermelho após uma mudança global aditivo no nível de metilação, o que pode ser devido a factores experimentais tecnológicos ou outras, e a diferença entre as linhas vermelhas e azuis horizontais (níveis médios) ilustra o efeito da presente mudança no nível de metilação média. (B) A variabilidade intra-metilação do gene (IGV) é calculado a partir da variação em torno do nível de metilação significativo, isto é, a partir das linhas verticais a tracejado, e é semelhante calculados separadamente para o TSS200 e regiões genómicas do corpo do gene. As linhas verdes verticais são mudou muito pouco em comparação com as linhas vermelhas verticais, ilustrando que uma tal mudança aditivo global no nível de metilação média tem muito menos efeito sobre IGV, que é, portanto, referido como uma “medida de auto-calibração”.

resultados

comparação de robustez previsão de medidas de metilação por-gene nos dados

para avaliar a eficácia e robustez dos IGV em comparação com os níveis médios de metilação, foram comparados quatro per- medidas de metilação de genes, com base no nível de metilação significativo e IGV (Fig 1). Para cada gene, foi calculado o nível de metilação média e IGV, separadamente para o promotor (TSS200) e regiões do corpo gene, usando as especificações da plataforma Illumina Infinium HumanMethylation450 dos CpGs nessas regiões para cada gene. Consideramos diferentes regiões genômicas separadamente, porque os padrões de metilação variam muito de uma região genômica para o outro, e o efeito do nível de metilação na regulação dos genes varia de acordo com a região genômica. As quatro medidas que, em comparação, são as seguintes:

TSS200 média metilação

TSS200 IGV

body Gene significa metilação

body Gene IGV

Foram obtidos perfis DNAM genoma escala, através da plataforma Illumina Infinium HumanMethylation450, de 218 amostras OC primários. Para cada uma das quatro medidas descritas, usamos ‘Elastic Net “[13, 14] para encontrar uma selecção de prognóstico de genes. rede elástica foi encontrado para ser um método de modelagem linear ideal para identificar os grupos de genes que actuam em conjunto, como parte de um processo biológico comum [15]. É um método de regressão que ‘escolhe’ o conjunto de genes qual o modelo que melhor os dados, tentando incluem como alguns genes no modelo possível, assegurando ao mesmo tempo que o modelo prediz o resultado de interesse com a maior precisão possível. Ao fazer isso, ele descarta genes que não fornecem informações úteis, ou que fornecem informações repetidas. Como o nosso objectivo é encontrar um conjunto mínimo de genes para usar como uma assinatura de prognóstico, é importante notar que, entre estes genes, haverá grupos de genes para os quais a sua IGV contém informação redundante ou sobreposição, e haverá grupos de genes para os quais IGV contém informação complementar para cada gene. Por isso optamos por utilizar a técnica de rede elástica para discernir com precisão um agrupamento tal não redundante de genes como um conjunto mínimo de previsão de muitas possibilidades, o genoma de largura. Notamos que, embora esta metodologia pode parecer complexo, neste contexto, a metodologia mais simples não seria capaz de discernir esses agrupamentos parcimoniosos de genes em que a informação de sobreposição e redundantes são mantidos a um mínimo.

Foram avaliadas a eficácia do medidas de metilação por-gene como medidas de prognóstico, dividindo aleatoriamente os dados em duas partes: um “conjunto de treino”, e um “conjunto de teste ‘. Net elástico foi usado para selecionar genes e ajustar um modelo para o conjunto de treinamento ea capacidade desta seleção genética e modelo para prever cegamente desfecho sobrevida do paciente (ajustado para co-variáveis ​​clínicas) foi avaliada utilizando o test-set. Isso foi repetido 2001 vezes, e de forma significativa grupos de previsão selecionados de genes foram definidos de acordo com a taxa de descoberta de falsas (FDR) ajustada [16]

p

-valor (ie, FDR

q

-valor) 0,1 (Fig 2a). Como se mostra na fig 2b, apenas o corpo do gene IGV prevê bem.

(a) visão geral da metodologia de comparação das quatro medidas por metilação do gene. (b) os resultados desta comparação. (C) visão geral da metodologia para o cálculo do cancro do ovário IGV escore prognóstico.

Derivação de um câncer assinatura prognóstico de ovário e IGV escore prognóstico

Nós usamos IGV para derivar uma OC DNAM prognóstico assinatura (Figura 2c), com base no gene IGV-corporal (daqui em diante simplesmente referido como ‘IGV’). Fizemos isso por meio da determinação de um consenso sobre um conjunto de genes preditivos de sobrevivência, seguindo o mesmo procedimento dos dados dividindo-se em conjuntos de treinamento e teste, e depois avaliar a selecção genética e modelo ajustado para a sua capacidade de prever cegamente desfecho sobrevida do paciente (ajustado para co-variáveis ​​clínicas) no conjunto de teste. A fim de assegurar a convergência para um resultado estável, fizemos 10

5 tais partições de dados, cada uma resultante de uma selecção de previsão de genes. Destes, 8281 foram encontrados como significativa (FDR

Q

0,1), e a significância para cada gene foi então calculado com base no número de modelos significativos na qual esse gene apareceram. 679 genes foram selecionados como este para inclusão na assinatura prognóstico OC em um nível de significância de FDR

q Art 0,05, com o menos significativo gene presente em 1057 fora de 8281 modelo se encaixa. O top 100 mais significativo destes genes são apresentados nos Quadros Complementares (S1 Arquivo).

Genes muitas vezes atuam em conjunto como parte de vias biológicas e processos. Assim, é de esperar que estes genes de assinatura 679 OC de prognóstico pode ser representado por um número menor de processos biológicos subjacentes, as quais são importantes para a progressão da doença. O agrupamento de genes com as medições experimentais semelhantes, utilizando uma metodologia de agregação está bem estabelecida como uma abordagem eficaz para determinar marcadores prognósticos clinicamente relevantes [17, 18]. Assim, para descobrir esses agrupamentos nos 679 genes do nosso OC assinatura prognóstico, realizou-se um consenso agrupamento [19], para identificar grupos de genes com padrões semelhantes de IGV em todo pacientes. Cada agrupamento identificado desta maneira revela uma tendência IGV diferente, e, portanto, pode corresponder a um processo biológico subjacente diferente, o que dá origem ao padrão de IGV observado naquele conjunto. O agrupamento foi feita separadamente para genes que foram associados individualmente com pior evolução sobrevida do paciente para aumentar a IGV ( ‘hiper’ genes) e para a diminuição IGV ( “hipo” genes). O resultado foi quatro grupos: dois dos genes hiper, “hiper 1 ‘chamados clusters e’ hiper 2 ‘, e dois dos genes hipo,’ hipo 1 ‘chamados clusters e’ hipo 2 ‘; eles são mostrados nas Tabelas complementares (S1) do ficheiro. O IGV média dos genes de cada um dos quatro grupos dá uma IGV ‘pontuação de cluster’, para cada grupo e para cada paciente, que são levados para serem representativos das diferentes tendências IGV e processos biológicos subjacentes correspondentes, dentro do prognóstico OC assinatura.

em seguida, calculou um escore prognóstico IGV, utilizando um modelo de Cox multivariado proporcional perigos (representando também para co-variáveis ​​clínicas) para as quatro contagens de cluster IGV. Não foi possível montar um modelo desse tipo para o conjunto completo de 10014 genes, porque há muitas mais variáveis ​​de previsão (genes) do que amostras [20]. No entanto, reduzir a assinatura prognóstico para 4 contagens de cluster, ou seja, 4 preditores, permite que o modelo de riscos proporcionais de Cox a ser montados. Isso resulta em um coeficiente de modelo para cada cluster de pontuação /preditor; estes são usados ​​para calcular o escore prognóstico IGV. O escore prognóstico IGV é um indicador de prognóstico de um número para uma única amostra /paciente, e notamos que ele deve ser calculado com base em todos os quatro contagens de cluster, a ser significativamente prognóstico.

A mediana deste prognóstico IGV escore foi utilizado para dividir os pacientes dos principais dados OC ajustaram-se em melhores e piores grupos prognósticos, mostrados na Fig 3A e 3B. O escore prognóstico IGV foi validado em dois conjuntos independentes de cancros derivados do trato mülleriano. Um novo OC definido a partir da Clínica Mayo (

n

= 198), confirmou a capacidade de prognóstico do escore prognóstico IGV tanto univariada (Fig 3c) e multivariada (Fig 3d) analisa. A fim de testar se o escore prognóstico IGV é limitado apenas para OC, ou se também é preditivo em outros cancros que surgem a partir da mesma estrutura embrionária (ou seja, o duto de Müller), aplicamos a nossa pontuação de prognóstico a um corpo uterino disponível publicamente carcinoma endometrioid (UCEC) definir a partir de

The Sims Cancer Genome Atlas (TCGA) [21] (

n

= 358). Mais uma vez, tanto univariada (Fig 3e) e multivariada (Fig 3-F) analisa, fomos capazes de validar o escore prognóstico IGV

(a), (c) e (e):. A ​​comparação das curvas de sobrevida dos grupos definida pelo escore prognóstico IGV, em: (a) o principal conjunto de dados OC, (c) da Mayo Clinic conjunto de validação OC, (e) o câncer uterino conjunto de validação TCGA. Os grupos são divididos pelo escore prognóstico IGV médio derivado no principal OC DNAM dados em conjunto. A taxa de risco (

HR

) é exibido com 95% de C.I. entre parênteses, com a correspondente

p

-VALOR calculado pela regressão de Cox univariada. (D), (e) e (f):. Multivariada Cox regressão comparando os mesmos grupos definidos pelo escore prognóstico IGV

Notamos que o uso do escore prognóstico médio do CO principal dados em conjunto (conjunto de treinamento) para dichotomise os pacientes do OC Mayo e conjuntos de validação TCGA UCEC torna esta uma verdadeira avaliação da capacidade de prognóstico desta metodologia. Isto porque por este método, os pacientes dos conjuntos de validação são classificadas um por um para uma melhor ou pior grupo de prognóstico, em termos de apenas suas medições DNAM. Esta classificação é feita de acordo com um limite ou fronteira que divide esses grupos de prognóstico (ou seja, a mediana do escore prognóstico na formação de dados-set), e este limite é definido de forma totalmente independente destas validação conjuntos de dados.

IGV e intra-tumor heterogeneidade

Nós sugerimos que as pontuações de cluster IGV são cada representante de diferentes processos biológicos, importante para a evolução da doença. Mas o que são esses processos? Para tentar encontrar algumas respostas para essa pergunta, primeiro a hipótese de que a heterogeneidade intra-tumoral pode ser um reflexo da IGV. O tema da heterogeneidade intra-tumor está recebendo uma grande quantidade de atenção, descobrindo muita diversidade espacial e temporal em processos genômicos dentro de tumores individuais [22]. Idealmente, o methylome ADN de células individuais a partir da mesma amostra de tumor deve ser analisada para resolver esta questão. Como uma abordagem alternativa, que usamos aqui cruzada amostra variância metilação (ou seja, significa variância metilação de CpG individuais de uma região específica do gene de corpo), como uma medida da pressão intra-tumoral metilação heterogeneidade, a fim de avaliar a forma como este varia em função da IGV (Fig 4a). Cross-metilação amostra variabilidade é também uma medida de quão semelhante os perfis de metilação são para o gene, através de amostras. Se cross-amostra metilação variabilidade foram um reflexo da IGV, como IGV aumenta, seria de esperar para ver uma variação consistente de aumento do cross-amostra de metilação (Fig 4b, espera ajuste proporcional). No entanto, em vez vemos um padrão em que para baixo IGV, cross-amostra de variância metilação aumenta, enquanto em alta IGV, cross-amostra variância metilação diminui novamente e é muito baixo para os valores mais altos IGV. A fim de validar esta ainda mais, foram analisados ​​dois conjuntos de dados adicionais, para os quais foram tomadas várias amostras de diferentes regiões do mesmo câncer. O primeiro conjunto de dados adicional é derivado a partir de cancros do endométrio, onde amostras independentes foram tomadas a partir de 2 ou 3 locais de cancro e metástases primários, em cada um dos 10 pacientes (Figura 4c, uma curva de melhor ajuste é mostrado por paciente). A segunda é derivado a partir de cancros da próstata, onde 8 amostras independentes foram tomadas a partir do mesmo tumor, a partir de cada um dos cinco doentes de cancro [23] (Figura 4D, uma curva por paciente). O padrão destas curvas é quase idêntica aos estudos de heterogeneidade intra-tumorais, no estudo OC principal que foi usado para identificar a assinatura prognóstico OC (Figura 4b), e em amostras basais do-cancro da mama carcinoma invasivo TCGA (BRCA) conjunto de dados (4e Fig). A sobreposição de genes em todas as regiões destas parcelas é também altamente significativa entre os conjuntos de dados (Fig 4f-4H).

(a) a variabilidade transversal amostra de metilação (heterogeneidade intra-tumoral) e são calculados em IGV diferentes e complementares indicações. O calor exibe o perfil de metilação de um único gene (eixo horizontal), em várias amostras (eixo vertical). (B) – (e) um padrão característico de (heterogeneidade intra-tumor) elevada variabilidade inter-amostra quando IGV é baixo, e vice-versa, é observado de forma consistente em diferentes estudos: (b) Principal OC dados em conjunto, (c ) O câncer endometrial intra-tumor heterogeneidade de dados em conjunto, o cancro da próstata (d) intra-tumor heterogeneidade de dados em conjunto, (e) BRCA basal dados em conjunto. (F) – (h) A sobreposição de genes em cada região de (b) com os genes das regiões equivalentes de (c) – (e) é altamente significativa. Em (c) e (d), cada linha refere-se a amostras de um único paciente, e é um melhor ajuste da curva equivalente ao mostrado em (b) e (e). Em (B), odds ratio e

P

-Valores na parte superior do gráfico mostra o enriquecimento dos genes de cada grupo, de cada lado da mediana IGV da assinatura prognóstico. Abreviaturas:. ITH (heterogeneidade intra-tumoral), OC (carcinoma de ovário), BRCA (câncer de mama carcinoma invasivo)

Os genes de hiper cluster 1 são um pouco sobre-representados na metade esquerda da figura 4b, onde IGV é menor, e cross-amostra metilação heterogeneidade é tipicamente mais elevados. Isto sugere que o aumento da IGV destes genes está associado com a heterogeneidade intra-tumoral. No entanto, os genes de aglomerados de queda hiper e hipo 2 2 principalmente na região de alta e baixa IGV cruzada amostra variabilidade metilação (para a direita da Fig 4b). Isto significa que, para os genes de estes aglomerados, os seus perfis de metilação tendem a ser semelhante em diferentes amostras a partir do mesmo tumor, ou a partir de diferentes tumores. No caso de hiper grupo 2, isto corresponde a elevada variabilidade metilação dentro de um único gene, em casos de mau prognóstico, e que esta variabilidade é consistentemente similar ao longo do tumor e entre tumores. Assim, os genes de hiper cluster 2 mostram alta IGV em casos de mau prognóstico, ainda parecem ser independentes da heterogeneidade intra-tumoral. Portanto, especula-se que o aumento da IGV destes genes é um fenómeno inerente de células de tumor, independente da heterogeneidade intra-tumoral. Isto significa que o assinatura prognóstico IGV combina medidas de heterogeneidade intra-tumoral, com aqueles de fenómenos inerentes independente, de células de tumor. Notamos que os termos “hiper” e “hipo”, aqui referem-se a mudar, ao invés de nível absoluto. Por exemplo, S1 figura mostra que o aglomerado hipo 2 tem a maior IGV de qualquer agrupamento; No entanto, o IGV deste aglomerado é realmente menor em baixa comparado com bons prognósticos casos.

Os genes que definem um hipo aglomerado tem a maior média transversal amostra metilação variabilidade (Fig 4), bem como a maior média nível de metilação (S2 Fig), eo baixo IGV dos hipo 1 genes está associada com mau prognóstico. A princípio, parece difícil de explicar que a má cancros prognósticos têm menor IGV nos genes hypo1, no entanto, esses genes hypo1 também representam alta amostra-sample metilação heterogeneidade. Para explicar isso, foi utilizada uma medida de CpG-CpG variabilidade metilação, que nós chamamos a média derivado [12], que é calculado como a diferença absoluta média nos níveis de metilação entre CpGs adjacentes do gene-corpo de um gene, em um para uma única amostra. A matriz Illumina HumanMethylation 450K mede os níveis de metilação de loci CpG específica, na média de uma amostra mista-up de muitas células. Fig 5A e 5B mostra dois exemplos de como a elevação metilação variabilidade no nível de uma única célula pode se manifestar em medições obtidas utilizando esta tecnologia.

A matriz 450K fornece medições de metilação de uma amostra mista-up de várias células. (A) Um exemplo de um padrão de metilação que é altamente variável, de uma forma semelhante em células. Isto leva a uma baixa heterogeneidade cruzada da amostra, e alta IGV, como no aglomerado hiper 2. (b) Um exemplo de um padrão de metilação que é altamente variável, mas de um modo heterogéneo através das células. Isto conduz a alta heterogeneidade cruzada da amostra, no entanto, o efeito líquido de média dos perfis de metilação em toda a amostra misturada de muitas células dá uma medição com baixo IGV, como no aglomerado hipo 1. (c) Uma medida de CpG-CpG variabilidade metilação , calculada como o derivado de média, ou a diferença absoluta média no nível de metilação entre CpGs adjacentes. (D) A variabilidade da medida significativo-derivado através de amostras quantifica a heterogeneidade da variabilidade metilação CpG-CpG. hiper Cluster 2 é baixo de acordo com (d), e, portanto, corresponde a um padrão, tais como (a). hipo cluster 1 é elevada de acordo com a (d), e, portanto, corresponde a um padrão como (b).

No exemplo da Fig 5a, vemos que há pouca heterogeneidade célula-célula, embora haja uma grande variabilidade dentro de um gene. Portanto, isso resulta em medições de alta IGV, e baixa variabilidade inter-amostra de metilação, como podemos ver na hiper agrupamento 2. Em seguida, Fig 5b mostra um exemplo no qual há uma variabilidade muito célula-célula, assim como grande variabilidade dentro de um gene . O resultado é que o cross-amostra metilação variabilidade das medições de matriz é alto, mas porque ‘média out’ os perfis de metilação altamente variáveis ​​através das células mistas-up na amostra, o resultado líquido é uma medida com baixa IGV. Para examinar se esta hipótese é plausível, usamos a medida derivada média de CpG-CpG metilação variabilidade (Fig 5c). Considerando como heterogêneo essa variabilidade CpG-CpG está do outro lado amostras (Fig 5d), somos capazes de confirmar que nos genes de hipo cluster 1, a variabilidade metilação CpG-CpG tende a ser mais diferentes entre células diferentes do que em qualquer outro cluster , como refletido pela grande variação dos valores médios derivativos. Também são capazes de confirmar a partir da Figura 5D que nos genes de hiper grupo 2, a variabilidade de metilação de CpG-CpG tende a ser menos diferentes entre diferentes células do que em qualquer outro grupo, conforme indicado pela baixa variância da derivada significativo. Assim, estes dados suportam o modelo mostrado na Figura 5A e 5B para genes em hiper cluster 2 e hipo 1, respectivamente.

O papel funcional da actividade de factor de transcrição no IGV

Como os genes que compreende cluster de hiper 2 parecem mostrar o mesmo IGV na maioria das células do tumor, mas o alto IGV da hiper cluster de 2 genes está associada com mau prognóstico, consideramos a hiper cluster 2 IGV ser um “fenômeno inerente de células de tumor consistente ‘ , que é susceptível de ser regulada pelo diferencial de ligação de factores de transcrição (TF). Portanto, nós examinamos ligação às regiões do corpo gene dos genes assinatura prognóstico OC TF, e testou a correlação de expressão TF com o IGV dos genes que se ligam a (em um conjunto TCGA dos cancros da mama basal). Descobrimos que cada cluster assinatura prognóstico mostra seu próprio padrão característico de TF de ligação (Fig 6a), que podemos hipótese está associada com os processos biológicos responsáveis ​​pelo padrão característico de IGV observado em que cluster.

(a ) taxa de descoberta Falso ajustado

p

-Valores e odds-ratio (OR) mostram enriquecimento de ligação de fatores de transcrição específicos (TFS), para as regiões do corpo gene dos genes de cada cluster. TFs para o qual a ligação é significativamente sobre ou sob enriquecido (teste exato de Fisher, FDR

q Art 0,05) são de cor verde e vermelho, respectivamente. (B) mostram que FT correlação significativamente mais positiva com IGV dos genes que se ligam a, em comparação com os genes que eles não se ligam a. (C) correlação TFs que mostram significativamente mais negativa com IGV dos genes que se ligam a, em comparação com os genes que eles não se ligam a. (D) TF que são significativos de acordo com (a) e ou (b) ou (c); TFs com relevância conhecidos são indicados com uma referência para o estudo relevante. A falta de enriquecimento de ligação para os genes de hypo2 aglomerado TF, é um reflexo do pequeno número (19) dos genes neste agrupamento.

ligação do factor de transcrição local informação, obtida a partir da CODIFICAR ( Enciclopédia de elementos de ADN) projecto [24], estava disponível para as regiões do corpo do gene de todos os genes representados na matriz Ilumina HumanMethylation 450K, por 55 factores de transcrição. Foi testada cada uma destas 55 FT, para significativamente aumentada ou diminuída de ligação para os genes de cada cluster assinatura prognóstico. hipo Cluster 2, consiste somente de 19 genes e, portanto, não seria de esperar para ver muitas correlações significativas, devido ao pequeno tamanho da amostra. Mas, curiosamente, por hiper cluster 2 (composto por genes cujos níveis de metilação variam pouco em toda a tumores, mas apresentam maior IGV), vemos que 20% (11/55) do TFs observadas apresentam significativamente mais ligação a estes genes do que o esperado, enquanto 16 % apresentam significativamente menos vinculativo do que o esperado. Para os agrupamentos de genes para os quais DNAM varia entre /dentro dos tumores e têm geralmente baixos IGV (clusters hiper 1 e hipo 1), nem uma única TF apresentaram maior do que o esperado de ligação, enquanto que 27% e 38% dos TFs apresentam menor do que o esperado ligação a os genes que compreendem um conjunto hiper e hipo 1, respectivamente. Isto é consistente com a ideia de que TF vinculativo está envolvida em processos distintos e diferentes associados com IGV e heterogeneidade metilação dentro de uma amostra.

Também queríamos testar a correlação real de expressão dos TFs com IGV dos genes que se ligam a, e os genes que não se ligam a, genoma de largura. Para fazer isso, utilizou-se um conjunto TCGA dos cancros da mama basais, para as quais existem dados 450k metilação, bem como dados de expressão. Já estabelecemos um elevado grau de semelhança no comportamento dos nossos genes assinatura prognósticos em OC e estas amostras basais TCGA BRCA (Fig 4). Além disso, tem sido demonstrado de forma abrangente pelo consórcio que TCGA de alto grau cancros basais do ovário e uterino e BRCA serosas são extremamente molecularmente semelhante [25]. Fig 6b e 6c mostram TFs com significativamente mais positiva e mais negativa, correlação com IGV dos genes que se ligam a, em comparação com os genes que não o fazem. É interessante que os dois fatores de transcrição mais bem classificados de acordo com o aumento da correlação positiva de sua expressão com IGV em genes ligados,

Rad21

e

Brg1

(

SMARCA4

), são partes da cromatina complexos modificação relevante para conter identidade da célula [26, 27]. Em particular,

Brg1

(

SMARCA4

) foi mostrado recentemente para ter particular relevância para o cancro do ovário de pequenas células [28-30]. A sobreposição entre o TFs que mostram padrões de ligação significativamente diferentes em relação aos marcadores moleculares de prognóstico OC, e que TFs visor alterou significativamente correlação da sua expressão com IGV de genes que se ligam a, é mostrado na Fig 6d. Máximo de detalhes relevantes já foi relatado sobre a maioria destes TFs (referências indicada na figura): ou a sua ligação é influenciada por metilação (ou

vice-versa

), ou eles estão envolvidos com a remodelação da cromatina em células-tronco . Os TFs mostrados na Fig 6d são importantes para os processos subjacentes a progressão da doença, os quais são associados com a assinatura de prognóstico OC (TFS relevante conhecida são indicados com referência ao estudo relevante [26, 31-40]). Portanto, a hipótese de que IGV, no nosso OC painel gene assinatura prognóstico, representa uma medida substituta para a sua actividade eo seu papel na transformação doença.

Associação de CpGs assinatura prognósticos com ilhas CpG e regiões potenciador

a localização de CpG em relação ao ilhas CpG (CGI) é conhecida por ser um factor determinante importante do papel funcional destas CpG [41]. Testamos para o enriquecimento de sondas anotados para as regiões CGI, ‘terra’ e ‘prateleira’ entre todas as sondas corpo gene anotados, “ilha”, bem como sondas anotados aos órgãos de genes dos genes de nossa assinatura prognóstico, e dos quatro grupos . Enquanto descobrimos que sondas corpo gene foram em geral significativamente empobrecido para sondas nessas regiões CGI, o oposto era verdade para os órgãos de genes de nossa assinatura prognóstica (ver quadros suplementares em arquivo S1). Este efeito parece ser em grande parte impulsionado pelo segundo grupo. Isto indica um papel proeminente para ilhas CpG nas áreas relevantes dos genes de nossa assinatura prognóstico.

Localização do CpGs relação ao potenciador regiões também é conhecido por ser relevante para o papel funcional da CpGs. Testamos se houve enriquecimento de sítios de metilação anotados para potenciadores em corpos de genes em geral, ao concluir que não é, como seria de esperar. Em seguida, testou-se o enriquecimento de intensificador de forma semelhante nos corpos de genes assinatura de prognóstico, e os corpos de genes dos aglomerados individuais.

Deixe uma resposta