PLOS ONE: Identificação de supressores tumorais e oncogenes de genômica e epigenéticas recursos no ovário Cancer

Abstract

A identificação de alterações genéticas e epigenéticas de células de tumor primário tornou-se um método comum para identificar genes críticos para o desenvolvimento e progressão do câncer. Procuramos identificar as aberrações genéticas e epigenéticas que têm o maior impacto sobre a função do gene dentro do tumor. Primeiro, realizamos uma análise bioinformática de variação do número de cópias (CNV) e metilação do DNA que cobre a paisagem genética de células tumorais do cancro do ovário. Foram examinados separadamente CNV e de metilação do DNA de 42 amostras de ovário seroso primários de câncer utilizando ensaios de MOMA-Roma e 379 amostras de tumores analisados ​​pelo Cancer Genome Atlas. Nós identificamos 346 genes com deleções significativas ou amplificações entre as amostras tumorais. Utilizando dados de expressão de genes associados prevemos 156 genes com número de cópia alterada e mudanças correlatas em expressão. Entre estes genes CCNE1, POP4, UQCRB, PHF20L1 e C19orf2 foram identificados dentro de ambos os conjuntos de dados. Estávamos interessados ​​especificamente na cópia variação número como nossa propriedade genômico de base na previsão de supressores tumorais e oncogenes no tumor de ovário alterada. Nós, portanto, identificar alterações na metilação do DNA e expressão de todos os genes amplificados e excluídos. Nós estatisticamente definir supressor de tumor e características oncogênicos para estas modalidades e realizar uma análise de correlação com a expressão. Nós previmos 611 potenciais oncogenes e supressores tumorais candidatos ao integrar esses tipos de dados. Genes com uma forte correlação para metilação mudanças de expressão dependentes expostas em diferentes aberrações no número de cópias incluem CDCA8, ATAD2, CDKN2A, RAB25, AURKA, BdP1 e EIF2C3. Nós fornecemos cópia número variação e análise de metilação do DNA de mais de 11.500 genes individuais que cobrem a paisagem genética de tumores de câncer de ovário. Mostramos a extensão das alterações genômicas e epigenéticos para supressores de tumor conhecidos e oncogenes e também usar esses recursos definidos para identificar potenciais candidatos do gene do cancro do ovário

Citation:. Wrzeszczynski KO, Varadan V, Byrnes J, Lum E, Kamalakaran S, Levine DA, et ai. (2011) Identificação de supressores tumorais e oncogenes de Genômica e epigenética Recursos no cancro do ovário. PLoS ONE 6 (12): e28503. doi: 10.1371 /journal.pone.0028503

editor: Xin-yuan Guan, The University of Hong Kong, China

Recebido: 25 de julho de 2011; Aceito: 09 de novembro de 2011; Publicação: 08 de dezembro de 2011

Direitos de autor: © 2011 Wrzeszczynski et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo Departamento de Defesa W81XWH-05-1-0068, a Fundação Starr (https://www.starrcancer.org) e Philips Research América do Norte. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. Parte desta pesquisa é financiada pela Philips Research América do Norte. Vinay Varadan, Sitharthan Kamalakaran e Nevenka Dimitrova são funcionários da Philips Research América do Norte. Não há patentes, produtos em desenvolvimento ou produtos comercializados a declarar. Isto não altera a adesão dos autores para todos os PLoS ONE políticas de dados e materiais de compartilhamento, como detalhado em linha no guia para os autores.

Introdução

Nos Estados Unidos, haverá mais de 22.000 novos casos de câncer de ovário em 2011. Destes, cerca de 14.000 vai sucumbir à doença. A fim de melhor atender essas mulheres e melhorar a sobrevivência, o nosso objectivo é determinar as alterações moleculares ocorridas nos tumores dos pacientes, e para ser capaz de interpretar o significado dessas mudanças têm sobre o crescimento e desenvolvimento do tumor. Este crescimento aberrante é um resultado de anomalias cromossómicas e variações epigenética [1], [2]. Além disso, em geral, baixas taxas de mutação de nucleotídeo somáticas no cancro do ovário, em comparação com outros tumores sólidos sugerem um aumento da importância do número de cópias e as aberrações epigenética. Este tipo de regulação foi mostrado para afetar muitos supressores tumorais e oncogenes que pertencem ao cancro do ovário [3].

Copiar número variações (CNV) são uma ocorrência comum em todas as formas de câncer [4], [5] , [6], [7], [8], [9]. Uma amostra típica cancro exibe uma média de 17% e 16% amplificações deleções dentro de um genoma inteiro. alterações no número de cópias somáticas foram mostrados para afectar significativamente vias envolvendo a função quinase, a regulação do ciclo celular, as redes de Myc e de NF-kB e a apoptose [4]. Detecção destas alterações e identificação dos genes específicos responsáveis ​​pela proliferação do câncer pode ajudar a cancros subtipo molecularmente e levar em direção a terapias específicas do tipo de câncer mais individualizada [7], [10], [11], [12], [13], [14], [15], [16], [17], [18], [19], [20].

Epigenetic propriedades do genoma do cancro se correlacionam com o desenvolvimento e a função da célula cancerosa [1], [21], [22], [23], [24]. Especificamente, a metilação do DNA em regiões promotoras de genes pode regular a expressão gênica de vários oncogenes e supressores de tumor [25], [26], [27]. Tem sido proposto que o DNA citosina 5C-metilação total entre células normais e cancerosas parece estar redistribuído para loci CpG específico na célula cancerosa [28], [29]. A perda da função ou silenciamento transcricional através hipermetilação foi identificado para os genes supressores de tumor, enquanto que a hipometilação foi atribuída à oncogénese e a perda de propriedades de imprinting de certos alelos relacionados com o cancro [1], [30].

supressor tumoral e as características genômicas e epigenéticos oncogenes são altamente variáveis ​​dentro de câncer de ovário [3]. supressores tumorais conhecidos e oncogenes não igualmente contribuir para o desenvolvimento do cancro. Esperamos identificar as aberrações genéticas e epigenéticas que têm o maior impacto sobre a função do gene dentro do tumor. Muitos dos protocolos de bioinformática atuais empregam apenas uma única análise modal para determinar a função do gene de um tipo de tumor particular. Uma ampla abordagem genoma da combinação de várias fontes de dados aberração genética é necessária para a previsão de vias, possivelmente, consistentes e epigenetically integrados que funcionam na tumorigênese. Foi realizada uma ampla análise bioinformática de cópia número variação, expressão e informação epigenética para identificar supressores de tumor potenciais e oncogenes associados ao câncer de ovário seroso. Analisando 42 amostras de câncer de ovário seroso independentes e aproveitando o Cancer Genome Atlas (TCGA; https://tcga.cancer.gov) [31] de dados para comparar e melhorar o nosso protocolo, identificamos número de cópias do DNA anormal com alterações correlacionadas na metilação e expressão de genes de câncer de ovário seroso. A combinação da análise de dados epigenético e de expressão pode eventualmente fornecer informações específicas para a base molecular do cancro eo cancro subtipos e elucidar os genes dirigindo vários tumores [28], [32], [33], [34], [35]. Assim, eventualmente, permitindo que os médicos a incorporar estes tipos de dados multimodal abrangente analisa em diagnósticos baseados bioespecífica tumor e caminho dirigido terapêutica [36].

Métodos

Amostras de Pacientes (MSKCC de dados)

DNA de tumores de 42 pacientes com diagnóstico recente, não tratados, estágio avançado, carcinomas de ovário seroso atendidos no Memorial Sloan Kettering Cancer Center, entre o período de Maio de 1992 a fevereiro de 2003 foram incluídos no estudo. As amostras foram coletadas no âmbito de protocolos de pesquisa aprovados pelo IRB Memorial Sloan-Kettering Cancer Center. O estudo sobre as amostras e análise de todos os dados de exemplo respeitadas as diretrizes do IRB Memorial Sloan-Kettering Cancer Center paciente e foi aprovado pelo Memorial Sloan-Kettering Cancer Center IRB. Pacientes fornecida individualmente consentimento informado escrito para usar suas amostras para fins de pesquisa. Além disso, foram utilizados 7 amostras normais de tecido ovariano obtido a partir da Rede Cooperativa de tecido humano, um repositório de material de tecido e tumor executado pelo National Institutes of Health. Referimo-nos a esse paciente e normal da amostra definida como o conjunto de dados MSKCC.

Copiar Detecção Número via Representational Oligonucle�ido Microarray Analysis (ROMA)

O protocolo ROMA como anteriormente descrito [11], [15 ], [37] foi realizada numa matriz de alta densidade de oligonucleótidos contendo ~85,000 características fabricados por NimbleGen Systems, Inc. em resumo, as representações reduzida complexidade [38] que consiste em pequenos fragmentos (pb 200-1200), gerado por clivagem de DNA de amostras com BglII endonuclease de restrição, foram amplificados por PCR mediada por adaptador de ADN genómico [11]. As amostras de DNA (2 mg) foram marcadas tanto com Cy5-dCTP ou Cy3-dCTP utilizando o kit de rotulagem Amersham-Pharmacia Megaprime e competitiva hibridizados uns aos outros na mesma lâmina [11]. As hibridações consistiu em 35 ul de solução de hibridação (37% de formamida, 4 x SSC, SDS a 0,1%, e ADN marcado). Microarry aplicação e a hibridação foi realizada como descrito anteriormente [11]. Digitalizados em um scanner Axon GenePix 4000B usando um tamanho de pixel de 5 mm e todos os dados foram importados para o S-Plus 2000 software de análise (Esclarecedor, Seattle, WA). Os rácios de registo normalizados de cada experimento foram em média por segmentação. Nós, então, aplicado o algoritmo CBS (Circular binário Segmentação) a esses dados. O método de segmentação CBS é o algoritmo de segmentação binário circular, tal como descrito em Olshen, AB. et. ai. [39]. Como na análise anterior, os segmentos da CNV são definidas como as regiões de sonda estatisticamente combinada (marcador) intensidades calculados pelo algoritmo CBS [39], [40]. Toda a análise geral e estatísticas foram calculadas usando S-plus, pacotes R e scripts individuais Perl /Python. Todos os dados ROMA é Miame compatível e pode ser encontrado no banco de dados GEO (https://www.ncbi.nlm.nih.gov/geo/) para o número subsérie adesão GSE28013.

Detecção de metilação via Representational Oligonucle�ido microarray Analysis (MOMA)

O protocolo MOMA foi realizada como descrito anteriormente [41], [42]. A matriz de detecção MOMA metilação tem sido realizada e validado em linhas celulares de tumor e amostras de cancro da mama. ilha locais CpG genômicos anotados foram obtidos a partir do navegador do genoma UCSC. No momento da experiência do genoma continha 26,219 ilhas de CpG na gama de 200-2000 pb. Esses locais ilha CpG estavam cobertos por MspI fragmentação restrição. Arrays foram fabricados pela NimbleGen Systems Inc., utilizando o formato 390.000 sondas. A ilha CpG anotação do genoma humano construir 33 (hG17) foi utilizado para desenhar uma matriz de ladrilhos 50-mer. A endonuclease de restrição primária utilizada é MspI. Após os ligantes de digestão foram ligados e o material é limpo por clorofórmio fenol, precipitado, centrifugado e ressuspenso. O material é dividido em dois, sendo metade digerido pela endonuclease McrBc de acordo com a especificação de New England Biolabs e a outra metade sendo simulada digerido. Os procedimentos de hibridação e lavagem foram relatados anteriormente [41]. O procedimento foi realizado em duplicado com um corante-swap para o segundo experimento. As etiquetas foram trocados entre as amostras tratadas McrBc e simulados. Para cada teste, a média geométrica das proporções (GeoMeanRatio) de McrBc amostras tratadas e de controlo foram, em seguida, calculada a cada ensaio e a sua troca corante associado. imagens de microarray foram digitalizados em GenePix scanner e dados extraídos usando software Nimblescan (Sistemas NimbleGen Inc) 4000B. Os GeoMeanRatios de todas as amostras num conjunto de dados foram então normalizados utilizando um método de normalização quantil [43]. Toda a análise geral e estatísticas foram calculadas usando S-plus, pacotes R e scripts individuais Perl /Python. Todos os dados MOMA é Miame compatível e ser encontrado no banco de dados GEO (https://www.ncbi.nlm.nih.gov/geo/) para o número subsérie adesão GSE27940.

Análise

Gene Expression para ovário humano as amostras tumorais

os dados Gene Expression foi realizada utilizando o Affymetrix Human Genome U133A matriz: GEO identificador plataforma GPL96. O ARN foi isolado utilizando o protocolo de Trizol. ARN é convertido em ADNc e o ADNc de cadeia dupla é utilizado como molde numa reacção de transcrição in vitro contendo CTP e UTP biotinilado para além dos quatro trifosfatos de ribonucleósido não modificados. O protocolo Affymetrix padrão é aplicado. intensidades de sinal finais são processados ​​utilizando o método de normalização RMA no pacote affy de R Bioconductor 2,5. Todos os dados de matriz é Miame compatível e arquivos CEL correspondente pode ser encontrado no banco de dados GEO (https://www.ncbi.nlm.nih.gov/geo/) para o número subsérie adesão GSE27943.

Cross- Análise modal de The Cancer Genome Atlas de dados (dados TCGA)

copiar dados de variação número de tumores ovarianos primários foi baixado a partir TCGA (https://tcga.cancer.gov/) e CBS [39] arquivos de dados de o Microarray Agilent SurePrint G3 Humano 1 M CGH (Hibridização Genômica comparativa) com o rótulo mskcc.org_OV.CGH-1 × 1M_G4447A foram analisados. A CBS processados ​​dados do TCGA foi então anotado com as informações de assembly hg18 navegador UCSC Genome para atribuir valores seg.mean número de cópias de variação por gene por amostra. Para o propósito de estudar a CNV por gene que limita os nossos dados para um segmento de CBS por completo do gene por amostra. Portanto, se um locus do gene é parcialmente coberto por dois ou mais segmentos de CBS por amostra não incluí-lo na nossa análise. Só se um locus do gene completo foi dentro de uma amostra segmento CBS foi incluída em nossa análise. Além disso, foram excluídos qualquer segmento CBS com um valor informativo (num.info) inferior a 4. Além disso, a fim de capturar significativa CNV apenas analisadas amostras em 90% dos dados, excluindo 5% dos dados mais próximos de um seg. média de 0 a partir da distribuição de valor positivo e negativo. dados metilação TCGA foi obtido a partir dos arquivos de dados JHU-usc.edu_OV.HumanMethylation27.2.lvl-3 para cada tumor correspondente e amostra normal. Esta é a partir do ensaio Human27-metilação Illumina Infinium. Um valor beta média final de genes com 2 ou mais sondas foi calculado por gene por amostra. Finalmente, os dados de expressão TCGA utilizados para esta análise foi a partir do arquivo de expressão do gene broad.mit.edu HT_HG-U133A para cada tumor correspondente e correr amostra normal na matriz Affymetrix GeneChip HT Human Genome U133A. Foram examinadas amostras de 379 a TCGA que estavam presentes na altura da nossa análise. Antes da apresentação final do nosso manuscrito The Cancer Genome Atlas tornou público o seu relatório preliminar sobre carcinoma do ovário [31]. Nosso uso do conjunto de dados TCGA é para melhorar e comparar a nossa supressor de tumor e oncogene descoberta protocolo que foi aplicado ao conjunto de dados MOMA-ROMA (MSKCC). Nós reconhecemos quaisquer conclusões semelhantes que fizemos usando nosso protocolo no conjunto de dados TCGA com a encontrada na publicação recente TCGA.

análise bioinformática de MSKCC Copiar Number (ROMA), DNA metilação (MOMA) e dados de expressão

Toda a análise foi realizada usando Perl, Python, Matlab, e pacotes R. Nossa estratégia foi analisar as características epigenéticas e genômicos para possíveis supressores tumorais e oncogenes em tumores ovarianos primários. Com o recurso de base sendo a variação do número de cópias examinamos metilação e expressão de dados para cada gene em condições amplificados ou excluídos no número de cópias. Portanto, um oncogene é classificado como um gene amplificado possuindo baixa metilação e expressão elevada (Figura 1). Esta mesma oncogene amplificado pode ser regulada através epigenetically hipermetilação no cancro do ovário, resultando em uma expressão diminuída mesmo número de cópias é amplificado. Por outro lado, um supressor de tumor pode ter reduzido a variação do número de cópia e ser hipermetilado resultando em expressão diminuída ou regulados através de hipometilação permitindo a sua expressão sob condições CNV abaixada (Figura 1). fragmentos ROMA foram atribuídas a genes utilizando o conjunto hG17 navegador UCSC Genome. Foram identificados através de comparação da amostra entre a plataforma e a plataforma TCGA ROMA (7 para o qual as amostras foram em comum) um limiar específico de plataforma ROMA de 0,0 seg.mean que capta uma percentagem máxima de genes eliminados, mantendo uma percentagem mínima de falsos positivos de genes de cópia amplificada ou neutros. trabalho final da metilação de genes foi realizada utilizando o valor máximo para cada sonda de fragmento de MOMA e o valor máximo fragmento MOMA foi atribuído ao gene mais próximo. O teste de Wilcoxon signed-rank foi usado para calcular valores p enriquecimento para CNV e dados de expressão eo método Benjamini-Hochberg (BH) foi usado para o ajuste multitest e False Descoberta taxa de controle (FDR). distâncias euclidianas foram calculados entre as amostras normais e tumorais para pontos de dados de metilação e de expressão para todos os genes em ambos os conjuntos de dados MSKCC e TCGA. No caso de o conjunto de dados MSKCC quando os dados expressão amostra normal suficiente não estava disponível, a 50 × amostragem de bootstrap foi realizada utilizando os dados de amostras normais expressão TCGA por gene. variate único e Hotelling multivariados testes t foram realizados sobre estas distâncias para calcular todos os valores de p quando se realiza a análise de metilação e expressão em diferentes valores de número de cópias, com vários ajustes de teste FDR estatísticos como acima. A fim de identificar as mudanças prováveis ​​e funcionais da via capturados pela nossa análise genética baseada recurso foi testado se a associação de genes MSKCC previstas em cada classe de recurso no prazo de um total de 173 KEGG vias biológicas foi proporcional ao seu tamanho. Isso se traduz em vias de identificação cuja adesão gene em cada classe de recurso desvia significativamente do nulo, tal como definido por uma distribuição hipergeométrica. A lista final de vias significativas foi escolhido depois de controlar a taxa de descoberta de falsas por Benjamini-Hochberg correção de múltiplos testes. scripts de análise de dados e informações adicionais análise pode ser encontrado em Análise S1.

Copiar número variação é a característica genômica base para a nossa identificação de supressor de tumor e as propriedades de genes oncogénicos em câncer de ovário. Um oncogene pode ser sobre-expresso com o número de cópia baixo e amplificado metilação, enquanto hipermetilação pode ser utilizado para regular a expressão de um estado gene amplificado. De igual modo, a diminuição da expressão supressor de tumores pode ser o resultado da perda de número de cópia parcial com a hipermetilação. supressores de tumor também podem, eventualmente, ser regulada por meio de hipometilação de um número de cópias suprimido indicado. Nossa análise é modelado para tais propriedades e primeiro examina a CNV per gene e, em seguida, atribui alteração epigenética para cada aberração número de cópias com a expressão do gene.

Resultados

tumor ovariano Copiar Número aberrações e DNA metilação

Foram analisados ​​primeiro individualmente, tanto a variação do número de cópias e de metilação do DNA de cada gene pela posição cromossômica em 42 tumores ovarianos primários serosa fornecidos pelo Laboratório de Pesquisa Ginecologia no Memorial Sloan-Kettering Cancer Center (MSKCC conjunto de dados) usando Representational Oligonucle�ido Microarray Analysis (Roma) [37], [44] e metilação de detecção Oligonucle�ido Microarray Analysis (MOMA) [41], [42]. Os loci de ponto de interrupção amplificados e eliminados cobrir um total de 561 regiões entre todas as amostras (Figura 2). ROMA identifica 205 exclusão e 356 pontos de interrupção de amplificação. Os pontos de interrupção foram definidas como regiões entre cada segmento (intensidades de sonda estatisticamente combinados) calculados pelo método CBS ([40], segmentação binário circular [39]). Entre as amostras de tumor 42, encontramos uma média de 76 segmentos CBS calculados por cromossoma. contagem de segmentação por cromossomo correspondeu com tamanho cromossomo, exceto para os cromossomas 8, 11, 12, 17, 19 e 20, onde a densidade segmentação foi maior do que normalizado para o tamanho do cromossomo e menos para os cromossomos 6, 9, 10, 14, 15, 16 e 18. A grande variabilidade da variação do número de cópia (como medido por valores médios de segmentação CBS) entre todas as amostras ocorre nos cromossomas 19, 2, 10 e 4, respectivamente (Figura S1). As eliminações mais frequentes ( 10 amostras tumorais%) foram observadas em loci; CHR4: q25-q35.2, CHR7: p22.3-p15.3, CHR8: p23.3-p21.1, chr13q12.11-Q34, chr14q32.2-q32.33, chr15q13.3-q21.1, chr16q11.2-q24.3, chr17p13.3-q25.3, CHR19: q13.2-q13.43 e chr22: q11.21-q13.33 (Tabela 1 apresenta a porcentagem de todas as amostras apagados dentro de um loci). O mais frequentemente amplificados ( 10 amostras tumorais%) loci dentro de todos os cromossomos entre todas as amostras tumorais 42 são; Chr1: p34.4-p34.1, Chr1: q21.1-q21.2, CHR3: q13.2-Q23, CHR8: q11.22-q24.3, CHR19: Q12-q13.12 e chr20: q13. 12-q13.2 (Tabela 1). Três ponto de interrupção simetria loci (amplificações e deleções nas posições genômicas semelhantes em várias amostras) foram encontrados; chr17: q11.2-q21.32, CHR19: q13.12-q13.2 e chr21: q21.3-22.13. Comparando os resultados Roma (Tabela 1) com dados de número de cópias de indivíduos normais encontrados em HapMap [45] mostra nenhuma sobreposição com as poucas regiões amplificadas encontrados no HapMap conjunto de dados normal. regiões sobrepostas de exclusão entre os nossos resultados e HapMap CNV são 8p23 e 22q11.23 onde ambas as regiões mostram perda de heterozigotos frequente. Em seguida, analisamos a metilação de ADN em ilhas de CpG utilizando os mesmos 42 tumores do ovário primárias e 7 amostras de tecido normal (Figura 3). Nós compilou valores de metilação de regiões promotoras 11.978 genes que cobrem 22 cromossomos. Quando comparados directamente com o tecido normal um total de 68 genes foram encontrados para serem classificados como hipermetilado e 19 classificados como hypomethylated dentro dos 10% de toda a distribuição da taxa normal do tumor (Tabela S1). Os genes que exibem valores de metilação acima amostras normais incluem o PHOX2B oncogene, o neuroblastoma associado ALX3 gene, o gene cluster PCDHα comumente metilado, POU4F2, REXO1L1, BAPX1, eo potássio canais KCNJ8. Especificamente, REXO1L1, (exonuclease ARN) mostra níveis elevados de metilação em amostras tanto de tumor e normais no entanto, há um aumento de 56% de metilação em amostras de tumor. Genes com o menor tumor com as taxas de metilação normais incluem a variante cromossomo 4 do oncogênico promovendo gene DUB3 ubiquitina hidrolase (19% de redução) e CAPS (oncogene implicado no cancro endometrial, 25% de redução). Outros genes hypomethylated, em comparação com amostras normais incluídos; RNPC3, USP37, ldhD, GJB4 (proteína gap junção), LCN8 (implicada na metástase) e CGB1 (gonadotrofina coriônica, beta polipeptídeo 1) (Tabela S1).

posições Breakpoint de número de cópias variabilidade (eliminações representado na azul, amplificações representadas em vermelho) em 22 cromossomos são mostrados como determinado a partir ROMA gerou dados de segmentação. A supressão alteração ou ampliação posição genômica inicial é representada de todas as 42 amostras de câncer de tumor de ovário

O tumor:. Porcentagem proporção normal para MOMA metilação por gene de 42 amostras de tumores de cancro do ovário e amostras normais 7 de tecido é delineado por cromossoma. Para cada amostra, o valor médio de metilação é calculado a partir do valor máximo MOMA por sonda que incorpora a região do promotor do gene. dados de metilação MOMA coberto 11.978 regiões promotoras do gene. hipermetilação de destaque (vermelho) e hipometilação (verde) genes são rotulados e fornecidos na Tabela S2.

Correlações da expressão do gene com Copy Number Variação ou DNA metilação

Nós separadamente examinada a dependência da expressão do gene (via a matriz Affymetrix Human Genome U133A, consulte Métodos) no número de amplificação copiar, copiar o número de exclusão e metilação do promotor em tumores de câncer de ovário. Em primeiro lugar, em relação à distribuição de expressão gênica de genes CNV altas e baixas discretas encontrados em nosso conjunto de dados MSKCC e conjunto de dados TCGA. Os dois conjuntos de dados mostrou tendências similares na distribuição de expressão para genes com alta e baixa cópia número variação (Figura 4, Figura S2). Como a variação do número de cópias aumenta de exclusão para amplificação da expressão média gene também aumenta (Figura 4). Por conseguinte, mostram uma correlação entre aumento da expressão genética total com a amplificação do número de cópias do gene em tumores primários do ovário. Além disso, foi medida a distribuição cumulativa de expressão de genes para os genes suprimidos e amplificados. A distribuição cumulativa é a percentagem total de genes encontrados abaixo de um limiar expressão dinâmica. Se genes com um baixo CNV (suprimido) estão mais sob expressa de genes com a CNV superior (amplificado e sobre-expresso) o acumulado curva de distribuição resulta em um aumento mais acentuado em valores de expressão mais baixos para os genes apagados (indicando uma maior percentagem de genes encontrados com valores de expressão inferiores). observa-se uma diferença máxima expressão cumulativa entre 7-17% para os genes com baixo número de cópias em comparação com genes com elevado número de cópias (Figura S3). Em seguida, foi realizada a expressão a correlação CNV per gene para todas as amostras de tumores, tanto no conjunto de dados MSKCC e conjunto de dados TCGA. Descobrimos 124 genes com CNV positiva à expressão limites Pearson coeficiente de correlação de ≥0.8 no conjunto de dados TCGA (valores de p 1,0 × 10

-10, Tabela S2B). A gama de amplificação e deleção seg.mean para o conjunto de dados MSKCC não é tão grande como observado no conjunto de dados TCGA (Figuras S1 e S2) e, portanto, menos genes são capturados com CNV significativo para correlações de expressão. No entanto, somos capazes de identificar 32 genes com Pearson values≥0.6 correlação (valores de p 4,0 × 10

-5, Tabela S2A) com 18 dos 32 genes identificados também no conjunto de dados TCGA (Tabela S2A).

Como a variação do número de cópias do gene aumenta de exclusão para amplificação da expressão gênica média também aumenta, tanto no MSKCC (linha azul) e TCGA (linha verde) conjuntos de dados.

Maior gene diferenças de expressão entre as amostras normais e tumorais não são observados até que confiar apenas nas amostras que contêm genes com amplificações extremas e exclusões (Figura 4). Assim, a nossa abordagem para identificar genes com variação do número de cópia alterada correlacionada com a expressão foi examinar os valores de expressão de genes dentro de valores seg.mean alto e baixo número de cópias e comparar a expressão desses genes para que as amostras de tecido normal. Em um caso onde não é aberração número de cópias em amostras normais seria observado este mesmo tipo de correlação. Nós examinamos amostras de tumores apenas uma vez a magnitude ea extensão das alterações no número de cópias é mais significativa detectada através de nosso protocolo. Inicialmente, foi calculado o valor médio para cada expressão do gene, onde 20% das amostras de tumor mostrou um valor de CNV acima ou abaixo seg.mean 0,50 -0,50 seg.mean e também filtrados dos genes para os quais a expressão normal não estava dentro da norma desvio (o padrão limiares TCGA CNV foram usados ​​que correspondem a pelo menos um amplificado ou a cópia e com a capacidade de capturar o maior número de amostras CNV alterados por gene quanto possível suprimidas). A rigorosos critérios de 20% de amostras de tumores TCGA capturado 21 genes (Tabela S3). Estes 21 genes, tais como CCNE1 e GSTM1 representam os genes CNV mais alterados nas amostras de tumores com expressão diferencial, em comparação com amostras de tecido normal no conjunto de dados TCGA. No entanto, esta abordagem é muito dependente dos níveis de expressão do gene normal média. Para TCGA, no momento da nossa informação expressão análise foi só está disponível para 8 amostras designados como normal. Por conseguinte, um gene tal como MYC (mais frequentemente sobre-expressa em células tumorais), que tem um valor expressão amostra média de 8,93 nos oito amostras TCGA normais (Figura S4) e um valor expressão amostra tumoral médio de 7,75 (a partir de 339 amostras de tumor) não é observada por este método. Ao realizar uma análise específica amostra de tumor que não pode eliminar totalmente essas variações, mas a esperança de limitar a sua magnitude.

Então, para não contar com a pequena amostra de tecido normal para valores de expressão, foi realizado um teste de classificações de Wilcoxon apenas na expressão valores a partir de um mínimo de 20% das amostras de tumores dentro do gene Número de cópia limiares seg.mean muito baixas e altas. Nos dados tumorais TCGA definir esta produziu um conjunto de 54 genes dentro de uma taxa de detecção falsa de 5% a valores seg.mean de 1,25 e -0,50 para alta e baixa variação do número de cópias, respectivamente (Tabela 2, Tabela S4). O número de genes capturados é dependente do número de cópias alto a segmentação do valor utilizado como um limite de filtragem significa (mantendo ao mesmo tempo um limiar conjunto de cópias baixo em -0,50, desse modo, no mínimo, a captura de uma perda de heterozigotia por gene [8]; Figura S5). Um total de 1114 genes são capturados (FDR 0,05) com um limite inferior de 0,8 seg.mean CNV (Figura S5). Com o teste de classificações de Wilcoxon encontramos genes tais como MYC, CCNE1, KRAS, NDRG1, MLL4 e MTSS1 para a qual conjunto de dados de expressão tecido normal específico pode não ser significativamente diferente de todas as amostras de tumor, mas é variável entre as amostras número de tumores de baixo e alto de cópia. limitações limiar conservadoras de 20% de inclusão amostra de tumor resultou na identificação de genes de extrema loci CNV como em cromossomos 1, 8 e 19. De interesse, fator de transcrição CEPBG foi encontrado para ter boa CNV a correlação expressão e também expressão e de metilação correlação no conjunto de dados MSKCC. Da mesma forma, a realização do teste de classificações de Wilcoxon em amostras tumorais MSKCC em um limite de cópias elevado número ≥0.5 e um limite específico da plataforma baixo número de cópias ROMA 0.0 (ver Métodos) que capturou 62 genes a uma taxa de descoberta de falsas ≤0.05 (Tabela 2 , Tabela S4). Os genes identificados no conjunto de dados a partir de loci foram MSKCC genómico semelhantes como os encontrados no conjunto de dados TCGA. Cinco genes que foram preditos a partir de ambos os conjuntos de dados: CCNE1, POP4, UQCRB, PHF20L1 e C19orf2 (Tabela 2). Nós integramos os dados de expressão com CNV para determinar os genes que são mais propensos a ser candidatos como genes do cancro funcionamento com potencial supressor de tumor e características CNV-expressão oncogênicos. Isso faz com que o número de genes em outros estudos mais acessível para validação funcional dos genes afetados por aberrações genéticas.

Foram também analisadas a dependência clássico de metilação do DNA em regiões promotoras do gene com a de expressão gênica. A metilação de dados exibe correlação mais pobre para a expressão de variação do número de cópias (Figura S6). Determinou-se correlações de Pearson entre a metilação do DNA e expressão gênica em ambos os conjuntos de dados de ovário tumor primário MSKCC e TCGA. Valores de correlação de Pearson 0,5 (valores de p 2,0 x 10

-4, metilação baixo e elevada expressão de alta e baixa expressão metilação) são observadas em 86 genes entre os dois conjuntos de dados. Proeminente, o gene que codifica a ubiquitina B (UBB) mostra uma alta correlação entre a metilação e expressão em ambos os conjuntos de dados e RAB25 um conhecido suspeito de cancro do ovário, também é encontrado nos dados TCGA estabelecidos [31], [46] (Tabelas S2a e S2B)

Deixe uma resposta