PLOS ONE: copiar o número de análise identifica Novel Interações entre Genomic Loci no ovário Cancer

Abstract

O câncer de ovário é uma doença heterogênea exibindo alterações genômicas complexas e, consequentemente, tem sido difícil determinar o número de cópias a mais relevante alterações com a escala de estudos até à data. Foram obtidos dados de todo o genoma número de cópias alteração (CNA) a partir de quatro plataformas de matriz SNP diferentes, com um conjunto de dados final de 398 tumores ovarianos, principalmente do subtipo histológico serosa. aberrações CNA frequentes alvejado muitos milhares de genes. No entanto, amplicons de alto nível e deleções habilitado filtragem desta lista para os mais relevantes. O grande conjunto de dados refinamento das regiões mínimos e identificação de amplicons raros, como em 1p34 e 20q11 habilitado. Foi realizada uma análise de co-ocorrência nova para avaliar a cooperação e exclusividade de CNAs e analisada sua relação com a evolução de pacientes. Foram identificadas associações positivas entre os ganhos de 19 e 20q, ganho de 20q e perda de X, e entre várias regiões de perda, particularmente 17q. Foram encontradas correlações fracas do CNA em loci genômicos como 19q12 com o resultado clínico. Também foram avaliadas as medidas instabilidade genômica e encontraram uma correlação entre o número de ganhos de amplitude mais elevados com a sobrevida global mais pobres. Ao reunir a maior coleção de dados do número de cópia do ovário até à data, temos sido capazes de identificar as aberrações mais freqüentes e suas interações

Citation:. Gorringe KL, George J, Anglesio MS, Ramakrishna M, Etemadmoghadam D, Colin P, et al. (2010) o número de cópias análise identifica Novel Interações entre Genomic Loci no cancro do ovário. PLoS ONE 5 (9): e11408. doi: 10.1371 /journal.pone.0011408

editor: I. King Jordan, Georgia Institute of Technology, Estados Unidos da América

Recebido: 11 de fevereiro de 2010; Aceito: 16 de abril de 2010; Publicação: 10 de setembro de 2010

Direitos de autor: © 2010 Gorringe et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo Instituto Nacional de Saúde e Pesquisa médica do Conselho da Austrália; Mama Victorian Cancer Research Consortium (VBCRC), Austrália; e do Departamento de Defesa (DOD), Estados Unidos da América. JG é suportado por uma concessão do Australian Pós-Graduação. MR é apoiado por um Conselho do Câncer de Victoria Pós-graduação Bolsas. Esta pesquisa também foi apoiado por uma bolsa Life Sciences Computation Initiative (VLSCI) Victorian em seu Facility Peak Computação na Universidade de Melbourne e na Parceria Victorian for Advanced Computing (VPAC). Cancer Study Australian ovário (AOCS) foi apoiada pelos Estados Unidos Army Medical Research e Materiel Command sob DAMD17-01-1-0729, The Cancer Council Victoria, Cancer Fund Queensland, The Cancer Council Nova Gales do Sul, The Cancer Council Austrália do Sul, a Fundação do Câncer da Austrália Ocidental, o cancro da Tasmânia Conselho e da Saúde e Pesquisa médica do Conselho Nacional da Austrália (NHMRC). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução câncer de ovário

epitelial (EOC) é uma das neoplasias mais mortais, com alta recorrência e as taxas de sobrevivência pobres [1]. As aberrações genéticas observadas em EOC são altamente complexa, compreendendo aneuploidia frequente e multiplicar cromossomas rearranjados [2], [3]. A heterogeneidade das alterações no número de cópias (CNA) observados em EOC tornou difícil para os pequenos estudos para ser capaz de identificar com precisão a verdadeira freqüência do CNAs menos comuns ou para identificar reproducibly CNAs que se correlacionam com parâmetros clínicos. Um pequeno tamanho da amostra também torna mais difícil identificar CNAs que co-existem ou são mutuamente exclusivas, que é um pré-requisito para identificar quaisquer caminhos comuns que podem ser desregulamentados EOC através de alterações no número de cópias do gene. O paradigma de aberrações mutuamente exclusivas visando o mesmo caminho foi definido em tumores colorretais para

APC

e

CTNNB1

mutações [4], e ampliado em outros exemplos, tais como exclusividade da

BRAF

e

KRAS

mutações [5]. Por outro lado, outras aberrações genéticas são mais frequentemente observado no mesmo tumor do que seria esperado por acaso, sugerindo um efeito cooperativo, por exemplo, a associação significativa de 11q13 e 8p12 amplicons no cancro da mama [6]. No câncer de ovário, as associações foram encontradas entre o

CCNE1

e amplificação 12p [7], e entre

MYC Comprar e 20q amplificação [8] por fluorescência

in situ

hibridação. Poucos estudos examinaram co-operatividade ou complementação da CNA em uma base de todo o genoma. Perdas no 4T e 18q foram encontrados para ser associado em um estudo [9], mas isso não foi replicada em uma análise recente [10], que identificou 7 associações CNA e 6 anti-correlações.

A presença de alta amplificações de genes em cancro do ovário nível foi observada há algum tempo, no entanto, a maioria dos estudos têm sido fraca potência no tamanho da amostra [10] ou resolução genómico [11], [12] para detectar com precisão a frequência e o alvo destes eventos. Da mesma forma, algumas associações robustas de CNA com parâmetros clínicos, tais como a sobrevivência foram identificadas [13], [14]. A detecção destes CNA é relevante não apenas para a identificação dos subgrupos de tumor e as vias afectadas nos tumores, mas também para a segmentação das terapias moleculares no cancro do ovário. Neste estudo, temos reuniu um grande grupo de polimorfismo de nucleotídeo único (SNP) dados de matriz de mapeamento para anotar robustamente CNAs em cancros do ovário seroso e endometrióides, a fim de identificar os genes visadas por estes eventos genéticos e como estas se correlacionam com parâmetros clínicos. Além disso, avaliaram a interação do CNA, avaliando as suas associações e associações anti-

Materiais e Métodos

Peter MacCallum Cancer Centre (PMCC) conjunto de dados:. As amostras de tecido e DNA extração

Todas as amostras foram coletadas com o consentimento informado do paciente e o estudo foi aprovado pelos Comitês de Ética em pesquisa Humanos todo o hospital participante. Os pacientes com câncer de ovário foram identificados através de quatro fontes primárias entre 1992 e 2006: a) 53 em hospitais de Southampton, Reino Unido, b) 141 através do Australian Estudo do cancro do ovário, incluindo 20 a partir do tecido Westmead Oncologia Ginecológica Bank, c) 15 através do PMCC Banco de Tecidos (Melbourne, Austrália) e d) 41 a partir de University Jikei (Tóquio, Japão). avaliação da patologia foi realizado a partir de qualquer um, de parafina de tecido incorporado fixado em formalina e /ou secções fresco congelado adjacentes ao tecido a partir do qual o ADN foi extraído (n = 141) ou por meio do exame dos relatórios originais de diagnóstico da patologia (N = 109) (Tabela 1 , Tabela S1).

Todas as amostras de tecido foram coletados como material fresco congelado. A hematoxilina representativa e secção corada eosina foi avaliado e amostras com células epiteliais 80% foram utilizados diretamente para a extração de DNA a partir de todo o tecido. Para o restante, agulha ou laser dissecção foi realizada usando 10 uM secções obter componente de células epiteliais de tumor elevada percentagem. O DNA foi extraído como descrito anteriormente [14], [15]. DNA normal extraído de linfócitos do sangue estava disponível para 106 pacientes

O Cancer Genome Atlas (TCGA) conjunto de dados:. As amostras de tecido e DNA extração

As amostras foram coletadas como material fresco congelado de hospitais do EUA (n = 163). As amostras de tumor foram avaliadas como sendo 80% de células epiteliais antes da extracção do ADN a partir de todo o tecido, como descrito [16]. ADN normal extraído a partir de linfócitos de sangue estava disponível para 161 pacientes. Os resultados publicados aqui estão, em parte, com base em dados gerados pelo projecto-piloto Cancer Genome Atlas estabelecido pela NCI e NHGRI. Informações sobre TCGA e os investigadores e instituições que constituem a rede de pesquisa TCGA pode ser encontrada em https://cancergenome.nih.gov.

número de cópias matrizes

As amostras foram processadas como descrito anteriormente para Affymetrix Mapeamento matrizes a) n = 108 50 K

Xba

I [14], GSE 13813 b) n = 27 250 K

Chiqueiro

Eu matrizes c) n = 32 500 K matrizes (250 K

Sty

I e 250 K

Nsp

I, [17]) d) n = 83 SNP6.0 (1,8 M conjuntos de sonda [15], [18], GSE19539). Quando, ADN normal disponível correspondentes também foi analisada na mesma plataforma de matriz e no mesmo lote. arquivos TCGA SNP6.0 CEL para 163 amostras foram baixados do Portal de Dados (https://tcga-data.nci.nih.gov/tcga/homepage.htm).

Os dados pré-processamento e análise

Todas as matrizes de mapeamento SNP foram primeiro normalizados utilizando métodos disponíveis no pacote R “aroma.affymetrix” [19], incluindo técnicas para remover desvios sistemáticos introduzidos devido a conversas cruzadas alélicas, PCR viés de comprimento de fragmentos e diferenças no conteúdo GC . o número de cópias de ADN foi estimada set-sábio sonda através da comparação do sinal normalizado a partir de uma amostra de tumor a partir de dados de ADN de linfócitos normal a partir do mesmo paciente, se disponível. Em amostras de tumor para o qual combinado o tecido normal não estava disponível, o sinal de média de todas as normais gerados no mesmo laboratório foi utilizado como referência. passos de controlo de qualidade são descritos em Methods S1. Apenas as amostras incluídas estão resumidos na Tabela 1.

O método de segmentação binário circular foi utilizado para segmentar os dados normalizados cópia [20], [21]. Os conjuntos de sondas dentro de uma CNA, que esteve presente em 5% das amostras normais foram excluídos da análise do tumor antes da segmentação para remover do número de cópia comum polimorfismos (CNP). Segmentos com menos de 10 conjuntos de sondas (SNP6) ou 5 conjuntos de sonda (500 K) foram fundidas com o segmento adjacente do número de cópia mais próximo como a análise de QPCR anterior sugeriu que aberrações representados por algumas sondas nessas plataformas podem não ser fiáveis ​​[17]. Além disso, usamos Genomic identificação de alvos significativos em Câncer (GISTIC), que é um método que agrega dados sobre tumores diferentes para tentar diferenciar entre condutor e passageiro aberrações, a prevalência da combinação e amplitude [22]. Esta técnica foi realizada utilizando uma interface baseada na web (https://genepattern.broadinstitute.org) com limiares CNA de ± 0,3, um mínimo de 10 marcadores e um limiar q-valor de 0,25.

Para hierárquica agrupamento, todos os tumores foram avaliados para a presença ( “1”) ou ausência ( “0”) de cada pico GISTIC alteração (n = 89), em que qualquer sobreposição foi considerado como presente. agrupamento hierárquico usando cluster euclidiana média das amostras (n = 398) foi realizada utilizando Partek Genomics Suíte v.6.4 (Partek Inc., St. Louis, MO).

Associação entre as regiões de aberrações

Realizamos a análise da associação sobre o conjunto de dados TCGA (para o qual nós re-correu GISTIC) e, em seguida, sobre as amostras restantes. Dois métodos diferentes foram utilizados para calcular as associações entre as regiões de ganho e perda. GISTIC resultados foram resumidos como uma matriz X com tumores como linhas e regiões de aberração como colunas. Para cada tumor (T) e a região focal de aberração (I), a medição X [t, i] foi de 1, se a aberração estava presente para esse tumor e 0, caso contrário. Um modelo de Poisson log-linear estava apto a tabela de contingência descrevendo o status de aberração. A significância estatística da associação foi calculado usando um teste de pontuação que produz uma estatística z normal padrão [23]. Isto é equivalente à raiz quadrada do habitual teste estatístico Pearson para a independência, assinado de acordo com a direção da associação. O método Benjamini e Hochberg foi usado para corrigir para testes múltiplos [24].

Associação entre as regiões de aberrações, também foi testada usando o teste de permutação de Monte Carlo. Resumidamente, cada coluna na matriz X foi permutada independentemente (mantendo o número de entradas nas colunas para ser o mesmo). Uma pontuação de associação foi calculado usando a matriz permutada como descrito para o teste não paramétrico de cima. A classificação média obtida para cada par de regiões de um grande número de permutações foi usada para estimar a taxa de detecção falso e o número de vezes que um teste estatístico superior ou acima da estatística de teste original foi utilizado para calcular o valor de p. Usando uma taxa de detecção falsa de 5% dos métodos seleccionados 98% dos mesmos pares de regiões. Nós escolhemos usar o primeiro método descrito para a seleção região, mas ambos são relatados.

A análise das correlações de expressão entre número de cópias associado aberrações

Nós postulou que a correlação entre as regiões de aberrações deve resultar em correlação de ARNm níveis dos genes dentro da região. dados de matriz Affymetrix U133A foi obtido para todas as amostras de TCGA. Para todas as regiões associadas acima, quatro testes de correlação de Pearson foram realizadas para os genes das regiões: a) correlação do número de cópias entre o gene X na região A e Gene Y na Região B, b) correlação entre o número de cópias e a expressão do gene X, em região a, C) correlação entre o número de cópia e expressão do gene Y na região B e d) correlação de expressão entre Gene X e Y. Gene Todos os quatro testes tinham de ser significativa a p . 0,05

Associações de sobrevivência

o modelo de riscos proporcionais de Cox foi usado para calcular a associação entre as regiões de aberração detectados pelo GISTIC e global ou sobrevida livre de progressão, corrigindo para testes de múltipla utilizando o método Benjamini-Hochberg. Para calcular a sobrevivência associação com pares de regiões, as amostras foram classificadas em quatro grupos com base no estado de aberração os pares de regiões. Do mesmo modo, para as medidas genómico, as amostras foram finalmente resolvido em um dos quatro grupos com base em dados quartis para cada medida. associação de sobrevivência com os grupos assim identificados foi calculado usando o modelo de riscos proporcionais de Cox.

Resultados

Integração de alterações no número de cópias a partir de 398 carcinomas ovarianos

número de cópia de alta resolução

Nós compilado dados de quase 400 amostras de cancro do ovário que representam dois subtipos histológicos, serosa e endometrioid (Tabela 1), 270 dos quais tinham correspondentes dados normais de DNA dos linfócitos. Os dados foram compilados a partir de várias fontes: alta qualidade de matriz arquivos “CEL” Affymetrix SNP6.0 Mapeamento foram adquiridos através de The Cancer Genome Atlas (TCGA, 157 casos) ou foram obtidas no Peter MacCallum Cancer Centre (83 casos [18]) Mapeamento SNP dados de matriz derivados de plataformas Affymetrix menor resolução, incluindo 108 casos testadas em 50 K

Xba

matrizes I [14], 27 casos em 500 K matrizes [15] e 23 casos em 250 K

Sty

matrizes I obtidos a partir de Japão, também foram incluídos. critérios de controle de qualidade extensos foram aplicados a todos os conjuntos de dados (ver Métodos S1). Seguindo a normalização de cada conjunto de dados, copiar alterações numéricas (CNA) foram detectados por segmentação binário circular [21]. Avaliamos uma série de possibilidades para combinar os conjuntos de dados, incluindo os limites específicos de coorte (ver Métodos S1), no entanto, isso fez pouca diferença para o padrão final CNA e um limite padrão de +/- 0,3 (log

2) foi aplicado universalmente como previamente descrito por nós [17] e outros [10].

Comparação entre as cinco fontes de dados mostrou uma notável consistência de CNA em todo o genoma, indicando um elevado grau de não-aleatoriedade para o CNA e igualmente importante, uma ausência de efeitos significativos lote array (Figura S1). A exceção foi o conjunto de dados japonês, que apareceu para mostrar um número reduzido de alterações. No entanto, um teste de todo o genoma foi realizado para identificar as regiões aberrantes em diferentes frequências entre diferentes plataformas e não conseguiu identificar nenhum regiões estatisticamente significativas após a correcção de testes múltiplos.

Nós avaliamos a possibilidade de subgrupos moleculares dentro da coorte combinada definida pelo número de cópias utilizando agrupamento hierárquico (Figura S1). Apenas um único grupo de amostras foi distinguível; estas tiveram algumas CNAs e tendiam a ser amostras de baixo grau ou as amostras japonesas, para os quais informações grau na maior parte não estava disponível. Não havia outros grupos distintos ou grandes agrupamentos atribuíveis ao subtipo histológico ou grau. Em particular, o grau endometrióide serosa e alta de alto grau foram uniformemente integrado, o que é consistente com a semelhança observada anteriormente destes subtipos como avaliado utilizando marcadores imuno-histoquímica [25] e os perfis de expressão de genes [26].

identificar as CNAs mais relevantes foi realizada uma série de análises complementares como cada método utilizado tem pontos fortes e fracos que podem ser complementadas por outro. Em primeiro lugar, GISTIC foi aplicada a todos os 240 SNP6 amostras para identificar “focais” picos e “largo” (tal como definido em [22]) (Figura 1, Tabela S2). No entanto, GISTIC não pode integrar facilmente amostras de diferentes plataformas. Nós, portanto, eleito para usar um segundo método complementar para GISTIC: uma abordagem global frequência que integrasse segmentada número de cópias de dados independente de plataforma para analisar toda a nossa coorte 398 amostras. Como esperado, as regiões mais importantes do ganho de número de cópias previstas tanto por GISTIC e frequência total estavam localizadas no 3T (63% de amostras com ganho NC) e 8q (62% das amostras com ganho CN) (Figura 1). foram observados outros ganhos frequentes em 20q (47%) e 12p (39%). As regiões mais frequentes de perda identificados neste estudo (cromossomos X, 8p, 22q, 17, 4T, 19P e 16, 40%) são consistentes com estudos anteriores por nós [15] e outros [10], [27] . Para selecionar os genes mais relevantes, em primeiro lugar, informar os das regiões de ganho e perda de pelo menos 30% freqüência ou em picos GISTIC e genes então identificados que também foram alvo de eventos de amplitude mais elevados mesmo que isso estava em uma frequência mais baixa (Tabela S2 ). Como não há consenso claro sobre o que constitui uma amplificação “de alto nível”, relata regiões com ganhos frequentes no log

2 proporções de 0,6 (em 40 ou mais amostras, 10% +), 0,8 ( 5% +) e 1 (2,5% +). Para perdas, consideramos deleções (log

2 proporções de -1) presente em pelo menos 4 amostras. A lista de genes foi priorizada tendo em conta a frequência de alta amplitude CNA ea sobreposição com GISTIC (Tabelas 2 e 3). regiões específicas de ganho são mostrados nas Figuras S2, S3, S4, S5, S6 e S7.

Os ganhos (A) e perdas (D) em 240 amostras em matrizes SNP6 analisados ​​por GISTIC. Ganhos (B) e perdas (C) em 398 amostras em diversas plataformas matriz. segmentos da amostra foram sobrepostos no Partek Genomics Suíte v 6.4, criando um ponto de dados para cada segmento definido pelo número de cópias pontos de interrupção, e depois plotados pelo número da amostra.

Ao utilizar este flexível abordagem descobrimos que algumas regiões só foram claramente identificados por um ou outro método. Com a inclusão de uma série de limiares NC amplitude mais elevados e os picos previsto por GISTIC, regiões adicionais foram identificados, tais como ganhos nos cromossomos 1, 6p, 11Q, 19 e perdas em 5q, 6q26, 10q23, 13q e 18q22. Além disso, em plataformas de alta resolução, tais como a matriz SNP6, GISTIC tendia para identificar regiões muito pequenas, potencialmente faltando genes relevantes. Por exemplo, em 3q26 ocorreram dois picos estreitamente espaçadas de significância no perfil GISTIC (Figura S2). A maior delas, por uma margem muito estreita (valor q -log 93,88

vs

. 93,43), não se cruzam com quaisquer genes, enquanto o outro pico sobrepõe-se com

MECOM

(

MDS /EVI1

); existe boa evidência para este gene sendo um oncogene do cancro do ovário em [28]. Assim, contando com GISTIC por si só, fazer anotações na região 3q26 como não tendo genes de interesse. Em contraste, utilizando uma abordagem de frequência, a frequência máxima em todos os número de cópias limiares engloba

MECOM

.

Da mesma forma, havia outras regiões para que utilizando uma abordagem frequência genes perdidas ou deram dados conflitantes. Por exemplo, em 19q12, cada limite do número de cópias identificou uma região ligeiramente diferente da frequência de pico, diversamente identificação

CCNE1,

C19ORF2

ou nenhum gene no pico (Figura S3). Em contraste, a capacidade de GISTIC para integrar a amplitude de ganho através de todas as amostras identificadas claramente

CCNE1

como o gene no pico. Há boas evidências de que

CCNE1

é a chamada correta desde ciclina E é uma proteína-chave do ciclo celular e sua amplificação e sobre-expressão foi previamente identificado como um motor essencial da resposta do paciente à quimioterapia em carcinoma de ovário seroso [14 ]. Principais conclusões decorrentes da nossa análise das eliminações e amplicons individuais, incluindo insights sobre genes potenciais motorista, são fornecidos na discussão.

Associações entre as alterações NC

O conceito de alterações genéticas cooperativas e mutuamente exclusivos raramente foi examinada a nível de CNA ou em larga escala do genoma. Quisemos saber se há alguma CNAs que cooperam na tumorigênese ovário, ou que são funcionalmente redundantes entre si, por exemplo, se eles agem na mesma via. Para medir este avaliou-se havia quaisquer ANC que eram mais ou menos susceptíveis de ser associados uns aos outros, mais do que por acaso, utilizando uma análise estatística. Resumidamente, temos o número de amostras positivas para CNA (por exemplo, um ganho) na região A sozinho, região B sozinho, ambas as regiões e nem a região, e compararam os resultados ao co-ocorrência esperada com base na frequência total de CNA em A multiplicado pela frequência de B. por exemplo, para uma frequência de ganho em 20q11 de 68/183 (37%) e no 19q12 de 50/183 (33%), seria de esperar de 12% das amostras para ter ambos os ganhos. No entanto, observa-se uma frequência real de amostras com ambas as alterações que é significativamente diferente deste, ou seja, 35/183 (19%, p 0,0001), indicando um aumento na co-ocorrência acima do nível do acaso e, assim, possivelmente cooperando CNA. O método também pode ser igualmente usado para detectar reduções no co-ocorrência. Ao aplicar este método de todo o genoma, aplicou-se uma correcção de testes múltiplos com um FDR de . 5%

Realizamos esta análise primeiro usando os dados TCGA, como é mais homogêneo para grau e subtipo, e é de alta resolução. Repetimos análise GISTIC nesta definir sozinho para obter 46 picos de cópia ganho número e 27 de perda (exclusivo das regiões de variação do número de cópia normal, ou polimorfismos no número de cópias (CNPS)) de dados. As amostras foram identificadas como sendo positivas ou negativas para cada pico CNA, com picos de ganho pontuados como positivos para ganhos apenas picos de perda e pontuados como positivos para apenas as perdas, e uma análise de associação foi efectuada tal como descrito nos métodos. A uma taxa de detecção falsa de 5%, 305 pares de regiões de aberração foram positivamente correlacionados e 18 pares foram correlacionados negativamente (Tabela S3, Figura 2). Alguns picos GISTIC co-ocorrência foram localizados dentro da mesma região GISTIC amplo e embora a análise GISTIC indicou que estas regiões de cópia alteração de número eram distintos, porque eles estão fisicamente intimamente ligada eles podem não ser independentes um do outro. Como independência é necessária para o teste de associação realizados, eles não foram ainda analisados. Também foram excluídas aquelas associações em que quer pico foi um CNP, deixando 98 pares de regiões que foram positivamente correlacionados, todos, mas 16 dos quais foram localizados em diferentes braços de cromossomos (Tabela 4). 12 pares de regiões foram negativamente correlacionadas.

(A) Processo para a identificação de aberrações associados (mais detalhes em Métodos S1). (B) Síntese de associações significativas em cada conjunto de dados e aqueles significativa em ambos. Como o quadro progride, certas associações são filtrados para fora, com os números restantes aqueles que passam o filtro. Em primeiro lugar, loci associados que estão dentro da mesma ampla GISTIC região intra-cromossômica são removidos e em segundo lugar regiões que se sobrepõem com uma CNP são removidos. plot (C) Circos. anel externo indica a posição de cada cromossomo aberração (barras coloridas). As linhas roxas internos mostram as associações inter- cromossômica significativas (excluindo os que envolvem uma CNP), que foram validados no segundo conjunto de dados.

A fim de validar as associações identificadas usando TCGA dados, repetiu a análise de associação utilizando as mesmas regiões “TCGA GISTIC definidas” como acima de todas as outras amostras serosa e endometrióides alto grau (n = 183). Por este conjunto de dados, 296 regiões foram positivamente correlacionados e 5 foram negativamente correlacionados. No geral, 29 associações positivas e não negativas foram em comum entre os dois conjuntos de dados (Figura 2). Destes, 14 eram associações entre dois ganhos, dos quais 11 estavam no mesmo cromossomo, e 14 associações estavam entre duas perdas. Nenhuma das associações de perda de perda foram intra-cromossômica, porque todas as associações deste tipo foram excluídos, quer por estar localizada na mesma região GISTIC ampla ou por ser um CNP; Com efeito, mais as perdas de pico foram GISTIC CNPs (n = 35) em comparação com os ganhos (n = 15) provavelmente devido à perda do efeito desmascaramento de heterozigosidade tem na detecção CNP no tumor [29]. Não havia uma única associação entre um ganho e uma perda, entre um amplicon em 20q11 e perda de Xq. O mais forte associação positiva entre ganhos em diferentes cromossomos era para amplificações no cromossomo 19q12 (o mais provável alvo

CCNE1

) e no 20q11 (cinco genes). Para as perdas, a mais forte associação comum era entre cromossoma 4q e cromossomo 17. 17q12 perda foi o interator mais promíscuo, com 8 associações positivas comuns.

Foram identificados os genes localizados em ou picos perto positivamente associados e usado a expressão do gene dados para avaliar se qualquer um dos genes mostrou correlação entre o número de cópias e a expressão, e se houvesse correlação do nível de expressão do gene entre as regiões (Tabela S4). Descobrimos que as associações mais fortes entre as regiões envolvidas genes ganhos em 19q12 ou 19p13.11 e genes ganhou em 20q11. Outras associações de expressão gênica positiva incluídos

CD47

(ganhou em 3q13.12) com

UQCRFS1

ou

POP4

(ambos ganharam em 19q12). CD47 foi identificado pela primeira vez como um antígeno do tumor de ovário [30], no entanto não há nenhuma associação funcional conhecida com qualquer 19q12 parceiro.

Correlação com parâmetros clínicos e os resultados

Foram utilizados os dados clínicos TCGA para avaliar a relação do número de cópias e o resultado do paciente usando uma Cox análise de riscos proporcionais univariada nos picos GISTIC (Tabela S5). Ganho na 3q29 foi associado à sobrevida global, no entanto, essa correlação não foi significativa após a correção testes múltiplos. associações positivas NC de 17q12 /22q perdas e 3q13 /19q12 ganhos foram cada correlacionada com sobrevida global, mas não sobrevida sem progressão (Tabela S5).

padrões específicos de alteração do número de cópias e instabilidade genética que se correlacionam com o resultado do paciente, incluindo simplex, dente de serra e tempestade, foram descritos no cancro da mama [31]. Os padrões de aberrações cromossômicas no câncer de ovário são difíceis de categorizar nos grupos descritos por Hicks

et al

. como a maioria são uma combinação de dente de serra e tempestade. Por isso, definimos uma série de diferentes medidas de instabilidade do genoma e analisada a sua correlação com o resultado do paciente utilizando o conjunto de dados TCGA (Tabela S5). Estas medidas incluíram: o número de número de cópias muda isto é, ganhos, perdas, ganhos de nível superior ( 0,6 log

2 amplitude) eo número total de segmentos; a percentagem do genoma alvo de alteração do número de cópia (ganho, perda e alto nível de ganho); e um “índice de Hicks”, como descrito [31] para os ganhos, perdas e tanto. As amostras foram divididos em quartis baseados em cada um destes índices e testados quanto à associação com os resultados clínicos utilizando uma análise de riscos proporcionais de Cox univariada. Destas medidas, apenas o número de ganhos de amplitude maior (p = 0,019) mostrou uma correlação com a sobrevida livre de progressão, mas não a sobrevida global (Figura S8). A percentagem do genoma englobados em ganhos de nível superior não foi significativa (p = 0,88), sugerindo que não é a proporção de ADN amplificado, mas o número de eventos de amplificação que é mais importante.

Discussão

Aneuploidia e aberrações citogenéticas têm sido reconhecidos como marcas cancerosas. Nos cancros epiteliais, alterações no número de cópias foram mostrados para ser motoristas do fenótipo do câncer através de amplificação e sobre-expressão de oncogenes como

ERBB2

e perda de supressores de tumor, tais como

CDKN2A

. O câncer de ovário é heterogênea quanto citogeneticamente complexo que torna difícil decifrar as regiões genômicas principais afetados pela CNA. Estudos anteriores têm sido geralmente fraca potência em relação à resolução e /ou número da amostra, no máximo, compreendendo cerca de 100 casos [10], [11], [12]. Este estudo reúne uma grande coleção de carcinomas ovarianos perfilados para número de cópias, o que temos analisados ​​utilizando tanto abordagens frequência GISTIC e proporcionar uma anotação definitiva das alterações de driver. regiões chave estão sumariados nas Tabelas 2 e 3, enquanto um catálogo mais amplo, englobando a união de ambos os métodos é dada na Tabela S2. Por causa do grande número de genes e regiões envolvidas, não é possível abordar tudo em detalhe, no entanto, as regiões mencionadas abaixo ilustram alguns dos insights derivados de trabalhar com este grande conjunto de dados.

Nós eleito para usar abordagens analíticas complementares como cada técnica tem suas próprias forças e fraquezas: a abordagem de frequência para regiões como 3q26 era mais capaz de identificar o gene motorista provável,

MECOM

, enquanto que para 19q12 a capacidade de GISTIC para integrar a magnitude de copiar ganho de número para cada amostra identificada

CCNE1

. Usando uma abordagem de frequência em camadas em conjunto com GISTIC proporcionou uma maior profundidade de entendimento em regiões complexas para as quais não há nenhum driver clara. Estudos anteriores identificaram uma amplificação no cromossomo 11 em 18% dos cancros do ovário, e propuseram que o gene alvo deste evento é

EMSY

(

C11ORF30

) [32]. Em outros tipos de câncer, como câncer de mama, a amplificação de pico nesta região pode ser diferente, tendo como alvo

EMSY

e /ou

CCND1

[33], [34]. Nos dados apresentados aqui, o amplicon principal não parece ser alvo de

CCND1

, que é 5 Mb fora da região de pico (Figura S4). GISTIC identifica um pico abrangendo quatro genes (

THRSP

,

NDUFC2

,

ALG8

e

KCTD21

), amplificação dos quais foram mostrados no cancro da mama correlacionar com expressão excessiva e pobres sobrevivência [35]. O gene mais frequentemente alvo de ganho de baixo nível é

GAB2

(30%).

Deixe uma resposta