PLOS ONE: Identificação do Crescimento Candidato Promoção Genes no cancro do ovário por meio de cópia Número Integrado e Expressão Analysis

Abstract

O câncer de ovário é uma doença caracterizada por rearranjos genômicos complexas, mas a maioria dos genes que são alvo de essas alterações não são identificados. Catalogar estes genes-alvo irá fornecer informações úteis sobre a etiologia da doença e pode proporcionar uma oportunidade para desenvolver novas intervenções diagnósticas e terapêuticas. Alta resolução genoma número grande de cópia e expressão combinando dados de 68 carcinomas ovarianos epiteliais primárias de vários histotipos foi integrado para identificar genes em regiões de amplificação mais frequente com a correlação mais forte com expressão e número de cópias. Regiões nos cromossomos 3, 7, 8, e 20 foram mais frequentemente aumento no número de cópias ( 40% das amostras). Dentro destas regiões, 703/1370 (51%) de sondas de expressão do gene expresso diferencialmente foram original quando as amostras com ganho foram comparados com amostras sem ganho. 30% destas sondas diferencialmente expressos também mostrou uma forte correlação positiva (r≥0.6) entre expressão e número de cópias. Também identificou 21 regiões de alta amplitude ganho de número de cópias, em que 32 genes codificadores de proteínas conhecidas mostrou uma forte correlação positiva entre a expressão eo número de cópias. No geral, os nossos dados valida genes de cancro do ovário previamente conhecidos, tais como

ERBB2

, e também identificou novos motoristas potenciais, tais como

MYNN

,

PUF60

e

TPX2

Citation:. Ramakrishna M, Williams LH, Boyle SE, Bearfoot JL, Sridhar A, velocidade TP, et al. (2010) Identificação do Crescimento Candidato Promoção Genes no cancro do ovário por meio de cópia Número Integrado e Análise de Expressão. PLoS ONE 5 (4): e9983. doi: 10.1371 /journal.pone.0009983

editor: Patrick Tan, Duke-NUS Graduate Medical School, Singapura

Recebido: 20 Janeiro, 2010; Aceito: 07 de março de 2010; Publicação: 08 de abril de 2010

Direitos de autor: © 2010 Ramakrishna et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. MR é suportado pela bolsa Cancer Council Victoria Pós-Graduação. Este trabalho é financiado por uma bolsa do Conselho Nacional de Saúde e de Investigação Médica (NHMRC) da Austrália (ID: 566603). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Enquanto o progresso tem sido feito na elucidação dos eventos moleculares que estão na base do desenvolvimento de câncer de ovário, a identidade da maioria dos genes que impulsionam o desenvolvimento desta doença são ainda imperceptíveis. Numerosos estudos de expressão gênica têm identificado listas de genes com expressão significativamente alterado, mas infelizmente há pouco consenso entre os estudos [1]. Enquanto os estudos de expressão gênica são úteis na identificação de grandes categorias de caminhos alterados em câncer e subtipos clinicamente importantes [2], por conta própria eles podem não ser capazes de distinguir os genes fator-chave geneticamente modificados. Uma estratégia alterative usado para identificar genes driver foi anotação de aberrações cromossómicas recorrentes. Os primeiros estudos foram prejudicados porque as tecnologias para a análise genômica de todo o genoma faltava a resolução para refinar adequadamente câncer de loci associados [3]. O problema da resolução tem sido superado com o desenvolvimento de ultra-alta resolução aCGH e SNP matrizes. Recentemente, nosso grupo tem usado essas matrizes SNP de última geração para anotar mesmo pequenas regiões (tão pequeno como 25 kb) de alteração genômica [4]. Esses dados também demonstraram que os eventos genéticos que ocorrem em cancros do ovário são mais numerosos e complexos do que se suspeitava anteriormente. Enquanto alguns genes motorista potenciais poderiam ser rapidamente identificados a partir destes dados, devido à sua localização no alterações focais, a maioria das alterações recorrentes são grandes e abrangem numerosos genes.

Para agilizar a identificação de genes de crescimento do câncer de ovário promover temos integrado correspondentes número de cópias de ADN e a expressão do gene de dados a partir de uma coorte de 68 cancros do ovário epiteliais primárias. Temos focado principalmente nos genes das regiões de ganho de número de cópias, com a expectativa de que a expressão de um gene dentro de um amplicão condutor vai ser mais fortemente correlacionada com o número de cópias do gene de genes co-amplificado cuja expressão é independente de a tumorigénese. Integração do número de cópias e expressão forneceu uma lista de genes motorista candidato dominantemente de atuação, que pode ser usado para sustentar a análise funcional que será necessário para validar a sua contribuição para tumorigênese de ovário. Além disso, o amplificados e mais genes expressos têm o potencial para servir de marcadores terapêuticos ou de diagnóstico, como úteis para o câncer de ovário.

Resultados

frequência de alterações no número de cópias (CNA) em câncer de ovário

a avaliação da CNA em 72 tumores ovarianos epiteliais (Tabela 1, Tabela S1) produziu um total de 36,534 segmentos que compõem 20,570 ganhos NC e 15.964 perdas NC. O número mediano de regiões com ganho de NC por tumor era 208, correspondendo a uma média de 13,6% do genoma por amostra (Tabela S2). O número mediano de regiões com perda de NC foi de 194 que representa 12,2% do genoma. Estes CNAs ocorreu em todo o genoma, mas houve algumas regiões muito frequentes recorrentes de CNA entre os 72 tumores (Figura 1), incluindo ganhos localizados em 1q, 3q, 6, 7q, 8q, 19 e 20 e as perdas de cromossomos 4, 6, 8, 13, 16, 17, 18, 22q e X. Dentro histotipos câncer epitelial de ovário observamos que mucinoso e, em menor grau casos de células claras apareceu a ter menos CNAs e uma proporção menor do genoma estava envolvido em comparação com os outros subtipos (Figura S1). No entanto, o número de amostras nos menores subtipos eram pequenos, o que torna difícil tirar conclusões estatisticamente válidos sobre as mudanças específicas do subtipo. A maioria das amostras eram do subtipo endometrioid alto grau seroso ou relacionados e muitas das regiões de ganho e perda são movidos principalmente por esses subtipos.

Frequência de ocorrência de ganhos genômicos (amarelo) e perdas (azul) em todo o genoma, representados em ordem cromossomo de 1p para Xq.

Integração de expressão de mRNA em regiões de cópia frequente ganho número

Um mecanismo comum de ativação da função do gene no desenvolvimento do câncer é através da sobre-expressão como consequência da amplificação do gene. Enquanto muitos genes pode ser localizado dentro de um amplicão específico, seria esperado que o gene (s) alvo para mostrar de forma consistente a expressão elevada em comparação com genes adjacentes bystander [5]. Nós já realizou uma análise de expressão integrado de genes supressores de tumor candidato dentro das regiões de perda de heterozigosidade em uma coorte tumor sobreposição [6], assim, para este estudo, optamos por concentrar-se na identificação de genes candidatos localizados dentro amplicons. Um limiar de frequência arbitrária de pelo menos 40% foi escolhido como um filtro para a selecção de regiões importantes, resultando na demarcação de várias regiões cromossómicas em 3q, 7q, 8q e 20q (Figura 2). Cada segmento do ganho CN frequente foi marcado pela cytoband pertencia a; após o que as regiões com a mesma tag cytoband foram recolhidas em uma região maior (Figura S2-A). As regiões de sobreposição com o número de cópia da linha germinativa polimorfismo (CNPs, Tabela S3) foram excluídos como descrito na Figura S2-B. Os últimos 106 amplicons variaram em tamanho de 11 kb a 7 Mb (Tabela S4) e 90 destas regiões no total contido 1370 sondas de expressão gênica na matriz Affymetrix Gene 1.0ST correspondente a genes que codificam 938 proteína conhecida. Os outros 16 amplicons não foram representados por conjuntos de sondas sobre as matrizes Gene 1.0ST.

ganhos freqüentes ocorrem nos cromossomos 3, 7, 8 e 20, com cada ponto indicando a frequência de ganho de um segmento CN. A linha vermelha em todos os painéis indica o nível de freqüência de 40%.

Expression foram realizadas análises de conjuntos de sondas em cada uma das 90 regiões (Tabelas 2, 3, 4, Tabela S5). Para cada região de grupos de amostras que apresentaram ganho de cópia número (3 ou mais cópias) foram testadas para a expressão diferencial contra grupos de amostras que apresentaram número cópia normal (~ 2 cópias). Em todas as regiões, havia 703 (51%) de sondas diferencialmente expressos correspondentes a 629 genes com identificadores únicos, tais como um símbolo de genes Ensembl HGNC ou ID (Tabela S5). Apenas um gene,

hCG_16001

, mostrou uma variação negativa log vezes (-0.34, Figura S3). Em média (em regiões com pelo menos 5 conjuntos de sondas), foram encontrados 50% dos conjuntos de sondas para ser diferencialmente expressos sugerindo um aumento generalizado na expressão de genes dentro de ganhos NC. Curiosamente, observou-se que

MYC

, um oncogene caracterizado por cópia ganho número em uma ampla variedade de tipos de tumor, não foi significativamente expressos diferencialmente entre os grupos amplificados e sem amplificação de amostras. Uma possibilidade é que

MYC

é expresso a um nível elevado em todos os tumores, independentemente do estado do número de cópias e, portanto, não é diferente entre os grupos de tumores que mostram um ganho e aqueles que não o fazem. Para testar esta possibilidade, comparamos a expressão de

MYC

em amostras de cancro do ovário amplificados a expressão no epitélio das trompas de Falópio normal. Nós não encontrou qualquer aumento no

MYC

expressão quando se comparam tumores a estas amostras (p = 0,41, Welch corrigido teste t não pareado, Figura S4).

Para refinar ainda mais esta lista de 703 conjuntos de sondas número de cópias conduzido, diferencialmente expressos, que argumentou que os genes que mostram a correlação mais forte do número de cópias e expressão podem ser os genes com maior probabilidade visados ​​pelo ganho de CN. Assim, calculou-se a correlação de co-eficiente para todos os genes diferencialmente expressos com cobertura de sondas número de cópias nos amplicons candidatos (Tabela S5). Dos 692 conjuntos de sondas testadas (11 não continham sondas número de cópias), 219 (correspondente a 206 genes codificadores de proteínas) mostrou uma forte correlação positiva (r≥0.6) entre a expressão e número de cópias.

Genes alvo de alta CN amplificação

a nossa principal abordagem para identificar genes relacionados ao câncer foi para filtrar as aberrações mais freqüentes, mas observamos que genes motorista câncer bem caracterizadas, tais como

CCNE1

e

ERBB2

[7], não foram identificadas, uma vez que foram amplificados em menos do que 40% dos tumores. Ao invés de usar um limite inferior de cut-off que arriscaria incluindo muitas regiões alteradas devido à instabilidade genômica generalizada (por exemplo ~67% do genoma seria considerada como regiões candidatas se um corte de 10% foi utilizado), nós em vez filtrada para genes que mostram um alto ganho de amplitude CN. Aqui, nós olhamos todos os segmentos que tiveram um número de cópias maior ou igual a 5 e estavam presentes em pelo menos 5 amostras, que identificou 21 regiões mais 27.2 Mb (Tabela 5). Estas regiões correspondem a 181 conjuntos de sondas de expressão gênica em nossas matrizes Affymetrix Gene 1.0ST, dos quais 39 (22%) tiveram uma forte correlação positiva entre CN e expressão gênica (r 0,6). Estas sondas correspondeu a 32 conhecido proteína codificante genes, incluindo genes motorista câncer bem conhecidos, tais como

ERBB2

(Tabela S6).

Priorização de genes motorista candidatos

A fim para priorizar os candidatos mais promissores das análises anteriores, construímos uma lista de genes utilizando os seguintes critérios. Em primeiro lugar, foram selecionados os genes conhecidos com uma elevada frequência de ganho ( 40%), que foram diferencialmente expressos (n = 629). A partir desta lista foram selecionados os genes mais fortemente ao longo expresso pelo nível de mudança log vezes ( 0,7) entre as amostras com ganho CN e amostras que eram neutras no locus (n = 59). Como uma medida diferente de como a expressão do gene foi afetada pelo número de cópias, que também selecionou genes que mostraram uma forte correlação ( 0,7) do número de cópias e expressão (n = 58). A união desses critérios elaborou uma lista de 110 genes. A partir desta lista, foram identificados genes em cada cromossomo que foram os mais frequentemente afectadas por cópia alteração de número; para CHR8, isso inclui genes com uma frequência de ≥60%, para CHR3, ≥50% e para chr20 ≥42%. Esta lista foi composta por 37 genes (Tabela 6).

Em segundo lugar, nós também desejava incluem genes que foram altamente amplificados. De nossa lista de genes altamente amplificado em pelo menos 5 amostras foram selecionados aqueles que tinham uma forte correlação positiva entre o número de cópias e expressão (r 0,6, n = 32). Alguns dos genes que foram altamente amplificados foram também expressos diferencialmente com base na análise das regiões frequentemente obtidos a expressão, de modo que também incluídos genes com uma alteração de registo de dobra superior a 0,6 (n = 17). Tomando genes que satisfazem um ou outro destes critérios, foram adicionados 41 genes na nossa lista de alta prioridade (Tabela 6).

Quando combinado dessas duas listas de genes, o primeiro baseado em “alta frequência”, ea segunda em “amplitude elevada”, mas tanto com o aumento da expressão, o número final de genes únicos foi de 70 (Tabela 6).

Discussão

a análise da expressão genética tem sido amplamente utilizada para identificar vias principais e clinicamente subgrupos importantes em cancro do ovário mas a identificação de genes específicos do controlador, utilizando esta metodologia sozinho tem sido dificultada pelo facto de que a expressão é, em vez de plástico e tem havido pouco consenso nos genes identificados entre esses estudos [1], [8]. Uma das razões para essa falta de consistência é que a maioria dos estudos analisados ​​RNA a partir de amostras tumorais inteiras sem verificação do epitélio câncer de percentagem e /ou têm usado diversos tecidos de controle, como ovário terra inteira [9]. Em contraste com a expressão do gene, alterações genómicas pode ser um indicador mais estável e fiável do local de genes do controlador. O câncer de ovário tem sido suspeito de ser citogeneticamente complexo [10] e os recentes avanços na tecnologia genômica confirmou as profundas aberrações cromossômicas que caracterizam cânceres mais ovarianos [4], [11], [12], [13]. Apesar dessa complexidade, publicados perfis número de cópias de cânceres de ovário são altamente comparável a nível global [3] e muitos estudos identificaram regiões muito semelhantes de número de cópias frequente alteração. No entanto, o progresso na identificação de genes chave do controlador tem sido lento, com diferentes estudos, muitas vezes identificando candidatos diferentes na mesma região genômica. Por exemplo, o motorista amplicon cromossomo 20 foi variadamente sido sugerida como

ADRM1

[14],

EYA2

[15],

AURKA

e

ZNF217

[16], entre vários outros. Os primeiros estudos que integram dados de expressão e de número de cópias ter ou linhas celulares de cancro usado para identificar mais genes expressos [17], [18] e ou plataformas /microarray com resolução limitada e cobertura do genoma [19], [20]. Até à data poucos estudos exploraram um número de cópias realmente genoma-wide integrado e análise de expressão em amostras emparelhadas para a identificação imparcial de genes candidatos [21], [22], [23] e houve apenas um estudo prévio de uma coorte menor de tumores do ovário [12]. Neste estudo, temos, portanto, tentou contornar algumas das questões do exame de expressão ou o número de cópias em isolamento, integrando dois conjuntos de dados obtidos a partir de células epiteliais tumorais microdissecadas.

Como uma primeira passagem dos dados que focado em ganhos ocorrendo em uma proporção muito elevada de casos que incluiu regiões dos cromossomos 3, 7, 8 e 20. Identificação de genes diferencialmente expressos reduzidos nossa lista de genes do cancro candidato nestas regiões por aproximadamente metade (intervalo 6-89% para as regiões com pelo menos 5 conjuntos de sondas). Temos validado vários dos genes identificados em Haverty

et ai., Por exemplo, em 3q26.2 Confirmámos expressão aumentada em 7/8 dos seus genes. No entanto, também identificaram um número de genes amplificados adicionais e mais expressos (Tabelas 2, 3, 4), muito provavelmente devido às diferenças em nosso método e maior tamanho da amostra. A proporção de genes diferencialmente expressos em nosso estudo é consistente com estudos anteriores de outros tipos de câncer [24] apoiando o conceito de que o número de cópias pode ter uma forte influência sobre a expressão do gene. Consequentemente, para muitas regiões que não foram capazes de identificar um gene motorista particular. É possível que possa ser verdadeiramente muitos genes maquinista em cada fragmento amplificado e embora cada um individualmente podem contribuir pouco para a progressão do cancro, de coordenadas sobre-expressão destes genes nas regiões amplificadas podem ter um efeito aditivo ou sinérgico oncogénica. Em alternativa, muitos dos genes expressos diferencialmente podem ser passageiros, cuja sobre-expressão confere nenhuma vantagem selectiva ou desvantagem para o tumor. Discriminação entre passageiros e motoristas dentro de uma região genômica pode, portanto, só pode ser alcançado através de análises funcionais de grande escala e abordagens combinatórias examinar muitos genes em concerto.

Apesar do número relativamente grande de genes expressos amplificados e diferencialmente identificados neste estudo , temos ainda a hipótese de que esses genes mostrando o mais forte sobre-expressão, e também os genes com maior número ganhos cópia amplitude, podem ser mais propensos a ser os condutores de tumorigênese do que fracamente sobre genes expressos. Por isso, priorizamos nossa lista de genes utilizando critérios de expressão rigorosas. Por exemplo, um dos genes mais frequentemente alvo de número de cópias que é fortemente nos expressa é

PUF60

(

poli-L ligação do factor de splicing 60 kDa

). Este gene codifica para um factor de splicing de ARNm de pré-pensa estar envolvida no reconhecimento dos sítios de splicing 3 ‘[25]. Ele também pode inibir a transcrição através da interacção com a helicase TFIIH, o factor-chave mutado no cancro xeroderma pigmentoso síndrome-propenso, e esta interacção é implicados na regulação correcta de

MYC

transcrição [26], [27] .

Myoneurin ou

MYNN

é um gene que está localizado em uma região de frequentes (60%) copiar ganho número no 3q26.2. É diferencialmente expressos (ajustado p = 1.51E-05) entre os grupos amplificadas e não amplificadas, e mostra a correlação mais forte entre número de cópias e expressão (r = 0,74, Figura 3) entre todos os genes nesta região. Este gene foi identificado como um membro do Broad complexa, Tramtrack, Bric um “brac (BTB) ou poxvírus eo dedo de zinco (POZ) -ZF i família BTB /POZ-ZF de fatores de transcrição [28]. Descoberto pela primeira vez no

Drosophila

, esta família é composta por cerca de 60 proteínas humanas, incluindo diversas proteínas relacionadas ao câncer, como fator relacionado a leucemia (LRF /ZBTB7) e linfoma de células B 6 (BCL6). Embora o papel do MYNN no câncer ainda está para ser caracterizado, outros membros desta família são igualmente sobre-expressos em tumores [29].

A. Frequência de cópia ganho número no cromossomo 3 de p-ter à esquerda para q-ter à direita, como indicado pelo ideograma. B. Genes sobre CHR3: 169,209-172,478 PAM, a região ganhou em 60% (41/68) de todas as amostras, incluindo genes previamente associados com cancro do ovário (

PRKCI, MECOM

ou

MDS1 /EVI1

) e potencialmente novos oncogenes (

MYNN

). C. Um gráfico vulcão apresentando os resultados de expressão analisa entre as amostras amplificadas e não amplificadas nesta região. Os genes no canto superior direito são significativamente sobre-expressos em amostras com ganho de número de cópia (p 0,05; acima da linha vermelha na -logP 4,32) em comparação com amostras sem alteração do número de cópia (genes selecionados são rotulados). Para a lista completa dos genes diferencialmente expressos ver S5 Table. D. Plot comparando número de cópias e expressão em todas as amostras para o gene

MYNN

que apresentou a maior correlação (r = 0,74, teste de Pearson) entre número de cópias e expressão para esta região em 3q26.2.

além de identificar de alta frequência, genes diferencialmente expressos, incluindo genes do cancro conhecidas, tais como

PIK3CA

e

AURKA

, nós também utilizado regiões de alta amplitude para localizar adicionais conhecidos ( por exemplo,

ERBB2

e

CCNE1

) e potenciais oncogenes. Por exemplo, no cromossoma 20, a abordagem de alta amplitude identificou uma pequena região mínima que não foi evidente a partir da análise de baixa amplitude. Este intervalo de 421 kb no 20q11.21 engloba 10 genes, dos quais

TPX2

mostrou a correlação mais forte com o número de cópias (r = 0,53). Este gene também foi expresso diferencialmente entre as amostras com qualquer

TPX2

ganho e aqueles com normal,

TPX2

número de cópias, e teve o mais forte mudança dobra de qualquer gene no cromossoma alteração 20 (log2 dobra de 1,03 ). A proteína codificada por este gene funciona como um activador da Aurora-A com um papel na formação do fuso [30]. Curiosamente para o cancro do ovário, foi demonstrado que interagem com o complexo de BRCA1 /BARD1 (15). Recentemente, tem sido identificado como um oncogene potencial em câncer pancreático [31].

Em resumo, nosso estudo mostra que a combinação da alta freqüência e análises de alta amplitude e focalização nos mais fortemente nos genes expressos reduziu a lista de candidatos a apenas 70 genes dos muitos milhares alvo de número de cópias a mudança sozinho. Nós identificamos vários genes promissores candidatos não observado anteriormente no cancro do ovário, particularmente genes tais como

MYNN

,

TPX2

e

PUF60

. Deve notar-se, no entanto, que o nosso método de análise é uma das muitas que podem ser utilizados na identificação de genes de cancro novos, e é improvável que todos os candidatos identificaram possíveis. O exemplo de

MYC

, não fortemente expresso nos dados mas anteriormente mostrado para ter um efeito funcional em linhas celulares de cancro do ovário [32], indica claramente que a nossa abordagem deve ser considerada complementar a outros, tais como telas e funcionais profunda sequenciação de amostras de cancro primário. No entanto os nossos dados fornece uma importante plataforma a partir da qual a perseguir racionalmente a validação destes potenciais condutores dominantes de tumorigênese de ovário. Além disso, esta lista pode incluir genes que são candidatos válidos para fins de diagnóstico ou terapêuticos.

Materiais e Métodos

Ética Declaração

Todas as amostras foram coletadas com o doador informado por escrito consentimento. Este estudo foi aprovado pelo Comitê de Peter MacCallum Cancer Centre Ética em Pesquisa (Protocolo número 01/38).

Coleta de amostras

biópsias de tumor foram obtidas de 72 pacientes que foram submetidos à cirurgia para ovariana primária cancros (a) em hospitais da região Wessex do Sudeste da Inglaterra, Reino Unido e (b) em hospitais de Victoria, Austrália (acessada através do tecido Cancer Centre Peter MacCallum Bank). O sangue foi recolhido dos mesmos pacientes para linfócitos correspondência. amostras de tubos de falópio foram coletados por meio do banco de tecidos de

BRCA1

ou

BRCA2

portadores da mutação submetidos profilática salpingo-ooforectomia bilateral em hospitais ao redor de Melbourne. A provisão e utilização de amostras de doentes relacionados com este projecto foram aprovados pelos comitês de ética institucionais relevantes. informações clínicas e histopatológicas sobre as amostras são apresentados na Tabela 1 e Tabela S1.

DNA e RNA de extracção

tecido fresco congelado foi incorporado em Optimal Composto Corte Temperatura (OCT, Sakura Finetek, Torrance , CA) e cortado em secções de 10 um. DNA do tumor e RNA do tumor e das trompas de Falópio foram extraídas de regiões idênticas após a agulha de micro-dissecção de células epiteliais 80% tumorais. Secções de ARN foram coradas com violeta de cresilo e o ARN foi extraído utilizando Ambion miRvana protocolo de extracção de ARN total (Applied Biosystems /Ambion, Austin, TX). As secções de tecido utilizadas para a extracção de DNA foram coradas com hematoxilina e eosina e o ADN foi extraído utilizando o Qiagen Blood and Tissue kit (Qiagen, Valencia, CA, EUA). ADN correspondentes a partir de linfócitos normais para as amostras do Peter MacCallum Cancer Centre Banco de Tecidos foram extraídos utilizando o mesmo kit. DNA de correspondência linfócitos normais para amostras de Southampton foram extraídos como descrito anteriormente [33].

geração de dados Microarray e controle de qualidade

500 ng de DNA de cada amostra de tumor foi analisado usando o Affymetrix Genome -wide matriz SNP Human 6.0 (SNP6.0) seguindo as instruções do fabricante (Affymetrix, Santa Clara, CA). Onde disponível (57 casos) de ADN a partir de correspondentes linfócitos de sangue periférico foi analisada na mesma plataforma e no mesmo lote. Para a expressão de mRNA, 300 ng de ARN total a partir das mesmas amostras de tumor foram analisados ​​usando a matriz Affymetrix Human Gene1.0 ST. A análise do desempenho matriz para matrizes SNP6.0 foi realizada utilizando taxas de chamada genotipagem ( taxa de chamada de 90% necessário) e também inspeção visual do número de cópia traça para remover amostras ruidosas. 72 amostras passaram medidas de controlo de qualidade e foram usadas na análise de número de cópias. Para matrizes de expressão, os perfis dos controles de hibridação, controles spike-in e área positivo versus negativo sob a curva (AUC) foram avaliadas usando Affymetrix Expressão Console. Além disso, a qualidade das matrizes foi avaliado com base no Relativa Log-Probabilidade (RLE) e erros de Normalizada Unscaled Standard (nuse) critérios gerados usando o pacote “affyPLM” no software de fonte aberta R. matrizes de expressão que foram sinalizados como duvidosa pela 2 de 3 medidas (AUC, RLE, nuse) foram excluídos da análise de expressão. 68 amostras de tumores (57 com DNA normal) passou para ambos número expressão e de cópia e foram retidos na análise da expressão integrada. A amostra final foi definido na análise integrado incluía os quatro subtipos mais comumente observados histológicos de cancro do ovário seroso – (n = 37), endometrióide (n = 14), célula mucinoso (n = 7) e transparente (n = 9). Uma amostra do estudo foi de histotipo desconhecido (Tabela 1). Ambos os dados de expressão gênica e número de cópias são Miame compatível e foram submetidos ao Centro Nacional de Biotecnologia da Informação (NCBI) Gene Expression Omnibus (GEO) website, número de acesso da série GSE19539.

Copiar análise do número de

Copiar número de geração e análises foram realizadas utilizando Partek

® Genomics Suíte ™ versão 6.03 (Partek Inc., St. Louis, Missouri) e bioconductor pacotes no âmbito software de código R-aberto [34], [35]. SNP arquivos 6.0 CEL foram importados para Partek usando as configurações padrão para a correção de fundo e sumarização. Genoma Humano Construir 36,1 (hg18, março de 2006) foi usado para locais de pares de bases. rácios no número de cópias de sondas foram calculados por comparação de cada tumor com o correspondente normal quando disponível (n = 57). Para amostras que não tiveram foi usada correspondentes dados normais (n = 15), a linha de base normal em pool de todas as outras amostras normais. segmentação binária Circular [36] foi realizada utilizando o pacote baseado em R “DNAcopy” para segmentar os dados em regiões distintas da mudança usando as configurações de pacotes padrão. Esta análise produziu uma lista de regiões por amostra que foi então filtrada para as regiões que apresentaram ganho (número de cópias razão 2,5) ou perda (número de cópias do rácio 1,5) em ≥40% (n≥29) de todas as amostras. Estas regiões foram recolhidas em cytobands para manipulação de dados mais fácil (Figura S2 para mais detalhes). É importante notar que, uma vez que estas regiões tenham sido submetidos a filtragem etapas definidas acima, não incluem toda a cytoband pelo qual eles são representados e, portanto, a elevada resolução dos dados não é comprometida.

para identificar potenciais linha germinal polimorfismos do número de cópia (CNP) que possam interferir com a identificação precisa das alterações somáticas, copiar dados numéricos para 57 amostras normais foi gerado em relação a uma linha de base combinada de todas as amostras normais. Regiões que mostram ganho ou perda em 5% de todas as amostras foram chamados como CNPs (Tabela S3). Regiões de interesse a partir dos dados de tumor foram escaneados para estes CNPs e partidas foram removidos a partir de análises a jusante (Figura S2-B). CNP-removidas, regiões desmoronou-cytoband foram consultados contra todo o conjunto de dados copy-número para gerar valores precisos, região-wise de número de cópias.

Copiar número foi extraído em uma base gene-por-gene para executar Pearson análise de correlação com a expressão. Uma vez que alguns genes eram tão pequenos que não havia número de cópias de sondas de mapeamento para eles, um de 10 kb adicional foi acrescentada a todos início gene e parar posições antes de extrair o seu número de cópias.

Expression microarray análise

Para cada região candidata, as amostras foram divididas em dois grupos, G – que consiste em todas as amostras que apresentaram ganho ( 3 cópias) sobre a plataforma SNP6.0; e N – que consiste em todas as amostras que apresentaram número de cópia normal (1,5-2,5 cópias). Um teste para expressão diferencial foi realizada entre estes dois grupos usando o pacote “limma” disponível na plataforma de software de código R-aberto [34]. subtipo histológico foi incluído como um fator na análise. Os genes foram considerados significativamente expresso diferencialmente, com um valor de p 0,05 após a correcção de testes múltiplos [37]. análise de correlação de Pearson entre o número de cópias e expressão também foi realizada. análises separadas foram realizadas numa base de gene-por-gene para todos os genes dentro de (a) as regiões com maior frequência amplificada (CN≥3; Freq≥40%) e (b) regiões mais altamente amplificados (CN≥5; Freq≥7% ).

Informações de Apoio

Tabela S1.

detalhes de exemplo. características clínicas e informações ensaio para cada amostra. 57 de 72 tumores tinham correspondência DNA linfocítica disponíveis para a análise microarray número de cópias

doi:. 10.1371 /journal.pone.0009983.s001

(0,06 MB PDF)

Tabela S2.

Proporção de ganho de todo o genoma e perda de amostra. Em todos estes exemplos, o genoma aberrante adiciona-se a 95,4%, em média. A falta de 4,6% pode ser atribuída a regiões no cromossomo Y, DNA mitocondrial e sequências repetitivas em torno de regiões centroméricas que, ou são retirados da análise de segmentação ou não cobertos pela matriz Affymetrix SNP6.0

doi:. 10.1371 /journal.pone .0009983.s002

(0,06 MB PDF)

Tabela S3.

da linhagem germinativa copiar polimorfismos numéricas no Chr 3, 7, 8, 20. O regiões /segmentos da cópia ganho número que continham um ou mais destes CNPs foram removidos ou alterados conforme apresentado na Figura S1-B. O tipo de CNP também é exibido na coluna mais à direita

doi:. 10.1371 /journal.pone.0009983.s003

(0,05 MB PDF)

Tabela S4.

Regiões de ganho de presente em 40% das amostras. Essa tabela contém a informação genômica para as 90 regiões incluídas na expressão análises, i.e., todas as regiões que mapeados para 1 ou mais conjuntos de sondas nas micromatrizes GeneST1.0 Humanos. Nesta plataforma de microarranjo, a maioria dos conjuntos de sondas mapear exclusivamente a um gene que codifica a proteína. Os IDs região correspondem aos quadros 2, 3, 4 e S5

doi:. 10.1371 /journal.pone.0009983.s004

(0,13 MB PDF)

Tabela S5.

Todos diferencialmente expressos sondas em regiões frequentes de ganho.

Deixe uma resposta