PLOS ONE: alta resolução de cópia Número Variação dados na célula Lines Câncer NCI-60 de Whole Genome Microarrays acessíveis através CellMiner

Sumário

hibridização genômica comparativa baseada em Array (aCGH) é uma técnica poderosa para a detecção de cópias do gene variação do número. É geralmente considerado para ser robusto e conveniente, uma vez que mede o ADN em vez de ARN. No estudo atual, nós combinamos número de cópias estimativas de quatro plataformas diferentes (Agilent 44 K, NimbleGen 385 K, Affymetrix 500 K e Illumina Human1Mv1_C) para calcular um de alta resolução confiável, fácil de entender de saída para a medida de alterações no número de cópias na década de 60 células de câncer do NCI-DTP (NCI-60). Nós, então, relacionar os resultados para a expressão do gene. Nós explicamos como acessar esse banco de dados, usando o nosso web-ferramenta CellMiner e fornecer um exemplo da facilidade de comparação com a expressão transcrição, toda a sequenciação exome, expressão microRNA e resposta a 20.000 medicamentos e outros compostos químicos. Em seguida, como demonstram os dados podem ser analisados ​​integratively com dados de expressão para a transcrição de todo o genoma (26,065 genes). Comparação do número de cópias e os níveis de expressão mostra uma alta correlação global médio (r mediana = 0,247), com correlações significativamente mais elevadas (mediana r = 0,408) para os genes conhecidos supressores de tumor. Esta observação é consistente com a hipótese que a perda do gene é um mecanismo importante para a inactivação supressor de tumor. Uma análise integrada dos simultânea do número de cópias de DNA e expressão gênica mudança é apresentado. Limitando a atenção para os ganhos de DNA focais ou perdas, identificamos e revelar supressores de tumor romance candidatos com alterações correspondentes em nível de transcrição

Citation:. Varma S, Pommier Y, Sunshine M, Weinstein JN, Reinhold WC (2014) High resolução de cópia Número de dados Variação nas NCI-60 cancro de células Linhas de Whole Genome Microarrays acessíveis através CellMiner. PLoS ONE 9 (3): e92047. doi: 10.1371 /journal.pone.0092047

editor: Kwok-Wai Lo, da Universidade Chinesa de Hong Kong, Hong Kong

Recebido: 17 de outubro de 2013; Aceito: 18 de fevereiro de 2014; Publicação: 26 de março de 2014

Este é um artigo de acesso aberto, livre de todos os direitos autorais e pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita. O trabalho é feito disponível sob a dedicação de domínio público da Creative Commons CC0

Financiamento:. Este trabalho foi apoiado pelo Centro de Pesquisa do Câncer, Programa Intramural do National Cancer Institute. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:. Sudhir Varma é um funcionário da HiThru Analytics LLC trabalhando sob contrato para os bioinformática NCI fornecendo e serviços computacionais. Ele não tem outro interesse comercial na pesquisa publicada neste artigo. Margot luz do sol é um empregado de Pesquisa e Aplicações de Sistemas (SRA) trabalhando sob contrato com o NCI, prestação de serviços computacionais e desenvolvimento web. Ela não tem outro interesse comercial na pesquisa publicada neste artigo. Isto não altera a adesão dos autores para todas as políticas de PLoS One sobre os dados e materiais de compartilhamento.

Introdução

O NCI-60 é um conjunto de 60 linhas celulares de cancro amplamente utilizados derivados de 9 tecidos de origem incluindo mama, sistema nervoso central, cólon, pulmão, próstata, ovário e rim, bem como leucemias e melanomas [1]. Nós, e outros, fizeram anteriormente dados moleculares disponíveis em várias plataformas para o 60 NCI [2] – [7], tornando-se um recurso único para ambos os farmacogenômica [8], [9] e biologia de sistemas [10], [ ,,,0],11]. Estas linhas de células retêm os padrões de expressão de genes a partir de seus tecidos de origem original do cancro, tal como demonstrado por co-agrupamento [4], e comparação com amostras clínicas [12]. A capacidade de comparar a resposta à droga e dados genômicos para estas linhas celulares é inigualável por quaisquer outros bancos de dados celulares clínica ou câncer [8], [11], [13], [14].

Antes estudos de cópia de DNA número usando aCGH de várias linhas de células cancerosas e amostras clínicas têm uma melhor compreensão da variabilidade de DNA a nível celular [15], bem como produzindo percepções traducionais [16]. aCGH fornece uma medida da instabilidade genômica [17], uma característica da carcinogênese [18]. As associações entre o número de cópias do gene e expressão também têm sido estudados, em alguns casos, produzindo implicações em matéria de mecanismos de progressão do cancro [19], [20].

Os dados em múltiplas plataformas de perfil do NCI-60 são acessíveis através do nosso CellMiner aplicação web [21]. ferramentas baseadas na web recentemente, introduzimos que permitem que o não-bioinformatician para avaliar e cross-comparar os bancos de dados [8]. No estudo atual, nós expandir esta capacidade de integração, apresentando os dados do número de cópias de DNA de alta resolução para o NCI-60 sintetizado a partir da combinação de dados de quatro plataformas (Tabela S1), e colocou-o em um formato estereotipada com as outras formas de dados. Nós introduzimos o “DNA Gene número de cópias do” web-ferramenta, projetada para permitir que o não-bioinformatician, para consultar, visualizar e baixar dados do número de cópias de ADN relativos. A saída desta ferramenta facilita a integração de DNA copiar dados com os nossos outros bancos de dados, aumentando a sua capacidade de integração.

Analiticamente, nós fornecer medições de cópia relativa DNA variação do número dentro e entre as linhas celulares, calcular várias medidas de instabilidade genómica , e correlacionar o número de cópias de ADN em relação com os níveis de expressão do gene. Procedendo sob a hipótese de que o cancro ganhos e perdas focais são o resultado da pressão selectiva com base no seu efeito regulador sobre a expressão do gene, que correlacionar os resultados de alteração focal do número de cópias de ADN e a expressão de genes supressores de tumores para identificar putativos.

Materiais e Métodos

ADN Isolamento

ADN foi isolado como descrito anteriormente [22]. Em resumo, o ADN genómico foi purificado a partir de células usando a cultura celular QIAamp Blood DNA Maxi Kit (Qiagen Inc., Valencia, CA) de acordo com as instruções do fabricante. A qualidade foi avaliada pela densidade óptica 260/280 escala utilizando um espectros otómetro (Beckman-Coulter, Fullerton, CA) e de 0,8% de agarose (SeaKem GTG, FMC Bioproducts, Rockland, ME) gel de electroforese em 1x TAE (Roche, Indianapolis, IN) .

DNA número de cópias no NCI-60 Usando quatro plataformas de microarray

número de cópias de DNA para todos os genes foram determinadas pela integração das sondas a partir de i) o Genoma Humano CGH Microarray 44A (Agilent Technologies , Inc., GEO GPL11068 adesão) com 44 k sondas, ii) a matriz v2.0 H19 CGH 385K WG Tiling (Roche NimbleGen Systems, Inc., GEO GPL13786 adesão,), com 385 k sondas, iii) o Mapeamento Humano GeneChip 500 k matriz Set (Affymetrix Technologies, Inc., GEO GPL3812 adesão) com 500 k sondas, e iv) a matriz Human1 Humano Mv1_C Beadchip (Illumina, GPL6983) com 1.100 k sondas. Os dados para esses microarrays pode ser acessado no CellMiner [21]. Além disso, os dados em bruto foi depositado na expressão gênica Omnibus (GEO) com os seguintes números de adesão Agilent 44 k (GSE48568) Affymetrix 500 k (GSE32264), NimbleGen 385 K (GSE30291), Illumina 1 M (GSE47620).

Probe Mapeamento e intensidades

Sondas para a Agilent, NimbleGen e Illumina matrizes foram re-mapeado para a referência mais recente HG19 usando BLAST + (versão 2.2.25) [23]. Para a matriz Affymetrix, utilizou-se o mais recente anotação baixado do site da Affymetrix NetAffx [24]. Para cada plataforma, fizemos a média das amostras idênticas (se disponível, consulte a Tabela S1). intensidades de sonda foram determinados após recomendações do fabricante, conforme descrito anteriormente para a Agilent [25], NimbleGen Roche [26], Affymetrix [27], e Illumina [28] microarrays.

Para todas as plataformas, as intensidades de sonda log para cada amostra foram normalizados pela média-centragem, antes de toda a análise subsequente. A média das intensidades de sonda de log foi subtraída de todas as intensidades de sonda para essa amostra.

A segmentação das regiões com Consistente Copy Number

Segmentação refere-se ao particionamento de cada cromossomo em segmentos contíguos tais que a número de cópia é a mesma dentro de um segmento e há uma diferença significativa no número de cópias entre segmentos adjacentes. Em nossa análise, usamos Circular binário Segmentação (CBS) [29]. CBS retorna a intensidade média da sonda dentro de cada segmento como uma estimativa do log

2 do número de cópias dentro desse segmento. Assim, um valor de intensidade média de zero sonda corresponderia a um número de cópias medido de 2N (isto é diplóide), um valor de -1 corresponde ao seu número de cópias 1N e 1 corresponde a 4N.

Note-se que o Affymetrix 500 K dados tenham sido utilizadas antes para detectar regiões de LOH (perda de heterozigosidade), no entanto o algoritmo utilizado para detectar as variações do número de cópia foi

pennCNV

que não é adequado para a estimativa do número de cópias do genoma de amostras de cancro [30] . Temos, portanto, re-analisados ​​os dados usando Circular binário Segmentação (CBS).

Combinação de cópia Número Estimativas de quatro plataformas

Foi utilizado um novo algoritmo para combinar as estimativas do número de cópia segmentada a partir dos quatro plataformas para cada linha celular. Usamos a segmentação do número de cópias para definir

breakpoints

na junção de dois segmentos contíguos. Em um ponto de interrupção, um salto discreta (aumento ou diminuição) do número de cópias ocorre. Estes pontos correspondem aos locais de quebras cromossômicas

Nós alinhar os pontos de interrupção dos quatro plataformas para a mesma linha de células usando o seguinte método:. Os pontos de interrupção de diferentes plataformas que estão dentro de 100.000 pares de bases entre si e têm a mesma direção da cópia número mudança são combinados uns com os outros. Este agrupa pontos de interrupção a partir de diferentes plataformas que supostamente se referem ao mesmo quebra cromossômica. Os pontos de interrupção que não correspondem a qualquer ponto de interrupção de outra plataforma são descartados. Em seguida, calcular uma média localização ponto de interrupção de cada grupo de pontos de parada combinados como a média das localizações dos pontos de interrupção a partir da plataforma diferente. Calculamos o

número médio cópia segmento

pela média dos valores segmentados entre dois pontos de interrupção em média adjacentes ao longo dos quatro plataformas.

Para cada gene, encontramos o segmento em que ela se encontra. O número de cópias do gene é o

média de cópia segmento número

para esse segmento. Isso atribui número de cópias estima que 41 ou mais linhas celulares de 23.413 genes.

O número de cópias estimativas para os genes foram comparados com o número de cópias estima a partir da linha celular do cancro da Encyclopedia (LECC) [13] com 44 linhas de células comum a ambos os conjuntos de dados. Calculamos a correlação de Pearson entre a nossa medição do número de cópias eo número de cópias do LECC através das linhas de células 44 para cada gene.

Ganhos e Perdas proeminente e Focais

Para identificar as regiões com o maior , mais visualmente ganhos e perdas marcantes, vamos definir um limite arbitrário de 1,5 no registro absoluto

2 número de cópias e se juntou segmentos que eram menos de 500 kilobases longe um do outro (incluindo quaisquer segmentos entre eles).

para uma identificação sistemática de todos os ganhos de cópia focal número (ou perdas) para cada amostra, foram utilizados os dados CBS (segmentado) para encontrar partes do genoma que são maiores (ou menores) do que ambos os seus vizinhos da direita esquerda e . Foram utilizados três critérios para chamar um ganho ou perda focal: i) o segmento deve ter uma diferença de log

2 do número de cópias de pelo menos 0,3 de ambos os seus vizinhos da mão direita e esquerda, ambas as diferenças sendo positivo ou negativo; ii) a largura do segmento tem de ser inferior a 5 Mb; e iii) deve haver um mapeamento mais de 10 sondas no interior do segmento. Qualquer gene que tem sobreposição (parcial ou total) com o segmento é chamado focally ganho ou perdido

Parâmetros instabilidade genômica

Usando os dados do número de cópia segmentados, calculamos duas formas de instabilidade genômica.; i) a proporção do genoma que foi ganho ou perdido e, ii) o número de ganhos e perdas. A proporção do genoma que se ganha ou perdida foi calculada com base nos valores segmentada do arrayCGH. Nós estimamos isso tomando a proporção das sondas abrangidos segmentos com intensidades médias absolutas superiores a 0,3 (um número ganho cópia de DNA ou perda de 0,46). O número de ganhos e perdas foi calculada como o número total (das regiões ganho /perda) com intensidades médias absolutas superiores a 0,3 com mapeamento de mais de 10 sondas para a região.

Determinação Gene Expression e sua correlação com DNA Copy Number

Expressão de 26,065 genes foi tomado como um z-score integrado de medições a partir de plataformas de expressão de cinco genes, tal como descrito anteriormente [31]. Genes com z-scores de expressão foram pareados com genes com número de cópias. Isto resultou em 18,504 genes com ambos expressão e copiar estimativas numéricas. número de cópias para estas 18,504 genes foram comparados com a expressão do gene através da correlação de Pearson (Tabela S3). O histograma destas correlações foi traçada usando

R

(versão 2.15.2). As correlações medianas para todos os genes, bem como para conjuntos de oncogenes conhecidos e supressores tumorais, foram calculados.

Avaliação da supressores de tumor conhecidos e putativos

Foram selecionados genes com base na sua reunião de quatro critério; i) correlação estatisticamente significativa entre o número de cópias e a expressão (Falso Descoberta Classificação FDR 0,05), ii) o gene a ser focalmente ganho ou perdido em pelo menos 3 amostras (ganhos focais e perdas, tal como definido na secção de segmentação), iii) o número de linhas de células com perdas focais é, pelo menos, 3 vezes maior do que o número de linhas de células com ganhos focais, iv) os genes foram mais de 2 milhões de pares de bases distanciar longe de supressores tumorais conhecidos. Critério 4 foi usado para remover genes “passageiros” cuja selecção pode ser devido à proximidade genômica.

Resultados

O array CGH dados podem ser acessados ​​e visualizados utilizando o CellMiner “Gene DNA Copiar Number” web Analysis Tool

para facilitar a extracção dos dados do número de cópia NCI-60 de DNA, introduzimos uma ferramenta intuitiva para consultar e visualizar o conjunto de dados. Esta ferramenta está disponível em nosso CellMiner web site [21] dentro das “NCI-60 Ferramentas de Análise” guia (Figura 1A). Como mostrado na Figura 1A, os usuários primeiro selecione “assinatura linha celular” na etapa 1, e depois “número de cópias de DNA Gene”. Na Etapa 2, até 150 genes de interesse pode ser de entrada, digitando os nomes de genes na “Input o identificador” box, ou enviá-las como um texto ou arquivo Excel utilizando o botão “Enviar arquivo”. Na Etapa 3, os usuários inserir seu endereço de e-mail e clique em “Obter dados”. Os resultados serão enviados por e-mail para cada gene, com um link para baixar um arquivo do Excel. Este arquivo contém quatro folhas de cálculo: i) “número de cópias do DNA” contendo tabular significam relações de intensidade (do DNA de teste em comparação com presumida normal) e número de cópias de DNA estimados, e um gráfico de barra dos números de cópias de ADN estimados (Figura 1B), ii ) “a saída gráfica” contendo dispersão de parcelas das intensidades de sonda individuais para o gene de interesse, bem como 2MB região adjacente para cada linha de células (Figura 1C), iii) “input” que contém os dados normalizados para essas sondas que se enquadram dentro de um gene de interesse (em amarelo), bem como 2 × 10

6 nucleótidos da região de flanqueamento em cada extremidade, e iv) “Notas de rodapé”. A Figura 1 mostra um exemplo de 3 genes do cancro relevantes (Figura 1A), CDKN2A que codifica a Quinase Dependente de Ciclina Inhibitor 2A (p16

INK4a, p19

ARF), que é comumente excluído em cancros, CCNE1 codificação ciclina E , que é comumente amplificada em cancros e KRAS que codifica Kirsten Rat Sarcoma Viral Oncogene, que é ativado em cancros por mutações e, mais raramente amplificação. Os painéis B e C (Figura 1) mostram que muitas linhas celulares apresentam o esgotamento do locus CDKN2A (painéis da esquerda), enquanto que as células de cancro do ovário OVCAR3 e OVCAR5 apresentam amplificação focal de CCNE1 e KRAS, respectivamente.

. A ferramenta pode ser acessada no site da CellMiner clicando na aba “NCI-60 Ferramentas de análise” (em caixa em vermelho). Neste exemplo, 3 genes associados ao câncer são consultados simultaneamente: CDKN2A, CCNE1 e KRAS. B. A saída inclui um gráfico de barras do número de cópias estimado para cada linha celular. O eixo x é o número de cópias de ADN. O eixo Y mostra as linhas celulares, com as barras coloridas à base de tecido de origem. Barras à esquerda indicam a perda de 2N enquanto que barras à direita indicam ganho genómico. As linhas pontilhadas indicam linhas celulares com ganhos no número de cópias em CCNE1 e KRAS C. Um gráfico de dispersão também é fornecido para cada linha de células. O eixo dos X mostra a localização cromossómica. O eixo dos y mostra os valores de intensidade de log2 do lado esquerdo. Os pontos vermelhos indicam sondas que caem dentro do gene. Os pontos azuis indicam as regiões flanqueadoras. Os dados são recebidos como arquivos do Excel. Veja o texto para mais detalhes.

Um recurso exclusivo do site da CellMiner é que o padrão do número de cópias obtidas a partir de CellMiner para um gene pode ser usado como entrada para o padrão ferramenta de comparação para encontrar expressão dos genes correlacionados e drogas atividade. A Figura 2 mostra o número de cópias para CDKN2A (p16), o gene com a expressão mais alta correlaciona-(CDKN2A), e a droga cuja resposta é o mais negativamente correlacionados (NSC-301739). A correlação forte entre número de cópias de ADN e a expressão do transcrito de identificar robusta afectar esse número de cópias de ADN tem alteração na expressão de transcrição neste gene. A correlação negativa do número de cópias de DNA para a atividade de drogas identifica a mitoxantrona fármaco aprovado pela FDA (NSC-301739) como sendo mais ativo em múltiplas instâncias de células cancerosas com exclusão CDKN2A (Figura 2, painel direito e linhas pontilhadas).

O enredo mais à esquerda mostra um barplot de valores no número de cópias para CDKN2A obtidos por meio de consulta CellMiner. A trama do meio mostra a expressão gênica ea trama mais à direita mostra a resposta a um mitoxantrona, uma droga com correlação negativa significativa com o status de número de cópias de CDKN2A. As linhas ponteadas indicam algumas das linhas de células em que a direcção da alteração do número de cópias é na mesma direcção que a expressão de genes e na direcção oposta, como a actividade do fármaco.

correlação com a linha celular de cancro Enciclopédia

Existem 44 linhas de células comuns entre o NCI-60 e do LECC. Notavelmente, o número de cópias combinados estima na correlato NCI-60 bem com as estimativas do número de cópias no LECC com uma correlação média de 0,833. Esse número é maior do que a correlação para copiar números de qualquer plataforma indivíduo (Agilent: Agilent: 0,660, NimbleGen: 0,448, Affymetrix: 0,821, Illumina: 0,804) sugerindo que a combinação das plataformas em conjunto melhora a estimativa. A maior correlação com a plataforma Affymetrix pode ser devido ao fato de os dados LECC também foi gerado em matrizes Affymetrix (Affymetrix SNP 6.0).

Alterações generalizados na DNA composição cópia ocorre no NCI-60 linhas de células

Uma visão global da composição genômica NCI-60 foi gerado utilizando o CBS segmentado resultados aCGH. A Figura 3 mostra exemplos representativos de vários tipos de variação genoma. A versão completa para o NCI-60 está disponível na Figura S1 e no nosso site [21]. Estes mostradores revelam que a maioria das linhas de células exibem alterações genómicas, incluindo perdas frequentes genómicas e ganhos, bem como ploidia alterada. Os tipos de variação dos genomas, no entanto, variar amplamente dentro do NCI-60. Apenas algumas linhas celulares mostrar o número normal (2 N) cópia com alguns segmentos alterados, como o CO: HCT_15. Alguns têm vários segmentos genômicos alterados com o número de cerca de 2N cópia geral (por exemplo, RE: CAKI_1). No entanto, outros têm muitos segmentos alterados, além de ser deslocado de 2N, incluindo BR: MCF7, CNS: SF_268, LE: RPMI_8226, ME: MALME_3M, OV: NCI_ADR_RES e PR: PC_3. Os dados demonstram a grande variabilidade encontrada nas anormalidades dos NCI-60 genomas.

O eixo x é a localização cromossômica das sondas, colorido pelo número de cromossomos e ordenada pela posição genômica. O eixo y representa a razão de log de as intensidades de sonda. As marcas horizontais pretas indicam o registo médio

2 números de cópias em cada segmento, conforme calculado pela Circular binário Segmentação (ver Materiais e Métodos). A quantidade de dispersão de acima e abaixo marcas pretas dos segmentos indica o nível de variabilidade sonda. Os locais de alguns genes relacionados com o cancro que têm ganhos ou perdas focais também são indicados. Imagens de alta resolução para todas as linhas de células NCI-60 estão disponíveis na Figura S1 e no nosso site [21].

A alta intensidade (log absoluta

2 valores superiores a 1,5, ou seja, copiar DNA números maiores que 5,60 ou menor que 0,71) amplificações (ganhos) e deleções (perdas), visualizados na Figura 3 e Figura S1, são listados com suas localizações na Tabela S2 por linha de células, devido à sua importância potencial. Estes grandes ganhos e perdas têm preconceitos de cromossomos, com três cromossomos (9, 3 e 6) com múltiplas alterações em várias linhas celulares, e um (cromossoma 21) sem ganhos ou perdas acentuadas. Estes dados identificam amplificações e exclusões focais chromosome- e célula-específicos.

Global DNA Copiar Número alteração no NCI-60

Para categorizar ainda mais as variações no número de cópias genômicas em todo o NCI-60, dois parâmetros foram derivados a partir dos dados aCGH (Tabela 1). A “proporção de genoma ganho ou perdido” é a fracção total do genoma que se ganha ou perdida (em comparação com 2N); o “número de regiões ganhos ou perdidos” por genoma representa o número acumulado de segmentos alterados (ganho ou perdido em comparação com 2 N).

A comparação dos dois parâmetros (proporção e número de ganhos e perdas) mostrou uma correlação positiva altamente significativa (r de Pearson = 0,76, p = 1,2 × 10

-12), associando frequência para fração cumulativa de alterações genômicas. As linhas de células com as alterações genômicas frequentes menos de acordo com a primeira medida (proporção de genoma ganhou ou perdeu) estão CO: HCC_2998 e OV: IGROV1, e aqueles com o mais são RE: A498 e BR: T47D. Para a segunda medida (número de regiões com ganhos /perdas), as células com o mínimo de alterações são CO: HCC_2998 e CNS: SNB_75, e as linhas de células com mais alterações são BR: MCF7 e RE:. SN12C

proeminentes áreas do genoma com focal copy Number Changes, e sua relação com supressores de tumor conhecido e prospectivos

em seguida, procurou alterações no número de cópias genômicas que eram “focal” na natureza. A nossa abordagem era procurar segmentos genômicos com: i) a diferença no log

2 do número de cópias de pelo menos 0,3 de ambos os seus vizinhos do lado direito e esquerdo (as diferenças sendo ou ambos positivos ou ambos negativo); ii) uma largura de menos de 5 Mb; e iii) um mínimo de 10 () sondas aCGH. A Tabela 2 resume essas alterações focais para oncogenes conhecidos e supressores de tumor. Tabela S3 fornece o status de alteração focal para todos (18,504) genes com ambas número de cópias e a expressão do gene (ver coluna S) e as suas posições genômicas (colunas Q e R).

O mais comumente focally segmento suprimido ocorre em 24 linhas de células, e contém o gene supressor de tumor CDKN2A (p16

INK4a e p14

ARF) no cromossoma 9 (Figura 1B, 2 e 4A). As deleções CDKN2A ocorrem na maioria dos tipos de tecidos NCI-60, com maior incidência no transplante renal (6 de 8 linhas) e células do sistema nervoso central (4 de 6 linhas). eliminações CDKN2A são menos frequentes na mama (1 de 5), e do ovário (2 de 7) e ausente nas linhas de cólon e próstata. Os dados detalhados para CDKN2A é encontrada na Tabela S3 (coluna de Q). A próxima gene supressor de tumor mais comumente excluídos é PTEN no cromossoma 10 (Tabela 2 e Tabela S3), que é marcadamente sub-representadas em 4 linhas de células: CNS: SF_539, LE: CCRF_CEM, PR: PC_3 e RE: RXF_393. É também focally adquirida na OV: OVCAR_4. Notavelmente TP53, que é inativado por mutações em 47 do NCI-60 [3], [32] (nossos resultados apresentados) tem perda focal em apenas duas linhas de células LE: HL_60, RE: TK_10 (Tabela S3), demonstrando especificidade mecanismo da função knockdown de supressores tumorais.

A. CDKN2A e flanqueando sequência no cromossoma nove para seis linhas celulares. A região central vertical lilás delineia a localização do gene. B. myc e sequência flanqueadora no cromossoma oito por cinco linhas celulares. A região central vertical lilás delineia a localização do gene. C. ABCB1 (MDR1), ABCB4 e sequência flanqueadora no cromossoma 7 para o OVCAR_8 parental e dos seus derivados NCI_ADR_RES resistentes aos medicamentos. As regiões centrais verticais verde e rosa delinear o locus de ABCB1 e ABCC4, respectivamente. Em A, B, e C, o eixo x representa a localização de nucleótidos. Os valores do eixo y à esquerda são os índices médios de intensidade de log, e à direita são estimados número de cópias de DNA. As linhas horizontais pretas mostram a relação média intensidade log em cada segmento, enquanto os pontos marrons mostram as relações de intensidade de registro para cada sonda.

Para os oncogenes conhecidos, o ganho focal mais frequente ocorre no CCND1 ( ciclina D1) gene no cromossomo 11, e no MYC, no cromossoma 8. CCND1 tem ganhos focais em 4 linhas de células (SNC: SF_295, ME: SK_MEL_28, ME: SK_MEL_5, RE: TK_10), incluindo 2 melanomas. MYC é amplificado em quatro linhas celulares CO: SW_620, LE: HL_60, LE: RPMI_8226 e PR:. PC_3 (Figura 4B)

Além de oncogenes conhecidos e supressores de tumor, uma das amplificações mais intensos foi encontrado no OV: linha celular NCI_ADR_RES no cromossoma 7q21.12 (Figura 3, painel inferior esquerdo e a Figura 4C). Esta amplificação engloba dois efluxo bombear genes transportadores de ABC, ABCB1 e ABCB4 (Figura 4C), e é consistente com a elevada resistência à doxorubicina (adriamicina) desta linha celular de [33], [34]. Fora isso amplificação focal cromossoma 7, o OV: linha de células NCI_ADR_RES mostra um perfil aCGH comparável à sua linha parental OV:. OVCAR_8 (Figura S1)

correlação entre a expressão de genes e de DNA Copiar número

para determinar a relação entre o número de cópias de DNA e expressão transcrição níveis, foram calculadas as correlações entre os dois parâmetros para todos (18,504) genes com ambas número de cópias e a expressão do gene. Tabela 2 e Tabela S3 dar a estes valores de correlação, bem como a p-valor correspondente e FDR para os supressores de tumores, e todos os genes, respectivamente. O histograma na Figura 5 mostra que a correlação da mediana de Pearson é r = 0,247, proporcionando um indicador global da influência do número de cópias do gene na expressão.

Histograma de correlações de Pearson entre número de cópias e a expressão do gene para a completa 18,504 conjunto de genes com ambos os valores disponíveis. Os conjuntos superiores e inferiores de marcas de escala acima do eixo-x mostram as correlações para oncogenes individuais (em vermelho) e tumor-supressores (em azul), respectivamente.

A correlação média dos dados combinados é maior do que qualquer plataforma indivíduo (Agilent: 0,212, NimbleGen: 0,149, Affymetrix: 0,242, Illumina: 0,226)., mais uma vez o que implica que os dados combinados melhora a estimativa do número de cópias ao longo usando qualquer plataforma indivíduo

o subconjunto de 101 supressores tumorais conhecidos tinha uma correlação média significativamente maior (r = 0,408, Figura 5) de todo o genoma (r = 0,247, Figura 5). O subconjunto 96 de oncogenes conhecidos mostrou apenas ligeiramente superior em comparação correlação do genoma global (mediana r = 0,255; Figura 5). Estes resultados demonstram que as influências da perda de gene expressão de supressores de tumor conhecidos em maior grau do que seja a “todos os genes” ou grupos de oncogenes.

identificação de novos putativos Genes supressores de tumor

Uma vez que as alterações focais o número de cópias de ADN dos genes de tumor conhecido supressores (Figura 1B e C, Figura 3, Tabela 2) mostrou uma correlação altamente significativa com os seus níveis de expressão de transcrição (Figura 5, Quadro 2), utilizou-se esta característica para procurar e identificar genes adicionais com potencial relação ao câncer. A nossa abordagem foi baseada nos resultados para o conhecido CDKN2A supressores de tumor PTEN e (Tabela 3). Os critérios de seleção para novos genes necessários: i) correlações entre número e transcrição níveis de cópias de ADN significativas a um FDR de 0,05, ii) ganhos ou perdas focais em at-menos três linhas de células [alterações focais foram definidos como ganhos ou perdas menor do que 5 Mb que sobrepõem o gene], e iii) uma proporção de 03:01 ou superior para o número de linhas de células com perdas em comparação com os ganhos. Além disso, exigiu que os genes passar um quarto critérios que não deve haver supressores de tumor conhecidos dentro de 2 MB (para evitar a detecção de “vizinhos” de supressores de tumor motorista conhecidos).

Foram avaliados todos os 18.504 genes que tenham tanto a expressão do gene e número do exemplar estima para identificar aqueles que passaram nos critérios acima. Trinta e um genes passaram critérios 1-3 (Tabela S4), e 22 satisfeitos todos os quatro critérios (indicados na coluna U e destacadas em verde). Aqueles grupo de genes em 12 “aglomerados de genes” de tal modo que os genes no mesmo aglomerado são adjacentes uns aos outros e têm números de cópias que são altamente correlacionadas (entre si) através do NCI-60 (de correlação de Pearson 0,8), indicando que eles são largamente perdido ou ganho como um grupo. Os novos conjuntos 22 supressores de tumores estão a cytobands 11q13.4, 17p12, 17p11.2, 17q23.1, 21q11.2, 21q21.1, 22q11.21, 22q12.2, e 22q13.1 Xp22.31. listas Tabela 3 dez dos genes que estão dentro desses aglomerados e foram relatados para exibir características supressores de tumor.

Discussão

No estudo atual nós combinamos dados no painel linha de células do NCI-60 a partir de quatro plataformas de CGH matriz de alta resolução. Combinando os quatro plataformas produz um conjunto de dados com i) aumento da cobertura de sonda, ii) maior correlação com o número de cópias estima do LECC (Linha Cancer Cell Encyclopedia), e iii) maior correlação com a expressão do gene, indicando melhores estimativas de que qualquer uma plataforma sozinho .

o conjunto de dados contribui para a matriz de dados moleculares disponíveis para a NCI-60, facilitando integrativa ( “integromic”) [4], [8], [32], [35] estudos de biologia do câncer e farmacologia molecular. Os dados e ferramentas de análise para facilitar a sua utilização estão disponíveis ao público em nossa suíte web NIH CellMiner [21] (Figura 1A). Nós também fornecemos um exemplo do tipo de análise integradora que pode ser feito. Comparando o número de cópias de ADN para CDKN2A, um supressor de tumor conhecido para a sua expressão de ARNm revela a forma robusta na qual esta alteração molecular está associado com a expressão de genes, e a sua inactivação frequente no NCI-60 (ver Figura 1 e Tabela S3). Comparando o número de cópias de DNA para CDKN2A ao banco de dados composto revela a mitoxantrona fármaco aprovado pela FDA (NSC301739) como sendo mais ativo em linhagens de células com knockout CDKN2A (Figura 2)

.

Os padrões de ganhos e perdas no

Deixe uma resposta