PLOS ONE: TAGCNA: Um método para identificar significativa Consenso Eventos do número de cópias Alterações em Câncer

Abstract

número de cópias Somatic alteração (CNA) é um fenômeno comum no genoma do câncer. Distinguir eventos de consenso significativas (SCE) de fundo aleatório CNAs em um conjunto de disciplinas tem sido provado ser uma ferramenta valiosa para estudar o câncer. A fim de identificar SCE com uma taxa de erro I tipo aceitável, melhores abordagens computacionais devem ser desenvolvidos com base em estatísticas razoáveis ​​e distribuições nulos. Neste artigo, propomos uma nova abordagem denominada TAGCNA para identificar SCE em CNAs somáticas que podem abranger genes motorista câncer. TAGCNA emprega um esquema de permutação peel-off para gerar uma distribuição nula razoável com base em uma etapa antes de selecionar tag marcadores CNA a partir do genoma a ser considerada. Nós demonstramos o poder estatístico da TAGCNA em dados de verdade de campo simulado, e validar a sua aplicabilidade através de dois conjuntos de dados de câncer publicamente disponíveis: pulmão e próstata adenocarcinoma. TAGCNA identifica SCE que são conhecidos por estar envolvido com proto-oncogenes (

por exemplo

EGFR, CDK4) e genes supressores de tumor (

por exemplo

CDKN2A, CDKN2B), e oferece muitas SCE adicionais com potencial biológico relevância nestes dados. TAGCNA pode ser utilizado para analisar o significado de ANC em vários cancros. Ele é implementado em R e está disponível gratuitamente no https://tagcna.sourceforge.net/

Citation:. Yuan X, Zhang J, Yang L, Zhang S, Chen B, Geng Y, et al. (2012) TAGCNA: Um método para identificar significativa Consenso Eventos do número de cópias Alterações em Câncer. PLoS ONE 7 (7): e41082. doi: 10.1371 /journal.pone.0041082

editor: Gayle E. Woloschak, Northwestern University Feinberg School of Medicine, Estados Unidos da América

Recebido: 03 de fevereiro de 2012; Aceito: 17 de junho de 2012; Publicação: 18 de julho de 2012

Direitos de autor: © 2012 Yuan et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pela Fundação de Ciência Natural da China sob Grants 61070137, 91130006 e 60933009; os Institutos Nacionais de Saúde nas ajudas ao CA160036, CA149147, e GM085665; eo projeto apoiado pela Ciência Natural Plano de investigação básica na província de Shaanxi da China (Programa No. 2012JQ8027); da Ciência e do Programa de Desenvolvimento da Pesquisa de Tecnologia na província de Shaanxi da China (No. 2009K01-56) e os fundos de pesquisa fundamental para a Universidades Central (No. K50511030002). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

somáticas alterações no número de cópias (CNAs) são distribuídas por todo o genoma em quase todos os cancros humanos [1]. Um dos esforços sistemáticos em explorar o efeito de CNAs no desenvolvimento do câncer é distinguir eventos de consenso significativas (SCE) que representam “mutações do controlador” a partir aleatórios CNAs fundo que representam “mutações de passageiros” [2], [3]. Extremamente tecnologias de matriz de alta resolução e grande colecção de temas de câncer ainda uma compreensão abrangente dos eventos de mutação em tal programa [1], [3], [4]. Este por sua vez conduz a uma necessidade crítica de abordagens computacionais para identificar aberrações significância que são compartilhados por vários assuntos.

Atualmente, muitas abordagens estatísticas têm sido desenvolvidos. STAC (Teste de significância para o número aberrante Copy) [5] testa CNAs separadamente para amplificações e exclusões, e que exige matrizes binárias de entrada de dados, em que “um” representa a amplificação (ou supressão) e “zero” representa o estado normal. Este método utiliza duas estatísticas complementares: frequência e pegada, para medir cada marcador sob a hipótese nula de que as regiões CNA observados são igualmente colocados em qualquer lugar em todo o genoma está sendo analisado. Especificamente, a estatística de “freqüência” é usado para refletir a vulgaridade de uma aberração em toda amostras ea estatística “pegada” é usado para refletir o alinhamento apertado de uma região aberrante através de amostras. Além disso, “footprint” leva em conta as correlações entre aberrações e os comprimentos das regiões CNA. No entanto, ambas as estatísticas não incorporaram a amplitude das aberrações, de modo que algumas informações importantes podem ser perdidas, uma vez que amplificações e supressões de alto nível pode levar a diferentes implicações biológicas em comparação com aberrações de baixo nível [6]. Semelhante a STAC, GISTIC (Genomic identificação de alvos significativos no cancro) [3] também analisa amplificações e exclusões separadamente, mas requer dados de entrada com sinais segmentados. Este método desenha um G-score, incorporando tanto a frequência e amplitude das aberrações, e atribui o G-score para cada marcador para avaliar a significância com base em uma distribuição nula semi-exatamente aproximadas. A distribuição nula é estabelecida por assumir que os marcadores CNA são independentes. Assim, os efeitos conjuntos entre marcadores adjacentes são ignorados no detecções CNA [7]. Para melhorar o poder de detecção, uma extensão do GISTIC, GISTIC2.0 [8], é proposta, que considera a distinção da frequência de fundo entre CNAs focal e CNAs largos e pontuações cada marcador proporcional à sua amplitude. Outro método semelhante é o Dinamic (Discovering Copiar Número Aberrações manifestado em Câncer) [9], que define um resumo estatístico para cada marcador e desenha um novo quadro para a avaliação de significância. Ela emprega um esquema de permutação cíclica para gerar a distribuição nula, em que a informação estrutural do número de dados de cópia original é mantida. Dinamic adota ainda um algoritmo de ‘peel-off’ para detectar marcadores menos frequentes. Em geral, o recurso que a métodos share acima é a sua abordagem em duas fases, ou seja, eles precisam de um passo prévio de discretização os sinais CNA usando métodos de análise individual de amostras [10], [11]. Para evitar a dependência de análise individual amostra, muitos autores propõem um estágio abordagem computacional. Por exemplo, KC-SMART (Kernel Convolution: um método estatístico para aberrante Região detecção) [12] analisa dados directamente relação da intensidade crua (ou seja, os dados sem discretização em amostras individuais) para identificar SCE usando uma nova estatística: Kernel Smoothed Estimate (KSE ), que leva em conta a intensidade do sinal de marcadores vizinhos; e CMDS (Correlation Matrix Diagonal Segmentação) [13] pontuações cada marcador com base em suas correlações com os locais circundantes nas relações de intensidade matérias. Muitas outras abordagens são discutidas por Shah [14] e Rueda

et al

[7]

Dentro das abordagens existentes, três componentes comuns e importantes são resumidas como segue:.. (1) Os dados plataforma, ou seja, dados rácio de intensidade crua ou dados discretizadas (correspondente a um estágio ou dois estágios de aproximação), para detectar a SCE; (2) estatística associada a unidades genômicas (

por exemplo

marcadores ou genes.); e (3) distribuição nulo para testar a estatística. No entanto, uma pergunta surpreendentemente difícil aqui é como fazer uma consistência entre os três componentes, tendo em conta as estruturas CNA e significância estatística. Até agora, não há soluções definitivas para essa pergunta. métodos de uma fase pode levar a um grande sinal de polarização com as estatísticas [15], em que a distribuição nula não é exatamente consistentes com o propósito de identificar SCE de fundo aleatório CNAs,

por exemplo

a hipótese nula subjacente CMDS é que não há nenhuma CNA. Neste caso, o poder de detecção de SCE pode ser muito afetada pela probabilidade de ocorrência de CNAs aleatória. métodos de dois estágios muitas vezes utilizam o CNAs definido (ganhos ou perdas) para gerar a distribuição nula através de permutações. No entanto, muitos deles adotam pontuação baseada no marcador, mas esquemas de permutação baseada em região, como métodos STAC e dinâmica. programa GISTIC faz uma razoável consistência entre os três componentes, mas não considera as correlações entre os marcadores. Isso pode tornar a significância estatística conservadora em testes de múltipla [16], e pode não ser biologicamente relevante [7]. Em geral, a maioria dos métodos existentes em ambos os quadros de uma só fase ou de duas fases quantificar CNA e testar a significância com base em marcadores individuais, que são geralmente relacionados uns com os outros. Isto pode levar a uma diminuição da potência na detecção de regiões CNA especialmente para aquelas regiões menos extremas [7]. Além disso, eles costumam gerar distribuições nulos com base em uma mistura de SCE (hipóteses falsa nulos) e do fundo aleatório CNAs (verdadeiras hipóteses nulas). Isto é, teoricamente, desviou a distribuição nula verdade em testes de hipóteses, diminuir o significado da avaliação de significância.

Com essas considerações, neste artigo propomos uma nova abordagem, TAGCNA, para identificar SCE com base no sinal segmentada contínua rácios. A abordagem é composto de duas etapas. Em primeiro lugar, marcadores de seleção tag CNA do genoma está sendo analisado, e em seguida produzir uma nova matriz de dados que consiste em marcadores tag, cada um dos quais é marcado pela incorporação de frequência e amplitude do CNA; e em segundo lugar, com base na matriz de dados, criar uma distribuição nula usando um esquema de permutação peel-off. As características principais da abordagem incluem: (1) tanto de pontuação e de permutação são executadas com base no nível do marcador tag, considerando-se as correlações entre marcadores adjacentes; (2) a média dos nulos movimentos de distribuição esquerda devido ao procedimento de peel-off em marcadores tag, convergindo para a da distribuição nula verdade. TAGCNA pode ser utilizado para analisar dados de cromossomas individuais, bem como os dados derivados a partir de estudos de todo o genoma. Nós testamos o seu poder estatístico sobre extensos dados de verdade terrestre simulado, e depois aplicá-la a dois conjuntos de dados reais dos cancros do pulmão e da próstata. TAGCNA identifica com sucesso SCE associados com genes motorista câncer conhecido, e oferece muitas SCE adicionais com potencial relevância biológica.

Materiais e Métodos

Dados Format

Os dados originais é pré-processado através do indivíduo métodos de análise -Sample tais como CBS [10], [17], e é armazenado na matriz

X

(

N

×

L

), onde cada linha representa um sujeitar e cada coluna representa um marcador. TAGCNA começa a trabalhar a partir deste ponto. Adota limiares (

θ

amp e

θ

del) para definir amplificações e exclusões em

X

, e separa

X

em duas matrizes

X

amp (

N

×

L

) e

X

del (

N

×

L

). TAGCNA analisa amplificação e deleção separadamente, uma vez que são geralmente considerados como desempenhando papéis distintos no desenvolvimento do câncer.

Na matriz

X

amp (ou

X

del), a aberração é representado com um log

2-ratio, e nenhuma aberração é representado com um zero. Abaixo descrevemos o princípio da TAGCNA para testar significado da CNAs, quer na análise da matriz de dados de amplificação ou supressão.

Selecionar Tag CNA Marcadores

Somatic CNA é uma variação estrutural no genoma humano, portanto, as sondas no genoma são inerentemente correlacionados mesmo se as CNAs são aleatórios eventos de fundo. É desejável manter esta correlação e para maximizar a independência entre as estatísticas do teste na análise de CNA. Estas considerações levaram-nos a projetar TAGCNA para testar ANC por partição do genoma de correlação em blocos pequenos e selecção de marcadores tag em diferentes blocos, os quais são assumidos independente. De pontuação e permutação procedimentos de TAGCNA são então realizadas nos marcadores tag

(a) Um perfil de matriz de 100 indivíduos e 1.000 marcadores.; as posições de cor branca indicam alterações no número de cópias. (B) o valor de correlação para cada marcador, o qual é o coeficiente médio entre os seus marcadores circundantes. (C) valor de correlação do bloco resultou a partir da partição do genoma com base em (b). (D) Uma nova matriz de dados que consiste em marcadores tag CNA (aqui

N

= 100,

M

= 50); cada marcador tag é seleccionado de cada bloco em (c), onde os pontos vermelhos são o meio de blocos, representando marcadores de tags.

partição bloco correlação CNA é realizada com base em um conjunto de temas (Figura 1). O primeiro passo é calcular os coeficientes de correlação entre os marcadores adjacentes via fórmula de correlação de Pearson [13] 🙁 1) onde

r

ij

é o coeficiente de correlação entre os marcadores

i

e

j

;

N

é o número de amostras;

x

ni

é log

2-proporção de sujeitos

n

no marcador

i

; ,, E são de log

meios 2 de razão e desvios-padrão de marcadores

i

e

j

em todas as disciplinas. Em seguida, obtém-se um valor de correlação para cada marcador

k

pela média de coeficientes entre os seus marcadores circundantes pela Equação (2) [13] 🙁 2) onde

w

é um tamanho pré-determinado janela em torno do marcador

k

. A Figura 1 (b) mostra o valor de correlação para os marcadores de 1000 na população exemplificado. Para utilizar a coerência espacial entre marcadores adjacentes, assumimos que os valores de correlação dos marcadores próximos estão no mesmo nível e empregam algoritmo CBS [10] para particionar todo o genoma em blocos, onde os valores de correlação mudar entre blocos contíguos (Figura 1 (c )). Em cada bloco, um marcador de marcação é seleccionado a partir do seu local de meio. Assim, o número total de marcadores tag é o número de blocos resultou a partir da partição do genoma. Uma nova matriz de dados T (

N × M

) é então produzido com base nos marcadores de Tag (Figura 1 (d)), em que

H

é o número de marcadores tag.

Peel-off permutation e Avaliação de significância estatística

com base na matriz de dados

T

, TAGCNA executa permutação peel-off [3], [9] para gerar a distribuição nula sob a hipótese que não há SCE, ou seja, que todos os marcadores de tags em

T Quais são passageiros, e, em seguida, avalia a significância estatística dos marcadores tag observados. Para espelhar isso, dezenas TAGCNA cada tag marcador

m

através da incorporação de frequência e amplitude do CNA [3] 🙁 3) onde

t

nm

é log

2-ratio de sujeito

n Restaurant at tag marcador

m

na matriz

T

. Note-se que o significado do marcador tag é suposto representar o significado do bloco genoma correspondente.

Ele começa a partir da matriz de dados tag marcador

T

(

N

×

M

), e gera distribuição nula

D

1 a permutações sobre os dados. Com base em

D

1, o nível de significância é atribuído a cada marcador de marcação. Se o nível de significância é menor do que o ponto de corte (

por exemplo

0,05), os marcadores correspondentes (

por exemplo in the

i

marcador tag -ésimo) serão removidos da matriz na próxima iteração de permutação e teste de significância. Este procedimento continua até alcançar uma distribuição nula

D

H

, com base no qual não há marcadores de tags adicionais são identificados significativo. Neste procedimento, a média dos nulos movimentos de distribuição deixaram gradualmente,

por exemplo

na segunda iteração,

D

2 move para a esquerda, quando comparado com

D

1.

Estamos agora descrever o procedimento de permutação peel-off e teste de significância em detalhe, o que também é ilustrada na Figura 2. no início, uma distribuição nula

D

1 é estimada utilizando permutação na matriz

T

1 (

T

1 =

T

). Baseado em

D

1, cada marcador tag é atribuído um valor de p. Este algoritmo pode ser decomposta nas seguintes etapas:

Em cada tema, realizar uma permutação dos marcadores de tags, ou seja, aleatoriamente colocar os marcadores de tags nos locais de tag do genoma

No conjunto de dados permutados

δ

(

T

1), calcular a pontuação mais de tag marcador

m

, denotado por

S

m

(

ô

(

T

1)),

m

= 1, 2, …,

m

.

Repita os passos (1) e (2)

e

vezes, ou seja, executar

e

permutações do conjunto de dados, e assim obter

e conjuntos de dados

permutados

δ

1 (

T

1),

δ

2 (

T

1), …,

δ

e

(

T

1), e as pontuações correspondentes

S

m

(

δ

1 (

T

1)),

S

m

(

δ

2 (

T

1)), … ,

S

m

(

δ

E

(

T

1)).

Deixe

D

1 ser a distribuição de max

m S

m

(

δ

(

T

1)) sobre todo o

e

permutações, e definir o valor-p de tag marcador

m

0 (

m

0∈ {1 …

M

}) pela probabilidade extrema direita [5], [9] 🙁 4), onde I (·) é a função de indicador.

Posteriormente, scans TAGCNA os valores p em todos os marcadores de tag. Se qualquer um ou mais dos valores p são inferiores a um nível de significância (

por exemplo.

0,05), os marcadores de tag correspondentes serão apagados (Figura 2). Em seguida, uma nova matriz de dados

T

2 é produzido sem incorporar os marcadores tag significativos. Baseado em

T

2, uma distribuição nula

D

2 pode ser criado através das quatro etapas acima e o nível de significância dos marcadores tag restante pode ser avaliado.

O processo continua até se conseguir uma distribuição nula

D

H

, com base no qual há marcadores de tags adicionais podem ser identificados significativo. Durante o procedimento, uma sequência de matrizes de dados

T

1,

T

2, …,

T

H Comprar e uma sequência de distribuições nulos

D

1,

D

2, …,

D

H

são obtidos. Observa-se que o número de colunas na matriz de dados estão a diminuir e os meios de as distribuições são nulos mover para a esquerda gradualmente juntamente com a sequência. Isto implica que

T

H

pode não incluir marcadores tag altamente extremas e a proporção de verdadeiros hipóteses nulas é muito maior, então a distribuição nula resultou

D

H

pode ser extremamente próxima da distribuição nula verdade. Finalmente, com base em

D

H

, TAGCNA avalia os níveis de significância de todos os marcadores de tag observados novamente. Isso pode melhorar o poder para identificar SCE menos extremas e também corrigir os valores de p em termos de significância estatística.

Resultados

estudos de simulação

conjuntos de dados reais raramente têm absolutamente confirmou SCE verdade terrestre, por isso é difícil de avaliar o desempenho dos métodos estatísticos em dados reais. Nesta seção, nós projetamos estudos de simulação para testar o poder estatístico da nossa abordagem. O modelo de simulação proposto por Willenbrock e Fridlyand [18] é modificado para gerar conjuntos de dados CNA sob várias configurações de parâmetros. Em cada configuração, simulamos 100 indivíduos cada um com 10000 marcadores. Log

2-ratio para cada assunto é gerada pela mistura de células normais e tumorais. A proporção de célula normal para um sujeito particular, é desenhada a partir de uma distribuição uniforme entre 0,3 e 0,7. ruído Gaussian da média zero e variância variável é adicionado a cada assunto. Aqui, consideramos três níveis da variação na distribuição de ruído Gaussian, ou seja, seu desvio padrão (SD) (σ) é desenhado de maneira uniforme entre [0.1, 0.2], [0,2, 0,4] ou [0,4, 0,6] [18], em a simulação de cada sujeito. Para tornar ainda mais a simulação mais realista, nós adicionamos duas regiões não-SCE, com comprimento variando de 50 a 500 a cada sujeito. As posições das regiões não-SCE são selecionados aleatoriamente no trecho do genoma simulado, eo log

2-ratios das regiões são gerados uniformemente entre 0,585 (cópias 3) e 1.322 (cópias 5). Três SCE verdade terrestre estão embutidos nos conjuntos de dados simulados. O log

2-ratios e comprimentos deles são especificados como Ratio = {0,585, 1, 1.322} e L = {200, 100, 50}, respectivamente. A frequência de todas as três SCE entre os indivíduos é indicado como

f

. Dois níveis de frequência, 0,15 e 0,20, são considerados para simular vários conjuntos de dados de genoma.

Nós implementar TAGCNA sobre os conjuntos de dados simulados, definindo os parâmetros

θ

a

mp e

θ

del a 0,1 e -0,1, bem como

w

a 20, e comparar seu desempenho contra CMDS [13] com base em curvas ROC, que são mostrados na Figura 3. cada curva é traçada para uma configuração de parâmetros de simulação, na qual o TPR (taxa verdadeira positiva) versus FPR (taxa de falsos positivos) é calculado em diferentes níveis de significância e é, então, uma média de mais de 100 repetições simulados. A partir da Figura 3, podemos observar que na maioria dos casos, TAGCNA é mais poderoso do CMDS, em termos de áreas maiores sob as curvas ROC. Portanto, TAGCNA é uma ferramenta valiosa na identificação de SCE de fundo CNAs.

TPR e FPR são em média mais de 100 repetições simulados em cada parametrização. Nós usamos duas opções (isto é, b = 10 e b = 20) para o método CMDS na análise dos dados.

Para além disso, para estudar o comportamento de TAGCNA sob a verdadeira hipótese nula de que não há SCE , adotamos o algoritmo introduzido por Walter et al. [9] para simular conjuntos de dados nulos CNA e executar TAGCNA sobre estes dados. Mais uma vez, três níveis de ruído gaussiano são considerados no esquema simulação em um esforço para mostrar o comportamento robusto TAGCNA. Os resultados destas experiências são mostrados na Tabela 1. Em cada caso, a taxa de erro tipo I resultou por TAGCNA é calculado de acordo com os seguintes passos:

Simula 600 repetições usando o algoritmo de simulação com definição padrão do parâmetro em Walter . o trabalho de et al [9]

Para cada replicação de dados, implementar TAGCNA com base em 1000 permutações, e determinar se existem CNAs são significativos ao valor-p . 0,05

Calcule o número de repetições em que existem significativas CNAs, e definir o tipo I taxa de erro como a proporção dessas repetições nos 600 repetições.

os valores do tipo I taxa de erro listadas na Tabela 1 são muito próximo de 0,05, indicando que TAGCNA é um pouco conservadora e o procedimento de permutação de tag marcadores CNA é relativamente razoável.

Aplicação de bases de dados reais

Nós aplicadas TAGCNA a duas câncer publicamente disponível conjuntos de dados. A primeira consiste em 371 indivíduos de adenocarcinoma de pulmão, cada um dos quais inclui 216,327 marcadores. Este conjunto de dados é obtida a partir do projecto de TSP (Projecto de Sequenciação do tumor) e está disponível ao https://www.broadinstitute.org/cancer/pub/tsp/[19]. O segundo conjunto é gerada a partir de 82 indivíduos adenocarcinoma de próstata em TCGA (The Cancer Genome Atlas) do projeto, cada sujeito foi perfilado usando SNP6.0 em 1,868,857 marcadores, e os dados estão disponíveis no https://cancergenome.nih.gov/. Os dados originais CNA são segmentados através de análise individual-amostra e são transformados para o formato de entrada para TAGCNA como descrito no documento pacote de software. TAGCNA é implementado em cada cromossomo para a análise de amplificação e deleção separadamente. Vamos definir o log

limiares 2-razão

θ

amp e

θ

del a 0,848 (3,6 cópias) e -0,737 (1,2 cópias), que é a configuração do método GISTIC na análise de genomas do cancro [19], bem como parâmetro

W

a 20, e executar 1000 permutações aleatórias para avaliar a significância de marcadores tag. marcadores de Tag com valores de p inferior a 0,05 são considerados significativos e, consequentemente, os blocos do genoma relevantes são considerados como SCE.

Resultado no conjunto de dados adenocarcinoma de pulmão.

A Figura 4 mostra a paisagem de significância de todo o genoma resultou a partir da análise do conjunto de dados de adenocarcinoma de pulmão. TAGCNA identifica um total de 16 e 29 amplificações diferentes deleções nos cromossomas, como listado em ambos os lados da Figura 4. Os genes abrangidos por estas SCE são dadas na Tabela S1. Muitos genes do controlador de cancro conhecidos são incluídos no resultado. Por exemplo, o EGFR (receptor do factor de crescimento epidérmico) é um oncogene contido em 7p11.2 (valor de p 0,001). Seus amplificações pode resultar em excesso de expressão e a divisão celular descontrolada, que é uma predisposição para o cancro [20]. O número máximo inferir cópia em 7p11.2 é de 9,1, e há 11 (3%) indivíduos com número de cópias acima do limiar de 3,6 na região e 50 (13,5%) indivíduos acima do limite 2.5.

-log10 ( os valores de p) são dadas para as regiões de amplificação e supressão, respectivamente. A linha tracejada verde é colocado em 1,3 como ponto de corte (p-valor de 0,05 correspondente) para chamar eventos de consenso significativos. Cromossomo 23 indica o cromossomo sexual.

Nós usamos diagrama de Venn para comparar SCE resultou de TAGCNA com que a partir de GISTIC na Figura 5. TAGCNA fornece uma base estatística para 80% dos eventos de amplificação e 50% do eventos de deleção que GISTIC detectados. A maioria dos SCE sobrepostas abranger um ou mais oncogenes ou genes supressores de tumores. Além disso, uma parte dos SCE supressão não sobreposta de TAGCNA é suportado por resultado CMDS [13] tal como 10q21.2 e 15q11.1. Além disso, supõe-se que as abordagens existentes pode perder algumas SCE mostrado ser significância estatística e biológica. Aqui nós caracterizar um SCE (21q22.2) identificado exclusivamente por TAGCNA. Eliminação na 21q22.2 (p 0,001) ocorre em 11 (3%) indivíduos com número de cópia abaixo 1.2 e ocorre em 24 (6,5%) indivíduos com número de cópia abaixo de 1,5, e o número mínimo inferir cópia é de 0,3. Este SCE abrange três genes (PCP4, Dscam e TMPRSS3), em que TMPRSS3 foi validado clinicamente e biologicamente associada a doenças humanas [21], [22].

Os eventos de amplificação e de supressão sobrepostas são listado no topo e na parte inferior do diagrama de Venn. Aqui, usamos os pontos de corte comum q 0,05 e p . 0,05 para GISTIC e TAGCNA, respectivamente

Na Figura 5, é fácil notar que o número de novas SCE detectados pelo TAGCNA na exclusão é maior do que na amplificação. O exame dos perfis no número de cópias do conjunto de dados adenocarcinoma de pulmão e as SCE detectados revela duas razões para esta discrepância. A explicação mais comum é que o evento deleção está presente com mais freqüência do evento de amplificação [19] e na maioria das exclusões são heterogeneidade (ou seja, perda de uma cópia) [3], tal como visto nas amostras de adenocarcinoma de pulmão para o apagamento 17p11.2 . Aqui, 6,8% das amostras apresentam magnitude deleção entre 1 e 1,5, enquanto que apenas alguns (1%) das amostras exibem supressão magnitude inferior a 1. Assim, 17p11.2 é uma região menos extrema (isto é, a frequência e magnitude são relativamente baixo), que não podem ser descobertos sob a distribuição nula contribuiu por vários SCE supressão grandes. No entanto, essas regiões seriam atingiu significância removendo SCE a partir do genoma e distribuições nulos novas recriar realizada por TAGCNA. A segunda explicação é de que o coeficiente de correlação entre as sondas de deleção em particular, este conjunto de dados é relativamente mais elevada do que entre as sondas de amplificação, portanto, a detecção de sondas individuais sem correlações considerando levaria a uma maior conservativo. Por exemplo, a eliminação na 7q11.22 é atribuído valor de p inferior a 0,001 por TAGCNA, mas é relatado por GISTIC com q-valor mais de 0,025.

Resultado no conjunto de dados adenocarcinoma de próstata.

a paisagem significado de todo o genoma analisado por TAGCNA no conjunto de dados de adenocarcinoma da próstata é dada na Figura 6. Um total de 91 SCE amplificação e 97 SCE de deleção são identificadas na base de dados, e os genes abrangidos estão listados na Tabela S2. A maioria destes SCE são mostrados para ser biologicamente relevante e são suportados pelos resultados anteriormente relatados. Por exemplo, amplificações em 1q21.1, 7p21.2, 7q36.1, 8q13.3, 8q23.1, 9p13.1, 14q24.2, 14q32.31 e 16p11.2 são introduzidos por Outi [23], onde 7p21.2 contém factor de transcrição ETV1, que se verificou ser substancialmente sobre-expressa num subconjunto de cancros da próstata, e 14q24.2 é estreitamente adjacente ao HIF1A, a proteína codificada por este gene tem sido mostrado a ser sobre-expressos em muitos cancros da próstata; e amplificações em 11p15.4, 3p12.3, 3p12.1, 13q13.3, 17q12, 7p15.3, 7p15.2, 7q34, 5q35.3 e 8p11.23 são relatados por outros autores [24], [25 ], [26], [27]. Deleções em 2q14.2, 4p16.1,4q26, 6q13, 9p13.1, 10q23.2, 16q23.1, e 17p13.3 são introduzidas por Outi [23], onde and16q23.1 10q23.2 são extremamente perto de importantes potenciais genes supressores de tumor PTEN e HSD17B2; e deleções em 8p12, 1q21.2, 5p15.2,5p14.3,5p12,14q12, 14q32.31, 6q14.1,13q13.3, 3q26.1, 11p15.4 e 20p13 são apresentados por outros autores [25 ], [26], [27], [28]. Estes resultados indicam que TAGCNA é aplicável à análise de bases de dados reais CNA.

-log10 (valores de p) são dadas para as regiões de amplificação e supressão, respectivamente. A linha tracejada verde é colocado em 1,3 como ponto de corte (p-valor de 0,05 correspondente) para chamar eventos de consenso significativos. Cromossomo 23 indica o cromossomo sexual. Muitos SCE importantes são listados em ambos os lados da figura.

Além disso, muitos SCE de amplificação e de deleção adicionais são identificados por TAGCNA (uma parte deles estão listados na Tabela 2), que pode ser utilizada para uma investigação mais aprofundada. Por exemplo, 12p11.21 e 15q24.1 abranger genes FGD4 e HCN4 respectivamente. As mutações nestes genes foram associados com Charcot Marie Tooth tipo 4H [29] e do nódulo sinusal síndrome2 [30], respectivamente. Notamos que as duas SCE mostrou significância estatística (p-valor 0,001) em ambas as situações de amplificação e de deleção. Outra 10q23.1 supressão SCE contém grid1, que tem sido demonstrado estar relacionado com o aumento do risco de desenvolver esquizofrenia [31].

Discussão

Resumo Geral

Identificação da SCE em dados de número de cópias somática tem provado ser uma técnica eficaz para descobrir genes motorista câncer. Neste artigo propomos um TAGCNA nova abordagem, com o objetivo de aumentar o poder estatístico para detectar SCE. TAGCNA é motivado por considerar cuidadosamente significado biológico e estatístico. Para preservar as correlações inerentes em dados CNA e para fazer uma coerência entre estatística e procedimento de permutação, TAGCNA constrói blocos CNA e testa a significância estatística de marcadores de tags que representam os blocos. Para corrigir p-valores atribuídos a marcar marcadores, TAGCNA adota um esquema de permutação peel-off para gerar uma distribuição nula razoável.

Realizamos estudos de simulação para analisar o desempenho de TAGCNA em comparação com a do método CMDS. Uma vez que ambos os métodos têm considerado as correlações entre marcadores adjacentes e ter modelado as correlações médios com um tamanho de janela, para uma comparação justa, nós escolhemos

w

= 20, como o valor padrão do algoritmo CMDS [13 ], nos estudos de simulação. O resultado mostra que TAGCNA apresenta maior taxa positiva verdadeira na mesma taxa positiva falsa em vários conjuntos de dados de simulação do que a do método CMDS.

Deixe uma resposta