PLOS ONE: Análise comparativa de métodos para identificar Recurrent Copiar Número Alterações em Câncer

Abstract

recorrentes alterações no número de cópias (CNAs) desempenham um papel importante na gênese do câncer. Embora uma série de métodos computacionais têm sido propostos para identificar tais CNAs, os seus méritos relativos permanecem largamente desconhecidos na prática, desde muito poucos esforços têm sido focados na análise comparativa dos métodos. Para facilitar os estudos de identificação CNA recorrente em genoma do câncer, é imperativo para realizar uma comparação global do desempenho e as limitações entre os métodos existentes. Neste trabalho, seis métodos representativos proposto nos últimos seis anos são comparados. Estes incluem um estágio e de dois estágios abordagens, trabalhando com dados de relação de intensidade crua e dados discretizadas respectivamente. Eles são baseados em diversas técnicas como a regressão kernel, matriz de correlação segmentação diagonal, permutação semi-paramétricos e esquemas de permutação cíclicos. Nós exploramos vários critérios, incluindo taxa de erro tipo I, o poder de detecção, características da curva Receiver Operating (ROC) e a área sob a curva (AUC) e complexidade computacional, para avaliar o desempenho dos métodos sob vários cenários de simulação. Nós também caracterizar as suas capacidades nas aplicações a dois conjuntos de dados reais obtidos a partir de cancros com adenocarcinoma de pulmão e glioblastoma. Este estudo comparativo revela características gerais dos métodos existentes para a identificação recorrente CNAs e ainda fornece novos insights sobre seus pontos fortes e fracos. Acredita-se útil para acelerar o desenvolvimento de novos e melhores métodos

Citation:. Yuan X, Zhang J, Zhang S, Yu G, Wang Y (2012) Análise comparativa de métodos para identificar Recurrent Copiar Número Alterações na Câncer. PLoS ONE 7 (12): e52516. doi: 10.1371 /journal.pone.0052516

editor: Noam Shomron, Universidade de Tel Aviv, Israel

Recebido: 07 de agosto de 2012; Aceito: 14 de novembro de 2012; Publicação: 20 de dezembro de 2012

Direitos de autor: © 2012 Yuan et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pela Fundação de Ciência Natural da China sob subsídios 61201312, 61070137, 61202175 e 91130006; Os Estados Unidos Instituto Nacional de Saúde nas ajudas ao CA160036, CA149147, e GM085665; eo projeto apoiado pela Ciência Natural Plano de investigação básica na província de Shaanxi da China (número do programa 2012JQ8027, 2012JQ1010); e os Fundos investigação fundamental para as Universidades Central (K50511030002, K50511030001 e K5051270012). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Identificar recorrentes número de cópias alterações (CNAs) em genomas do câncer é um passo importante na localização de genes motorista câncer e compreensão dos mecanismos de iniciação do tumor. Muitos cancros humanos, incluindo carcinoma de ovário seroso [1], adenocarcinoma de pulmão [2], o glioblastoma multiforme [3], e outros tipos de cânceres [4], [5], têm sido amplamente explorado pela análise CNAs. No entanto, as CNAs identificados com alta frequência de ocorrência em várias amostras representam apenas uma pequena fração dos clinicamente ou biologicamente aberrações relevantes para muitos cancros. A razão mais comum para a falta de algumas mutações motorista conhecidos é que quase todos os cancros são [6] heterogênea, indicando que muitos CNAs recorrente só aparecem em um subconjunto de amostras (ou seja, as amostras dentro de subtipos) e suas frequências são menos extrema através da totalidade das amostras. Para este desafio, um número de métodos estatísticos e computacionais com resultados promissores foram relatados. Eles são divididos em um estágio [7], [8], [9], [10] e de dois estágios abordagens [3], [4], [11], [12], [13]. Muitos deles foram revistos e discutidos por Rueda e Diaz-Uriarte no seu mais recente papel [14].

Um fenômeno notável de perfis do número de cópia é que uma parte dos marcadores são alterados em regiões idênticas em vários genomas e do marcadores restantes são alteradas em lugares aleatórios dos genomas. Assim, a frequência da ocorrência CNA através de amostras é normalmente utilizado para ajudar a distinguir eventos recorrentes de marcadores aleatórios. No entanto, devido às estruturas complicadas de dados de número de cópias, a identificação de menos do extremo CNA recorrente é uma tarefa extremamente difícil. A seguir, o perfil de um número de conjunto de dados cópia real para mostrar a complexidade dos CNAs e ainda usá-lo como um exemplo para ilustrar porque os CNAs menos extremos são difíceis de detectar.

Figura 1a e 1b Figura retratam a taxa de ocorrência CNA em todo o genoma e a sua frequência entre as amostras num conjunto de cancros do pulmão, o qual contém 371 amostras e os marcadores 216,327 [3], [5]. Pode ser observado a partir das figuras que a maioria dos marcadores são alterados (amplificados ou eliminados) em, pelo menos, uma amostra e muitos deles são sobrepostos por uma parte das amostras. Além disso, os tamanhos das regiões do cromossoma CNA variar ao cromossoma. Para um determinado conjunto de

N

amostras de câncer, assumindo todas as CNAs observado são distribuídas aleatoriamente em todo o genoma em cada amostra, a probabilidade esperada (E (

P

)) de um marcador CNA compartilhada por, pelo menos,

N

amostras (correspondente a uma percentagem

f

de toda a amostra) pode ser estimada utilizando a equação (1), e, consequentemente, o número esperado (e (

l

)) de tais marcadores partilhados no genoma pode ser expresso pela equação (2) (1) (2) onde

G

é o comprimento do genoma a ser analisada.;

r

ki

e

r

kj Quais são as taxas de CNA do

i

-ésimo e

j

amostras -ésimo em

k

-ésimo subconjunto, que refere-se ao

k

-ésima combinação de

n

amostras escolhidas do todo

N

amostras. Aqui, o número total de combinações de escolher

n

de

N

é representado por.

Aqui usamos log

2-ratios 0,322 (2,5 cópias) e -0.415 (1,5 cópias) para definir amplificações e exclusões. (A) As taxas médias de CNA para a amplificação e exclusão entre as 371 amostras são 0,0379 e 0,0417, respectivamente. (B) Uma grande parte da amplificações e supressões são inferiores a 0,1 em termos de frequência.

Vamos considerar um conjunto de 100 amostras com cada um tendo 1000 marcadores, e em cada amostra as taxas de CNA são 0,035 para a amplificação e 0,040 para exclusão (estas frequências são relativamente menos do que os meios de conjunto de dados de cancro do pulmão acima). Se assumirmos que o ANC são colocadas aleatoriamente no genoma, a probabilidade de um marcador partilhada por, pelo menos, 100

f

(0

f

≤1) amostras pode ser considerado como uma probabilidade cumulativa , denominado

P

c

(

f

) (mostrado na Equação (3)). Por exemplo,

P

C

(0,1) é igual a 0,0027, no caso de amplificação, o que indica que a probabilidade de um marcador amplificado em pelo menos 10 (0,1 multiplica 100) amostras é 0,0027. A Figura 2 mostra como probabilidade cumulativa versus a frequência de um marcador CNA através das 100 amostras. Consequentemente, o número de tais marcadores em todo o genoma pode ser estimada em 1000

P

c

(

f

). (3)

Se a frequência é usada como uma estatística para testar a significância de CNAs individualmente, a estimativa

p

-valor para o marcador com uma frequência

f

pode ser calculada usando a equação (4), que está sob o procedimento Max-T para controlar a taxa de erro da família-sábio (FWER) [15]. Para compreender claramente a relação entre a frequência CNA e sua

p

-valor, demonstramos a

p

-valor em função da frequência que varia de 0,01 a 1 para amplificação e deleção, separadamente, Figura 3. pode-se notar que o

p

-valor diminui com o aumento da frequência do CNA e, em particular,

p

-valor é de 0,05 quando

f

= 0,13 no caso de amplificação e

p

-valor igual a 0,05 quando

f

= 0,14 no caso de eliminação. Estes sugerem que, se um

p

corte -valor 0,05 é empregado, os marcadores CNA com frequência inferior a 0,13 para a amplificação (ou inferior a 0,14 para eliminação) não pôde ser detectado, enquanto em dados reais, tais frequência pode ser de relevância biológica significativa uma vez que muitas CNAs pode afetar apenas uma minoria de amostras de cancro [3], [7]. (4)

no caso de amplificação, p-valor (0,12) = 0,20 e valor de p (0,13) = 0,05; no caso de exclusão, p-valor (0,13) = 0,18 e p-valor (0,14) = 0,05.

Geralmente, a frequência estatística e permutação aleatória de marcadores no exemplo acima é apenas uma estratégia de base para teste de significância. Para complementar esta estratégia, muitos métodos projetar várias estatísticas e distribuições nulos para este desafio. Por exemplo, STAC (Teste de significância para o número aberrante Copy) [4] propõe uma nova estatística “pegada” para marcar cada marcador e estabelece a distribuição sob a hipótese nula de que as regiões CNA observados são igualmente colocados em qualquer lugar em todo o genoma; GISTIC (Genomic identificação de alvos significativos no cancro) [3] pontuações cada marcador por pentear frequência e amplitude, e constrói uma distribuição semi-exatamente aproximada nulo, e seu GISTIC2.0 extensão [11] considera a distinção da frequência de fundo entre focal CNAs e ampla CNAs e pontuações cada marcador proporcional à sua amplitude; CMDS (Correlation Matrix Diagonal Segmentação) [9] pontuações cada marcador com base em suas correlações com os seus pontos dos arredores e constrói

t

distribuição de um estudante; e Dinamic (Discovering Copiar Número Aberrações manifestado em Câncer) [13] emprega uma estatística resumo e um esquema de permutação cíclica para gerar a distribuição nula. Além disso, para ajustar os valores de estatística e melhorar distribuições nulos, muitos métodos utilizam um algoritmo de peel-off para testar de forma iterativa CNAs [3], [13], [16], [17]. Isso vai ajudar muito na identificação de baixa a moderada-frequência (ou /e de baixa a moderada-amplitude) marcadores.

Junto com a recente avanço das tecnologias genômicas e produção rápida de grandes conjuntos de dados, novos métodos com recursos mais sofisticados e recursos de detecção de CNAs recorrentes continuam a surgir. No entanto, os pontos fortes e fracos dos métodos existentes são difíceis de discernir, devido à falta de comparações de desempenho global. Este é um verdadeiro problema, especialmente a partir da perspectiva de investigadores biológicos que necessitam de escolher um método para um conjunto de dados de interesse. Neste trabalho, comparamos seis métodos clássicos e publicamente disponíveis com base em critérios incluindo a taxa de erro tipo I, o poder de detecção, características da curva Receiver Operating (ROC) e a área sob a curva (AUC) e complexidade computacional, de modo que os usuários podem obter rapidamente uma visão geral deles e de seu desempenho. Vários conjuntos de dados de simulação e dois conjuntos de dados reais obtidos em amostras de adenocarcinoma de pulmão e glioblastoma são utilizados para avaliar os métodos.

Materiais e Métodos

métodos para identificar Recurrent CNAs

Uma variedade de métodos estatísticos e computacionais foram propostos recentemente para identificar recorrente CNAs. Estes métodos podem ser classificados de maneiras diferentes, tais como estruturas, estratégias para estabelecer a distribuição de nulos, códigos de fonte, e assim por diante. Geralmente, diferentes conjuntos de dados de câncer têm perfis e padrões de alterações no número de cópias distintas, e eles podem exigir diferentes métodos computacionais para análise, já que não há um método único que poderia ser adequado para todos os conjuntos de dados. É necessário explorar métodos esses que possuem características distintas e diferentes vantagens. Para espelhar isso, selecionar cuidadosamente seis métodos representativos para a avaliação e comparação, com base na sua eficácia relatada em aplicações reais. Listamos os seis métodos na Tabela 1, bem como as suas propriedades para uma visão geral. Estes métodos têm sido desenvolvidos sob diferentes lógicas nos últimos seis anos, e alguns deles têm sido amplamente utilizados na análise de dados cancerosas [2], [18], [19]. Para uma compreensão geral deles, damos um breve resumo dos seus princípios a seguir.

(1) STAC [4].

A entrada de STAC é uma matriz binária

X

, em que cada elemento

x

ij

representa o status do

j

-ésimo marcador na amostra

i

. Especificamente,

x

ij

= 1 significa amplificação (ou supressão),

x

ij

= 0 significa normal. Analisa matrizes de amplificação e de deleção separadamente, e os testes de significância deles da mesma maneira. A hipótese nula para trás STAC é que os segmentos CNA observados são colocados aleatoriamente em qualquer parte do cromossoma que está sendo considerado [4], [17], por conseguinte, as amostras permutadas pode preservar as estruturas originais dos dados de número de cópias. STAC adota duas estatísticas, a frequência de aberração e “pegada”, para avaliar

p

-Valores para cada marcador, e controla a taxa de erro família-wise (FWER) com base na probabilidade de cauda extrema direita [4 ], [13], [20].

a “frequência” para o marcador

x

é calculada como a proporção de amostras que compartilham a aberração, enquanto que a “pegada” para o marcador

X

é calculada como uma série de locais contidas numa pilha, que é um conjunto de intervalos contendo

X

entre amostras [4]. O princípio por trás do “footprint” é que os alinhamentos mais apertadas de aberrações são menos susceptíveis de ser esperado por acaso e, portanto, são mais propensos a sugerir eventos biologicamente relevantes, enquanto que os alinhamentos mais relaxadas de aberrações pode sugerir mutações de passageiros com maior probabilidade.

(2) GISTIC [3].

Este método requer dados de entrada segmentado, com registro contínuo

2-valores resultou de métodos de análise de amostra única, como a CBS [21] e GLAD [22] . É permuta marcadores individuais em todo o genoma, assumindo que os marcadores são [3] independente, [17], e deriva uma distribuição nula semi-exacta calculada com base na função de convolução [3] de (5) onde é a distribuição (histograma ) de amplificação na

i

amostra -ésimo. Com base na distribuição null, GISTIC usa um

G

-Score combinando frequência e amplitude (Equação 6) para avaliar a significância para cada marcador e corrige hipótese múltipla testando através do procedimento Benjamini-Hochberg FDR [23] . O mesmo procedimento é aplicado para a análise de deleção e LOH (perda de heterozigosidade). (6), onde e é a frequência da amplificação e a amplitude média do

j -ésimo

marcador entre as amostras.

a intuição por trás da

G

-Score é que uma aberração com maior amplitude e frequência é mais provável que seja um evento de motorista. A fim de aliviar o efeito colateral de regiões de pico com a maior amplitude e frequência, GISTIC adopta uma “destacável” algoritmo para testar de forma iterativa o CNA dentro das regiões significativas.

(3) KC-SMART [8 ].

diferente dos dois métodos acima, o quadro de um estágio é abraçada por este método sem a necessidade de um passo prévio de segmentação (suavização) copiar perfis numéricas. O princípio por trás KC-SMART é que ele impõe uma função de kernel em cada local

m

para construir uma estatística, núcleo estimativa suavizada (KSE) [8] 🙁 7), onde é um resumiu log positivo ou negativo

2-ratios em todas as amostras para cada local, é uma função de kernel (por exemplo, flat-top função do kernel Gaussian), e é um conjunto de marcadores em torno de localização

m

e geralmente é determinada com base na largura da função kernel. Teoricamente, esta estatística considera as correlações entre os dados do número de cópia e incorpora as informações obtidas a partir de marcadores vizinhos.

Para identificar locais de pico (ie, CNAs recorrente), o método compara o KSE observado de cada local de encontro a uma distribuição nula que é estabelecida através de permutações de registro individual

2-ratios sobre o genoma sendo considerado. Para corrigir o efeito de testes de hipóteses múltiplas, KC-SMART adopta estratégia de Bonferroni multiplicando o avaliada

P

-Valores usando o número total de locais a ser testado.

(4) CMDS [9] .

Os dados de entrada para CMDS é muito semelhante ao KC-SMART. Este método não utiliza diretamente a freqüência ea amplitude do número de cópias aberrações para construir estatística de teste. Ele atribui uma pontuação RCNA para cada marcador. A pontuação RCNA é um valor de correlação média dos pontos dos arredores do marcador. A hipótese nula de TMC é que não existe qualquer correlação entre os marcadores no interior de cromossomas, pelo que pode ser criada por permutando aleatoriamente marcadores individuais no alongamento do cromossoma a ser considerada. Para economizar tempo computacional, CMDS usa as informações a partir dos valores de correlação observados no genoma número de cópias para estabelecer uma distribuição normal padrão, como uma aproximação estreita

t

distribuição. O efeito de vários testes também é corrigido usando a estratégia Bonferroni, exatamente como o método KC-SMART

.

A noção intuitiva por trás CMDS é que o ruído do número de cópias não está correlacionada enquanto as CNAs recorrentes estão em alta correlação. Uma outra característica marcante de TMC é que ele não analisar a amplificação e eliminação separadamente, mas usa o valor médio do número de cópias através da janela predefinida em todas as amostras e o seu nível de significância [9] para determinar se o marcador de amplificação é correspondente ou eliminação. Isso é diferente da maioria dos outros métodos existentes.

(5) Dinamic [13].

Este método aceita tanto sinal bruto contínuo e dados segmentados discretos. Adota uma estatística resumo global que incorpora tanto a frequência ea amplitude de cada marcador para analisar qualquer amplificação ou supressão. Duas características novos dinâmica subjacentes são concluiu o seguinte. Em primeiro lugar, emprega uma estratégia de permutação cíclica para gerar a distribuição nula [13], [17], o que preserva as estruturas dos dados de número de cópia original em um grau mais elevado do que a maioria dos outros métodos, tais como STAC [4] e GISTIC2.0 [ ,,,0],11]. Em segundo lugar, para aumentar o poder de detectar marcadores menos extremas CNA, o método utiliza um “destacável” algoritmo diferente do que é utilizado por GISTIC [3], que avalia os significados de novas regiões através da remoção de todas as aberrações sobreposto pelo anteriormente detectada regiões recorrentes, enquanto a dinâmica re-testes marcadores, gerando uma nova distribuição nula em uma nova matriz de dados em que o previamente detectado marcadores

K quais são nulos e os marcadores de contribuir para o significado da

K

são dimensionados usando um fator.

Este método é suposto para testar um marcador durante cada “peel-off” método de iteração, o custo computacional, assim, será um problema significativo, especialmente quando são necessários um grande número de iterações. Para isso, Dinamic fornece

Quick Look Comprar e

plataformas olhar

detalhadas para as opções do usuário. Na primeira, a distribuição inicial nulo é re-utilizado para testar a significância dos marcadores mais extremas, e, assim, em conformidade economiza um pedaço de tempo computacional. Além disso, o significado para testes múltiplos é corrigida usando o procedimento max-T exatamente como STAC [4].

(6) GAIA [16].

Em contraste com outros métodos existentes [3 ], [13], [24], GAIA (Genomic Analysis of importantes alterações) incorpora homogeneidade dentro-de exemplo para o procedimento “peel-off” em seu quadro de hipótese estatística: em primeiro lugar, marcadores individuais são permutados aleatoriamente para gerar uma distribuição nulo, com base no qual a contagem observada (o número de aberrações através amostras, isto é equivalente ao efeito da frequência de aberrações) de cada marcador é avaliada e atribuída com um nível de significância; segundo, GAIA define um valor homogeneidade para cada emparelhados marcadores adjacentes em cada amostra e produz uma nova matriz de dados chamado

H

(

N

×

M

-1), em qual cada elemento

H

ij

∈ {0, 0,5, 1}, representa máxima, média ou homogeneidade mínimo; Finalmente, um homogénea peel-off é realizada sobre a matriz

H

para expandir os limites das regiões significativas detectadas anteriormente. Este esquema “peel-off” era esperado para identificar mais picos CNA recorrentes e omitir picos espúrios.

avaliação dos métodos

Bastante avaliar os méritos relativos desses métodos é necessário, mas este é complicado devido a vários problemas realistas. Primeiro de tudo, os formatos de dados de entrada (segmentados ou matérias) para diferentes algoritmos não são sempre os mesmos, e aqueles que requerem entradas segmentados geralmente adotam diferentes algoritmos de segmentação. Por exemplo, os algoritmos de segmentação padrão usados ​​por STAC, GISTIC, dinâmica, e GAIA são GenePix Pro 4.0 [25], GLAD [22], a CBS [26], e VEGA [27], respectivamente. Considerando que diferentes algoritmos de segmentação pode ter diferentes habilidades no processamento de perfis CNA individuais e, assim, vai representar grande impacto na análise a jusante, optamos por usar o algoritmo CBS segmentação [26] para todos os métodos de dois estágios neste estudo de comparação, uma vez CBS é um algoritmo muito popular e ele executa consistentemente bem na detecção de alterações no número de cópias [28]. Em segundo lugar, as saídas de significância dos seis métodos incluem dois tipos:

p

-Valores (STAC, KC-SMAR, TMC, e dinâmica) e

q

-Valores (GISTIC e Gaia), e os limiares para declarar significativa nestes métodos são diferentes. Para uma comparação justa, nós escolhemos os limiares comumente usados ​​0,05 para

p

-valor e 0,25 para

q

-valor aqui. Em terceiro lugar, os parâmetros nos diferentes métodos diferem enormemente. Por exemplo, dinâmica requer uma entrada de número de iterações, onde a configuração padrão é 10. No entanto, tal cenário não é geralmente grande o suficiente em aplicações reais, uma vez que pode haver um grande número de marcadores aberrantes que devem ser avaliados. Assim, podemos mudar essa configuração em um número maior na implementação do algoritmo padrão. Para a maioria dos parâmetros do algoritmo, usamos as configurações padrão, tanto quanto possível, ou os valores sugeridos nos papéis ou documentos de programa. Finalmente, diferentes algoritmos foram escritas em várias línguas e implementadas em diferentes plataformas, como mostrado na Tabela 1. Isto vai aumentar as dificuldades para comparar o tempo computacional dos métodos na prática.

Para avaliar quantitativamente o desempenho do métodos, testamos quatro critérios comummente utilizados [13], [28], [29], [30], com base em um grande número de conjuntos de dados de simulação. Os critérios são descritos em detalhes abaixo.

1. Tipo I taxa de erro.

O objectivo de avaliar tipo I taxa de erro é investigar o significado do significado níveis resultou dos métodos estatísticos para detectar CNAs recorrentes [13], [30]. Se a taxa de erro tipo I é demasiado conservador ou agressivo demais, o significado pretendido do

p

-Valores (ou

q

-Valores) seria reduzido ou perdido, e ele não concorda com a taxa de falsos positivos reais no resultado. Deste modo a precisão da taxa de erro tipo I é um índice importante para avaliar os métodos. Para este objectivo, simulamos um grande número () de conjuntos de dados replicados com verdade terrestre nula CNAs e calcular o tipo I taxa de erro usando a Equação (8) 🙁 8), onde é o limite para chamar significativa (por exemplo), e é um função de indicador, ou seja, se houver CNAs no conjunto de dados são declarados significativa, então; de outra forma, . Assim, a Equação (8) é realmente um cálculo do tipo de família-wise I taxa de erro [17].

2. poder de detecção

Desde CNA é uma unidade estrutural e geralmente inclui um número de marcadores, o poder de detecção pode ser determinado por meio de duas formas:..-base e unidade de cálculos baseados em marcadores

CNA poder de detecção baseado em unidades: Compra de uma verdade terrestre (recorrente) unidade CNA, é preciso observar quão provável pode ser com êxito declarou significativa através de um método. Nós definimos este poder de detecção, como a sensibilidade para detectar a unidade CNA recorrente. Em geral, a detecção exactamente os limites da (ou de todos os marcadores no interior) da unidade CNA recorrente é difícil de conseguir, e isto nem sempre é necessário para a localização dos genes abrangidos pela CNA. Por exemplo, os genes podem ser mapeada se uma parte dos marcadores dentro deles são sobrepostas pelas unidades CNA detectados. Para uma avaliação conveniente, usamos o marcador médio da unidade CNA recorrente para determinar se a unidade é declarada, ou seja, se o marcador médio é detectado, em seguida, supomos que a unidade é detectado com sucesso, caso contrário, não é. Por conseguinte, o poder de detecção baseado em unidades CNA de um método de cálculo pode ser feito [30] (9), onde é o número total de verdade terrestre unidades CNA em cada conjunto de dados simulado, e indica o número de verdade terrestre unidades CNA que são declarados significativa no

i

dataset -ésimo

CNA poder de detecção baseada marcador:.

além da localização dos genes motorista câncer, recorrente CNAs também pode ser usado para analisar índice de instabilidade cromossômica e outros significados biológicos [1]. Por isso é necessário para ver quantos chão marcadores verdade são detectados. Assim, definimos este poder como a Equação (10) [30], em que é o número total de verdade terrestre marcadores CNA e indica o número de marcadores de verdade de campo que são detectados com sucesso no

i

dataset -ésimo (10).

3. Receiver características operacionais (ROC) e medida AUC.

Nós avaliar melhor o desempenho global dos seis métodos, medido pela sensibilidade e especificidade através de curvas ROC, o que mostra o quanto porcentagem de marcadores de verdade de campo são selecionados condicionado em uma determinada taxa de falsos positivos. Além disso, medimos a área sob a curva (AUC) para esses métodos com o objetivo de avaliar o seu desempenho médio especialmente quando algumas curvas ROC ter atravessado.

4. complexidade computacional.

Nós avaliamos a complexidade computacional baseado em tempo de execução e uso de memória. Uma vez que diferentes métodos são geralmente implementadas em diferentes plataformas, tais como C ++, linguagem R, e JAVA, a comparação do tempo de processamento pode ser influenciado. Para superar este problema e fornecer uma comparação geral da eficiência dos seis métodos, damos complexidades big-O para eles, para além dos tempos de execução reais.

Os conjuntos de dados de simulação

conjuntos de dados reais raramente têm absolutamente confirmada verdade chão ANC, e, portanto, não pode ser utilizado para avaliar o desempenho dos métodos. No entanto, as tecnologias de simulação fornecem uma maneira razoável de resolver este problema [31]. Uma vez que os quatro critérios de avaliação ilustrado acima são utilizados para quantificar os métodos de diferentes perspectivas, é necessário empregar diferentes esquemas de simulação para gerar uma variedade de conjuntos de dados.

Para o primeiro critério de ensaios de tipo I taxa de erro, nós adotar o algoritmo de simulação introduzido por Hsu et al [32] e Walter et al [13] para criar bases de dados nulos. O algoritmo é baseado em um modelo de seleção de instabilidade [33], que foi originalmente usado por muitos pesquisadores a modelar LOH (perda de heterozigosidade). O princípio de simular aberrações no número de cópias sob o modelo de selecção de instabilidade pode ser simplesmente resumido como se segue [13]. O estado marcador é em primeiro lugar indicado, quer por 0, quando nenhuma aberração ou por uma como aberração. Para gerar marcadores contíguos que são inerentes correlacionados ao longo de um cromossomo com o tempo de

M

, um local marcador inicial

x

k

(

k

∈ {1, 2 , …,

M

}) é pré-especificado e o status do seu marcador vizinho

x

k

1 é então modelada com base na probabilidade de transição [13],

p

a, b

(

d

) =

p

(

T

(

x

k

+1) =

a

Deixe uma resposta