PLOS ONE: reproduzível Cancer Biomarcador Descoberta em SELDI-TOF MS utilizando diferentes pré-processamento Algorithms

Abstract

Fundo

Tem havido muito interesse na diferenciação de amostras de doentes e normais utilizando biomarcadores derivadas espectrometria de massa (MS) estudos. No entanto, a identificação de biomarcadores para doenças específicas tem sido dificultada pela irreproducibility. Especificamente, um perfil de pico extraído de um conjunto de dados para a identificação de biomarcadores depende de um algoritmo de pré-processamento de dados. Até agora, o acordo não é amplamente aceito foi atingido.

Resultados

Neste trabalho, investigamos a consistência de identificação de biomarcadores usando picos diferencialmente expressos (DE) de perfis de pico produzida por três amplamente utilizado algoritmos de pré-processamento médios dependentes do espectro com base em dados SELDI-TOF MS para cancros da próstata e da mama. Nossos resultados revelaram dois fatores importantes que afetam a consistência DE identificação de pico usando diferentes algoritmos. Um fator é que alguns picos DE selecionados a partir de um perfil de pico não foram detectados como picos em outros perfis, eo segundo fator é que o poder estatístico de identificar DE picos em grandes perfis de pico com muitos picos pode ser baixa devido à grande escala de os testes e pequeno número de amostras. Além disso, foi demonstrado que o poder de detecção de pico DE em grandes perfis poderia ser melhorado pela taxa de detecção falsa estratificada abordagem (FDR) controle e que a reprodutibilidade da detecção de pico DE poderia, assim, ser aumentada.

Conclusões

comparar e avaliar algoritmos de pré-processamento em termos de reprodutibilidade pode elucidar a relação entre os diferentes algoritmos e também ajudar na escolha de um algoritmo de pré-processamento. Os picos DE seleccionados a partir de perfis de picos pequenos com poucos picos para um conjunto de dados tendem a ser reprodutivelmente detectada em grandes perfis de pico, o que sugere que um algoritmo de pré-processamento adequado deve ser capaz de produzir picos suficiente para a identificação de biomarcadores úteis e reprodutíveis.

Citation: Zou J, Hong G, Guo X, Zhang L, Yao C, Wang J, et al. (2011) Cancer reproduzível de biomarcador descoberta em SELDI-TOF MS Usando diferentes pré-processamento algoritmos. PLoS ONE 6 (10): e26294. doi: 10.1371 /journal.pone.0026294

editor: William C. S. Cho, a rainha Elizabeth Hospital, Hong Kong

Recebido: 07 de junho de 2011; Aceito: 24 de setembro de 2011; Publicação: 14 de outubro de 2011

Direitos de autor: © 2011 Zou et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiada pela National Science Foundation Natural da China (30970668, 81071646, 91029717) (https://www.nsfc.gov.cn/Portal0/default106.htm), Excelente Fundação da Juventude da Província de Heilongjiang (JC200808) (http: //jj.hljkj.cn/qn/), Natural Science Foundation da Província de Heilongjiang da China (QC2010012) (https://jj.hljkj.cn/zr/index.htm) e do Fundo de Investigação científica de Heilongjiang Departamento Provincial de Educação (11541156). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

proteomic tecnologias com base em espectrometria de massa (MS) [1] são cada vez mais o método de escolha para a identificação de biomarcadores que são úteis para a diferenciação de amostras de doentes normais e [2], [3], [4] . No entanto, de acordo com estudos de microarray [5], [6], a utilização de técnicas de MS para identificar biomarcadores da doença tem sido dificultada pela irreproducibility [7], [8]. Por exemplo, os biomarcadores identificados em quatro estudos do cancro da próstata são muito diferentes [8]. Recentemente, Callesen

et al

. [7] mostrou que apenas 10 de 207 biomarcadores relatados em 15 estudos de cancro da mama com base em MS foram detectados em mais de 2 estudos. Este irreproducibility levanta questões sobre o significado biológico e as implicações clínicas dos biomarcadores detectados.

Muitos fatores, tais como os procedimentos operacionais e de processamento de amostra para os experimentos, pode afetar a reprodutibilidade de biomarcadores da doença [9], [10] [11], [12], [13], [14], [15]. É importante ressaltar que o algoritmo de pré-processamento de dados escolhido para produzir perfis de pico podem afetar muito a identificação de biomarcadores [16]. Alguns estudos têm tentado encontrar o algoritmo óptimo pré-processamento para os picos de detecção [17], [18], [19]. No entanto, até agora, nenhum acordo amplamente aceite foi atingido. Por exemplo, com base em dados simulados com verdadeiros picos predefinidos, Cruz-Marcelo

et al

. [17] e Emanuele

et al

. [18] avaliaram vários algoritmos tanto em termos de sensibilidade (definida como a proporção de verdadeiros picos que foram correctamente identificadas) e especificidade (definida como a taxa de detecção falsa (FDR)). Estes dois estudos chegaram a conclusões diferentes sobre os três algoritmos que ambos avaliados, que estavam MassSpecWavelet [20], Cromwell [21] e software comercial produzido pela Ciphergen Biosystems. Cruz-Marcelo

et al

. [17] relataram que estes algoritmos oferecido alta sensibilidade com um baixo FDR, enquanto Emanuele

et al

. [18] mostraram que eles tinham baixa sensibilidade e um baixo FDR. Este conflito poderia ter sido introduzido por diferenças em seus dados de simulação, que em geral tendem a ser tendencioso para cenários específicos. A solução para evitar viés é a adoção de dados reais, em vez de dados simulados. Infelizmente, com dados reais, a sensibilidade e FDR de um algoritmo não pode ser avaliado porque os verdadeiros picos são desconhecidos. No entanto, os algoritmos de pré-processamento podem ser comparados em termos de reprodutibilidade detecção de pico por avaliar sobreposição de pico. Notavelmente, a reprodutibilidade é uma medida fundamental para validar descobertas biológicas que é distinta da sensibilidade e especificidade [6], [22], [23], [24].

Neste estudo, usando próstata real e câncer de mama dados, que numa primeira fase, a reprodutibilidade de detecção de pico entre três algoritmos pré-processamento amplamente utilizados que detectam picos dependente do espectro médio de todos os espectros (ver

Métodos

), incluindo SpecAlign [25], MassSpecWavelet [ ,,,0],20] e Cromwell [21]. Mais importante, avaliamos ainda a reprodutibilidade da detecção de picos diferencialmente expressos (de) (muitas vezes definida como biomarcadores), que tem sido um foco da comunidade biológica, mas não foram completamente avaliadas tanto com dados simulados ou reais. Os nossos resultados indicam que o número de picos detectados para uma série de dados varia dramaticamente dependendo do algoritmo de pré-processamento. Nossos resultados também revelaram dois fatores importantes que afetam a consistência DE identificação de pico usando diferentes algoritmos de pré-processamento. O primeiro fator é que um perfil de pico pode faltar picos DE encontrados em outro perfil, o que pode afetar a reprodutibilidade antes da seleção de De picos. O segundo factor é que um grande perfil do pico com diversos picos podem sofrer de baixo poder estatístico para identificar DE picos devido à grande escala do ensaio em conjunto com o número da amostra pequena [26], [27], [28], [29] . Felizmente, os nossos resultados indicam que o poder de perfis de grandes dimensões de pico pode ser aumentada pela abordagem estratificada controlo FDR [30]. Consequentemente, DE picos seleccionados a partir de perfis de pico pequenas tendem a ser reprodutivelmente detectada em grandes perfis de pico. Com base na análise do presente estudo, sugere-se que um algoritmo de pré-processamento adequado deve ser capaz de produzir picos suficientes para a identificação de biomarcadores úteis e reprodutíveis.

Materiais e Métodos

conjuntos de dados do cancro

Os dados de câncer de próstata, que foi transferido a partir https://www.evms.edu/vpc/seldi/, consistiu de espectros duplicado para 168 câncer e 81 amostras de soro normais medido por SELDI-TOF MS (IMAC fichas -3), com a carga de massa-para-(

m /z

) razão que varia de 0 a 200 kDa [31]. As amostras de sangue da fase I IV-pacientes diagnosticados foram adquiridos a partir do Departamento de Urologia, Eastern Virginia Medical School e as amostras de homens saudáveis ​​foram obtidos a partir de clínicas de rastreio gratuitas abertas ao público em geral (ver detalhes em [31]). As amostras de soro foram obtidas a partir do tecido da próstata Virginia Center e Bank fluido corporal. Os dados do cancro da mama, que foi descarregado a partir https://bioinformatics.mdanderson.org/pubdata.html, consistiu de espectros duplicado para 26 cancro e 14 amostras de plasma normal medido por SELDI-TOF MS (chip IMAC-Cu), com a

m /z

proporção variando de 10 a 100 kDa [32]. As amostras de sangue foram obtidas de pacientes com carcinoma de mama em estágio I-III diagnosticados e voluntários saudáveis ​​(ver detalhes em [32]). As amostras de plasma foram conduzidas no Centro da mama Nellie B. Connally na Universidade do Texas MD Anderson Cancer Center.

Para cada par de espectros em duplicado, os dois espectros foram pré-processados ​​separadamente e, em seguida, em média, para produzir um perfil de consenso. Considerando as limitações de ruído de medição e detecção, nós só usamos esses picos no

m /z

gama de 1-10 kDa para o cancro da mama e 2-40 kDa para câncer de próstata em nossas análises como nos artigos originais [31 ], [32].

dados algoritmos de pré-processamento

Como ilustrado na Figura 1, os dados SELDI-TOF-MS são geralmente pré-processado por várias etapas, incluindo denoising (suavização), linha de base subtração, normalização, detecção de pico, o agrupamento de picos e pico de quantificação [17]. Os três algoritmos analisados ​​neste estudo detectar picos de acordo com o espectro médio de todos os espectros, e aos processos de pré-processamento são descritos abaixo. As definições dos parâmetros específicos utilizados para cada algoritmo pode ser encontrada em textos S1.

(A) espectro bruto. (B) Espectro de suavização. A linha de base calculada a partir do espectro suavizado é representada como a linha cinza. (C) espectro normalizado. A linha de base é subtraído do espectro suavizados. Em seguida, o espectro subtraído-linha de base é normalizada. Os picos detectados com base no espectro normalizado aparecem em círculos.

(1). SpecAlign [25] pré-processa os dados como se segue: a) espectro de alisamento por filtro Savitzky-Golay; b) subtraindo a linha de base estimada por um conteve média móvel; c) intensidades rescaling para valores positivos, tornando o valor mínimo 0; d) normalizando intensidades para deixar todos os espectros têm a mesma corrente de íons total; e) gerar um espectro médio; f) utilizando a transformada de Fourier rápida (FFT) /pico correspondente método combinado para alinhar os picos detectados de espectros individuais para os identificados no espectro médio; e g) picos de colheita. A razão da altura de padrão que serviu como a relação sinal-para-ruído (SNR) foi de 1,5.

(2). O pacote MassSpecWavelet para detecção de pico [20] combinado com o pacote de pico processo para quantificação [33] (denotado RSU /PRO). MassSpecWavelet foi reportado ter alta sensibilidade com um baixo FDR para detecção de pico [17]. No entanto, ele não quantificar os picos detectados. Assim, com base no trabalho de Cruz-Marcelo

et al

. [17], foi utilizado processo para quantificar os picos detectados pelo MassSpecWavelet. MassSpecWavelet detecta picos utilizando a transformação wavelet contínua sobre o espectro médio de todos os espectros. Para cada espectro, processo subtrai a linha de base, o qual é estimado por interpolação linear, em seguida, normaliza as intensidades usando a área média sob as curvas de todos os espectros, e, finalmente, quantifica os picos detectados de espectros individuais por o máximo local dentro do intervalo predefinido . O SNR padrão para detecção de pico era 3.

(3). Cromwell [21] pré-processa dados por um) de computação um espectro médio; b) denoising o espectro médio por wavelet discreta undecimated transformar; c) para corrigir as intensidades o espectro médio subtraindo a linha de base, o qual é estimado por uma curva de mínimos monótona; d) encontrar picos com intensidades máximas locais para o espectro médio; e) repetir b) e c) para cada espectro, normalizando com intensidades de corrente iónica total médio, e quantificar as intensidades dos picos utilizando a máxima dentro dos intervalos que definem picos no espectro médio; e f) a extracção de picos com uma SNR definida pelo utilizador. O padrão SNR foi de 5, de acordo com a recomendação dos desenvolvedores.

A saída de um algoritmo de pré-processamento é um perfil de pico para o conjunto de dados, que é composto dos picos detectadas e suas intensidades correspondentes em cada espectro. Para simplificar, os perfis de pico produzida por SpecAlign, MSW /PRO e Cromwell são denotados perfil SpecAlign, MSW /profile PRO e perfil de Cromwell, respectivamente.

Dois picos com uma

m /z

rácio diferença dentro de um intervalo de turno pode corresponder à mesma molécula biológica [17], [34]. Neste estudo, utilizou-se gamas de desvio de ± 0,1% ± 0,2% e ± 0,3%, e os resultados foram semelhantes. Para simplificar, nós só apresentar os resultados com base no intervalo de mudança comumente usado de ± 0,3% [17],.

Uma vez que os objetivos de otimização para detecção de pico não são definidos nos dados reais, os parâmetros predefinidos para a pré -Processamento algoritmos são utilizados para a detecção de picos na maioria das aplicações. No entanto, alguns estudos podem sintonizar a SNR para encontrar mais ou menos picos [17], [18], [35], [36]. Assim, da mesma forma sintonizado o SNR em nosso estudo para comparar algoritmos de pré-processamento. Além disso, porque um SNR inferior pode detectar mais verdadeiros e úteis picos, principalmente, considerado o mais baixo dos dois SNR quando se compara um algoritmo com um outro (ver detalhes no

Discussão

).

Detecção de picos dE e pontuação de consistência

Student

t

-test foi utilizado para avaliar a significância das diferenças entre a intensidade significa do cancro e amostras normais. Para correção de testes múltiplos, foi utilizado o procedimento Benjamini-Hochberg para controlar o FDR em um determinado nível [37].

A consistência de duas listas de pico foi medida pelo PO (percentagem de sobreposições) marcar [38] . lista 1 Supondo com

l

1 picos e lista 2 com

l

2 picos compartilhar

k

picos, a pontuação PO da lista 1 ( ou 2) para listar 2 (ou 1) é

PO

12 =

k

/

l

1 (ou

PO

21 =

k

/

l

2). Porque a pontuação PO depende a lista de comprimentos, também calculada a pontuação PO normalizada (

n

PO), que é definido como a proporção do valor observado além do acaso para o correspondente pontuação máxima potencial além do acaso [38 ] 🙁 1) (2) onde e (PO

12) (ou e (PO

21)) foi estimada como a média da pontuação do pedido

12 (ou PO

21) para 1.000 pares de listas de pico (com comprimentos

l

1 e

l

2) extraído aleatoriamente a partir das duas matérias-

m /z

listas. Entre as pontuações para os 1.000 pares aleatórios de listas de pico, o

p

-valor de observar a pontuação PO por acaso foi calculada como a proporção das pontuações não inferior ao valor observado.

o PO (

n

PO) pontuação entre duas listas de de picos foi calculado pela mesma metodologia descrita anteriormente, exceto que um pico dE foi definido como sendo compartilhado por duas listas apenas se ele foi regulamentada no mesma direcção em ambos os perfis de pico [38]. E (PO) foi avaliada utilizando listas de pico DE extraídos aleatoriamente a partir dos dois perfis de pico. Aqui, apresentamos o PO (

n

PO) pontuação da lista mais curta para a lista mais longa e avaliar o grau que a lista mais curta é abrangido pela lista mais longa.

Nós denotar o PO (

n

PO) pontuação dos picos detectados pelo algoritmo

a

aos detectados pelo algoritmo

B

como PO

AB (

n

PO

AB), enquanto PO

dE

AB (

n

PO

dE

AB) é para de picos

abordagem de controle. estratificada FDR

Em testes em larga escala com múltiplos ajustes de teste atuais, o poder pode diminuir à medida que o número de exames aumenta [27], [30], [39]. Para aumentar a potência, uma abordagem de controlo estratificada FDR foi proposto [24]. Como prova de princípio, foi analisado se a consistência de detecção de pico DE pode ser aumentada através da melhoria da capacidade de identificar DE picos em perfis de grandes dimensões máximas utilizando a abordagem de controlo FDR estratificado, que é baseada na suposição de que os picos com grande variação de dobragem ( FC) valores podem ser mais propensos a ser verdadeiros dE picos [40]. Primeiro, foram aplicados os k-means clustering algoritmo para particionar os picos em

k

grupos, minimizando a soma da distância euclidiana ao quadrado entre o valor FC para cada pico e seu centro de cluster mais próximo [41]. O ideal

k

foi escolhida como a partição resultando em uma média máxima de valores silhueta, que mede o quão semelhantes um pico é outros picos em seu próprio grupo em comparação com os de outros grupos [42]. Então, em um nível específico de controle FDR, foram selecionados DE picos em cada grupo. Como não existe sobreposição entre as descobertas de diferentes grupos, o FDR dos resultados integrados é ainda menor do que o determinado nível de FDR [30].

Resultados

A reprodutibilidade da detecção de pico

no que se segue, os resultados para cada algoritmo foram com base no seu padrão SNR salvo indicação em contrário. Para o conjunto de dados do cancro da próstata, 31 e 53 picos foram detectados por SpecAlign e RSU /PRO, respectivamente, e todos eles foram incluídos nos 420 picos detectados por Cromwell. Além disso, avaliou-se a reprodutibilidade de detecção de pico, utilizando o mesmo número de picos, diminuindo o SNR de um dos dois algoritmos. No entanto, mesmo as mais baixas utilizando SNR de 1 e 0,1 admissível para SpecAlign e RSU /PRO, respectivamente, apenas a 130 e 90 picos foram detectados. A maioria foram incluídos nos picos detectados por Cromwell com PO

SC (

n

PO

SC) e PO

MC (

n

MC PO) marca tão alta quanto 1 (1) e 0,93 (0,93), respectivamente (Figura 2A). Para a comparação entre SpecAlign e MSW /PRO, o PO

SM (

n

PO

SM) pontuação foi de 0,84 (0,84). Quando o SNR foi diminuído para 1,27, SpecAlign detectado o mesmo número de picos (53) como RSU /PRO, mas a pontuação diminuiu para 0,74 (0,73) (Figura 2A).

(A) para o cancro da próstata e (B) para câncer de mama. A reprodutibilidade foi avaliada entre um algoritmo (

x

-axis etiqueta) com várias SNR e outro (título) com a SNR padrão. Os SNR padrão para SpecAlign, RSU /PRO e Cromwell foram de 1,5, 3 e 5, respectivamente. Os triângulos cheios representam o número de picos (direita

y

-axis) detectada pelo algoritmo, que é mostrado pelo

x

-axis rótulo. Todos PO (

n

PO) escores significativamente mais altos do que o esperado por acaso (

p Art 2,2E-11).

Para o conjunto de dados do cancro da mama , 19 e 47 foram identificados por picos SpecAlign e RSU /PRO, respectivamente, e todos eles foram incluídos nos 287 picos detectados por Cromwell. Além disso, como mostrado na Figura 2B, mesmo depois de diminuir a SNR mais baixas para os valores permitidos para SpecAlign e RSU /PRO, apenas 104 e 52 picos, respectivamente, foram detectados, e todos eles foram detectados por Cromwell. A pontuação coerência entre SpecAlign e MSW /PRO não era alta, com um PO

SM (

n

PO

SM) pontuação de 0,68 (0,68). Após o SNR foi reduzida para 1,181, SpecAlign detectado o mesmo número de picos (47) como RSU /PRO, e a PO

SM (

N

PO

SM) pontuação diminuiu para 0,55 (0,55 ) (Figura 2B).

os resultados anteriores sugerem que quando se utiliza o SNR padrão para cada algoritmo nestes dois conjuntos de dados, e SpecAlign RSU /PRO tendem a ser menos sensível a detecção do pico de Cromwell. Todos os picos detectados também tendem a ser detectado por Cromwell. Cromwell ainda pode capturar quase todos os picos detectados por SpecAlign e MSW /PRO quando o SNR dos dois últimos algoritmos menos sensíveis foram reduzidos.

A reprodutibilidade da detecção de pico DE

Em seguida, avaliou o reprodutibilidade de pico de identificação no pico perfis produzidos por diferentes algoritmos de pré-processamento. Para o conjunto de dados do cancro da próstata, 27 e 24 foram picos DE seleccionado a partir do MSW e /SpecAlign perfis PRO, respectivamente, com um controlo de 10% FDR. A maioria deles também estavam presentes nos 229 picos DE identificados a partir do perfil de Cromwell, eo PO

DE

SC (

n

PO

DE

SC) e PO

DE

MC (

n

PO

DE

MC) pontuações foram 0,81 (0,62) e 0,96 (0,92), respectivamente. Apesar de todos os picos no perfil SpecAlign foram incluídos no perfil Cromwell, mais de 10% dos picos DE seleccionadas não foram incluídos nos picos DE encontrados no perfil Cromwell. Após as SNRs foram diminuídos para SpecAlign e RSU /PRO, a consistência entre o DE picos a partir destes dois perfis de pico e os do perfil Cromwell diminuiu ligeiramente (Figura 3A e 3B). A coerência entre os 27 e os 24 picos DE detectado no SpecAlign eo MSW /perfis PRO foi relativamente baixo, com um PO

DE

MS (

n

PO

DE

MS) pontuação de 0,54 (0,31). No entanto, após o SNR foi diminuída para SpecAlign, a pontuação aumentou para 0,79 (0,61) como mais picos foram incluídos no perfil SpecAlign alargada e foram detectados como picos DE (Figura 3C).

(A), ( B), (C) para o câncer de próstata e (D) para câncer de mama. A reprodutibilidade foi avaliada entre um algoritmo (

x

-axis etiqueta) com várias SNR e outro (título) com a SNR padrão. Os SNR padrão para SpecAlign, MSW /PRO e Cromwell são 1,5, 3 e 5, respectivamente. Os picos foram DE seleccionado com um controlo de 10% FDR. Os diamantes cheios representam o número de picos DE (direito

y

-axis) detectados utilizando o algoritmo mostrado pelo

x

-axis rótulo. Todos PO

DE (

DE

n

PO) escores significativamente mais altos do que o esperado por acaso (

p Art 7.0e-3)

.

Para o conjunto de dados de câncer de mama, com um controle FDR 10%, apenas 2 picos dE foram selecionados a partir do perfil SpecAlign, e eles foram incluídos nos picos 8 dE selecionados a partir do /perfil MSW PRO com um PO

dE

SM (

n

PO

dE

SM) pontuação de 1 (1). Após o SNR foi diminuída para SpecAlign, resultados semelhantes foram observados (Figura 3D). No entanto, não há picos DE foram selecionados a partir do perfil Cromwell.

Dois fatores principais afetam a consistência DE identificação de pico

A nossa análise revelou dois grandes fatores que podem afetar a consistência DE identificação de pico usando diferentes algoritmos de pré-processamento. O primeiro factor é que alguns picos DE seleccionados a partir de um perfil de pico não pode ser incluído em um outro perfil de pico. Por exemplo, para o conjunto de dados do cancro da próstata, com um controlo FDR 10%, 11 dos 24 picos identificados a partir da DE /perfil RSU PRO não foram incluídos no perfil SpecAlign. Nomeadamente, após a SNR de SpecAlign diminuiu para 1,27, 6 destes 11 De picos foram incluídos no perfil SpecAlign e seleccionado como picos DE, o que levou a um aumento da reprodutibilidade (Figura 3C). Obviamente este factor afecta grandemente a consistência DE identificação de pico. O segundo fator é que o poder estatístico de identificar DE picos em diferentes perfis de pico varia. Assim, alguns picos partilhadas por dois perfis de pico pode ser detectado como um pico em DE perfil, mas não na outra. O poder estatístico pode ser afectada por muitas variáveis, tais como a quantificação de pico, o número de picos para o teste, o tamanho da amostra, a proporção de verdadeiros positivos e o nível de controlo FDR [6], [26], [27], [28 ]. Aqui, nós analisamos principalmente os efeitos do número de testes e tamanho da amostra em energia.

Primeiro, utilizou-se um exemplo para ilustrar o efeito do número de testes. No conjunto de dados do cancro da mama, a um nível de controle de 10% FDR, há picos de DE foram detectados em todo o perfil Cromwell, que consistiu de 287 picos. No entanto, quando se considera um subperfil do perfil Cromwell composto por todos os picos incluídos no /perfil MSW PRO, 6 DE picos foram detectados e eles foram todos incluídos nos picos 8 DE identificados na /profile MSW PRO. Notavelmente, o

t

-test

p

corte -valor para declarar significado com base no procedimento Benjamini-Hochberg FDR [37] era 0,013, mas diminuiu para 0,0003 em todo o perfil Cromwell, o que resultou em potência zero para encontrar dE picos (ou seja, sem picos dE foram encontrados). Da mesma forma, quando se considera um sub-perfil do perfil Cromwell composta de todos os picos do perfil SpecAlign, 2 DE picos foram detectados a nível de controle de 10% FDR, e eles eram idênticos aos picos 2 DE identificadas a partir do perfil SpecAlign.

Para ilustrar o efeito do tamanho da amostra, foram amostrados aleatoriamente subconjuntos em vários níveis tamanho da amostra do conjunto de dados de câncer de próstata de 249 amostras. Em cada nível tamanho da amostra, foram amostrados aleatoriamente 100 subconjuntos com as proporções de amostras normais e cancerosas em cada subconjunto realizada idênticos aos do conjunto de dados em bruto. À medida que o tamanho da amostra aumentou, o número de picos seleccionados DE FDR com um controlo de 10% no perfil do pico produzido por cada algoritmo de pré-processamento aumentada, o que indica que o poder de detectar DE picos aumentou (Figura 4). Consequentemente, a consistência dos picos DE selecionados usando os diferentes algoritmos de pré-processamento aumentou muito.

O padrão SNR foi usado para cada algoritmo de pré-processamento. Em cada amostra, o número médio de picos detectados DE FDR para um controle de 10% foi calculada com base em 100 subconjuntos amostrados aleatoriamente. Os quadrados preenchidos, triângulos e losangos representam o número médio de picos DE (direito

y

-axis) detectada usando SpecAlign, MSW /PRO e Cromwell, respectivamente.

Melhorar a reprodutibilidade por aumentando estatística

poder

Como mostrado acima, para o conjunto de dados de câncer de mama, a completa falta de poder estatístico para identificar dE picos em algumas grandes perfis de pico é um fator importante que afeta a consistência de detecção de pico dE. Como prova de princípio, nós demonstramos que a capacidade de encontrar picos DE no perfil do cancro da mama Cromwell poderia ser melhorado pela abordagem de controle FDR estratificada, o que pode aumentar a consistência entre os picos DE identificados e aqueles selecionados a partir do SpecAlign e MSW /perfis PRO. Usando os k-means clustering algoritmo como descrito no

Métodos

, os 287 picos detectados no perfil de Cromwell foram agrupadas em 2 grupos. Um grupo continha 259 picos com valores baixos de FC, e o outro grupo continha 28 picos com valores elevados de FC. Com um nível FDR estratificada de 10%, um total de 16 DE picos foram detectados, que inclui a maior parte dos picos DE detectados nas SpecAlign e RSU /perfis de PRO utilizando a SNR padrão com um PO

DE

SC (

n

PO

dE

MC) e PO

dE

MC (

n

PO

dE

MC) de 1 (1) e 0,75 (0,74), respectivamente. Com a diminuição do SNR para SpecAlign e RSU /PRO, resultados semelhantes foram geralmente obtidos (Figura 5). No entanto, após a SNR diminuiu para 1 para SpecAlign, o PO

DE

SC (

n

PO

DE

SC) pontuação foi de apenas 0,5 (0,47). Este resultado indica que a abordagem estratificada controle FDR pode aumentar significativamente o poder de detecção, mas ainda há algum espaço para melhorias.

Usando Cromwell no padrão SNR, a abordagem estratificada controle FDR detectados 16 DE picos nos 10% nível. Para SpecAlign e MSW /PRO, a abordagem simples de controle FDR foi usado para selecionar DE picos. Todos PO

DE (

n

DE PO) escores significativamente mais altos do que o esperado por acaso (

p Art 0,013). Para uma descrição detalhada das figuras ver a legenda da Figura 3.

No entanto, com o perfil de cancro da próstata Cromwell, as abordagens estratificados e de controlo simples FDR tinha a mesma potência (isto é, eles detectado a mesma picos DE). Este resultado pode ser porque o poder da abordagem simples controle de FDR para identificar DE picos já estava alto.

A comparação com biomarcadores relatados no estudo

câncer de mama inicial

Um total de 5 picos DE eram relatados no estudo original do conjunto de dados do cancro da mama [32]. Resumidamente, o procedimento de pré-processamento utilizado no trabalho original incluía o filtro Savitzky-Golay, subtração da linha de base, a normalização à mesma corrente de íons total e extração de picos com SNR não menos do que 3.0, e os picos DE foram selecionados com um

t

-statistic pontuação 3,5. Nós avaliamos se estes 5 picos DE poderia ser reproduzidos usando os três algoritmos de pré-processamento com seus SNR padrão. Quando foi utilizado o algoritmo SpecAlign, apenas 2 destas cinco DE picos foram detectados como picos e, em seguida, detectados como DE picos no controlo FDR 10%. Usando o /algoritmo MSW PRO, todos os 5 picos DE foram identificadas como picos e depois detectados como De picos. Usando o algoritmo de Cromwell, todos os 5 picos DE foram detectados como os picos, mas nenhum foi selecionado como um pico DE ao nível FDR de 10% pela abordagem simples controle de FDR. No entanto, todos os 5 picos DE foram incluídos nos 16 DE picos selecionados usando o algoritmo de Cromwell ao nível FDR de 10% quando se utiliza o controle FDR estratificada.

Discussão

A reprodutibilidade é de fundamental importância para a validação das descobertas biológicas a partir de dados de alto rendimento. Em estudos MS, algoritmos de pré-processamento pode afetar grandemente a descoberta de biomarcadores. Utilizando os dados biológicos para o cancro, o nosso estudo mostrou que o número de picos identificados em um conjunto de dados varia de acordo com o método de pré-processamento. É também revelado que a consistência da DE identificação do pico é afectado por dois factores importantes, na ausência de algum DE picos no outro perfil de pico e o poder estatístico reduzida de DE identificação pico em perfis com um grande número de picos, mas um pequeno número de amostras . Os nossos resultados indicam que a De picos seleccionados a partir de perfis de pico pequenas tendem a ser reprodutivelmente detectados em perfis de grandes dimensões quando a energia suficiente para a identificação de picos De em perfis de grandes dimensões é conseguido através de abordagens estatísticas potentes, tais como a abordagem estratificada controlo FDR. As análises neste estudo poderia ser alargado a outras tecnologias proteômicas baseadas em MS. Por exemplo, para espectrometria de massa em tandem (MS /MS), o uso de diferentes algoritmos de pré-processamento para a detecção de pico e diferentes motores de busca para as proteínas correspondentes poderia produzir proteína perfis variados [43]. Assim, os dois fatores revelados neste estudo também poderia afetar a consistência de detecção de biomarcadores em estudos MS /MS.

Com base em um estudo de simulação, Cruz-Marcelo

et al

. [17] sugeriu que a combinação de MassSpecWavelet e processo oferece alta sensibilidade com um FDR baixas para detecção de pico. No entanto, com base na nossa análise da reprodutibilidade do pico e detecção de pico DE baseada em dois conjuntos de dados reais, o /algoritmo PRO MSW (ou seja, a combinação de MassSpecWavelet e processo) tendiam a detectar menos picos de Cromwell, o que indica que ele pode ser menos sensível para a detecção de pico e pode perder algumas dE picos detectável usando Cromwell.

Deixe uma resposta