PLOS ONE: Contabilização de dependência induzida por ponderada KNN Imputação em amostras pareadas, motivada por um estudo de câncer colorretal

Sumário

Os dados em falta podem surgir em aplicações de bioinformática para uma variedade de razões, e métodos de imputação são frequentemente aplicadas a esses dados. Somos motivados por um estudo de câncer colorretal em que a expressão miRNA foi medida em amostras de tumor do normal pareadas de centenas de pacientes, mas os dados para muitas amostras normais foram perdidos devido à falta de disponibilidade de tecidos. Nós comparamos o desempenho de precisão e poder de vários métodos de imputação, e chamar a atenção para a dependência estatística induzida por K vizinhos mais próximos (KNN) imputação. Esta dependência induzida por imputação anteriormente não foi abordado na literatura. Nós demonstramos como contabilizar esta dependência, e mostrar através de simulação como a opção de ignorar ou conta para esta dependência afeta tanto poder e erro tipo I de controle de taxa

Citation:. Suyundikov A, Stevens JR, Corcoran C, Herrick J, Wolff RK, Slattery ML (2015) Contabilização de dependência induzida por ponderada Imputação KNN em amostras pareadas, motivada por um estudo de câncer colorretal. PLoS ONE 10 (4): e0119876. doi: 10.1371 /journal.pone.0119876

Editor do Academic: Chuhsing Kate Hsiao, Universidade Nacional de Taiwan, TAIWAN

Recebido: 19 de novembro de 2014; Aceito: 03 de fevereiro de 2015; Publicação: 07 de abril de 2015

Direitos de autor: © 2015 Suyundikov et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: O código R para gerar os dados simulados são fornecidos (em arquivo a.zip) como arquivo S1, suplemento Simulação

Financiamento:. Esta pesquisa foi apoiada por uma concessão do National Institutes of Health, award número 1R01CA163683-01A1; MLS investigador principal, com subaward para JRS

Conflito de interesses:.. Os autores declararam que não existem interesses conflitantes

Introdução

Os microRNAs (miRNAs) são pequenas não-codificante moléculas de RNA que regulam a expressão do gene, visando RNAs mensageiros. Eles foram descobertos pela primeira vez em 1993, durante um estudo sobre o desenvolvimento no nematóide Caenorhabditis elegans (C. elegans) sobre o gene da proteína lin-14 [1]. Lee et al. (1993) verificaram que a abundância de proteínas lin-14 foi regulada por um pequeno RNA codificada pelo locus de lin-4. Este foi transcrito numa molécula de ARN de 22 nucleótidos que possa reprimir a expressão do lin-14 ARN mensageiro (ARNm), interagindo directamente com sua extremidade 3 ‘não traduzida (UTR).

A comunidade científica está altamente interessados ​​nos papéis funcionais dos miRNAs. A biogénese de miARN que funciona adequadamente os resultados das taxas de normais de crescimento celular, proliferação, diferenciação e morte celular. Mas a redução ou eliminação de miARNs que é causada por defeitos em qualquer fase da miARN biogénese conduz a expressão inapropriada das oncoproteínas miARN alvo que causa aumento da proliferação, capacidade de invasão ou angiogénese, ou diminuição dos níveis de apoptose [2, 3].

O banco de dados miRBase, um banco de dados pesquisável de sequências de miRNA publicados e anotações, tinha listado 2.588 únicas miRNAs humanos maduros para 2014 de julho (a partir https://www.mirbase.org). Desde miARN pode regular mais de um alvo, que pode regular-se a mais de 30% de todos os genes codificadores de proteínas no genoma humano (de https://www.mirnarx.com). Isso faz com que miRNAs uma das maiores reguladores da expressão gênica.

A associação entre miRNAs e câncer colorretal (CRC) foi relatada pela primeira vez em 2003, quando o miR-143 e miR-145 genes foram reprimidos em CRC tecidos tumorais em comparação com tecidos normais [4]. Desde então, vários estudos têm mostrado que miRNAs são amplamente desregulamentado no CRC [5-7].

Os dados de miRNA como a maioria dos outros dados de expressão pode ser considerada sob a forma de grandes matrizes de níveis de recursos de expressão (linhas ) em indivíduos diferentes (colunas). Os conjuntos de dados pode ter algumas características ausentes em algumas amostras, ou todas as características ausentes em algumas amostras. O primeiro caso ocorre frequentemente devido a uma resolução insuficiente, corrupção de imagem, poeira ou arranhões no slide, e outras várias razões experimentais e técnicas, enquanto que o último caso pode acontecer devido à falta de tecido recolhidas ou fundos limitados. Como um exemplo do último caso, apresentamos o estudo de caso da pesquisa para determinar a associação de miRNAs com CRC em amostras de tumores normais emparelhados. Como parte de uma análise preliminar usando os primeiros assuntos disponíveis, queríamos para comparar perfis de expressão de miRNA de amostras normais e tumorais de cada um dos mais de 400 indivíduos com 2.006 miRNA em cada amostra. Também coletamos muitas informações sobre variáveis ​​demográficas e de estilo de vida desses pacientes CRC. Não há muitos estudos CRC que tenha coletado esses dados extensos para essas variáveis. No entanto, em última análise, usando todas as disciplinas disponíveis, 10% a 50% dos indivíduos terão faltando amostras normais devido à falta de disponibilidade de tecidos.

O objetivo imediato neste estudo de caso CRC é entender as alternativas para a imputação, juntamente com os seus pontos fortes e fracos comparativos. Especificamente, queremos saber para um determinado método de imputação se a sua aplicação à falta de dados de miRNA entre amostras normais irá produzir previsões precisas de seus níveis de expressão reais, e como tais previsões são ainda mais afetadas pela percentagem de indivíduos com valores em falta. Desejamos ainda mais para entender como esses resultados afetam poder estatístico para detectar diferencialmente expressos miRNA, enquanto o controle de erro de tipo I.

Com a proliferação de estudos de expressão gênica durante a última década, mais atenção tem sido dada aos métodos de imputação de dados de miRNA. As abordagens convencionais muitas vezes envolvem simplesmente excluindo miRNAs com valores em falta, substituindo os valores em falta com zeros, ou imputar usando linhas ou colunas médias. Tais opções de ignorar a estrutura de correlação dos dados e têm poder limitado [8]. Além disso, eles não aproveitar as variáveis ​​demográficas ou de estilo de vida potencialmente informativos. opções mais sofisticadas usar imputação múltipla baseado em Markov Chain Monte Carlo (MCMC) e maximização Expectativa algoritmos (EM), que permitem a incorporação de co-variáveis ​​adicionais [9-11]

Neste artigo, apresentamos e avaliar um método de imputação que representa a dependência induzida por ponderada Neighbor K-Nearest (KNN) e considera as co-variáveis, ao longo dos vários técnicas de imputação usando MCMC e eM com algoritmos de bootstrapping, bem como a técnica de supressão de caso utilizando características deste grande dados CRC set Online

Este documento é organizado da seguinte maneira:. em primeiro lugar, nós fornecemos uma visão geral dos pressupostos e métodos de imputação, bem como o método RMSE para avaliar o desempenho de várias técnicas de imputação. Em seguida, demonstrar a aplicação de técnicas de imputação utilizando conjuntos de dados de simulação. Finalmente, concluímos com uma discussão sobre as questões importantes apresentadas no documento, tais como o desempenho do método de imputação KNN considerando a dependência sobre as várias técnicas de imputação.

Métodos

Antes de executar uma imputação de dados em falta, é necessário saber se ocorre a falta de dados de forma aleatória, como resultado de fatores não observados, ou se destina. Precisamos levar em consideração duas hipóteses: falta de forma aleatória (MAR) e perdendo completamente ao acaso (MCAR) [12]. Os dados em falta são MAR quando os valores em falta não são distribuídas aleatoriamente em todas as observações, mas são distribuídos aleatoriamente dentro de uma ou mais sub-amostras de dados. Uma variável (miRNA ou

x

) pode ser considerado MAR, se a probabilidade de observar

x

(condicional em variáveis ​​observadas) não depende de

x

. A suposição MCAR é um caso especial do MAR, quando os valores de dados perdidos são uma amostra aleatória simples de todos os valores de dados. Pode-se definir os dados que faltam em não perder de forma aleatória (MNAR) se nem MCAR nem suposições MAR segurar. Neste caso, os dados em falta não pode ser imputada com base nos dados disponíveis. Assim, técnicas de imputação só pode ser aplicada aos dados que satisfazem MAR ou MCAR pressupostos. As características dos dados CRC miRNA satisfazer pressupostos MAR porque a probabilidade de indivíduos com falta amostras normais não dependem dos valores de expressão de miRNA nesses assuntos.

Nós consideramos os seguintes métodos para estimar os níveis de expressão de miRNA para faltar amostras normais de pacientes:

imputação múltipla

imputação múltipla (MI) foi originalmente concebido para lidar com omissão em de uso público grandes conjuntos de dados [12]. A aplicação do processo de MI foi estendido para vários conjuntos de dados grandes, incluindo microarrays [13]. O método substitui cada valor em falta com vários valores de substituição, dizem

m

, que representam a distribuição de probabilidade do valor em falta. Um conjunto de dados completo é criado por cada conjunto de empates. Assim, o

m

imputações para cada valor em falta criar

m

conjuntos de dados completos. Eles são armazenados em uma matriz auxiliar, conjuntos de dados multiplicam-imputados com uma linha para valor e

m

colunas em falta. A primeira linha desta matriz corresponde ao primeiro conjunto de valores imputados dos valores em falta, e assim por diante. Como as análises de dados completa são aplicadas a cada conjunto de dados multiplicam-imputada (tratamento de valores imputados como plenamente observados e independente),

m

diferentes conjuntos de as estimativas dos parâmetros e suas matrizes de variância-covariância são gerados. Para combinar as inferências a partir deles, [12] sugere que se tenha uma média de todos os resultados, excepto o termo de erro padrão (SE). A SE é construído pela variância dentro de cada conjunto de dados, bem como a variação entre os itens imputadas em cada conjunto de dados. Estas duas variações são somados e a raiz quadrada deles determina a SE. O autor recomenda usar não mais que 5 imputações e número, por vezes, tão pequena quanto 2 ou 3 para gerar inferências estatísticas úteis. Nós usamos

m

= 5 para técnicas de MI em nossa análise. É importante notar que o de dados completo analisa MI tratar os dados imputados, como se tivessem sido plenamente respeitados. Esta abordagem não leva em consideração qualquer dependência dos dados imputados sobre os dados reais plenamente observados.

MI usando cadeia de Markov Monte Carlo (MCMC)

Vários conjuntos de dados imputados podem ser gerados pelo método MCMC , o qual é aplicado a um padrão de dados em falta arbitrária que assume normalidade multivariada. MCMC tem sido usada para explorar distribuições de probabilidade posterior para expressar parâmetros desconhecidos em inferência Bayesiana. Usando este método, toda a distribuição a posteriori conjunta das quantidades desconhecidas é simulada e as estimativas dos parâmetros com base na simulação são gerados [14].

Este processo pode ser descrito em duas etapas. O primeiro passo é a imputação I-passo que atrai aleatoriamente valores para valores em falta a partir da distribuição assumida de valores indicados valores observados em falta utilizando o vetor média estimada e matriz de variância-covariância, ou seja, ele desenha os valores para

Y

m

i

s

(

t

+

1

Deixe uma resposta