PLOS ONE: Chamada Amostra Mix-Ups em Câncer População Studies

Abstract

erros de rastreamento da amostra ter sido e sempre será uma parte da aplicação prática das grandes experiências. Recentemente, tem sido proposto que a expressão de Quantitative Trait Loci (eQTLs) e seus efeitos associados poderia ser utilizado para identificar amostras confusões e esta abordagem tem sido aplicada a um grande número de estudos de população genómica para ilustrar a prevalência do problema. Nós havia adotado uma abordagem semelhante, denominado ‘BADGER’, no projeto METABRIC. METABRIC é um estudo em grande cancro da mama que pode ter sido o primeiro em que a detecção de incompatibilidades eQTL baseada foi usado durante o estudo, ao invés de após o evento, para auxiliar a garantia de qualidade. Relatamos aqui nas questões especiais associadas a estudos de câncer grandes realizadas utilizando amostras históricas, que complicam a interpretação de tais abordagens. Em particular, identificar as complicações da utilização de amostras de tumores, de considerar celularidade e qualidade RNA, dos subgrupos distintos existentes na população do estudo (incluindo estruturas familiares) e de escolher eQTLs para usar. Nós também apresentamos alguns resultados sobre o projeto de experimentos dadas reflexão sobre estas questões. A abordagem baseada em eQTL para identificar erros de rastreamento amostra é visto como sendo de valor para esses estudos, mas que requer cuidado na sua execução

Citation:. Lynch AG, Chin SF, Dunning MJ, Caldas C, tavare S, Curtis C (2012) Chamando Amostra Mix-Ups em estudos populacionais câncer. PLoS ONE 7 (8): e41815. doi: 10.1371 /journal.pone.0041815

editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos da América

Recebido: 23 Março, 2012; Aceito: 29 de junho de 2012; Publicação: 09 de agosto de 2012

Direitos de autor: © Lynch et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Esta pesquisa foi apoiado pela Universidade de Cambridge, Cancer Research UK concessão C14303 /A10825, www.cancerresearchuk.org e Hutchison Whampoa Limited. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

é um truísmo dizer que, qualquer que seja o cuidado, se um estudo torna-se grandes ou complexos o suficiente, então ocorrerão erros no rastreamento da amostra. Este problema tem tido um elevado perfil de tarde na sequência de um erro em um serviço de testes genéticos personalizados (https://spittoon.23andme.com/2010/06/08/update-from-23andme/), problemas descobertos pela recente ‘forense’ investigações de estudos genômicos escala [1], e a recente realce de erros em vários estudos de alto nível [2]. Além desses grandes problemas, ao longo dos anos de estudos de alto rendimento, tais erros foram nomeados como a causa provável dos resultados discrepantes [3], [4]. Naturalmente, há algum tempo, tem havido apelos para cuidar de limitar esses erros [5], e uma série de estratégias para reduzir ou detectar erros são usados ​​regularmente.

É comum o uso de amostras de controlo replicadas em pontos conhecidos em uma placa [6], que deve pegar todos os grandes erros (embora se estes são nas mesmas posições em cada prato, então eles não vão destacar a placa errada que está sendo usado). Para além desta limitação, à custa de uma abordagem deste tipo pode torná-lo pouco atraente. Muitas plataformas de expressão oferecem a oportunidade de misturar controles externos com a amostra a ser hibridizado, e iniciativas como o RNA externo controlar Consortium (ERCC) [7] só pode ser vantajosa a este respeito. Na verdade, o uso de tais controlos foi recentemente demonstrado para Affymetrix GeneChips [8]. Quando as matrizes de genotipagem estão a ser utilizados (possivelmente com o objectivo de deduzir DNA copy-number), em seguida, temos uma métrica fundamental para a identificação de amostras que serão de uso se múltiplas amostras são hibridizados a partir do mesmo indivíduo, [9], ou se tivermos prévia conhecimento dos genótipos [10]

fenótipos conhecidos com uma sola (ou forte) componente genético também pode ser usado para verificar a validade da amostra (ou melhor, para tentar detectar erros chapeamento -. como eles são susceptíveis de ter energia suficiente para confirmar que uma amostra é o que ela afirma ser). Sexo é o fenótipo óbvio a este respeito. Com um layout amostra cuidado, como é discutido mais tarde, os erros em uma escala de placa seria detectado por um sex-cheque, mas interruptores individuais de qualquer par não pode. É evidente que para alguns estudos, v.g. no câncer de próstata, isso não vai ser uma opção. Outras características, tais como o grupo sanguíneo pode ser comparada com os genótipos adequados, mas de um traço com um locus de condução estreita há muito grande a possibilidade de que haverá uma miscalling da classe genótipo simplesmente para excluir as amostras com base na presente métrica. Consequentemente, são necessárias muitas dessas características.

Expression Quantitative Trait Loci (eQTLs) que regulam a abundância transcrição de mRNAs particulares podem ser identificados sistematicamente usando tecnologias de alta capacidade [11] e pode fornecer esse grande número de traços, com cerca de 5% dos genes que mostram comportamento orientado cis-eQTL [12]. Muitos estudos visam inferir eQTLs dado um conjunto de genotipos, um conjunto de medições de expressão e um mapeamento entre os dois. Segue-se então que, dadas as genótipos, as medições de expressão e um conjunto de eQTLs um deve ser capaz de dizer algo sobre o mapeamento. Em suma, dado um conjunto de matrizes de expressão e eQTLs, pode-se fazer previsões quanto aos genótipos que se poderia esperar para dirigir a expressão e, em seguida, procurar identificar uma matriz genótipo que mediu valores semelhantes.

A capacidade para prever SNPs a partir de dados de expressão foi recentemente considerada a partir de um contexto de segurança de dados [13], mas é uma abordagem que usamos para garantir prospectivamente a integridade dos dados na taxonomia molecular da mama Consórcio Internacional Cancer estudo (METABRIC) [14], e ter aplicado a outros estudos de câncer. A abordagem que denominou Badger ( “Bead matriz de diagnóstico para Genótipo e Relações Expressão”) e é descrito na secção de Métodos. Exemplos de duas situações (um simples, mais complexo), onde a confusão sobre a identidade da amostra surgiu em estudos de grande escala, e foram resolvidos por Badger, são apresentados nas Figuras 1 e 2.

Um BeadChip expressão (12 matrizes), e duas placas de amostras para determinação do genótipo são ilustrados. Em particular, no painel à esquerda, os locais pretendidos de duas amostras são destacadas (em azul e vermelho) para as duas tecnologias. O TEXUGO classifica para a associação entre essas duas matrizes de expressão e matrizes de genótipos são elevados e indicam que existe uma mis-mapping. No lado direito da resolução para este exemplo é mostrado. Não só com um interruptor simples que podemos combinar as matrizes de expressão para as matrizes genótipo (agora com BADGER fileiras de 1), mas uma vez que as duas matrizes de genotipagem são de diferentes pratos, enquanto as duas matrizes de expressão são vizinhos, podemos deduzir que o erro teve lugar no chip expressão.

Uma série de pacientes (referidos por carta) de quem são tomadas amostras (linha do meio, amostras representados como quadrados) são vistos em algum ponto. Algum tempo depois, seis desses pacientes (E, F, G, I, J, L) satisfaz os critérios de inclusão no estudo retrospectivo e destina-se a executar as amostras de pacientes em matrizes de expressão (círculos, superior esquerdo ) e matrizes de genótipos (círculos, top-direita). Uma vez que os pacientes (e, portanto, amostras) formou uma sequência, que incluem os detentores de espaço na representação das matrizes para as amostras que não eram adequados para o estudo em questão (indicado por círculos tracejadas para as matrizes e sombreamento cinza para as amostras) . O TEXUGO classifica para as matrizes de expressão e genotípicas que deveriam ser associados a estes seis amostras variam de 949 a 2473 sugerindo que nem um dos seis está correctamente mapeada. A resolução é difícil encontrar a menos que se sabe sobre a sequência da amostra original, incluindo as amostras que não fazem parte do estudo retrospectivo. Quando resolvidas (linha inferior), vemos que as amostras de ir para as matrizes genótipo ter ‘deslizado’ por uma posição com o resultado de que as amostras G e J foram executados em expressão, mas não a genotipagem de matrizes, enquanto as amostras H e K (que eram não significava ter sido executado em tudo) foram executados no genótipo, mas não matrizes de expressão. Para as quatro matrizes que foram executados em ambas as tecnologias, podemos ver que as fileiras TEXUGO estão agora perfeito. Vale a pena notar que as matrizes de expressão em que as amostras G e J foram executados têm um alto ‘pontuação mínima BADGER “, que é um sinal de que a amostra não apresentam em qualquer conjunto de genotipagem no estudo.

a nossa abordagem é conceptualmente semelhante à abordagem MixupMapper recentemente publicada para este problema [2], mas difere em execução, devido à natureza dos dados a que se aplicam-lo. Difere também na escolha do ambiente de execução, com BADGER ser desenvolvido em R [15] e MixupMapper em Java. Em particular, Westra e abordagem dos colegas olha para encontrar a melhor correspondência expressão para uma matriz genótipo, enquanto o nosso tem sido a de procurar, em primeiro lugar, para o melhor jogo genótipo para uma matriz expressão. Em geral, é mais fácil identificar matrizes de genótipos duplicados do que duplicam matrizes de expressão e, portanto, podemos garantir, se quisermos, que está mapeando para um conjunto de painéis únicos.

Ambas as abordagens dependem de definição de uma distância entre uma expressão matriz e uma matriz de genotipagem. A nossa medida (a “pontuação BADGER ‘) é a soma (através eQTLs) da diferença entre o quadrado do número de alelos’ B ‘chamados a partir da matriz genótipo e o número previsto a partir da matriz de expressão. MixupMapper, por outro lado, usa uma soma normalizada dos z-scores para a diferença entre os valores de expressão previsto e observado. Como um pequeno detalhe adicional, MixupMapper considera a magnitude da sua pontuação, enquanto BADGER olha para a classificação. Naturalmente, uma pontuação baixa é indicativa de uma partida. A grande maioria das matrizes (de preferência todos, exceto um) não será um jogo, então a pontuação de uma matriz que faz match deve ser periféricas e dar uma classificação de um.

Como o conceito de identificação de erros chapeamento usando eQTLs foi demonstrado, que não irá incidir sobre justificando ou demonstrando a abordagem mais uma vez (embora alguns desses resultados são apresentados). Em vez disso, devemos destacar os desafios da aplicação de uma abordagem com um estudo da genómica do cancro população, e observe onde as distinções de nossa tomada sobre a abordagem se prestam a tais dados.

Resultados

Enquanto nosso propósito primordial não é para demonstrar mais uma vez que uma abordagem baseada-eQTL a chamar e identificação de amostras incompatíveis pode trabalhar, notamos que nossos resultados aqui apoiaria a mensagem de Westra e colegas [2]. Nós em vez procuram destacar alguns dos fatores que podem levar a erros de interpretação dos resultados de uma abordagem baseada em eQTL para identificar incompatibilidades quando aplicado em grandes estudos tumorais. Especificamente, vamos considerar os efeitos da perda de heterozigosidade (LOH) e saída de status de diplóide que esperamos ver em amostras de tumor, o impacto da celularidade, e as consequências de ter uma mistura de etnias em um estudo. Além disso, vamos relatar como desenho do estudo afeta nossa capacidade de usar essa abordagem.

Chamando Mis-mapeamentos com amostras de tumor

Westra e colegas [2], note que é possível ” identificar genótipos que claramente não correspondem qualquer matrizes de expressão de genes “. Com prospectivamente obtidas de colecções de tecido normal isto parece ser o caso, mas com estudos retrospectivos de tecido tumoral, um certo número de problemas adicionais vieram à luz. Mais óbvio é o fato de que esses métodos esperar para ver chamadas de genótipos diplóides, e as amostras de tumor pode ser qualquer coisa, mas diplóide (embora muitos algoritmos ainda vai gerar chamadas de genótipos diplóides destas amostras). Depois, há o problema da contaminação do estroma das amostras tumorais. Isto pode, na amostra a partir da qual foi extraído ADN, estar a um nível diferente do que na amostra a partir do qual o ARN foi extraído. Finalmente, pode haver uma mutação dentro do tumor que interrompe a biologia de condução das eQTLs em que se baseiam os nossos testes.

Para as 127 amostras para as quais todas as quatro matrizes (SNP /expressão para tumor e tecido normal) são disponível, as qualidades dos jogos de tecidos normais e de tumor são mostradas na Figura 3. de um modo geral, para ambas as matrizes expressão normal e de tumor, a matriz genótipo “normal” provou ser uma combinação melhor do que a matriz genótipo ‘tumor’.

Para 127 quartetos de matrizes genótipo-e-expressão correspondente tumor-and-normais que ilustram a qualidade relativa das partidas entre as quatro combinações de expressão-genótipo diferentes. Os pares de matriz 127 de genótipos estão todos claramente bem combinado (não mostrado). A nossa abordagem é identificar a qualidade de jogo de uma matriz de genótipo para uma matriz expressão, e todos os resultados apresentados são reflexo desta direção de comparação. Para os conjuntos de tumor e matrizes expressão normal, indicada nas setas são o número de matrizes de expressão para o qual as duas matrizes de genotipagem são igualmente bons resultados (que tenham as mesmas chamadas de genótipos), o número para o qual a matriz de genotipagem do tumor para que a amostra possui uma melhor pontuação do que a matriz de genotipagem normal, e vice-versa. Além disso, nos painéis de canto, o TEXUGO classifica para as partidas entre todo o conjunto de dados a que temos acesso são apresentados.

A preocupação, então, é que, em circunstâncias em que não processados ​​normal genótipo, o genótipo do tumor, por vezes, não seria um jogo bom o suficiente para nos permitir atribuir o jogo corretamente. Curiosamente, este parece ocorrer. Uma possível explicação é que a natureza não-diplóide (ou diplóide, mas sofrendo de LOH) do genótipo tumor interfere com a convocação de SNPs diplóides. Se a maioria dos relacionamentos /expressão SNP observados não estão diretamente ligados causalmente, então isso poderia explicar os relativamente pobres qualidades jogo de matrizes SNP tumor, em comparação com SNPs tecido normal.

celularidade e RNA Qualidade

uma vez que a matriz de genótipo normal é mostrado para ser uma combinação melhor do que a matriz genótipo do tumor, mesmo que as nossas eQTLs foram definidos principalmente a partir de amostras de tumores, parece razoável supor que a celularidade (a contaminação de tecido tumoral com tecido do estroma) terá pouco efeito sobre o desempenho de abordagens tais como Badger. contaminação normal irá aumentar as chances de chamar SNPs heterozigotos, mesmo quando o tumor tem sofrido LOH ou específicas de alelo de DNA número de cópias mudanças.

Embora a genotipagem interrompido chama devido às aberrações número de cópias em tumores podem impedir abordagens como texugo, estes continuam a ser uma descrição exata do tumor e temos de nos esforçar para identificar a amostra e combiná-lo com uma variedade de expressão. Como foi observado anteriormente, uma matriz de expressão de má qualidade também pode perturbar o processo de [2], mas a qualidade de uma matriz é calculável e pode ser compensada por, ou a matriz pode ser simplesmente descartados (pelo menos ao definir as relações eQTL) .

Figura 4 mostra a associação entre duas medidas de qualidade array (ver Métodos) e a pontuação mínima BADGER associado com uma matriz (um indicador de se uma matriz SNP correspondentes poderia ser encontrado). Ambas as estatísticas são bons indicadores do desempenho de uma matriz, com a estatística de fazer melhor do que P95. É evidente que pelo menos uma das matrizes programado para ser realmente vazio tinha uma amostra hibridada a ela, e que tinha um número de amostras que lhes foram atribuídos não conseguiram hibridar. Note-se que, quando não houver nenhum sinal de uma matriz, a diferença de classificação não é zero como seria de esperar, mas sim que é substancialmente negativa.

A fim de ilustrar uma vasta gama de qualidades de matriz, esta figura inclui alguns matrizes de má qualidade que (por isso mesmo) foram excluídos da METABRIC. Painel esquerdo: Ilustrando a associação entre o percentil 95 de acessos intensidades observadas (P95) e a pontuação mínima BADGER associado com a matriz. Painel direito: a associação entre a pontuação mínima e Badger. Também indicou, em ambos os casos, são as matrizes onde nenhuma amostra foi programado para ser hibridizado.

etnias

Usando principais cargas de componentes publicados para a ferramenta de mariscos (www.stats.ox .ac.uk /~ Davison /software /marisco /shellfish.php), pode-se projetar dados Affymetrix SNP em um triângulo onde os três cantos representam as populações HapMap a partir do qual as cargas foram derivadas. Por conveniência, vamos chamar os grupos de amostras que formam nestes cantos do ‘grupo da Europa “, o” Grupo da África’, eo ‘grupo da Ásia “. Também observamos indivíduos que encontram-se entre os grupos África e Europa (quem iremos combinam no ‘grupo África /Europa “) e entre os grupos de Europa e Ásia (quem iremos combinam no’ grupo Europa /Ásia ‘).

Nós traçar a pontuação média Badger (NB pontuação não classificar) associado a cada matriz genótipo contra o grupo no painel do lado esquerdo da Figura 5. Vemos que a pontuação média é menor no grupo Europa. Isto é de se esperar, enquanto o grupo Europa contribui a grande maioria das matrizes de expressão na nossa colecção e um não ficaria surpreendido que estes podem prever genótipos que são mais semelhantes aos obtidos a partir de outras amostras no grupo Europa. Além disso, sendo em sua maioria, os pacientes do grupo Europa conduzir as associações eQTL semelhantes usados ​​por texugo e estas associações podem ser diferentes entre os grupos.

Cada matriz de genotipagem é comparado a cada array expressão, e uma pontuação atribuída a o jogo (quanto menor a pontuação, melhor a partida). No painel do lado esquerdo, a pontuação média por matriz genótipo é comparada com a etnia do paciente como inferido a partir da matriz de genotipagem. No painel do lado direito a pontuação mínima associada a uma variedade de genotipagem (um indicador melhor de se existe uma correspondência) é representada por etnia.

Mais importante do que a pontuação média é a pontuação mínima que, por qualquer matriz genotipagem com uma matriz expressão correspondente no conjunto de dados, poderíamos esperar para ser comparável independentemente da etnia. No painel do lado direito da Figura 5, vemos que este não é o caso, e que, enquanto a maioria dos grupos são de fato comparáveis, o grupo África exibe pontuações mínimas que são mais elevados. Nós não temos nenhuma

a priori

razão para acreditar que este grupo irá estar sobre-representados no número de matrizes de genotipagem para os quais não existe matriz expressão correspondente. Para uma proporção relativamente elevada de este grupo não podemos ter a certeza da correspondência entre o genótipo e de expressão, mas isso é mais provável que seja uma consequência das pontuações mais altas observadas no grupo da África do que uma causa do mesmo.

não podemos afirmar, para qualquer par eQTL que usamos, que o genótipo que observamos é realmente dirigindo a expressão (ver secção seguinte). Na melhor das hipóteses é provável que seja um SNP codificação para a variante de causalidade (se existir), e o desempenho do SNP marcação irão variar entre grupos étnicos. Observou-se que apenas 50% de eQTLs são vistas em mais de uma população, e uma muito pequena minoria em várias [16], [17]. Assim, não deve surpreender-nos ver o comportamento tal como o mostrado na Figura 6, onde a associação entre o genótipo e de expressão que é tão clara nos grupos de Europa e Ásia não é evidente no grupo de África. Uma vez que este grupo está em minoria, os genótipos previstos gerados para estes indivíduos de uma associação definida pelos grupos de Europa e Ásia será pobre no melhor.

Descrito são os valores log-intensidade para a sonda Illumina ILMN_1710752 em o gene NAPRT1 conspiraram contra as chamadas de genótipos para o SNP rs10112966 da Affymetrix SNP_A-4.292.499 sonda (todos na região do genoma humano 8q24.3). Naturalmente apenas os dados destas matrizes genotipagem e de expressão que podem ser combinados são mostrados. A associação é mostrado por três grupos. A associação entre este SNP e do gene foi observado anteriormente [26], assim como as freqüências alélicas diferentes entre os grupos.

Parentes Próximos e validação

Para ilustrar outros aspectos que consideramos um conjunto de dados adicional: os dados de genótipos e expressão associada com o HapMap (Fase I) amostras [18], como originalmente estudada por Estranho

et al

. [16], e usado como um dos conjuntos de dados ilustrativos do papel MixupMapper [2]. Embora não seja um estudo de câncer, isto permite-nos primeiro a confirmar que BADGER pode identificar os problemas que MixupMapper identificados, segundo ela nos permite examinar um conjunto de dados com estruturas familiares conhecidos, e em terceiro lugar ele fornece um estudo ilustrativo com maior equilíbrio da etnia, da balança de sexo, e supostamente melhor qualidade dos dados uma vez que este foi um estudo prospectivo. Finalmente, ele fornece um conjunto de dados mais úteis definidos para investir o ‘poder’ destas técnicas. Veja Sweave S1 para maiores detalhes.

MixupMapper identificou apenas um mix-up neste conjunto de dados, descobrindo que a melhor correspondência de expressão para os dados de genótipos supostamente de NA18515 amostra foi de que, supostamente, a partir NA18517 amostra.

na população CEU, há um problema com uma das matrizes de expressão associadas com “NA10856” (marcada GSM232786_NA10856_2_2). No entanto, é evidente que as outras três matrizes de expressão são boas partidas, e com algumas investigações, é aparente que os valores para esta matriz são idênticas a uma das matrizes Yoruban (marcado GSM232802_NA18503_1_1), mas que os valores diferem em GEO, fazendo -lo claro onde o problema surgiu. Podemos especular que desde MixupMapper teria encontrado um bom jogo para a matriz genótipo NA10856, que não teria sinalizado isso como sendo problemática.

Com texugo, encontramos também que as quatro amostras de expressão associada a NA18515 tudo oferecer a matriz genótipo mapeado para NA18853 como o melhor jogo. É verdade que as matrizes de expressão associados com NA18517 são os melhores resultados para a matriz SNP mapeado para NA18515, no entanto isso é porque NA18517 é um pai de NA18515. As matrizes de expressão associados com NA18516 (o outro progenitor) são a próxima melhor jogo. Na ausência de uma matriz expressão para a criança, que seria de esperar a melhor correspondência para ser um dos pais. Na verdade, podemos facilmente ver a partir dos genótipos da mãe de pai trio //criança que o erro (se houver um erro) deve estar na matriz expressão.

A matriz genótipo que oferece a melhor correspondência para todas as matrizes de expressão associado NA18515-se que associado com NA18853. O jogo é marginalmente pior do que isso para a matriz expressão associada com NA18853, mas visivelmente melhor do que aquele associado com NA18854 (o filho de NA18853). Comparação do perfil de expressão plena sugere que as matrizes de expressão NA18515 não são repetições simplesmente acidentais de NA18853. Assim, o mix-up é difícil de resolver a tal distância, e nós recomendamos a remoção das matrizes de expressão associados com NA18515 de análises, mas deixaria as matrizes genótipo como elas são. Note que estamos usando a matriz de expressão dada por Westra

et al

. isso pode não fazer nenhuma reivindicação a respeito do estudo original [16].

Enquanto o jogo a um parente próximo tende a não ser tão boa quanto a que a amostra correta, nós vemos a sobreposição suficiente em valores que se um de as amostras foram faltando então estaríamos em perigo de engano associar os dois como sendo do mesmo indivíduo. Este seria presumivelmente mais de um perigo se a matriz genótipo foram faltando como a existência de parentes será mais difícil de deduzir a partir dos dados de expressão.

Tomar os chineses Han e indivíduos japoneses, já que estes não contêm complicando família grupos, podemos simular interruptores de amostra e confirmam a utilidade de Badger. Descobrimos que metade das amostras têm de ser transferido para exigir mais do que uma iteração produtiva (a iteração final é sempre para confirmar que não há mais opções para fazer), e dois terços tem de estar ligado para lá para começar a ser resolvida comuta. Esta pode ser uma sobre-avaliação do desempenho, uma vez que o nosso conjunto eQTL “externa” foi, de facto, definida pelo Westra et al. A partir destes dados, mas competir contra isso são a falta de sutileza nas correções que, na prática é reconhecida pela avaliação humana dos potenciais interruptores e lab-validação entre as iterações. A avaliação aqui foi simplista e automatizado para o estudo de simulação. Mesmo tendo em conta estes pontos, o fato de que 80 das 90 amostras teriam de ser perturbado antes de uma abordagem como BADGER não é capaz de agregar valor é notável.

Escolha de eQTLs

A definição do eQTLs de conjunto de dados, portanto, pode potencialmente ter impacto sobre qualquer grupo minoritário geneticamente distintos em um estudo. Westra e colegas [2] menciona alguns dos benefícios potenciais do uso eQTLs definidos externamente. Certamente haveria benefícios para fazê-lo se pudéssemos garantir que todos os subgrupos foram representados. Sabe-se que o desempenho das sondas de expressão pode ser afectada por SNPs [19] que venham a ser coberta por uma sonda particular, e que este fenómeno pode imitar o comportamento eQTL (? cis eQTL artefactos “[20], [21]). Mostrámos especificamente que este é um problema para as sondas mais longas da Ilumina BeadArrays [22].

Muitos estudos eQTL separar tais sondas de expressão, a fim de evitar associações espúrias [23]. Gostaríamos de sugerir que esses “artefatos cis-eQTL ‘não só ajudar no processo como observado por Westra

et al

., Mas pode fornecer uma base robusta para corrigir os erros. Ao explorar um artefato técnico, desta forma, esperamos que a ser menos sensíveis às autênticas diferenças biológicas entre grupos de pacientes do que seria se confiar na uniformidade do comportamento eQTL genuína entre as populações.

Nós inicialmente escolheu um conjunto de 383 eQTLs sobre a base da força de associação observada nos dados. A significância da associação é tanto uma medida da distribuição dos genótipos como é o poder discriminatório da associação de expressão de SNP, mas este é um primeiro passo e o conjunto é refinado como parte da abordagem BADGER como descritas nos métodos . Naturalmente alguns destes eQTLs são ‘artefactos cis-eQTL’. Na verdade, este conjunto inicial de sondas de expressão que já é enriquecido para sondas que cobrem SNPs com 184 de 383 (48%) que se inserem nesta categoria, em oposição a 11.027 de 34.361 (32%) de sondas fiáveis ​​sobre a matriz. Detalhes completos de cobertura SNP para arrays de expressão Illumina são apresentados na Tabela 1. Informação semelhante está disponível para arrays Affymetrix [24].

Quando o conjunto de associações expressão-SNP é reduzida para 125 sonda de pares , é ainda enriquecido para sondas de SNP de cobertura. Apenas 26% dos 199 sondas que não cobrem SNPs sobreviver no conjunto refinado, enquanto isso aumenta para 33% para os 119 sondas que cobrem um SNP, 47% para os 38 sondas que cobrem dois SNPs e 59% para as 27 sondas que cobrem mais de dois SNPs.

Para reforçar este ponto, entre o nosso conjunto, há uma tendência de que quanto mais SNPs a sonda expressão abrange, menores serão as discrepâncias entre os valores previstos e observados do SNP-sonda na associação eQTL. Isso é mostrado para os grupos de Europa e África na Figura 7. Os nossos eQTLs estão viradas para o grupo Europa, que contém a maioria das nossas amostras e assim as associações observadas são mais fortes para este grupo. Apesar associações no grupo de África, sendo geralmente mais fracos, as sondas que cobrem vários SNPs ainda explicar uma proporção útil da variação do log-expressão e se for escolhido de forma imparcial (por exemplo, com base exclusivamente no anotação) podem fornecer um conjunto de sondas que . será confiável entre os diferentes grupos populacionais

traçando para o conjunto de 383 eQTLs, o quadrado médio resíduos (previstos – contagens observadas B-alelo) contra o número de SNPs que estão situados “em” a sonda de expressão de acordo com a anotação. Em média, as previsões estão mais próximos das observações para sondas que se encontram ao longo de vários SNPs.

Design of Experiments

Layout Placa para sistemas baseados em Sex Diagnostics

Por escolhendo distintas, mas diferentes padrões, por sexo, para o layout da amostra em uma placa, e garantir que os padrões não têm simetria de rotação, a plotagem dos sexos inferidos de amostras por placa fornecerá um diagnóstico claro e definitivo para saber se a correta placa foi usado e se na orientação correcta. Individual, simples, interruptores de amostras vizinhas (na coluna ou linha) pode não ser pego, mas podemos maximizar as chances de fazê-lo, escolhendo padrões sob os nossos constrangimentos que minimizam o número de pares vizinhos (em colunas ou linhas) do mesmo sexo.

Se os números de ambos os sexos são iguais em estudo, um padrão verificador de bordo minimiza o número de pares vizinhos do mesmo sexo, mas tem simetria de rotação. Pequenas perturbações do padrão verificador de bordo será suscetível a confusão (ou a si mesmos através de um número de rotação e pequenas de switches), ou a um outro (via ligeiramente mais switches). Parece provável que um padrão regular será preferível, para facilidade de configurar a placa, e se apenas um pequeno número de pratos são necessários, então este pode ser viável. Note também que, a fim de evitar as simetrias de rotação, e as placas não distinguíveis, o número de interruptores simples em uma placa que deixa de ser detectável (isto é, o número de pares de amostras vizinhos do mesmo sexo) aumenta rapidamente (mostrado na Figura 8) .

Illustrated são três diferentes padrões de sexo (indicado por cor), através da qual as amostras poderia ser colocado para fora. Existem 172 diferentes conjuntos de pares vizinhos (diagonais ignorando) que se pode identificar em uma placa de 8 × 12, e assim 172 oportunidades para um simples interruptor de amostras vizinhas. Para a abordagem mais simples ilustrado, 36 destes (três em cada coluna) são do mesmo sexo e por isso não seriam capazes de usar o sexo como um identificador para detectar a comutação destas amostras. O inverso do seu cartão serão idênticas em condições de rotação com o desenho ilustrado e por isso pode não ser desejável a utilização de ambas. Assim, vemos rapidamente a necessidade de projetos mais complicados, tais como o segundo ilustrado aqui. Vários permutações das quatro colunas de base irá produzir modelos aceitáveis ​​(e distinguíveis), com algum pequeno efeito sobre o número de amostra muda identificável pelo desenho. O terceiro desenho mostra como uma disposição possivelmente atraente, a partir do ponto de vista de conveniência, tem uma fraca capacidade de detectar simples interruptores de amostras – mal fazendo melhor do que uma disposição aleatória.

Deixe uma resposta