PLOS ONE: Estratificação Europeia americana no caso do cancro do ovário Data Control: O utilitário de Genome-Wide dados para inferir Ancestry

Abstract

Foi investigada a capacidade dos vários Análise de Componentes Principais (PCA) à base de estratégias para detectar e controle para a estratificação da população usando dados de um estudo multi-centro de câncer epitelial de ovário entre as mulheres de etnia europeia-americana. Estes incluem uma correção baseada em uma marcadores informativos (AIMS) Painel projetado para capturar variação ancestral Europeu e correções utilizando dados de SNP do genoma un-diluído ascendência; amostras de caso-controle foram retirados de quatro locais geograficamente distintos norte-americanos. Os objectivos apenas e primeiros componentes principais do genoma (PC1) ambos correspondeu ao eixo Norte ou Noroeste-Sudeste de variação Europeia descrito anteriormente. Descobrimos que o PCA do genoma capturou esta dimensão primária de variação mais precisamente e identificou eixos adicionais de variação do genoma de relevância para epitelial de ovário. Associações evidentes entre os PCs de todo o genoma e local de estudo corroboram história da imigração norte-americana e sugerem que dimensões desconhecidas de mentira variação dentro Norte da Europa. A estrutura capturado pelo PCA do genoma também foi encontrado nos indivíduos de controle e não refletem a variação de caso-controle presentes nos dados. O APC de todo o genoma destaque três regiões de LD local, correspondente ao gene de (LCT) de lactase no cromossoma 2, o sistema de antigénio de leucócitos humanos (HLA) no cromossoma 6 e a um polimorfismo inversão comum no cromossoma 8. Estas características não comprometeu a eficácia de PCs a partir desta análise para o controlo ascendência. Este estudo conclui que, embora visa painéis são uma maneira custo-efetiva de capturar a estrutura da população, os dados do genoma deve ser preferencialmente utilizada quando disponível

Citation:. Raska P, Iversen E, Chen A, Chen Z, Fridley BL, Permuth-Wey J, et al. (2012) Estratificação Americano Europeu de cancro do ovário Caso Data Control: a utilidade dos dados Genome-Wide para inferir Ancestrais. PLoS ONE 7 (5): e35235. doi: 10.1371 /journal.pone.0035235

editor: Manfred Kayser, Erasmus University Medical Center, Holanda The Sims

Recebido: 28 de junho de 2011; Aceito: 13 de março de 2012; Publicado em: 09 de maio de 2012

Direitos de autor: © 2012 Raska et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. A genotipagem para o estágio 1 foi apoiada por R01-CA-114343 e R01-CA114343-S1. O estudo MAY0 é suportado por R01-CA-122443 e P50-CA-136393 e financiamento da Fundação Mayo. O estudo NCO é suportado por R01-CA-76016. O estudo TBO é suportado por R01-CA-106414, a Sociedade Americana do Câncer (TINTEIRO-00-196-01-CCE), e na detecção do cancro do Centro Avançado Grant, Departamento de Defesa (DAMD-17-98-1-8659) . O estudo TOR é apoiada por doações da Canadian Cancer Society e do National Institutes of Health (R01-CA-63682 e R01-CA-63678). A genotipagem de recursos partilhada Mayo Clinic é apoiado pelo Instituto Nacional do Câncer (P30-CA-15083). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

estudos de associação

Genome-larga (GWAS) tornaram-se uma ferramenta essencial para descobrir predisposição genética para a doença complexa [1] – [4]. A validade de GWAS pode ser influenciado pelo controlo inadequado para variação fundo do genoma associadas a doença hereditária. estratificação populacional (PS) refere-se ao genoma-largas padrões de desequilíbrio de ligação (LD) que, quando associada à doença, pode obscurecer o sinal (presente ou ausente) de SNPs individuais [5] – [9].

Ainda que o efeito de confusão de estratificação da população tem sido reconhecido, que foi considerado como sendo de interesse prático, principalmente em populações mistas ou misturados com ascendência de diferentes continentes [10], [11]. Apesar disso, alguns autores têm mostrado que mesmo dentro da população relativamente mais homogênea dos americanos europeus, a estrutura do genoma ainda pode ser um problema para estudos de associação [12] – [15].

Painéis de SNPs foram projetado para detectar e controle para a estratificação da população em americanos europeus especificamente [14] – [17]. Mesmo que estes estudos envolveram uma variedade de conjuntos de dados todos eles têm descrito um dos principais eixos comuns de variação de ascendência europeia, composta por um Norte ou Noroeste – Cline Sudeste. No entanto, estes estudos diferem no número de dimensões significativas de variação, em SNPs seleccionados como marcadores informativos ascendência (AIMS), e do número de objectivos que eles derivam. Portanto, decidir sobre o painel ideal para um determinado conjunto de dados não é simples.

Estes painéis AIM europeus foram concebidos com o objectivo de proporcionar uma forma rentável de controlar para a estratificação por meio da redução dos custos de genotipagem em candidato estudos de genes e estudos de validação [12], [17]. Apesar disso, eles também podem ser utilizados em estudos de associação em todo o genoma (GWAS). Embora uma análise de componentes principais (PCA) pode ser realizado em todo o conjunto de dados GWAS, a fim de controlar a ascendência [18], restringindo a análise a objectivos podem fornecer um meio de evitar os efeitos de padrões LD locais sobre os resultados de PCA e uma maneira de evitar a captura e controle de distância a variação dos juros de caso-controle.

Este estudo compara o desempenho de controle de PS através de PCA usando o Paschou et al. AIMS painel [17] de dados (Paschou PCA) e usando os dados do genoma (GWAS PCA) sobre um conjunto de dados de controle de casos de cancro do ovário conjunto de americanos europeus de quatro locais diferentes da América do Norte. Em particular, investigamos os efeitos da captura de variação e regiões de alta LD local na estratégia de ajustamento PS baseado GWAS PCA caso-controle.

Métodos

Detalhes do cancro do ovário GWAS são publicados [ ,,,0],19]. Em resumo, os dados GWAS Fase I nós utilizamos aqui derivam de quatro estudos de caso-controle de câncer epitelial de ovário: a Mayo Clinic estudo do cancro do ovário (Mayo, n = 877) (Rochester, MN), que inclui os residentes do six-estado circundante região (MN, IA, WI, IL, ND, SD), Carolina do Norte Estudo do cancro do ovário da Universidade de Duke (NCO, n = 1147) (Durham, NC), que inclui os moradores de uma região 48 condado circundante, da Universidade de Toronto Familial Ovarian Tumor Study (TOR, n = 1275) (Ontário, Canadá) e H. Lee Moffitt Cancer Center e Cancer Study Tampa Bay ovário do Instituto de Pesquisa (TBO, n = 396) (Tampa, FL), que inclui moradores da envolvente região 2 concelho. Todos os participantes auto-relatada a ser de ascendência não-judaica da Europa. Para aumentar a homogeneidade etiológico, foram excluídos os casos com tumores não-epiteliais ou limítrofe, conhecidos

BRCA1

e

BRCA2

portadores da mutação e mulheres com história prévia de ovário, mama, endométrio, ou cedo- câncer colorretal início. Todos os controles tiveram pelo menos um ovário intacto na data de referência e foram para casos em faixa etária pareados por freqüência. O protocolo do estudo foi aprovado pelo conselho de revisão institucional em cada centro (pelos IRBs da Clínica Mayo, da Universidade Duke, na Universidade de Toronto, e ao Lee Moffitt Cancer Center) e todos os participantes estudo forneceu consentimento informado por escrito.

sangue serviu como fonte de ADN genómico. Todas as amostras foram genotipados usando a matriz Illumina Infinium 610k e software Genome Estúdio ™ da Illumina foi utilizado para realizar o agrupamento genótipo automatizada e vocação. Depois que o controle de qualidade descrita na Permuth Wey et al [19], uma amostra de 3.715 indivíduos (1.815 casos e 1.900 controles) com 559,179 marcadores estava disponível para análise.

Análises Componentes Principais (PCA)

APC foi realizada em 4 conjuntos de marcadores: (1) o painel AIMs Europeias Paschou (Paschou APC), (2) todos os marcadores GWAS disponíveis a partir da matriz Ilumina 610k genotipados neste estudo (GWAS APC), (3) todos marcadores disponíveis usando os controles somente (controle PCA GWAS) e (4) todos os marcadores disponíveis com a remoção de marcadores em regiões de alta LD (GWAS LD PCA), utilizando o pacote snpMatrix no software R [20].

Dado um Data matrix X com N indivíduos nas linhas e P SNPs nas colunas, foram calculados os valores e vectores próprios do N pela matriz N, XX

T. Os vectores próprios correspondem às pontuações computador (es) que podem então ser usados ​​para calcular as cargas (B) do SNPs para cada PC através da multiplicação pela matriz diagonal dos valores próprios (V):

Para o controle GWAS PCA, os controlos apenas foram usados ​​para obter B e, em seguida, a pontuação de PC são obtidos através multiplicando os dados de todo o conjunto a estas cargas (X

TB). Apenas os primeiros 10 valores próprios são mantidas ao longo destes cálculos.

A remoção de Outliers

19 controles que foram mais de seis desvios padrão de distância da pontuação média para o PC para qualquer um dos 10 primeiros PCs foram identificados como outliers no GWAS PCA controle. Um indivíduo caso adicional foi identificado como um outlier no GWAS PCA. Todos os 20 indivíduos foram removidos a partir de todas as APCs com base nos dados do genoma. 1881 controles e 1814 casos foram deixados a partir do conjunto de dados original de 1900 controles e 1815 casos, para um total de 3695 indivíduos.

A remoção do LD Regiões

As regiões LD foram definidos por inspeção visual as cargas lotes para os PCs individuais e identificar dois SNPs que entre colchetes o pico na sua totalidade. Todos os SNPs dentro desta região foram removidos, com excepção de um SNP central com uma carga extrema, também identificado através do enredo. Dos 559,179 SNPs disponíveis nos dados GWAS, 553.601 foram retidos para o LD PCA GWAS.

Associação Testes

Os testes de associação de cada SNP indivíduo ao câncer de ovário foram conduzidos utilizando uma generalizada modelo linear que incluiu PCs como co-variáveis ​​com o efeito SNP modelado como um ordinal (log-aditivo) efeito genotípica. Os factores de inflação foram estimados por a razão entre a média aparada observado para o valor esperado sob a suposição de qui-quadrado. testes de associação dos PCs para o site e da doença foram realizadas através de regressão linear múltipla implementado em R. Cada PC foi regredido no estado da doença e site.

MLE and Price et al. AIMs Painel

em complemento, estimativa de probabilidade máxima foi utilizado para determinar as estimativas para Northwestern Europeu, Sudeste ascendência judaica Ashkenazi Europeu e com base em um painel AIM Europeia additonal por Price et al [16].

resultados

Componentes principais

Foram comparados os GWAS e Paschou PCs com base em suas correlações uns aos outros, as suas associações com doença controladores para o site e seu impacto no fator de inflação, em que confiou na sua associação ao site como proxy para sua relevância para a ancestralidade. A correlação entre os primeiros PCs (ou seja PC1) do Paschou PCA eo GWAS PCA foi de 0,79. Este primeiro PC correspondeu ao eixo noroeste-sudeste de variação que et al painel de Paschou foi exclusivamente projetado para capturar. Uma análise separada utilizando o painel de Price et al confirmou esta (ver figura 1) [16]. Embora ambos os PC1s estão associados ao local, GWAS PC1 tinha valores p mais significativos (ver tabela 1) e corrigidas para o factor de inflação melhor do que Paschou PC1 (ver tabela 2). Da mesma forma, uma vez que as diferenças do site foram levados em conta, apenas GWAS PC1 forneceram evidências de uma associação entre o primeiro eixo de variação ancestral americano Europeu e do ovário.

Blue, pontos verdes e vermelhos representam indivíduos com as maiores estimativas de noroeste, sudeste e Ashkenazi ascendência judaica, respectivamente, tomadas a partir da análise MLE com Price et al. AIMS painel.

Estrutura adicional

GWAS PCA também capturou ancestral. GWAS PC2 na figura 1 mostra a estrutura dentro dos indivíduos com ascendência Northwestern que não é aparente na Paschou PC2. Os screeplots para ambos APC (ver figura S1) mostraram que, em contraste com o Paschou APC onde apenas PC1 reside claramente antes do cotovelo na trama, um critério frequentemente utilizado para inferir que a variância explicada pelo PC é maior do que o esperado por acaso , os PCs GWAS só começou a se estabilizar em cerca de 20

th PC. Esta estrutura additonal foi corroborada por explorar os primeiros 100 PCs e sua associação ao site. Incluindo todas as comparações do site de pares, o maior significado foi restringido aos primeiros 20 PCs (ver figura S2). Estreitando a análise para os 10 primeiros PCs, apenas PCs 1,3 e 4 foram significativamente associados a ambos local e câncer de ovário (ver figura 2), enquanto PC2 não foi associado a site ou câncer de ovário. Isto sugere que os PCs 1, 3 e 4 de Maio tudo conta para dimensões de variação ancestral que têm o potencial para o teste de ovário confusão associação controle de casos de câncer. O efeito de reter os 4 primeiros PCs no fator de inflação também suporta esta conclusão uma vez que o fator de inflação foi consideravelmente menor do que quando usando apenas PC1 GWAS ou mesmo os 10 primeiros PCs (ver figura 3).

Os valores P para todas as comparações de pares entre os quatro locais são dadas.

Os primeiros 10 PCs obtidos através Paschou PCA, GWAS PCA controle, GWAS PCA e GWAS LD PCA são utilizados como co-variáveis ​​no teste de associação do genoma para câncer de ovário. Note-se que o painel de Paschou foi projetado para capturar apenas um PC significativo.

GWAS Controle

O fato de que GWAS PC1 é mais fortemente associado ao câncer de ovário do que Paschou PC1 e que produz uma redução mais eficaz no fator de inflação pode levar a crer que GWAS PC1 pode ser a captura de variação de caso-controle e reduzindo a potência do GWAS. O mesmo pode-se argumentar para os PCs adicionais associados ao câncer de ovário. Para testar isso, foi realizado um PCA utilizando apenas os indivíduos do grupo controle (GWAS controle PCA) em que os valores dos PCs de caso foram obtidos como descrito em Métodos.

Apesar de PCs 1 e 2 do GWAS PCA controle foram muito altamente correlacionada com os seus homólogos em GWAS PCA (ρ 0,9), PCs 3 e 4 também foram correlacionados, embora em menor grau (ρ 0,6, ver quadro 3). A combinação linear de GWAS PCs de controle 3 e 4 explicou 68,9% da variação no GWAS PC 3 e 68,7% da variação no GWAS PC 4, portanto, houve uma redistribuição da variância do GWAS PCs 3 e 4 através de vários dos GWAS controle de PCs.

Figura 3 demonstra que fatores de inflação obtidos quando o ajuste para PCs de controle GWAS mostrar o mesmo padrão que os obtidos quando o ajuste para GWAS PCs, mas são sistematicamente inferior, indicando que o primeiro fornecer um menos eficaz correção para o PS. Em ambos os casos, o coeficiente de inflação foi consideravelmente reduzida por PCs 1, 3 e 4. Se este último atingido este através da captura de variação de controlo caso, estes eixos de variação que não tenham sido identificados no APC utilizando apenas os controlos. As reduções menores para o fator de inflação observada para os ajustes de controle GWAS é provavelmente devido ao menor tamanho da amostra o controle do PCA GWAS (n = 1.814 vs. n = 3695). A redução do fator de inflação alcançado pela adição de GWAS PC5 controle pode ser explicado pela sua correlação (ρ = 0,3) para GWAS PCA PC3.

Em seguida, compararam os efeitos do ajuste para os 4 primeiros PCs dos dois PCAs sobre os valores p para associações SNP ao cancro do ovário todo o genoma. Se o GWAS PCA foram captura de variação de caso-controle, a força da associação do topo do ranking SNPs a partir do controle GWAS análise ajustada seria reduzido ou controlado afastado por GWAS PCA análise ajustada. Em vez disso, observamos que os SNPs mais significativos na análise de controle GWAS PC ajustada permaneceu os SNPs mais significativos no PC ajustado análise GWAS (veja o painel direito da figura 4).

log negativo valores de p de topo visitas de associação de cancro do ovário após o controle de ascendência usando 4 primeiros PCs de PCA controle GWAS em comparação com não controle de ascendência (painel esquerdo) e controlo de ascendência usando 4 primeiros PCs de GWAS PCA (painel da direita).

Figura 4 mostra também que GWAS corrigido para os top hits em

da mesma maneira

como controle GWAS. O SNPs cujo valor de p mais mudou quando comparado a um teste de associação não corrigida são destacadas em vermelho. Os SNPs que cruzam a linha de identidade a partir do painel esquerdo para o painel direito são aqueles cuja força da associação é corrigida no mesmo sentido pelos dois conjuntos de PCs e cuja correção é mais forte usando os PCs GWAS. SNPs que são mais distantes da linha de identidade no painel da direita do que à esquerda que não atravessam são aqueles cuja força de associação mudanças em uma direções diferentes quando adusting para um conjunto de PCs em relação ao outro. Três dos seis SNPs que mais mudou quando ajustado para os PCs de controle GWAS foram mais eficazmente corrigidos pelos PCs GWAS. Um SNP recebeu aproximadamente o mesmo nível de correção e dois foram corrigidos na mesma direção, mas não tanto na análise ajustada GWAS como na análise de controle ajustado GWAS. Nenhum dos SNPs foram corrigidos em diferentes direcções, entre os dois conjuntos de análises.

Além do efeito sobre os valores de p para o topo atingiu SNPs, uma comparação da correcção de todo o genoma para as duas APC pode também ser feita. A correlação entre os valores de p para todos os SNPs entre os testes de associação não corrigidos e os corrigidos através GWAS PCA foi 0,922, entre o controle não corrigida e GWAS foi 0,958 e entre o GWAS e GWAS controlar PCAs era 0,983. Se GWAS PCA estavam pegando na variação de caso-controle de todo o genoma e, portanto, corrigindo de uma forma qualitativamente diferente ao controle GWAS, seus valores de p resultantes teria sido mais estreitamente correlacionada com a análise sem correção, em vez de aos de controle GWAS.

Linkage Desequilibrium

Gráficos dos carregamentos SNP individuais para GWAS PCs 1 a 4 destaque três regiões de alta LD local. Estes aparecem como picos nos cromossomos 2, 6 e 8 (ver figura 5). Estas mesmas regiões foram evidentes para os PCs de controle GWAS. Estes gráficos revelam que os eixos de variação definidos por PCs 3 e 4 dos PCAs controle GWAS e GWAS são trocados, com GWAS PC3 controle mostrando o pico pronunciado no cromossoma 8 que é evidente no gráfico de GWAS PC4.

GWAS PCA (painel esquerdo) e PCA controle GWAS (painel direito) cargas são plotados mostrando picos no cromossoma 2, 6 e 8.

GWAS cargas PC1 pico em ambos os cromossomas 2 e 6. O pico no cromossoma 2 corresponde a uma região que contém rs4988235 SNP. Este SNP é um polimorfismo conhecido no LCT gene, associada com a persistência da lactase. alelo T deste SNP está associado com o Cline Norte-Sul na Europa, com uma frequência de 5-10% no sul da Europa e 70-80% no Norte da Europa [21]. O pico no cromossoma 6 corresponde ao complexo de histocompatibilidade principal região (HLA), uma região conhecida com alta LD [22]. GWAS cargas PC2 tem também um pico pronunciado na região HLA. PC3 e PC4 cargas têm picos no cromossoma 8 em uma região com uma inversão polimórfica documentado em americanos europeus ,, [23-25]. Embora o HLA e regiões inversão parece ser mais densa amostrados no painel SNP da Illumina do genoma do que outras regiões destes cromossomos, isso por si só não leva em conta a magnitude dos picos (ver tabela 4). Em particular, cromossoma 8 contém 7 outras regiões do mesmo tamanho ou mais pequeno do que a região de inversão que são igualmente ou mais densamente recolhidos por meio de SNPs no painel, enquanto que as primeiras 1 K SNPs que compreendem o pico na região HLA têm a mesma média densidade como o resto do cromossomo 6.

enquanto não havia evidência de câncer de ovário estrutura relevante nos dados em PCs GWAS de 1 a 4, os loadings parcelas mostrou que LD locais podem ser a base desta estrutura. Foi realizado um PCA adicional (GWAS LD APC), na qual apenas o SNP com a carga mais elevada foi retido para representar cada uma das regiões LD (ver tabela 4) para determinar se estas regiões afectar a capacidade destes computadores para corrigir a doença em causa PS .

o GWAS PC1, PC3 e uma fracção dos eixos PC4 GWAS de variação foram amplamente retida pelo GWAS LD APC, enquanto que o eixo PC2 de variação é perdida (ver tabela 3). GWAS LD PC2 capta variação descrito por ambos GWAS PCs 3 e 4. Assim, o gene LCT cromossomo 2 e cromossomo 8 inversão regiões parecem estar correlacionadas aos componentes ancestrais da população americana Europeia, representada pela PCs GWAS 1, 3 e 4. Em contraste , o GWAS LD PCA fornece evidências de que a região HLA não é significativamente associada com PS ascendência europeia de todo o genoma. Uma grande fracção da variação descrito por GWAS PC2 podem, portanto, ser local em vez de variação de todo o genoma, ancestral. Isto pode explicar a sua falta de associação para o site.

regiões LD Emagrecimento GWAS PCA resultou no controle menos eficaz do fator de inflação (ver figura 3). Apenas os 2 primeiros PCs de GWAS LD, que correspondem aproximadamente a GWAS PCs 1, 3 e 4, baixou o fator de inflação. PC1 reduziu o fator de inflação, na mesma medida com e sem desbaste de SNPs na região LD do LCT, enquanto o ajuste para PCs 3 e 4 reduziu o fator de inflação mais quando a região LD do cromossoma 8 não foi diluído.

Ancestral GWAS PCs e Associação para o estudo de PCs site

GWAS 1, 3 e 4 são cada altamente significativamente associada com o local de estudo após o ajuste para o status de caso-controle (ver tabela 5). Cada PC identifica um contraste distinto entre os sites. O site Mayo (MAYO) tem os valores mais baixos PC1 e Tampa (TBO), o mais alto, em média; Toronto (TOR) e Carolina do Norte (NCO) são intermediários e não discernably diferente. Os sites têm valores médios distintos de PC3 após o ajuste para o status de caso-controle, e são ordenados (do menor para o maior valor) NCO, TOR, TBO, em seguida, maio. PC4 contrasta maio e os restantes sítios que não são discernably diferentes um do outro.

Um lote de PC1 contra PC3 mostra que a variação representada por PC 3 estava dentro de indivíduos de ascendência europeia Northwestern (ver figura S3) . Ele também mostra que PC 3 varia claramente entre sites. Não só MAYO mostram uma tendência para 3 valores de PC mais positivas em relação aos outros sites, mas NCO apresentou uma variação faixa mais estreita para este PC em comparação com outros sites. PC 1 mostrou TBO para ser o local com mais de uma representação do Sudeste europeus enquanto MAYO tinha o mínimo.

Discussão

Mesmo que as informações fornecidas por todos os SNPs genotipados em um genoma-wide o painel pode ser usado para controlar a estrutura da população através APC, utilizando um painel de menores AIMs predesigned pode ser pensado para conferir determinadas vantagens. Primeiro, o controle de estratificação utilizando os dados GWAS pode reduzir indesejavelmente a variação de caso-controle que o estudo procura identificar, enquanto a chance de que um painel AIMs incluirá doença associada SNPs é remota. Em segundo lugar, as correções com base em dados GWAS diluído-un pode destacar estrutura local no lugar de variação de todo o genoma, ancestral e, consequentemente, comprometer a eficácia do controle para o PS. AIMS painéis deliberadamente excluir redundâncias entre SNPs e, portanto, evitar este problema. Estas desvantagens potenciais de correções baseadas em GWAS pode ser agravada em populações com estrutura do genoma mais sutil e padrões mais fortes de LD local, tais como a população americana Europeia.

Nós descobrimos que esses inconvenientes não foram realizados em nossa análise dos dados GWAS cancro do ovário. Em particular, verificou-se que um total de GWAS PCA recapitulou estrutura presente nos indivíduos de controle e foi, portanto, não a captura de uma quantidade significativa de variação de caso-controle. Isto não é surpreendente uma vez que a variação de caso-controle, ambos e local, de todo o genoma raramente será grande o suficiente para ultrapassar as fontes do genoma de variação populacional em uma PCA. Este e os fatores de inflação significativamente reduzidos em comparação com os obtidos utilizando o painel de Paschou sugere que a associação ao cancro do ovário encontrados para PCs GWAS 1, 3 e 4 representam uma verdadeira correção para o PS, mesmo após a contabilização de local, aquele que é provavelmente devido ao maior precisão proporcionada pelo usando todo o GWAS conjunto de dados. Note que apenas 460 dos 500 marcadores do painel de Paschou estavam disponíveis para nós no câncer de GWAS conjunto de dados ovário, reduzindo assim o seu poder pouco. No entanto, esta será frequentemente o caso quando se usa um painel AIMs pré-concebidos para o controle de estrutura da população em uma análise GWAS.

armadilhas potenciais de não levar em conta o efeito de regiões de alta LD local no controle de PS utilizando APC podem ser classificados em dois cenários: (1) a variante funcional encontra-se fora destas regiões; neste caso, os PCs que representam apenas variação nestas regiões não será eficaz para controlar PS, isto é, o coeficiente de inflação não é suficientemente reduzido, e (2) a variante funcional encontra-se dentro de uma tal região; Neste caso, os computadores que representam rigorosamente a estrutura local da região que podem controlar a associação de distância, isto é, o coeficiente de inflação é reduzido muito. Embora neste estudo as regiões de alta LD local, mudou os resultados do GWAS PCA, as implicações práticas deste sobre como testar associação SNP ao câncer de ovário foram questionável.

Apenas GWAS PC2 qualificado como um exemplo deste primeiro fenómeno . Seu desaparecimento em GWAS LD PCA e sua falta de impacto sobre o fator de inflação e de associação para mostrar a doença que está representando principalmente estrutura local na região do HLA e sugere que variantes funcionais é improvável que se encontram dentro daquela região. Mesmo que a região HLA LD contido variação suficiente para dar conta totalmente para um PC de alta patente, o efeito da inclusão desta PC quando controladas pela estratificação não é muito diferente daquela de incluir qualquer número de PCs não informativas quando rotineiramente dando os primeiros 10 PCs como co-variáveis ​​(veja figura 3). Qual dos PCs de alto escalão para incluir como co-variáveis ​​na análise de associação e quantos deles para incluir pode ter mais de um impacto no controle de fatores de inflação do que remover os efeitos de regiões LD no PCA.

Fizemos não observar um exemplo do segundo fenômeno observado acima neste conjunto de dados. Em vez disso, os eixos de variação descrita pelos PCs que foram encontrados para ser associado com a doença (PCs GWAS 1, 3 e 4) foram retidos de forma considerável quando as regiões de alta LD locais foram diluído. Isto sugere que, embora esses PCs apresentam alta correlação com as regiões LD locais e estas regiões podem potencialmente abrigar variantes funcionais, os PCs representar a estrutura real, ancestral, todo o genoma e não apenas variação dentro da região de LD.

Usando a esquizofrenia dados GWAS em americanos europeus, Zou et al. encontrado nas mesmas regiões LD como o estudo corrente, e um pico adicional no cromossoma 17. Utilização de um método de encolhimento para controlar os efeitos LD em APC, eles descobriram que todos os picos desaparecem com a excepção de a região de pico LCT. Eles concluem que é importante para explicar LD ao usar PCA para controlar PS [25]. Eles não forneceu as correlações entre os PCs com e sem o seu método de encolhimento. É plausível que, como no presente estudo, os dois conjuntos de PCs 3 e 4 são altamente correlacionados e que a região de inversão polimórfica não tem um efeito prático no controle ascendência.

estratificação da população irá variar de estudo para estudar, dependendo das características da população do estudo e a doença e podem, por conseguinte, ser argumentado que os resultados aqui apresentados são específicos para este estudo. No entanto, as populações de ascendência européia, como o que aqui estudados são particularmente homogênea e caso-controle ou a variação LD local será

menos

provável a ofuscar variação população ancestral ao usar dados GWAS não diluídas de PCA, em estudos de menos homogênea populações, tais como aqueles que reúnem indivíduos de diferentes ascendências continentais e /ou que se concentram em populações miscigenadas. Em conclusão, recomendamos que uma análise cuidadosa usando PCA do conjunto completo de dados ser realizada antes de decidir como controlar para PS. Uso de PCs a partir de um total GWAS PCA pode proporcionar um melhor controle para o PS e resultar em um fator de inflação mais baixa. Um benefício adicional é que essa análise pode ajudar na descoberta e remoção de outliers e ou indivíduos relacionados que podem ser atendidas através de outros procedimentos de avaliação /qualidade controle de qualidade. Neste estudo, os valores atípicos nós removemos influenciou significativamente os PCs a partir da análise de controle GWAS original e provou conter indivíduos relacionados perdeu por filtros QC anteriores.

Deve ser salientado que o painel de Paschou fez admiravelmente bem na captura uma grande proporção do PS para um número tão pequeno de SNPs. De fato, em um artigo mais recente dos pesquisadores por trás do show painel Paschou que é possível prever ascendência indivíduo dentro da Europa para baixo a poucas centenas de quilômetros a partir da origem, utilizando painéis de 500 ou 1.000 SNPs [26]. Estes painéis são uma ótima ferramenta para os indivíduos custo efetivamente a genotipagem com a finalidade de controle PS. O que este estudo gostaria de sublinhar é que, apesar desta eficácia, na presença de dados completo GWAS não devemos ser tentados a confiar apenas em um número tão reduzido de SNPs na condução do APC.

É interessante notar que a associação entre PCs GWAS 1,3 e 4 e doença persiste mesmo depois de ter em conta as diferenças do site (ver tabela 5). Tendo em conta estas diferenças do site remove essa parte da associação espúria entre a doença e ancestralidade que é devido a diferenças nos números relativos de casos e controles que foram recrutados através de sites juntamente com mesmo as diferenças sutis em ascendência em sites. O que resta deve, então, ser causado por dentro diferenças site no ancestral make-up entre casos e controles, devido à variação de amostragem. O que é notável aqui é que esta na diferença site na ascendência entre casos e controles resulta em um sinal significativo persistente quando todos os sites são agrupados. Isto significa que ou a diferença de ascendência entre casos e controles ocorreu na mesma direção por acaso em cada local ou que esta diferença de ascendência era tão pronunciado em um dos sites que se afogaram o que ocorreu nos restantes sítios. Outra possibilidade é que a associação entre a doença e ancestralidade não é espúria, mas real, explicando assim a sua direção consistente em todos os sites.

Deixe uma resposta