PLOS ONE: Variação da linhagem germinativa em genes de câncer-Susceptibilidade em uma saudável, Cohort ancestralmente Diverse: Implicações para Individual Genome Sequencing

Abstract

Os avanços tecnológicos juntamente com a redução de custos estão trazendo genoma inteiro e toda a sequenciação exome mais perto de rotina uso clínico. Um dos obstáculos à implementação clínica é o elevado número de variantes de significado desconhecido. Para genes do câncer de susceptibilidade, a dificuldade em interpretar a relevância clínica das variantes genômicas é agravado pelo fato de que a maioria do que se sabe sobre estas variantes vem do estudo de populações altamente selecionados, tais como pacientes com câncer ou pessoas com histórico familiar de câncer. A variação genética nos genes do câncer de susceptibilidade conhecidos na população em geral não foi bem caracterizado até à data. Para preencher esta lacuna, nós perfilado a variação genômica nonsynonymous em 158 genes causalmente implicados na carcinogênese utilizando sequências de genoma inteiro de alta qualidade a partir de uma coorte ancestralmente diversificada de 681 indivíduos saudáveis. Descobrimos que todos os indivíduos realizar múltiplas variantes que podem afetar a susceptibilidade ao cancro, com uma média de 68 variantes por indivíduo. Dos 2.688 variantes alélicas identificados no coorte, a maioria são muito raras, com 75% encontrados em apenas 1 ou 2 pessoas em nossa população. As frequências alélicas variar entre grupos ancestrais, e existem 21 variantes em que o alelo secundário em uma população é o alelo principal na outra. A análise detalhada de um subconjunto seleccionado de 5 genes do cancro clinicamente importantes,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, e

PTEN

, destaca as diferenças entre as variantes da linha germinativa e relatadas mutações somáticas. O conjunto de dados pode servir um recurso da variação genética nos genes do câncer de susceptibilidade em 6 grupos ascendência, uma base importante para a interpretação do risco de câncer de sequências do genoma pessoais

Citation:. Bodian DL, McCutcheon JN, Kothiyal P, Huddleston KC, Iyer RK, Vockley JG, et ai. (2014) da linhagem germinativa Variação de genes do cancro-Susceptibilidade em uma saudável, ancestralmente Cohort Diverse: Implicações para Individual Genome Sequencing. PLoS ONE 9 (4): e94554. doi: 10.1371 /journal.pone.0094554

editor: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Itália |

Recebido: 25 Setembro, 2013; Aceito: 17 de fevereiro de 2014; Publicação: 11 de abril de 2014

Direitos de autor: © 2014 Bodian et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Esta pesquisa foi financiado inteiramente pela Inova Health System. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:. JN McCutcheon está atualmente empregado pela Life Technologies e não detém quaisquer patentes ou de ações em a empresa. Isto não altera a adesão dos autores para PLOS ONE políticas em dados e materiais de compartilhamento.

Introdução

Avanços em tecnologias de sequenciamento e custos decrescentes estão fazendo sequenciamento do genoma inteiro (WGS) e toda a sequenciação exome (WES) cada vez mais acessível e pode permitir a transição de aplicações de pesquisa e genômica de consumo para atendimento clínico de rotina. No entanto, uma ampla aceitação na prática clínica tem sido dificultada principalmente por limitações em nosso conhecimento atual da relevância clínica das variações de sequência detectados.

Em oncologia, WGS /WES é actualmente utilizado principalmente para identificar mutações somáticas em tumores. variações da linha germinativa que impactam predisposição ao câncer ou a progressão da doença são tipicamente identificadas por resequencing alvo de genes de interesse, tais como

BRCA1

e

BRCA2

. Como WGS /WES se torne mais amplamente adotada, a análise da variação da linha germinativa vai passar de abordagens de um único gene para análises baseadas em múltiplos genes associados ao câncer, ea população testada irá expandir a partir de indivíduos em risco para a população em geral.

a interpretação desses dados requer um entendimento da variação em genes associados ao risco de cancro em indivíduos saudáveis, que é largamente não caracterizados. A maior parte do conhecimento de variação da linha germinativa em genes do cancro-susceptibilidade veio de indivíduos que têm uma razão médica a ser sequenciado [1], e assim não é representativo da população em geral. Outra informação veio de linhas de células e em modelos animais, em vez de células primárias de pacientes [2]. Os indivíduos estudados são principalmente de ascendência europeia [1], [3], mas ambas as sequências do genoma e risco de câncer variam entre grupos de ascendência [4]. Além disso, estudos têm focado em alelos de susceptibilidade de alta penetrância, mas o câncer é geralmente o resultado dos efeitos combinados de baixa para alelos de risco moderado penetrância e fatores ambientais [5].

O objetivo deste estudo é a caracterizar a variação de genes de susceptibilidade de cancro numa população em geral. Para atingir esta meta, nós perfilado a variação nonsynonymous em 158 genes do cancro utilizando dados de sequências de todo genoma de alta qualidade a partir de uma coorte ancestralmente diversificada de 681 indivíduos. Nós também caracterizada em detalhe as variantes em cinco genes de interesse particular clínica,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, e

PTEN

. Os resultados podem servir de referência para a variação nos 158 genes ao câncer susceptibilidade na população em geral e tem implicações importantes para a interpretação da WGS clínicos /WES.

Métodos

declaração Ética

os indivíduos foram recrutados em Inova Fairfax Hospital durante 2011-2012 e inscrito no estudo clínico do Translational Medicine Instituto Inova, intitulado “estudo molecular de nascimento pré-termo.” Todos os participantes do estudo desde consentimento informado por escrito para o uso de suas seqüências do genoma para propósitos de pesquisa. O “Estudo molecular de nascimento pré-termo” foi aprovado pelo Institutional Review Board da Inova Health System eo Institutional Review Board Ocidental (# 1124761). As análises aqui relatadas foram parte de uma investigação sobre o papel dos genes do câncer de susceptibilidade na etiologia de nascimento pré-termo, uma área de investigação motivada pelas semelhanças entre a gravidez e malignidade [6], [7].

participantes

O grupo para esta análise consiste em 681 adultos a partir de 352 famílias, compreendendo 337 homens com idades entre 18-50 (média 34) e 344 mulheres com idades entre 18-44 (média 32). Nenhum dos indivíduos são parentes de primeiro grau, como confirmado pela análise genômica. foram auto-relatou o país de nascimento dos indivíduos e seus pais. A coorte é representativa da população da Virgínia do Norte e da população dar à luz em Inova Fairfax Hospital por raça, etnia e condição socioeconômica [8]. Aproximadamente um terço dos indivíduos (34% dos homens e 35% das mulheres) foram incluídos no estudo como pais de um recém-nascido pré-termo, e dois terços como controles a termo. Nenhuma associação significativa entre as variantes do gene do cancro e status termo foi encontrado.

Os questionários de auto-relato e registros médicos hospitalares foram revisados ​​para status de câncer. Três indivíduos tiveram um diagnóstico de câncer antes da inscrição: um homem com câncer renal, um homem com câncer de tipo desconhecido, e uma mulher com câncer de mama. Nenhum dos participantes relataram uma história pessoal e familiar indicativo de uma mutação germinativa-predisponentes do câncer altamente penetrante, ou seja, idade de início precoce e /ou vários membros da família afetados.

Amostras e sequenciamento

Whole amostras de sangue foram coletadas de todos os assuntos em tubos BD Vacutainer K2-EDTA. a extracção do ADN genómico foi executado no extractor de ADN QiaSymphony automatizada utilizando o kit de ADN Midi (QIAGEN Inc., Valencia, CA). As amostras foram enviadas para Conclua Genomics (Mountain View, CA) para toda a sequenciação do genoma, montagem e variante chamando [9], [10]. A sequenciação foi efectuada com a tecnologia de matriz o ADN Nanoball. seqüências do genoma estavam reunidos com versões Assembleia Pipeline ‘Complete Genomics 2.0.0-2.0.3 utilizando o NCBI construir 37 assembly (hg19) de referência do genoma humano [11]. estatísticas de cobertura foram calculadas usando-sum de peso cobertura aprofundada sequência. Em média, 70% de cada genoma e 80% de cada exome tinha 40x cobertura. Variantes dos arquivos masterVar de todos os genomas foram fundidos em um único arquivo VCF v4.1 com mkvcf (beta) do CGA suíte ferramentas, versão 1.6.0.

anotações Gene foram calculados com uma versão modificada do pacote de software GLU, versão 1.0b3-prerelease4 [12], usando genoma coordenadas de exons, transcrições e regiões de codificação da tabela knownGene do UCSC Genome browser de [13]. alterações na sequência de proteína prevista foram calculados por tradução da região de codificação de cada transcrição e a referência. anotações adicionais de dbSNP 137 [14], [15] COSMIC versão 65, HGMD profissionais 2012.3 (BIOBASE) e PolyPhen-2 [16], [17] foram adicionados usando a ferramenta ANNOVAR [18]. PolyPhen-2 pontuações 0,85, entre 0,85 e 0,15, e . 0.15 foram codificados como “provavelmente prejudicial”, “possivelmente prejudicial” e “benigno”, respectivamente [17]

filtragem Qualidade

chamadas Genótipo foram filtrados para a confiabilidade usando um modelo preditivo treinados em 341 variantes do câncer de genes selecionados aleatoriamente que foram validados pela Ion Torrent sequenciamento. construção do modelo foi realizada com weka-3-6 [19] usando parâmetros padrão, exceto quando indicado. Atributos foram selecionados pelo algoritmo BestFirst da informação de qualidade genótipo fornecido pelo Complete Genomics. Filtrando parâmetros foram determinados utilizando o algoritmo de árvore de decisão J48 com 10 vezes a validação cruzada. O modelo resultante incorpora dois tipos de filtros: um filtro de posição e um filtro de genótipo. O filtro de posição exclui todas as variantes em locais genómicos com uma taxa de chamada geral em toda a coorte de 80% ou com uma profundidade alelo fracionária média ≤0.295. As máscaras de filtro genótipo chama com um ≤11 profundidade mínima alelo. Com base em 10 vezes de validação cruzada, as taxas de erro para os genótipos que passam estes filtros foram estimados para ser 1,3% de falsos negativos e 2,3% de falsos positivos

genes e variantes

o Gene Census Câncer, uma coleção com curadoria de 487 genes com mutações causalmente implicados na oncogênese a partir de amostras primárias do paciente [20], foi baixado do site da Sanger Center (9/2012). Para se concentrar em variantes que poderiam afetar a suscetibilidade ao câncer devido a alterações sequência de proteína prevista, foram excluídos os genes para os quais o nexo de causalidade ao câncer era expressão aberrante em vez de mutação, mantendo apenas genes listadas no Censo devido a missense, frameshift, splicing, ou mutações nonsense. Foram incluídos ambos os genes com mutações da linha germinativa predispondo-cancerosas conhecidas, bem como genes para os quais apenas as mutações somáticas oncogénicas são actualmente conhecidas, uma vez que a variação da linha germinativa em genes com mutações somáticas também pode afectar a susceptibilidade do cancro [20]. Loci omitido a partir de ou ambiguamente mapeado para a montagem de referência foram excluídos, deixando 158 genes de interesse.

As variantes são definidas como diferenças na sequência da referência, calculado pelo gasoduto WGS. Uma variante foi categorizada como frameshift, nonsense, ou de splice-site de perturbar se tivesse que previu efeito sobre qualquer um dos transcritos anotados associados com um gene de cancro. freqüências alélicas foram calculadas a partir dos chamados genótipos. Variantes raras são definidos como variantes com menor frequência alélica (FAM) 1%, e variantes comuns aqueles com MAF . 5%

O comprimento de codificação de um gene é definido como o número total de bases previsto para ser traduzido em qualquer um dos transcritos associados. Taxas de variabilidade por-gene, representadas como o número de variantes por quilobases (kb), foram calculados como o declive da linha de regressão do número de variantes em cada gene de codificação em comprimento.

Os resultados do per análises -Gene são apresentados para um conjunto de cinco genes-chave como exemplos dos resultados de todos os 158 genes. Estes genes foram seleccionados, uma vez que são genes do cancro bem conhecidos que podem transportar mutações clinicamente relevantes. O conjunto 5-gene inclui tanto pequenas proteínas com algumas variantes e grandes proteínas com muitas variantes, e ambos os genes supressores tumorais e oncogenes.

Atribuição de patogenicidade e retorno dos resultados

As variantes foram classificados como patogénico se existir foram: (1) vários relatórios preliminares de patogenicidade, (2) não há relatos com evidência contra patogenicidade, e (3) dados moleculares demonstrando um efeito prejudicial. variantes patogênicas de participantes do estudo que consentiram em retornar os resultados foram validados pelo sequenciamento Sanger e depois informou à comissão de achados incidentais multidisciplinar para a avaliação e comunicação para o médico do indivíduo de registro.

rotulagem Ancestrais e freqüência do alelo analisa

coeficientes mistura foram estimados para cada indivíduo com ADITIVO [21] utilizando o procedimento descrito por Libiger e Schork [22]. freqüências alélicas para 6 populações ancestrais – africanos, europeus, nativo americano, Leste Asiático, da Ásia Central, e oceânicas – foram computados com um painel de referência composta de 16,443 polimorfismos de nucleotídeo único (SNPs) [22]. Para atribuir os indivíduos em nossa coorte de subpopulações, os indivíduos foram agrupados com base em seus coeficientes de mistura calculados. A ascendência representada por cada agrupamento foi definido como a região geográfica do país auto-relato de nascimento da maioria dos indivíduos, excluindo os Estados Unidos. Os aglomerados africana e afro-europeu são distinguidos por o grau de mistura, com o cluster Africano mais perto da população ancestral Africano. grupos de ascendência foram definidos apenas para clusters com pelo menos 20 indivíduos, a fim de calcular as freqüências alélicas em incrementos de 5% ou menos para todas as posições genómicas incluindo aqueles sobre os cromossomos sexuais. clusters menores foram agregados em um grupo “Outros”, que foi excluída do cálculo de frequências de alelos, uma vez que não representa uma população baseada em ascendência. Para os outros 6 subpopulações, diferenças estatisticamente significativas na MAF foram computados tanto pelo teste qui-quadrado ou teste exato de Fisher. O teste do qui-quadrado foi utilizado para as variantes para o qual todos os valores esperados foram 1, e o teste exato de Fisher com p-valores simulados foi utilizado para todas as outras variantes [23]. Variantes para que o alelo principal de uma população é o alelo menor na outra população são aqueles para os quais a frequência mínima em qualquer grupo é 0,5, a frequência máxima é de 0,5, e ambos os valores são significativamente diferentes uns dos outros e a partir de 0,5 por testes exatos unilateral de Fisher. Para todos os testes estatísticos e valores p 0,05 foram considerados significativos

software e bases de dados adicionais

As análises estatísticas foram realizadas com R versão 2.15.0 [24].. VCFtools 0.1.10 [25] e Plink versão 1.07 [26] foram usadas para pré-processar os dados variantes para o cálculo da mistura. estruturas de proteína foram apresentadas com Jmol [27]. A versão do banco de dados ClinVar 2013-8 [28], um arquivo de relações entre as variações encontradas em amostras de pacientes e fenótipos, foi consultado para relatórios de significado clínico. Além disso, o cancro da mama Informação Básica (BIC) (versão: 2/20/13) foi examinada para relatórios clínicos da

BRCA1

e

BRCA2

variantes

. a disponibilidade de dados

Todas as variantes relatados nesta publicação são listadas na Tabela S1 no arquivo S1 e foram depositados em ClinVar com números de adesão SCV000083899 – SCV000086586. Os pesquisadores interessados ​​em compartilhar os dados genômicos são convidados a contactar o autor correspondente.

Resultados

variantes de genes Cancer são prevalentes na população geral

Para estudar a variação genética em genes do câncer de susceptibilidade em um representante coorte de uma população geral, ancestralmente diversificada, analisamos seqüências do genoma inteiro de participantes em um estudo de pesquisa nascimento pré-termo. A coorte é composta por 681 adultos, geralmente saudáveis ​​em idade reprodutiva, 49% homens e 51% mulheres, sendo que nenhum deles relataram uma história pessoal e familiar indicativo de mutações germinativas-predisposição de câncer altamente penetrantes.

Nós usamos esta coorte ao perfil da variação da linha germinal de um conjunto de 158 genes para os quais as alterações de sequência de proteína são causalmente implicado na oncogenese. As regiões de codificação desses 158 genes são bem cobertas nos dados genômicos, com um rendimento médio per-gene de 58x (intervalo: 21x-84x), com 99,99% das posições sequenciados em 10 indivíduos (figura S1) . Este nível de cobertura é suficiente para a alta qualidade de chamada variante, mas não diagnóstico clínico [29]. Estamos focados em pequenas variações, nonsynonymous – substituições, inserções e deleções -. Desde variações germinais em genes de câncer susceptibilidade são na maior parte deste tipo [20]

Entre os 681 indivíduos observamos 2688 previu que afetam a proteína variantes nos 158 genes ao câncer de susceptibilidade (Tabela S1 no arquivo S1). A maior parte dos variantes são muito raras – 65% são encontrados em apenas um único indivíduo e 75% estão em 2 ou menos, com MAF 0,22%. Estudos recentes sobre a variação na exomes inteiros [30] e em famílias de genes [31] também encontraram uma maioria de variantes raras. variantes raras são pensados ​​para contribuir de forma significativa para a etiologia da doença comum [32], e estratégias para priorizar variantes da doença de WGS muitas vezes incluem um filtro de frequência para excluir variantes comuns. Quarenta e três por cento (43%), ou 1,166, das variantes são novos (não em dbSNP), todos com MAFs entre 0,07% e 1,4%. Estes dados suportam a afirmação de que quase todas as variantes comuns em populações ligadas às empresas no Projeto 1000 Genomas foram descobertos, mas que muitas variantes raras estão ainda a ser identificadas [33].

Os indivíduos saudáveis ​​carregam câncer de múltipla -Gene variantes

Cada indivíduo na coorte transporta várias variantes nonsynonymous nos genes susceptiblity cancro, com uma média de 68 variantes por pessoa (gama: 49-97) (Figura 1A), e 99% dos indivíduos realizar variantes raras (média: 6 variantes raras, gama: 0-32). Nenhum dos participantes tem variantes em todos os 158 genes; Em vez disso, as variantes estão distribuídas ao longo de um subconjunto de genes 30-59 (mediana = 40) (Figura 1B) que varia de indivíduo (ver abaixo). Para uma indicação de que estas variantes pode ser clinicamente relevante, todas as variantes foram divididos em três classes de não-exclusivos com base em anotações relacionadas com potencial impacto na susceptibilidade ao câncer: (1) variantes listadas na HGMD como possivelmente associado à doença, (2) variantes provável ter um efeito deletério sobre a função da proteína, ou seja, frameshift, nonsense, e emenda local variantes, e (3) todas as outras variantes nonsynonymous. Usamos a última classe para representar variantes de significado desconhecido (VUS), com as ressalvas de que o impacto clínico de algumas variantes podem ser conhecidos, mas não capturados em HGMD, e que as variantes atribuído ao HGMD e classes de deletérios também podem ter efeitos desconhecidos sobre suscetibilidade ao câncer. No geral, 80 variantes observados na coorte foram classificados como prejudiciais (22 nonsense, 42 frameshift, 16 de emenda local de desregulação), 326 foram anotados como possivelmente em HGMD associado à doença, e 2.297 são USV (Tabela S1 S1 Arquivo). Os sujeitos do estudo têm uma média de 14 HGMD variantes (variação: 4-25), 2 variantes na classe deletério (intervalo: 0-4), e 52 UVs (intervalo: 34-78) (Figura 1A). O número de variantes nos três indivíduos que referiram um diagnóstico de câncer passado não eram valores discrepantes para qualquer uma das classes de variantes. Embora seja possível que as variantes deletérios resultar de sequenciação ou de erro de anotação, achado aparentemente variantes prejudiciais em indivíduos saudáveis ​​não é inesperado [34].

(A) Boxplot de o número total de variantes, o número de variantes listado no HGMD, o número de variantes possíveis deletérios, e o número de variantes de significado desconhecido por indivíduo para os genes associados ao cancro. (B) Distribuição do número de genes do cancro com pelo menos uma variante nonsynonymous por indivíduo.

freqüências alélicas de variantes do câncer de genes are ascendência dependente

As freqüências dos alelos podem diferir entre populações e estas diferenças podem ter implicações médicas importantes [35]. A fim de determinar se qualquer uma das variantes de genes de cancro que afecta-proteína na nossa coorte diferem na frequência entre grupos ascendência, atribuímos cada indivíduo a uma subpopulação utilizando os dados genómicos. Um painel de 16,443 marcadores que representam 6 grupos ancestrais associados ao Europeu, Africano, da Ásia Oriental, Central asiáticos, nativos americanos, e as populações oceânicas [22] foi usado para calcular as proporções de mistura para cada indivíduo. Cerca de metade (49%) dos indivíduos foram atribuídos coeficientes diferentes de zero para várias populações, refletindo diferentes graus de mistura ou ascendência genética incompleta capturados pelo modelo. Subpopulações foram definidas pelo agrupamento dos temas sobre as proporções de mistura calculados. Clusters com menos de 20 indivíduos foram agregadas em um grupo “Outros” e incluem pessoas do Oriente Médio, Eurasians miscigenadas, e outros de fundo desconhecido

.

Os sete grupos resultantes são listadas na Tabela 1 e os coeficientes de mistura do membro indivíduos são plotados na Figura 2. Por conveniência, nós usamos os nomes dos grupos (europeus, africanos, etc.) para denotar fundo genético ancestral em vez de região geográfica de nascimento ou etnia. As subpopulações correspondem a 78-100% ascendência Africano para a subpopulação Africano, 79-100% famílias do leste asiático para a subpopulação do Leste Asiático, 79-100% ascendência asiática Central para a população da Ásia Central, e ascendência 83-100% Europeia para a subpopulação Europeia. O cluster com indivíduos de 13-75% ascendência Africano e 21-87% de ancestralidade européia foi nomeado Africano-europeu. As proporções de mistura que distinguem a subpopulação Africano (≥78% Africano) a partir do resultado do grupo Africano-europeu a partir de um ponto de interrupção nos dados e são comparáveis ​​com as proporções da ascendência dominante no Leste Asiático, da Ásia Central, e grupos europeus (≥79 %, ≥79%, ≥83%, respectivamente). A subpopulação hispânica inclui diversas misturas de ascendência nativo americano e europeu com 0-50% ascendência Africano. Estes dois e três vias misturas de refletir a história demográfica da América Latina [36].

As proporções de mistura das populações ancestrais 6 (cores) são exibidos para todos os indivíduos em cada um dos 7 grupos definidos no coorte (painéis). (A) Européia (B) da Ásia Central (C) do Leste Asiático (D) Africano (E) Africano-europeu (F) Hispânico (G) Outros. Vermelho: Europeia, Azul: Central Asian, Ciano: East Asian, Amarelo: Africano, Verde: Native American, Magenta:. Oceania

As subpopulações baseada em ascendência diferem no número de câncer variantes -Gene por pessoa (Figura 3) (p 2.2e-16 por ANOVA). Os europeus tendem a ter menos variantes (média = 64,5) e africanos a maioria (média = 84, 30% maior do que os europeus), de acordo com estimativas do genoma [37]. O número de variantes em indivíduos afro-europeia é intermediária entre africanos e europeus. O Africano, Africano-europeia, e subpopulações do Leste Asiático têm cerca de duas vezes mais novas variantes por pessoa como europeus e asiáticos centrais têm três vezes mais (Tabela 2). A constatação de que os asiáticos centrais têm mais novas variantes por pessoa do que os africanos, que têm maiores números totais de variantes do câncer de gene (Figura 3), pode refletir um viés nas populações que foram sequenciados e apoia os esforços destinados a aumentar a diversidade de as populações amostradas em bases de dados de sequências.

a distribuição do número de genes nonsynonymous por tema para cada um dos 6 subpopulações baseada em ascendência.

o número de variantes deletérias por indivíduo também é significativamente diferente entre os grupos ancestrais (p 4e-4 por ANOVA; Tabela 2). Médias variam de 1,8 nos europeus e asiáticos para 2,2 na Ásia Central. Para variantes HGMD, há também uma diferença estatisticamente significativa entre os grupos (p 9e-4 por ANOVA), com asiáticos com as variantes menor número, em média gravados no banco de dados (Tabela 2). No entanto, as diferenças no número de variantes deletérias e HGMD são pequenos e uma associação com ascendência precisa ser examinado em uma coorte maior.

As diferenças entre grupos de ascendência também se refletem nas freqüências alélicas de variantes do câncer de gene . Tabela S1 em listas S1 arquivo Frequência dos alelos em cada um dos grupos populacionais para o conjunto completo de 2.688 variantes. Catorze alelos têm frequências 50% em todas as subpopulações (Tabela S2 em S1 ficheiro), o que sugere que a sequência de referência portador de um alelo menor nessas posições. Foram analisadas diferenças populacionais nas freqüências alélicas de variantes comuns, uma vez que a maioria das variantes raras são encontradas em um único indivíduo. Entre as variantes de 223 com uma frequência de 5% em qualquer dos 6 grupos baseados na ascendência, 216 têm frequências de alelos que diferem entre as subpopulações (Tabela S3 no ficheiro S1). Destes, 43% são encontrados em todos os seis subpopulações e 58 são específicos para um dos quatro grupos de ascendência com menores graus de mistura, 49 em africanos, 2 em Ásia Central, 6 em leste-asiáticos, e 1 em europeus. Há também 21 variantes em que o alelo secundário em uma população é o alelo principal na outra (Tabela 3), das quais as frequências dependente da ascendência foram anteriormente reconhecidas por pelo menos 3,

ERBB2

c.3508C G (p.Pro1170Ala) [38],

TP53

c.215C G (p.Pro72Arg) [39], e

BRCA1

c.2612C T (p.Pro871Leu) [ ,,,0],40]. Pouco se sabe sobre o significado clínico destas 21 variantes. Quatro,

TP53

c.215C G (p.Pro72Arg) [41],

BRCA1

c.2612C T (p.Pro871Leu) [42],

ERBB2

c.3508C G (p.Pro1170Ala) [43], e

FLT3

c.680C T (p.Thr227Met) [44], [45] tem sido associada ao desenvolvimento de cancro ou de a resposta ao tratamento. No entanto, estas associações são tipicamente de efeito pequeno ou foram obtidos a partir de amostras pequenas; portanto, mais trabalho é necessário para estabelecer uma relação definitiva. Se essas associações são validados, eles ilustram a importância de considerar ascendência ao selecionar as opções de tratamento para os pacientes.

Per-gene variação

Em seguida analisamos as variantes em uma base per-gene para determinar quais genes são mais ou menos propensos a ter variantes relatados de WGS de indivíduos saudáveis. A carga variante para cada um dos 158 genes está listado na Tabela S4 em S1 Arquivo. Quatro genes –

SRSF2

,

U2AF1

,

MAP2K4

, e

GNAQ viajantes – não têm variantes nonsynonymous em nossa coorte, 36 genes têm variantes em menos de 10 indivíduos, e 35 têm variantes em mais da metade dos indivíduos (Figura 4A). Limitando a análise de variantes única raras, 154 (97,5%) da variação genes exibem, em pelo menos um indivíduo (Figura 4B). Em média, um gene do cancro tem variantes raras em 4% da nossa população, com um intervalo de 0% a 18% (0-125 indivíduos). Entre os genes com variantes raras na maioria dos indivíduos são

BRCA1

,

BRCA2

,

APC

,

MLL2

, e

MLL3

, genes que são comumente mutado em cancros.

BRCA1

,

BRCA2

, e

APC

são bem estudado por causa da presença de mutações patogênicas, frequentes.

MLL2

e

MLL3

têm sido descobertos recentemente a ser mutado em uma ampla gama de tipos de tumor [46], ea prevalência da variação observada sugere que eles podem justificar um estudo mais aprofundado.

a distribuição do número de indivíduos com uma variante per gene para a (a) todas as variantes (B) variantes raras.

a prevalência da variação de cada gene se correlaciona com o número de variantes. Sessenta por cento (60%) da variabilidade é contabilizado por codificao de comprimento (Figura 5), ​​uma tendência observado anteriormente para todos único nucleótido variantes ampla-exome [30]. A taxa global de ~ 6 posições variantes por kb de sequência de codificação é comparável à taxa descoberta variante prevista para uma população do tamanho do nosso grupo [31]. O gene mais variável é

TNFRSF14

, com 39 posições variantes por kb (Tabela S4 no arquivo S1).

O número de variantes nonsynonymous vs. número total de codificação de bases para cada um dos 158 genes do câncer de suscetibilidade.

a variabilidade per-gene pode também depender do tipo de gene do cancro. Três tipos foram descritos: oncogenes, genes supressores de tumores, genes de predisposição e [46]. Estes últimos são genes para os quais mutações germinativas podem predispor ao câncer, mas que têm poucas mutações somáticas. genes supressores de tumores e os oncogenes têm ~ 5 kb por variantes da sequência de codificação, enquanto que genes de predisposição ter ~ 8 variantes /kb, semelhante à da taxa para todos os genes. A diferença é estatisticamente significativa, com p 0,012 por ANCOVA. A menor taxa de variabilidade para oncogenes e genes supressores de tumor pode indicar uma maior restrição evolutiva.

Caracterização da variação dentro de genes-chave

Além de freqüências alélicas população e relatos na literatura de associação a doença, a análise do o efeito cada variante pode ter sobre a estrutura e função da proteína codificada pode fornecer informações pertinentes à previsão do risco de câncer. Ilustra os achados específicos do gene com um conjunto de 5 genes do cancro bem conhecidos de relevância clínica,

BRCA1

,

BRCA2

,

TP53

,

KRAS

e

PTEN

. As variantes e freqüências alélicas estão listadas na Tabela S1 S1 Arquivo.

BRCA1 e BRCA2

BRCA1

e

BRCA2 Quais são os dois principais de câncer de mama genes de susceptibilidade. mutações germinativas em qualquer um destes genes supressores de tumor estão associados a mama hereditário e síndrome do câncer de ovário, que responde por cerca de 2-8% dos casos de câncer de mama em todo o mundo [47]. No nosso coorte, 92% dos indivíduos possuem genes nonreference em um ou ambos os genes (excepto os genótipos variantes homozigóticas no cromossoma 13 em posição 32929387

BRCA2

em que a sequência de referência tem um alelo secundário rara): 498 indivíduos com variantes em

BRCA1

e 482 com

BRCA2

variantes. Variantes raras também são predominantes, com 27% da população transportando variantes raros, em pelo menos um destes dois genes.

A maioria das variantes destes dois genes são raros, com 83% das 46 variantes em

BRCA1

e 91% das 86 variantes em

BRCA2

ter MAF 1%. Os 4 variantes comuns em

BRCA1

-c.2612C T (p.Pro871Leu), c.3113A G (p.Glu1038Gly), c.3548A G (p.Lys1183Arg) e c.4837A G (p.Ser1613Gly) -Todos mostrar freqüências alélicas dependente da ascendência.

Deixe uma resposta