PLOS ONE: alvejado Re-Sequencing Identificado rs3106189 no 5 ‘UTR de TAPBP e rs1052918 na 3’ UTR de TCF3 a ser associado com a sobrevida global de pacientes com câncer colorretal

Abstract

Estudos recentes têm demonstrado o poder de profunda re-sequenciação de todo o genoma ou exome na compreensão de genomas do câncer. No entanto, a captura de alvo regiões do gene de corpo inteiro genómicas seleccionadas, em vez de todo o exome, tem várias vantagens: 1) os genes podem ser seleccionados com base na biologia ou uma hipótese; 2) mutações no promotor e intrônicas regiões, que têm funções reguladoras importantes, pode ser investigado; e 3) menos caro do que todo genoma, ou conjunto de sequenciação exome. Portanto, concebido personalizado de alta densidade microarrays de oligonucleótidos (NimbleGen Inc.) para capturar cerca de 1,7 Mb regiões alvo que compreende as regiões genómicas de 28 genes relacionados com o cancro colo-rectal incluindo genes pertencentes ao WNT via de sinalização, bem como factores de transcrição importantes ou cólon genes espec�icos que são mais expressos em câncer colorretal (CRC). Os 1,7 Mb regiões-alvo foram sequenciados com uma cobertura variou de 32 × 45 × para os 28 genes. Foram identificados um total de 2342 variações de sequência no CRC e correspondentes tecidos normais adjacentes. Entre eles, 738 eram novas variações de sequência com base em comparações com o banco de dados de SNP (dbSNP135). Nós validado 56 de 66 SNPs em uma coorte separada de 30 tecidos utilizando CRC Sequenom MassARRAY Iplex plataforma, o que sugere uma taxa de validação de, pelo menos, 85% (56/66). Encontrámos 15 mutações missense entre as variações ex�icas, 21 SNPs sinónimo que foram previstos para alterar os motivos splicing ex�icas, 31 SNPs UTR que foram previstos para ocorrer nos locais de ligação do factor de transcrição, 20 SNPs intrônicos localizados perto dos locais de splicing, 43 SNPs em sites e 32 em ilhas CpG de ligação do factor de transcrição conservada. Finalmente, determinou-se que rs3106189, localizada a 5 ‘UTR de antigénio apresentando tapasina proteína (TAPBP) de ligação, e rs1052918, localizada a 3’ UTR do factor de transcrição 3 (TCF3), foram associados com a sobrevivência global dos doentes CRC.

Citation: Shao J, Lou X, Wang J, Zhang J, Chen C, Hua D, et al. (2013) Targeted Re-Sequencing Identificado rs3106189 no 5 ‘UTR de TAPBP e rs1052918 na 3’ UTR de TCF3 a ser associado com a sobrevida global de pacientes com câncer colorretal. PLoS ONE 8 (8): e70307. doi: 10.1371 /journal.pone.0070307

editor: Hiromu Suzuki, Sapporo Medical University, Japão

Recebido: 14 Março, 2013; Aceito: 19 de junho de 2013; Publicação: 05 de agosto de 2013

Direitos de autor: © 2013 Shao et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo foi apoiado por subsídios do Ministério da Ciência e Tecnologia, China (2006DFA32950, ​​2006AA02A303, 2012AA02A204,2011ZX09307-001-05) e uma bolsa da National Science Foundation, China (81.072.060 /H1618). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Com 639.000 mortes por ano em todo o mundo, o câncer colorretal é a terceira forma mais comum de câncer ea segunda principal causa de mortes relacionadas ao câncer no mundo ocidental (WHO, fevereiro de 2009, http: //www.who .int /mediacentre /fichas /fs297 /en /) e na China [1], [2]. Até à data, a susceptibilidade ao câncer colorretal tem sido caracterizada pela identificação de mutações hereditárias raras em um pequeno número de genes estabelecidos, tais como mutações do

APC

gene, um gene identificado pela primeira vez como a polipose adenomatosa familiar (FAP) gene locus de [3], que contribui para a tumorigénese colorectal [1], [4]. SNPs (polimorfismos de nucleotídeo único) é o tipo mais frequente de variação no genoma humano, que ocorre uma vez a cada várias centenas de pares de bases ao longo do genoma [5].

Estudos recentes têm demonstrado o poder potencial de profunda re-sequenciação de genes candidatos em populações humanas para detectar variantes raras e ajuda na compreensão das características humanas complexas [6]. Tradicionalmente, cancro do genoma re-sequenciação foi realizada utilizando amplificação de exões e sequenciação de Sanger convencional [7] – [9]. Mais recentemente, todo o genoma ou exome todo (por captura exome) tem sido utilizado devido aos avanços tecnológicos e de custo reduzido na próxima sequenciamento geração [10] – [12]. Por exemplo, Baixo

et al.

Aplicado sequenciamento do genoma inteiro para sequenciar os tumores de 9 pacientes com CCR e identificou 11 em-frame eventos de fusão de genes, incluindo a fusão de VTI1A e TCF7L2, que foi encontrado em 3 de 97 colorectal cancros [13]. O Cancer Genome Atlas Rede realizada recentemente sequenciamento de DNA de captura exome de câncer colorretal e identificados genes frequentemente mutados incluindo APC, TP53, KRAS, PIK3CA, FBXW7, SMAD4, TCF7L2, ARN, ARID1A, SOX9 e genes FAM123B (WTX) [14].

Além disso, em vez de captar toda a exome, captura direccionada dos genes seleccionados de interesse irá reduzir o custo e potencialmente mover NGS para a prática clínica. Por exemplo, Pritchard

et al.

Desenvolvido Coloseq, em que as regiões de 1,1 Mb de DNA seleccionada incluindo 209 kb em

MLH1

,

MSH2

,

MSH6

,

PMS2

,

EPCAM

,

APC

, e

MUTYH

foram alvo, capturado e submetido a NGS [15]. Os autores foram capazes de identificar 28/28 (100%) mutações patogênicas no MLH1, MSH2, MSH6, PMS2, EPCAM, APC, e MUTYH [15].

Estávamos interessados ​​na captura alvo de regiões genômicas incluindo as regiões promotoras e regiões intrónicas de genes relacionados com uma via ou uma rede de genes com determinadas características de entender a biologia do cancro. Existem várias vantagens para esta abordagem: 1) os genes podem ser selecionados com base na biologia ou uma hipótese; 2) mutações no promotor e regiões intrónicas, que foram recentemente sugeridos como tendo funções reguladoras importantes, pode ser investigado; e 3) a técnica é menos caro do que o genoma inteiro ou conjunto de sequenciação exome. Portanto, nós projetamos personalizado de alta densidade microarrays de oligonucleotídeos (NimbleGen Inc.) para capturar um total de aproximadamente 1,7 Mb regiões alvo compreendendo as regiões genômicas de 28 genes relacionados ao câncer colorretal, incluindo a exônico, intrônica, 10 kb a montante e 5 kb sequências a jusante seguido por análise utilizando o Illumina Genome Analyzer. Os genes selecionados incluem aqueles que pertencem ao WNT via de sinalização, bem como fatores de transcrição importantes ou genes específicos do cólon que são mais expressos em CRC.

Resultados

alvejado Re-sequenciamento de regiões genômicas incluindo promotores do Key WNT caminho e outros genes relacionados com o CRC

Como a via de sinalização WNT é um caminho crítico implicados na CRC [16], foram selecionados dois genes via Wnt (http: //www.genome. jp /KEGG /via /HSA /hsa04310.html) para começar a nossa investigação. Além disso, foram selecionados 22 importante (GO actividade reguladora da transcrição: 0.030.528) transcrição fatores e quatro genes ou enriquecido específico do cólon [17] que são mais expressos em câncer com base em dados gerados no laboratório, bem como dados disponíveis no domínio público (por exemplo GSE8671, GSE15960, GSE24551, GSE41258 do banco de dados GEO). A lista final dos 28 genes selecionados é mostrada na Tabela 1 com anotações.

Para reduzir despesas, primeiro sequenciado de uma piscina de 30 tecidos de CRC (a piscina CRC) e uma piscina de 30 normal adjacente tecidos (a piscina CRN) e depois validados os SNPs identificados usando PCR ou tecnologias da Sequenom. Nós criamos uma matriz oligo personalizado usando a tecnologia NimbleGen para capturar as sequências alvo. O comprimento total das regiões genômicas alvo projetado foi de 1,7 MBP. Os ADNs capturados foram submetidos a sequenciação utilizando o Illumina Genome Analyzer. Depois de remover duplicados de PCR a partir das sequências em bruto, a cobertura médio estava compreendido entre 32x a 45x, e a cobertura por comprimento de sequência para as regiões alvo de cada gene variaram 83,5-100%. A cobertura para as diferentes regiões dos genes-alvo diferem entre si, o que pode ser devido à propriedade da tecnologia de captura sequência NimbleGen, a complexidade sequência ou outros fatores descaracterizados. Os dados de sequenciação cru foi depositado na sequência NCBI ler arquivo (SRA), sob o número de acesso SRX277359.

Nós tabuladas as coberturas de todos os 28 genes, comparando com regiões abrangidas pelas sondas concebidas ou ao total alvo as regiões, incluindo promotores e regiões 3 ‘distais (Tabela 1) para calcular a eficiência de captação da abordagem NimbleGen. Medida pelo regiões alvo, as coberturas mediana foi de 98,1 e 99,5% para o CDC e os tecidos CRN respectivamente, e variando 83,5-100% (Tabela 1). Na concepção da sonda NinbleGen, as sondas não foram concebidos como sobreposição oligos para cobrir as regiões completas, mas sim como sondas que espaçados entre as regiões-alvo com características específicas optimizadas para captar DNA. A cobertura calculado pelas regiões abrangidas pelas sondas concebidas todos exceda 100% (Tabela 1), o que sugere que as sondas de captura capturado sequências adjacentes em adição às suas sequências complementares, o que resultou em que as regiões sequenciadas realmente estendida para além das regiões que foram cobertas pelas sondas.

o conteúdo GC foi calculado para cada posição das sequências de referência centrado em uma janela de 81 pb, a fim de investigar se as coberturas foram afetados pelo teor de GC das regiões capturadas. A cobertura para cada posição foi contado após a remoção de sequências duplicadas. uma cobertura suficiente de 40X foi conseguida por regiões com um teor em GC entre aproximadamente 15-75% (Figura 1A, 1B). A seguir, estudaram se a diferença na cobertura afectada a frequência de detecção de variações de sequência. Calculamos a correlação de Spearman para o SNP contar e a cobertura correspondente usando R (www.r-project.org). Aqui, a cobertura foi contado após a remoção de duplicatas sequência. Os coeficientes de correlação foram -0,51 e -0,38 para amostras de CRC e CRN, respectivamente, sugerindo pouca correlação entre a detecção de SNP e ler cobertura. Nós ainda computadorizada se a percentagem de SNP representaram os SNPs totais com diferentes coberturas (Figura 1C). Descobrimos que a frequência de detecção permaneceu estável quando a cobertura de sequência aumentou de 40X a 60X para os tecidos CRC. No entanto, descobrimos que a frequência de detecção nas piscinas de tecido normal aumentou quando a cobertura sequência atingiu cerca de 55X a 65X (Figura 1C). Estas diferenças podem sugerir uma maior heterogeneidade entre a piscina de tecido normal do que a piscina CRC tecido, o que pode ser explicado por uma semelhantes perfis biologia do tumor ou de mutação entre os tecidos de CRC. A frequência de detecção caiu quando a cobertura sequência foi maior do que 65X, provavelmente devido à gerado para as sequências repetidas para estas regiões.

(A) O conteúdo GC e cobertura na CRC (câncer colorretal) tecido falsa alta cobertura. (B) O conteúdo GC e cobertura na CRN (tecido normal colorectal) do tecido. (C) A relação entre a cobertura sequência e detecção de SNP. linha vermelha mostra a cobertura sequência e percentagem de SNPs detectados pelo que a cobertura no CRC piscina, e linha verde no CRN piscina (D) diagrama de Venn de SNPs para amostras de CRC e CRN. (E) Uma visão geral dos SNPs identificados no câncer e tecido normal adjacente.

Após a análise dos dados, foram identificados um total de 2342 variações de sequência no CRC e correspondentes tecidos normais adjacentes. Entre eles, 738 eram novas variações de sequência com base em comparações com o banco de dados SNP actual (dbSNP135; Tabela S1). 1226 variações eram comuns ao CRC e tecidos de cólon normais, enquanto 374 e 742 variações foram único para cada tipo de tecido, respectivamente (Figura 1D).

Para as duas amostras colectivas, a frequência da taxa de mutação variou de 0,354 a 4.942 per quilobases para diferentes genes. A maioria das variações ocorridas nas regiões intrônicas, com apenas 5% das variações que ocorrem nas regiões ex�icas.

Foram selecionados aleatoriamente oito SNPs para variações de validação cobrindo encontrados em intrônica e em regiões ex�icas. Para a validação, foi utilizado PCR alelo-específico (AS-PCR) para a genotipagem de polimorfismos de nucleotídeo único [18], [19]. Cada SNP foram analisados ​​individualmente com um par de iniciadores específicos de gene em uma coorte separada de 22 amostras e CRC 24 CRC tecidos normais adjacentes dos doentes correspondentes e quatro dadores saudáveis ​​(Tabela S5). Descobrimos que os dados para quatro dos SNPs eram consistentes entre os dados de sequenciação e a validação de PCR. Por exemplo, os SNPs para o MSX2 e KAT5 foram detectados a 100% pela abordagem baseada em sequenciação e pela validação de PCR. Para rs80186078 no gene TFDP1, só detectou o SNP nos tecidos CRC por sequenciação e validá-lo em ambos os tecidos CRC e CRN, mas não em dadores saudáveis ​​por a validação AS-PCR. No entanto, observamos também uma inconsistência entre o sequenciamento das amostras colectivas ea validação de PCR de amostras individuais. Por exemplo, rs11186694 e rs17107140 foram detectados em ambas as amostras de CRC e por sequenciação CRN mas não pôde ser detectado por AS-PCR em amostras individuais. Este resultado sugere uma identificação positiva falsa de SNPs ou de uma falha do AS-PCR. Nós não tentar projetar primers de PCR adicionais para AS-PCR, como se determinou que AS-PCR foi pesado e faltava sensibilidade [20]. Além disso, alguns dos SNPs (por exemplo, chr11:65481267_TG) foram detectados numa amostra reunida, mas foram encontrados tanto em CRC e tecidos normais quando analisado por PCR de amostras de validação individuais. Este resultado sugere uma identificação negativa falsa de SNPs em uma das amostras reunidas. No entanto, ele pode não ser surpreendente, porque se a frequência de alelos dos SNPs é baixo em uma das amostras colectivas, pode ser desperdiçada por sequenciação de amostras colectivas.

Devido à baixa eficiência e sensibilidade da validação SNP por PCR, decidimos usar o Iplex plataforma Sequenom MassARRAY para os estudos de validação. Nós escolhemos 66 SNPs para validação em uma coorte separada de 30 tecidos CRC porque o DNA usado para sequenciação foi esgotada. No final, fomos capazes de confirmar a existência de SNPs em 56 dos 30 tecidos de CRC (Tabela S6), o que sugere uma taxa de validação de, pelo menos, 85% (56/66), considerando-se que algumas das falhas de detecção pode ser devido a diferenças na população estudada.

conseqüência funcional das variações sequência identificada

Encontrámos 15 SNPs que mudariam sequências de proteínas entre as variações ex�icas no CRC e tecidos de cólon normais, incluindo 14 mutações missense e uma mutação sem sentido (Figura 1E e Tabela 2). Estas mutações missense podem afectar a função dos produtos de proteínas mutadas. O novo SNP chr13:114288328_CT identificada apenas em tecidos CRC resultaria em um codão de paragem, o que iria causar a terminação precoce da tradução de TFDP1 (NP_009042, Q200 *) e a perda do domínio Transc_factor_DP_C na proteína TFDP1 truncada. O efeito desta TFDP1 truncada no CRC carcinogênese continua a ser investigado.

Quatro das mutações não conseguiu ser validado por da Sequenom MassARRAY Iplex (Tabela S6) e, portanto, foram excluídos da análise posterior. Quatro dos restantes variações de sequência 11 missense identificados na CRC e tecidos de cólon normais eram novas mutações. O PolyPhen ferramentas on-line, peneire e PROVEAN foram usadas para prever as conseqüências funcionais (Tabela 2). Todos os três programas previsto que as novas mutações para MSX 2 (A197T) afectaria os domínios funcionais da proteína e pode ter consequências funcionais. O NEXN (G245R) a variação foi previsto para ter consequências funcionais pelo SIFT e programas PolyPhen (Tabela 2). PolyPhen previu outra mutação no gene NR3C1 ser provável danificar (Tabela 2). Foi avaliado se esses 11 mutações tenham sido previamente relatada para CRC. Dez delas não tenham sido previamente relatado para ser associado com CRC e, por conseguinte, foram identificados pela primeira vez (Tabela 2). Um deles, rs459552 no gene APC foi relatado para conferir um efeito protetor para CRC com odds ratio de 0,76 (IC = ,60-,97) entre os pacientes CRC [21].

Houve 29 SNPs sinónimo detectados na região de codificação nas amostras de CRC e CRN e 73 SNPs em 5 ‘ou 3’ UTR regiões. FastSNP foi utilizado para prever as funções reguladoras desses SNPs incluindo potenciador exônico splicing (ESE), o silenciador de splicing exônico (ESS), alterações motivo para SNPs sinónimo (Tabela 3), e TF sítios de ligação mudanças para UTR SNPs (Tabela 4). O localizador de ESE pode identificar ESEs reconhecidas por proteínas SR individuais que são altamente conservadas fatores de splicing e RESCUE-ESE pode procurar sequências com atividade ESE. Em contraste, FAS-ESS pode identificar ESS. Os resultados de predição a partir dos três ferramentas computacionais foram combinadas para confirmar se a variação de nucleótido único iria alterar o motivo de splicing. O fator de transcrição sites associados com os SNPs alvo de ligação foram identificados por TFSEARCH usando FastSNP. Um total de 21 SNPs sinónimas foram previstos para alterar a motivos de splicing exônico, e 31 UTR SNPs foram previstos para ocorrer ao factor de transcrição locais de ligação e, portanto, pode afectar a transcrição do gene. O romance SNP chr2:219524460_CA (5’UTR de BCSIL) também foi encontrada em sítios de ligação de transcrição conservada (Tabela S2).

Para entender as consequências funcionais dos SNPs intrônicos, o on-line ferramenta SNPnexus foi usado para anotar o SNPs. As distâncias para os locais de splicing foram computados por SNPnexus. Havia 20 SNPs intrônicos localizados perto dos locais de emenda com uma distância inferior a 30 pb, e apenas um foi romance. As mutações nestas regiões pode afectar o splicing e a transcrição. C6orf1, ETV4, KAT5 e VAV1 cada um tinha duas variações localizadas perto de locais de splicing e TNKS2 tinha 3 variações localizadas perto de locais de splicing (Tabela 5). Os rs2271959 SNP (chr17:41622740_GT, ETV4) foi 5 pb de distância do sítio de splicing e foi detectado apenas em tecidos CRN com alta confiança. Havia 43 SNPs intrônicos, montante ou intergênicas em locais de ligação do factor de transcrição conservada (Tabela S2) e 32 em ilhas CpG (Tabela S3).

Os conjuntos de dados públicos Chip-seq, especialmente o projeto ENCODE, proporcionar sítios de hipersensibilidade ADNase em várias linhas celulares de ligação de TF ou vasta. Aqui, usamos RegulomeDB para anotar os SNPs com regiões reguladoras. Cada SNP foi dada uma pontuação que representavam diferentes regiões reguladoras por RegulomeDB (Tabela S1, Tabela 6). A descrição acima, provavelmente prejudicial, rs1166698 missense SNP (NEXN, validar por Sequenom) recebeu uma pontuação de 1b, que foi o maior neste estudo, indicando que o SNP estava envolvido em muitas regiões reguladoras importantes. Outra SNP 1b foi rs1860661, localizado no intrão de TCF3 e não testados por Sequenom. Entre os 2.342 SNPs, 1062 situavam-se em regiões de ligação TF definidos pela tecnologia de chip-seq.

análise da associação entre SNPs e sobrevida global Tempo

Nós escolhemos nove SNPs (Tabela 7 ) que foram validados pela tecnologia Sequenom MassARRAY Iplex e com heterozigosidades alelos superiores a 0,4 para análise da associação entre SNPs e sobrevida do paciente CRC. Foram coletadas amostras de um conjunto de 117 pacientes com informação clínica detalhada para esta análise utilizando a tecnologia Sequenom MassARRAY Iplex. A distribuição das características demográficas e as clinicopatológicas ‘117 pacientes estão resumidas na Tabela 8, e os dados de genótipos estão resumidos na Tabela S7.

O primeiro analisado o equilíbrio de Hardy-Weinberg de cada SNP e descobriu que apenas rs1053023 SNP desviado do equilíbrio de Hardy-Weinberg (Tabela 9, p 0,05); os valores de P para outros SNPs variou de 0,3265 a 1. O efeito dos nove SNPs no tempo de sobrevivência global foi avaliada em 117 pacientes CRC utilizando o método de Kaplan-Meier e plotados usando o programa de análise estatística Stata 12 (www.stata.com) . Descobrimos que dois SNPs (rs3106189 e rs1052918) foram associados com sobrevida global de pacientes com CCR (Figura 2), utilizando o modelo dominante, com taxas de risco de 0,25 (P = 0,009) e 0,28 (P = 0,024), respectivamente. Os rs3106189 SNP também foi significativamente associada com CRC sobrevida do paciente com o modelo aditivo (taxa de risco = 0,33, P = 0,021; Tabela 7). Os SNP rs3106189 localizadas a 5 ‘UTR de TAPBP, e os rs1052918 SNP localizada a 3’ UTR do TCF3. Para os rs3106189 SNP, o número de pacientes com variantes heterozigotos e homozigotos foram de 42 e 7, respectivamente. Para os rs1052918 SNP, o número de pacientes com variantes heterozigotos e homozigotos foram 47 e 22, respectivamente. Pacientes portadores de uma das duas variantes parecem ter maiores probabilidades de sobreviver mais tempo.

(A) de Kaplan-Meier para rs3106189 localizada no 5 ‘UTR de TAPBP. (B) trama de Kaplan-Meier para rs1052918 localizada a 3 ‘UTR do TCF3. Y-eixo, a probabilidade de sobrevivência CRC; X-eixo, meses após a cirurgia. As linhas azuis são do tipo selvagem homozigoto (selvagem), verde são variante homozigoto (var), vermelho são variante heterozigotos (het).

Discussão

Neste artigo, são apresentadas nosso pipeline análise que consiste em (1) inicialmente sequenciar amostras de DNA reunidas seguido de validação e posterior análise em maiores coortes de amostras para redução de custos e (2) a captura alvo orientado a hipótese e análise de SNPs e suas associações com os fenótipos de câncer. O agrupamento DNAs genómicos para a sequenciação tem a vantagem de reduzir a preparação da amostra e custos de sequenciação. Por exemplo, a captura de 30 amostras individuais exigiria usando 30 matrizes de captura para realizar hibridação e de amostras recuperações, que são tedioso e potencialmente podem apresentar variações de amostra-a-amostra durante a fase de preparação da amostra. Sequenciar 30 amostras individuais também seria substancialmente mais caro do que sequenciar uma piscina. Embora seja possível usar o código de barras e as reações de multiplexação e sequenciamento para atingir a cobertura sequência semelhante a um custo semelhante ao amostras de pooling, a complexidade de preparação da amostra seria substancialmente maior. Em uma análise recente GWAS de diabetes tipo 1 (DM1), publicado na revista Science, Nejentsev

et al.

Re-sequenciados exons e locais de splicing de 10 genes candidatos em pools de DNA de 480 pacientes e 480 controles para identificar cada tipo causador diabetes 1 (DM1) variantes e, em seguida, testou sua associação da doença em mais de 30.000 participantes [22]. Os autores foram capazes de identificar quatro variantes raras que, independentemente baixou risco DM1 [odds ratio, 0,51 a 0,74; P = 1,3 x 10 (-3) a 2,1 x 10 (-16)] em interferão induzida com o domínio da helicase C 1 (IFIH1) [22].

Uma outra característica distinta da nossa análise gasoduto é que sequenciado as regiões genómicas que incluíram as regiões ex�icas e intrónicas, isto é, o promotor de 10 kb e as regiões genómicas a jusante 5-kb de genes seleccionados. Este método foi em contraste com a maioria dos estudos que apenas analisadas as sequências ex�icas (captura exome) [23], [24]. É importante incluir as regiões promotoras da análise, tal como os SNPs nas regiões promotoras foram associados com tumorigénese. Por exemplo, Bond

et ai.

Mostrou que um único polimorfismo de nucleótidos no promotor MDM2 poderia atenuar a via supressora de tumores p53 e acelerar a formação de tumores em seres humanos [25]. Passarelli

et ai. Mostraram que

SNPs no promotor da beta do receptor de estrogénio estão associadas com a sobrevivência de mulheres na pós-menopausa com CRC [26]. Os polimorfismos nas regiões dos genes UTR também foram encontrados estar relacionada com o cancro. Por exemplo, Zhang

et ai., Achou que um polimorfismo na região 3 ‘UTR do factor de crescimento I semelhante a insulina (IGF-1) gene prediz a sobrevivência de cancro do pulmão não pequenas células numa população chinesa [27] . . Hao

et ai, achou que um SNP (rs3213245, -77T C) no gene XRCC1 UTR 5 ‘contribui para a actividade do promotor diminuída e aumento do risco de cancro do pulmão de células não pequenas, [28]. Temos identificados e validados usando a plataforma de Sequenom vários SNPs que localizadas a 5 ‘ou 3’ UTR de genes (Tabela S6). Por exemplo, rs3106189 e rs8041394 de TAPBP de GTF2A2 localizada a 5 ‘UTRs e rs1051425 de ETS2 e rs1052918 de TCF3 localizada 3’UTRs (Tabela S6). O significado funcional destas SNPs permanece a ser determinada.

Nós escolhemos genes relacionados com a via de WNT, como o Atlas de rede Cancer Genome encontraram mutações em 16 genes diferentes nas vias WNT incluindo APC, CTNNB1, e FAM123B TCF7L2 [14]. Nós alargado a análise dos genes da via Wnt para regiões para além do exome analisado o Atlas de rede Cancer Genome, e a nossa abordagem tem o potencial para identificar aquelas mutações que modulam a expressão do gene ou splicing em adicional para a identificação das mutações estruturalmente prejudiciais nos exões .

Foram identificados um total de 2342 variações de sequência no CRC e correspondentes tecidos normais adjacentes. Entre eles, 738 eram novas variações de sequência com base em comparação com a base de dados de SNP corrente (dbSNP135; Tabela S1). Nós escolhemos 66 SNPs para validação em uma coorte separada de 30 tecidos CRC. Fomos capazes de confirmar a existência de SNPs em 56 dos 30 tecidos de CRC (Tabela S6), o que sugere uma taxa de validação de, pelo menos, 85% (56/66), considerando-se que algumas das falhas de detecção pode ser devido a diferenças na população de amostragem . Esta taxa de validação está em linha com a taxa de validação publicados de 85,4% para NGS utilizando a plataforma Illumina [29]. Além disso, foi relatado que várias plataformas de validação, incluindo a sequenciação de Sanger, pirossequenciao, Sequenom MassARRAY ou instantâneo Detecção SNP falta a sensibilidade para confirmar a sequência de variantes identificadas por profunda sequenciação em tumores, o qual pode ser contaminado com ADN a partir de tecidos normais ou que possam conter vários clones [30].

Foram identificados 14 missense mutações ex�icas no CRC e tecidos do cólon normal (Tabela 2). O SNP (G245R) no gene NEXN (Nexilin; proteína de ligação F actina) foi previsto para ter consequências funcionais. As funções do gene NEXN no cancro ainda não foram investigados. Dois novos SNPs na subfamília receptor nuclear 3, grupo C, membro 1 (NR3C1) e lisina acetiltransferase 5 (KAT5) genes foram encontrados apenas em tecidos CRC mas não em tecidos de cólon normais. KAT5 (também chamado TIP60 ou HIV-1 Tat proteína interactivo) é uma transferase de acetilo de histona (HAT), e que desempenha um papel importante na regulação da cromatina remodelação e na reparação do ADN e a apoptose [31]. No cancro colorectal, KAT5 regulação para baixo está associado a estágios mais avançados de câncer colorretal [32]. NR3C1 (aliás, receptor glicocorticóide) foi encontrado para ser epigenetically desregulamentado na tumorigénese colorectal [33]. Além disso, é hipermetilado NR3C1 um gene CRC com instabilidade microssatélite [34]. Estes novos SNPs nos genes KAT5 e NR3C1 garante confirmação, e estudos funcionais adicionais são necessários para avaliar as consequências funcionais das mutações e sua relação com o câncer, como se o SNPs imitaria os regulamentos epigenéticos destes genes.

também identificamos SNPs que podem afetar splicing exão porque eles localizar a ESE (exônico splicing potenciador) e ESS (exônico splicing silenciador), que são críticos em splicing exão. Por exemplo, foram identificados SNPs no elemento mais a montante (FUSÍVEL) proteína de ligação 1 (FUBP1), receptor alfa activado pelo proliferador de peroxisoma (PPARa) e factor de transcrição DP-1 (TFDP1) que podem afectar o splicing exão para estes genes, e estes os SNPs foram encontrados apenas nos tecidos CRC (Tabela 3). . Zhang

et ai mostraram que um SNP (-195 C T; dbSNP ID: rs1056932) que altera um potencial local de ligação para um potenciador de splicing exônico poderia afectar o risco de linfoma não-Hodgkin [35]. As consequências funcionais dos SNPs que localizam com as sequências de ESE ou ES em FUBP1, genes PPARa e TFDP1 justificar uma investigação mais

Nós determinamos que rs3106189, localizada na extremidade 5 ‘UTR da TAP proteína de ligação (tapasina;. TAPBP ), e rs1052918, localizada na extremidade 3 ‘UTR do TCF3, foram associados com a sobrevivência global dos doentes CRC (Tabela 7 e Figura 2) com taxas de risco atingindo 0,28 (P = 0,024) e 0,33 (P = 0,021), respectivamente. Estes dados sugerem que estes dois variantes de conferir efeitos protectores para pacientes de CRC. Curiosamente, uma outra variante que nós identificamos, o rs459552 no gene APC, foi relatado anteriormente para conferir um efeito protetor para CRC com odds ratio de 0,76 (IC = 0,60-0,97) entre os pacientes CRC [21]. No entanto, nós não analisar esse SNP pela tecnologia Sequenom e, portanto, não poderia avaliar se a descoberta também é verdade em nosso conjunto de dados.

TAPBP codifica uma glicoproteína transmembranar que medeia a interação entre recém-montado complexo principal de histocompatibilidade ( MHC) de classe I e o transportador associado com processamento de antigénio (TAP) [36]. Regulação negativa da expressão TAPBP foi observado para vários cancros, incluindo CRC, como um mecanismo de fuga imune de tumores humanos [37]. A perda da expressão TAPBP foi observada em 80% de neoplasia intra-epitelial de alto grau (HIN) em comparação com a mucosa colorrectal autólogo, em 63% de adenocarcinomas primários na fase III e 79% das metástases dos nódulos linfáticos correspondentes [38]. A introdução ex vivo de expressão TAPBP num modelo de carcinoma de pulmão de murino aumento da superfície de MHC de classe I e restaurada a susceptibilidade das células de tumor a reacção antigénio-específicos linfócitos T citotóxicos (CTL) que matam [39]. O rs3106189 SNP está localizado dentro de uma marca de histona H3K27Ac, ​​que é frequentemente encontrada perto elementos reguladores ativos, e dentro H3K9ac e H3K4me3 marcas (navegador genoma UCSC; Figura S1). Além disso, rs3106189 está localizada entre os sítios de ligação para vários factores de transcrição incluindo o factor de transcrição reguladora interferão 1 (IRF-1), IRF-2 e de IRF-7. A consequência funcional exata da variante no locus rs3106189 requer um estudo mais aprofundado

fator de transcrição 3 (TCF3; fatores E12 /E47 ligação E2A imunoglobulina potenciador). É membro do /LEF fator de transcrição da família TCF que é central na regulação da epiderme e da identidade de células estaminais embrionárias e está envolvido na via de sinalização Wnt [40]. No cancro da mama, TCF3 está envolvido na regulação do estado de diferenciação de células de câncer de mama e tumorigenicidade [40]. Além disso, a sobre-expressão de TCF3 é parcialmente responsável pelo fenótipo resistente butirato de CRC porque TCF3 suprime a hiper-indução de actividade de Wnt por butirato [41].

Deixe uma resposta