PLOS ONE: Genoma Ampla Identificação de genes do câncer recessivo por Combinatória Análise de Mutantes

Sumário

Eu inventei um novo procedimento para identificar genes de câncer humanos agindo de uma forma recessiva. Nossa estratégia foi combinar as contribuições dos diferentes tipos de alterações genéticas à perda da função: substituições amino-ácidos, frame-turnos, deleções de genes. Foram estudados mais de 20.000 genes em 3 gigabases de sequências codificantes e 700 de matriz hibridizações genômica comparativa. genes recessivos foram pontuados de acordo com descasamentos de nucleotídeos sob pressão seletiva positiva, quadro-turnos e deleções genômicas em câncer. Quatro ensaios diferentes foram combinadas obtendo-se um valor de p recessiva cancro para cada gene estudado. Foram identificados; Cento e cinquenta e quatro candidatos genes do câncer recessivo (1,5 × 10

-7, FDR = 0,39 p-value Aceito: 17 de setembro de 2008; Publicação: 10 de outubro de 2008

Direitos de autor: © 2008 Volinia et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelo Programa Projeto Grant No. P01CA76259 do Instituto Nacional do Câncer (CMC) e por doações da AIRC, PRRIITT Regione Emilia Romagna e MIUR (SV)

Conflito de interesses:. os autores declaram que não há interesses concorrentes existir.

Introdução

Uma variedade de abordagens foram aplicadas para a identificação de genes do cancro [1]. Os procedimentos foram desenvolvidos que permitiu a identificação de genes causadores de transformação celular [2], [3], e de processos complexos, tais como capacidade de invasão e metástase [4]. In vitro, e em métodos in vivo, utilizando modelos celulares e animais, levou geralmente à descoberta de genes do cancro, ou oncogenes dominantes. Por outro lado, os supressores de tumores foram descobertos principalmente por abordagens de genética molecular. Tal é a necessidade de identificar supressores de tumor adicionais, ou genes do cancro recessivos, que os novos testes para a perda de função continuará a ser desenvolvida [5].

Muitos genes do cancro bem caracterizados abrigar substituições de bases somáticas ou pequenas inserção /exclusões. Por exemplo, a região de codificação frame-mudanças e mutações pontuais responsáveis ​​por 75% das mutações somáticas no

CDKN2A Comprar e

TP53

, dois importantes genes supressores de tumor [6], [7], [ ,,,0],8]. O oncogene

B-raf

, descrita pela primeira vez há 20 anos, também foi mostrado para ser mutado em alguns cancros humanos [9], ao lado de

PI3K

e alguns tirosina fosfatases [10]. Enquanto isso, outros genes do cancro foram descobertos através do fenômeno da predisposição hereditária. Câncer familiar é rara em comparação com não-cancro hereditário, mas um número de genes recessivos foram identificados utilizando análise de ligação [11], [12]. projetos de seqüenciamento de super-família grande escala, isto é, os projectos kinome e phosphatome, seguido e mostrou que, embora mutações missense são encontrados em alguns membros destas duas superfamílias, eles não são um terreno comum para mutações cancerígenas somáticas. Greenman e colaboradores [13] empreendeu sequenciação completa de 518 genes de proteína-quinase que codifica-210 em cancros. Cinases têm sido implicadas em muitos aspectos da tumorigénese e vários já foram validados como alvos para terapia de drogas [14]. Em sua análise da coleção de quinases celulares, o kinome, Greenman et al. [13] identificou 1.000 mutações. As mutações foram relativamente comum em cancros do pulmão, estômago, ovário, cólon e rim, e raro em cancros do testículo e mama, e nos tumores carcinóides, que são normalmente encontradas no tracto gastrointestinal. Os tumores com defeitos na reparação do ADN-incompatibilidade abrigavam um grande número de mutações, enquanto que outros tipos de tumor não revelou mutações detectáveis. Para distinguir motorista de mutações de passageiros, Greenman et al. utilizado um modelo estatístico, comparando a relação observada-se esperado de sinónimo (nenhuma alteração de aminoácido) com mutações de que (aminoácido alterado) mutações não sinónimas. Um aumento da proporção de mutações não sinónimas implica pressão de seleção durante a tumorigênese. No geral, eles identificaram 158 mutações previu motorista em 120 genes da quinase. Em contraste com as mutações recorrentes em

BRAF

em melanomas malignos [15] mutações mais quinase identificados através de diferentes tipos de tumores foram sucessos, portanto individuais. Mais recentemente, Madeira e colaboradores [16] usou uma estratégia diferente, mas chegaram a conclusões semelhantes, com o sequenciamento completo de 20,857 transcrições de 18,191 genes em um número limitado de tumores (11 mama e 11 pontos). O elevado número de mutações no DNA detectados automaticamente fornecido imediatamente a seguinte pergunta: como identificar a partir de um potencial elevado número de sequência não corresponde aqueles que são causador da patogênese do câncer. Uma série de filtros subsequentes revelaram que a maioria deles era silenciosa (não resultou em mudança de aminoácidos) e uma quantidade similar foram polimorfismos de nucleotídeo único (SNPs). O número final de mutações que foram definidos como verdadeiramente somática afetou mais de 1000 genes. Curiosamente, algumas mutações comum do controlador foram identificados entre os genes da cinase nestes estudos. Isto é consistente, por exemplo, com a constatação de que apenas 1 em cada 18 membros do

PI3K

família tinha mutações somáticas no cancro [17].

observações interessantes podem ser feitas de forma precisa estudo global das mutações relatados no câncer. Futreal et ai. [18] realizaram um censo tão longo da bibliografia indicando que mais de 299 genes contribuem para o câncer humano. No entanto, 70% destes genes são associadas com leucemias, linfomas e tumores mesenquimais, que representam apenas 10% da incidência de câncer. Além disso, cerca de 75% desses genes estão associados com as translocações, e, pelo menos, 90% dos genes do cancro listados são dominantes no nível celular (isto é, oncogenes activados, oncoproteínas de fusão). No entanto, reconhece-se geralmente que a grande maioria das mutações da linha germinativa resulta em predisposição para o cancro são recessivos [18]. Assim, parece provável que a maioria dos genes do cancro são recessivos e ainda permanecem desconhecidas.

Por estas razões, inventou um novo método para a identificação de genes de câncer recessivos candidatos a partir de conjuntos de dados de escala genoma. Nós aplicamos o nosso novo processo de explorar dados de sequências e hibridizações genômica comparativa. Nosso método tem em conta os diferentes modos de inativação de genes, que variam de mutações pontuais para deleções de genes inteiros. O pressuposto subjacente a nossa investigação foi que, ao estudar os genes do câncer de diferentes perspectivas de mutação e combinando as respectivas probabilidades, o ruído sequenciamento e polimorfismos podem ser filtrados e genes recessivos câncer de boa fé seria identificado.

Resultados

Colhendo mutações candidatos de ESTs

neste trabalho, um novo método foi aplicado para a identificação de genes mutantes em cancros humanos não-hereditárias (Figura 1). A informação da sequência procedimento recolhida a partir do banco de dados de tag sequência de expressão (EST) e um algoritmo apropriado foi adaptado para extrair informações de dados de sequência de “baixa qualidade”. O procedimento analisadas mais de 3 × 10

9 nucleótidos de sequência de codificação humana em mais de 5,6 milhões de ESTs derivadas tanto de tecidos saudáveis ​​e cancerosas e linhas celulares. ESTs são potencialmente muito valioso para estudos de mutação, uma vez que representam clonados alelos individuais, mas também são sequências não verificados, com uma elevada taxa de erros de sequenciamento [19], [20]. Portanto, a fim de explorar todo o potencial dos ESTs tivemos que desenvolver um método para a detecção de mutações bona fide “câncer” em um contexto de erros de sequenciamento frequentes ou, na melhor das hipóteses, polimorfismos. Embora trabalhos anteriores [19] tentou avaliar taxa de erro de sequenciação em ESTs, seguimos uma rota alternativa. O nosso procedimento foi baseado no pressuposto de que a taxa de erros de sequenciação foi constante para cada gene humano, em cada posição de nucleótido. Como corolário, assumimos que o “/posição específica taxa de erro de sequenciação genética” era constante em bibliotecas normais e cancerosas EST. Desde composição de base, contexto e sequência são, por definição constante dentro de cada gene humano diferente, nós acreditamos estes pressupostos eram seguros. Únicas exceções seriam devido aos tumores abrigando defeitos de reparo do DNA.

O diagrama mostra as etapas do procedimento de avaliação das probabilidades de mutação e o fluxo de dados para a identificação de genes de câncer recessivos candidatos. Os dados moleculares foram extraídos de bases de dados públicas (dbEST e geo no NCBI, e Stanford Microarray de banco de dados). Um número muito grande de alinhamentos (mais de 4,5 milhões) foi obtida para mais de 24.000 genes humanos a partir da análise BLAST de 3 Gbases de sequências EST. Os alinhamentos foram analisada para extrair desemparelhamentos que foram depositadas na base de dados do cancro Mutome SQL local. Os desajustes foram então avaliados por meio de procedimentos específicos para associar valores de p mutação a cada gene humano. Em paralelo, quase 20.000 genes humanos foram testados a partir de 744 matriz CGH para definir sua propensão a eliminação no câncer. Os valores de p específicos de mutação foram combinados para produzir um valor de p cancro recessiva. Um subconjunto do genoma de 154 genes, entre os quais

TP53

,

PTEN

,

CDKN2A

e

CDKN2B

estavam presentes, foi selecionado (câncer valor-p . 1,5 × 10

-7)

ruído alta sequenciamento era esperado para estar presente no banco de dados EST heterogêneo e câncer é uma doença genética complexo e multifacetado, portanto, um único teste estatístico faria não resultar em seleção confiável de genes do cancro. Além disso, eu queria focar genes recessivos, inactivado pelos eventos que ocorrem. Assim, para ensaiar os diferentes modos mutacionais do gene recessivo do cancro, que em conformidade concebeu um número de testes mutacionais. Os testes estatísticos foram finalmente combinados para identificar os genes que muitas vezes são inativados no câncer.

A partir do repositório de mRNA humano RefSeq, 27,184 sequências (consultas definidas) foram alinhados com mais de 5,6 milhões de ESTs humanos, a partir de 7574 diferentes bibliotecas de EST, para um total de quase 3,0 Gbases de sequência de codificação. Explosões [21] foram executados para cada consulta contra os ESTs e 3,839,543 alinhamentos de sucesso foram produzidos (armazenado na tabela de Alinhamentos SQL do banco de dados Cancer Mutome) para 24.932 consultas humanos (tabela de banco de Estatísticas). Uma média de 150 visitas (pares de pontuação alta, HSP. Ou sequências) foi produzido para cada consulta (gene humano ou variante splicing). O controle dos alinhamentos BLAST qualidade era da importância mais importante para a nossa estratégia. De modo a minimizar a extracção de quaisquer erros técnicos que definido um limite de qualidade rigoroso alinhamento (expect≤1E-21) e as extremidades de baixa qualidade de alinhamentos foram descartados. Todos (43,965,904) nucleótidos incompatibilidades e lacunas /inserções, foram registrados na tabela de Mutações do banco de dados. aminoácido (AA) e substituições paragens prematuras (33,614,754 de emparelhamentos errados) foram, em seguida, seleccionados a partir dos alinhamentos (tabela AA_Mutation). Para reduzir a complexidade e o número esperado de falsos positivos, decidimos avaliar apenas os genes com um elevado número de incompatibilidades (independentemente do estatuto câncer de amostras). A pré-processamento com base no intervalo inter-quartil (IQR) foi, portanto, aplicada e 8,972 genes (IQR superior a 0,5) foram retidos para posteriores ensaios de mutação câncer. Estes genes eram suficientemente rica em mutações putativas (inadequações) para cumprir o papel de potenciais candidatos do gene do cancro.

O primeiro componente da nossa estratégia foi a identificação de genes com mutações pontuais de inactivação. Foram avaliadas as mutações pontuais de acordo com frequência, a localização, a capacidade para alterar a sequência de aminoácidos, e as consequências no quadro de leitura. Nosso procedimento foi, assim, adaptada para considerar estatisticamente todos os recursos acima de um ponto de mutação.

A mineração de dados para substituições de aminoácidos e rescisões prematuras

Foi definido pAA como a probabilidade de que um gene exibe uma excesso de substituições de aminoácidos para o cancro, quando comparado com amostras não cancerosas. pNSSR, em vez disso, indica a probabilidade de que as significativas aminoácidos substituições nas amostras cancerosas estão sob pressão de selecção positiva. Para detectar curto agrupamento gama de mutações cancerígenas, comuns no câncer de genes recessivos, e para equilibrar o ruído, ou seja, erros de sequenciamento, optamos por um teste t pareado acoplado a uma janela deslizante. Nós normalizou as contagens dos desajustes na duas classes, e controle do câncer, usando um gene fator específico específico e posição. contagens de incompatibilidade nulos foram ajustados para a unidade, antes da normalização. Os valores de normalização foram obtidos, e para cada gene em cada posição de nucleótido, tal como os rácios dos locais nucleótidos sequenciados nas amostras de cancro e de controlo. O teste t emparelhado (cancro vs. controlo, emparelhado para os codões) foi aplicado a uma janela deslizante com um comprimento de 25 codões. Para realizar um ensaio robusto um codão foi avaliada somente quando alinhadas, pelo menos, 10 vezes em cada classe (e controlo do cancro). os limites de confiança específico para o gene de pontuação T, onde gerados por análise de bootstrap e um p-valor de limiar de 0,05 foi usado para seleccionar as posições de aminoácidos significativas. Para cada gene humano, um valor de p (PAA) foi finalmente associada à soma dos picos correspondentes às pontuações T significativas. A discordância de sequência foi gravado apenas uma vez para cada biblioteca EST.

Uma sobre-avaliação do PAA pode ser devido a mutações de passageiros, tais como os produzidos por sistemas de reparo de DNA alteradas, prevalente em alguns câncer. Desde mutações de passageiros devem ser distribuídos aleatoriamente ao longo do genoma, um teste adicional foi, portanto, implementado para refinar o PAA. A proporção de não-sinónimo (NS) para sinónimas mutações de ADN (S) é uma medida da pressão selectiva durante a progressão tumoral, como sinónimas alterações não são susceptíveis de exercer uma vantagem de crescimento e será selectivamente perdido [17]. Além disso, desfasamentos devido a erros de sequenciação, bem como representação diferencial (cancro para expressão diferencial normal), são esperados ser neutro em relação aos ns a relação S. Os codões significativas para as substituições de aminoácidos (p 0,05) foram ensaiadas, por conseguinte, para a pressão positiva. Como prova de conceito-os rácios de NS /S na região

TP53

mutado foram analisados ​​pelo teste t pareado (p 0,033, FDR = 0,092) e revelou valores mais elevados no cancro do que no controle. Assim, foram aplicados os NS para teste da razão S para cada gene, em cascata depois disso para a frequência de mutação local (PAA) descrita acima. Bootstrap foi novamente utilizada para definir os valores de p. A probabilidade de uma proteína de cancro com frequentes mudanças de aminoácidos (PAA), acoplado a pressão positiva selectiva no cancro (pNSSR), dois acontecimentos que não são independentes, foi definido como a média dos dois respectivos valores de p (PAA-NSSR).

a mineração de dados para o frame-mudanças na ESTs cancro

Tendo definido para cada gene humano um p-valor para substituições de aminoácidos causais em cânceres esporádicos, precisávamos de um índice correspondente para a inativação do gene devido à quadro de leitura aberta desloca em exons. genes do cancro pode ser perturbada por micro-inserções ou -deletions na sua sequência de codificação, o que resulta em uma estrutura primária alterada. Um genoma ampla pesquisa da nossa base de dados incompatibilidade indicou que alterações de nucleotídeos únicos foram, de longe o mais comum inserções /eliminações em ESTs. Nós indicado com pFrameshift a probabilidade de que um gene tinha um excesso de frame-turnos, devido a delecções de um único nucleótido /inserções no cancro, em comparação com tecidos controlar. Nós testamos a hipótese de que estas mutações foram freqüentes em genes do cancro, através do estudo de novo

TP53

. Nosso ensaio mostrou que de nucleotídeo único frame-deslocamentos associados ao câncer foram enriquecidos de forma não aleatória no

TP53

. Ao olhar para o frame-mudanças induzidas por 1 inserções de nucleótidos /supressões, um teste análogo ao de pAA foi projetado, conforme detalhado em procedimentos experimentais, para gerar pFrameshift.

Identificação de genes suprimidos no câncer de gama alta resolução hibridação genômica comparativa

genes do cancro podem ser afectados na sua estrutura genômica por grandes amplificações e exclusões. genes do cancro recessivos são esperados para ser excluído ou não inactivada e este componente deve ser incluído no nosso modelo mutacional. Nós, portanto, atribuído a cada p-valores de genes humanos para exclusão no câncer. Para obter tais valores de p, que compilou dados de alta resolução hibridizações genômica comparativa de 744 tumores no banco de dados GeoSoft. Usamos matriz CGH (aCGH), obtido a partir de GEO (NCBI) e SMD (Stanford Microarray Banco de Dados), com resolução suficientemente alta para distinguir os genes humanos (informações para amostras e conjuntos de dados na Tabela suplementar S1). Cada amostra de tumor foi comparada com uma amostra de controlo saudável sobre uma plataforma de base oligonucleótido dois canais. Os genes humanos foram avaliados em cada amostra, utilizando o rácio normalizado log2 (tumor ao longo do controlo). Diferentes sondas relacionadas com o mesmo gene foram em média. símbolos de genes foram utilizados como chaves para identificar inequivocamente um gene dentro e entre plataformas. Os dados foram normalizados de acordo com os fornecedores. Como uma etapa de pré-processamento que reduziu a complexidade do ensaio, retendo apenas os genes com alta variabilidade (desvio padrão de log

proporção de 2 0,2). Em seguida, para cada gene foram computados os percentis da log

2 rácios (apenas para os genes medido em pelo menos 300 amostras). Um gene afetado por eliminações em tumores que possuem um registro baixo (negativo)

2 proporção de 5

thpercentile, enquanto outro com amplificações que apresentam um elevado (positivo) 95

percentil.

Bootstrap análise (swap aleatória entre os canais de tumor e controle) foi utilizado para simular gene específico th 5

e 95

th percentis. Então, p-valores específicos de genes para deleções (pDeletion) foram finalmente calculado como o percentual de simulado 5

percentil superior ao real 5

th percentis. Nesta fase, nós tivemos que levar em consideração dois fenômenos, associados a aCGH mas não ligados ao câncer: cromossomas sexuais e as variações no número de cópias estruturais polimórficos (CNVs). A amostra de controlo era frequentemente em aCGHs de macho (mais de 50% de aCGHs), enquanto aproximadamente metade dos tumores eram de origem do sexo feminino e, portanto, não tinham o cromossoma Y. Por isso eram esperados os genes do cromossomo Y apareça como excluído, ou melhor “pseudo-excluídos”. Por outro lado, esperávamos os genes do cromossomo X, excepto para aqueles pertencentes à região pseudo-autossômica, para aparecer como “pseudo-amplificado”. Os genes localizados nos cromossomas sexuais na verdade comportou-se correctamente, como se mostra em pormenor da região pseudo autossómica-1 (PAR1) em Xp22 (Figura suplementar S1). Polimórfica CNVs, de variabilidade população normal e não está ligado ao câncer, também deve levar a grandes fold-mudanças, resultando em alta de 95

th ou baixa 5

th percentis. No entanto, espera-se que polimórfica CNVs, não associadas ao câncer, não exibir valores pDeletion significativos. Na verdade os seus 5

percentil não iria qualificar como significativo após a simulação de troca aleatória.

CDKN2A

e

CDKN2B

foram identificados como os genes mais excluídos em cancros humanos;

PTEN

,

ATM

, e

TP53

também foram identificados como (valores de p 0,001) suprimido. Três mil e trezentos e setenta quatro genes foram significativamente suprimido (p 0,001)

Combinação de mutação analisa:. Os genes candidato câncer recessivo

genes do cancro são afetados por diferentes tipos de mutações pontuais e de alterações cromossômicas. Foi definido um gene do cancro candidato como recessivo quando afectados por mutações potencialmente levando à perda da função; isto é, quando foi frequentemente mutado na sua região de codificação e frequentemente alterados na sua estrutura genómica, em particular eliminado. A combinação dos testes de largura diferente do genoma produzido um p-valor para genes do cancro recessivos. O valor de p do gene do cancro recessiva (pRecessiveCancer) foi definido como o produto dos três valores de p (PAA-NSSR, pFrameshift, pDeletion). Cento e cinquenta e quatro genes humanos foram incluídos na lista gene candidato final após a análise de mutações combinatória foi realizada (pRecessiveCancer 1,5 × 10

-7). O número de câncer de genes recessivos em uma simulação por associação aleatória dos quatro testes de mutação foi de 60,5 (taxa de detecção falsa de 0,39). A seleção pela abordagem combinatória apareceu para ser mais específico, uma vez que três genes do cancro recessivos clássicos,

TP53

(16

th posição),

PTEN

(92

nd) e

CDKN2A

(135

th) foram detectados. Quando comparamos o gene-set candidato a todo o genoma, nenhum grande preconceito surgiu no sentido de tamanho de genes e polimorfismos estruturais, como esperado de um procedimento estatístico bem-comportado. Os tamanhos do gene do cancro recessivos não diferiu significativamente da de todo o genoma humano (Figura suplementar S2). Quando se considerou variações no número de cópias, o gene-definido cancro continha 15 polimórfica CNVs (15/154 ou 10%), enquanto que 13,6% de todos os genes marcados para pDeletion continha pelo menos uma CNV. Esta diferença em proporção não foi significativa (p 0,05), sugerindo que não houve falso enriquecimento para CNVs pelo nosso método, como esperado pela concepção do algoritmo

ontologia genética e análise funcional

os mecanismos e vias funcionais associados com o câncer de genes recessivos foram avaliados estatisticamente. O enriquecimento em Gene Ontology (GO) termos foi avaliada usando EASE, pelo https://david.abcc.ncifcrf.gov. Os processos biológicos significativamente afectados no conjunto de genes do cancro estão listados na Tabela S2 suplementar. Os termos GO significativos agrupados por agrupamento funcional EASE foram: ligação ATP /nucleotídeo, a morte celular /apoptose, ciclo celular, mitocôndria, a ligação RNA, metilação, supressor de tumor, o metabolismo do DNA e reparo do DNA (EASE enriquecimento pontuação 2, a facilidade P- valor 1 × 10

-4, Benjamini p-valor 0,01). Um espectro funcional altamente sobreposição foi obtida para os genes do Censo Cancer [18]. As exceções mais notáveis ​​para as ontologias que se sobrepõem nas duas câncer Gene-conjuntos foram relacionadas com “proteína tirosina quinases”, ausentes da lista recessivo candidato. Estas proteínas são uma das classes mais representadas de oncogenes, ou genes do cancro dominantes. Uma classificação funcional semelhante ao do EASE foi obtido com bingo e Cytoscape (dados não mostrados), em que alguns dos processos celulares mais importantes identificados foram envolvidos na patogénese do cancro, tais como ciclo celular, morte celular /apoptose (corrigido p-valor 1 × 10

-3). Finalmente, geramos um controle conjunto de genes humanos por acaso associar os p-valores dos quatro testes de mutação. Quando EASE e bingo foram aplicados a este controle definido, não foram identificados termos GO significativos.

Discussão

Eu inventei e aplicado um ensaio de mineração de dados do genoma multi-tier para a identificação de genes propensos a “do tipo recessivo” mutações no cancro. Os valores de p resultantes de cada camada foram combinadas para produzir um “gene recessivo câncer” p-valor (Tabela 1 e 2). Três das câncer genes recessivos mais notáveis, ou seja,

TP53

,

PTEN

e

CDKN2A

, classificou 16

th, 92

º e 135

th, respectivamente, entre todos os genes humanos testados. O diagrama de blocos do nosso raciocínio e o fluxo de dados são mostrados na Figura 1. Os testes podem ser subdivididos em dois grupos: um para a detecção de mutações pontuais (substituições de aminoácidos e frame-turnos) e um para a alterações estruturais (grandes deleções). Em princípio, também poderia ter usado um teste para deleções de genes parciais, mas em ESTs rearranjos intra-gene pode ser confundida com splicing exão alternativo.

A probabilidade de uma proteína tendo mutações de aminoácidos e frame-turnos no cancro, eventos que são independentes, foi definido como o produto dos seus respectivos valores de p. Basta utilizar estes dois testes, o protótipo

TP53

e

PTEN

genes do cancro nº 205

th e 233

rd de 27,184 transcritos humanos avaliados (valor-p 1 × 10

-4). Além disso, dois outros genes do câncer recessivo bem conhecidos,

CDKN2A

e

CDKN2B

, também tiveram valores de p significativos, embora rankings mais baixos (p 0,0025 e FDR = 0,019, respectivamente). Este comportamento era esperado para os genes que codificam as regiões com pequenas, que podem ser eliminados mais comummente mutado de [6]. Sua presença no câncer de mutações pontuais gene-conjunto significativo, mesmo nesta fase intermédia, tranquilizou-nos das capacidades de seleção do nosso algoritmo. No entanto esta classificação inicial, inteiramente baseado em mutações pontuais, foi compilado apenas de dois testes de mutação; Assim, baseando-se em dados de sequenciamento de EST, ele ainda não era confiável de acordo com o nosso modelo que incorporou um modo de mutação adicional. Deve notar-se que não definido para identificar translocações, alterações esperado a ser dominante no nível celular e, portanto, não é adequado para a busca de genes recessivos.

O último teste, com base na análise aCGH, que confirmou uma parcela muito grande do genoma humano é frequentemente suprimida no câncer. Como esperado para o nosso 2 canais procedimento aCGH, foram detectados corretamente genes cromossomo sexual como diferencialmente representados nas telas do genoma. Em particular, devido à resolução do nosso ensaio estrutural, os genes da região pseudo autossómica-1 foram identificados como diplóide normal (Figura suplementar S1). Mais importante ainda, seria de esperar que CNVs polimórficas não tinha filtrado através do ensaio aCGH. Na verdade, apenas uma pequena percentagem de genes do cancro coincidiu com CNVs polimórfico e este percentual é ainda menor do que o esperado por acaso (Tabela 2).

O número de deleções detectadas por aCGH no genoma do câncer é muito alta (mais do que 10% dos genes humanos foram eliminados no cancro). Não obstante este excesso de eliminação, quando todos os modos de mutação são incluídos, o número de genes candidatos é inferior a 0,5% do genoma humano analisada.

O cancro produtos de genes estão envolvidas em processos biológicos, tais como ciclo celular, a reparação do ADN e apoptose, de acordo com a literatura. Os mesmos termos funcionais também estão associados aos genes no cancro Census CÓSMICA [18]. Surpreendentemente, tirosina quinases, oncogenes dominantes, presentes no Censo Câncer, estavam ausentes do nosso câncer gene-set, de acordo com a seleção de genes recessivos.

Alguns fortes limitações são inerentes à nossa abordagem. É pouco provável que os deslocamentos de quadro-gravados são polimorfismos, uma vez que elas alteram a estrutura primária dos produtos de gene. Por outro lado, eles podem ser muito muitas vezes resulta de erros de sequenciamento. Por esta razão, nós escolhemos para filtrar para fora, tanto quanto possível, os erros de sequenciação, utilizando um teste t emparelhado ao longo de uma janela deslizante. Outra controvérsia pode estar relacionado com o carácter somático das mutações detectadas. Uma vez que praticamente não há sequências de linha germinal correspondente para as bibliotecas de tumor na base de dados EST, não pode haver qualquer demonstração formal de que os genes seleccionados correspondem aos alvos de mutações somáticas. Não podemos estabelecer a forma como muitas das incompatibilidades detectadas são mutações reais, nem quantos deles são realmente de origem somática. Nós só poderia anexar a cada gene humano um p-valor para o excesso de incompatibilidades com gene potencial de inactivação em amostras de câncer. A presença de

TP53

,

PTEN

e

CDKN2A

nas candidato as suas características funcionais set-gene e, são evidências a favor da hipótese de que medimos um excesso de mutações cancerígenas somáticas. Seremos capazes de refutar essa hipótese usando vários protocolos experimentais. Por outro lado, é possível que alguns dos genes candidatos pode suportar mutações germinativas e, portanto, constituem traços predisposição para insurgence câncer.

Quando comparamos os nossos resultados com os do enorme projeto de seqüenciamento recentemente publicado, surgem algumas diferenças. Nós usamos uma quantidade maior de dados de sequenciamento, embora de qualidade inferior, uma vez que não utilizar os dados de sequenciamento segunda passagem. Obteve-se a partir de dbEST um número de desemparelhamentos cerca de 5 vezes maior do que o genoma telas de sequenciação de largura. Este excesso pode ser devido à sequenciação de dados mais baixa qualidade em ESTs ou a maior sensibilidade da nossa abordagem em relação à sequenciação directa baseada em PCR. A detecção de mutações sub-representados em biópsias de câncer muitas vezes heterogêneos pode ser um desafio técnico para sequenciação directa, mas não para ESTs clonados.

ESTs foram usados ​​em tentativas anteriores para identificar genes relacionados com o cancro. Quase invariavelmente, estas abordagens foram baseadas no perfil de expressão, que em amostras de tumor e é, provavelmente, se correlaciona eventos tardios, entre os passos principais para o desenvolvimento e progressão do tumor. Em um esforço de mineração de dados muito diferente em sequências EST no cancro, Qiu e colaboradores [20] medido associação SNP-tumor. A sua análise foi altamente focada em desemparelhamentos de nucleótidos individuais, e restrita a mutações conhecidas descritas na base de dados de SNP e presente em pelo menos 50 visitas de EST. Eles identificaram 4.865 SNP frequente em tumores (p 0,05), dos quais 327 substituição de aminoácidos induzida (CSNP). Muitos complexo principal de histocompatibilidade (MHC) moléculas de classe II estavam presentes entre esses SNPs de codificação, embora nenhum estava presente no nosso câncer gene-set recessivo. Mais importante ainda, não há genes do cancro marco, tais como

TP53

,

PTEN

e

CDKN2A

estavam presentes dentro cSNPs. Finalmente, nenhum dos genes SNP detectados por Qiu et al. [20] estavam presentes em nosso candidato recessivo conjunto de genes do câncer

O câncer minutos recessivo sub-genoma ( 0,5%). Identificamos pode representar um marco para a identificação de novos marcadores para o diagnóstico precoce e prognóstico. Além disso, a estratégia de mineração pode ser aplicada aos dados que estará disponível sobre o sequenciamento de genomas de cancro [22]. Finalmente, o nosso trabalho pode conduzir a um equilíbrio diferente dentro do pool de genes do cancro, actualmente é desequilibrada no sentido de oncogenes dominantes.

Materiais e Métodos

EST mineração de dados

Todos codificação humana

Deixe uma resposta