PLOS ONE: Next-Generation Análise de Sequência de Câncer xenoenxertos Models

Abstract

Next-Generation Sequencing (NGS) estudos em câncer são limitados pela quantidade, qualidade e pureza de amostras de tecido. Nesta situação, xenotransplantes primários têm provado modelos pré-clínicos úteis. No entanto, a presença de células de estroma derivadas de rato representa um desafio técnico à sua utilização em estudos NGS. Examinamos esse problema em um modelo de xenotransplante primário estabelecido de câncer de pulmão de pequenas células (CPPC), um tumor maligno frequentemente diagnosticado a partir de amostras de biópsia ou aspirado pequena agulha. Usando um

in silico

estratégia que atribua lê acordo com a espécie de origem, comparamos prospectivamente dados NGS de modelos de xenotransplante primárias com linhas de células encontradas e com conjuntos de dados publicados. Mostramos aqui que a baixa cobertura da análise de todo o genoma demonstrou concordância notável entre os dados do genoma publicados e controles internos, apesar da presença de DNA genómico de ratinho. captura exome sequenciamento revelou que este processo de enriquecimento foi altamente espécie-específico, com menos de 4% de leituras alinhando ao genoma do rato. expressão específica de humano perfilar com RNA-Seq replicados experimentos de expressão gênica com base na matriz, enquanto perfis de transcrição específicos do rato correlacionadas com conjuntos de dados publicados a partir estroma câncer humano. Concluímos que xenotransplantes primários representam uma plataforma útil para a análise NGS complexo na pesquisa do câncer para tumores com recursos amostra limitada, ou aqueles com populações de células do estroma proeminentes

Citation:. Rossello FJ, Tothill RW, Britt K, Marini KD , Falzon J, Thomas DM, et al. Análise Sequence (2013) Next-Generation of Cancer xenoenxertos Models. PLoS ONE 8 (9): e74432. doi: 10.1371 /journal.pone.0074432

editor: William B. Coleman, University of North Carolina School of Medicine, Estados Unidos da América

Recebido: 29 Abril, 2013; Aceito: 01 de agosto de 2013; Publicação: 26 de setembro de 2013

Direitos de autor: © 2013 Rossello et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O financiamento para este trabalho foi fornecido pelo National Health and Medical Research Council of Australia (Project Grant 546204), o Programa de Apoio à infra-estrutura operacional Governo de Victoria, ea Agência Cancer vitoriana. Financiamento para aberto tarifa de acesso: Cancer Agência vitoriana. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. Sr. Erwin Tantoso é empregado por Partek SG Pte. Ltd. Este não altera a adesão dos autores para todas as políticas de PLoS One sobre os dados e materiais de compartilhamento. Os outros autores não declararam conflitos de interesse em potencial.

Introdução

Embora a aplicação da tecnologia NGS à investigação do cancro levou a avanços dramáticos na compreensão da base genómica dessas doenças, a profundidade e complexidade dos dados de sequenciação está negativamente correlacionada com a quantidade e qualidade da amostra de tumor utilizado para análise [1]. Além disso, muitos tumores comuns, tais como o cancro pancreático, são caracterizadas por infiltração extensa de elementos estromais, reduzindo, assim, o limite de detecção para raros, variantes específicas cancerosas [2]. Como resultado, os cancros comuns diagnosticadas por pequenas biópsias são vastamente representada nos estudos NGS, que dependem predominantemente em amostras de tecido cirurgicamente ressecado.

Uma abordagem para ultrapassar este problema é a utilização de modelos de xenoenxerto primárias, em que as pequenas amostras de tecido podem ser directamente enxertada, expandido e passados ​​em ratinhos imunodeficientes sem exposição a condições de cultura de tecidos convencionais [3]. Embora as células tumorais são mantidos em ratinhos imunodeficientes, nós [4], e outros [5] – [7], demonstraram que eles mantêm as características importantes do tumor primário que, de forma importante, estão irreversivelmente perdidos em cultura de células [2], [ ,,,0],4]. Além disso, apesar do facto de o componente do estroma é derivado de rato, os modelos de xenoenxerto primários têm sido utilizados com sucesso para a investigação pré-clínica de uma variedade de sistemas de sinalização autónomos e estromais derivadas de células de importância terapêutica para o cancro [7].

com base nestes dados, xenotransplantes primários poderá constituir uma plataforma útil para a análise NGS quando o tecido de câncer é limitante. Ding

et al.

[8], em um estudo que teve como objetivo identificar mutações somáticas e variantes estruturais de câncer de mama basal-like, estimadas por técnicas de patologia a composição tumor para, em seguida, calcular e ajustar o número ler tumor. Com base nas estimativas de patologia, os autores usam uma correção determinista de contaminação do tumor por contagens de leitura normais, o que afeta a freqüência do alelo mutante, e aplicou-a apenas as amostras de tumores e metástase de primário. Supunha-se que, devido à baixa taxa de mapeamento da especificidade ao hospedeiro lê ao genoma do enxerto, sem correção profundidade de leitura foi necessário para a amostra de xenotransplante.

Em nossa opinião, a presença de DNA do rato contaminando e RNA afeta a sensibilidade e especificidade da análise NGS nestes modelos de tumores que não devem ser baseados em estimativas da celularidade, mas deve ser precisa e sistematicamente abordadas. Além disso, uma vez que a maioria das técnicas atuais NGS utilizar a metodologia shotgun-sequenciação, a resolução de qualquer artefato potencial poderia ser realizada

post-hoc

durante análises de bioinformática, que inequivocamente identificar as espécies de origem lê. Esta questão tem sido discutida anteriormente para ultra alto rendimento cDNA sequenciamento (RNA-Seq) por Conway

et al.

[9] e Raskatov

et al.

[10], que encontrou variável quantidades de sequenciamento derivada do hospedeiro lê. Aqui, nós prospectivamente analisou a capacidade de um

in silico

fluxo de trabalho projetado para atribuir definitivamente espécies de origem para NGS lê em vários modelos de xenotransplante previamente caracterizados primárias e de células derivadas de linha de SCLC, e comparou estes resultados com conjuntos de dados publicados.

Materiais e Métodos

Ética Declaração

Todos os experimentos envolvendo animais foram previamente aprovado pelo Comitê de Ética um animal na Universidade de Monash e foram realizadas em conformidade com o ” Código australiano de Prática para o Cuidado e Utilização de animais para fins científicos “.

células

os CPPC linhas de xenotransplante primária LX22, LX33 e LX36 foram passadas como descrito anteriormente [4]. Em resumo, os tecidos ressecados a partir de pacientes com SCLC quimio-ingénuos foram usadas para gerar amostras de xenoenxertos primárias. As amostras de tumor foram finamente picados com lâminas de barbear estéreis, triturou-se em 1 x PBS, filtrado através de um filtro de malha de 60 um, centrifugadas e ressuspensas em 500 mL de Matrigel (BD Biosciences) a 4 ° C. As células processadas foram depois injectados subcutaneamente nos flancos de ratinhos imunodeficientes não-diabéticos obesos /graves combinadas. Uma vez que os tumores atingiram um diâmetro P0 de 1 cm, o rato foi sacrificado e o tumor ressecado foi dividida em secções para congelamento de engate ou passagem em série. tumores de xenoenxerto foram preparados por passagens seriadas

In vivo

como descrito acima e as células foram injetadas nos flancos de ratinhos nus atímicos em Matrigel. amostras de tumores congelados passadas e os snap eram rotineiramente caracterizado por histopatológico e imunoistoquímicos do tumor principal [4].

linha de células autenticados NCI-H209 foi adquirida da ATCC, re-derivado de um clone de célula única usando a única clonagem de células por diluição em série (Corning, Tewksbury, MA, EUA) e depois cultivadas

in vitro

e in vivo como descrito em Watkins

et ai.

[11]. ADN a partir de amostras foi extraída utilizando DNAeasy tecido e Blood Kit (Qiagen, Santa Clara, CA, EUA) de acordo com as instruções do fabricante. RNA foi purificado usando miRNeasy Mini Kit usando QIAzol (Qiagen, Santa Clara, CA, EUA), seguindo as instruções do fabricante.

Preparação de Sequenciamento bibliotecas

exome e de baixa cobertura re- DNA todo o genoma sequenciação: ADN alvo (3UG) foi primeiramente cortado usando um dispositivo acústico focal (Covaris, Woburn, MA, EUA). bibliotecas de fragmentos de DNA para exome re-sequenciação e de baixa cobertura de sequenciamento de genoma completo foram construídos a partir de DNA cortado por etapas sequenciais de fim-de reparação, A-tailing e ligação de sequências adaptador compatível lllumina indexada (TruSeq DNA, Illumina, San Diego, CA , EUA). Para exome re-sequenciação, PCR amplificados foram bibliotecas de fragmentos de ADN enriquecido para a captura por hibridação exônico longo oligonucleótido de acordo com o protocolo do fabricante (SeqCap EZ exome Biblioteca v3.0, Roche NimbleGen, Madison, WI, EUA). Por baixo de uma cobertura de todo o genoma, as bibliotecas amplificadas por PCR foram tamanho seleccionado para capturar ADN de comprimento 500-700nt, utilizando uma plataforma de electroforese automatizada (Prias Prep, prudente Science Inc., Beverly, MA, EUA). Todas as bibliotecas de sequenciação foram quantificados utilizando PCR em tempo real contra uma biblioteca de concentração conhecida e, em seguida, processado para a geração de aglomerado e sequenciação de acordo com os protocolos padrão (HiSeq 2000, Illumina, San Diego, CA, EUA).

RNA- Seq.

RNA total foi verificada a qualidade e rendimento por eletroforese microfluídico automatizado (Bioanalyzer 2100, Agilent Technologies, Santa Clara, CA, EUA) e espectrofotômetro (NanoDrop, Thermo Scientific, Wilmington, dE, EUA). bibliotecas de RNA-Seq não direccionais foram criados de acordo com o protocolo do fabricante (Truseq RNA-Seq Biblioteca Prep Kit v2, Illumina, San Diego, CA, EUA). Resumidamente este método envolveu passos sequenciais de enriquecimento de mRNA a partir 3UG ARN total, a fragmentação do ARN por aquecimento na presença de catiões bivalentes, uma transcrição reversa preparado de forma aleatória e síntese de ADNc da segunda cadeia seguido de preparação de bibliotecas de fragmentos de ADN utilizando adaptadores compatíveis Illumina e amplificação por PCR como descrito anteriormente para bibliotecas de DNA.

Todas as amostras foram avaliadas separadamente para a qualidade da leitura global usando FASTQC (https://www.bioinformatics.bbsrc.ac.uk/projects/fastqc) e baixa qualidade leituras foram filtrados e foram duramente aparada usando Trimmomatic (pontuação mínima média Phred, 6 bases consecutivos, de 20 e um comprimento mínimo ler de 50nt, Tabela S1) [12].

conjuntos de dados de sequenciamento profundas-primas estão disponíveis ao público no Centro Nacional de biotecnologia Curto Informações Leia Archive (número de acesso SRA082685).

estratégia para isolar e identificar as espécies de origem NGS lê

a estratégia proposta se assemelha ao descrito por Conway

et al.

[9], mas difere em vários aspectos importantes. Em primeiro lugar, um alinhamento primário para o genoma do enxerto, neste caso, o genoma humano, é realizado, onde as leituras são divididos em mapeada-enxerto e enxerto-desmapeado lê; Em segundo lugar, ambos mapeados-enxerto e enxerto-desmapeado de leitura-conjuntos são realinhados com o genoma do hospedeiro, neste caso, o genoma do rato, para identificar mais comum enxerto-hospedeiro e especificidade ao hospedeiro lê respectivamente; por último, comum enxerto-hospedeiro leituras são filtrados a partir do conjunto de leitura obtida no alinhamento principal para obter específicas do enxerto lê. Neste estudo, os processos de identificação e classificação foram realizados

via

coleta e comparando os ids de leitura do host /alinhamentos de enxerto, produzindo lê em formato FASTQ. Como resultado, específico do enxerto identificado leituras foram re-alinhados ao genoma do enxerto.

alinhamentos subsequentes produziu três conjuntos de dados alinhadas separadas,

i. e.

, lê-se que só poderia ser mapeado para o genoma humano, que lê foram exclusivamente mapeado para o genoma de ratinho e lê-se que mapeada para ambos os genomas. Além de analisar RNA-Seq ler conjuntos, verifica-se ainda mais essa estratégia para baixo a cobertura de todo o genoma e exome de captura de experimentos de seqüenciamento. Uma visão completa descrevendo todos os passos incluídos na estratégia proposta é mostrada na Figura 1. Para cada alinhamento, mapeados e não mapeados lê contidas nos arquivos SAM /BAM formatado [13] foram filtradas com base no seu estatuto de bandeira bit a bit usando Samtools [13], um script Perl personalizado que recolheu identidades de leitura exclusivos da alinhado /desalinhada SAM formatado arquivos e filtrado-los a partir dos arquivos fastq cru, [Simon Andrews, 2010, Seqanswers.com [14]. Disponível em: https://seqanswers.com/forums/showpost.php?p=25302 postcount=3] eo software cmpfastq_pe, que, em comparação arquivos fastq matéria-par-end e relatou comum e único lê (http: //compbio .brc.iop.kcl.ac.uk /software /cmpfastq_pe.php).

Os componentes de software utilizados em cada etapa também são especificados. As linhas contínuas representam o principal caminho analítico seguido e as linhas tracejadas representam passos auxiliares.

pontuações de mapeamento foram utilizados para avaliar a qualidade de mapeamento das amostras processadas e para descartar mais de múltipla batida lê. Como regra geral, assumiu-se que uma maior qualidade de mapeamento significa uma leitura mais “original” alinhadas e para a maioria das amostras, uma elevada percentagem dos lidos pares tinha uma qualidade de mapeamento acima de 20 (Tabela S2).

análise do transcriptoma

análise de transcriptoma inteira de três xenoenxertos primários SCLC foi realizada através de RNA-Seq utilizando as plataformas de sequenciamento 2000 GAIIX e HiSeq (Illumina, San Diego, CA, EUA). O experimento foi emparelhado-end com 100NT comprimento de leitura (tamanho de inserção médio 300nt). O número mínimo alvo de leituras por amostra foi de 40 milhões de lê (Tabela S1).

A fim de identificar e enxerto inequivocamente separado (humano) e host (mouse) lê, lê amostra processada foram sequencialmente alinhado às enxerto [completa hg19 genoma humano (versão UCSC, fevereiro de 2009)] e host [completa genoma do rato MM9 (versão UCSC, julho de 2007)] genomas usando Bowtie-TopHat [versão 2.0.4, o segmento de comprimento 29nt, uma incompatibilidade no segmento permitida, por o máximo de sensibilidade, pesquisa de cobertura realizada [15], [16]. Nenhum de duplicação foi realizada para análise de RNA-Seq pós-montagem.

quantificação de ARNm para todos os genes anotados do genoma humano foi realizada utilizando software Partek® (Partek Inc. (1993) Partek® Genomics Suíte ™) . Lê foram normalizados utilizando o leituras por quilobases do modelo de exon por milhão mapeados lê método [17].

A expressão microarray xenotransplante primária de dados em conjunto específico-humana (GSE15240) [4] foi recuperada a partir do Centro Nacional de fibroblastos Informações sobre biotecnologia (NCBI) Gene Expression Omnibus (GEO) repositório [18].

para comparar o específico do rato lê para assinaturas de genes estromais câncer publicados anteriormente, um câncer de mama associado conjunto de dados [19] foi recuperado do repositório GEO (GSE10797). [18]

para todas as análises microarray, sondas genéticas foram normalizados utilizando a normalização quantil e correção de fundo (base 2 e polonês mediana para a transformação de sondas e sumarização respectivamente log) foi realizada utilizando o robusto de multi -array método da média (RMA) [20].

Comparação de microarray e RNA-Seq resultados de expressão gênica foi realizada por meio de correlação linear (r de Spearman) entre o log de base 2 do gene quantificada unidades de intensidade arbitrárias eo log base 2 RPKM como descrito no Mortazavi

al

[17].

exome resequencing análise

análise Whole-exome de amostras obtidas a partir de sangue periférico, célula et NCI-H209 a linha e os seus xenoenxerto derivado foi realizada por meio de sequência de ultra-high-throughput exome toda a plataforma usando sequenciação HiSeq 2000 (llumina, San Diego, CA, EUA). O experimento foi emparelhado-end com 101nt comprimento de leitura (200 pb tamanho da inserção). A profundidade média alvo da cobertura foi definido para 50x (ver Tabela S1 para o número total de leituras seqüenciais).

Processados ​​exemplo lê-se sequencialmente alinhado às enxerto [completa hg19 genoma humano (versão UCSC, fevereiro de 2009)] e host [completa genoma do rato MM9 (versão UCSC, julho de 2007)] genomas usando a ferramenta de Burrows-Wheeler Alinhamento [(BWA), BWA algoritmo ALN usado, comprimento semente da 22nt; distância máxima de edição na semente de 0 [21].

variantes de nucleotídeo único (SNVS) descoberta foi realizada utilizando um conjunto de ferramentas incluídas no Picard (https://picard.sourceforge.net) e GATK [22 ], [23]. Primeiramente, duplicada leituras foram removidos a partir dos arquivos BAM realinhados utilizando os MarkDuplicates comando a partir Picard (https://picard.sourceforge.net). níveis de duplicação estimado estão descritos na Tabela S3. Posteriormente, os arquivos duplicados-de BAM foram localmente realinhados em torno de novos e conhecidos indels usando o RealignerTargetCreator e os caminhantes IndelRealigner de GATK [23]. Por último, índices de qualidade de bases foram recalibrados usando os CountCovariates e caminhantes TableRecalibration de GATK [23]. Este procedimento foi realizado para cada uma das três amostras analisadas.

chamadas Raw SNP foram realizadas utilizando o UnifiedGenotyper walker de GATK [23] com uma pontuação Phred qualidade da base mínima de 20, um limiar de confiança de chamada de 50 (Phred -scaled) e um limiar de confiança emmition de 10 (Phred-escala). Bruto chamado SNPs foram filtrados usando o VariantFiltration Walker com os seguintes parâmetros: o tamanho do cluster SNP = 10; Cobertura: ≥ 5; Qual: ≥ 50; viés Strand: teste exato de Fisher, ≥ 60. específicas de Amostra novos SNPs,

i. . E

, aqueles que não estão presentes no banco de dados de Polimorfismos de Nucleotídeo Único (dbSNP) (Bethesda (MD): National Center for Biotechnology Information, National Library of Medicine (dbSNP. 137: 137; http: //www.ncbi. nlm.nih.gov/SNP/), foram anotados e seu efeito previsto usando SnpEff [24] eo variantAnnotator walker de GATK [23].

visualização do genoma foi realizada utilizando o navegador Integrative Genoma (IGV) [ ,,,0],25], [26]. Várias faixas de alinhamento locais foram recuperados do servidor de dados IGV.

todo o genoma análise

A baixa cobertura de sequenciamento de genoma completo de amostras obtidas a partir de sangue periférico, H209 a linha de células e a sua xenoenxerto primário derivado foi realizada através de todo shotgun genoma sequência de ultra alto rendimento usando a plataforma de sequenciação HiSeq 2000 (llumina, San Diego, CA, EUA). a experiência foi emparelhado-fim com (tamanho do inserto de 200 pb) 101nt comprimento de leitura . a profundidade média alvo da cobertura foi definido para 4x (ver Tabela S1 para o número total de leituras seqüenciais).

processados ​​exemplo lê-se sequencialmente alinhado às enxerto [completa hg19 genoma humano (versão UCSC, fevereiro de 2009) ] e host [completa genoma do rato MM9 (versão UCSC, julho de 2007)] genomas usando a ferramenta de Burrows-Wheeler Alinhamento [(BWA), BWA algoritmo ALN usado, comprimento semente da 22nt; distância máxima de edição na semente de 0 [21]. níveis de duplicação estimados foram encontrados para ser marginal e estão descritos na Tabela S3.

intra e rearranjos descoberta inter-cromossômica da específica humana identificada lê foi realizada utilizando FusionMap [espaço e dividir ler limite de contagem de 3 e de divisão âncora mínimo de 4 lê [27]. fusões detectados foram plotados contra uma representação circular do genoma humano (Circos parcela) usando Circos [28].

variações do número de cópia (CNV) e conteúdo de alelos em regiões genômicas foram detectadas utilizando Control-Freec [29]. A amostra de sangue periférico foi utilizado como um controlo da linha de base. parcelas Circos da CNV detectados foram construídos usando Circos [28].

Resultados

Conforme mostrado na Figura 2, as estratégias NGS avaliadas revelou diferentes proporções de especificidade ao hospedeiro lê. captura exome e RNA-Seq produzido a menor proporção de mouse específico lê, variando de 4% a 7%. Em contraste, a sequenciação do genoma inteiro espingarda produziu o maior número de leituras que alinhados de forma única para o genoma do rato, o que correspondeu a 20% do número total de leituras (Figura 2). O número de leituras homóloga,

ie

, aqueles que lê alinhado às genoma do ratinho e humano, foi encontrada a ser semelhante para todos os métodos, variando de 4% (ARN-SEQ) a 1,5% (exome -capturar). Um resumo completo dos alinhamentos realizados é descrito na Tabela S2.

Para cada categoria ler, a proporção (%) do número total de leituras é especificado.

todo o genoma análise

Como esperado, a profundidade sequência de cobertura das amostras submetidas a baixa cobertura de sequenciamento de genoma completo foi acima de 3 vezes para todas as amostras analisadas (Tabela S3 a). No entanto, a profundidade da cobertura da amostra de xenotransplante foi severamente afetado pela contaminação do mouse e produziu o valor mais baixo dos 3 amostras, tanto para a profundidade média de cobertura (3,3 vezes) e porcentagem de leituras coberto pelo menos 3 vezes (Tabela S3 A).

número de cópia a análise da variação de tanto a linha de células e as amostras de xenoenxerto produziram resultados muito semelhantes quando a amostra de sangue periférico foi utilizado como controlo (Figura 3 a). Um total de 578 470 e alterações no número de cópias somaticamente adquiridos foram observados para a linha celular e as amostras de xenoenxerto respectivamente. Estas diferenças foram principalmente devido às diferenças sutis na profundidade da cobertura das regiões genômicas examinadas e a maioria deles correspondem a ganhos ou perdas no número de cópias focais no meio de regiões diplóides (Figura 3 B). Como pode ser observado na Figura S1, tanto da linha celular (Figura S1 A) e xenoenxerto (figura S1 b) As amostras produzidas perfis CNV muito semelhantes para todos os cromossomas analisados. Um perfil detalhada CNV de ambas as amostras podem ser encontrados em conjuntos de dados S1 e S2. Observou-se um padrão semelhante para

beta

perfis de freqüência do alelo para ambos os tipos de amostras (Figura 3 C).

(A) Circos enredo representando cópia variações no número, rearranjos inter e intra-cromossômicas de NCI linha de células -H209 e um tumor xenoenxerto derivado dele. variações no número de cópias (vermelho, ganho; verde, perda) foram calculados com base na cobertura usando o sangue periférico correspondente como controle. rearranjos inter e intra-cromossómicas são representadas a azul (inter-cromossómico) e azul escuro (intra-cromossómica). (B, C) perfil detalhado de variações no número de cópias e frequências B de alelo do cromossomo 1 da linha celular analisados ​​e xenotransplante. Como descrito acima, o sangue periférico correspondente foi utilizado como controlo para o tipo de análise. perfis número de cópias são mostrados em vermelho (ganho), verde (perda) e cinza (sem alterações). LOH são mostrados luz azul.

resultados comparáveis ​​podem ser observados para rearranjos intra e inter-cromossômicas (Figura 3 A), onde mais de 70 rearranjos para ambas as amostras foram detectados. Um exemplo de rearranjos inter-cromossômicas foi encontrada entre o

BAGE4

, um candidato gene de codificação de antígenos tumorais, e

MLL3

, um membro da mielóide /linfóide ou de linhagem mista leucemia família (MLL) . Uma lista completa dos rearranjos intra e inter-cromossômicas comuns a ambos linha de células e as amostras de xenotransplante pode ser encontrado em conjuntos de dados S3.

Os dados apresentados acima suporta nossa hipótese de que a CNV e análise completa variante estrutural pode ser realizada quando foram usadas ambas a linha de células e as amostras de xenoenxerto. Descobrimos que, quando corretamente representando a contaminação específico do rato, os resultados obtidos utilizando linhas celulares não contaminados podem ser precisamente reproduzidos a partir de amostras de xenotransplante, com os benefícios adicionais do uso de um

in vivo

modelo.

exome seqüenciamento análise

a profundidade média da seqüência de cobertura nas regiões capturadas alvo em todas as amostras de mais de 100 vezes foi conseguido, com mais de 80% das bases cobertos pelo menos 30 vezes (Tabela S3 B) . Na linha de células e as amostras de xenoenxerto, 68,5 e 74,7 por cento das regiões exome alvejados foram cobertos, pelo menos, 50 vezes, com uma profundidade média de sequência de cobertura 109 e 136 vezes, respectivamente. A análise da sequência em todas as três amostras (

, sangue periférico, de linhas celulares

i. e. e xenoenxerto) detectou um total de 53.186 (52.429 conhecidos e 757 romance) SNPs. Essas variantes que foram encontrados no sangue periférico foram consideradas de origem da linha germinativa, e foram mais longe processadas para análise terciário.

Um total de 946 variantes somáticas, 351 destes novos, eram comuns tanto à linha de células e amostras de xenoenxerto (Figura 4 A). Destes, 886 foram substituições de bases únicas, 28 eram inserções e deleções foram 32 (Figura 4 B). Uma lista completa das mutações somáticas detectadas é descrito em conjuntos de dados S4. análise de classe mutação mostrou G A /C transições T foram os mais comum (33%), seguido por A G /T transições C (23%) e G T /C a transversões (20%) (Figura 4 C). Em geral, este padrão foi semelhante à relatada por Pleasance

et al [30] .A anteriormente descrito TP53 aceitador de união e perturbar mutação pontual RB1 C706F, característica de SCLC, [30], foram detectadas tanto na célula as amostras de linha e xenoenxerto.

número de variantes conhecidos e novos (a) e os tipos de variantes (B) que se verificou serem comuns a ambas a linha celular e xenoenxerto e aqueles detectados apenas na linha celular e xenoenxerto. . (C) Quantificação das seis classes de mutação possíveis

Para as 946 variantes comuns a ambos linha de células e de xenotransplante, o efeito preditor SnpEff relataram um total de 1806 (Figura 5 A B). Para os fins desta análise, que descreveram o efeito de todos os transcritos de genes possíveis, assim, o número total de variantes relatados difere do número total de efeitos encontrados. As categorias de efeitos mais representadas, quando classificados por tipo, foram as correspondentes a intrões (721), não sinónima de codificação (305) e sinónimo de codificação (170) (Figura 5 A). Quando os efeitos foram classificados por variantes região regiões, intrões e exões, como esperado, foram significativamente mais representados (Figura 5 B). A descrição do impacto moderado e alto SNPs previu efeitos para a primeira transcrição afetada é descrita em conjuntos de dados S5.

Sessenta e quatro variantes somáticas únicas para o xenotransplante foram identificados (Figura 4 B). Destes, apenas 15 eram variantes de codificação não-sinônimas. Em todos os casos, as variantes eram heterozigóticos, e SnpEff previu um efeito moderado sobre a função da proteína (Tabela S4 A). Estas variantes afetadas transcritos do gene dos seguintes genes:

ESPN, KAZN, APEH, MUC20, MUC17, AQP7, ZNF808

e

LUZP4

. De modo a identificar a causa destas diferenças entre as variantes detectados na linha de células e as amostras de xenoenxertos, foram examinadas as regiões genómicas vizinhas as variantes detectados. A fim de excluir a possibilidade de que estas variantes surgiram contaminem sequência de ratinho, foi realizada a seguinte análise. Em primeiro lugar, isolou-se o sequenciamento lê adjacente à região de interesse dentro de uma gama de 1,000bp (Ver Figura S2 para exemplos detalhados). alinhamentos locais emparelhados entre estas regiões entre os genomas humano e de ratinho apresentou um alinhamento global que não teria sido possível entre a sequenciação analisados ​​e lê o genoma de ratinho (Figura S2). Em seguida, buscou-se alinhar estas leituras para o genoma do rato. Sem alinhamentos foram produzidos. Estes dados mostram que a codificação-região variantes exclusivo para o xenotransplante eram de origem humana

Desde heterogeneidade genética é agora considerado uma característica importante de muitos tipos de câncer [31] – [33]., Nos perguntamos se esses xenotransplante variantes espec�icos podia ser detectada no conjunto de dados de linha de célula original. inspeção detalhada do seqüenciamento lê e sequência profundidade de cobertura das regiões relevantes revelou que a grande maioria (9 em 15) dessas variantes foram detectáveis, mas estavam abaixo do limite de 0,2 (Figura S3 Tabela S4 A ). Para variantes não detectado na linha celular de, quer a profundidade de cobertura sequência era inferior a 10 vezes ou o nucleótido alelo alternativo não foi observada (Tabela S4 A). Estes dados apoiam a conclusão de que as variantes únicas para o xenoenxerto surgiram como resultado da expansão clonal de uma população celular heterogénea linha, ou novas variantes que derivam de mutações espontâneas fundo.

a 74 variantes foram identificados na célula a linha, mas não na amostra de xenoenxerto (Figura 4 B). Destes, 9 (

RHOA, MUC17, TRIM22, UNC93B1, MAML2, HIF1A, FAM18B2 e GPR64

) resultou na codificação não-sinónimo alterações região com um impacto moderado previsto em função da proteína (Tabela S4 B). Todas estas variantes discrepantes foram encontrados para ser heterozigótica (Tabela S4 B). Uma comparação entre a sequência lê e profundidade de cobertura sequência destas regiões revelou cobertura semelhante em ambos linha celular e xenoenxerto amostra (Tabela S4 B Figura S4). Utilizando uma abordagem semelhante à que foi tomada para as variantes específicas do xenoenxerto, determinou-se que, em todos, excepto num caso, a variante específica da linha de células pode ser prontamente detectada no xenoenxerto, mas mais uma vez estavam abaixo do limite de frequência mesmo alelo. Uma vez que estas leituras foram identificados em uma população pura linhagem de células humanas, podemos concluir que as células que contêm estas variantes discrepantes são representados com menor frequência na xenotransplante, e não como resultado de contaminação mouse ou variação na profundidade de sequenciamento.

o número de variantes discordantes detectados para cada amostra – 64 xenoenxerto específica

contra 74 linhas de células variantes específicas – pode ter influenciado o rácio conhecido-a-novela observada no xenoenxerto (Figura 4 B). Este rácio de amostra está perto de 01:01, superior à observada para a linha de células de linhagem celular específica e comum -. Variantes de xenotransplante, que é abaixo de 1 (Figura 4 B)

O conjunto de dados a partir da amostra de xenotransplante produzida a maior profundidade média de sequência de cobertura e 75% das bases sequenciadas foram cobertos, pelo menos, 50 vezes. A grande maioria de variantes somáticas foram detectados em ambas as linhas de células e de xenoenxerto, ao passo que as variantes que foram detectadas exclusivamente, quer na linha de células ou o xenoenxerto representada uma proporção menor, sem qualquer efeito significativo sobre a tradução do mRNA splicing. Tomados em conjunto, estes dados mostram que a sequenciação exome de captura em modelos de xenotransplante produz detecção altamente preciso e reprodutível de variantes significativas codificação-região.

transcriptoma análise

análise de transcriptoma específico do humano de três primárias SCLC modelos de xenotransplante (LX22, LX33 e LX36) mostrou uma forte correlação (Spearman de correlação = 0,75, P 0,001), com uma previamente publicados dados de matriz gene-expressão de conjunto nos mesmos modelos de tumor utilizando sondas de cDNA específicos humano [4] (Figura 6 A), assim, validar de forma independente a nossa estratégia específica da espécie

(A) Comparação da expressão genética detectada por RNA-Seq e Affymetrix plataformas de matriz expressão para amostras de SCLC idênticos (média, n = 3, P . 0,01) . (B) Comparação da expressão de genes entre os tumores primários SCLC [34] (eixo Y, quer dizer, n = 15) e xenoenxertos primárias (eixo X, quer dizer, n = 3) (P 0,01). (C) Comparação da expressão genética detectada pela Affymetrix matriz de estroma cancro humano microdissecadas [19] (eixo Y, quer dizer, n = 28) e dados de expressão específicos do rato RNA-Seq nos modelos de xenoenxerto de SCLC (eixo X, quer dizer , n = 3) (P . 0,01)

a análise de correlação de expressão gênica entre um tumores primários SCLC recentemente publicados experimento RNA-Seq [34] e específico do humano RNA-Seq lê de SCLC modelos de xenotransplante primárias, mostrou correlação positiva entre ambos os conjuntos de dados (correlação de Spearman = 0,68, P 0,001) (Figura 6 B).

Deixe uma resposta