PLOS ONE: Combinado alvejado DNA Sequencing em não-pequenas células Lung Cancer (NSCLC) Usando UNCseq e NGScopy e RNA Sequenciação Usando UNCqeR para a detecção de aberrações genéticas em NSCLC

Abstract

A recente aprovação do FDA a plataforma MiSeqDx proporciona uma oportunidade única para desenvolver alvo próxima geração de sequenciamento painéis (NGS) para doenças humanas, incluindo câncer. Nós desenvolvemos um ensaio escalável, baseado no painel alvo denominado UNCseq, que envolve um painel de NGS de mais de 200 genes associados ao cancro e um oleoduto bioinformática jusante normalizado para a detecção de variações individuais de nucleótidos (SNV), bem como pequenas inserções e deleções (indel ). Além disso, foi desenvolvido um novo algoritmo,

NGScopy

, projetado para amostras com cobertura de sequenciamento escasso para detectar grande escala variações no número de cópias (CNV), semelhante ao SNP matriz humana 6.0, bem como de pequena escala intragenic CNV . No geral, foi aplicado neste ensaio a 100 espécimes de cancro do pulmão de snap-congelados falta do mesmo paciente DNA germinal (coorte 07-0120 tecido) e validado nossos resultados contra seqüenciamento Sanger, SNP Array, e nosso DNA-seq /RNA-seq integrado recentemente publicado ensaio, UNCqeR, onde RNA-seq dos fragmentos tumorais do mesmo paciente confirmados SNV detectado pelo DNA-seq, se a profundidade de cobertura RNA-seq foi adequada. Além disso, foi aplicado o teste de UNCseq em uma coleção de tecido tumoral do cancro do pulmão independente com pessoas do mesmo paciente DNA germinal disponível (coorte 11-1115 tecido) e confirmou mutações usando ensaios realizados em um laboratório certificado pela CLIA. Concluímos que UNCseq pode identificar SNV, INDEL e CNV em amostras tumorais com falta de ADN da linha germinativa de uma forma economicamente eficiente

Citation:. Zhao X, Wang A, Walter V, Patel NM, Eberhard DA, Hayward MC , et ai. (2015), combinada alvejado DNA Sequencing em não-pequenas células Lung Cancer (NSCLC) Usando UNCseq e NGScopy e RNA Sequenciação Usando UNCqeR para a detecção de aberrações genéticas em NSCLC. PLoS ONE 10 (6): e0129280. doi: 10.1371 /journal.pone.0129280

Editor do Academic: Raffaele A. Calogero, Universidade de Torino, Itália

Recebido: 13 Janeiro, 2015; Aceito: 06 de maio de 2015; Publicação: 15 de junho de 2015

Direitos de autor: © 2015 Zhao et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos os dados relevantes estão dentro do papel e seus arquivos de suporte Informações

Financiamento:.. Compatível com o cancro do NCI Investigator Award Clínica Equipe de Liderança (SJM) eo Fundo de Pesquisa do Câncer University of

Conflito de interesses: Margaret L. Gulley é um conselheiro para Illumina, Inc. Isso não altera a adesão dos autores para PLOS ONE políticas de dados e materiais de compartilhamento.

Introdução

Use do próximo sequenciamento geração (NGS) para os grandes -scale análise das alterações de sequência de ADN no tecido humano, o que pode estar relacionado com etiopatogenia de doença, não só é útil em estudos de ciência básica, mas é agora uma técnica de laboratório estabelecido utilizado em medicina clínica, em especial para o cuidado, de pacientes com câncer metastático distante (revisto em [1]). Implementação de NGS como um teste clínico laboratorial padrão é o próximo passo lógico após a aprovação do FDA de vários testes complementares à base de sequenciamento de primeira geração de diagnóstico durante a última década que refinam o uso de variantes do gene alvo para o gerenciamento de subtipos de câncer distintas. Em linha com a aprovação do FDA da plataforma MiSeqDx em novembro de 2013, a sequenciação do painel alvo (TPS) é o próximo passo para a implementação, em pequena escala a preços acessíveis, diagnóstico laboratorial baseados em NGS [2].

FDA aprovação de um plataforma genérica para NGS tem incentivado laboratórios individuais para enfrentar os desafios inerentes associados com o desenvolvimento de tais testes. Estes desafios envolve questões tributárias, questões de metodologia e de bioinformática ideal dutos que oferecem um compromisso razoável entre a sofisticação técnica e eficiência de tempo. Uma vez que vários laboratórios tratar destas questões de forma diferente, a divulgação de informações sobre métodos e características de desempenho de um ensaio de laboratório com sede em NGS particular é uma base para a discussão e avaliação dos pontos fortes e fracos da comunidade científica.

De acordo com este , um número crescente de relatos de métodos laboratoriais baseados em NGS para analisar amostras tumorais clínicos por diferentes laboratórios de decisão clínica foram publicados recentemente [1, 3-8]. Na Universidade da Carolina do Norte em Chapel Hill (UNC-CH), desenvolvemos um ensaio NGS escalável (UNCseq) que envolve TPS de DNA obtido a partir de tumor e combinados espécimes não malignas para um painel de gene (ClinSeq) de mais de 200 Câncer genes associados que foram selecionadas e atualizadas trimestralmente pela Comissão UNC para a comunicação dos resultados da investigação genética (RCC). Além disso, UNCseq desenvolvido um gasoduto bioinformática jusante padronizado, que está actualmente a ser utilizado para encomendar testes confirmatórios para relatar eventos genéticos clinicamente “acionáveis” para o médico assistente no âmbito de um Institutional Review Board (IRB) estudo -aprovado (Fig 1). Neste relatório, nós testamos nossa capacidade de executar com êxito Illumina HiSeq 2000 sequenciamento sobre DNA extraído de amostras tumorais de pacientes com câncer de pulmão, em particular, o cancro do pulmão de células não pequenas (NSCLC) subtipo. Além disso, podemos resumir a nossa experiência na aquisição de amostra, o diagnóstico do tumor vetado-patologista, extração de DNA, NGS e validação analítica dos resultados genéticos. Finalmente, fornecemos nossa experiência de aplicação do presente ensaio baseado em NGS em relatar mutações somáticas do ‘mundo real’ amostras, tanto snap-congelados (SF) e fixadas em formalina e (FFPE) -para fins de diagnóstico com validação de parafinado resulta em um laboratório certificado pela CLIA. Nós confirmou que TPS em uma coorte câncer de pulmão bem anotada não é apenas um método mais sensível do que o seqüenciamento Sanger na detecção SNV, mas também mais específico para identificar aberrações genéticas em genes relacionados com o cancro conhecidos com importantes implicações de prognóstico e tratamento. Ao realizar profunda sequenciação de cDNA preparado a partir de ARN (ARN-SEQ) num subconjunto destas amostras, que também confirmou vários SNV detectado pela sequenciação do ADN (ADN-SEQ), dependendo da profundidade de cobertura pela RNA-SEQ e o mutante freqüência do alelo (MAF) por DNA-seq. Dado o fato de que combinava com DNA normal pode não estar sempre disponível, nós fornecemos comparação sistemática da SNV chamando algoritmos usando germinal combinado contra DNA normal reunido, e versus mera genotipagem do tumor em um subconjunto desses espécimes. Por fim, apresentamos um novo algoritmo,

NGScopy

(https://www.bioconductor.org/packages/release/bioc/html/NGScopy.html), para detectar CNV todo o genoma usando dados TPS. Concluímos que o nosso ensaio de laboratório NGS baseada é sensível, mas específico, o custo-benefício, robusto e padronizado, e facilita a bioinformática jusante análise para avaliar a SNV, INDEL e CNV de uma forma impactante clinicamente tempo-eficiente e.

(a) o projeto UNCseq é uma iniciativa que envolve médicos e pacientes interessados ​​em participar de um ensaio clínico não terapêutico realizado através da Lineberger Comprehensive Cancer Center (protocolo IRB-aprovado 11-1115), bem como uma equipe multidisciplinar que envolve a faculdade clínica e de pesquisa (médicos oncologistas, patologistas, bioinformatas e biólogos moleculares) que geram, avaliar criticamente e discutir dados NGS em relação à história clínica dos pacientes e avaliar aberrações genéticas previamente identificadas para determinar quais são potencialmente clinicamente acionáveis ​​e direcionados para validação a jusante utilizando métodos validados em um laboratório certificado pela CLIA. (B) após a autorização de 11-1115, tecidos tumorais e no sangue periférico são coletadas de pacientes com câncer. Hematoxilina e eosina (H E) -stained secções de tecido representativos de amostras de tumores (SF ou FFPE) são avaliadas por um patologista certificado para o percentual de conteúdo viável tumor /estroma e presença /ausência de necrose (QC amostra). DNA extraído de amostras de tumor é processado através de várias etapas (fragmentação, preparação biblioteca de DNA, em solução de captura de fragmentos de DNA de amplificação de juros, em pequena escala de fragmentos de DNA capturados) antes Illumina NGS. Os dados gerados são discutidos em uma reunião Tumor Board Molecular multidisciplinar. Após a validação em um laboratório certificado pela CLIA, estas aberrações genéticas são relatados em registros médicos eletrônicos pessoais dos pacientes.

Materiais e Métodos

Pacientes, tumores e histopatológico Avaliação

de acordo com o IRB e Escritório de Ética em Pesquisa Humana, The University of North Carolina em Chapel Hill (UNC-CH), aprovou o protocolo 07-0120, os pacientes que foram submetidos a tratamento padrão (SOC) a cirurgia para câncer de pulmão primário foram identificados, seguido por recuperação de SF, depositado tecidos de tumor (tumor 07-0120 coorte tecido; n = 100). Um grupo separado de pacientes com câncer de pulmão que se tornou refratária aos tratamentos sistémicos padrão foi consentido sob o IRB e Escritório de Ética Humana, UNC-CH aprovado protocolo 11-1115 (11-1115 tumor coorte de tecido; n = 24). consentimento informado por escrito dos pacientes sujeitos foi obtida para a utilização dessas amostras em investigação. O protocolo 11-1115 permite TPS de SF ou arquivados tecidos tumorais FFPE e DNA germinal do mesmo paciente para identificar aberrações genéticas de significado prognóstico ou terapêutica utilizando o ensaio UNCseq. aberrações genéticas que são identificadas de acordo com o ensaio de UNCseq e têm significado clínico potencial são então submetidas a validação em um laboratório certificado pela CLIA apenas para a coorte de tecido tumoral 11-1115 (Fig 1). Além disso, o conteúdo do tumor para cada amostra de ambos os grupos foi estimada com base em análise microscópica de rotina de hematoxilina representativa e eosina (H E). -stained Secções de tumor adjacente por um patologista (XY) que era cego para paciente história

DNA Biblioteca Preparação e Capture

5 secções de tecido mm de espessura foram preparados a partir de SF ou FFPE tecidos tumorais. O ADN foi isolado utilizando o kit de tecido Gentra Puregene (Qiagen, Valencia, CA). 3 ug de ADN foi então cisalhada durante 60-90 segundos utilizando o instrumento Covaris ultrasonicator (E220) seguindo as instruções do fabricante (Covaris Inc., Woburn, MA). preparação da biblioteca de ADN não específico de cadeia simples foi realizada utilizando um kit de reagente com Agilent SureSelectXT enriquecimento alvo costume seguindo as recomendações do fabricante (Agilent Technologies Inc., Santa Clara, CA). O DNA foi então sujeito a reparar, de fim de polimento (blunt-end ou A-saliência), e ligadura de costume, adaptadores único de gama. Bibliotecas foram então capturado com iscas de RNA biotinilados projetados pela Agilent Technologies para separar sequências ex�icas para uma lista de consenso dos genes associados ao câncer. Mais especificamente, os genes que foram seleccionados por UNC RCC a partir de publicações e do Catálogo periodicamente actualizado de somática Mutações em Câncer (cósmica) do banco de dados [9], com base na frequência de mutação (ões) nos tumores sólidos, o seu papel potencial em vias oncogénicos e seu potencial relevância da resposta antitumoral de inibidores de pequenas moléculas. Esta lista gene é atualizado trimestralmente pela UNC RCC de acordo com novas pesquisas e médicos achados [versões UNCseq ClinSeq 4, 5 (coorte tecido 07-0120 tumor), e a versão 7 (11-1115 tumor coorte de tecido); Tabela S1]. Um conjunto de metas região genômica que cobrem todos os exons para cada gene foi desenvolvido com base na Universidade da Califórnia em Santa Cruz (UCSC) do banco de dados gene conhecido [10, 11]. Regiões dos exons direcionados para captura foram estendidas para incluir 250 pares de bases (pb) de sequências de flanqueamento em regiões intrônicas para cobrir exaustivamente genes-alvo. Esses locais genómicos forneceu a base para a concepção de 120 nucleótidos (nt) oligos captura biotinilados para captura Agilent SureSelect usando o portal web Agilent eArray (https://earray.chem.agilent.com/suredesign/). Cada kit alvejado 3.379 (v4 ClinSeq), 3323 (v5 ClinSeq) ou 5997 (v7 ClinSeq) regiões que abrangem 2.231.841 pb para um total de 228 genes (ClinSeq v4), 3.451.622 pb para um total de 184 genes (ClinSeq V5) , e 2820216 pb para um total de 248 genes (ClinSeq) v7 (S1 tabela). Captura de bibliotecas de código de barras-and-agrupados ou unpooled foi processada pelo SureSelect Protocolo Agilent.

Antes de ser transmitida para NGS, bibliotecas de DNA foram submetidos a um protocolo de controle de qualidade em três etapas. concentração de ADN foi medida utilizando um fluorómetro Qubit 2,0 (Life Technologies, Grand Island, NY), a qualidade do ADN foi avaliada utilizando o ensaio de ADN 2100 Bioanalyzer alta sensibilidade da Agilent, e o tamanho do ADN foi determinada pelo sistema de electroforese automatizada Experion (BioRad, Hercules, CA) . Uma molaridade normalizada para cada biblioteca foi então calculado com base no tamanho e concentração de ADN. Bibliotecas foram reunidas para incluir 2-8 amostras por sequenciação lane. Cada conjunto foi diluída para 5:05, de acordo com o passo Illumina CBOT Cluster Geração. Os clusters foram então gerados utilizando TruSeq SR Kit Cluster v.2 e foram carregados para o sequenciador HiSeq 2000 (Illumina Inc., San Diego, CA). Seqüenciamento por síntese [12] foi realizada usando bibliotecas individuais indexados padrão em ambos (07-0120) ou emparelhado-end células individuais de leitura (11-1115) de fluxo com 100 ciclos (ClinSeq 1 x 100 pb ou 2 x 100- pb, respectivamente) e um índice de leitura ( «código de barras») que consiste de 7 ciclos de sequenciação, utilizando o V.3 química Ilumina TruSeq SBS. S2 tabela resume as principais diferenças no processamento de amostras e sequenciamento entre as 07-0120 e 11-1115 coortes de tecido tumoral.

DNA NGS Data Analysis Pipeline

Pré-processamento, pré-filtragem, alinhamento e Filtragem .

O oleoduto análise de dados é mostrado na figura 1. Nenhuma cadeia de polarização foi considerado em qualquer uma das etapas de pré-processamento. sequência Raw leituras foram analisados ​​utilizando o pacote casava V.1.8 (Illumina) para gerar código de barras lê e foram notificados como arquivos FASTQ [13]. Se for o caso, as leituras foram depois submetidas a qualidade de filtragem e o adaptador de extracção usando o FASTX-Toolkit (https://hannonlab.cshl.edu/fastx_toolkit/index.html). A pontuação Phred qualidade da base do telefone (CallQ) de cada nucleotídeo em uma leitura foi então examinado para determinar se deve cortar a leitura nas extremidades quando um número de nucleótidos contínuos média CallQ per-base de ≤ 20, ou ≤ 99% de precisão. A sequência cru lê em arquivos FASTQ foram então alinhados ao genoma humano Genome Consortium Referência, construir 37 (GRCh37; https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.13/), usando o Burrows- Wheeler alinhador [14] (BWA 0.6.2) para o 07-0120 coorte ou o BWA-MEM (versão 0.7.4) para 11-1115 coorte. Lê foram então ordenados e indexados usando SAMtools (0.1.19-44428cd) [15]. realinhamento local e recalibração índice de qualidade de base foram realizadas utilizando o Analysis Toolkit Genoma (GATK 2.6) eo feixe GATK de recursos (2.5) [16], em 07-0120 coorte ou a ABRA (0,46) [17], em 11-1115 coorte. ajustes de parâmetros padrão foram utilizadas com ferramentas acima. Mapeados lê foram posteriormente filtrados por qualidade de mapeamento antes da análise a jusante. Filtragem foi realizada através da imposição de uma pontuação mínima de qualidade Phred de mapeamento de leitura (MapQ). Lê com baixa qualidade de mapeamento (MapQ 5, isto é, 70% de precisão) foram removidos. mediana e intervalo aproximado de confiança de 95% (aprox. 95% IC) foram calculados para sobre-alvo lê para cada coorte do tumor e para cada versão subtítulo ClinSeq. A mediana da RPKM médio per-amostra (leituras por quilobases região por milhão alvo lê mapeados) [18] foi usado para descrever a média de leituras por região.

Controle de Qualidade.

Profundidade, amplitude da cobertura e taxa on-alvo foram calculados de acordo com as definições descritas no S1 texto.

Variant Calling.

Devido à coleta da amostra retrospectiva de coorte tecido 07-0120 tumor, DNA a partir de tecidos normais, mesmo pelo paciente (por exemplo, sangue periférico) não estava disponível para extrair o ADN da linha germinal. Para ADN de controlo, que em vez sequenciado e reunidas de ADN que foi extraído a partir de 8 tecidos normais (seis do fígado e 2 útero de um total de 4 pacientes), sob condições semelhantes e protocolos de tratamento aplicados àqueles para os ADN-SEQ de amostras tumorais. variantes genéticas foram chamados por deepSNV [19]. SNV chama do nosso ensaio foram refinadas usando o conhecimento prévio de uma lista altamente curadoria de 41 genes com 279 SNV e 91 posições InDel que foram usados ​​pelo sistema OncoMap (versão 4; um perito com curadoria de origem que chamamos lista de “conservador” ) [20] e o banco de dados COSMIC (versão 66) com uma anotação no cancro do pulmão somente. Chamamos a lista COSMIC ‘menos conservadora “, uma vez que consiste de 18.722 genes com 250.741 SNV e 4.949 posições InDel; 265 fora destes 18.722 genes que não têm coordenar a informação genômica das variantes foram excluídos [9]. De nota, todos os genes e SNV /posições InDel do sistema OncoMap são todos anotados na lista de “menos-conservadora”, e, portanto, este último também é referido como o OncoMap mais o sistema cósmico.

Para a variante de chamada na coorte tumor 07-0120, definimos significativa SNV filtrando cada uma das chamadas de mutação usando o pacote ‘deepSNV “com Bonferroni ajustado contagem

p

-valor ≤ 0,001, MAF ≥ 0,005, alelo mutante ler ( MAC) em tumor ≥ 5, ea proporção logarítmica transformada (log

2) odds (OR) [21] do MAC de cada amostra de tumor individual versus o conjunto de amostras normais ≥ 4. em outras palavras, as chances de chamar a SNV em cada amostra de tumor individual fosse ≥ 16 (ou seja, 2

4) vezes maior em comparação com o normal reunido. Foi selecionado este limiar MAF porque era pelo menos duas vezes maior do que o erro de sequenciação previamente relatado de aproximadamente 0,001-0,002 [22]. Quanto ao limite MAC, definimos arbitrariamente a 5, que é mais rigoroso do que o MAC 2, que foi previamente relatada [23]. SNVS filtradas foram anotados por ANOVAR (2014/07/14). Para melhorar a confiança em chamar tumores incomparáveis, SNV foram refinadas utilizando a lista de “conservador” [24], bem como a lista de “menos-conservadora”.

Com base na agregação gene-wise do SNV significativa, acima identificados, , cada um dos genes individuais foi então ensaiado sob a hipótese nula de que a taxa de mutação em todo o gene é, em conformidade com a taxa de mutação de fundo, para se obter um

p -valor

utilizando um modelo de probabilidade binomial convencional [25] para ajustar as taxas de mutação para o comprimento do gene. Finalmente, a SMG foram relatados usando o nível significativo de genes mutantes para todos os genes testados com taxa de falsa descoberta (FDR) ≤ 0,05. Indel foram chamados por VarScan (2.3.6) com a configuração padrão.

Variant vocação das amostras de tecidos 11-1115 tumor foi realizada pela versão atualizada do gasoduto UNCseq (agosto de 2014). Mais especificamente, foi utilizada a chamada variante strelka somáticas (2013) com as configurações padrão [26] para detectar tanto SNV e INDEL com índices de qualidade de pelo menos 30 para ambos, ANOVAR (versão 2014/07/14) para anotar variantes detectadas, e SAMtools /BCFtools (versão 0.1.19-44428cd) para a variante chamada normal livre. Para estabelecer um DNA normal “pool contemporânea” para esta coorte tecido tumoral, primeiro gerado um “leave-one-out ‘DNA reunidas que consiste de todos sequenciado lê a partir do DNA germinal disponível do 11-1115 coorte, excluindo o DNA germinal combinado para a amostra particular. Em outras palavras, para uma dada amostra de ordem i do tumor, a normal reunido consistiu de 23 amostras normais de pacientes 1, 2, …, i-1, i + 1, …, n (n = 24). Como um segundo passo, que subamostrado total lê a partir do ADN normal reunido para reduzir o tempo de processamento, e gerado um tamanho comparável de biblioteca contemporânea para análise estatística óptima. A Tabela S2 resume as principais diferenças na análise bioinformática entre os 07-0120 e 11-1115 coortes de tecido tumoral.

detecção de variações do número de cópias.

calculadas variações no número de cópias de nível cromossomo (CNV ) na coorte de tecido tumoral 07-0120 utilizando a profundidade de leitura. Devido à inerente heterogeneidade cobertura, interrompida do genoma por TPS, que empregue um ‘, imposta-restrição “algoritmo de janelas flexível para assegurar um número equilibrado de leituras por janela ao longo de todo o genoma no pacote R /Bioconductor

NGScopy

(1.0.0). Para permitir a detecção do número de cópias em ambas as áreas-alvo e off-alvo do genoma, que geralmente têm a profundidade de cobertura de alta e baixa, respectivamente, longe do alvo lê ( ‘background lê’) foram usados, além de em-alvo. Dois critérios definidos uma janela tão flexível. Em primeiro lugar, para assegurar uma variância, bem como o número adequado de leituras por janela, a profundidade de leitura por janela na amostra de controlo normal reunido foi não menos do que 20 vezes por amostra. Em segundo lugar, a sua dimensão mínima janela foi mantido dentro de uma gama determinada por características de cobertura, como em regiões genómicas com alta densidade de leitura, a utilização de pequenos tamanhos de janela leva a uma “dente de serra”, undersmoothened sinal. Para este estudo, o tamanho mínimo da janela utilizada foi de 20 Kbp. tamanho normalizado Biblioteca lê por janela para controle normal reunido e cada amostra de tumor foram contados para computar tumor /log normal

2 cópia rácio número (CNR) como o número de cópias relativa. Para ter em conta o número de cópia neutralidade, que os nossos dados normalizados por amostra de tumor, centrando a mediana dos números de cópias em relação a zero ao longo de todo o genoma. visualização directa foi usada para avaliar as variações estruturais de todo o genoma. Finalmente, a segmentação foi realizada por um modelo de Markov oculto heterogénea, denominado BioHMM [27], que foi adaptada para os dados de NGS.

Para o cálculo do nível do gene CNV na coorte de tecido tumoral 07-0120, utilizou-se a profundidade do gene sequenciado específicas de exão lê com resolução de 1 pb. Estimou-se o número de cópias relativa, de modo semelhante ao acima, calculando o log

2 rácio da profundidade de leitura por-base do tumor em relação ao controlo normal reunido.

validação de dados de ADN NGS por Sequenciação de ARN .

Agilent RNA específico do filamento com a captura foi realizada para a preparação. sequenciação de ARN (ARN-SEQ) análise de todo o transcriptoma num subconjunto de amostras de tumor da coorte de tecido 07-0120 tumor foi realizada em Ilumina GAII como previamente descrito [28, 29]. O total de 76 bp, single-end leituras foram pela primeira vez alinhado com o genoma de referência humana (hg19) por MapSplice [30]. SNV chamado por DNA-seq foram posteriormente validados pela análise dos dados de RNA-seq usando dois mutação chamando algoritmos independentes: o SAMtools (comando mpileup) /BCFtools [15] e nosso método de mutação chamando específicas de RNA-Seq recentemente publicado, UNCeqR [31].

DNA não-NGS os ensaios.

para a coorte de tecido 07-0120 tumor, já anteriormente realizado seqüenciamento Sanger usando um analisador de DNA (3730xl ABI, a Applied Biosystems, Foster City, CA) para detecção de mutações de exons selecionados do

gene KRAS

, bem como exons selecionadas dos genes

BRAF

,

CDKN2A

,

EGFR

,

STK11

, e

TP53

. Além disso, as amostras da 07-0120 coorte foram submetidos a análise usando o SNP Humana matriz 6.0 microarray Genome-Wide (Affymetrix, Santa Clara, CA) para a detecção de CNV em um subconjunto das nossas amostras de cancro do pulmão [32]. análise de matriz SNP para CNV foi realizada utilizando o open source pacote de R aroma.affymetrix versão 2.5.0 (https://cran.r-project.org/web/packages/aroma.affymetrix) e DNACopy versão 1.30.0 (http: //www.bioconductor.org/packages/release/bioc/html/DNAcopy.html) para processamento de dados e análise CNV, respectivamente.

intervalo de confiança para uma média.

O intervalo de confiança ( CI) por uma média foi calculada como descrito anteriormente [33].

Resultados

Características clínico-patológicas das 07-0120 e 11-1115 amostras de pacientes

os tecidos tumorais de 100 e 24 pacientes com cancro do pulmão primários foram incluídos na análise para as 07-0120 e 11-1115 coortes de tecido de tumor, respectivamente. características clinicopatológicas para cada grupo são apresentados na Tabela 1. captura painel alvejado usando versões ClinSeq 4 e 5 foram realizados em 64 e 36 das amostras de SF 07-0120, respectivamente, e ClinSeq versão 7 foi aplicado a todas as amostras de tumores de 24 a 11 a partir de -1115 coorte tecido tumoral. DNA normal reunido estava disponível para análise da coorte 07-0120 tumor, enquanto DNA germinal combinado estava disponível para a coorte 11-1115 tumor. S1 Tabela mostra a lista de genes cuja exons foram sequenciados como parte de versões ClinSeq 4, 5 e 7.

Bioinformática Análise das 07-0120 Amostras de Pacientes

Obtivemos uma total de 2100991292 lê a partir de todas as 64 amostras que foram sequenciados utilizando a versão ClinSeq 4, e 591549582 lê a partir de todas as 36 amostras que foram sequenciados utilizando a versão ClinSeq 5. todas as amostras passaram controlo de qualidade utilizando o FASTX-Toolkit. 93,96 ± 0,85% destas leituras foram mapeados exclusivamente para o genoma de referência com MapQ ≥ 5, isto é 1985916272 (94,5%) e 551493714 (93,2%) para ClinSeq 4 e 5, respectivamente. O número médio de mapeado de forma única (mapQ ≥ 5) leituras por amostra foi de 18.171.425 (aprox. IC95 16,442,697-27,015,601) e 14.350.546 (aprox. IC95, 13,786,985-15,363,758) para amostras sequenciadas em versões ClinSeq 4 e 5, respectivamente. Fomos capazes de recuperar 71,6% (mediana; aprox. IC95, 70,9% -72,5%) e 30,6% (mediana; aprox. IC95, 29,9-31,4%) bases no alvo com a nossa estratégia de captação painel alvo de ClinSeq versão 4 e 5, respectivamente. A mudança de ClinSeq versão 4 a 5 foi associada a diversas alterações, incluindo a concepção ad hoc de primers pelos investigadores, em oposição ao fornecedor (Agilent), bem como novas regiões genômicas de interesse cuja captura eficiência e capacidade de facilmente sequência foram questionável. A mediana da RPKM médio per-amostra foi de 452 (aprox. IC95, 448-458) e 446 (aprox. IC95, 440-454) para amostras sequenciadas usando o ClinSeq versão 4 e 5, respectivamente. análise /INDEL SNV era restrita às regiões de DNA compartilhados para versões ClinSeq 4 e 5, 1,190,667 bases por amostra, ou 168 genes, para a comparação entre as amostras. Para a análise de número de cópias, a totalidade do genoma foi considerada, quer em-alvo ou não.

Uma estratégia comum para ultrapassar a elevada taxa de erro intrínseca de instrumentos NGS e para assegurar a cobertura adequada de ambos os alelos, para cada local variante ou a existência de vários clones é idealmente sequência genomas individuais para 20-30x profundidade de cobertura [34]. Tal profundidade cobertura é suficiente para um tecido normal, um tecido de cancro geneticamente homogénea, tal como linhas celulares de cancro, ou de tecido tumoral com o mínimo de estroma “contaminação”, mas não para tecidos de tumor com um grau variável de heterogeneidade celular e /ou molecular (isto é, subclones de diferentes genótipos) (Fig 1). Um estudo recente mostrou que a uma profundidade de cobertura de 30x foi suficiente para uma sensibilidade de aproximadamente 90% para chamar mutações no alelo fracções de ≥ 0,2 [35]. Nestes últimos casos, um mínimo de 50x profundidade cobertura é comumente usado para chamar de nucleotídeo único ou outras variantes genéticas.

Para estabelecer o equilíbrio ideal entre custo e cobertura detalhada para a nossa estratégia TPS, que sequenciou 2 (n = 24 amostras), 4 (n = 4), ou 8 amostras (n = 72) por via da célula de fluxo. Como mostrado na Figura 2, uma profundidade de cobertura global alvo de 50x foi alcançado quando até 8 amostras foram carregadas por pista. As percentagens médias de bases no alvo que não tenham profundidade inferior a 50x cobertura para 2, 4, e 8 amostras por pista são 98%, 95%, 93%, respectivamente; e 97%, 92%, 86%, respectivamente, para não menos do que 100 vezes a profundidade. Conclui-se que 8 amostras por via fornecer custo-suficiente e cobertura eficaz de tempo (50x), sob a nossa estratégia de TPS.

Mostrado para cada espécime de tumor é a percentagem de bases alvo coberta pelo dada profundidade de cobertura (1x, 20x , 50x, 100x) e sequenciados sob diferentes configurações de pista no instrumento HiSeq 2000 (2, 4 e 8 de DNA bibliotecas por faixa, Lib /LN).

Comparação no SNV chamar entre NGS e Sanger sequenciamento nos 07-0120 Amostras de Pacientes

para avaliar se NGS é pelo menos tão sensível como sequenciamento Sanger no SNV pedindo hotspots mutação conhecida, foram comparados resultados para detecção de

KRAS

hot-spot SNV entre as duas plataformas de sequenciamento. Foram selecionados

KRAS

para esta investigação, porque ele carrega hotspot indiscutível somática SNV para o câncer de pulmão em códons 12 e 13, que foram previamente bem identificadas [36, 37]. Tal como mostrado na Fig 3, painéis A e B, usando a tubagem NGS, foram detectados todos SNV 8 ponto de acesso identificado por sequenciação de Sanger. Além disso, 8 SNV hotspot adicional não identificado por seqüenciamento Sanger também foram chamados por nosso pipeline NGS. Como mostrado na Figura 3, painel C, nem baixa cobertura NGS nem baixa pureza tumor foi diferente entre os 8 acordado e os 8 casos discrepantes por NGS e seqüenciamento Sanger (

p

-valor 0,1, frente e verso Wilcoxon teste). Comparado ao seqüenciamento Sanger, NGS foi capaz de detectar os

KRAS

alelos mutantes com significativamente menor MAF (

p

-valor = 0,0006, teste de Wilcoxon frente e verso; Fig 3, painel C). Curiosamente, o MAF de 4 casos discrepantes (ID: 30, 65, 72, 60) estão abaixo, mas perto de 0,20, o que implica que Sander sequenciamento é menos sensível para detectar SNV com MAF ≤ 0,20, de acordo com relatórios anteriores [38]. O MAF dos outros 4 casos discrepantes (ID: 97,56,38,70) estão perto de 0,05 ou abaixo, indicando NGS foi capaz de captar SNV com muito baixo MAF

(A) cromatogramas Sequencing (. Finch traço TV v1.4.0 espectador), obtido a partir de dois exemplos de tecido tumoral, mostrando concordância (amostra 24) ou discordância (amostra 38) em

KRAS

chamada SNV. (B) SNV chamando em loci hot-spot em

KRAS

códon 12 e 13 para todos os 16 tumores usando qualquer uma das duas estratégias de sequenciamento. Chamadas por Sanger e NGS são coloridos em laranja e azul, respectivamente. Chamadas por ambas as plataformas são coloridos em meia laranja e metade azul. profundidade NGS cobertura, pureza e MAF também são mostrados. (C) Boxplots de MAF, pureza tumor, e profundidade de cobertura entre as chamadas SNV discordantes e concordantes são mostrados (

p

-valor = 0,0006, frente e verso teste de Wilcoxon).

para avaliar a sensibilidade do nosso algoritmo chamando NGS SNV, nós nos concentramos no primeiro exão codificador de

KRAS (RefGene ID

:

NM_033360)

. Esta região de DNA de 111 pb (

chr12

:

25

,

398

,

208-25

,

398

,

318

) contém as posições 6 pb correspondentes aos locais de hotspots em códons 12 e 13 (

chr12

:

25

,

398

,

280-25

,

398

,

285

). Dos 105 pb restante, há posições de 52 pb com variantes anotados por OncoMap mais o sistema cósmica ou dbSNP, e as posições de 53 pb sem variantes anotados por qualquer OncoMap mais o sistema cósmica ou dbSNP [39].

Deixe uma resposta