PLOS ONE: Assinaturas Gene-expressão pode Distinguir os tipos de câncer gástrico e Stages

Abstract

Microarray de dados de 54 cancro gástrico emparelhados e tecidos gástricos não cancerosas adjacentes da expressão gênica foram analisadas, com o objectivo de estabelecer as assinaturas genéticas de tipos de câncer (bem, moderately-, poorly- ou não-diferenciada) e estágios (I, II, III e IV), que foram determinados por patologistas. A análise estatística levou à identificação de um número de combinações de genes cujos padrões de expressão servir bem como assinaturas de diferentes tipos e diferentes fases do cancro gástrico. Uma assinatura de 19 genes foi encontrado para ter o poder discernir entre câncer gástrico de baixo grau de alta e, em geral, com precisão geral de classificação em 79,6%. Um painel de 198-gene expandida permite a estratificação dos cancros em quatro graus e controle, dando origem a um acordo de classificação global de 74,2% entre cada série designada pelos patologistas e nossa previsão. Duas assinaturas para estadiamento do câncer, que consistem em 10 genes e 9 genes, respectivamente, fornecer precisões alta classificação em 90,0% e 84,0%, entre, e controle do câncer precoce em estágio avançado. Funcional e via de análises sobre estes genes assinatura revelar a relevância significativa das assinaturas derivadas por grau e progressão do câncer. Para o melhor de nosso conhecimento, este representa o primeiro estudo sobre a identificação de genes cujos padrões de expressão podem servir como marcadores para os graus e estágios do câncer

Citation:. Cui J, Li F, Wang G, Fang X, Puett JD, Xu Y (2011) Assinaturas Gene-expressão pode Distinguir os tipos e estágios do câncer gástrico. PLoS ONE 6 (3): e17819. doi: 10.1371 /journal.pone.0017819

editor: Amanda Toland, Ohio State University Medical Center, Estados Unidos da América

Recebido: 24 de novembro de 2010; Aceito: 09 de fevereiro de 2011; Publicado: 18 Março 2011 |

Direitos de autor: © 2011 Cui et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo foi apoiado em parte pela National Science Foundation (DEB-0830024, DBI-0542119), os Institutos Nacionais de Saúde (1R01GM075331), uma concessão “Distinguished Scholar” da Geórgia Cancer Coalition, e um fundo de capital semente conjunto de Venture Fund do Presidente e o Gabinete do vice-Presidente de Pesquisa da Universidade da Geórgia. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

classificação câncer é uma medida de malignidade e agressividade de um câncer. Um sistema de classificação populares usa quatro níveis de malignidade (G1-G4), refletindo o nível combinado de anomalia-aparência da célula, o desvio na taxa de crescimento das células normais e do grau de invasão e disseminação. Estas medidas patológicos foram encontrados para estar em concordância geral com o nível de diferenciação celular (American Joint Commission on Cancer) [1]. Daí {G1, G2, G3, G4} são também referidos como bem, moderately-, poorly- e não-diferenciada, respectivamente. A partir de agora, não tem havido um sistema de classificação universal para todos os cancros. Em vez disso, diferentes sistemas de classificação têm sido propostos para diferentes tipos de cancro. Por exemplo, o sistema [2] Gleason é provavelmente o mais conhecido para a classificação de células de adenocarcinoma no cancro da próstata enquanto o sistema [3] Bloom-Richardson é usado para câncer de mama, eo sistema Fuhrman [4] é usado para o câncer renal .

o câncer gástrico, a segunda principal causa de morte relacionada ao câncer em todo o mundo, é particularmente prevalente nos países asiáticos, incluindo a China, Coréia e Japão [5]. Em os EUA, esta doença assintomática tinha ~21,500 novos casos em 2008 juntamente com 10.800 mortes [6]. Ao contrário de outros tipos de câncer, câncer gástrico ainda não tem um sistema de classificação geralmente aceite. A classificação foi feito principalmente com base nas directrizes bastante gerais câncer de classificação de organizações como a American Joint Commission on Cancer. Existem alguns sistemas de classificação câncer gástrico em subtipos histológicos, incluindo aqueles pela Lauren [7], a Organização Mundial de Saúde (OMS) [8] e Goseki, et al. [9], [10], que definem subtipos de acordo com as características estruturais do cancro, as aparências histopatológicas das células, e o nível de muco, respectivamente. No entanto, é em grande parte controversa sobre se qualquer um destes sistemas é muito relevante para o grau de malignidade e capacidade de sobrevivência, assim, não tendo sido amplamente utilizados para a classificação de cancro gástrico [11]. A falta de um sistema de classificação bem estabelecido para cancro gástrico permanece como um grande obstáculo que impede o progresso neste campo.

Apresentamos um estudo computacional aqui, com o objetivo de identificar um conjunto de genes cujos padrões de expressão podem também distinguir entre os cânceres gástricos de diferentes graus, como Oncotype DX, um painel de 21 genes para identificar câncer de mama de baixo risco [12]. Estes genes, cujos padrões de expressão distinguir os cancros gástricos de diferentes graus, fornecer informações úteis para o desenvolvimento de um sistema de classificação baseado em expressão genética para o câncer gástrico. Além disso, nós também apresentamos as nossas conclusões sobre os padrões de expressão de genes comuns aos cancros em diferentes estágios de desenvolvimento, possam servir como assinaturas moleculares para o estadiamento do câncer gástrico.

Resultados

A. Identificação de genes com as mudanças de expressão correlacionados com os tipos de câncer

17.800 genes humanos foram perfiladas neste estudo, utilizando Affymatrix Exon Arrays. Fora das amostras de câncer de 54, 8 são bem diferenciados (WD), 9 moderadamente diferenciado (MD), 35 pouco diferenciado (PD) e 2 indiferenciado (UD). Um total de 452 genes foram encontrados para ser diferencialmente expressos como determinado usando os seguintes critérios: os níveis de expressão no câncer e o show de tecidos de controle correspondente a mudança, pelo menos 2 vezes, e a significância estatística,

P

-valor , de ter este nível de mudança expressão é 0,05 (ver materiais e Métodos; nomes de genes estão listadas na Tabela S1). Entre os 452 genes, 97 exclusivamente na UD, 62 em PD, 8 em MD e 16 exclusivamente no WD representam um

núcleo Set Online de genes diferencialmente expressos, que são consistentemente identificados através da aplicação de diferentes estratégias de classificação usando o paired- informações de amostra ou não. Este conjunto inclui genes que exibem a mudança expressão mais consistente (mais de 2 vezes) em câncer de

contra

tecidos de controle, que foram consideradas genes diferencialmente expressos com alta confiabilidade, derivados através de múltiplos testes estatísticos. Em contraste, o conjunto de 452 genes representam um conjunto alargado. Notou-se que há uma tendência geral que o número dos genes diferencialmente expressos aumenta à medida que um cancro gástrico, em relação ao tecido normal, é mais fracamente diferenciada, conforme mostrado na Figura 1. Esta observação está de acordo com o nosso conhecimento geral que menos- cancros diferenciados tendem a ter mais genes diferencialmente expressos e são mais agressivos; a exceção para WD, como mostrado na Figura 1, pode refletir o tamanho reduzido da WD e os grupos MD.

O enredo verde mostra a identificação sobreposta entre essas duas estratégias.

em seguida, verificou se alguns genes podem ter suas mudanças de expressão correlacionam-se com os graus de câncer. Para fazer isso, temos calculado o coeficiente de correlação de Spearman (CC) entre a expressão média de cada gene em todas as amostras de cada série e os quatro graus de câncer. Verificou-se que as mudanças de 99 genes de expressão perfeitamente correlacionados com as notas WD-MD-PD-UD (|

CC

| = 1,

P

-valor 0,05) (ver detalhes na Tabela S2). Entre estes genes são

POF1B

,

MET

,

CEACAM6

,

ZNF367

,

GKN1

,

LipF

,

SLC5A5

,

MUC13

,

CLDN1

,

MMP7 e ATP4A

, que são todos conhecidos por serem relacionadas com o cancro. A Figura 2 mostra quatro exemplos em que suas correlações positivas ou negativas. Entre eles,

MUC13

foi avaliado como um bom marcador para o nível de diferenciação da mucosa gastrointestinal [13]. A expressão aumentada foi encontrada MUC13 para induzir mudanças morfológicas, incluindo espalhamento das células através da interferência com a função das moléculas de adesão celular [14]; Assim, um aumento da expressão junto com a diferenciação pode indicar reforçada adesão célula-célula.

( “↑” e “↓” denotam cima e para baixo-regulação no cancro

contra

tecidos de referência, respectivamente .)

Notamos que genes com suas mudanças de expressão correlacionados com graus de câncer são altamente enriquecido entre as proteínas secretadas ou de membrana (P-valor 0,05), que participam de múltiplas vias de sinalização como ErbB, FAS, receptor de NOD-like, PPAR e sinalização de Wnt, bem como moléculas de adesão celular (CAMs) e junções apertadas. Isto não é surpreendente uma vez que estas vias estão essencialmente envolvidos no crescimento celular e a morte celular, bem como metástase do cancro. Tais mudanças nos padrões destas vias de expressão genética, envolvidas na transdução de sinal e comunicação extracelular, pode fornecer pistas sobre a progressão do câncer.

B. Identificação de assinaturas genéticas para as classes de câncer

Examinamos os 452 genes diferencialmente expressos, com o objetivo de identificar genes cujos padrões de expressão pode, com boa precisão e confiabilidade, distinguir os cancros gástricos de diferentes graus. A análise de classificação (ver Métodos) foi realizado pela primeira vez entre dois grupos de câncer (altamente e pouco diferenciados), e depois estendido para cinco grupos, a saber quatro graus de câncer e de controle. Uma máquina de vetor de suporte (SVM) à base de abordagem eliminação recurso regressivo foi aplicado, usando um kernel linear para a classificação do cancro (ver Métodos).

No final, um grupo de 19 genes foi identificado que pode distinguir entre altamente e pouco diferenciado cancros com um acordo global em 79,2%, com base na expressão fold-change no cancro

contra

tecidos de controle. Da mesma forma, um grupo 198-gene pode distinguir entre os quatro tipos de cancro diferentes e o grupo de controlo de acordo com a expressão do gene, dando origem a precisão da classificação global de 74,2%. Ambos os conjuntos de genes foram escolhidos com base em uma votação por maioria (pelo menos 70% de consistência) esquema a partir dos resultados de classificação em 500 conjuntos amostra aleatória a partir dos 54 conjuntos de amostras, juntamente com a sua importância no ranking (veja Métodos para detalhes).

A assinatura de 19 gene consiste em ADIPOQ, COL6A3, TNS1, SCN7A, DES, VIL1, COL3A1, C2orf40, SMYD1, ACTG2, MEIS1, C7, GPR174, SHCBP1, DUSP1, DNAJB5, HIATL1, IL17RB e FAT. Um olhar mais atento sobre a anotação funcional destes genes revelou que seus produtos proteicos estão envolvidos no crescimento e diferenciação celular (IL17RB, SMYD1, SHCBP1), motilidade celular (ACTG2), angiogênese e tecido remodelação (ADIPOQ), carcinogênese (ECRG4), matriz síntese de proteínas (COL3A1, COL6A3), e outros como receptor G acoplado a proteína 174 (GPR174), citoesqueleto borda em escova (VIL1), complexo de ataque à membrana (C7) e canal de sódio (SCn7A).

17 out dos 19 genes, mais um adicional de 181 genes, formam um grupo de 198 gene cujo padrão de expressão pode distinguir quatro tipos de câncer e de controle. As suas funções cobrir a divisão celular, resposta imunitária, transdução de sinal e regulação da transcrição, para além das categorias acima mencionadas. No geral, 39 dos 99 genes correlacionados com grau fazem parte desta assinatura de 198 genes, incluindo CLDN1, MUC13, VIL1, HIATL1, CDCA7, HIST1H2BM e FAT (ver a lista completa na Tabela S3).

além deste catch-all assinatura para a classificação de cinco vias, nós também identificados e analisados ​​assinaturas genéticas específicas de qualidade para cada grau câncer. Por exemplo, LAPTM4B é um tal representante. Este gene confere alta precisão de classificação para amostras Caner e de controlo do grupo WD com AUC (área sob a curva) a = 0,97 (Figura 3). Usando 7,04 como o corte de expressão, este gene pode assim distinguir do cancro a partir das amostras de controlo no grupo com sensibilidade a WD = 87,5% e especificidade de 100%. Este resultado não é surpreendente, uma vez que é sabido que LAPTM4B é essencial para o crescimento e sobrevivência celular, e a sua sobre-regulação foi encontrado para ser correlacionado com o nível de diferenciação de carcinoma hepatocelular [15]. No total, 40 tais genes de assinatura são encontrados especificamente para o grupo WD; 18, 20 e 255 genes são específicos para o grupo MD, PD e UD, respectivamente (ver detalhes na Tabela S4).

Também identificamos discriminadores de um único gene para cada grupo de classe contra o resto do as amostras, incluindo o controle, resumidas na Tabela 1. por exemplo, as assinaturas para o grupo PD incluem os genes regulados positivamente,

MYO1B Compra de WD;

GKN2 Compra de MD;

CTSA Compra de PD; e um gene regulado por baixo,

RHOJ, Compra de o grupo UD. Estes discriminadores de um único gene mostrar AUC significativas, que vão desde 0,76 a 0,99, enquanto as precisões globais de classificação obtida por 5 vezes gama de validação cruzada de 70,0% para 97,0% para diferentes grupos. A consequente procura de

k

combinações -Gene (k = 2, 3, 4) para cada grupo de cancro por exaustivamente passar por todas as combinações de

k

grupos -Gene também identificou.

C. Identificação de assinaturas genéticas para a fase

patológica

Usando análises semelhantes aos do acima, nós identificamos assinaturas de gene para a fase inicial (fase I + II) e câncer em estágio avançado (estágio III + IV). Quadro 2 destaca os marcadores de um único gene mais discriminativos, com a precisão de classificação que varia de 75,0% a 81,4%. assinaturas multi-gene foram também verificados para estadiamento do câncer. Por exemplo, duas assinaturas foram encontrados para ser particularmente eficaz no estadiamento do câncer, ou seja, um grupo de 10 genes (CPS1 + DEFA5 + DES + DMN + GFRA3 + MUC17 + OR9G1 + REEP3 + TMED6 + TTN) e um grupo 9-gene (DPT + EIF1AX + FAM26D + IFITM2 + LOC401498 + OR2AE1 + PRRG1 + REEP3 + RTKN2) , que podem distinguir o início e os cancros gástricos avançados do restante das amostras (incluindo as amostras de controlo) com os acordos de 90,0% e 84,0%, respectivamente. A precisão global de classificação em três grupos, no início, avançado e controle, é de 71,4%.

Uma análise funcional sobre estes genes assinatura revelou algo interessante. Por exemplo, entre os produtos de proteína de início de carreira genes assinatura,

GFRA3

,

MUC17

,

proteínas da membrana OR9G1

,

REEP3 e TMED6 Quais são , principalmente receptores que transduzem sinais extracelulares.

DEFA5

é um péptido microbicida acredita estar envolvido na defesa do hospedeiro que é altamente expresso no íleo [16].

CPS1

,

DES e TTN

estão envolvidos em vários processos metabólicos, função muscular e a fase M do ciclo celular mitótico, respectivamente. Nós especulamos que estes genes SINALIZAÇÃO e imuno-relacionadas podem representar a anormalidade precoce de células do tecido durante a oncogênese em geral.

Alguns genes foram encontrados para ser tanto na classificação câncer e assinaturas de teste, tais como CPS1, DES, GFRA3, TMED6 e DPT, indicando alguma relevância biológica entre diferenciação e progressão do câncer. Nós, então, examinou se a expressão do gene de assinaturas de paragem estão associados com estágios patológicos. Entre eles, aqueles altamente correlacionada com diferentes estágios patológicos são

LANCL3

,

MFAP2 e PPA1

(Figura 4), mostrando consistente para cima e para baixo-regulação, respectivamente, junto com a progressão do cancro.

(S1-S4 representa quatro etapas de fase inicial I a IV fase avançada.

D. Identificação de genes diferencialmente expressos independentes de graus de câncer e estágios

para além da expressão diferencial específica para certos subgrupos de cancro gástrico, também examinámos se alguns genes são expressos diferencialmente no cancro gástrico em geral, independentemente de os tipos e fases. 62 tais genes foram encontrados com expressão diferencial consistente em pelo menos 2 vezes maior mudanças no cancro

contra

tecidos de referência correspondente. Notamos que na sua maioria são envolvidos em processos extracelulares, tais como adesão focal, CAMs, junção apertado, interacção receptor de citocina por citocinas e interação do receptor de ECM, a cascata de ativação do plasminogênio, bem como as vias de sinalização, incluindo Wnt e a sinalização de integrina, que são intimamente relevantes para o crescimento celular e a proliferação de células de controlo. Pesquisando contra o nosso banco de dados in-house (https://bioinfosrv1.bmb.uga.edu/DMarker/), que inclui conjuntos de dados de microarranjos públicas do GEO [17], Oncomine [18] e SMD [19], que abrange mais de 53 doenças humanas, incluindo câncer, descobrimos que os padrões de 15 genes de expressão diferencial são altamente específicos para câncer gástrico, como GKN2, CLDN7, THY1, GIF e PGA4, enquanto a maioria dos outros são em geral para vários tipos de câncer. Por exemplo, as mais gerais incluem alguns membros da família de genes de colagénio (COL1A2, COL3A1 e COL1A1), o carcinoembrionário molécula de adesão celular relacionada com antigénio (CEACAM6), metaloproteinases de matriz (MMP1, MMP7 e MMP12), topoisomerase (TOP2A) e fosfoproteína secretada (SPP1).

Apenas três,

CLDN7

,

CLDN1 e DPT

, destes genes sejam muito diferenciados em todos os graus ou estágios do câncer gástrico. Podemos ver na Figura 5A e 5B que tanto

CLDN7 e CLDN1

são altamente expressos em câncer de

contra

amostras de controlo de todos os tipos e fases, com um aumento moderado nos tecidos precoce do câncer, enquanto

DPT

foi regulada para baixo em todos esses grupos. O padrão de expressão consistente em todos os subgrupos de cancro pode indicar que estes genes participam em muitas das principais vias biológicas envolvidas na formação e progressão do cancro. Como é bem conhecido, as duas proteínas claudina, claudina-1 e claudina-7, são proteínas da membrana integral cruciais para a formação de junções apertadas, mantendo a adesão célula-a-célula e regulação paracelular e transporte transcelular de solutos através de epitélio humano e endotélio, que são expressos diferencialmente em vários cancros, tais como a neoplasia cervical [20], carcinoma renal [21] e um tipo de cancro gástrico intestinal de [22]. Dermatopontin (

DPT) é uma proteína da matriz extracelular que serve como um elo de comunicação entre a superfície celular de fibroblastos dérmicos e sua matriz extracelular. A sua expressão reduzida também tem sido encontrada em ambos os leiomiomas uterinos e quelóides [23]. O ROC mostrado na Figura 5C indica que estes genes podem possivelmente ser utilizadas como marcadores eficazes para o diagnóstico do cancro gástrico em geral

(A), para cada subtipo (WD, MD, PD, UD).; (B) para cada fase (Fase I, II, III e IV); e (C) a curva ROC mostra o poder de distinção de cada gene para a classificação de câncer

contra

amostras normais (AUC de CLDN1, CLDN6 e DPT são 0,86, 0,84 e 0,79, respectivamente, com um nível de significância de P = 0,0001).

E. A verificação das assinaturas identificados em conjuntos de dados públicos

Os padrões de nossos genes assinatura identificados expressão foram verificados contra dois conjuntos de dados públicos, ou seja, a

Kim

e

Takeno

conjuntos de dados (ver materiais e Métodos), para determinar a generalidade das referidas assinaturas de genes. Como mostrado na Figura 6, a distribuição das diferenças de expressão entre os dados e o

Kim

conjunto de dados é significativamente concordante, indicando que a aplicabilidade geral dos nossos marcadores identificados. Dentre 19 e 12 genes sobrepostos a partir das acima identificadas graus-correlacionados e lista de gene correlacionaram-stage, 10 e padrões de expressão 5 mostram semelhantes em cancros de graus G1-2 /G3-4 e fases I-IV na

Kim

dados, respectivamente, refletindo uma consistência elevada em padrões desses genes entre diferentes conjuntos de amostras de expressão.

no geral, a nossa assinatura de 19 genes para as classes de câncer teve um bom desempenho no

Kim

dados e obteve 78,0% de precisão de classificação na validação cruzada de 5 vezes em termos de distinguir mal de cancros altamente diferenciadas. Da mesma forma, as assinaturas de dois estágios (grupos de 10 genes e 9-de genes) obtido respectivas precisões de 84,0% e 76,0% no

Kim

conjunto de dados. A assinatura 198-gene não foi verificada desde o

Kim

dataset fornece apenas dobra-mudança, em vez de dados de expressão matérias.

Curiosamente, notamos que há uma correlação moderada entre a expressão do gene da nossa grupos de assinaturas identificadas e recorrência do câncer com base nas informações recidiva peritoneal de dados de Takeno [24]. Especificamente, os quatro assinaturas, 19-, 198-, 10- e 9 de genes grupos, pode prever a recidiva peritoneal com uma exatidão de 66,0%, 87,2%, 73,0% e 55,3%, respectivamente, ao distinguir entre o relapse- pacientes livres e peritoneal-recaída no estudo de Takeno [24].

analisa Discussão

Microarray gene-expressão no câncer gástrico foram previamente identificados padrões de expressão genética para a previsão prognóstico [25], [26] e diagnóstico geral do cancro [27], [28] (como revisada na Tabela S6), mas nenhum para subtipos de câncer gástrico ou classificação. Aqui, apresentamos uma análise sobre 54 pares de câncer e tecidos de referência adjacentes do mesmo número de pacientes com câncer gástrico e assinaturas moleculares identificados para os graus e estágios do câncer.

É sabido que diferentes análises de seleção de classificação e de genes podem levar a diferentes assinaturas de gene, o que representa um problema sério com a estabilidade e utilidade das assinaturas de genes selecionados. Para lidar com este problema, temos aplicado pesquisas exaustivas para assinaturas k-gene (k = 4) juntamente com um processo de selecção de recursos robustos, com votação por maioria para k 4, que garante a estabilidade dos genes assinatura identificados. Por outro lado, devido à natureza complexa dos dados de cancro de expressão genética, uma crença geral tem sido que as técnicas de classificação diferentes podem dar origem a assinaturas diferentes, mas de igual importância, pois podem corresponder a diferentes vias associadas a diferentes aspectos de um cancro . Em adição a estas técnicas variâncias, a dimensão limitada da amostra e a heterogeneidade existente entre os subgrupos de cancro são anotados como outros factores principais que afectam os marcadores seleccionados.

Em conclusão, nós demonstramos aqui que os padrões de expressão de genes pode ser utilizada como assinaturas eficazes para a classificação câncer gástrico e estadiamento, bem como previsão de prognóstico. Foram propostos dois tipos de assinaturas para servir diferentes fins de diagnóstico, cada um mostrando uma certa relevância para a malignidade do câncer e progressão do câncer. Tais tentativas de usar grau e estágio assinaturas moleculares são esperados para beneficiar significativamente o desenvolvimento da medicina personalizada e pode levar a novos marcadores séricos.

Materiais e Métodos

Amostras de Tecido

as amostras foram colhidas a partir de cancros gástricos malignos primários de pacientes não tratados durante o procedimento cirúrgico inicial em três hospitais afiliados da University College of Medicine Jilin Jilin e Hospital do Câncer Provincial, Changchun, China. Para cada amostra de tecido de cancro, uma amostra de tecido de referência correspondente foi recolhido a partir da região não cancerosos adjacentes que o cirurgião ressecado, a fim de assegurar margens positivas. Todas as amostras foram congeladas em azoto líquido dentro de 10 minutos após a excisão e armazenado a -196C até à extracção do ARN. Para o isolamento do RNA, foram utilizados 100 mm seções de cada amostra.

Todos os registros médicos e seções de câncer foram examinados por um patologista cirúrgico, eo diagnóstico histológico ea classificação TNM foram feitas de acordo com critérios da Organização Worldwide Saúde (OMS) e o sistema de classificação da União Internacional contra o Câncer. As amostras de referência foram sujeitos a uma análise histológica meticulosa para garantir a ausência completa de células cancerosas. consentimento informado por escrito foi obtido de todos os pacientes, o que foi aprovado pelo Conselho de Revisão Institucional da Universidade da Georgia, Athens, Georgia, EUA e pelo IRB chinesa supervisionar seres humanos em Jilin University College de Medicina e do Hospital de Câncer de Jilin Provincial, Changchun , China.

informações do paciente detalhadas, como idade, sexo, tipo histológico, grau diferencial, estágio patológico e história do uso de álcool /tabagismo é listadas na Tabela S5.

experiências

Microarray

as amostras de RNA foram analisados ​​usando o GeneChip humano Exão ST 1.0 (Affymetrix), seguindo o protocolo descrito no manual de Expressão Genechip Análise Técnica (P /N 900223) para a experiência de array e um relatório anterior [29]. Os microarrays foram escaneados usando o Scanner GeneChip® 3000 com Software Operacional GeneChip® (GCOS). Todos os dados são Miame complacente e os dados em bruto foi depositado na base de dados GEO (ID: GSE27342).

Microarray Análise de Dados

resultados de expressão gênica foram resumidas com base em intensidades de sonda matérias usando o Multichip Robust média [30] eo pacote APT (https://www.affymetrix.com/partnerSupplementaryprograms/programs/developer/tools/powertools.affx), seguindo três etapas principais, incluindo a correcção de fundo, normalização quantil e log2-transformação. Genes com expressão muito baixa em ambas as amostras cancerosas e de referência foram removidos; especificamente, um gene foi removido, se a sua

máximo (Expr.cancer, Expr.normal)

foi abaixo de 4 (intensidade de sinal normalizado).

Duas estratégias diferentes foram aplicados para avaliar a significância gene, dependendo após o que as condições foram comparados e se emparelhados ou não emparelhados amostras deve ser utilizado. Para comparação de cancros contra os grupos de amostra de controlo, foram realizados testes desemparelhados para investigar se dois grupos de expressão são diferentes, enquanto os testes emparelhados foram aplicados para examinar a consistência de mudanças de expressão em todos os pares. Além da Wilcoxon signed-rank test, nós também aplicado outro teste estatístico simples para detectar genes com expressão diferencial consistente no cancro

contra

tecidos de referência, como segue. Para cada gene,

K

exp

, o número de pares de tecidos de câncer /referência cuja expressão fold-change (FC) é maior do que

k

(por exemplo,

k

= 2) foi examinada; Se o valor de P para a observada

K

exp

foi inferior a 0,05, o gene foi considerado para ser diferencialmente expresso na maioria dos pares de cancro e de tecidos de referência (ver a informação de suporte). Nosso P-valor calculado não foi ajustado no teste de múltiplas hipóteses, a fim de evitar qualquer perda de genes que podem ser potencialmente eficaz na etapa de classificação subseqüente.

selecção Gene e classificação

Para k assinaturas -Gene (k = 4), foi realizada uma busca exaustiva para todas as combinações k-genéticas entre os genes diferencialmente expressos, identificados a partir da etapa anterior, utilizando uma abordagem de classificação baseada em SVM linear, e a precisão global foi avaliada utilizando 5 vezes a validação cruzada. Para k 4, foi aplicada uma abordagem diferente usando uma pesquisa heurística uma vez que a busca exaustiva é muito demorado para ser prático para o nosso problema. Os detalhes são os seguintes.

O conjunto de dados de expressão foi dividida aleatoriamente em treinamento e teste conjuntos, cada uma contendo metade das amostras. Isto foi repetido por 500 vezes para gerar 500 conjuntos de dados de treino /teste de classificação. A SVM linear foi usado para treinar um classificador [31], [32]. Ele constrói uma hiper-plano que separa duas classes diferentes de vetores de características com uma margem máxima. Esta hiper-plano é construído por encontrar um vetor w e uma variável b que minimizam, o que satisfaz as seguintes condições:

, por (amostras de câncer) e, (amostras normais). Aqui, é um vector característico, é o índice do grupo, W representa um vector normal à hiper-plano, é a distância a partir da hiper-plano para a origem e representa a norma euclidiana do w. Após a determinação dos valores L e b, um dado vector X podem ser classificadas usando; um valor positivo ou negativo indica que o vetor x pertence à classe positiva ou negativa, respectivamente. assinaturas de gene de cada conjunto de treinamento foram selecionados usando o método de eliminação do recurso recursiva (RFE), que é um invólucro que seleciona genes de previsão, eliminando genes não-preditores de acordo com uma função escalão gene gerados a partir do sistema de classificação [33]. O critério de classificação baseia-se na alteração da função objectivo mediante a remoção de cada gene. Para melhorar a eficiência da formação, esta função objectivo é representado como uma função de custo

J

para o

i

recurso -ésimo, calculada em função da formação só definido. Quando um gene é removido, ou o seu peso w

i é reduzida a zero, a mudança na função de custo

J (I) é dada por

. O caso de corresponde à remoção do

i

gene -ésimo. A alteração na função de custo indica a contribuição do gene para a função de decisão e serve como um indicador do ranking do gene

.

500 Os conjuntos de treino /teste foram divididos aleatoriamente em 10 grupos de amostras. Cada grupo de amostra foi então utilizado para obter uma assinatura, com base na votação por maioria e avaliação da consistência escalão gene através dos conjuntos de treinamento e teste 50. Os 10 assinaturas diferentes derivadas dos 10 grupos foram comparados para avaliar o nível de consistência entre os genes seleccionados. Em cada grupo, os subconjuntos de genes foram selecionados por RFE-SVM de cada conjunto de treinamento, e o desempenho nos subconjuntos foi avaliada a partir do conjunto de teste associada. Para derivar um gene classificação critério consistente para todas as iterações, a RFE função de classificação em cada iteração passo foi derivada de um classificador SVM que deu a melhor precisão média de classificação ao longo dos conjuntos de teste 50.

dados de microarranjos Públicas de câncer gástrico

Dois conjuntos de dados de microarranjos públicos foram transferidos do banco de dados GEO para estudos comparativos, o

Kim

(GSE3438) e os conjuntos de dados

Takeno

(GSE15081). O primeiro [34] inclui a expressão gênica de 50 pacientes com câncer gástrico (de Coreia) em diferentes fases e nível de diferenciação, que foi utilizado para verificar a consistência dos nossos assinaturas identificadas. Os dados Takeno [24] inclui 141 principais tecidos com cancro gástrico após a cirurgia curativa, com informações recidiva peritoneal de acompanhamento. Estes conjuntos de dados fornecem a razão log2 normalizada de tumor e expressão normal.

Informações de Apoio

Tabela S1. e estatísticas de 452 genes que são diferencialmente expressos em qualquer do grupo de quatro graus, determinada segundo os seguintes critérios: níveis de expressão no câncer e o show de tecidos de controle correspondente a mudança, pelo menos 2 vezes, e o limiar de significância estatística de ter

Deixe uma resposta