PLOS ONE: identificação de genes HK Humano e Regulação da Expressão Gênica estudo em Cancer de transcriptómica Dados Analysis

Abstract

A regulação da expressão genética é essencial para eucariontes, como conduz os processos de diferenciação celular e morfogênese, levando à criação de diferentes tipos de células em organismos multicelulares. RNA-Sequencing (RNA-Seq) fornece aos pesquisadores uma caixa de ferramentas poderosa para a caracterização e quantificação do transcriptoma. Muitos conjuntos de dados de transcriptoma de tecido /célula humana diferentes provenientes de tecnologia de RNA-Seq estão disponíveis no recurso de dados público. A questão fundamental aqui é como desenvolver um método de análise eficaz para estimar semelhanças padrão de expressão entre os diferentes tecidos tumorais e seus correspondentes tecidos normais. Nós definimos o padrão de expressão gênica de três direções: 1) largura de expressão, o que reflete a expressão do gene on /off status, e os genes principalmente preocupações ubiquamente expressas; 2) genes expressão variável /baixo /alto ou constantes, com base no nível de expressão de genes e variação; e 3) a regulação da expressão do gene ao nível da estrutura do gene. A análise de cluster indica que o padrão de expressão gênica é maior em relação à condição fisiológica em vez de distância espacial do tecido. Dois conjuntos de limpeza humana (HK) genes são definidos de acordo com os tipos de células /tecidos, respectivamente. Para caracterizar o padrão de expressão gênica em nível de expressão do gene e variação, em primeiro lugar, aplicar um melhor K-means e um modelo de variância a expressão do gene. Nós achamos que genes HK associados ao câncer (um gene HK é específica no grupo com câncer, embora não no grupo normal) são expressos maior e mais variável na condição de câncer do que em condições normais. HK genes associados ao cancro preferem genes rica em AT, e são enriquecidos em funções relacionadas com a regulação do ciclo celular e constituem algumas assinaturas cancerosas. A expressão de genes grandes é também evitado no grupo de cancro. Estes estudos irão nos ajudar a entender qual célula padrões específicos do tipo de expressão de genes diferem entre os diferentes tipos de células, e em particular para o câncer

Citation:. Chen M, Xiao J, Zhang Z, Liu J, Wu J, Yu J (2013) Identificação de genes HK Humano e Regulação da Expressão gênica Study in Cancer de transcriptómica Análise de dados. PLoS ONE 8 (1): e54082. doi: 10.1371 /journal.pone.0054082

editor: Rajeev Samant, Universidade do Alabama em Birmingham, Estados Unidos da América

Recebido: 19 de julho de 2012; Aceito: 06 de dezembro de 2012; Publicação: 31 de janeiro de 2013

Direitos de autor: © 2013 Chen et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo foi apoiado por uma bolsa (2012AA020409) a partir de Programas Nacionais para Pesquisa em alta Tecnologia e Desenvolvimento (Programa 863), do Ministério da Ciência e Tecnologia da República Popular da China; e concessões do National Science Foundation da China (N.º 31.101.063, No. 31.271.386 e Não, 31000584). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

regulação da expressão do gene contém o processo que as células e os vírus usam para regular a maneira que a informação nos genes é transformado em produtos de genes, a maioria dos quais são genes codificadores de proteínas [1] – [3]. regulação da expressão do gene é essencial para eucariotas [4], porque conduz os processos de diferenciação celular e morfogénese [5]. Isto leva à criação de diferentes tipos de células em organismos multicelulares, em que tipos de células diferentes possam possuir diferentes perfis de expressão de genes, embora todos eles possuem a mesma sequência de genoma [6]. Um grande desafio na pesquisa atual é como definir o modo de regulação da expressão gênica. Com base na amplitude expressão do gene [7] – [9], os genes podem ser divididas em genes ubiquamente expressos [6] – [10], perto de genes universal HK, e genes específicos de tecido /específicos de células. Com base no nível de expressão do gene, o gene pode ser determinada como um gene de baixa /alta expressão [11], e como um gene constante /variável expressão [12] – [13]. estrutura do gene é um importante fator de regulação para a expressão do gene. É composta principalmente de composição estrutura do gene, a organização estrutura genética, variação genética, as classes de proteínas, estrutura celular, processos celulares e mecanismos moleculares [10], [14] – [25].

RNA-Seq é tornando-se uma biotecnologia cada vez mais popular devido à sua medição a transcrição a precisão predominante e de elevado rendimento para detectar genes expressos fracamente [10] – [11], [15], [26]. Devido aos avanços dramáticos na RNA-Seq, aumentar os dados de transcriptoma rapidamente [25] – [27] na base de dados SRA. Em estudos anteriores progressão do cancro e de expressão gênica mecanismos de regulação com base em dados de microarray [28] – [30], os pesquisadores, principalmente em relação a expressão do gene em condições de câncer vs. condições normais e com os mesmos originais. Este método poderia faltar muitos genes realmente up-regulada expressão diferente (DE) pelo processo de normalização [31], desconsiderando o mecanismo baseado no câncer. Neste estudo, nós selecionamos 12 amostras normais e 9 amostras de câncer de explorar o mecanismo geral de regulação da expressão gênica do câncer a partir de dados de transcriptoma de RNA-Seq. Nós definimos o padrão de expressão gênica de três direções e caracterizar genes de câncer de Hong Kong para observar regulação da expressão gênica em células cancerosas. Esta pesquisa vai nos ajudar a compreender os genes reguladores-chave e patogênese do câncer.

Materiais e Métodos

RNA-Seq transcriptoma dataset

amostras de RNA-Seq, sob condições normais e câncer condição são selecionados para a identificação de genes de Hong Kong. Dois dos principais elementos são considerados para a seleção, a quantidade ea saturação das amostras selecionadas. Embora as amostras de RNA-Seq são volumosos no recurso de dados pública, as amostras úteis para o normal vs análise comparativa câncer são limitadas. Se tivéssemos incluído amostras mais insaturados, ele teria levado a uma taxa de falso negativo superior causada principalmente por genes de baixa abundância. Obtemos totalmente 37 dados diferentes humano linha de tecido /célula transcriptômica de banco de dados SRA pública (Tabela S1), 22 amostras normais e 15 amostras de câncer. Em seguida, selecionar amostras com critérios como segue: 1) remover todas as amostras de linhas celulares mistos, porque o método pooling cobrirá abundância expressão diferencial de genes; 2) a remoção de linhas celulares amostras com tratamento especial, porque os mecanismos de regulação são diferentes sob diferentes condições fisiológicas; 3) filtrar conjuntos de dados insaturados graves; 4) selecionando a amostra mais saturada se repetições existiu, nós não preferem integração que induziria maior taxa de falso negativo; 5) seleção de amostras provenientes de Illumina Genome Analyzer, o instrumento de sequenciação mais popular, aqui vamos tentar reduzir a diferença original entre várias plataformas de sequenciamento. Finalmente, temos 12 tecidos normais e 9 linhas celulares de cancro, para posterior análise. Os tecidos normais na nossa análise incluem adiposo, no cérebro, no córtex cerebral, do cólon, da mama, do rim, do fígado, do pulmão, do sistema linfático, coração, testículos, e nos músculos esqueléticos. E linhas celulares de cancro incluem K562, DLD-1, HepG2, GM12878, linfoma, BT474, MCF7, MB435 e T47D em conjuntos de dados de RNA-Seq atuais (Tabela S1). K562 é uma linha celular imortalizada produzido a partir de um paciente do sexo feminino com leucemia mielóide crónica (LMC). DLD-1 é uma linha celular de adenocarcinoma de cólon cultivadas sob 21% de oxigénio com não-siRNA alvejando transfectadas. HepG2 é uma linha celular derivada de um paciente do sexo masculino com carcinoma de fígado. GM12878 é uma linha de células linfoblastóide produzido a partir do sangue de um dador do sexo feminino por transformação EBV. O linfoma é uma célula B Ramos. As outras linhas celulares estão todas as linhas celulares do cancro da mama derivadas de carcinomas ductais invasivos (ATCC). MCF-7, BT474 e T47D são-receptor de estrogênio positivo e progesterona-receptor positivo; MD435 é negativa para ambos. arquivos CEL de alta qualidade de dados de microarranjos humanos no HG-U133A são selecionados a partir AffayExpress (E-MTAB-27) [32] (Tabela S2) para a comparação.

Depois de transcrições aleatórios filtragem, selecionamos 28.778 RefSeq humana transcritos codificadores de proteínas (RefGene de banco de dados de anotação UCSC, 04 de janeiro de 2010 atualização), e os agrupe em 18.874 loci humana como descrito anteriormente [9]. 13.038 (69,08%) genes com multi-isoformas e 5.836 (30,92%) genes com single-isoforma são usados ​​para análise posterior. Para mapear conjuntos de dados de transcrição para seus referência sequência genómica GRCH37 (hg19), usamos o software de mapeamento MAQ [33] baixado do UCSC. Então anotação dos resultados do mapeamento é comparado com RefGene.

O modelo de análise de dados de transcriptoma

A expressão gênica abundância é normalizada como a densidade de leitura, isto é, leituras por quilobases (KB) da sequência de codificação (CDS ) lê por milhão (RPKM), em dados de ARN-SEQ que um milhão de mappable lê numa experiência [34]. E a expressão de um gene é definido como a soma de todas as isoformas de expressões que pertencem a esse gene [11]. Para calcular um nível de expressão de genes com precisão, citamos um modelo de distribuição de Poisson para estimar expressão isoformas [11]. Considerando-se o custo do tempo, que exigem estritamente uma leitura cai em um exão com negligenciando informações exão-junção.

Para determinar se um gene é expresso ou não, o valor limiar do fundo da expressão do gene é realizada utilizando um método anterior que coordenado taxa de falsos positivos (

FPR

) e taxa de falsos negativos (

FNR

) [10]. Neste artigo, definimos set positiva como genes com lê queda em seus exons, e um conjunto negativo como genes com lê queda em regiões intergênicas. Um valor expressão observada, que é maior do que o limiar de fundo é marcada como positiva, e o oposto é marcado como negativo. Então, temos essas duas definições, (

FP_count

significa o resumo das contagens região intergénica para o valor expressão maior do que o fundo, ao contrário, como

TN_count

.

FN_count

significa que o resumo da contagem de gene como gene expressa, mas o valor mais pequeno do que a expressão de fundo, por outro lado como o

TP_count

).

Identificação de genes de baixa e elevada expressão podem ser representados padrão de expressão do gene numa amostra, e dinâmico alteração do nível de expressão genética entre os tecidos /linhas celulares reflectem a reacção interna da regulação da expressão gênica. Estudos anteriores normalmente dividido nível de expressão de genes em vários intervalos, e marcou dois genes extremas como de baixa e alta, respectivamente [11]. Esta definição é de alguma forma arbitrária, porque medido nível de expressão do gene, independentemente do padrão de expressão gênica. Enquanto isso, discrepância nível de expressão de genes adjacentes nível de expressão em dois subgrupos sequenciais pode ser fracamente. Impulsionada por esta motivação, nós em primeiro lugar aplicar a melhoria da K-means para identificar limites de baixa e alta expressão de forma dinâmica, que dividem genes expressos em três categorias: os genes de expressão baixos (LEG), genes de expressão moderadas (MEG), e genes de expressão elevados ( HEG). Como para uma amostra, expressão limiar baixo é definido como o valor médio do valor máximo de expressão do gene de LEG, valor mínimo a expressão do gene em MEG. A fim de análise do gene variação padrão de expressão entre diferentes amostras, vamos definir um limiar de baixa expressão unificada como o valor médio de limiares baixos de expressão de todos os samples. limiar de alta expressão por uma amostra é definido como o valor médio do valor máximo a expressão do gene em MEG e valores mínimos de expressão de genes em HEG. E o limite alto de expressão unificada é o valor médio de todas as amostras. O método baseia-se no padrão de distribuição de expressão de genes individuais de uma amostra para identificar genes de expressão de baixas e altas com medição dinâmica. E garante a distância máxima do nível de expressão gênica de dois subgrupos sequenciais.

A melhoria do K-means atribui a cada genes expressos ao cluster cujo centróide é mais próxima como K-means não. Mas a distância dos dois elementos é definida como o valor absoluto da diferença de dois valores de expressão de genes. Centróide é definido como o valor do gene do meio no aglomerado de genes de triagem de acordo com a expressão do gene valor expressão. Que é diferente do algoritmo K-means definido como média aritmética. Nós inicializar gene conjunto de dados de expressão em um formato de ponto (

x

,

y

), onde

x

é o valor expressão gênica e y é a sua contagem de gene correspondente. O algoritmo é aproximadamente descrito como se segue:

Transform

x

valor pela fórmula, onde

n

é transformar fator e seu valor padrão é 1.

Definir o número de clusters

K

(= 3).

aleatoriamente seleccionar

K

elementos a partir do ponto definido como centróides dos clusters.

Atribua a cada aponte para o centróide do cluster mais próximo.

Re-compute

K

novas centroids cluster.

Vá para 4) até que a atribuição não mudou mais.

Como resultado, expressas são divididos em 3 categorias: LEG, MEG, e HEG. Montamos resultados normais do grupo como o padrão de controle. Os valores médios de baixos limites e limiares elevados em 12 tecidos normais são definidos como, finalmente, de baixo limiar e limite de alta para todos os tecidos /linhas celulares.

Nós usamos a variação do nível de expressão genética para descrever variações de expressão gênica, como fizeram estudos anteriores [35] – [37]. valores de expressão elevada, o que pode amplificar variação, contribuem para a variação mais diretamente, enquanto os pequenos valores de expressão do gene afetam a variância mais fraco, o que pode esconder variação real. Assim, os valores de expressão de genes são classificados como 1, 2, ou 3, que representa o nível de expressão do gene em baixo, moderado ou elevado, respectivamente. Nós usamos essas representações em vez de gene valor da expressão bruto para estimar o padrão genético variações de expressão. Para qualquer gene, calculamos valor de coeficiente de variação (

CV

) com base na classificação expressão do gene, onde

μ

é média aritmética das fileiras de todas as amostras de linha de tecidos /células de expressão de genes em um gene;

σ

é o desvio padrão de classificação expressão de genes em um gene, que é a média aritmética do desvio quadrado de classificação expressão de genes de sua média aritmética. Também estabelecemos grupo normal como controle.

Propomos uma trama MDAD para caracterizar a diferença de padrão de expressão gênica em condições de câncer vs. condição normal, com base no enredo MA amplamente utilizado. M Distância (MD) e uma distância (AD) de qualquer gene em MDAD lote são definidos como e, respectivamente, onde

valor

max em é o valor máximo a expressão de genes dentro de todas as amostras /linha de células de tecidos normais, e

min

valor é a mínima expressão de genes (mas 0) dentro de todas as amostras de linha de tecidos /células normais;

valor

max em é o valor máximo a expressão de genes dentro de todas as amostras /linha de células do tecido do cancro, e

min

valor é o valor a expressão do gene mínimo (mas 0) dentro de todo o tecido do câncer /amostras de linha celular.

MD

reflete a diferença da distribuição de expressão gênica entre a condição de câncer e condição normal, e

AD

reflete a diferença de nível médio relativo entre condição de câncer e condição normal. Usamos MDAD trama, com um emparelhado Wilcoxon-rank assinado de teste [38], para comparar a diferença de compartilhada ou nível de expressão associado a um cancro HK gene entre a condição normal e câncer.

MD Art 0 significa a distribuição de expressão gênica em condições de câncer é mais ampla do que em condições normais, e

AD Art 0 significa o nível médio relativo a expressão do gene em condições de câncer é maior do que que, em condições normais. Para comparar seus níveis de expressão máximos e mínimos iniciais em conformidade com câncer e condição normal, nós também calcular

MAXR

e

MinR

como a razão entre o valor máximo e mínimo expressão em condições normais vs codintion câncer (,) . Se um valor da relação é 0, um único gene ligar na condição do cancro; Se um valor da relação localiza na [0, 1], valor expressão extrema em condição normal é menor do que na condição de cancro, se um valor da relação localiza na [1, ∞], valor expressão extrema em tecidos normais é maior do que no cancro condição.

a correlação de Spearman perfil de expressão do gene é usado para definir o padrão de expressão de similaridade de diferentes tecidos /células. Com base no seu grau de semelhança, um conjunto hierárquico com informações de correlação é realizada usando software R. Normalização do uso de dados microarray MAS5.0 [39] algoritmo com o Expression software Console ™ (detecção de p-valor 0,05). análise de enriquecimento de função de diferentes tipos de genes HK é realizado com David (banco de dados para anotação, visualização e descoberta Integrado) [40].

Resultados

Modelo de Análise de dados de transcriptoma de RNA-Seq

RNA-Seq tem habilidade poderosa para detectar transcritos baixa abundância com uma precisão sem precedentes e de alto rendimento a um custo muito mais baixo que compreende com outros métodos. Agora tornou-se a tecnologia mais amplamente utilizada transcriptomics sequenciamento [11], [41]. Uma consulta comum na análise de dados de RNA-Seq é a forma de definir o número de genes expressos em uma amostra. Para eliminar a contaminação e erro causado por experiências e instrumentos, etc., nós detectar o nível de expressão entre os exons e regiões intergênicas para coordenar

FPR

e

FNR

(ver Materiais e Métodos) usando o método gerado em um estudo anterior [10]. Os limiares fundo da expressão do gene para amostras individuais estão caindo no 0,13-0,41 RPKM. Nós definimos um valor médio de 0,25 RPKM (Figura S1) como o limite de fundo de expressão de gene para análise posterior. Em seguida, usamos um modelo de Poisson para lidar com estimativa de expressão da isoforma e refinar o valor da expressão gênica por acumulação de todos os valores de isoformas de expressão em um gene [11].

Definição de genes HK

Nossas amostras são separados em dois grupos: 12 fisiológicas tecidos normais e linhas de células cancerosas 9, detalhes são apresentados na Tabela 1. a análise de agrupamento indica que os padrões de expressão de genes são altamente relacionados com a condição fisiológica em vez do que a distância espacial tecido (Figura 1). Prevemos que existem alguns padrões comuns de regulação em células cancerosas, tais como ligar regulação /off e baixa /alta ou constante ajuste variável /, que mantêm a sua capacidade de proliferação ilimitada. Aqui, nós definimos genes HK em dois grupos separados, genes normais HK e câncer genes HK, de modo a reflectir a expressão do gene de ligar /desligar estado há condição fisiológica diferente. estudo anterior sobre agrupamento hierárquico de nove bibliotecas SAGE pulmão também mostraram uma clara separação de tumor e amostras normais [42].

correlação de Spearman de perfis de expressão gênica é usado para definir a expressão gênica perfis similaridade de 21 diferentes tecidos /células. A análise de agrupamento hierárquico com informações de correlação mostra 2 clusters:. 12 tecidos normais e 9 linhas celulares de cancro

Nós definimos cinco tipos de genes HK acordo com o seu padrão de expressão gênica em condições normais e /ou condição de câncer: 1) genes normais exclusivo HK, gene específico HK única constante do grupo normal, não gene HK no grupo com câncer; 2) genes HK associados ao câncer, gene específico HK única constante do grupo câncer, não gene HK no grupo normal; 3) compartilham genes HK, genes HK expressas em ambos os grupos normal e câncer; 4) genes normais HK, genes HK expressos em todo o grupo normal, inclui genes normais únicos HK e compartilhar genes HK; 5) genes do câncer de Hong Kong, genes HK expressas no grupo de câncer de todo, inclui genes HK associados ao câncer e compartilhar genes de Hong Kong.

Quanto ao grupo normal, 12 tecidos normais selecionados cobrir o tecido conjuntivo, tecido muscular, o corpo 6 sistemas de taxonomia humanos, incluindo o sistema urogenital, sistema digestivo, sistema respiratório, hematológico e imunológico, sistema nervoso central e sistema cardiovascular (sistema endócrino não foi coberto, Figura S2) região e. Com base nestes 12 tecidos normais, estimamos que há 8831 genes normais HK (proteína-coding genes HK) fração de genes de .A HK é de 47%, o que é consistente com dois relatórios anteriores: 40% [9] e 42% [10 ]. A última investigação também foi realizado com dados de RNA-Seq, mas Daniel Ramsköld e seus colegas de trabalho definido genes HK sem distinguir grupo normal ou câncer. 8041 genes HK foram identificados por 24 tecidos /linhas de células humanas (10 tecidos normais e 4 linhas de células de cancro são igualmente considerados em nosso estudo), incluindo 7695 genes codificadores de proteínas, 277 LNCR e 69 genes desconhecidos que não estão presentes na sequência genómica de referência GRCH37, hg19 [10]. Os genes HK sobreposição entre Daniel Ramsköld

et al. O trabalho de

e os nossos genes normais HK são 7004 (Figura S3). E o único gene HK em nossa definição (1827) vem principalmente de gene normal exclusivo HK (1253), que só é mostrado como genes HK em condição normal. Desde Daniel Ramsköld e seus colegas de trabalho usado 4 linhas celulares de cancro, esta diferença de identificação de genes HK ocorre em nosso estudo é bastante razoável. A maioria dos nossos 8831 HK genes normais definidos são ubiquamente expressa em todas as 19 amostras normais disponíveis, dos quais 12 são seleccionados para a definição de genes HK normal, sete deles são filtrados por critérios mostrados em Materiais e Métodos (Figura S4A, Tabela S1). A “taxa de detecção falsa” é causado principalmente por insaturação das amostras filtradas. Isso significa que a precisão de genes HK definido a partir de 12 tecidos normais é alta o suficiente para uma análise mais aprofundada

amostras de câncer atuais representar a região do corpo e três sistemas taxonômicos humanos amplamente investigadas, incluindo:. Sistema urogenital, sistema digestivo, e hematológico e sistemas imunes (Figura S2, Tabela S1). Os nossos seleccionados 9 linhas de células de cancro cobrir a maior parte deles, excepto que a amostra do sistema urogenital, que é filtrado por a insaturação e selecção plataforma critérios. A fracção do gene HK cancro é de 38% em largura de expressão do gene 9. definido 7084 cancerosas genes HK e a maior parte deles estão presentes no grupo normal (Figura 2A), o qual forma o grupo HK partilhada. Esses genes partilhados 6237 HK poderia ser genes essenciais para uma célula, que mantêm as funções básicas no estado fisiológico diferente. genes do câncer de Hong Kong estão a menos de genes normais HK porque o câncer exigia menos ligado genes (Tabela S1). Mas cancro necessária uma fracção mais elevada de ARNm de piscina [10], [26] para reduzir o cancro do transcriptoma de células especialização [26]. Isso permite que um foco na conclusão da proliferação de células simples. Sobre 88.65% dos genes do câncer HK são ubiquamente expressa em todas as amostras de câncer de 13, incluindo 4 amostras filtradas (Tabela S1, Figura S4B). A “taxa de detecção falsa” de câncer de genes HK é causada principalmente pela insaturação das amostras filtradas. Este resultado indica que, embora as correntes 9 amostras de cancro não podem representar diferentes tipos de cancro, a identificação de genes de cancro HK pode ser usada no estudo de expressão de genes padrão de célula cancerosa.

Genes

HK são definidos separadamente duas fisiológico grupos: 12 tecidos normais e 9 linhas de células de cancro. (B) Diferentes tipos de genes HK enriquecimento funcional. “Cancer” significa câncer genes HK, abreviado como sufixo “C” segue ilustração termo função; “-Cancer associado”, genes HK específicos na condição de câncer, abreviado como sufixo “CA” segue a função ilustração prazo; “Compartilhada” meios sobrepostas genes HK em condições normais e cancerosas, abreviado como sufixo “S” segue a função ilustração prazo; “Normal-único”, genes HK específicas em condição normal, abreviado como sufixo “NU” segue ilustração termo função; “Normal” significa genes normais HK, abreviado como sufixo “N” segue a função ilustração termo.

HK Um gene é tipicamente um gene constitutivo que é necessário para a manutenção da função celular de base, e é encontrado em quase todas as células humanas [7], [43]. Para caracterizar as funções normais e cancerosas de genes HK, nós comparamos gene celular função de enriquecimento e vias de sinalização. Como mostra a Figura 2B, genes HK cancerosas são enriquecidos em função molecular e os processos biológicos. genes do câncer de Hong Kong participar no ciclo celular, replicação de DNA, reparo incompatível e, via de apoptose, etc., para responder a ocorrência do tumor. genes HK normais tendem a juntar-se nas vias básicas (Tabela 2).

Caracterização de genes HK compartilhados padrões de expressão

Para caracterizar nível de expressão genética e variação de gene que leva a definição de padrões de expressão, que, em primeiro lugar aplicar melhorada K-means e adoptarem melhores coeficientes de variação de expressão gênica (

CV

, ver Materiais e Métodos para mais detalhes) modelo. Estudos anteriores geralmente definida 100 genes RPKM como limiares elevados de expressão e do 1 RPKM para baixa expressão baseada em oito caixas de escala log [11]. O algoritmo K-means melhorada identifica os limiares a partir de um padrão de distribuição de expressão gênica individual. Com base no cálculo deste algoritmo, valores de limite baixo de expressão são 0,66-1,22 RPKM e limiares elevados de expressão são 8,58-19,99 RPKM (Tabela 3). Nós estabelecemos um valor médio de 1,06 RPKM para baixo limiar e um valor médio de 12,72 RPKM para um patamar alto em condições normais como um padrão para análise (Figura S5). Discriminar um status variação expressão do gene, nós aplicamos uma expressão gene melhorado

CV

modelo. O

CV

valores na faixa grupo normal de 0 a 0,54. Q1 (quarto) e Q3 (três quartos)

CV

valores no grupo normal são de 0,14 e 0,26, que são marcados como valores limiares expressão constante e variável, respectivamente (Figura S6). Assim, temos totalmente três status de variação a expressão do gene, constante (0

CV

≤0.14), variável moderado (0,14

CV

≤0.26) e variável (

CV

. 0,26)

é bem sabido que alguns genes expressam constantemente entre tecidos, enquanto outras expressam variavelmente em condições normais. Este fenômeno também existe em genes HK [12] – [13], [35]. Com base na expressão do gene

CV

modelo, descobrimos que mais genes HK no câncer tendem a ser variáveis ​​moderada genes expressos (Figura 3A). Nós tentativa de investigar as maneiras pelas quais status de variação expressão do gene é regulado para lidar com o surgimento de um tumor. Assim, comparamos 6237 compartilhada genes HK para ilustrar a sua adaptação. Mais de metade das alterações do estado de variação de expressão compartilhados genes HK ‘entre condição normal e câncer. Tal como mostrado na Figura 3B, cerca de dois terços dos genes HK compartilhadas mudança constante sob condições normais para moderar estado variável sob condição de cancro. Um terço da variável moderada compartilhada genes HK na condição de se tornar genes compartilhados constantes normais HK em condição de câncer. Cerca de metade dos genes compartilhados HK variáveis ​​em condição normal mudar seu status variação expressão a variável moderado em condição de câncer (Figura 3B). Uma célula é capaz de modular o seu padrão de expressão do gene a ser variável expressão moderada principalmente no tumor condição fisiológica.

Existem três estados de genes variações de expressão, constante, abreviado como sufixo “C” em (B), e Moderado variável, abreviado como moderada em (a) e o sufixo “M” em (B) e variável, abreviado como sufixo “V” em (B).

Para medir a regulação da expressão gênica e expressão gênica variação regulação de estado em estado câncer, propomos uma MDAD (ver Materiais e Métodos) lote com um teste emparelhado postos sinalizados de Wilcoxon [38] em todos HK genes (Figura 4A) compartilhado e genes HK dividir em três subtipos de status variação (Figura 4B, C, D). Todos emparelhado postos sinalizados de Wilcoxon valores detalhe teste são apresentados na Tabela 4. genes HK Shared expressar maior em câncer do que em tecidos normais, com base na largura expressão efetiva (

MD

, p-valor é 4.34E-33 ) eo valor intermediário (

AD

, p-valor é 0). Os dados de microarray anteriores indicaram que os genes de cancro humano pode ser amplamente sobre-regulada [31]. Emparelhados postos sinalizados de Wilcoxon teste valores de p

MD

nos três genes subtipos de variação expressão são 4.24E-67, 0,11, e 0,59, respectivamente. Os valores P de

AD

são todos muito inferior aos valores de 3.15E-160, 2.62E-126, e 3.65E-183 (Tabela 4). Como a Figura 4 mostrado, mais compartilhada genes HK ‘

AD

e

MD

valores são menores do que 0, o que significa genes expressam maior na condição de câncer do que em condições normais. Assim, na condição de câncer, uma célula ajusta principalmente genes HK compartilhados constantes para expressar maior para agir o surgimento de sinal de câncer

MD Art . 0 significa a largura intervalo de expressão gênica em condições de câncer é maior do que em condições normais, e

AD

0, o nível médio relativo a expressão de genes em cancro da condição é maior do que em condições normais. De acordo com compartilhada do normal status de variação HK genes expressão, compartilhada genes HK são divididos em três subtipos, constante, variável moderado e variável expressa genes HK compartilhados. Emparelhados teste de Wilcoxon é usado aqui para medir a regulação da expressão gênica e expressão gênica regulação status de variação. (A) Todos os genes HK compartilhados. (B) constante Partilhada expressa genes de Hong Kong. (C) Partilhada variável moderada expressa genes de Hong Kong. (D) variável compartilhada expressa genes de Hong Kong.

Nós quantificar a proporção de genes para os quais célula cancerosa modulam a expressão do gene a ser maior do que no estado fisiológico normal. Para isso, calcula-se a contagem de genes que têm valores máximos relação (

MAXR

) e valores mínimos de razão (

MinR

) ≤1 (ver secção Materiais e Métodos). Quando

MinR

≤1, há 73,47% dos genes compartilhados HK acumulados; quando

MAXR

≤1, há 67,79% de genes HK partilhados acumulada (Figura 5A, Tabela 5). Consideramos também células regulam os níveis de expressão de genes em condições câncer combinando com informações gene variação expressão. Quando

MinR

≤1, há 78,24% dos genes compartilhados HK no estado constante, 65,10% dos genes compartilhados HK no estado variável moderado e 80,16% dos genes compartilhados HK no estado variável são acumulados. E quando

MAXR

≤1, aqueles número são 70,17%, 62,30% e 73,53% nestes três subtipos de variação de expressão (Figura 5B, C, D, Tabela 5). Os dados mostram que os genes HK mais comuns são-se regulada combinando com o estatuto de variações de expressão gênica em condição de câncer.

Até denota do eixo y

MAXR

com intervalo [0, 3], e para baixo y -axis denota

MinR jogue com intervalo [0, 3]. Para amplificar a figura, vamos definir o valor da relação de 3,00 se um valor de proporção é maior do que 2,50. Quanto ao gráfico de inserção interior, a curva azul mostra acumulado

MAXR

; ea curva verde mostra acumulado

MinR

. Ambos correspondem a esquerda do eixo y, significando contagem acumulada do gene. Eixo y direito indica a contagem de cada gene (apresentado como Razão Gene Contagem), que corresponde a um

MAXR

curva de distribuição de vermelho e um ciano

MinR

curva de distribuição.

Deixe uma resposta