PLOS ONE: Funcionais categorias associadas a agrupamentos de genes que são co-expressa através da Cancer Cell NCI-60 Lines

Abstract

Fundo

O NCI-60 é um painel de 60 diversificada linhas celulares de cancro humano utilizadas pelo National Cancer Institute para pesquisar compostos para actividade anti-cancro. No presente estudo, os níveis de expressão do gene a partir de cinco plataformas foram integrados para proporcionar um único perfil transcriptoma compósito. A natureza abrangente e confiável de que conjunto de dados nos permite estudar co-expressão do gene através de linhas celulares de cancro.

Metodologia /Principais Achados

agrupamento hierárquico revelou numerosos grupos de genes em que os genes co- variam de acordo com o NCI-60. Para determinar a categorização funcional associado a cada cluster, utilizou-se o (GO) banco de dados Consórcio Gene Ontology ea ferramenta GoMiner. GO mapeia genes para hierarquicamente organizado categorias de processos biológicos. GoMiner pode alavancar GO para realizar análises ontológicas de estudos de expressão gênica, gerando uma lista de categorias funcionais significativas.

Conclusões /Significado

análise

GoMiner revelou muitos grupos de genes co-regulados que estão associados com grupos funcionais da GO categorias de processos biológicos. Notavelmente, essas categorias decorrentes dos agrupamentos de co-expressão coerentes refletir temas relacionados com o cancro, tais como adesão, migração celular, splicing de RNA, a resposta imune e transdução de sinal. Assim, estes conjuntos demonstram co-regulação da transcrição de genes relacionados funcionalmente-

Citation:. Zeeberg BR, Reinhold W, Snajder R, Thallinger GG, Weinstein JN, Kohn KW, et al. (2012) Funcionais categorias associadas a agrupamentos de genes que são co-expressa através das linhas celulares de cancro NCI-60. PLoS ONE 7 (1): e30317. doi: 10.1371 /journal.pone.0030317

editor: Ilya Ulasov, da Universidade de Chicago, Estados Unidos da América

Recebido: 17 de junho de 2011; Aceite: 15 de dezembro de 2011; Publicado: 24 Janeiro, 2012 |

Este é um artigo de acesso aberto, livre de todos os direitos autorais e pode ser livremente reproduzido, distribuído, transmitido, modificado, construído em cima, ou de outra maneira usado por qualquer pessoa para qualquer finalidade lícita. O trabalho é feito disponível sob a dedicação de domínio público da Creative Commons CC0

Financiamento:. Esta pesquisa foi apoiada pelo Programa de Pesquisa Intramural dos Institutos Nacionais de Saúde, Instituto Nacional do Câncer, Centro de Pesquisa do Câncer, da Investigação e da Ministério austríaco da Ciência e Investigação, projeto GEN-AU Bioinformatics Rede de Integração. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o NCI-60 é um painel de 60 linhas de células humanas de câncer que tem sido usado pela Developmental Therapeutics Programa (DTP) do Instituto Nacional do câncer dos Estados Unidos para rastrear compostos mais produtos naturais desde 1990 [1], [ ,,,0],2]. O painel NCI-60 inclui linhas de células de colo-retal (CO), renal (RE), ovário (OV), próstata (PR), pulmão (LC), mama (BR), e de origem cancro do sistema nervoso central (SNC), como bem como leucemias (LE) e melanomas (ME). Nós e diversos colaboradores em todo o mundo têm perfilado NCI-60 de forma mais abrangente, no ADN, ARN, proteínas, mutação, funcional, e os níveis farmacológicos do que qualquer outro conjunto de células em existência [1], [2], [3] , [4], [5], [6]. Os dados NCI-60 têm sido largamente utilizados em pesquisa e bioinformática cancro, mas os múltiplos conjuntos de dados podem ser mais informativo para o reconhecimento de complexos ‘biosignatures.’ Tais biosignatures pode por sua vez conduzir a uma maior compreensão dos fenótipos celulares e relações pathway dentro da célula .

Nós previamente desenvolvido GoMiner [7] e-High throughput GoMiner [8], as aplicações que organizam listas de genes “interessantes” (por exemplo, genes sub e sobre-expressa a partir de um experimento de microarray) para biológica interpretação no contexto do gene ontologia [9], [10]. GoMiner e ferramentas relacionadas normalmente geram uma lista de categorias funcionais significativas. Além de listas e tabelas, Alto Throughput GoMiner pode fornecer dois tipos de mapas de imagem em cluster (CIMS) como saída gráfica. Integrative

categorias contra experimentos

CIM capturar as relações entre categorias e múltiplas experiências; indivíduo

categorias em comparação com genes

CIM capturar as relações entre categorias e genes. Ambos os tipos de CIM são utilizados para apresentar os resultados no presente trabalho.

Na última década, biologia de sistemas tornou-se cada vez mais proeminente como o número de genes analisáveis ​​e parâmetros biológicos têm aumentado, e está começando a mostrar a sua relações funcionais. A abordagem padrão para o estudo da biologia de sistemas com dados genômicos é fazer cluster genes cuja expressão perfis co-variam tanto ao longo de um curso de tempo ou em várias amostras. Por exemplo, Garraway

et al.

[11] realizaram uma análise supervisionada integrada de dados de matriz e de expressão gênica SNP para identificar MITF como uma sobrevivência linhagem oncogene amplificado em melanoma maligno. Um certo número de micro-arranjo a expressão do gene adicional demonstrar o potencial de estudos de co-expressão do gene. Por exemplo, Prieto

et ai.

[12] utilizado a plataforma Affymetrix HGU133A para identificar redes de co-expressão de uma diversidade de amostras de tecidos humanos. A sua rede revelou um mapa de aglomerados de co-expressão organizados em constelações funcionais bem definidas. Duas regiões principais desta rede correspondem a genes envolvidos no metabolismo mitocondrial e nuclear. Esse estudo não é diretamente relevante para o câncer, embora, desde há tecidos de câncer foram incluídos no estudo. Choi

et al.

[13] fizeram tecidos de câncer de estudo, mas tinha infelizmente abatidos publicou dados de que hoje seria considerado desatualizado (Affymetrix U95A) ou plataformas não confiáveis ​​(cDNA). Além disso, os dados obtidos em diferentes plataformas necessárias para se reconciliar, ea data dos estudos precedeu a disponibilidade de recursos confiáveis ​​como AffyProbeMiner [14] e SpliceCenter [15]. No entanto, Choi foi capaz de detectar diferenças funcionais entre o crescimento normal e câncer em termos de mudanças co-expressão de genes em grandes áreas de fisiologia:. Metabolismo de energia, o ciclo celular, ativação imune ea produção de colágeno

Outros estudos têm sido focados os genes específicos do tecido. Cho

et al

[16] revelou muitos caminhos relacionados com a fisiopatologia do câncer de pulmão:. Rede de citocinas e TNF stress relacionado Pair /via de sinalização; sinalização trombina e activado por proteases via receptores; Ciclo Celular: G1 /S Check Point e inibição da Cellular Proliferação por Gleevec. Do mesmo modo, os estudos de Lai

et ai.

[17] foram restringidos ao cancro da próstata e desenvolveu um método estatístico para a identificação de padrões de co-expressão do gene para o gene diferenciais em diferentes estados celulares. Para um gene de interesse, de outros genes que são seleccionados têm padrões de co-expressão do gene para o gene diferenciais com este gene em diferentes estados celulares. Ao utilizar os genes supressores de tumor TP53, PTEN e RB1 como o gene de interesse, genes selecionados incluídos hepsina, GSTP1 e AMACR.

O presente estudo foi realizado para testar a hipótese de que genes de categorias funcionais semelhantes tendem a apresentar padrões comparáveis ​​de expressão em todas as linhas celulares a partir de um largo espectro de tecidos de origem (

ie

, as linhas celulares NCI-60). Esta hipótese foi gerado no decurso do nosso estudo recente mostrando que os genes mitocondriais codificado-nucleares são co-regulados entre si e com o gene MYC através do NCI-60 [18], [19]. A presente análise foi realizada com os dados avançados de expressão em CellMiner (https://discover.nci.nih.gov/cellminer) [20], [21]. Esses dados são de qualidade superior, uma vez que eles são obtidos por compilação de cinco plataformas de microarray (ver detalhes na seção Method). Eles também abordar a generalidade dos processos de co-regulação desde o NCI-60 compreende um conjunto particularmente rica de amostras a partir de 9 tipos de tecidos com alta reprodutibilidade.

Resultados e Discussão

Visão Global da estratégia e fluxo do processo

um diagrama de fluxo (Figura 1) fornece uma visão global do fluxo do processo. Nós primeira realizada agrupamento hierárquico padrão nos perfis de expressão genética através das linhas de células NCI-60. Em seguida, cortou a árvore de cluster resultante de atingir 4 níveis de cortes, solicitando (menor para o maior resolução) 20, 40, 80 ou 160 agrupamentos de genes (resultando em um total de clusters 20 + 40 + 80 + 160 = 300 genes) . Este esquema de famílias de conjuntos de tal forma que um cluster do 20-corte era um pai de um cluster criança no 40-cut, e assim por diante gerado. Um conjunto de 20 de corte pode ter um ou mais de tais crianças, mas cada criança tem apenas um dos pais. Assim, cada família do cluster pode ser exclusivamente designado pelo número do conjunto de corte a 160. Os conjuntos de genes para cada um dos 300 grupos foram submetidos à alta taxa de transferência GoMiner (HTGM) para determinar as categorias significativas Gene Ontology Consortium (GO) associados a cada conjunto de genes. As categorias GO que estavam presentes em todos os 4 cortes de uma família de cluster foram consideradas

robustos categorias

associados a essa família. O significado é que a robustez de uma categoria robusta é independente do grau particular de resolução usada para cortar a árvore aglomerado de genes. Assim, as categorias robustas são mais focados e confiável do que as categorias não-robustos que são significativos para algum corte particular, mas não para todos os cortes.

agrupamento Gene baseada na co-expressão

Usando esta estratégia e fluxo de processamento, nos propusemos a examinar todo o conjunto de dados para os 16,821 genes em CellMiner com dados de expressão de alta qualidade em toda as múltiplas plataformas de expressão de mRNA nas linhas celulares NCI-60. agrupamento hierárquico dos perfis de expressão gênica foi explorada em 4 níveis de resolução por cortes solicitando contendo 20-, 40-, 80-, ou 160-clusters.

GO categorias associadas a cada um dos co-expressão de cluster

Corremos Alto throughput GoMiner (HTGM) sobre os conjuntos de genes em todos os 300 conjuntos, e perguntou se haveria qualquer GO categorias presentes em todos os 4 níveis de cortes de uma família cluster. Esse resultado foi melhor visualizado por um novo tipo de “categorias

contra

experimentos” CIM (Figuras 2A, S1A, B). Somente as linhas foram agrupados, uma vez que as colunas já havia sido pré-dispostas em uma ordem de classificação especial: começando com um dos clusters do 20-cut, que vinculado que cluster com o cluster (s) do 40-cut que são os “filhos” do 20-cut. Este processo foi aplicado de forma recursiva para todos os 4 cortes. Para facilitar a visualização dos cortes, que se aproveitou de um novo recurso do programa de agrupamento Genesis para atribuir uma escala de cores distintas para cada corte. Nós delineou os mesmos grupos de categorias que foram estatisticamente significativas e que tinham funcionalidade biológica mutuamente relacionados-nos aglomerados NCI-60 (retângulos brancos nas Figuras 2A e S1B). Os números familiares do cluster e denominações funcionais aparecem ao lado de cada grupo cercada. À direita da Figura 2A é um indicador de escala que indica a altura ocupada por 10 linhas de categorias. As coordenadas de aglomerados na Figura 2 são apresentados na Tabela 1, e as categorias robustas representadas na Figura 2A são dadas na Tabela S1.

(A) versão compacta. A versão completa está disponível como Figuras S1A, B. Somente categorias com FDR 0,10 para pelo menos um corte estão representados. As coordenadas dos clusters (

por exemplo

, R1, C1) são apresentados na Tabela 1. A HTGM FDR para as categorias de ir para a 20-, 40-, 80- e 160-cortes são dadas em verde , azul, rosa e vermelho, respectivamente. Um tom claro corresponde a alta correlação (isto é, uma baixa FDR), e uma tonalidade mais escura corresponde a um FDR perto do limiar de 0,10. Os números cluster para o 160-cortes são mostrados na parte direita de cada agrupamento cercada. (B) Blowup da família de cluster 52 agrupamento derivado da Figura 2A.

Figura 2A mostra claramente as famílias de fragmentação bem definidas que surgem a partir da convergência da expressão do gene coerente e processos biológicos coerentes com uma categoria GO primordial. Que a convergência é especialmente claro para várias famílias de fragmentação (o número do conjunto para o componente 160 de corte da família é dado em parênteses): migração celular (52), a transdução de sinal (11), a reprodução (51), a adesão de células (132) , colagénio (72), o sistema imunológico (68), processamento de RNA (137), o splicing de ARN (69) e a replicação de ADN (154). Assim, cada agrupamento foi definido por um perfil de expressão gênica específica e uma categorização GO específico e unificadora.

Ficamos satisfeitos ao descobrir que pudéssemos identificar 64 categorias robustas (Tabela S1), compreendendo 15 funcionalidades GO generalizadas, todos de que (com a excepção da pigmentação do olho) estão intimamente relacionadas com o cancro. Para ilustrar melhor a definição operacional e conceito de robustez, construímos uma ampliação (figura 2B) da família de cluster 52 agrupamento contorno amarelo na Figura 2A. O agrupamento familiar conjunto 52 é constituído pelos descendentes de cluster de 10 dos 20-cut, como tabulados no painel “Determinar quais os clusters são pais de outros clusters” no diagrama de fluxo (Figura 1). Que o painel mostra que o caminho para agrupar 52 do 160-cut inclui grupo 30 do 40 de corte e conjunto 42 do 80-cut. Na Figura 2B, note que 4 escalas de cores diferentes diferenciar os 4 cortes (

por exemplo.

, Verde, azul, lavanda e designar vermelho 20-, 40-, 80-, e 160 cortes, respectivamente). Por exemplo, a análise mostrou que HTGM GO: 0051674_localization_of_cell foi estatisticamente significativa em clusters 10, 30, 42, e 52 das 20, 40-, 80-, e 160 cortes, respectivamente. Assim, GO: 0051674_localization_of_cell foi designado como sendo uma categoria robusta. Em contraste, GO: 0048468_cell_development foi significativa apenas em conjunto 52 do 160-cut, e, portanto, não foi designado como robusto. Note-se que o painel no diagrama de fluxo mostra 7 agrupamentos familiares derivadas do conjunto 10 da 20-corte. A presente figura mostra que nenhum dos outros do que 10/30/42/52 agrupamentos familiares contém uma categoria robusta, embora alguns contêm categorias significativas (

por exemplo

, 10/11/36/43 contém GO: 0051674_localization_of_cell como uma categoria significativa, mas não robusta).

as categorias robustas para a família de cluster correspondente a agrupar 52 do 160-cut são listados no painel inferior do diagrama de fluxo na Figura 1. Essas categorias robustas concentrar no celular migração, enquanto as categorias significativas (robustas, mais não-robustos) são mais diversificadas, geralmente refletindo o desenvolvimento dos neurônios, a resposta imune, e epitelial-mesenquimal de transição (EMT), além de migração celular (consulte “Categorias

contra

genes “CIM abaixo).

base de dados pública para permitir a exploração dos resultados na Figura 2A

para facilitar futuras pesquisas usando o clustering e resultados de categorização funcionais aqui relatados, nós fornecemos um banco de dados público. Várias consultas pré-construídos do MySQL pode ser emitido para recuperar informações de um banco de dados contendo os resultados na Figura 2A e sua versão expandida Figura S1B. Uma consulta típica pode envolver recuperar a lista de genes dentro de um cluster especificado que mapeiam para uma categoria GO especificado. A interface gráfica do usuário (GUI) para a emissão a consulta desejada é fornecido no URL https://discover.nci.nih.gov/NCI60/menu.table.html. O URL contém uma tabela de consultas clicávéis conveniente e exemplos dos parâmetros de entrada e de saída correspondentes (Figura 3). Um tutorial PowerPoint para usar o banco de dados está disponível a partir de materiais suplementares (Powerpoint S1).

“Categorias

contra

genes” CIM

Para ilustrar um tipo de biológica informação que pode ser adquirida a partir da estratégia de agrupamento que usamos, nós delinear a relação entre genes e categorias funcionais para cluster de 52 dos 160 de corte, através da construção de um “Categorias

contra

genes” CIM para as categorias significativas (Figura 4A) e para as categorias robustas (Figura 4B). Mais detalhes são apresentados no método.

As categorias significativas CIM é um super das categorias robustas CIM com respeito a ambos os genes e categorias. Como mencionado acima, as categorias robustas concentrar fortemente sobre a migração celular, ao passo que as categorias importantes de agrupamento 52 da 160-corte são mais diversas, geralmente reflectindo o desenvolvimento neuronal, a resposta imunitária, e EMT além de migração celular. As estatísticas para as duas CIM são resumidos em números passos 4 e 5 na Tabela 2.

Para as categorias robustas CIM (Figura 4B), em alguns casos, há uma sobreposição substancial entre os genes em categorias, tal como ocorre para o fundo 7 categorias (o grupo “migração celular”) na CIM. Nesta situação, nós interpretamos essas categorias como sendo em grande parte redundante em relação um ao outro. Uma situação mais informativa ocorre quando não há redundância completa, mas quando há apenas sobreposição parcial (grupos de) categorias, tais como o grupo migração celular acima mencionada, e as quatro principais categorias na CIM. Tal sobreposição parcial pode revelar “cross-talk” entre as várias funcionalidades biológicas. As relações categoria pode refletir a participação de componentes de migração celular, tais como citoesqueleto e integrinas.

Para as categorias significativas (Figura 4A), TGFB2 medeia conversa cruzada entre os grupos de migração de células de categorias neurônio diferenciação e. Mais impressionante é a separação entre o grosso da migração celular relacionados com (

ou seja

, TGFB1I1, MYH9, VCAM, ADAM9, DLC1, FGF2, CLIC4, NEXN e VCL) e os genes relacionados com o neurônio (

ie

, IL6, INHBA, KCNMA1, DBN1, FEZ2, ROBO3 e NOG). Assim, em sua maior parte, diferentes conjuntos de genes correlacionados com esses 2 funcionalidades, ea razão para sua aparição na mesma família conjunto 52 do 160-cut (em virtude de perfis de expressão gênica altamente correlacionadas) indica uma relação íntima entre células migração e desenvolvimento neurônio que requer investigação futura.

Conclusões

a natureza abrangente do NCI-60 gene conjunto de dados de expressão, juntamente com a ampla gama de tecidos de origem representada, nos permitiu ter uma visão na biologia de sistemas de células cancerosas através da identificação de vários grupos de genes que co-variam de acordo com as linhas de células 60.

Para melhor caracterizar os genes dentro de cada grupo, foi utilizado o Gene Ontology (GO) banco de dados Consortium em conjunto com a ferramenta GoMiner às associações funcionais determinados. GoMiner análise revelou que os genes em muitos aglomerados estão associados com coerentes GO categorias de processos biológicos, tais como a migração das células, transdução de sinal, a reprodução, a adesão celular, colagénio, sistema imunológico, o processamento do ARN, splicing de ARN, e a replicação do ADN.

as novas características da nossa abordagem são: (1) análise dos perfis de expressão de genes de alta qualidade proporcionados pela perfil transcriptoma compósito recentemente disponíveis com base nos níveis de expressão de genes integrados, desde cinco plataformas de co-expressão, (2) o uso de GO categorização de encontrar categorias robustas que não dependem da escolha de um determinado nível de resolução para o corte do dendrograma cluster, e (3) usando os genes em grupos selecionados para gerar direções futuras pesquisas, tais como os genes de migração de células em conjunto 52 da 160-cut (Kohn

et al.

, manuscrito em preparação). Para o nosso conhecimento, nenhuma dessas características foram estudados /implementados anteriormente.

Um novo tipo de visão é a elucidação de conexões novo gene com base nas duplas critérios de co-expressão e qualificação funcional coordenada. Esta ligação pode ser visualizada através do exame dos genes naqueles GO categorias com sobreposição parcial com o gene de

relação

categorias tipo de HTGM CIM (ver, por exemplo TGFB2 conversa cruzada entre o neurónio e a diferenciação das categorias de migração de células na figura 4A).

Um segundo tipo de nova visão é a elucidação das vias mais altamente co-regulado, com confirmação pela categorização funcional relacionada dos genes na via. Por exemplo, muitos dos genes em conjunto 52 do 160-cut estão envolvidos em uma via de migração de células altamente coordenado (Kohn

et al.

, Manuscrito em preparação).

Materiais e Métodos

CellMiner

expressão NCI-60 transcrição.

A expressão genética transcrição foi determinada utilizando sondas a partir de cinco plataformas. Estes incluem, de Affymetrix (Affymetrix Inc., Sunnyvale, CA), o ~60,000 recurso Genoma Humano U95 Set (HG-U95) [5], o ~44,000 recurso matriz Human Genome U133 (HG-U133) [5], o ~47,000 apresentam Human Genome U133 mais 2,0 Arrays (HG-U133 mais 2,0); eo ~5,500,000 recurso GeneChip Exon Human 1,0 matriz ST (GH Exon 1.0 ST) [19]. Também estão incluídos a partir de Agilent (Agilent Technologies, Inc., Santa Clara, CA) foi o ~41,000 recurso Whole Human Genome Oligo Microarray [3]. Todas as plataformas Affymetrix foram normalizados por Guanina Citosina Robust Multi-matriz Análise, ou GCRMA [22]. sondas de ARNm Agilent foram normalizados com base na sua detecção em pelo menos 10% das linhas celulares, utilizando GeneSpring GX por i) definição de qualquer valor gProcessedSignal inferior a 5 a 5, ii) transformando o gProcessedSignal ou gTotalGeneSignal para logbase 2, e iii) normalizar por matriz a 75

percentil [3]. Nosso banco de dados relacional, CellMiner, at http: //discover.nci.nih.gov , pode ser usado para acessar os dados do HG-U95, HG-U133, HG-U133 mais 2,0 e Agilent Whole Human Genome Oligo Microarrays .

sondas (Agilent) ou conjuntos de sondas (Affymetrix) foram então passada através dos seguintes critérios de controlo de qualidade antes da sua utilização na determinação dos níveis de expressão génica relativos. Em primeiro lugar, foram determinados intervalos de intensidade conjunto de sondas médias (pretende incluir sondas Agilent no texto que se segue). Sonda define com uma intensidade varia ou igual a 1,2 log

2 foram retiradas. A sonda define o número de um gene que passou este critério foi determinada, e 25% desse número calculado. correlações de Pearson foram determinados para todas as combinações possíveis dos restantes conjuntos de sondas (para cada gene). correlação média de todos os conjunto de sonda foi determinada em comparação com todos os outros (por um único gene). Em seguida, esses conjuntos de sondas com correlações médios de menos do que 0,30 foram removidas. Seguindo este passo, sonda define com as menores correlações médias 0,60 foram retiradas. Os restantes combinações sonda set /sonda correlações foram então recalculada. A menor média set sonda correlação continuou a ser descartado, ea média recalculada até quer todas as correlações médias were≥to 0,60, ou até ser atingido o nível de 25% do número definido sonda original (calculado acima).

estes procedimentos produziram valores de intensidade transcrição precisos que eram altamente reprodutível e internamente consistente. Além disso contribuindo para a alta qualidade dos dados, pensamos, foram os seguintes: (1) o crescimento celular, a colheita e controle de qualidade foram feitas principalmente por uma pessoa (W. Reinhold). (2) Controle de qualidade de conjuntos de sondas individuais foram baseados em um intervalo mínimo de intensidade da 1,2 log2 e padrão de correlação de 0,60. Isso proporciona proteção contra conjuntos de sondas esporadicamente ruins. (3) A transformação dos dados em escore z [23] por subtracção da linha de 60 células significa e divisão por os desvios-padrão fornecidos proteção contra anomalias de plataforma única, e permitiu a comparação de todos os dados do conjunto de sonda. escores Z médias foram determinados para todos (18,412) genes disponíveis para cada linha de células. Pormenores sobre o cálculo z-score são fornecidos nos materiais Supplemetary (Documento S1). Estes cálculos foram feitos em Java.

Cada passo no processo de genes extrair CellMiner [21], e selecionando aqueles que correspondem ambos os símbolos do Comitê Nomenclatura Gene HUGO (HGNC) [24] símbolo, bem como um GO anotação de banco de dados, resulta em uma “perda” de genes. O grau de perda em cada passo é resumida na Tabela S2. Por exemplo, 29,017 e 16,821 genes são representados em HGNC e a análise de expressão de transcrição de cinco plataforma, respectivamente. O subconjunto de genes representados na HGNC é 11,767 /16,821 = 69,9%. Esse número é maior do que a percentagem global de cerca de 55% de todos os genes humanos que são representados por HGNC (Zeeberg

et al.

, Não publicado). O subconjunto de genes HGNC representados na ontologia processo biológico de GO (nas condições especificadas na Tabela S2) compreende um pouco decepcionante 7.654 /29.017 = 26,4%. O rendimento global de genes de cinco plataformas que tenham tanto HGNC e ir anotações processo biológico é 6.477 /11.767 = 55,0%.

Download e pré-processamento de genes de CellMiner

Um pedido especial foi feito ao administrador do sistema para o conjunto completo de perfis de expressão gênica. Essa descarga teria sido demasiado grande para executar através da interface web padrão. Os valores para cada gene foram baseados em um consenso de cinco plataformas de microarray, e são expressos como pontuações Z, tal como descrito nos Materiais e complementares, tal como descrito anteriormente [19].

Os dados foram pré-tratados por pré-seleccionando apenas os genes que têm tanto um símbolo HGNC e anotação no Processo ontologia GO Biológica. Cada vector perfil gene foi dimensionado para média zero e variância unitária.

agrupamento Gene baseada na co-expressão

Uma linguagem R (https://www.R-project.org) [25 ] roteiro foi desenvolvido para executar agrupamento hierárquico dos perfis de expressão gênica em todo o NCI-60. Uma vez que os genes podem funcionar de forma positiva ou negativa dentro de uma rede, que queríamos genes que foram altamente correlacionados e altamente anti- correlacionados para ser atribuídos ao mesmo conjunto, de modo que especificada uma métrica de distância de 1-ABS (CR (t (MAT))) /2. Nós também especificado agrupamento ligação completa.

Nós usamos a função R

cutree ()

para cortar a árvore hierárquica de agrupamento resultante em 20, 40, 80 e 160 clusters. Esses grupos tiveram duas propriedades importantes:

O conjunto total de genes na árvore de cluster foi dividida (completamente e sem duplicação) entre os clusters. Ou seja, cada gene no conjunto original apareceu em exatamente um cluster.

Os cachos da 40-cut foram aninhados dentro dos cachos da 20-cut. Isto é, cada conjunto de corte a 40 foi um subconjunto de um único conjunto de corte a 20. Esse padrão foi mantido de forma recursiva através de todos os níveis de cortes.

A distribuição bruta de genes para todos 300 (

ou seja

, 20 40 80 + 160 + +) clusters é mostrada na Tabela S3. Cada cluster foi posteriormente analisado por GoMiner (ver secção seguinte). Realizamos vários cortes porque queríamos priorizar aqueles GO categorias que eram independentes do padrão de corte particular (consulte a seção Métodos “categorias Scoring Go”).

A relação entre os clusters em cortes sucessivos (por exemplo, 20 e 40, 40 e 80, ou 80 e 160) foi delineada por uma tabela gerada pela seqüência de chamadas R exemplificados para 20 e 40 como: a tabela resultante mostrou que cluster (s) na 40-cut surgiu a partir de cada cluster no o 20-cut.

famílias Cluster

poderiam ser definidas, começando com um dos clusters no 20-cut, e utilizando a tabela de 20- e 40-cut para determinar todos os clusters 40 de corte que foram derivadas de que 20- cluster de corte. Este processo foi repetido por sua vez para os grupos 40 de corte utilizando a tabela de 40- e 80-corte, e assim por diante. O conjunto do cluster 20-cut selecionado além de um único cluster derivada de cada um dos 40-, 80-, e 160 cortes constituído uma família cluster.

High-throughput GoMiner (HTGM)

GoMiner [7] é uma ferramenta para a interpretação biológica dos dados ômicas, incluindo dados de microarrays de expressão gênica e do estado da arte das tecnologias de seqüenciamento. Ele aproveita o Gene Ontology (GO) para identificar “os processos biológicos”, “funções moleculares” e “componentes celulares”, representadas em uma lista de genes. -High Throughput GoMiner (HTGM) [8], que foi usado para muitas das análises relatadas aqui, é um melhoramento do GoMiner que eficientemente executa a tarefa computacionalmente desafiando de processamento em lote automatizado de um número arbitrário de tais listas de genes.

Uma categoria GO é

enriquecido

se o número de genes alterados que HTGM atribuído a ele é estatisticamente significativamente maior do que o número esperado por acaso. A categoria é considerada

significativa

se p-valor exato de sua Fisher e sua taxa de descoberta de falsas (FDR) são ambos igual ou inferior a um limiar seleccionado pelo utilizador (tipicamente 0,10; em raras ocasiões, o valor-p pode exceder o limite embora o FDR está abaixo do limite, e nós geralmente deseja rejeitar tais casos). Veja [7], [8] para discussões detalhadas de GoMiner e HTGM, incluindo cálculos de significância estatística.

Corremos todos os clusters derivados dos cortes para 20-, 40-, 80- e 160-cut clusters, um total de 300 arquivos de entrada, em uma única corrida HTGM. Os parâmetros utilizados em todas as análises HTGM estão listadas na Tabela S4.

A média genes /cluster ao nível 160 de corte foi de aproximadamente 40, que normalmente consideramos ser muito poucos genes para apresentar a GoMiner . No entanto, neste caso, como mostrado abaixo, nós encontramos muitos aglomerados significativos e funcionalmente compatíveis GO. Assim, o agrupamento hierárquico antes de os genes com base na expressão parece ter pré-focados os genes de uma maneira funcionalmente coerente, de modo a compensar o baixo poder estatístico de um pequeno conjunto.

A distribuição bruta de GO categorias que resulta da execução GoMiner sobre os 300 conjuntos compreendendo os 20-, 40-, 80- e 160-cortes é mostrado na Tabela S5. Assim, a similaridade de perfis de expressão de gene, por vezes, mas não sempre, implica a coerência da função biológica. A fração de clusters com pelo menos uma categoria significativa diminuição modesta de 0,55 (para a 20-cut) para 0,41 (para o 160-cut).

Classificando grupos dentro das famílias de cluster

famílias Cluster são definidos na seção Métodos de “agrupamento hierárquico baseado no perfil de Gene.” Eu inventei um algoritmo para classificar os grupos dentro de uma família de cluster para eventual exibição como uma imagem CIM. O algoritmo utiliza tabelas geradas por código R (ver “agrupamento hierárquico baseado no perfil de Gene”) para fornecer a ordenação global adequada de clusters derivados de um outro em diferentes cortes para clusters de 20-, 40-, 80- e 160-cut. Resumidamente, uma família cluster consiste de um dado 20 de corte, e o 40 de corte (s) derivado do que 20 de corte, e assim por diante.

categorias de pontuação GO

Cada categoria GO que foi significativo em pelo menos um conjunto hierárquico foi pontuada de acordo com a sua presença nos conjuntos de cada uma das famílias de corte 20. A pontuação foi representada como uma cadeia de bits exemplificado, por exemplo, como 1101, que indica que a categoria estava presente em um grupo derivado do 160-, 80-, e 20 de corte, mas não em qualquer conjunto a partir do 40-cut .

Deixe uma resposta