PLOS ONE: Previsão e provas dos sistemas biológicos subjacentes Câncer Intestinal

Abstract

O câncer colorretal progride através de uma acumulação de mutações somáticas, alguns dos quais residem nos chamados genes “driver” que fornecem uma vantagem de crescimento do tumor. Para identificar pontos de intersecção entre as vias genéticas motorista, foi implementado um quadro de análise de rede usando interações proteína para prever conexões prováveis ​​- tanto precedentes e romance – entre genes fator-chave no cancro. Aplicou-se o quadro para encontrar conexões significativas entre dois genes,

Apc

e

CDKN1A

(

p21

), conhecido por ser sinérgico na tumorigênese em modelos do rato. Em seguida, avaliou a coerência funcional do resultante

Apc-CDKN1A

rede pela engenharia

in vivo

perturbações único nó da rede: modelos de ratos mutantes individualmente em

Apc

(

Apc

1638N +/-

) ou

CDKN1A

(

CDKN1A

– /-

), seguido por medidas de mudanças proteínas e expressão gênica em tecido epitelial intestinal . Colocámos a hipótese de que se a rede está previsto biologicamente coerente (funcional), em seguida, os nós previstos deve associar mais especificamente com os genes e proteínas desreguladas do que os genes e proteínas estocasticamente seleccionados. O previu

Apc-CDKN1A

rede foi significativamente perturbados no nível de mRNA por ambos os nocaute de genes individuais, e as previsões também foram fortemente apoiados com base na proximidade física e mRNA co-expressão de alvos proteômica. Estes resultados suportam a coerência funcional da proposta

Apc-CDKN1A

rede e também demonstrar como as previsões baseadas em rede pode ser estatisticamente testados utilizando dados biológicos de alto rendimento

Citation:. Patel VN, Bebek G, Mariadason JM, Wang D, Augenlicht LH, Acaso MR (2010) Previsão e provas dos sistemas biológicos subjacentes Câncer intestinal. PLoS ONE 5 (9): e12497. doi: 10.1371 /journal.pone.0012497

editor: Chad Creighton, Baylor College of Medicine, Estados Unidos da América

Recebido: 16 de maio de 2010; Aceito: 26 de julho de 2010; Publicação: 01 de setembro de 2010

Direitos de autor: © 2010 Patel et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado pelos Institutos Nacionais de Saúde Grants UL1-RR024989 do Centro Nacional de investigação Recursos (clínica e translacional ciência Awards) e P30-CA043703 da Universidade Case Western Reserve Comprehensive Cancer Center. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

a maioria dos tumores colorretais não hereditários surgem através do acúmulo sequencial de mutações em genes chave do controlador, onde uma mutação em um supressor de tumor (por exemplo,

Apc

) ou oncogene (por exemplo,

Kras

) inicia o processo, e uma cascata de mutações somáticas segue [1]. Embora essas mutações foram classicamente pensado para ser composta de alguns genes (por exemplo,

Apc

,

Kras

,

Trp53

), os recentes esforços de sequenciamento em larga escala revelou que um determinado tumor inclui (em média) 80 mutações, com até 15 deitado em “Driver” genes frequentemente mutados [2]. Em apoio à hipótese de que esses genes-chave funcionar de forma cooperativa na condução tumorigênese, modelos de ratos mutantes em dois genes motorista simultaneamente têm mostrado um aumento sinérgico na carga tumoral, incluindo:

Pten-Apc

[3],

Kras-tgfb

[4], e

Apc-Trp53

[5]. A evidência de sinérgico, isto é, não-aditivo, aumenta em peso do tumor sugere que as vias de sinalização de dois genes mutados podem intersectar a jusante, e, assim, prever e interrogar estes pontos de cruzamento –

como uma rede

biológica – é de interesse significativo. Para traçar as conexões entre genes, uma variedade de conjuntos de dados de alto rendimento – por exemplo, interacções proteína-proteína (IBP), a co-expressão de genes, e as relações do factor de transcrição – têm sido empregues para inferir associações funcionais que se prestam para análise como redes, em que cada gene ou proteína é representada como um nó e uma interacção como uma vantagem. Além disso, as análises baseadas em rede pode ser usada para identificar biomarcadores [6], para prever a progressão do tumor [7], ou para revelar as alterações moleculares subjacentes doença [8].

No entanto, nosso conhecimento atual das redes biológicas está longe de ser completa. A cobertura dos bancos de dados interactome actuais é estimada em menos de 10% do número total de interacções [9]. Assim, quando interpolando as conexões entre genes motorista, análises baseadas em rede que dependem unicamente da interações confirmados podem não ter conexões essenciais. Como um objetivo de nossa pesquisa é de prever e analisar os caminhos funcionais entre genes de driver, um passo crítico foi desenvolver um quadro preditivo para inferir e avaliar novas conexões entre genes. O quadro proposto aqui (modelado em Pathfinder [10]) infere bordas ausentes usando previsões de relações familiares de proteínas e filtra esses caminhos com base nas regras de associação conhecidos. Por outro lado, uma vez que um gene de cancro participa em múltiplas vias de sinalização, pode haver dezenas – se não, – centenas de caminhos pelos quais as duas proteínas interagem funcionalmente. Assim, uma abordagem computacional é necessária para limitar o espaço da rede para o contexto biológico específico de interesse. Para extrair sub-redes funcionalmente relevantes, o quadro detecta vias de sinalização altamente prováveis ​​com base no gene-gene co-expressão de mRNA e Gene Ontology [11] regras de associação extraído de vias publicados.

Foi utilizado o método computacional para elucidar as conexões entre um gene motorista bem conhecida de câncer intestinal,

Apc

(

polipose adenomatosa coli

), para outro gene também envolvidos no câncer,

CDKN1A

(anteriormente conhecido como

p21

). Embora

CDKN1A

não foi encontrado para ser mutado em populações de cancros colorrectais humanos estudados até à data [2], o seu nível de expressão está correlacionada com a progressão neoplásica e tem um valor de prognóstico superior à do

Trp53

[12]. Além disso apoiar a sua importância na neoplasia, o rato mutante duplo,

Apc

1638N +/- CDKN1A

– /-

, exibe um aumento sinérgico na sua carga tumoral [13]. Depois de prever a rede que liga

Apc

e

CDKN1A

, foi avaliada a relevância destas previsões, manipulando o sistema subjacente: a geração de

in vivo

perturbações de rede em dois modelos de ratos, seguido de medições cas “sistemas em nível do epitélio do intestino delgado. As medições ‘cas – tanto proteomic e genómicas – do sistema perturbado foram usadas para o teste estatístico da rede previsto, introduzindo assim o conceito de avaliar

in silico

previsões em relação aos dados biológicos específicos do contexto

.

Materiais e Métodos

rede Analysis Framework

o quadro de análise de rede (ilustrada na Figura 1, e explicado no Métodos S1) emprega a arquitetura PathFinder descrito anteriormente [10]. A rede crua de interações físicas publicamente disponíveis é primeiro podadas de falsos positivos, usando um modelo de regressão logística que incorpora (i) O número de vezes que um PPI é observado, (ii) a correlação de Pearson de medições de expressão para os genes correspondentes, (iii) pequeno coeficiente de agrupamento mundo dos proteínas, e (iv) os dados de localização subcelular de proteínas de parceiros que interagem. Positivos (1000 PPIs dos MIPS [14] do banco de dados de interações) e de dados de treino negativo conjuntos (1000 IBP selecionados aleatoriamente que não estão em MIPS) são usados ​​em 1000 ensaios de validação cruzada para adquirir os parâmetros que maximizam a probabilidade de uma verdadeira interação .

O processo começa com um processo de filtragem de duas etapas para dar conta de falsos positivos e falsos negativos em bancos de dados de interação. Depois de selecionar os genes motorista de interesse, percursos são previstos e, em seguida podadas usando tanto GO regras de associação prazo e valores co-expressão do gene de gene. Finalmente, os segmentos da via significativas são fundidas para se chegar a uma rede entre os dois genes do controlador. O quadro inclui a co-expressão de mRNA específico de tecido em dois níveis: na filtragem emparelhados de falsos positivos; e na filtragem de caminhos de co-expressão média. O modelo de regressão logística é treinado em bancos de dados interactome padrão-ouro (ver Métodos S1 para obter detalhes adicionais).

interações falsos negativos são inferidos usando relações de homologia de sequência. Observou-se que as proteínas com sequências semelhantes compartilham parceiros de interacção semelhante na mesma organismo [15], e, assim, as proteínas a partir da mesma família, também são susceptíveis de ter padrões de interacção semelhante. O banco de dados Pfam, utilizando alinhamentos múltiplos de sequências e modelos ocultos de Markov (HMMs), usa semelhança de sequência para formular classificações da família de proteínas [16] e serve como uma ferramenta útil para explorar essas relações. Assim, inferiu-se uma aresta de interacção se (i) duas proteínas não interagem uns com os outros na rede PPI, e (ii) existe, pelo menos, uma interacção entre as famílias de estas duas proteínas.

Para identificar esses caminhos relevantes para o nosso sistema de modelo de interesse, os dados de co-expressão com base em experimentos de microarranjos do

Apc

Min /+

rato pequeno epitélio intestinal foram obtidos a partir da Expressão gênica Omnibus (série GSE422 [17]); este estudo utilizou microdissecção a laser de captura para provar as criptas de adenomas, carcinomas e epitélio normal. Na nossa implementação, usamos Pfam versão 23.0 [16] e o lançamento Gene Ontology em Agosto de 2008 [11]. O algoritmo de busca foi ampliada para encontrar caminhos até 6 nós de comprimento, e o limiar para a co-expressão média de vias foi.

Mouse Intestinal Epitélio Isolamento

Todos os animais foram manipulados em estrita conformidade com boas práticas animal, definidos por organismos de carácter nacional e /ou local animal pertinentes, e todo o trabalho animal foi aprovado pelo Comitê Institucional de animal Care and Use (IACUC) do Albert Einstein College of Medicine (autorização de número 20.070.805).

Apc

1638N +/-

e

CDKN1A

– /-

C57BL6 /J ratos foram gerados como descrito anteriormente [13] e amostras de tecidos foram colhidas utilizando o método descrito por Weiser et al, resultando em cripta e das vilosidades populações de células do intestino delgado de

Apc

1638N +/-

,

CDKN1A

-. /-

, e do tipo selvagem ratos [18].

diferencial

2D Na eletroforese em gel

2D Differential Em eletroforese em gel (2D DIGE) foi realizada como descrito anteriormente [19]. proteínas diferencialmente expressos de frações cripta e das vilosidades foram identificados no ratinhos mutantes (

Apc

1638N +/-

e

CDKN1A

– /-

) em relação às respectivas frações do selvagem camundongos -tipo (4 repetições cada). t-testes univariados (variâncias desiguais e tamanhos iguais de amostra) e regressão multivariada linear (codificadas no pacote de R limma [20]) foram realizadas. pontos de gel foram seleccionados para a identificação de LC-MS /MS com base nestas duas estatísticas t no nível de significância de 0,05.

pontos de gel foram excisadas, tripsina digerida, e os péptidos foram subsequentemente analisados ​​por LC-MS em tandem /MS em um LC Packings /Dionex HPLC-3000 final Orbitrap sistema [19] XL (Finnigan, San Jose, CA). Para a interpretação do espectros MS /MS, o pacote de software MASCOTE foi usada para pesquisar o banco de dados SwissProt; um banco de dados nula de sequências de péptidos revertidos foi pesquisados ​​simultaneamente para dar conta de falsos positivos. proteínas identificadas são apresentadas na Tabela S1. arquivos DAT Mascot foram disponibilizados ao público através da base de dados Proteomics Identificações [21], o número de acesso 10638.

Gene Expression Profiling

estudos Microarray para cripta e das vilosidades populações de

Apc

1638N + /Tablet

-,

CDKN1A

– /-

, e do tipo selvagem camundongos (4 repetições cada) foram realizados em Affymetrix mouse Genome 2,0 fichas de acordo com procedimentos publicados [22] . Todos os dados são Miame complacente e os dados brutos foram tornados públicos através do banco de dados compatível Miame, o Gene Expression Omnibus [23], o número de acesso GSE19338.

Análise mRNA Rede

Raw .CEL arquivos foram processados ​​em MATLAB usando o procedimento de média multiarray robusta [24]. Para lidar com várias sondas capturar diferentes aspectos do comportamento de um produto do gene, usamos todas as sondas para representar um gene. Assim, na análise que se segue, cada

APC-CDKN1A

nó de rede,

i

, foi representada por

K

i

sondas sobre a matriz, resultando numa matriz de tamanho

q

×

n

, onde e. Para determinar se o

Apc-CDKN1A

nós da rede foram coletivamente diferencialmente expressos em um compartimento de tecidos (criptas ou vilosidades), estendemos

T

2

estatística de Hotelling – uma abordagem clássica útil para grupos de genes teste [25] – para incorporar múltiplas experiências, como segue: onde é o vetor de intensidade de mRNA média para todos os

q

sondas para um fundo genético,

G

, em que (

Apc

indicando

Apc

1638N +/-

;

CDKN1A

indicando

CDKN1A

– /-

, e

WT

indicando o tipo selvagem C57BL6 /J).

S

é o valor absoluto da matriz da amostra covariância pool imparcial para cada mutante: onde

Mutant

pode se referir tanto

Apc

1638N +/-

ou

CDKN1A

– /-

, eo valor absoluto em

S

é usado para evitar componentes imaginárias quando se toma a raiz inverso do

S

in. Deve notar-se que as sondas correspondentes a

Apc

e

CDKN1A

si mesmos foram excluídos, uma vez que estas devem ter valores de muito baixa intensidade (nos respectivos mutantes) que iria distorcer a rede agregado percebida efeito. Em, a diferença de médias, para cada mutante pode ser positivo ou negativo para uma sonda

i

, por isso, ao contrário de

T

2

,

V

2 Como pode ser positivo ou negativo.

Uma vez que, as estimativas da amostra de covariância não são definida positiva, e, portanto, o inverso é singular. Para contornar este problema, vamos definir todas as covariâncias a zero para o cálculo inicial de

V

2

e depois calcular a importância do

V

2

usando um teste de permutação (ie estocasticamente geração de novos “

mutante

” e “

do tipo selvagem

” rótulos fenótipo), preservando assim a estrutura de covariância subjacente na distribuição nulo. Definir os elementos fora da diagonal de

S

a zero simplifica

V

2

a: Assim,

V

2

é simplesmente a soma do produto dimensionado de estatísticas t calculado para cada sonda, em cada uma das duas perturbações experimentais. À medida que o número de amostras foi pequena (para o mutante e de tipo selvagem, cada uma), um ruído aleatório foi adicionado a cada matriz permutada para se obter uma distribuição nula empírica interpolado e alisado; o desvio padrão, do ruído para cada sonda,

q

, no fundo genético,

G

, foi estimada pelo desvio padrão da amostra de cada sonda. 10000 tais permutações foram calculados para obter as distribuições nulos, que -conforme esperados – assemelham F-distribuições (veja a Figura S1). Desde

Apc

e

CDKN1A Quais são os supressores de tumor e a hipótese de afectar a nossa rede de interesse em uma forma similar, esperamos que as estatísticas t para variar na mesma direção, se a hipótese nula ( sem efeito joint), deve ser rejeitada. Por isso, calculamos a

p

-valor de

V

2

como o número de observações nulos maior que o nosso valor observado de

V

2

. Calculando o

p

-valor para a cauda negativa da distribuição seria útil se as perturbações eram esperados para ter efeitos moleculares opostos (por exemplo,

Apc

+/-

emparelhado com um

Stat3

+/-

hypomorph).

Enquanto nós apresentamos uma análise para uma perturbação de 2 nós de uma rede, esta análise é extensível a

k

perturbações experimentais computando pares

2 e estatísticas

V, resultando em uma matriz: Onde representa a estatística entre perturbações

j

e

k

; como se mostra, a diagonal reduz-se a uma versão reduzida de

T

2

estatística de Hotelling para cada experimento. Como as estatísticas são cada um uma escala diferente, eles não podem ser directamente comparados, e, portanto, o significado de cada elemento da matriz deve ser calculada (como acima) através de um teste de permutação. Em seguida, para a matriz de

P

-Valores, os elementos da diagonal fornecer informação sobre a importância das experiências individuais, enquanto que os valores fora da diagonal fornecer informações sobre significado experimental emparelhados. O suporte experimental total para perturbações de rede pode ser calculada através da agregação de fora da diagonal

p

-Valores, por exemplo, pelo método de Fisher [26]. Recomendamos esta abordagem para lidar com perturbações; para perturbações, como no nosso caso, o

p

-Valores pode ser interpretado diretamente.

Análise de Metas de proteômica

Para avaliar a importância da proximidade física, a distância topológica entre

Apc –

CDKN1A

nós de rede e as respectivas metas de proteômica foi calculado. redes PPI físicas foram montados a partir de BioGRID [27], a proteína humana de banco de dados de referência (HPRD) [28], e intacto [29]. Cada nó da rede foi testada de forma independente para o número de caminhos 2-hop conectando-o a um conjunto de

n

proteínas medidas experimentalmente, expressa da seguinte forma: Onde é a entrada na linha

i

e coluna

j

na matriz de adjacência,

a

, da rede PPI;

i

é uma proteína no

Rede APC-CDKN1A

;

j

é uma proteína intermediária; e

k

é uma proteína medida experimentalmente. Neste caso, as proteínas experimentais foram as metas de proteômica a partir de qualquer

Apc

1638N +/-

ou

CDKN1A

– /-

ratos. Se houver pelo menos uma proteína intermediária,

j

, para o qual existe um caminho de duas hop entre os nós

i

e

k

, então a distância 2-hop, , é 1; a conectividade total, de proteína

i

ao conjunto de metas 2D DIGE é simplesmente a soma do. A significância foi calculado contra um nulo empírica formulada a partir de 10000 conjuntos gerados aleatoriamente de proteínas também de tamanho

n

.

Para avaliar os padrões de co-regulação, os valores de co-expressão de mRNA (coeficiente de correlação de Spearman) foram calculados a partir da conjunto de experimentos de microarray normalizados correspondente, abrangendo tipo selvagem,

Apc

1638N +/-

, e

CDKN1A

– /-

criptas e vilosidades; a sonda com intensidade máxima foi usada como representante de um gene. Para testar a significância de correlações de nível de mRNA, uma estatística de teste de Kuiper modificado,

K

, foi calculada entre as correlações de grupo (ou seja, todas as sondas no array) e correlações de amostras (ou seja, conjunto de metas 2D DIGE) para cada nó na rede de forma independente; é calculada como a soma de desvios o máximo e o mínimo da amostra, e o controlo (isto é, matriz inteira),

F

, as funções de distribuição cumulativas [30]: De acordo com as sugestões de Subramanian et ai. [31], a estatística de Kuiper,

K

, foi modificado para melhorar a sua capacidade de detectar desvios bimodais na localização da distribuição de amostra (como seria de esperar, grupos de proteínas que mostram correlações positivas e negativas co-expressos): onde

S

é o conjunto de proteínas que está sendo testado (ou o

Apc

1638N +/-

ou

CDKN1A

– /-

alvos 2D DIGE) ;

r

é o vetor ordenado de coeficientes de correlação entre as respectivas metas 2D DIGE e um nó de rede único; e normaliza ter soma 1. teste de significância foi realizado utilizando uma aproximação normal do nulo empírica: o nulo empírica foi montado a partir da modificação

K

calculada para 500 conjuntos seleccionados aleatoriamente de proteína, cada um de tamanho, e máxima verosimilhança estimação foi usado para ajustar uma distribuição normal. Para explorar e ilustrar as conexões de significativa (

α

= 0,05) nós de rede, examinamos o subconjunto de correlações,

r

y

, onde tal forma que E; e o subconjunto de correlações,

r

p

, onde tal forma que E (análogo ao subconjunto “de ponta” de GSEA [31]). Para identificar os nós diferencialmente expressos, escolhemos os nós onde a estatística t (variância desigual) da sonda de intensidade máxima foi tal que em qualquer cripta ou o compartimento da vilosidade, onde é a função de distribuição cumulativa normal inversa.

Testando cada nó no

Apc-CDKN1A

rede resultou de forma independente em um

p

-valor para cada uma das hipóteses nulas, onde, e cada hipótese, pressupõe que não há nenhuma relação ( fisicamente ou baseado-co-expressão com base) entre o

Apc-CDKN1A

nó de rede,

i

, e as metas de 2D DIGE. Para testar a hipótese nula grupo que todos são simultaneamente verdadeiras,

p

-Valores foram agregados em uma estatística,

τ

, sugerida por Fisher; significância foi avaliada em função de uma distribuição com 2

n

graus de liberdade [26] (ver também Métodos S1). O nó mutado (

Apc

em

Apc

1638N +/-

ou

CDKN1A

em

CDKN1A

– /-

) foi excluído a partir das respectivas análises, como os seus padrões de expressão extremas distorcer os resultados do grupo-wise.

resultados

Predictions Gene driver de rede

O duplo mutante

Apc

1638N +/- CDKN1A

– /-

rato foi anteriormente demonstrado que exibem um aumento sinérgico na sua carga de tumor quando comparados com os mutantes simples [13]. Para identificar as potenciais conexões entre

Apc

e

CDKN1A

, construímos um quadro previsível que, em primeiro lugar, aprende os padrões de anotação característica de vias de sinalização conhecidos (por exemplo, aqueles encontrados em KEGG [32] e outros) e, em seguida, esses padrões casais com co-expressão de dados específicos de tecido para extrair as cadeias mais prováveis ​​de proteínas que interagem envolvidas em

APC-CDKN1A

sinalização (ilustrada na Figura 1). Para identificar apenas as vias de alta confiança, um processo de filtragem de duas fases foi aplicado pela primeira vez à rede PPI global. Na primeira fase, as bordas – compilados a partir de interações de mamíferos em BioGRID [27] e HPRD [28] – foram podadas a partir da rede se eles não lembram interações prováveis ​​(como definido por um modelo de regressão logística), com o objetivo de reduzir a falsa positivos entre as interacções relatados. Para dar conta de falsos negativos (fase 2), as interações foram adicionados à rede por inferir relações que são precedentes em organismos modelo baseado em relações familiares proteína. Depois de aplicar estas medidas para gerar uma rede sintética, temos procurado por conexões prováveis ​​entre

Apc

e

CDKN1A

usando tanto os dados co-expressão de genes e regras de associação Gene ontologia.

Para enfatizar nós e arestas relevantes para o nosso sistema biológico, nós introduzimos um viés específico de tecido em nossa busca por

Apc Restaurant –

CDKN1A

conexões usando dados de expressão gênica do epitélio intestinal de

Apc

Min /+

ratos. A partir desses dados, foi calculado o valor de co-expressão de nível de mRNA de arestas individuais através do coeficiente de correlação de Pearson gene-gene. Em seguida, todos os caminhos na rede sintética que ligam os produtos do gene de

Apc

e

CDKN1A

foram consultados, e os caminhos previstos foram filtradas com base em (i) o apoio de regras de associação para anotações GO e (ii) a co-expressão média ao longo de um percurso; o resultado (a um nível de significância de

α

= 0,01) é mostrada na Figura 2. O

Apc

CDKN1A

rede inclui um certo número de interacções conhecidas anteriormente (sólido linhas), bem como as interacções previstas (linhas tracejadas) com base em: (i) relações familiares proteína, (ii) a força de regras de associação ir, e (iii) co-expressão microarray ao longo do caminho específico de ligação

Apc

para

CDKN1A

. Como interacções genéticas foram incluídas nas bases de dados de interacção originais, a rede previu inclui ambas as relações físicas e funcionais

bordas sólidas representam interacções conhecidas anteriormente.; bordas tracejadas representam as interações previstos; e as bordas marcadas com um “v” representam interações previstas que tenham sido validados na literatura recentemente publicada.

Em um nível de sistemas, a proposta de

Apc-CDKN1A

rede tem o propriedade estatisticamente improvável de ser saturado com oncogenes: 8 dos 20 proteínas são anotados como oncogenes em OMIM (

p

-valor 5 × 10

-10 pelo teste exato de Fisher, consulte Métodos S1), e muitos dos restantes genes têm sido experimentalmente demonstrado que atuar como oncogenes (por exemplo,

ErbB3

[33], [34],

Shc1

[35],

Map2k1

[36 ]). Embora o

Apc Restaurant –

CDKN1A

rede contém muitas proteínas bem estudadas, o grau nó (ou seja, número de interações) dentro da sub-rede não estritamente se correlacionam com o grau nó no banco de dados de interação não filtrada (correlação de Pearson = 0,51). Por exemplo, enquanto AKT1 tem muitas interacções conhecidas, seus parceiros biológicos comumente estudados – ou seja, GSK3B e PTEN (ambos os quais estão associados com

Apc

CDKN1A

[37] sinalização [3] e ) – não aparecem na rede. Outras interacções conhecidas, tais como a que entre SHC1 SRC e [38], também estão ausentes da rede. Desde o nosso algoritmo prevê conexões afectados pelo biologia do sistema em estudo (através do uso de dados de expressão de genes de

Apc

Min /+

rato tecido intestinal), uma proteína particular ou borda pode não aparecer no a rede se o caminho (ou seja, cadeia de proteínas) na qual ele reside não satisfaz a co-expressão de genes e /ou GO limiares de regras de associação

por outro lado, o

Apc Restaurant -.

CDKN1A

rede inclui novas associações: aqueles que não constam nos bancos de dados de origem (arestas na Figura 2 a tracejado). Várias destas interacções foram recentemente validado em estudos concentraram-se (ver Tabela 1), proporcionando a confiança de que o quadro é útil. Além disso, o

Apc Restaurant –

CDKN1A

rede também sugere que certas interações previamente associados com outros modelos de câncer – como a associação funcional SRC-CCND1 encontrados no câncer de próstata [39], ou a fosforilação de CDK4 pelo SRC numa linha celular [40] – são relevantes neste modelo de cancro do cólon

único nó Perturbations:. mRNA Profiling

Como o

Apc- CDKN1A

rede representa a intersecção de vias de sinalização que emanam do

Apc Comprar e de

CDKN1A

, esperamos observar mudanças funcionais em proteínas associadas à rede em resposta a perturbações em qualquer

Apc

ou

CDKN1A

. perturbações de nó simples foram desenvolvidos em modelos de ratos com mutações em um ou outro

Apc

(ou seja,

Apc

1638N +/-

) ou

CDKN1A

(

CDKN1A

– /-

). Enquanto o

Apc Restaurant –

CDKN1A

rede foi gerada usando específicos do tumor

Apc

Min /+

dados – um modelo de abrigar uma série de lesões genéticas fundo [41 ] – o tecido intestinal obtido a partir do

Apc

1638N +/-

e

CDKN1A

– /-

ratos aos 3 meses de idade é relativamente pólipo livre, permitindo-nos, assim, avaliar o efeito de uma única perturbação genética no epitélio pré-neoplásico. Embora este remove conflitos potenciais, que é introduzido por mutações posteriores de tecido neoplásico, essa abordagem também pode atenuar o fluxo de informações entre os dois genes.

Uma vez que estamos usando os dois perturbações para determinar o quão bem o

Apc-CDKN1A

rede pode capturar fenômenos biológicos, introduzimos uma estatística multivariada,

V

2

para testar se as diferenças na abundância média mRNA existem em conjunto entre o

Apc

1638N + /- Comprar e

CDKN1A

– /-

modelos. Usando

V

2

, como ilustrado na Figura 3, os genes com expressão diferencial leve nos dois mutantes individuais podem contribuir para o suporte global da rede, como o

V

2

recompensa os genes, onde cada uma das duas estatísticas t independentes são tanto maior que 1. a significância estatística da

V

2

foi testado contra um nulo permutação e, como nossas perturbações envolveu dois supressores de tumor espera-se que tem efeitos moleculares no mesmo sentido, utilizou-se a cauda positiva da distribuição. Sabendo-se que muitas moléculas expressão “interruptor” (isto é, de alto a baixo, ou vice-versa) na transição a partir de criptas a vilosidades [19], os conjuntos de dados de microarray para estes dois compartimentos biológicos foram testadas separadamente. Descobrimos que o

Apc-CDKN1A

rede foi fortemente apoiada (

p

-valor = 0,002) pela expressão de mRNA diferencial conjunta no compartimento cripta os dois mutantes ‘. a coerência da rede era mais fraca (

p

-valor = 0,060) no compartimento de vilosidades, e da rede como um todo não foi diferencialmente expressos nas vilosidades de qualquer mutante, observou em dois

V

2

matrizes ‘

p

-Valores: Onde, como mencionado, os elementos da diagonal indicam o significado da expressão diferencial

dentro

um mutante (como por de Hotelling

T

2

), e os elementos fora da diagonal indicam significado da expressão diferencial joint

através

mutantes (como por

V

2

). Nas criptas, a rede foi diferencialmente expressos em

CDKN1A

– /-

(

p

-valor = 0,009), mas não no

Apc

1638N +/-

(

p

-valor = 0,871), e, ainda, foi apoiado conjuntamente pela expressão diferencial em ambos os modelos de rato (

p

-valor = 0,002). Isso mostra que pequenas mudanças no nível do mRNA que são compartilhados entre várias perturbações – em uma base gene-por-gene – prestar apoio conjunto para a hipótese de rede, enquanto qualquer perturbação indivíduo pode deixar de demonstrar a reivindicação

Cada. gene rede é representada por duas bolhas de sobreposição de cor de acordo com as estatísticas t (variância desigual) nos dois mutantes: a bolha inferior esquerdo de um gene corresponde a estatística t para

Apc

1638N +/-

e a bolha superior esquerdo para a estatística t para

CDKN1A

– /-

. O ponto de intersecção das duas bolhas corresponde à soma das estatísticas t, ilustrando como o significado de efeitos pequenos podem ser fortalecidas, quando considerada em conjunto. Nodes reprimidos no mutante são de cor-de-rosa, os regulada no mutante são amarelas, e estatísticas t neutras são cinza.

Deixe uma resposta