PLOS ONE: Avaliação da FBA Based Gene Análise Essentiality em Câncer com um

Motivation

(com base FBA-Fast Contexto Específico Rede Reconstrução Method

Abstract

Gene Análise Essentiality baseado em Flux análise do balanço GEA) é uma ferramenta promissora para a identificação de novos alvos terapêuticos metabólicas no cancro. A reconstrução de redes metabólicas específicas do cancro, tipicamente com base em dados de expressão de genes, constitui um passo importante nesta abordagem. No entanto, a nosso conhecimento, não existe uma avaliação extensa sobre a influência do processo de reconstrução nos resultados obtidos foi realizado até à data.

Resultados

Neste artigo, pretendemos estudar ao contexto redes específicas e os seus resultados GEA baseados em FBA para a identificação de genes essenciais metabólicos específicos do cancro. Para este fim, utilizou-se conjuntos de dados de genes a expressão a partir da linha celular de cancro Enciclopédia (LECC), a avaliação dos resultados obtidos em 174 linhas de células de cancro. A fim de observar mais claramente o efeito de dados de expressão específicos do cancro, nós fizemos a mesma análise utilizando padrões de expressão gerados aleatoriamente. Nossa análise computacional mostrou alguns genes essenciais que são bastante comuns nas reconstruções derivados de ambos expressão gênica e dados gerados aleatoriamente. No entanto, embora de dimensão limitada, também encontramos um subconjunto de genes essenciais que são muito raro nas redes gerados aleatoriamente, enquanto recorrente nas redes amostra derivada, e, assim, presumivelmente constituem alvos para fármacos relevantes para posterior análise. Além disso, podemos comparar o

in silico

resultados para high-throughput experimentos silenciamento de genes do Projeto Achilles com resultados conflitantes, o que nos leva a levantar várias questões, especialmente a forte influência da reação biomassa selecionada na obtidas resultados. Não obstante, usando a literatura anterior na pesquisa do câncer, foram avaliados os mais relevantes dos nossos alvos em três linhas celulares de cancro diferentes, duas derivadas de glioblastoma multiforme e um de Non-Small Cell Lung Cancer, descobrindo que algumas das previsões estão no caminho certo .

Citation: Tobalina L, Pey J, Rezola a, Planes FJ (2016) Avaliação da FBA Based Gene Análise Essentiality em Câncer com um Contexto específico rápido Rede método de reconstrução. PLoS ONE 11 (5): e0154583. doi: 10.1371 /journal.pone.0154583

editor: Julio Vera, da Universidade de Erlangen-Nuremberg, Alemanha |

Recebido: 15 Agosto, 2015; Aceito: 15 de abril de 2016; Publicado em: 04 de maio de 2016

Direitos de autor: © 2016 Tobalina et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Data Availability:. Todos relevante os dados estão dentro do papel e seus arquivos de suporte de informação

Financiamento:. Este trabalho foi apoiado pelo Governo basco [a LT], a Asociación de amigos de la Universidad de Navarra [a AR] e do Ministro da Economia e Competitividade da Espanha [BIO2013-48933]. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

descobertas recentes mostram que as células cancerosas se adaptar seus processos metabólicos para aumentar a proliferação [1,2]. Para esse fim, as células cancerosas consumir nutrientes adicionais e desviar os nutrientes em vias de síntese macromolecular. Para além de alterações no metabolismo da glicose, o assim chamado efeito de Warburg, mais têm sido relatados na síntese de nucleótidos, aminoácidos e lípidos [3,4]. Além disso, as mutações em genes relevantes metabólicas e a acumulação de metabolitos principais foram detectados em células de cancro [5]. À luz dessas evidências, o estudo do metabolismo celular na pesquisa do câncer tem sido activamente despertado. abordagens holísticas biologia de sistemas baseados em redes de escala genoma metabólicas e de alto rendimento “ômicas” de dados, abrir novos caminhos para explorar distúrbios metabólicos das células tumorais, especialmente para atender às necessidades clínicas não satisfeitas diferentes no cancro.

Diferentes métodos existem para analisar as redes metabólicas escala genoma de células cancerosas humanas. -Restrição baseada na modelização (CBM) é uma área emergente na biologia de sistemas, que inclui um conjunto crescente de métodos [6,7]. O método mais proeminente no CBM é Flux Equilíbrio Análise (FBA), que assume que os fluxos na rede seguem uma função objetivo biológico para ser otimizado, tipicamente crescimento celular [8]. Crescimento é modelado aqui como uma reação artificial adicional envolvendo as necessidades metabólicas, em termos de blocos de construção e de energia, para produzir um grama de peso seco (gDW) da biomassa. FBA nos permite realizar análises essencialidade gene (GEA) em nível metabólico, bastando identificar esses genes cuja eliminação indivíduo impedir a reacção de crescimento de ser ativa [9]. letalidade sintética, que se refere a dois (ou mais) genes não essenciais cuja eliminação simultânea torna-se letal para um determinado fenótipo, pode ser realizada de forma semelhante. Importante, a primeira aplicação da GEA baseado em FBA para o metabolismo e o cancro humano de investigação foi realizada em [10]. Eles revelaram que a heme-oxigenase é sinteticamente letal com o supressor do tumor hidratase fumarato. Este resultado foi posteriormente validada experimentalmente, mostrando sua relevância para tratar leiomiomatose e câncer de células renais, como mutações germinativas de hidratase fumarato subjacentes a esse tipo de câncer [11]. Este bom resultado mostrou que GEA-based FBA é uma abordagem adequada para elucidar alvos de medicamentos novos no câncer. Baseado no

FBA

GEA começa a partir de uma rede metabólica referência genoma escala do metabolismo humano, como Recon2 [12] . A fim de captar recursos metabólicos específicos do cancro, esta rede de referência devem ser contextualizadas com dados experimentais disponíveis [13]. O processo manual de construção de uma rede metabólica específica do contexto de confiança é complexo e demorado [14]. Por esta razão, os algoritmos de reconstrução da rede automático foram propostas, tipicamente com base em dados de expressão de genes /proteínas. Dada a riqueza de dados transcriptomic, os dados de expressão de mRNA é o tipo mais frequente de dados utilizados nos diferentes métodos de reconstrução. Uma lista não exaustiva de este tipo de métodos inclui: GIMME [13], IMAT [15], E-Flux [16], MBA [17], PROM [18], MADE [19], INIT [20], ou MIRAGE [21].

os resultados obtidos a partir de base GEA-FBA são dependentes dos diferentes elementos envolvidos neste processo de reconstrução de rede, ou seja, da rede de referência, o meio de crescimento definido, os dados de expressão de genes e algoritmo de reconstrução. No entanto, a nosso conhecimento, não existe uma avaliação extensa avaliar a influência do processo de reconstrução e de expressão dados metabólicos sobre os resultados da análise essencialidade gene foi realizado até à data no câncer. Para o efeito, neste artigo, foi realizado um amplo estudo para diferentes tipos de cancros da linha celular de cancro da Encyclopedia (LECC) [22], de modo a separar o efeito de alguns desses fatores na lista resultante de genes essenciais. A fim de observar mais claramente o efeito de dados de expressão específicos do cancro, nós fizemos a mesma análise utilizando padrões de expressão gerados aleatoriamente. Além disso, utilizou-se de alto rendimento de dados silenciamento de genes [23] para testar exaustivamente as previsões da abordagem GEA baseado em FBA. Finalmente, em contraste dados da literatura sobre os genes previstos essenciais em linhas celulares de cancro três:. Dois derivados de Gliobastome multiforme (GBM) e um de não-pequenas células Lung Cancer (NSCLC)

Para ser capaz de realizar esta extensa estudo, apresentamos um algoritmo de reconstrução de rede rápida com base em dados de expressão gênica, que é tratado usando a expressão gênica de código de barras [24], um método estatístico robusto desenvolvido para prever expressa e genes não expressa em microarrays.

Métodos

modelo de reconstrução Rede

algoritmos de reconstrução de rede resolver o problema começando com um conjunto de reações que devem estar presentes com base na evidência experimental anterior, tipicamente níveis gene de expressão /proteína. Estas reacções não costumam formar uma rede coerente [25]. Com efeito, eles não são necessariamente ligados uns aos outros, podem formar aglomerados separados ou mesmo ser isolado do resto. Assim, os algoritmos de reconstrução preencher as lacunas até se obter uma rede coerente. reacções hipótese provenientes de um banco de dados de reacções bioquímicas conhecidas, geralmente associados com o organismo sob estudo. Além disso, note que também é típico para evitar algumas reações na reconstrução por causa da evidência experimental da sua ausência [15].

algoritmos de reconstrução atuais geralmente dependem de Misturado Programação Linear Inteira (MILP). Nós, em vez disso, fazer uso de uma estratégia iterativa baseado em programas lineares (LP), como formulações MILP não são suficientemente rápido para o estudo pretendido. É também o caso que cada algoritmo de reconstrução é geralmente focada na integração de um tipo diferente de um ou mais entrada de informação experimental. Devido a isto, na maioria dos casos, os resultados obtidos a partir de cada um deles não são facilmente comparáveis. No nosso caso, vamos nos concentrar no uso de mRNA de dados de nível transcrição, pois esta é a fonte de dados mais facilmente acessíveis em câncer. Conforme detalhado a seguir, usamos a expressão gênica de código de barras [24], uma técnica elegante para selecionar genes expressos e não-expressas, que, eventualmente, constitui a fonte de evidência para contextualizar processos metabólicos.

Outra característica do nosso algoritmo de reconstrução é que ele fornece redes diretamente passível de FBA, como iremos realizar Gene Análise Essentiality baseado em FBA em nosso estudo. Isto significa que a rede reconstruída devem ser capazes de produzir biomassa, enquanto que satisfaz a condição de estado estacionário. A maioria dos outros algoritmos de reconstrução são projetados para garantir o mais tarde, mas não o primeiro.

Nosso algoritmo distingue dos outros de várias maneiras, além do fato de que a maioria deles dependem de formulações MILP. GIMME [13] e IMAT [15] também usam mRNA informações sobre o nível de transcrição, mas seu tratamento é menos elaborada do que aquele realizado com código de barras. MADE faz uso da expressão diferencial [19], com foco na adaptação metabólica entre pelo menos dois cenários. INIT é voltado para o uso de mais de um tipo de dados [20]. MBA requer a definição de um conjunto de reações forçadas a ser incluído na reconstrução [17]; no entanto, ao definir este núcleo activo é possível para tecidos bem conhecidos, este é questionável quando a evidência disponível é limitado a dados de expressão gênica, envolvendo tipicamente conflitos entre genes e reacções e não-expressas devido a eventos reguladoras pós-transcricional [15 , 26]. MIRAGE estende em cima de contabilidade MBA, entre outras coisas, para a produção de biomassa [21]. PROM [18] e E-Flux [16] pertencem a uma família diferente de métodos, onde os fluxos máximos permitidos são regulados com dados de expressão de genes. Em particular, PROM integra metabolismo com redes reguladoras, exigindo um grande conjunto de dados de expressão gênica com perturbações genéticas e ambientais.

Conceitualmente, o nosso algoritmo leva uma abordagem que é mais semelhante ao IMAT do que outros algoritmos. Ambos classificar reações em alta (

H

), moderada (

M

) e baixa (

L

) atividade com base em dados de expressão gênica e tentar equilibrar a inclusão de

H

e

L

reacções usando a função objetivo. Ao contrário IMAT, também minimizar>

, em certa medida, de modo a obter uma rede mínimo que satisfaz o conjunto de restrições. Além disso, o algoritmo aumenta o requisito de produção de biomassa, uma vez que se pretende para a obtenção de redes directamente passíveis de FBA. No entanto, como notado acima, a principal contribuição da nossa abordagem no que diz respeito a IMAT é uma redução significativa do tempo de computação, respeitando a qualidade da solução.

Para a redução do tempo de computação, o algoritmo continua no no mesmo sentido que o algoritmo recentemente apresentado em [27], denominado fastcore. Este algoritmo utiliza uma abordagem em várias etapas com base na programação linear, mas é conceitualmente semelhante ao MBA, uma vez que também obriga a inclusão de um conjunto de reações. Independentemente da maneira como ele lida com a inclusão de reacções, que se baseia em uma classificação de três níveis de dados de expressão de gene, o nosso algoritmo também difere da fastcore na medida em que utiliza o conceito de custo reduzido da teoria de programação linear para orientar o processo de solução iterativa. Além disso, ter em conta os efeitos de diferentes representações estequiométricas [28], através da formulação do problema no que diz respeito ao fluxo máximo permitido através de cada reacção como determinado por uma análise de fluxo variabilidade (FVA) [29].

Globalmente, a nossa abordagem foi projetado com as necessidades específicas deste estudo em mente. Uma versão simplificada do nosso algoritmo é apresentada a seguir. detalhes técnicos completos da nossa abordagem pode ser encontrada em S1 texto.

Visão geral do nosso algoritmo baseado em programação linear

Considere uma rede metabólica geral, com

C

compostos e

R

reações representadas por sua matriz estequiométrica

S

[30]. Denotamos

Irr

o conjunto de reações irreversíveis. Por conveniência, cada reação reversível contribui duas reações irreversíveis diferentes para o número total

R

. Estas duas reacções são irreversíveis denotado

f

e

b

, para a frente e para trás, respectivamente, cada uma das quais representa a reacção reversível original, em uma direcção diferente [31]. O conjunto de passos para a frente e para trás, que surgem a partir de reações reversíveis são indicados

Rev

.

O fluxo através de cada reacção

i

(

i

= 1 , …,

R

) é representado por uma variável contínua

v

i

. Após a separação de reações reversíveis, fluxos só pode ter valores não negativos, delimitadas por um valor máximo fluxo, (Eq 1). Para aplicar mais tarde GEA baseado em FBA, nós também impor a condição de estado estacionário (Eq 2) e um fluxo mínimo através da reação de biomassa (Eq 3). Para aqueles compostos de tomadas ou excretado para o meio, reacções de permuta foram adicionados apropriadamente.

(1) (2) (3)

Para definir correctamente para cada reacção, podemos realizar um fluxo Variabilidade Análise (FVA) [29 ] sob restrições (1) – (3). limites de reação de absorção do crescimento a médio sob consideração são incluídos na equação 1.

Também definimos uma variável contínua

z

i

para cada reação, delimitada entre 0 e 1 (Eq 4), o que pode forçar um fluxo mínimo através da sua reacção associada,

v

i

(Eq 5). δ é uma constante estritamente positivo com um valor máximo de 1 que corrige o limite inferior em

v

i

em relação com o valor do

z

i

com respeito a. A inclusão de na Eq 5 calculada pela FVA nos permite definir um limite de ativação independente da representação estequiométrica. Observamos que este conjunto de variáveis ​​é contínua, tal como em [27], e não binário, como num certo número de trabalhos prévios [15,17].

(4) (5)

O nosso objectivo é o de minimizar o número de reacções em

L

enquanto maximiza aqueles em

H

. Para isso, a nossa função objetivo minimiza a soma dos fluxos através de reações pertencentes a

L

com um peso

W

L

, bem como o fluxo através de reações em

M

com um peso

W

M

, enquanto maximiza o número de reações em

H

usando

z

variáveis ​​com um peso

W

H

(Eq 6). O termo δ⋅ na Equação 6 permite-nos evitar o viés de fluxo introduzido pela representação estequiométrica específica de reações. critérios diferentes para estabelecer esses pesos são discutidos na seção Resultados.

(6)

Como mencionado acima, é comum para definir

z

i

como um variável binária, mas relaxar essa restrição, como foi feito aqui, alcança o mesmo efeito de “diversificação fluxo” desejado [27]. Minimizando a soma dos fluxos de

L

e

M

não é o mesmo que minimizar o número de reações em

L

e

M

, mas permite-nos uma formulação linear do problema, sem influenciar negativamente a solução final em termos de qualidade. No geral, com estas características, evitamos uma formulação binária mista, mais difícil de resolver por causa das restrições de integralidade em algumas das variáveis ​​[32].

Uma vez que temos dividir as reacções reversíveis em duas etapas irreversíveis, mas têm adicionou nenhuma restrição garantindo que apenas um deles está ativo ao mesmo tempo, resolver este problema (Eq 6 sujeitas a Equações 1-5) nos dará uma solução onde todos os frente e para trás alguns passos de reações reversíveis em

H

são ativos, mesmo que o seu fluxo líquido (

v

f Restaurant –

v

b

) é zero. Note que isso não ocorre com as reações reversíveis em

L

ou

M

, pois minimizar a soma dos fluxos já impõe o uso de reações reversíveis, se necessário, em uma única direção.

Este problema é ilustrado na figura 1. a figura 1A mostra um exemplo de rede de referência metabólica, incluindo a classificação das reações como

H

,

M

ou

L

. Figura 1B mostra a solução resultante uma vez que o programa linear definida pela Equação 6 sujeita a Equações 1-5 é resolvido. Pode-se observar que a solução certamente produz biomassa através de reações 2 (

M

), 3 (

H

), 5 (

H

) e 17 (

H

). Além disso, activa dois ciclos com fluxo líquido igual a zero, ou seja, o primeiro envolvendo reacções 4 (

H

) e 14 (

H

) e a segunda uma envolvendo reacções 9 (

H

) e 15 (

H

). A presença destes ciclos espúrios é uma consequência da formulação não-binário acima proposto, o que requer um processo iterativo que se desembaraça (ou não) estas reacções reversíveis em

H Como pode ser incluído na reconstrução em combinação com outras reações.

a) da rede metabólica de referência Exemplo com uma classificação de 3 níveis de reações. Trata-se de dez reacções mais a reacção da biomassa. fluxos reversíveis são divididos em dois passos não negativos. reações atrasadas são mostrados na linha tracejada. Reações 3, 4, 5, 7 e 9 são classificados como

H

; reações 2, 8 e 10, como

M

; e reacções 1 e 6, como

L

. B) A solução obtida quando resolver o programa linear definido pela Eq 6 sujeitas a Equações 1-5. arcos mais espessas representam reações ativas, ciclos envolvendo os passos para a frente e para trás de uma reacção reversível em

H

são representados com linhas mais finas e reações inativos são coloridos em cinza claro.

O iterativa procedimento utilizado é descrito em detalhe no texto S1. Ele é baseado em programação linear e faz uso do conceito de custo reduzido (tomada a partir da teoria de programação linear) para orientar e acelerar o processo de solução iterativa.

Reacção classificação

A entrada do algoritmo de reconstrução é a classificação da reacção como altamente (

H

), médio (

M

) ou humilde (

L

) expressou. Essa informação é obtida a partir de experimentos de expressão gênica, no nosso caso, recolhidos a partir de banco de dados GEO [33].

Estamos focados em matrizes Affymetrix HGU133plus2, que podem ser processados ​​usando código de barras [24]. Este método foi concebido para ser capaz de trabalhar apenas com uma amostra e torná-la comparável aos outros, em vez de necessitar de várias amostras ao mesmo tempo. Nós pré-processado utilizando os dados do código de barras do certificado R, usando uma amostra de cada vez. Foram recuperados os valores Z-score obtidos a partir deste algoritmo, que é equivalente ao processamento de cada amostra com frma [34].

Uma vez que os Z-scores obtidos a partir do código de barras foram dadas a nível set-sonda, usando gene relações -probe anotados no pacote R hgu133plus2.db, obteve-se o valor de Z-score gene como o valor médio dos correspondentes Z-scores de sua sonda-sets associados. Cada valor gene foi transformado em (0) chamada ausente presente (1) /utilizando critérios do código de barras. genes presentes são classificados como altos (+1) e ausentes genes tão baixas (-1).

Finalmente, as reações são classificados como altamente, médio ou humilde expresso utilizando regras gene-proteína de reação e a classificação expressão gênica mencionado acima [35] (ver S1 texto para uma explicação mais detalhada). Essas reações para as quais não expressão do gene está disponível ou que não estão relacionados com qualquer gene (por exemplo, reações espontâneas) são classificados como médio expresso.

Gene Analysis Essentiality

genes essenciais são definidos aqui como aqueles genes cuja remoção tornar a célula incapaz de produzir biomassa. Usando as regras gene-proteína de reacção booleanas incorporados em redes metabólicas escala genoma como Recon2 [12], podemos avaliar que reações irá parar de funcionar depois de um gene particular é excluído. Assim, um gene knock-out é simulada através da definição dos limites superiores e inferiores das reacções correspondentes a zero em um cálculo FBA, e verificar se (ou não) da rede restante é ainda capaz de produzir biomassa.

a fim de reduzir o número de cálculos FBA necessários para verificar a essencialidade de cada gene, calculou-se em primeiro lugar a biomassa máxima possível na rede de tipo selvagem e procurou por uma distribuição de fluxo com a soma mínima de fluxos através de reacções aos quais o gene-a mapeamento -reaction está definido. Se um determinado gene knock-out não afeta qualquer reação em que a distribuição de fluxo ótimo, podemos estar certos de que um novo cálculo FBA nos dará a mesma solução como na rede de tipo selvagem e podemos, portanto, ignorar tal gene knockout.

Comparação com

dados experimentais

a fim de avaliar a precisão da nossa abordagem para prever genes essenciais, utilizou-se de alto rendimento silenciar experiências retiradas do projecto de Aquiles [23]. Nós derivada uma pontuação para cada gene em cada linha celular de acordo com o método apresentado em [36]. No entanto, multiplicou os escores obtidos por -1 de modo que quanto menor a pontuação, mais essencial do gene é suposto ser, como acontece com as mudanças dobra shRNA no alto rendimento silenciar experimentos. Em seguida, em relação à distribuição das pontuações dos genes metabólicas essenciais obtidos versus os genes não essenciais metabólicos que utilizam uma de duas amostras de teste de Kolmogorov-Smirnov, unilateral, tal como sugerido em [10]. Este teste ajuda-nos a ver se os genes essenciais obtidos são desviadas para pontuações mais baixas, mais essenciais. No entanto, a tendência pode ser significativo, mas não suficientemente grande para que, além disso, nós medimos a proporção de genes essenciais obtidos com uma pontuação negativa baseado em Aquiles em cada cenário, um ponto em que a probabilidade de o gene ser essencial é maior do que ser não -essencial. Na verdade, percebemos que apenas uma fração dos genes metabólicos tiveram uma pontuação negativa nos dados de Aquiles, por isso queremos ter certeza de que os genes essenciais calculados são enriquecidos neles.

Resultados

a abordagem apresentada acima é aplicado em primeiro lugar para reconstruir a rede metabólica de 174 linhas de células de cancro por meio de dados de expressão de genes obtidos a partir da linha celular de cancro Enciclopédia (LECC) [22]. A escolha deste subconjunto de linhas celulares foi feita tendo em consideração os dados de silenciamento de genes de alto rendimento disponíveis a partir de projecto de Aquiles [23] (S1 Tabela). O desempenho técnico da nossa abordagem é avaliada e comparada com IMAT, a abordagem mais semelhante à introduzida aqui (S1 texto). Em seguida, realizamos baseado em FBA GEA nessas redes reconstruídos e avaliar a frequência com que cada gene essencial iria aparecer em uma rede reconstruído a partir de dados de expressão aleatórios. Além disso, podemos comparar os resultados obtidos para high-throughput gene silenciamento resultados experimentais [23]. Finalmente, em contraste dados da literatura sobre genes essenciais previstos em dois GBM-derivado e um linhas celulares derivadas do NSCLC.

Para este fim, foi utilizada a rede metabólica humana original Recon2 [12], como rede de referência (a semelhante análise para Recon1 podem ser encontrados em textos S1). Esta rede proporciona uma reacção de biomassa, a qual é directamente utilizado no presente estudo. O meio de crescimento foi RPMI1640, como definido em [10]. Além disso, as reações foram classificadas como altamente, médio ou humilde expresso utilizando regras gene-proteína de reação e a classificação expressão do gene descrito na secção Métodos.

O algoritmo foi implementado em Matlab, utilizando software de otimização Cplex para resolver o programas lineares correspondentes. O tempo de computação necessária para resolver um problema único reconstrução utilizando a estratégia descrita acima é na ordem de segundos, em par com o desempenho de fastcore [27]. Nos casos nosso método foi aplicado, o tempo de computação é geralmente inferior a 10 segundos em um 64 bit Intel Xeon E5-1620 v2 em 3,70 GHz (4 núcleos) e 16 GB de RAM. Isso define o nosso algoritmo como substancialmente mais rápido do que IMAT, onde o tempo médio para se obter uma solução a cerca de 57 segundos (parando com um intervalo optimality 0,5%).

Os parâmetros do modelo e reconstrução

Em nossa algoritmo de reconstrução temos vários parâmetros que necessitam de ser corrigidos. Os parâmetros mais relevantes são os pesos

W

H

,

W

M Comprar e

W

L

, como há um trade-off conflito entre as reacções no

H Comprar e

L

. Em particular, a utilização de todas as reacções em

H

pode envolver um número significativo de reacções em

G

; Da mesma forma, um uso mínimo de reações em

L

pode implicar um uso limitado de reações em

H

. Para estudar este trade-off entre a reação no

H Comprar e

L

, propomos os esquemas na Tabela 1, com α = 10

3. Esquema 1 dá mais peso à minimização de reacções em

L

através da maximização de reações em

H

; Esquema 2 proporciona um peso igual, enquanto esquema 3 é o oposto do Esquema 1. Detalhes e análise de sensibilidade de α e outros parâmetros fixados no nosso algoritmo pode ser encontrada em textos S1. Principais conclusões alcançados foram resistentes às alterações destes parâmetros.

Ao classificar as reações de dados de expressão gênica, evitando a inclusão de reações em

L

, tanto quanto possível pode ser mais significativo do que tentando forçar a presença de todas as reações em

H

, como um sinal de alta expressão de gene não se traduz necessariamente em uma atividade enzimática elevada. No entanto, a identificação de genes expressos não constitui uma tarefa mais difícil [37]. Por esta razão, uma abordagem mais perto de esquema 3 foi geralmente preferido.

Nós comparamos o desempenho de nossa abordagem de reconstrução utilizando os diferentes esquemas com IMAT. Como pode ser visto na Figura 2, que mostra a percentagem de reações classificadas como

H Comprar e

L

que foram incluídos usando cada algoritmo de reconstrução, a prevenção de

reações L

no esquema 1 tem um impacto no número de reacções em

H

incluídas no modelo, fornecendo uma solução significativamente diferente do esquema 3.

Boxplots que mostra a percentagem de reacções H e L incluídas na as redes reconstruída de contexto específico de linhas celulares de cancro selecionados usando o nosso algoritmo sob esquema 1, 2 e 3 e IMAT. A rede de referência utilizado foi Recon2.

Como esperado, esquema 2 é o mais semelhante ao IMAT, já que ambos fornecem um peso igual a reações em

H

e

L

. Pode-se observar que o número de reacções L incluído é muito semelhante e o número de

H reacções

incluídos pelo nosso algoritmo é um pouco menor. No geral, ambos os métodos de obtenção de reconstruções semelhantes em termos do número de reacções

H

e

L

que incluem. Assim, consideramos nosso algoritmo de um instrumento válido para a tarefa em mãos. Note-se que a percentagem máxima possível de

reações H

incluída na reconstrução não necessariamente chegar a 100%, porque pode haver reações que não podem operar em regime permanente nas condições médias impostas.

essencialidade Gene análise

com um algoritmo de reconstrução rápido em nossas mãos, podemos abordar a questão da medida em que o conjunto de genes essenciais está sendo afetado por dados de expressão de contexto específico. Para explorar ainda mais esta questão, permutada a classificação expressão genética metabólica de cada amostra 10 vezes e reconstruído as redes correspondentes seguidas pelo cálculo dos seus genes essenciais correspondentes, levando a um fundo de quase 2000 resultados aleatórios.

Fig 3 mostra os resultados desta experiência para esquema 3 (a lista de genes e os valores podem ser encontrados na Tabela S2). Como esperado parcialmente, existem alguns genes que são bastante comuns em qualquer rede reconstruída. Os casos mais extremos são genes que aparecem como essencial qualquer que seja a expressão de entrada é. Estes são uma consequência directa da rede de referência de entrada, as condições de meio de crescimento imobilizado e a reacção biomassa seleccionado. Esta análise confirma a medida em que estes fatores podem afetar os resultados.

frequência gene essencial para redes de contexto específico reconstruídas de linhas celulares de cancro selecionados usando o nosso algoritmo com esquema 3 e Recon2 como a rede de base. O eixo horizontal contém os símbolos Entrez dos genes essenciais obtidos. A altura das barras indicam a fracção das amostras em que o gene aparece como essencial. A altura da linha preta indica a fração de rede reconstruída aleatoriamente em que o gene correspondente aparece como essencial.

Note que também existem alguns genes essenciais muito frequentes nas amostras individuais, mas menos frequentes na redes aleatórias. Estes seriam, a priori, as mais interessantes, como eles estão mais relacionadas do que os outros genes para a expressão especial das amostras.

O fato mais impressionante é que a lista de genes essenciais obtidos exclusivos de cada tipo de câncer é bastante curto. Apenas 6 genes apareceu apenas em um tipo de câncer ao usar nosso algoritmo com esquema 3, 22 e 21 se usássemos Esquema 1 e 2, respectivamente. Esperávamos um conjunto mais diversificado de genes essenciais para cada tipo de câncer.

Alguns trabalhos anteriores explorou o conceito de essencialidade sob muito diversas condições de meio de crescimento [38] para algumas redes metabólicas bacterianas. Eles concluíram a existência de um conjunto de reações necessárias para a produção de biomassa independente do meio de crescimento selecionado. Nosso estudo leva a insights muito semelhantes, para o caso de contextualização rede. A mesma conclusão foi alcançada por diferentes definições de parâmetros e cenários, incluindo o uso de Recon1 e um meio de crescimento geral (ver Tabela B em S1 texto).

Comparação com gene de alto rendimento silenciar experimentos

Um esforço sistemático para identificar genes essenciais em tipos de células cancerígenas diferentes está sendo realizado no que é conhecido como um projeto de Aquiles [23]. A cobertura deste projecto tem crescido nos últimos anos [23,39,40].

Deixe uma resposta