PLOS ONE: Deduzir a ordem temporal de Câncer Gene Mutações em amostras de tumor individuais

Sumário

A ordem temporal de mutações do gene do cancro em tumores é essencial para a compreensão e tratamento da doença. Os métodos existentes não são capazes de inferir a fim de mutações que são identificados ao mesmo tempo em amostras de tumores individuais, deixando a heterogeneidade da ordem desconhecida. Aqui, mostra-se que através de uma abordagem baseada em rede complexa, que se baseia na estatística recentemente definido –

carcinogênese informações condutividade

(CIC), a ordem temporal em amostras individuais podem ser eficazmente inferida. Os resultados sugerem que os genes supressores de tumores pode mais frequência iniciar a ordem de mutações do que oncogenes, e cada tipo de câncer pode ter sua própria ordem única de mutações. As mutações iniciais parecem ser dedicado a adquirir a função de evasão de apoptose, e algumas restrições de ordem pode reflectir potenciais regularidades. A nossa abordagem é completamente orientada a dados sem quaisquer definições de parâmetros e pode ser esperada para se tornar mais eficaz como mais dados estarão disponíveis

Citation:. Guo J, Guo H, Wang Z (2014) inferir a ordem temporal de Cancer Gene As mutações nas amostras de tumor individual. PLoS ONE 9 (2): e89244. doi: 10.1371 /journal.pone.0089244

editor: Raya Khanin, Memorial Sloan Kettering Cancer Center, Estados Unidos da América

Recebido: 22 Outubro, 2013; Aceito: 20 de janeiro de 2014; Publicação: 27 de fevereiro de 2014

Direitos de autor: © 2014 Guo et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Ciência Natural Fundação da China sob concessão no. 61273217; Chinese 111 programa de “inteligência avançada e serviço de rede” sob concessão no. B08004. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:. Zhanyi Wang é com a China Mobile Research Institute, mas isso não altera a autores ‘ a adesão a todas as políticas de PLoS One sobre os dados e materiais de compartilhamento.

Introdução

o cancro é uma doença genética causada pela mutação de genes do câncer que consistem em oncogenes e genes supressores de tumores. Na maioria dos casos de cancro, múltiplas mutações ocorrem em um processo conhecido como a progressão tumoral [1], [2]. Para compreender a progressão do tumor, foram realizados estudos para modelar regularidades gerais sobre a ordem temporal de mutações para um determinado tipo de câncer utilizando abordagens experimentais e computacionais [3] – [7]. Como um modelo canônico, a fim de mutações para o câncer colorretal foi reconstruída por meio tamanho do tumor e grau [8]. Os mais recentes modelos computacionais inferir as restrições de ordem temporal típicas para certo tipo de cancros, simulando a progressão do tumor como um processo estocástico [9] – [11]. Apesar destes progressos, existe ainda nenhum método bem definido para inferir a fim de mutações identificadas, ao mesmo tempo em amostras individuais, embora esta inferência é necessário para revelar a heterogeneidade da ordem de mutações em um cancro. Recentemente, como novo sequenciamento geração torna-se amplamente aplicado, as paisagens de mutação em vários tipos de câncer estão sendo revelados um por um. Os resultados mostraram que as mutações em um câncer freqüentemente demonstram correlações estatísticas entre si ou até mesmo causar e efeito ligações de indução entre o primeiro eo último [12] – [18]. No entanto, essas correlações /ligações não foram totalmente exploradas em inferir a ordem temporal de mutações.

Do ponto de vista informático, este estudo define uma medida estatística para atribuir valor às correlações ou ligações mencionadas acima e modelar as mutações dentro de uma rede complexa, através da qual a ordem temporal das mutações em amostras individuais pode ser inferida. Chamamos a medição do

carcinogênese informações condutividade

(CIC), que mede a acessibilidade de transferir a informação de um gene do câncer de ter mutado para o processo de transcrição de um determinado gene do cancro mutado-un para induzir a sua mutação. Estatisticamente, a acessibilidade pode ser estimado pelas frequências de ocorrência individuais eo sequencial frequência co-ocorrência de mutações nos dois genes “em amostras de câncer. Além disso, a concorrência entre as informações enviadas a partir de múltiplos genes mutados ao determinado gene mutado-un também devem ser considerados como qualquer envio com sucesso fará com que o gene alvo de mutação, terminando assim o processo de mutação. Neste estudo, nós chamamos quaisquer duas mutações encontradas nas mesmas amostras câncer de mutações co-ocorrentes. Enquanto a maioria dos estudos genômicos fornecer esta quantidade de forma indireta, aqui visamos desembaraçar a sequência da ocorrência de dois eventos de mutação do co-ocorrência simples. A partir dessas sequências de ocorrência de mutação, a frequência de co-ocorrência seqüencial pode ser calculado (Materiais e Métodos). Com base nesta idéia, nós definimos o CIC de gene do cancro

i

para gene do cancro

j

como: (1) onde () é a frequência de ocorrência da mutação do gene

i

(

j

) em cânceres, é a frequência de co-ocorrência seqüencial da mutação do gene

i

seguida pela mutação do gene

j

e é a prioridade do gene

i

em comparação com outros genes mutantes para enviar as informações para gene

j

. Nós determinamos que. Nesta equação é o conjunto de amostras de cancro com genes mutantes

i

e

j

, é o número de amostras no conjunto, e é uma função indicadora que é igual a 1 se para os genes mutantes ,

j

e

i

na amostra. Caso contrário, ele é igual a 0. Assim, a mais alta prioridade de um será atribuído se for maior do que em todas as amostras do conjunto, e quanto mais vezes que, o valor maior a. Nós consideramos a fórmula (1) como uma medida de condutividade informações carcinogênese porque a relação é uma estimativa da probabilidade máxima que gene

i

envia informações a carcinogênese por gene

j

e faz com que sua mutação, o proporção é uma estimativa da probabilidade máxima que a mutação do gene da

J

é causada por carcinogénese informação recebida a partir do gene

i

, e é a prioridade do enlace de comunicação em comparação com outras ligações ao gene

j

. O valor da varia de 0 a 1. Como a definição de

força de ativação

, uma medida já anteriormente proposto para ponderar as ligações de redes complexas [19], a definição de CIC segue a fórmula de gravidade se imaginarmos os rácios e como massas e a prioridade de distância. Estatísticas definidas desta forma tendem a distribuir os seus valores em uma lei de potência, que é conveniente para a análise de redes complexas de relações complexas incluindo aqueles em biologia [20] – [24]

Um desafio, no cálculo das CICs. é a falta de amostras de cancro que pode ser utilizado como a fonte das frequências sequenciais de co-ocorrência de mutações do gene do cancro, porque as mutações de genes diferentes em uma amostra de cancro são geralmente identificados ao mesmo tempo por sequenciação. Para enfrentar este desafio, apresentamos um processo iterativo que os casais CIC computação e inferir a probabilidade de cada ordem potencial de mutação genética do câncer. A aplicação deste procedimento para o Catálogo de Somatic mutações no cancro do banco de dados (COSMIC) [25], [26] revelou que a iteração atingiu convergência no seio menos de 10 loops, e os resultados convergentes sugerem conclusões significativas.

materiais e Métodos

inferência iterativo esquema

Para realizar o procedimento de inferência iterativo, um grande conjunto de amostras de cancro com mutações do gene do cancro identificados pelo sequenciamento do genoma é necessário. Com o conjunto de dados, nós determinamos as estatísticas básicas de ocorrência e co-ocorrência não sequencial frequências de mutações do gene do cancro. A partir destas estatísticas básicas, a inferência iterativa para o número de amostras em questão começa e os resultados da CIC e ordens prováveis ​​de mutação genética do câncer para cada amostra em questão são determinadas quando a iteração atinge convergência. FIG. 1 ilustra uma visão geral do procedimento.

(a) a ocorrência e co-ocorrência frequências das mutações do gene do cancro e são determinadas a partir de amostras disponíveis, onde e é o número dos genes do cancro alvo no estudo . Uma ocorrência de um gene será contado se for mutado em uma das amostras, e um co-ocorrência de um par de genes serão contadas se ambos são mutado em uma das amostras; Por conseguinte, e. (B) Com base na máxima entropia, os valores iniciais das frequências de co-ocorrência sequenciais são como definido. (C) As condutividades de informação carcinogénese,, são calculados a partir do vector de e da matriz de. Deve notar-se que pode não ser igual, o que implica que a matriz de uma rede representa dirigida. (D) Para cada uma das amostras em questão, as probabilidades de cada ordem potencial dos genes mutantes em amostra são calculados de acordo com os CICs de cada ordem (Métodos). (E) A matriz é de recalcular pela matriz de e a razão entre o número ponderados pela sua probabilidade dos pedidos indicou que

i

ocorre antes

J

com o número de frequências de co-ocorrência , é importante notar que não é igual em geral. Se a matriz de não atingiu o critério de convergência, as ordens inferidos não será considerado como estável e um novo ciclo de cálculo dos e será realizada. Caso contrário (f), as encomendas com uma probabilidade mais elevada do que o acaso e as probabilidades correspondentes e são considerados como os resultados referidos. Por exemplo, de todos os 6 ordens potenciais para uma amostra com três genes do cancro mutantes

a

,

b

e

c

, ordens e são identificados como os mais prováveis ​​devido a probabilidades de 0,7 e 0,2 (maior do que a chance aleatória de 1/6).

procedimento iterativo da CIC computação e inferência de ordem mutação

por definição, as frequências sequencial de co-ocorrência são necessários para estimar o valor CIC. No entanto, esta exigência não pode ser satisfeita por os bancos de dados atuais, incluindo COSMIC. Para superar esta dificuldade, adotamos um procedimento iterativo para acoplar a inferência das ordens de mutação ocorrendo e o cálculo dos CICs. Primeiro, nós dividir igualmente uma frequência de co-ocorrência não sequencial para as duas possíveis frequências de co-ocorrência seqüencial para calcular os CICs iniciais. Nós, então, inferir as ordens de mutação com os CICs iniciais para repredict as frequências de co-ocorrência sequenciais, repita CIC computação e inferência das ordens de mutação até que seja obtido um resultado convergente.

Com base no princípio da máxima entropia, nós primeiro use uma distribuição uniforme antes das ordens de ocorrência, o que significa que para a frequência de co-ocorrência não sequencial da mutação de dois genes

i

e

j

, as duas ordens de mutação de

i

j

e

j

i

ocorrer com a mesma probabilidade. Por conseguinte, a frequência co-ocorrência sequencial necessário é definido como uma metade da frequência não sequencial correspondente. Com esta definição, calculamos a CIC inicial entre cada par de genes do cancro.

Em seguida, calcular o CIC que uma ordem de mais de dois genes mutantes possui. Neste cálculo, devemos considerar que cada um dos genes anteriores pode enviar a informação carcinogénese em paralelo a um gene alvo dentro da ordem. Portanto, pedir o princípio da resistência de computação em um circuito, o qual é paralelo um-por-série procedimento; que somar todos os CICs paralelas a partir dos genes anteriores a um gene alvo dentro da ordem para determinar o

fase CIC

da ordem e, em seguida, formular o

ordem CIC

em cascata todo o

fase CIC

s. Considere a ordem

APC → ATM → KRAS

como um exemplo; esta ordem contém duas fases de envio de informações,

→ ATM

e

→ KRAS

. Durante a primeira fase, a informação pode ser enviada a partir de uma única fonte,

APC

. Portanto ,, a CIC de

APC

a

ATM

, simplesmente torna-se o CIC da primeira fase. Na segunda fase, no entanto, ambos

APC

e

ATM

pode se tornar a fonte de informação, exigindo o somatório dos dois CICs paralelas como o CIC da segunda fase. Após a etapa paralela de cada fase, os recíprocos de

fase CIC

s, considerado como resistências, são serialmente resumiu como o recíproco da

ordem CIC

. As etapas são resumidas como segue:

Parallel passo

:

passo Series

:.

O

k

th gene na ordem é a informação que recebe gene no

(-1 k)

th fase e tem

k-1

Deixe uma resposta