PLOS ONE: Prevendo interações genéticas humanas do Cancer Genome Evolution

Abstract

Synthetic Lethal (SL) interações genéticas desempenham um papel fundamental em vários tipos de pesquisa biológica, que vão desde a compreensão das relações genótipo-fenótipo de identificar droga metas contra o câncer. Apesar dos recentes avanços em interações de medição SL empíricos em células humanas, o mapa de interacção genética humana está longe de terminar. Aqui, apresentamos uma nova abordagem para prever este mapa, explorando padrões na evolução do genoma do câncer. Primeiro, mostramos que as interações SL determinados empiricamente são refletidas em vários presença gene, ausência, e os padrões de duplicação em centenas de genomas do câncer. O padrão mais evidente que nós descobrimos que quando é um membro de um par de genes interacção SL é perdida, o outro gene não tende a ser perdida, isto é, a ausência de co-perda. Esta observação está de acordo com expectativa, porque a perda de um par SL interagindo vai ser letal para a célula cancerosa. interacções SL também está reflectido nos perfis de expressão de genes, tal como uma sub-representação de casos em que os genes de um par SL são ambos sob expresso, e uma representação através de casos em que um gene de um par SL está sob expressos, enquanto que a outra é sobre-expresso. Nós integramos os vários padrões genoma do câncer anteriormente desconhecidos e os padrões de expressão de genes em um modelo computacional para identificar pares de SL. Esse modelo simples, genome-wide atinge um poder de predição de altura (AUC = 0,75) para interações genéticas conhecidas. Ela nos permite apresentar pela primeira vez uma lista abrangente de todo o genoma de interações SL com uma alta precisão de previsão estimado, cobrindo até 591,000 pares de genes. Esta lista original pode potencialmente ser usado em várias áreas de aplicação variam de biotecnologia para genética médica

Citation:. Lu X, Megchelenbrink W, Notebaart RA, Huynen MA (2015) Prevendo interações genéticas humanas do Cancer Genome Evolution. PLoS ONE 10 (5): e0125795. doi: 10.1371 /journal.pone.0125795

Editor do Academic: Joel S. Bader, Johns Hopkins University, United States |

Recebido: 10 de dezembro de 2014; Aceito: 25 de março de 2015; Publicado em: 01 de maio de 2015

Direitos de autor: © 2015 Lu et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos os dados relevantes estão dentro do papel e a sua arquivos de suporte de informação

Financiamento: Este trabalho foi financiado pela Holanda Organização de Investigação Científica (NWO), no:. CSBR09 /013V, (WM); e FP7 larga escala Gencodys rede integrada da União Europeia, https://www.gencodys.eu, saúde-241995, (XL). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

um letal (SL) interacção genética sintética é definida como uma relação funcional entre os dois genes em que a perda de qualquer gene é viável, mas a perda de ambos é letal [1]. Um mapa detalhado das interações SL lança luz sobre as relações entre genótipo e fenótipo [2-5], potencialmente avançar a compreensão dos mecanismos das doenças humanas complexas [6, 7], e até mesmo proporcionando estratégias de tratamento terapêutico para doenças humanas como o câncer [8]. Por exemplo, vários estudos têm mostrado que a inibição de um gene num par SL poderia ser letal para as células de cancro em que o outro gene do par está mutado [9-11]. O conceito subjacente é que, em uma célula cancerígena, uma mutação em um (A) dos dois genes em um par SL (AB), que não está mutado na célula normal, permite matar selectivamente células tumorais por inibição B. Apesar avanços recentes em tecnologias para identificar as interações SL em uma escala de todo o genoma [12-15], essas interações permanecem largamente desconhecidos no ser humano, sublinhando a necessidade de abordagens computacionais de previsão.

abordagens computacionais anteriores têm na sua maioria foram desenvolvidos para prever interações SL em microorganismos modelo, tais como

Saccharomyces cerevisiae

e

Caenorhabditis elegans

[16-18]. No entanto, interações genéticas não são fortemente conservadas entre espécies, por exemplo, foram encontrados apenas 29% das interações genéticas ser conservados entre os fungos

S

.

cerevisiae

e

Schizosaccharomyces pombe

[19] e a conservação das interações entre SL microorganismos e humano ainda tem de ser estabelecida. Recentemente, um estudo proposto o uso de dados genómicos cancerosas [20] para identificar interacções SL usando uma “compensação” padrão: um gene de (A) é inactivo, enquanto o outro (B) é altamente activo, seleccionando assim contra a situação em que ambos genes tornar-se perdido e, como tal, causando um fenótipo letal. Recentemente, mostrou um outro padrão genômico de pares de genes SL interagindo: interações SL são refletidas em genomas de espécies atuais e seus genomas ancestrais de uma forma que a perda combinada de dois genes em um par SL não ocorrem com freqüência em toda a história evolutiva [21] . Isso levanta a questão de saber se podemos usar este padrão ‘co-loss sub-representação’ para prever pares SL de genomas do câncer humano (Fig 1A). Aqui, usamos as variações no número de cópias, ou seja, a perda de gene ou ganho gene, através de centenas de genomas do câncer para pedir i) são interações SL empíricos refletido na evolução do genoma do câncer e, em caso afirmativo, ii) que ganham e os padrões de perda de correlacionar a maioria com interações SL e iii) eles podem ser capturados em um modelo computacional simples para prever interações SL genoma amplamente

(a) um SL1 SL interação entre gene a e B pode mostrar um padrão de “compensação” do outro lado genomas do câncer em que é mais provável que, quando a é inactiva (indicada por -1), B é hiperactiva (indicado por 1) para compensar os inactivos Um genomas (1-10), em comparação com quando a está activa (11-30) genomas. SL interacção pode SL2, mostram um ‘sub-representação de co-perda “, em que uma perda combinada de A e B (indicado por 1 e -1, o genoma 10) entre os genomas do cancro é sub-representados em comparação com uma perda de qualquer um dos dois ( genomas 2-9 e genoma 14-18). Note-se que SL1 podem também ser identificados através de sub-representação do padrão de co-perda, mas o SL2 só pode ser identificado através do padrão de sub-representação de co-perda. (B) O modelo requer dois tipos de dados como entrada, i) CNVs medido por matrizes SNP e II) variações de expressão gênica medidos pela RNA-Seq. Em CNVs, o status de um gene pode ser uma deleção homozigótica (duas linhas a tracejado), uma deleção heterozigótica (um traço e uma linha a cheio) ou (duas linhas sólidas) normais. Para CNVs, geramos três fracções para quantificar a probabilidade de que um par tem um gene co-perda homozigótica (F1), um co-perda heterozigótica (F2) ou um evento misturado co-perda (F3). Em variações de expressão gênica, um gene pode ser sub-expresso (uma linha traço), normal (uma linha sólida) ou sobre-expressos (uma linha em negrito). Para o status da expressão, geramos duas frações, F4 e F5. F4 é a probabilidade de que ambos os genes de um par de genes estão sob-expresso. F5 é a probabilidade de que um par tem uma expressão de genes de cima para baixo, onde um evento é sobre-expresso, enquanto que o outro é sub-expresso. Todos estes cinco frações mostrou uma diferença de distribuição entre SL e não-SL pares. Ao integrar estes cinco frações em um modelo de previsão, podemos identificar interações SL que podem ser apresentados como uma rede.

Ao explorar a disponibilidade de dados de expressão de genes para um grande número de amostras de câncer [22] e recentes interações SL empiricamente medidos em humanos [23, 24], descobrimos que genes com interações SL são mais propensos a ter um padrão de expressão em que um gene é sobre-expresso, enquanto o outro é sub-expresso, confirmando assim observações anteriores [ ,,,0],20]. Surpreendentemente observou-se que SL pares são menos susceptíveis de ser co-perdida e co-expressa sob a pares de genes não-SL. Com base nestes resultados, nós apresentamos um modelo computacional baseado em conjunto simples que captura os padrões genômicos para prever pares SL genome-wide com alta precisão. Nós fornecemos um mapa único e abrangente da rede SL interação humana com uma precisão de previsão estima alta de 67%, ou seja, 14 vezes maior do que o esperado do acaso, cobrindo 591,000 pares. Este mapa é esperado para ser muito valioso, à luz da compreensão da doença humana e concepção de estratégias terapêuticas.

Materiais e Métodos

Fontes de dados

recuperados os pares SL medidas experimentalmente e os pares não-SL de dois estudos [23, 24]. Foram coletados 297 pares de SL e 6358 pares não-SL no total. Depois de excluir os pares de que ambos os genes estão localizados no mesmo cromossomo, obtivemos 270 pares de SL e 5660 pares não-SL (S1 tabela).

Os dados CNV está diretamente recuperado do cBioPortal para o cancro Genomics [ ,,,0],25]. Os sinais CNV no banco de dados são gerados como deleção homozigótica, exclusão heterozigotos, cópia normal, duplicação e ampliação. Usando o pacote de R ‘cgdsr’, obtivemos os dados da CNV para 14136 pacientes com tumor de 31 tipos de câncer.

O RNA-Seq dados são obtidos a partir do Instituto Broad Genome Data Analysis Center (GDAC) Firehose [26]. O link para download dos dados da RNA-Seq é https://gdac.broadinstitute.org/runs/stddata__2014_03_16/data. Para cada estudo do cancro, que em primeiro lugar o download dos ficheiros denominados como “_RSEM_genes_normalized_data.Level_3 ‘, que contém os níveis de expressão estimados para cada gene no genoma humano a partir de RNA-Seq dados usando o pacote RSEM [27]. No total foram coletadas um perfil de expressão para 7362 pacientes com tumor com cobertura de 26 tipos de câncer. Então, para cada gene em um tumor, nós calculamos o Z-score e P-valor para inferir o seu excesso ou falta de expressão em relação aos níveis de expressão no tecido normal. Se, pelo menos, 25 amostras normais do mesmo tipo de tecido que a do cancro estão disponíveis, utilizou-se esta como o conjunto de comparação. Caso contrário, todas as amostras de tecido normal, independentemente da especificidade para o tecido, foram usadas. Os números de amostras normais para cada tipo de tumor estão listados na Tabela S2. Para ajustar para o teste de hipóteses múltiplas, foi utilizado o método False Descoberta Rate (Benjamini-Hochberg) para ajustar os valores de p [28, 29] em R. A corte do P-valor ajustado, 0,05, foi aplicado para gerar o excesso ou sub-expressão do sinal.

Extrair o padrão para os pares SL de variações genômicas

a cópia variações número pode ser, -2 = deleção homozigótica, -1 = eliminação heterozigotos, 0 = cópia normal , 1 = duplicação e 2 = amplificação. Para um par de genes (A, B), no caso de co-perda pode ser i) homCL: co-perda homozigótica (-2, -2), ii) hetCL: co-perda heterozigótica (-1, -1) ou iii ) mixCL: mixed co-loss (-2, -1 ou -1, -2). Para cada evento co-perda, definiu-se uma fracção que quantifica a probabilidade do evento co-perda. Por exemplo, para o caso de co-perda homozigótica, definiu-se a fracção por um par de genes AB como f

1 = N

homCL /N

t, onde n

homCL é o número de pacientes com a co-perda homozigótica de AB e n

t é o número total de pacientes onde AB têm uma qualidade de (-2, -2), (-2, 0) ou (0, -2). Calculou-se a f

1 de um par de genes sem incluir amostras que têm deleções de mais de 2000 genes (cauda da distribuição na Figura A em arquivo S1). Percebemos que várias amostras de tumor tem um número muito elevado das deleções (Figura A no arquivo S1). Tais amostras podem levar a uma inflação do risco de co-perda independentemente de terem ou não uma interacção SL ou não. Do mesmo modo, definiu-se duas fracções, f

2 e F

3, para eventos de co-perda mista correspondentemente (Tabela 1 e Figura 1) heterozigótica evento co-perda e. Deve notar-se que não utilizar uma abordagem em que, a fim de quantificar a sub-representação de eventos de co-perda, em comparação a taxa de co-perda observada empiricamente de par de genes AB com o produto da taxa de perda individuais para os genes Um e B. Esta abordagem assume independência entre a perda de genes escolhidos aleatoriamente, que não é o que observamos (Figura B no Arquivo S1)

as variações na expressão gênica pode ser:. -1 = sob -expression, 0 = normal, e 1 = sobre-expressão. Aqui, nós definimos duas fracções, f

4 e F

5 (Tabela 1 e Figura 1). f

4 quantifica a probabilidade de ambos os genes de um par (A, B) são sub-expresso. f

5 é utilizada para quantificar a probabilidade par de genes AB tem a expressão up-down eventos, ie, um é mais expressa e B está sob expressa ou vice-versa.

Aqui, cada fracção definida é um sinalizar onde os pares SL mostrou diferença a partir de pares não-SL. Para f

1, f

2, f

3 e f

4, esperávamos que os pares SL têm valores menores para estas frações do que os pares não-SL. No entanto, para f

5 esperávamos que os pares SL têm valores maiores do que os pares não-SL. Para testar essas hipóteses, foram comparadas as frações em pares SL com as frações em pares não-SL via unilaterais testes de classificações de Wilcoxon em R. Realizamos quatro comparações de deleção homozigótica, exclusão heterozigotos, exclusão misturado e co-subexpressão para estimar a diferença de tendência co-loss entre SL e não-SL pares. Na análise de cima para baixo de compensação, foram realizadas duas comparações de expressão de cima para baixo ou de genômica de cima para baixo. teste de Bonferroni foi utilizado para corrigir a 4 comparações múltiplas na análise de tendência de co-perda 2 e as comparações múltiplas na análise de cima para baixo de compensação (valores de p são indicados com P

adj.).

Para validar a robustez dos sinais, foram comparadas as frações em pares SL para as frações em pares aleatórios. Em cada aleatorização, primeiro gerado 300 pares aleatórios a partir de todos os genes humanos para os quais a expressão do gene e a CNV estavam disponíveis e, em seguida, em comparação com a média das fracções nos pares aleatórios com a média em pares SL. Esperava-se que os pares aleatórios têm uma média menor de f

1, f

2, f

3 ou f

4, mas uma média maior de f

5 de SL pares. Para testar as hipóteses, temos os aleatorizações (n

1) onde a diferença de média entre os pares aleatórios e pares SL é contraditório com a expectativa. Para cada comparação, foram realizadas 1000 aleatorizações e calculado o valor P para cada teste de hipótese como P = (n

1 + 1) /1001.

Sub-amostragem

O treinamento conjunto é significativamente distorcida, com apenas 4,6% dos pares pertencentes à classe positiva (pares SL) eo restante pertencente à classe negativo (pares não-SL). Tal conjunto de treinamento enviesada pode afetar o desempenho da maioria dos algoritmos de classificação padrão [30]. Assim, foi gerada uma formação mais equilibrado fixado por aleatoriamente sub-amostragem da classe negativa, de modo que o número de pares de genes em que é igual à da classe positiva. A sub-amostragem é realizada com o pacote ROSE em R [31] e repetido 100 vezes. Todos os classificadores no estudo são treinados sobre o conjunto equilibrado.

Construir o modelo de predição baseada em conjunto

Adotamos um modelo de conjunto à base de integrar os acima mencionados 5 sinais para predizer se um gene par tem uma interação SL ou não. O conjunto de treino equilibrado (descrito acima) foi utilizado para treinar o modelo de predição baseada em conjunto que combina vários classificadores, ou seja, AdaBoost, J48, LogitBoost, Floresta aleatória, Logit, JRip E parte. A regra combinação é simplesmente com base na função média, onde x é um dado par de genes e

p

i

(x)

é a probabilidade de que x é predito para ser SL através do classificador i. As probabilidades

p

i

(x)

de todos os classificadores, com exceção da Floresta aleatória, são obtidos a partir do pacote do ‘RWeka “[32]. O classificador Floresta aleatória é implementada com o pacote de “Floresta aleatória ‘em R [33].

Para quantificar o desempenho do modelo baseado em conjunto, foi utilizado um quadro de validação cruzada 10 vezes em toda a medida empiricamente 270 SL pares e 5660 pares não-SL. Em cada validação cruzada, o modelo baseado em conjunto é treinado em nove dos construídos aleatoriamente 10 fracções e previsões são feitas para as amostras de teste na fracção remanescente. O desempenho do modelo em cada validação cruzada é avaliada por uma curva ROC, a pontuação AUC correspondente e uma curva de precisão de recall. Repetindo este procedimento 10 vezes, uma curva ROC média, uma pontuação média AUC e uma curva média de precisão de recuperação são calculadas como a avaliação do desempenho do modelo de previsão baseado em conjunto.

Construção do genome-wide mapa SL interação humana

para prever interações SL em humanos em uma escala de todo o genoma, foram selecionados primeiro 15620 genes que são medidos para ambas as variações da CNV e de mRNA em células cancerosas. Tal como mencionado na secção de resultados, devido à presença de variações no número de cópias de nível braço, pares de genes no mesmo cromossoma são mais susceptíveis de ser co-perdeu independentemente do estado de interacção SL. Assim, aplicamos o nosso modelo de ~ 115 milhões de genes pares que estão localizados em cromossomos diferentes. Para construir um mapa de alta precisão SL interação, previmos uma lista de mais de 591,000 interações SL baseado em uma pontuação de probabilidade (

p

(

x

)) limite de 0,81, que alcançou uma precisão de 67% em um recall de 10%.

Resultados

interações letais sintéticos são reflectidas na evolução do genoma do câncer

O primeiro perguntado se interações SL empiricamente observados são refletidas no gene presença /ausência e na expressão de genes em células de cancro. Para responder a isso, foram utilizados dois tipos de variação genoma do Cancer Genome Atlas (TCGA) [22], isto é, i) as variações no número de cópias (CNVs) e ii) variações de expressão gênica. O consórcio TCGA medida 14136 amostras tumorais para CNVs e 7362 amostras de tumores para variações de expressão gênica. Para determinar se os genes em amostras de câncer são significativamente acima ou abaixo do expresso, determinamos suas expressões-níveis relativamente a amostras normais do mesmo tipo de tecido (Métodos). Obtivemos as interações SL empíricos a partir de dois estudos recentes [23, 24] que mede SL interação em linhas de células tumorais de cólon e têm a maior cobertura do genoma entre todos os estudos disponíveis. No total foram coletadas 270 pares de SL e 5660 pares não-SL (S1 tabela).

Em primeiro lugar, testou se pares de SL são menos propensos a ser co-perdida em um genoma de pares não-SL. Um gene pode ser excluído homozigoticamente ou heterozygously. O primeiro foco em perdas homozigóticas em que as duas cópias de um gene são perdidos. Nós expressar a probabilidade de co-perda homozigótica de ambos os genes de um par de genes por a fracção F = N

1 /N

2, onde n

1 é o número de amostras de tumores com um co-perda de ambos os genes e n

2 é o número de amostras de tumores em que pelo menos um gene que está perdido (ver Métodos e Fig 1). De fato, descobrimos que os pares SL são menos propensos a ser homozigoticamente co-perdido do que os pares não-SL (0.00728 vs 0,0104, de um lado de teste Wilcoxon Rank, P

adj. = 0,008, Fig 2A).

pares de SL são menos propensos a ter (a) eventos co-perda homozigoto, (b) eventos co-perda de heterozigotos e (c) misturados eventos co-perda do que os pares não-SL ou pares aleatórios. As frações para estes três tipos de eventos co-perda são descritos como f

1, f

2, f

3 em Métodos e Fig 1. Cada ponto é a fração de um determinado par e a barra horizontal representa a média das fracções. Os valores P para a comparação entre SL e não-SL pares foram calculados utilizando unilateral teste de classificações de Wilcoxon. Os valores P para a comparação entre os pares SL e aleatórios foram calculados a partir de 1000 aleatorizações. Os valores de p foram ajustadas para comparações múltiplas utilizando a correção de Bonferroni (ver detalhes em Métodos).

Foram realizadas várias análises adicionais para mostrar que este resultado é válido e robusto. Em primeiro lugar, mostrou que a diferença de eventos de co-perda não é causada pela diferença na taxa de perda de um único gene. Com efeito, a taxa de eliminação homozigótica do gene dos genes em pares SL não é diferente da taxa de eliminação dos genes em pares não-SL (0,00402 0,00406 vs, de dois lados teste de classificações de Wilcoxon, P = 0,38). Em segundo lugar, dada a cobertura do genoma limitada dos conhecidos SL e não-SL pares disponíveis para nossa análise, também comparou a probabilidade de eventos co-perda de pares SL com pares aleatórios do genoma humano. Nós encontramos uma diferença significativa na co-loss entre pares SL e pares aleatórios (0.00728 vs 0,0128, 1000 aleatorizações, P

adj. = 0,012, Fig 2A). Isto mostra que a diferença de a probabilidade de eventos de co-perda de entre os pares de SL e os pares de genes aleatórios é um sinal consistente em todo o genoma humano. A diferença entre os pares e pares aleatórios SL é maior do que a diferença entre pares e pares SL não-SL (Fig 2A). Isto é provavelmente devido ao facto de os genes incluídos nas experiências tendem a ser inclinado para aqueles que são frequentemente perdido, isto é, a taxa de deleção homozigótica de genes em pares SL /não-SL é mais elevada do que em pares aleatórios (0,0049 vs 0,0042 , unilateral-teste de classificações de Wilcoxon, P = 0,04). Deve ainda referir que exigem que os pares de genes incluídos na análise a ser composto por genes em cromossomos diferentes. A razão para isto é que a presença de variações no número de cópias de nível braço irá sempre provocar uma alta probabilidade de co-perda para os pares de genes no mesmo cromossoma, independentemente de terem ou não uma interacção SL ou não.

além da perda de co-homozigótica, em que ambos os genes são delecionado homozigoticamente, existem as possibilidades de co-perda heterozigótica em que ambos os genes são heterozygously suprimido e um co-perda mista em que um gene é delecionado homozigoticamente e o outro é heterozygously suprimido. Para a co-perda de heterozigotos e para o evento co-perda mista foi realizada a mesma análise feita anteriormente para os colegas de perdas homozigotos. Para ambos os tipos de eventos co-perda, encontramos um sinal significativo e robusto, ou seja, os pares de SL são menos propensos a ser co-perdido do que os pares não-SL (para co-perda de heterozigotos 0,1935 vs 0,216, one-sided Wilcoxon teste de classificação, P

adj = 1.08e-08, Fig 2B;. para co-perda mista 0,189 vs 0,2008, unilateral-teste de Wilcoxon Rank, P

adj = 0,02, Fig 2C).. Como foi o caso para os colegas de perdas homozigotos, ambos os sinais são consistentes quando os pares de SL são comparados com pares de genes aleatórios (por co-perda de heterozigotos 0,1925 vs 0,218, P

adj. 0,004, Fig 2B, por co mista -Perda 0,189 vs 0,210, P

adj. = 0,032, Fig 2C).

a seguir, examinou os níveis de expressão de genes, onde esperávamos encontrar um sinal semelhante ao que encontramos ao nível do gene ausência /presença, uma vez que a sub-expressão de um gene também pode resultar na perda da sua actividade. De fato, descobrimos que os pares SL são menos propensos a ser tanto sub-expressas do que os pares não-SL (0,0443 vs 0,0586, de um lado teste de classificações de Wilcoxon, P

adj. = 2.39e-10, Fig 3A). Só os pares constituídos por genes em diferentes cromossomas são incluídas na análise. Novamente, o sinal é consistente quando os pares de SL são comparados com pares de genes aleatórios (0,0443 vs 0,0570, P

adj. 0,004, Figura 3A).

(a), pares de SL são menos susceptíveis de ser co -underexpressed relação ao ie controle, não-SL ou pares aleatórios. A fracção de co-subexpressão eventos é descrito como f

4 em métodos e Figura 1. (b) pares de SL são mais propensos a ter eventos expressão up-down, onde um gene é sobre-expressa, enquanto o outro em sub-expresso . A fracção de tal padrão é descrito como f

5 em Métodos e Figura 1. Cada ponto representa a fracção de um determinado par e a barra horizontal representa a média das fracções. Os valores P para a comparação entre SL e não-SL pares foram calculados com um teste unilateral de classificações de Wilcoxon. Os valores P para a comparação entre os pares SL e aleatórios foram calculados a partir de 1000 aleatorizações. Os valores de p foram ajustadas para comparações múltiplas utilizando a correção de Bonferroni (para detalhes, ver Métodos).

Estudos anteriores [34, 35] têm demonstrado um outro padrão de genes em pares SL no nível de transcrição. Neste padrão de um gene de uma SL interagindo par é sobre-expressos, enquanto o seu parceiro é sub-expressas. Assim, espera-se que em comparação com os pares não-SL, SL pares teriam maior probabilidade de ter um padrão de expressão em que um gene é sobre-expresso, enquanto que o outro é sub-expresso. Referimo-nos a isto como expressão de cima para baixo. A probabilidade de este padrão de expressão é quantificada pela fracção F = N

1 /N

2, onde n

1 é o número de amostras de tumores que têm o padrão e o n

2 é a número de amostras de tumores que têm uma expressão sob-de, pelo menos, um dos genes (ver Métodos e Fig 1 para detalhes). Como esperado, verificou-se que os pares SL são mais propensos a ter este padrão de expressão do que os pares não-SL (0,250 vs 0,211, one-sided test classificações de Wilcoxon, P

adj. = 2.10e-04, Fig 3B). Novamente, nós validado a consistência do sinal através da comparação da probabilidade de este padrão de expressão nos pares SL contra sua probabilidade em pares aleatórios (0,250 vs 0,146, 1000 aleatorizações, p

adj. 0,002, Fig 3B). Fazemos notar que a diferença entre pares e pares aleatórios SL é maior do que aquela entre pares e pares SL não-SL. Isto é possivelmente devido ao facto de os genes incluídos nas experiências foram inclinados para aqueles que são mais susceptíveis de ser sobre-expresso quando um está mutado, ou seja, a sobre-expressão de genes em pares não-SL é maior do que a de genes aleatórios (0.0957 vs 0.0789, one-sided teste de classificações de Wilcoxon, P = 1.08e-06). Foram também analisadas um padrão genómico ao nível presença do gene /ausência através do cálculo da probabilidade de cada par de genes que têm um padrão de CNV em que um gene é duplicada ou amplificado, enquanto o outro é homozigoticamente ou heterozygously suprimidos, designado por genómico de cima para baixo no restante do texto. Descobrimos que os pares SL, na verdade têm uma maior probabilidade de ter a combinação de cima para baixo genômica no nível do DNA do que os pares não-SL (0,300 vs 0,274, unilateral-teste de Wilcoxon Rank, P

adj. = 1.65e-07 ), mas isso não é significativa quando se compararam os pares SL para pares de genes aleatórios.

no total, verificou-se cinco padrões nas variações CNVs e de expressão de genes em células de cancro, os quais demonstraram que as interacções letais sintéticos são reflectidas na evolução do genoma do câncer. Estes cinco padrões se dividem em duas categorias: i) genes em pares SL são mais propensos a ser sobre-expresso quando o seu parceiro de interacção é sub-expressos e ii) genes em pares SL são menos propensos a ser co-perdida, quer ao nível do DNA ou no nível de expressão do gene.

um modelo de conjunto à base para prever interações letais sintéticos

a seguir, perguntou se esses cinco padrões genômicos são fortes o suficiente para prever com segurança os pares SL em humanos em um genoma escala -wide. Para isso foi desenvolvido um modelo baseado em conjunto que integra os cinco padrões. Deve notar-se que não inclui o padrão de cima para baixo genómico encontrados em CNVs desde pares SL não são significativamente diferentes a partir de pares aleatórios. Um modelo baseado em conjunto é um classificador que combina os resultados de previsão de vários classificadores, tais como árvores de decisão e regressão logística. Sabe-se que tal um modelo baseado em conjunto pode melhorar o desempenho em relação a um procedimento único de classificação [36], especialmente para problemas complexos, tais como previsão SL envolvendo entradas de ruído [37].

Foi utilizado o empiricamente medido 270 pares SL e 5660 pares de não-SL, como descrito na análise anterior. Para construir o modelo de previsão, primeiro necessário para lidar com o desequilíbrio do tamanho da amostra entre a classe negativa, pares ou seja, não-SL, e a classe positiva, isto é, pares de SL. A distribuição assimétrica das classes pode afetar o desempenho de modelos de previsão [30]. Para resolver este problema, nós aleatoriamente sub-amostrados a classe negativa (pares não-SL, 95,4% do conjunto de treinamento) para produzir um conjunto de amostras negativas do mesmo tamanho que a classe positiva (pares SL, 4,6% da formação conjunto). Esta combinação equilibrada de dois conjuntos é usado para treinar um modelo baseado em conjunto para a previsão SL. Note-se que a sub-amostragem é aplicado somente ao conjunto de treino. No total, foram selecionados sete classificadores individuais diferentes como a base para o modelo de conjunto: AdaBoost [38], J48 [39], LogitBoost [40], Floresta aleatória [41], Logit [42], JRip [43] e uma parte [44] que ou são robustos em relação aos dados ruidosos ou sobre-montagem. Depois de ser treinado com o conjunto equilibrado, cada um único classificador gera uma probabilidade de que um par de genes tem uma interação SL. Então nós integrados todos os sete probabilidades de estes individuais classificadores através do cálculo da média dos sete probabilidades e usou isso como a probabilidade prevista final.

Para avaliar o desempenho do modelo de previsão de conjunto baseada, foi utilizado um 10- dobre validação cruzada em todos os empiricamente medidos 270 pares de SL e 5660 pares não-SL. A trama de sensibilidade (ou seja, a verdadeira taxa positiva) versus taxa de falsos positivos do modelo baseado em conjunto mostra que o nosso modelo alcança uma área sob a curva ROC (AUC) de 0,75 (erro padrão = 0,016, Fig 4B). Deve notar-se que esta elevada AUC só é alcançado quando se combinam todos os padrões (Figura 4A). Nós também descobrimos que o modelo baseado no conjunto alcançou o maior AUC em comparação com todos os sete classificadores individuais (Fig 4b). A fim de prever um mapa SL interação de todo o genoma, estimou-se que os valores médios de precisão e retirada dos 10 vezes validação cruzada (Fig 4C). Em seguida, aplicado o modelo para todos os pares de genes no genoma. Entre ~ 115 milhões de pares para o qual a expressão do gene e os dados da CNV estavam disponíveis, previmos mais de 591,000 interações SL com base num limiar pontuação probabilidade de 0,81 (Fig 4C), o que corresponde a uma precisão estimada de 67% com base no nosso conjunto de treinamento, ou seja, 14 vezes mais elevada do que o esperado do acaso (S1 conjunto de dados). Note-se que o modelo alcança uma precisão semelhante (60%, p = 0,81) quando se utiliza um conjunto independente de SLs medidas experimentalmente (figura C do Arquivo S1).

(a) O modelo de predição conjunto baseada baseado em todos os cinco padrões combinados tem uma área sob a curva (AUC) de 0,75 (linha azul), que é estimado pela validação cruzada 10 vezes. modelos de previsão Ensemble baseada com base nos padrões individuais não-combinados, isto é, co-perda de CNVs, co-baixa quanto a expressão de cima para baixo, são mostrados em vermelho, verde e roxo, respectivamente, e têm AUC inferiores. barras de erro padrão são adicionados a cada ROC. (B) O modelo de predição baseada em conjunto (a curva ROC azul) tem um desempenho melhor do que toda a única das sete. (C) A precisão e recordação curva é estimada a partir de validação cruzada 10 vezes. barras de erro padrão são adicionados. A curva é colorido de acordo com o corte de probabilidade. O painel de cores da probabilidade é representada no lado direito. Os pontos de corte de dezenas de probabilidade (

p

(

x

)), 0,81, são impressos nas posições curva correspondente.

Deixe uma resposta