PLOS ONE: ICAN: Uma Co-Alteração Rede Integrada identificar Ovarian Cancer Genes

-Related

Abstract

Fundo

Durante a última década, um número crescente de estudos integrativos em câncer relacionado ao genes têm sido publicados. análises integrativas visam superar a limitação de um único tipo de dados, e fornecer uma visão mais completa da carcinogênese. A grande maioria desses estudos usaram dados pareados por amostra de expressão gênica e do número de cópias para investigar o impacto do número de cópias alteração na expressão do gene, e de prever e priorizar oncogenes candidatos e genes supressores de tumor. No entanto, as correlações entre genes foram negligenciados nestes estudos. Nosso trabalho teve como objetivo avaliar a co-alteração de número de cópias, a metilação e de expressão, o que nos permite identificar genes relacionados ao câncer e módulos funcionais essenciais no câncer.

Resultados

Nós construímos a Co Integrado rede -alteration (ICAN) com base em dados multi-genómica, e analisou a rede para descobrir genes relacionados com o cancro. Após a comparação com as redes aleatórias, identificamos 155 genes relacionados com o cancro do ovário, incluindo conhecido (

TP53

,

BRCA1

,

RB1 ​​

e

PTEN

) e também novos genes relacionados com o cancro, tais como

PDPN

e

EphA2

. Foram comparados os resultados com um método convencional: CNAmet, e obteve uma área significativamente melhor sob o valor de curva (ICAN: 0,8179, CNAmet: 0,5183)

Conclusão

Neste trabalho, nós descrevemos. um quadro para encontrar genes relacionados com o cancro com base em uma rede Co-alteração Integrada. Os resultados provaram que ICAN poderia identificar com precisão genes do cancro candidatos e proporcionar maior compreensão mecanicista da carcinogênese. Este trabalho sugere uma nova direção de pesquisa para a rede biológica análises envolvendo dados multi-omics

Citation:. Zhou Y, Liu Y, Li K, Zhang R, Qiu F, Zhao N, et al. (2015) ICAN: Uma Co-Alteração Rede Integrada para identificar genes relacionados com o cancro do ovário. PLoS ONE 10 (3): e0116095. doi: 10.1371 /journal.pone.0116095

Editor do Academic: Lars Kaderali, Technische Universität Dresden, Faculdade de Medicina, Alemanha |

Recebido: 14 Julho, 2014; Aceito: 04 de dezembro de 2014; Publicação: 24 de março de 2015

Direitos de autor: © 2015 Zhou et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos câncer de ovário conjuntos de dados foram obtidos a partir de The Cancer Genome Access, e estão disponíveis ao público no site da TCGA (https://tcga-data.nci.nih.gov/tcga/)

Financiamento:. Este trabalho foi apoiado em parte pela National Science Foundation Natural da China (Grant No. 81372492), e em parte pelo Fundo de Pesquisa científica de Heilongjiang Departamento Provincial de Educação (No.12541278) e da Fundação de Ciência Natural da Província de Heilongjiang (Grant No. D201116). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Com o rápido desenvolvimento das tecnologias de alto rendimento, bases de dados como o projeto Cancer Genome Atlas (TCGA) [1] e linha celular de cancro Encyclopedia (LECC) [2] forneceram muitos perfis moleculares de alta resolução de as mesmas amostras de câncer, envolvendo a expressão do gene, copiar dados de expressão de miRNA número, metilação e. analisa esses habilitado integrativa conjuntos de dados com foco na identificação de genes relacionados com o cancro. tumorigénese humana e progressão são accionados pela função aberrante de genes que regulam aspectos da proliferação celular, apoptose, a estabilidade do genoma, angiogénese, invasão e metástase [3]. Um grande desafio é identificar os genes relacionados com o cancro, especialmente aqueles que desempenham um papel importante na iniciação e desenvolvimento de cancro. Identificação de tais genes irá contribuir para o desenvolvimento da medicina personalizada [4].

Durante a última década, várias metodologias têm sido propostos para a integração da expressão gênica e copiar dados numéricos. Estes métodos podem ser divididos em duas categorias: a integração gradual e metodologias conjuntas [3]. . Por exemplo, Akavia et ai [5] desenvolveram a teoria da “pegada genómico”, onde se extraiu genes condutor por um método baseado numa rede Bayesiana; no entanto, eles negligenciaram a correlação entre os genes que são simultaneamente alterados em vários níveis. Bicciato et al. [6] desenvolveram um método passo a passo chamado A sobreposição significativa de diferencialmente expressos e Genomic desequilibradas Regiões (SODEGIR) para identificar regiões genômicas discretas com alterações e mudanças nos níveis de transcrição coordenados número de cópias. Salari et al. [7] desenvolveu um pacote de R chamou DRI para identificar mRNAs com número de cópias concordantes com relação expressão. Houve também abordagens integradoras com base na análise de correlação canônica que visam quantificar a associação entre o número de cópias e expressão [8, 9]. Em geral, tais métodos representa um procedimento de bioinformática para a análise com base integrativa, gene posição-CN e GE de dados que permite a identificação de regiões cromossómicas discretas ou genes de alterações no número de cópias coordenadas e as alterações nos níveis de transcrição. Em adição a estes métodos, Louhimo et ai. [10] realizada uma análise integradora do número de cópias, os dados de metilação de ADN e de expressão de genes, utilizando CNAmet, para identificar genes que estão coordenadamente amplificados, hypomethylated e regulados positivamente, ou coordenadamente suprimido, hipermetilado e regulados negativamente . Embora o seu trabalho integrado vários tipos de dados, descobrimos que eles estavam apenas focado nas regiões ou genes com concomitante alteração CN /GE. e não se investigar a relação directa ou indirecta entre os genes alterados.

No entanto, as funções celulares são raramente determinada por um único gene, mas sim por muitos genes combinados sob a forma de redes ou aglomerados. Mais do que um gene é alterada na progressão de cancro, eles seguido padrões distintos de interrupção, e cooperaram para contribuir para o fenótipo tumoral [11]. Por exemplo, um estudo recente mostrou que RSF1 regula genes envolvidos na evasão de apoptose (

CFLAR

,

XIAP

,

BCL2

e

BCL2L1

) e regula um gene inflamatória (

PTGS2

) [12]. Além disso, estudos têm observado que as alterações no cancro tendem a ocorrer em módulos e comunidades [13] estreitamente relacionadas. Portanto, as correlações entre vários níveis devem ser levadas em consideração seriamente. Os estudos mencionados acima não dão importância para correlações gene-gene. Alguns outros estudos têm considerado essas correlações em diferentes níveis; No entanto, os mecanismos de activação /supressão tumoral que foram reveladas limitado a um único nível. Eles não consideram de forma abrangente a contribuição para o desenvolvimento do câncer por características genômicas e epigenômicos. Eles só investigou uma força motriz de um gene em um único nível para a progressão do câncer. Por exemplo, a co-expressão é o tipo mais comum de correlação. Em 2005, Sean et al. [14] descobriu a relação entre a co-expressão elevado nível de

JAG1

e

NOTCH1 Comprar e o mau prognóstico do câncer de mama. Além disso, a influência de co-mutações entre genes também foi estudado em relação à doença. . Em 2010, Yunyan et al [15] examinou a associação funcional entre genes co-mutado; seus resultados forneceram novos insights sobre os mecanismos de coordenação complicadas de processos moleculares. Recentemente, para aumentar a precisão da triagem do gene candidato, alguns pesquisadores também incluídos dados de interacções de expressão de ARNm e proteína. Bashashati et ai. [16] o algoritmo desenvolvido DriverNet, que se baseia na interacção de genes, identificados e mutações raras do controlador candidato que pode interromper redes de transcrição. Apesar destes esforços, ainda há espaço para melhorias. Integração de dados multi-genómica nos ajudará a desenvolver modelos in silico que estão mais próximos da realidade, melhorando a precisão da identificação de genes relacionados ao câncer, e fornecer uma compreensão mais abrangente da patologia molecular do câncer.

Neste estudo, propôs um quadro para a construção de uma rede integrada Co-alteração (ICAN). Nós integrado informações interacção proteína-proteína e os dados de pares de número de cópias, a metilação do DNA e a expressão do gene em amostras de 574 ovarianos. análise de correlação canônica (CCA) foi utilizado para analisar as correlações entre os níveis genômicas, transcriptomic e epigenéticos, que é a base da nossa rede. Notavelmente, a nossa abordagem não só pode identificar pares de genes que são co-alterados em um único nível, mas também pares de genes com multi-nível de co-alteração. Descobrimos que

CHEK1

,

IGF1R

,

ISG15,

MSH3

e

PODXL

foram co-alteradas no número de cópias , os níveis de expressão e de metilação, ao mesmo tempo. Uma rede de co-alteração de genes pode efetivamente avaliar a força da associação entre genes em vários níveis. Os genes de hub neste rede sugerem interações intracelulares e funções complexas. Nós, então, realizada análise funcional e análise de sobrevivência para validar genes relacionados com o cancro candidatos identificados pelo curta aleatória. Depois de várias correlações de teste, nós finalmente obteve 17 alterações genéticas com valor prognóstico.

O método de análise de correlação canônica é geralmente usado para analisar o grau de correlação entre dois grupos de variáveis. Ao contrário do coeficiente de correlação de Pearson, CCA pode efetivamente revelar a dependência linear de dois grupos de variáveis, para que pudéssemos medir a correlação de ‘genes utilizando vários recursos. Comparou-se a rede de co-alteração com a rede de factor de correlação simples (rede de co-expressão, co-CNA rede, rede de co-metilação) a partir da perspectiva de módulos, e encontrados os módulos do método integrativa foram mais compacto e mais significativa (p-valor = 2.2e-16). análise de enriquecimento funcional de genes nos módulos mostrou que eles foram enriquecidos para determinadas funções, incluindo a apoptose celular, ciclo celular e vias de câncer.

Ao pesquisar os genes relacionados com o cancro e suas inter-relações, o nosso trabalho vai proporcionar uma valiosa em nível de sistema base teórica para o diagnóstico, tratamento e desenho de drogas no campo da bioinformática. Nosso trabalho destaca a importância da integração sistemática, e fornece aos pesquisadores clínicos com uma nova visão sobre os mecanismos moleculares da tumorigênese e progressão.

Materiais e Métodos

Dados

O Nível 3 conjunto de dados de expressão de genes, número de cópias e metilação do DNA para o mesmo conjunto de amostras de cancro do ovário (Tabela 1) foram obtidos a partir do site TCGA a disposição do público (https://tcga-data.nci.nih.gov/tcga/). Gistic2.0 foi usado para analisar o conjunto de dados de número de cópias (nível 3) para a identificação de regiões de repetição de número de cópias e a alteração do número de cópias de genes. Os valores beta de metilação do DNA são contínuas, variando de 0 (não metilado) a 1 (totalmente metilado). Os IDs de sonda foram mapeados para símbolos de genes com a tabela de anotação para a plataforma Illumina Human-Methylation27, que detectou o nível de metilação de 27.578 CpG loci localizado dentro das regiões promotoras proximais dos locais de início da transcrição de 14.495 genes. Se houve múltiplas sondas correspondentes para o mesmo gene, que aprova a intensidade média destas sondas como o valor beta do gene e removidas as sondas com qualquer valor ou o gene correspondente. Nós selecionamos a-mais próximo K método baseado vizinho que atribui valores em falta nos perfis de expressão genética, que foi implementado por um pacote de R (imputar). Além disso, nós adicionamos uma lista das amostras no material suplementar (veja S1 Tabela).

Para integrar HPRD [17], Reactome [18], Mapa Cancer Cell MSKCC, eo NCI /natureza Pathway interação com o banco [19], dados de interação Caminho e dados de interação proteína-proteína foram utilizados para estabelecer a rede inicial. conjuntos de dados via para Reactome, o banco de dados Interação NCI /natureza Caminho, eo Cancer Cell MSKCC Mapa foram baixadas no formato simples interação formato (SIF) de Caminho Commons, dados de interação proteína-proteína foi baixado HPRD. O Fundo humano Network (HBN) foi o conjunto unificado de quatro conjunto de dados. Simultaneamente, bordas redundantes e borda auto-ligados foram removidos (Tabela 2).

A HBN nós construímos consiste de genes e as interacções nas formas de nós e arestas. A interacção reflectir as associações funcionais entre os dois genes, tal como uma interacção física ou uma interacção indirecta através da via comum.

adquirida 973 genes de semente (Tabela S2) a partir de quatro Câncer bem estabelecida e doença- bases de dados de genes relacionados: cósmicos [20], GAD [21], OMIM [22] e phenopedia [23]. genes de sementes câncer de ovário foram definidos como oncogenes conhecidos ou genes supressores de tumores associados ao câncer nas bases de dados bem conhecidos. O fluxo de trabalho da nossa abordagem está descrita na Fig. 1 e mais detalhes são fornecidos na próxima seção.

análise de diferença de genes em um único nível

Gistic2.0 [24] foi utilizado para analisar o conjunto de dados do número de cópias para identificar regiões de repetição de número de cópias e a alteração do número de cópias de genes. Identificamos uma série de eventos recorrentes focal número de cópias somática alteração (SCNA), incluindo 55 amplificações significativas e 48 picos de eliminação. A SAM [25] algoritmo foi aplicado a dois conjuntos de amostras de ovário (tumor /Normal) para identificar genes diferencialmente expressos: Foram identificados 549 genes altamente expressos e 805 genes de baixa expressou que foram diferencialmente expressos em câncer (dobre mudança = 2 e taxa de descoberta de falsas (FDR) 0,05). Para os dados de metilação do DNA, identificamos altamente significativa (FDR 0,005) genes diferencialmente metilados em amostras de tumor em comparação com amostras normais usando o teste de Mann-Whitney-Wilcoxon, incluindo 1445 genes hypermethylated e 1219 hypomethylated genes

A construção. da comparação de rede co-alteração e desempenho integrado

Para usar simultaneamente várias características de genes e estabelecer a correlação entre genes no genoma, epigenoma e nível de transcriptoma, foi elaborado um quadro baseado em CCA, um método estatístico utilizado para analisar o grau de correlação entre dois conjuntos de variáveis ​​aleatórias. CCA pode transformar a correlação comum entre duas variáveis ​​sobre a correlação canônica entre os dois conjuntos de variáveis. O objetivo do CCA é buscar a maximização da correlação entre duas combinações lineares das variáveis ​​[26, 27]

Neste trabalho, as características de genes eram vistos como variáveis ​​aleatórias.; . A possibilidade de dois genes a ser co-alteradas em todos os níveis foi então medida pelo procedimento seguinte

definido dois genes: g

1, g

2. Suponha que

G

1 = [g

1

(1), g

1

(2) …, g

1

(p)]

T

,

g

2 = [g

2

(1), g

2

(2) …, g

2

(p)]

T

, e os dois vectores consistem em

p

tipos de informações de g

1 e g

2. Neste estudo, definimos

p = 3

.Pegue

G

1 | por exemplo:

g

(1)

denotado os valores de g1 expressão em amostras,

g

1 |

(2)

denotado os valores de número de cópias de g1 em amostras, e

g

1 |

(3)

denotado os valores de metilação de g1 nas amostras. Da mesma forma, podemos definir

G

2

.

Vamos,

Em seguida, a matriz de covariância é definida como :, em que cada elemento é calculada pela fórmula (1).

(1)

Nós usamos a correlação de combinação linear de vetores (ou seja, um

TG

1, b

TG

2) para medir a relação linear entre G

1 e G

2.

a construção do ICAN foi implementada, buscando o coeficiente de correlação máxima entre

U = a

T

G

1 | e

V = b

T

G

2

(2)

as soluções para o problema de otimização (2) satisfez as condições:

Var (a

TG

1) = 1, Var (b

TG

2) = 1 |.

o nosso objectivo consistia em obter o mais adequado

a

e

b

tal que

corr

(U, V) era o maior. O primeiro par de combinações lineares foi chamado o primeiro par de variáveis ​​canônicas; sua maior correlação

ρ

(U

1, V

1) foi chamado o primeiro correlação canônica. Em seguida, se existe

a

k

e

b

k

tais que as seguintes condições foram atendidas:

foi não correlacionadas com inicialmente K-1 par canônico variáveis;.

o coeficiente de correlação entre e é o maior

foram chamados o primeiro par K de variáveis ​​canônicas e

ρ (U

k, V

k)

foi chamado o primeiro correlação canônica K. Neste estudo, definimos K = 3. A matriz quociente de Rayleigh :.

O primeiro coeficiente de correlação é igual à raiz quadrada do maior valor próprio

λ

1

do R. matriz da mesma forma, o primeiro coeficiente de correlação K é igual à raiz quadrada do maior valor próprio

λ

k

da matriz

R

. Depois disso, o coeficiente de correlação linear (

ρ

1,

ρ

2,

ρ

3) foi calculada entre cada par de genes no conjunto de dados

correlação Canonical é uma extensão da correlação comum.; ele pode medir a correlação entre dois conjuntos de variáveis ​​[28]. Comparado com o uso de um único tipo de dados, mostrou maior precisão na quantificação das relações lineares entre genes utilizando as suas características diferentes [29]. Em seguida, semelhante a trabalhos anteriores [29], foi utilizado o teste do qui-quadrado para medir se o coeficiente de correlação canônica (

ρ

1,

ρ

2

ρ

3) [30] foi significativa

A hipótese nula é H

0:.

λ

k

= … =

λ

p

= 0

Vamos P

k ser o

p

-valor do K-th estatística de teste

T

k

, com :, e

T

k

~ [29], em que

N

é o número de amostras. Finalmente, utilizou-se uma combinação de pesos (3) para atribuir um peso para as bordas de ligação dois genes, (3) Onde

O peso final,

ω

, representa a correlação entre os genes mais precisamente.

ω

medidas a possibilidade de dois genes a ser co-alterados ao nível do número de cópias, a metilação do DNA e a expressão do gene. Nós, então, atribuído o peso à HBN e construiu a rede de co-alteração integrado referido como ICAN. O método pode medir a força de associação entre os genes em vários níveis. Neste trabalho implementamos o teste de significância estatística método e qui-quadrado com base em CCA pela biblioteca “CCA” e “Qui-quadrado” no software estatístico R.

Enquanto isso, nós calculado o coeficiente de correlação de Pearson dos perfis de expressão (perfis número de cópias e os perfis de metilação) entre cada par de genes e estabelecida uma rede de co-expressão (GCE), uma rede de co-cópia número (GCC) e uma rede de co-metilação (MGC). Este processo também foi implementado no software estatístico R. Para refletir melhor o desempenho da nossa rede, em comparação ICAN e CNAmet, e entre três redes de dados individuais.

Identificar candidatos genes relacionados com o cancro do ovário

Passeio Aleatório com Restarts [31] é um algoritmo de classificação. Ele simula o processo de caminhar passo a passo a partir dos nós de sementes para dirigir nós vizinhos; os nós da rede são classificados pelas probabilidades de atingir o nó. Assumindo

W

é a matriz de adjacência do ICAN e

P

t é um vetor cujo i-th elemento detém a probabilidade de chegar ao nó

i Restaurant at etapa

t

, o passeio aleatório foi calculado pelo

(4)

a distribuição dos valores dos nós de sementes no vetor de probabilidade inicial

P

0 foi definido como uniforme, com a soma das probabilidades iguais a 1;

r

representa a probabilidade de reiniciar nos nós de sementes, que foi criado para 0,7. Depois de N passos, essa probabilidade irá atingir um estado de equilíbrio, o que foi determinado pela diferença entre o

P

t e

P

t + 1. Foi realizada a iteração até que a norma L1 entre eles caiu abaixo de 1E-10. Calculou-se o passeio aleatório com Restarts probabilidade para todos os genes na rede. Em seguida, analisamos a alteração diferencial dos 20 genes% nos vários níveis.

Kaplan-Meier análise de sobrevivência para os genes relacionados com o cancro candidatos

A não-paramétrico estimador de Kaplan-Meier foi aplicado para estimar a influência de diferentes factores sobre o tempo de sobrevivência. Neste trabalho, a explorar o eventual valor prognóstico de genes candidatos identificados, foi utilizado o pacote de “sobrevivência” no

R

software estatísticas. A

p

-valor 0,05 e um FDR 0,25 foram usadas como pontos de corte para significância estatística pelo teste de log-rank.

Investigou-se a alteração de cada um dos genes nas amostras, e discretizadas os três conjuntos de dados de acordo com as características de oncogenes e genes supressores de tumor, isto é, , a amplificação, a sobre-expressão, hipometilação; eo inverso: exclusão, baixa expressão e hipermetilação, respectivamente. Para os dados de número de cópias, adotamos os resultados de GISTIC2.0 número de cópias discreta chamadas. As amostras foram classificadas como deleção homozigótica do gene (-2) ou amplificação (1/2). Para os dados de expressão gênica, foi calculado o valor médio eo desvio padrão (SD) para cada gene: os valores que eram mais elevados do que a média + SD foram considerados superexpressão. Por outro lado, os valores que eram inferiores a média-SD foram considerados baixos expressão. Para os dados de metilação do DNA, nós definir o limite com base na análise empírica das distribuições de valor beta: um valor beta inferior a 0,2 foi considerado como hipometilação; um valor superior a 0,8 foi considerado como hipermetilação.

Identificar módulos funcionais para ICAN

Foram identificados módulos funcionais de ICAN e construídos três redes de nível único utilizando MCODE [32]. O uso de MCODE foi preferido para uma comparação mais fácil de ican e as três redes de factor único, como os mesmos módulos foram identificados a partir da rede não ponderada. O procedimento de borda ponderação foi realizada separadamente para cada rede, e as pontuações M de cada módulo foram calculados de acordo com uma fórmula de pontuação (ver Tabela arquivo S4 adicionais para detalhes). Uma análise de enriquecimento funcional foi realizada no conjunto de genes relacionados ao câncer candidato e os genes dentro do módulo usando a ferramenta DAVID [33] (https://david.abcc.ncifcrf.gov/).

Resultados

ICAN tem as propriedades de redes complexas

A rede de co-alteração integrada é representado como um grafo ponderado não direcionado, onde os nós representam genes e arestas que conectam os nós representam as correlações de co-alteração entre genes . Em primeiro lugar, fazendo uso de dados de interação humana e conhecimento via, estabelecemos um HBN que compreendia 9.195 nós e 65,720 bordas.

Em 574 amostras de tumores de cancro do ovário, existem 11,384 genes que estão presentes em todos os três perfis de cópia número, a metilação do promotor e a expressão do gene. De acordo com CCA, nós então calculado o peso entre cada dois genes para medir a sua correlação linear pelos três características. Em seguida, as bordas da rede foram atribuídos pesos e os genes não contidas em perfis moleculares foram removidos. Eventualmente, nós construímos ICAN, que compreendia 6.345 nós e 40,125 bordas. Quanto mais perto

ω

estiver de 1, maior a correlação entre os dois genes. Além disso, foi utilizado o coeficiente de correlação de Pearson para os níveis de expressão do gene, número de cópias, e metilação do DNA para a construção de três mesmas redes porte.

topologia de rede desempenha um papel importante nas funções biológicas e transmissão de informação no rede. Depois de analisar as propriedades da topologia da rede, descobrimos que ICAN mostrou uma estrutura livre de escala, com uma distribuição de lei de potência de graus de nó. Isto significa que ican inclui apenas um pequeno número de nós cujo grau é elevada, sugerindo a importância dos nós do cubo. Em seguida, aplicou o método curta aleatória ponderada para identificar os nós de hub. Este método pode efetivamente otimizar genes de doenças candidato e prever com precisão os principais genes candidatos de câncer.

ICAN melhora a precisão de priorizar genes relacionados com o cancro candidatos

ICAN contém 604 genes relacionados com o cancro do ovário conhecidos, que foram utilizados como o padrão de ouro para traçar as curvas características de operação do receptor, e para calcular a área sob a curva (AUC). Com base na validação cruzada cinco vezes, foram selecionados 80% dos genes como genes de sementes; os 20% restantes foram reservados para a validação final. Para comprovar a precisão do nosso método, usando o mesmo conjunto de dados, foi aplicado o método CNAmet para prever oncogenes e genes supressores de tumor, e compararam os resultados com o resultado ICAN. Como resultado, o valor de AUC de CNAmet foi significativamente inferior ao valor de AUC de ican (ican: o máximo AUC = 0,8179; CNAmet: AUC = 0,5183, p-valor = 3.158e-14, as duas primeiras folhas na Tabela S5) (Fig. 2). A significância da diferença da AUC por duas curvas ROC foi determinada pelo teste de DeLong no “pacote proc” [34].

A linha preta representa ICAN, linha pontilhada vermelha representa CNAmet. eixo horizontal é a taxa de falsos positivos, o eixo vertical é a verdadeira taxa positiva.

Para prever com maior precisão os genes relacionados com o cancro em cancro do ovário, foi utilizado um método de caminhada aleatória ponderada para calcular a proximidade entre outros nós e genes de sementes para determinar correlações com oncogenes. Este método é muitas vezes referida como o princípio “culpa-por-associação directa”, pelo qual os genes que são associados com genes de doenças tendem a ter funções semelhantes. Nós escolhemos aleatoriamente genes no ICAN como genes de sementes, e comparou-os com os resultados originais. Este processo foi repetido 1000 vezes; um ajustado

p

-valor abaixo de 0,05 foi considerado significativo para genes relacionados com o cancro. Por outro lado, comparou-se a diferença no grau [35] e o comprimento do gene entre genes candidatos e os outros genes. Pesquisas recentes têm mostrado que um maior comprimento do gene resulta frequentemente em mais domínios de proteínas traduzidas, levando assim a uma maior interactividade, o que significa uma maior possibilidade de o gene do cancro do gene sendo [36]. Os resultados mostraram que não só houve diferenças significativas na duração gene de genes relacionados ao câncer candidatos em comparação com os outros genes (

p

-valor = 2.64E-02, Fig. 3, S6 Table), mas também os resultados foram semelhantes em termos de grau gene (

p

-valor = 6.176E-07).

na Fig. 3 (a), luz verde representa genes candidatos, cinzento representa os outros genes em ican, e o eixo vertical representa o grau de genes. Na Fig. 3 (b), luz verde representa genes candidatos, cinza representa os outros genes em ICAN, eo eixo vertical representa o comprimento de genes.

Finalmente, foram identificados 155 genes relacionados com o cancro candidatos (S7 tabela), e analisados ​​os eventos de co-alteração desses genes em detalhe. CHEK1, IGF1R e MSH3 foram co-alteradas em comum em todos os três níveis; CHEK1, IGF1R, MSH3 e FANCA foram co-alterada através do número de cópia e expressão níveis; e CHEK1, FGF18, IGF1R, IGFBP1, IGFBP2, MSH3, PLAU, RAD51 e EIF2AK2 foram co-alteradas a nível de metilação do DNA e expressão.

CHEK1, FANCA e RAD51 estão envolvidos na fiscalização dos pontos de interrupção no a regulação do ciclo celular e do processo de reparação, e desempenham um papel importante, quer na via de sinalização de p53 ou a via de sinalização MAPK. A via de sinalização MAPK é uma via importante do cancro; activação desta via pode promover a proliferação de células endoteliais e angiogénese. Os vasos sanguíneos recém-gerados poderia fornecer mais nutrientes para as células tumorais, a aceleração do crescimento tumoral e promover a proliferação de células cancerosas [37]. MSH3 e IGF1R têm papéis importantes na replicação do DNA, recombinação e reparo. Deficiência de reparo incompatível, especialmente perda de expressão dos sete genes principais (MSH2, MSH3, MSH6, MLH1, MLH3, PMS1 e PMS2), pode aumentar o risco de câncer de ovário [38].

Além disso, foram analisadas as proporções diferencial dos principais genes 20% no ICAN por uma curta aleatória. FIG. 4 mostra que a proporção de metilação diferencial foi o mais alto em cada bar entre os top 100; no entanto, apenas dois genes têm alterações diferenciais simultâneas em todos os três níveis. Os números de genes com apenas um tipo de alteração (CNA, metilação diferencial ou expressão diferencial) foram de 13, 19 e 18, respectivamente. Descobrimos que o número de genes que foram diferencialmente alterados em vários níveis tende a se estabilizar após o top 600, o que indica que a probabilidade de estes genes é muito mais elevado, sugerindo uma relação mais estreita com genes de sementes conhecidos.

seleccionado gene TOP 20% no ICAN pela Random Walk, cada barra representa o número de genes de alteração diferenciais. GE representa os genes que foram apenas foram diferencialmente expressos em amostras de tumores, de forma semelhante, NC representa alteração do número de cópias do gene; DM representa a metilação do DNA; GD representa expressão gênica e metilação do DNA; GC representa a expressão do gene e do número de cópias; CD representa o número de cópia e metilação do DNA; GCD representa os genes alterados em três características.

A alteração de um gene em um único nível representou um número de cópias anormalidade, expressão diferencial ou metilação diferencial, respectivamente (S3 Mesa, folha 1-3).

genes relacionados com o cancro novela de câncer de ovário pode afetar a sobrevivência

para estimar o impacto dos genes candidatos sobre a sobrevida do paciente, e olhar para as características genômicas genômicas e epigenéticos relacionados ao prognóstico dos pacientes, foi aplicado análise de sobrevivência para estimar a contribuição de características 6 para cada um dos 155 genes (930 apresenta no total) sobre o tempo de sobrevivência. Foram identificados seis fatores de risco oncogénico significativas e 11 fatores supressores de tumor significativas (S8 tabela).

Curiosamente, o impacto das deleções de genes candidatos sobre a sobrevivência não foi significante. Especulamos que pode resultar da heterogeneidade das amostras de tumor. Embora a alta expressão de PDPN não teve um impacto particularmente significativo no prognóstico pobre (

p

-valor = 7.80E-04, FDR = 0,12, Fig. 5). As células cancerosas com expressão elevada PDPN ter maior potencial maligno por causa do aumento da agregação plaquetária, o que promove a alteração da motilidade celular, metástase e da transição epitelial-mesenquimal [39]. Estudos anteriores mostraram que a superexpressão de PDPN em fibroblastos é significativamente correlacionada com um prognóstico pobre no carcinoma do ovário [40].

No painel à esquerda, a linha vermelha representa as amostras com PDPN high-expressão e a linha verde representa a folga amostra de PDPN alta expressão.

Deixe uma resposta