PLOS ONE: Função de Genes câncer associado revelado por Modern uni e multivariada Associação Tests

Abstract

Copiar número variação (CNV) desempenha um papel na patogênese de muitas doenças humanas, especialmente o câncer. Vários toda genoma associação estudos CNV foram realizados com a finalidade de identificar câncer associado CNVs. Aqui nós empreendeu uma nova abordagem para análise CNV todo genoma, com a identificação objetivo de ser das associações entre a CNV de diferentes genes (CNV-CNV) em 60 linhas de células cancerosas humanas. Nossa hipótese é que essas associações apontam para os papéis dos genes associados em câncer, e podem ser indicadores de sua posição em redes de genes de processos de condução de câncer. Estudos recentes mostram que as associações de genes são frequentemente não-linear e não-monótona. A fim de obter um quadro mais completo de todas as associações da CNV, foi realizada análise univariada omnibus, utilizando testes de associação dCov, microfone e HHG, que são capazes de detectar qualquer tipo de associação, incluindo relações não-monótonas. Para comparação utilizou-se testes de associação de Spearman e Pearson, que detectam apenas relações lineares ou monótonos. Aplicação de testes dCov, MIC e HHG resultou na identificação de duas vezes mais associações em comparação com os encontrados por Spearman e Pearson sozinho. Curiosamente, a maioria das novas associações foram detectadas pelo teste de HHG. Em seguida, utilizamos a capacidade do de dCov e HHG para realizar a análise multivariada. Testamos a associação entre genes de função desconhecida e vias relacionadas com o cancro conhecidos. Os nossos resultados indicam que a análise multivariada é muito mais eficaz do que a análise univariada para a finalidade de atribuir funções biológicas de genes de função desconhecida. Conclui-se que uma combinação de testes de associação omnibus multivariada e univariada pode revelar informações importantes sobre redes de genes de processos de condução da doença. Estes métodos podem ser aplicados a qualquer grande gene ou conjunto de dados via, permitindo a análise mais abrangente dos processos biológicos

Citation:. Gorfine M, Goldstein B, Fishman A, Heller R, Heller Y, Lamm AT (2015) Função de Genes câncer associado revelado por testes Modern uni e Associação multivariada. PLoS ONE 10 (5): e0126544. doi: 10.1371 /journal.pone.0126544

Editor do Academic: Lin Chen, da Universidade de Chicago, Estados Unidos

Recebido: 27 de setembro de 2014; Aceito: 03 de abril de 2015; Publicado: 12 de maio de 2015

Direitos de autor: © 2015 Gorfine et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos os dados relevantes estão dentro do papel e seus arquivos de suporte de informação

Financiamento:. Este trabalho foi financiado pelo National Institutes of Health (concessão P01CA53996 para MG), os centros israelenses de Investigação de Excelência (I-CORE) programa (Centro no . 1796/12 para ATL), The Israel Science Foundation (concessão No. 644/13 para ATL). ATL é um companheiro Taub – apoiado pela Fundação Taub. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

variações do número de cópia (CNV) são uma parte da variabilidade genética humana normal. Dezenas de milhares de CNVs têm sido relatadas na base de dados de origem genómica variantes (DGV) com base em amostras de controlo saudáveis ​​[1,2]. No entanto, CNVs são também uma componente significativa de variação no risco de doença e ocorrência de muitas doenças e distúrbios, incluindo o cancro, infecção por HIV, o autismo, e doenças psiquiátricas [3-5]. No cancro, a CNV é uma das aberrações somáticas mais importantes encontrados [6]. Hoje em dia análise CNV tornou-se uma parte central da investigação oncológica e muitos estudos se concentram na detecção de CNVs no genoma humano em tecidos e células normais e doentes. ([7,8], DGV (https://projects.tcag.ca/variation)). Em clínicas um número crescente de CNV são utilizadas para diagnóstico e terapia personalizada.

Enquanto CNVs individuais pode ser detectada por hibridização in situ fluorescente (FISH), todo de detecção de CNV genoma requer baseada em microarrays de hibridação genómica comparativa (CGH matriz plataformas) ou no próximo sequenciamento geração (NGS) [6]. Estas plataformas gerar muito grandes volumes de dados, tornando a análise muito desafiador. Uma das principais tarefas de análise de dados CNV é identificar e caracterizar as associações entre CNVs e doenças, que podem, potencialmente, ser conduzidos por mecanismos biologicamente relevantes [9-11].

Vários estudos de associação têm sido realizados com a finalidade de vincular CNVs para doenças [7,8,12]. Por exemplo, Stamoulis et ai. [11] focado em relacionamentos monótonos entre CNV dentro e através de cromossomos; Bussey et ai. [12] olhou para correlação de Pearson entre CNV e os níveis de expressão de genes. Enquanto a maioria dos estudos associado CNV com o perfil de expressão do gene, muito poucas, se alguma, têm sido feitas tentativas de associar entre CNVs de diferentes genes detectados em tecido doente, apesar de a identificação de associações entre genes é extremamente importante para a compreensão dos processos biológicos básicos e modelagem rede de transcrição. Neste trabalho realizamos uma tal abordagem para analisar os dados da CNV relacionadas ao câncer. A lógica era que, desde a formação de CNV faz parte da carcinogênese, as associações entre CNVs de genes seria indicativo de seus papéis na carcinogénese. Além disso, a identificação destas associações pode permitir a construção de uma rede gênica de processos de doença condução.

Até agora, os testes de associação mais comumente usados ​​são baseados em coeficiente de correlação de Pearson ou Spearman. O teste de Pearson é sensível ao componente linear numa relação entre duas variáveis, enquanto que o teste de Spearman detecta relações monótonas, tais como um sigmóide. Assim, ambos os testes não são capazes de detectar relações não monótonas, como forma de U, elipse, sinusoid, etc. Estudos recentes mostram que as associações de genes são frequentemente não-linear e não-monótona [13-15]; Por conseguinte, a fim de obter uma imagem imparcial completa de todas as associações de genes deve-se aplicar outros métodos estatísticos.

Recentemente, vários testes estatísticos para detectar qualquer tipo de relações, incluindo os não-monótonas, foram propostas. Em particular, székely et ai. [16,17] sugerido um teste, chamado dCov, com base na distância de covariância e de correlação distância; Reshef et ai. [18] apresentaram um teste com base em uma medida novela de dependência-o coeficiente de informações máxima (MIC); e Heller et al. [19] propôs um teste com base em fileiras de distâncias, com o nome HHG. estudos de simulação extensos comparando entre HHG, dCov, MIC, Spearman e Pearson foram realizados [13,19]. As suas principais conclusões foram que HHG é tipicamente mais poderoso do que dCov e dCov geralmente é mais poderoso do que o MIC em contextos não-monótonas.

Além de seu ser ferramentas de análise univariadas capazes de identificação de uma ampla gama de tipos de associação , dCov e HHG também são aplicáveis ​​para a análise multivariada, ou seja, o teste de dependência entre as variáveis ​​X e Y, quando X e Y são vetores em vez de variáveis ​​simples. Assim, estes testes podem ser utilizados para a identificação de associações entre as vias ou entre um gene e uma via, mesmo quando o tamanho da amostra é muito menor do que a dimensão de X ou Y.

O segundo objectivo deste trabalho foi demonstrar a eficácia dos testes de associação que também são capazes de detectar relações não monótona, tais como dCov, HHG MIC e para analisar dados associação genoma inteiro. Para este propósito utilizou-destes ensaios, juntamente com o teste de Spearman e Pearson padrão na análise de dados de CNV derivados de 60 linhas celulares de cancro humano (NCI-60) [12]. Descobrimos que a aplicação de ensaios capazes de detectar qualquer tipo de relações, tal como dCov e HHG, para análise univariada, resulta na identificação de duas vezes mais associações comparados com aqueles encontrados por Spearman e Pearson sozinho. A maior parte das novas associações foram detectadas pelo teste de HHG. Além disso, a análise multivariada por meio de dCov e HHG foi capaz de associar entre genes de função desconhecida de nosso conjunto de dados e processos biológicos básicos, proporcionando uma pista para possíveis funções biológicas destes genes.

Os métodos aqui apresentados podem ser útil em muitas outras configurações que requerem detecção de associações de genes e vias, como a reconstrução de redes e caminhos-uma tarefa importante na biologia de sistemas [20]. Este estudo demonstra que, usando esses métodos pesquisadores podem descobrir mais associações de vários tipos, e assim ter um quadro mais amplo à sua disposição durante a tentativa de estudar os fenômenos biológicos.

Resultados

Identificação do gene- por-Gene associações

a fim de encontrar associações entre CNVs relacionada ao câncer, foram utilizados dados da CNV obtidos por um array CGH a partir de 60 linhas celulares de cancro humano (NCI-60; [12]). Dentro do array CGH seleccionámos clones que têm conhecido símbolos de genes e, por coerência, não há valores ausentes em qualquer linha de células. O resultado continha 99 genes. Além dos testes de associação tradicionais, Spearman e Pearson, foram aplicados três testes, dCov, MIC e HHG, que também são capazes de detectar as relações não-monótonas. Uma associação foi considerada significativa se o valor de p-FDR ajustado foi inferior a 0,05, utilizando o procedimento Benjamini-Hochberg [21]. Fora de 4851 comparações de pares, Pearson ou Spearman detectou 254 associações significativas, dCov detectados 256, MIC detectado 157 e HHG detectado 400 associações significativas (ver Fig 1, Tabela 1, S1 Fig, e S1 Tabela para resultados detalhados). A comparação dos três testes capazes de detectar qualquer tipo de relações, nomeadamente dCov, MIC e HHG, revelou que eles compartilham 139 resultados significativos comuns. Além disso, 44 ​​foram encontradas associações significativas apenas por dCov; 11 apenas por MIC e 183 apenas por HHG (S1 Fig, superior direito). Comparando Pearson e Spearman com dCov e HHG revelou que 29 associações significativas foram descobertas apenas por Pearson ou Spearman, apenas 10 unicamente por dCov enquanto 184 foram descobertos apenas por HHG (Fig 1).

MIC foi excluído devido à pequeno número de descobertas significativas proporcionadas por este método. A área de cada oval representa o número de ensaios significativos de cada método, e intersecções (enfatizados por cores diferentes) representam descobertas comuns. Evidentemente, Pearson ou Spearman, dCov e HHG quota de 185 descobertas; 184 testes foram significativos por HHG mas não por Pearson, Spearman ou dCov; 10 testes foram significativos por dCov e não pela Pearson, Spearman ou HHG; 29 testes foram significativos por Pearson ou Spearman, mas não por dCov ou HHG; dCov e HHG compartilhar 26 descobertas; Pearson ou Spearman e dCov compartilhar 35 descobertas; e Pearson ou Spearman e HHG compartilhar apenas 5 descobertas.

do número de associações estatísticas significativas encontrados por dCov, MIC ou HHG, mas não por Pearson ou Spearman, o número encontrado por HHG foi excepcionalmente grande. Especificamente, enquanto o número de associações significativas compartilhados por Pearson ou Spearman e HHG é 190, Pearson e Spearman perdeu 210 associações encontrados por HHG, enquanto HHG perdeu apenas 64 associações encontrados por Pearson ou Spearman. Na análise acima, nós combinamos os resultados de Pearson e Spearman que tiveram p-valor ajustado inferior a 0,05, como se fossem um único método, mesmo que isso dá, em seguida, uma vantagem em comparação com outros métodos. Perante isto, é tanto mais interessante que HHG encontrados 57% mais associações em seguida, Pearson e Spearman. Concluímos, portanto, que a análise com base nos testes de associação tradicionais de Pearson e Spearman poderia faltar uma proporção significativa de todas as associações possíveis entre genes.

A fim de demonstrar a relevância biológica das associações detectadas por HHG tomamos um olhar mais atento aos pares de genes associados detectados. Um exemplo de uma associação encontrado somente por HHG é a associação entre os genes e CTSB LYN (Figura 2). LYN codifica uma cinase de tirosina-proteína não receptora, um regulador de muitas vias de transdução de sinal, enquanto que codifica CTSB catepsina B, uma protease tiol participa na degradação intracelular e rotatividade de proteínas. Sem interações biológicas directas entre estas duas proteínas são conhecidos, no entanto, que ambos interagem directamente com uma terceira proteína, esf ingosina-quinase 1 (SphK1). SphK1 catalisa a fosforilação da esfingosina para formar esfingosina-1-fosfato (S1P), uma molécula de sinalização chave esfingolípidos envolvida no crescimento celular, sobrevivência, diferenciação e motilidade. Interacção entre LYN e SphK1 é essencial para a activação de SphK1 [22]. Por outro lado, foi mostrado interação entre Cathespin B e SphK1 para regular os níveis de SphK1

in vivo

[23] e para clivar-lo

in vitro

[24]. Estes dados experimental demonstra que a associação entre LYN e CTSB identificado por HHG é de fato biologicamente relevante. Além disso, a existência da associação entre a CNV de pontos LYN e CTSB para LYN- interações SphK1 e CTSB- SphK1 como sendo importante para a carcinogênese

A primeira linha é composta por três achados descobertos apenas por Spearman ou Pearson.; em segundo lugar, apenas por HHG; Em terceiro lugar, apenas por dCov; e em quarto lugar, apenas por MIC. Os valores P (após o ajuste para testes múltiplos) são indicados em cada parcela.

Outro exemplo de uma associação encontrada apenas por HHG é a associação entre os genes CDKN1A e TKT (Fig 2). CDKN1A códigos para CDK interactua com a proteína 1 (p21), um inibidor de quinase dependente de ciclina potente que regula a progressão do ciclo celular por meio do G1 /S checkpoint. TKT códigos para Transcetolase, uma enzima central da via da pentose fosfato. A associação entre CDKN1A e TKT detectado por HHG reflecte na verdade uma relação entre as vias estes dois genes pertencem. Seguindo a progressão do ciclo celular da fase G1 para a fase S, existe uma sobre-regulação da via das pentoses fosfato, o qual é responsável pela produção de ribose-5-fosfato (R5p), necessário para a síntese de nucleótidos e ácidos nucleicos [25] . Todos os genes nos exemplos acima estão localizados em diferentes cromossomas ou longe um do outro no mesmo cromossoma; portanto, a proximidade física não pode explicar as associações baseadas em CNV.

Identificação da função dos genes utilizando testes de associação multivariados

Detecção de associações entre pares de genes por análise univariada é um bom começo para derivar informação biológica de dados da CNV, como mostrado acima. No entanto, quando se trata de um grande número de genes, e a função de uma relação de vias biológicas de muitos genes são muitas vezes desconhecidos. Encontrar associações com genes conhecidos podem lançar luz sobre a sua possível função, mas a análise multivariada poderia fornecer informações adicionais importantes. Portanto, foram aplicados os testes multivariados para a dependência entre vários genes de função desconhecida em nosso conjunto de dados e vias conhecidas, utilizando testes multivariados dCov e HHG. Especificamente, um dos 99 genes no nosso conjunto de dados, doze genes não têm função conhecida ou relativamente a uma via biológica (figura 3), como determinado usando a via de KEGG ([26,27]; https://www.genome.jp/KEGG /ferramenta /map_pathway1.html). Para detectar as suas associações com vias conhecidas, primeiro atribuído o resto dos genes para vias com base na via de KEGG mapeador (S2 Tabela), e, em seguida, seleccionados oito vias biológicas comprovado experimentalmente que contêm pelo menos cinco genes a partir de nosso conjunto de dados (Fig 3). Além disso, a via de apoptose, ser um dos mecanismos fundamentais relacionados com o cancro, foi incluído no nosso estudo, apesar de apenas dois genes do nosso conjunto de dados ter sido atribuído a ele. Em seguida, testamos para as associações entre cada par de genes da via entre os doze genes e nove vias. Nós aplicamos dCov e HHG que se achavam, dos testes usamos acima, os dois únicos testes capazes de análise multivariada, ou seja, o teste de associação entre vetores (mais detalhes estão disponíveis nos Materiais e Métodos Seção). No total, 108 testes foram realizados com cada método e um resultado de teste foi considerada significativa se o valor de p-FDR ajustado foi inferior a 0,05, utilizando o procedimento Benjamini-Hochberg [21]. Dos doze genes, seis genes mostraram associações significativas para vias (Fig 3A e S3 tabela).

Nos painéis A e B, genes (à esquerda) e caminhos (à direita) foram analisados ​​para a associação por HHG e dCov. associações significativas (após o ajuste para testes múltiplos) estão ligados por linhas: correu para HHG, pontilhada por dCov e sólida para ambos. A) As associações significativas entre os genes com função desconhecida e vias relacionadas ao câncer. Associações encontrados por dCov e HHG são marcadas. B) As associações significativas entre os genes com função conhecida e vias relacionadas ao câncer. Somente as associações encontrados por dCov são mostrados como não foram encontradas associações significativas por HHG.

Dois genes, LRRC32 e SPI1, foram encontrados para ser associado com a maioria das vias, sugerindo que poderia ser intermediários de transdução de sinal , regulando alvos a jusante que pertencem a estas vias. Estes resultados estão de acordo com os resultados da análise univariada, o que associado significativamente ambos os genes com serina /treonina quinase PAK1 e gene SPI1 também com HRAS, uma GTPase da família RAS. Na verdade, de acordo com KEGG PAK1 via mapeador e HRAS pertencem a maioria dos caminhos com os quais LRRC32 e SPI1 foram encontrados para ser associado. Além disso, tanto PAK1 e HRAS estão envolvidas na transdução de sinais de proliferação e sua miss-regulação leva a transdução de sinal anormal e câncer [28,29]. Assim, enquanto uma análise univariada foi possível encontrar associação entre genes de função desconhecida e genes individuais com função conhecida, a análise multivariada acima poderia apontar suas associações com processos biológicos.

Os quatro restantes genes associados, AFF2, CLCN5, MYCN e TCL1A, foram encontrados para ser associado cada um para um ou dois caminhos específicos, sugerindo que constituem efectores a jusante destas vias (veja exemplos abaixo). Não foram encontradas associações entre os outros seis genes e qualquer um dos caminhos.

Na análise multivariada aplicada acima para genes de função desconhecida, dCov e HHG descoberto número semelhante de relações multivariadas significativas, 15 por dCov, e 13 por HHG, enquanto 8 foram detectados por ambos os métodos. Portanto, nossa análise não revelou qualquer evidência clara da superioridade de um método sobre o outro nesta aplicação específica.

Além da análise multivariada aplicada aos genes de papel desconhecido em câncer, escolhemos dois genes do conjunto de dados , PIK3CA e MSH2, que estabeleceram função biológica e não pertencem a qualquer um dos oito percursos de acordo com KEGG, e realizou gene da via testes multivariados de associação por dCov e HHG, semelhantes aos realizados anteriormente para genes de função desconhecida. Enquanto dCov encontrados 13 resultados significativos, HHG encontrado nenhum (Fig 3B e S4 Tabela).

As associações, detectadas por dCov, entre MSH2 e ciclo celular, apoptose, adesão focal, RAS, WNT e as vias de actina são consistentes com a sua função de reparação incompatibilidade DNA e sua conexão com a divisão celular [31]. Da mesma forma, as associações entre PIK3CA, e das seguintes vias: apoptose, actina, de adesão focal, sinalização FOXO, a sinalização do receptor de células T, orientação Axon e Wnt (Fig 3B e S4 Tabela) são suportados por vastos dados biológicos [32-35]. A relação de PIK3CA a estas vias, bem como o seu papel essencial em cancros humanos, é uma consequência de ser um jogador chave na activação de cascatas de sinalização envolvidos no crescimento celular, sobrevivência, a proliferação, motilidade e morfologia [36]. A discrepância entre os resultados actuais de dCov e HHG (Fig 3B) é, devido à natureza linear da relação entre estes genes e as vias, e o facto de que a força de HHG está em encontrar relacionamentos não monótona. Por exemplo, dCov descoberto associação significativa entre PIK3CA e da via de orientação Axon. Olhando para trás na análise univariada (Tabela S1), vemos que PIK3CA foi encontrado para ser significativamente associada com HRAS, que pertence à via orientação Axon, e essa associação também foi encontrada por Pearson ou Spearman. Tais resultados indicam forte relação linear entre PIK3CA e HRAS (Figura 4). De igual modo, a associação encontrada por dCov, mas não por HHG, entre MSH2 e os Ras via de sinalização pode ser explicada pela associação significativa encontrada por Pearson ou Spearman entre MSH2 e rel gene, que pertence a esta via (S1 Tabela, e na Figura 4 ). Espera-se que as relações conhecidas entre genes descobertos por métodos laboratoriais (como co-IP) ou por análise bioinformática de dados de alto rendimento com base em métodos orientados monótonos linear clássico ou será fortemente inclinado para relações lineares ou monótonos.

gráficos de dispersão de PIK3CA contra HRAS (painel esquerdo) e MSH2 contra REL (painel da direita).

em conjunto, esses resultados fornecem uma prova de conceito para a capacidade de análise multivariada para revelar gene biologicamente relevante associações -pathway.

Discussão

neste trabalho realizamos uma nova abordagem para análise CNV todo genoma, com o objetivo de ser a identificação de associações entre a CNV de diferentes genes (CNV-CNV) em 60 linhas celulares de cancro humano. Nós usamos testes de associação modernas que podem detectar associações não-lineares e não-monótonas e aplicou-as em ambientes univariadas, na tentativa de identificar associações gene-gene. Nós também utilizado em ambientes multivariados, na tentativa de identificar associações de genes de função desconhecida com as vias relacionadas ao câncer estabelecidos.

Em conjunto, a nossa análise univariada demonstra que as associações entre CNV dos genes encontrados por HHG refletir verdadeiros processos biológicos . Isto sugere que a análise univariada por meio de testes estatísticos que têm como alvo apenas as associações lineares ou monótonos pode resultar em muitas descobertas biologicamente importantes remanescentes não revelada. Além disso, neste conjunto de dados, a superioridade do teste HHG sobre os outros ensaios capazes de detectar relações não monótona é óbvia.

Na configuração multivariada, a diferença entre os genes altamente associados (LLRC32 e SPI1) e os outros quatro genes associados é um exemplo de como a análise multivariada pode sugerir a posição de um gene dentro de uma via. Aplicado a um conjunto de dados maior e combinada com análise univariada, esta análise seria permitir o posicionamento ainda mais refinado de um gene dentro de uma via.

Seis genes não associar com qualquer um dos caminhos. Isso pode ser devido a várias razões; um deles é o número limitado de processos biológicos com os quais os genes de função desconhecida foram associados, como consequência de um número limitado de genes (99) com dados completos da CNV na base de dados utilizados para este estudo. Outra razão pode ser os dados biológicos limitados relatados em KEGG, no entanto esta situação está prevista para melhorar drasticamente no futuro próximo devido ao acúmulo contínuo de dados de estudos de biologia de sistemas.

Em caso de LRRC32 e SPI1 discutido acima, os resultados univariada e multivariada complementam-se que estes genes foram encontrados para ser associada com vias por a análise multivariada e para os membros específicos destas vias por análise univariada. No entanto, é importante notar que esta não é uma regra geral. Como um teste multivariada de independência identifica dependência entre dois vetores, enquanto um método univariado lacetes unicamente sobre pares de componentes e testes de dependência entre cada par de variáveis. Portanto, é possível obter uni testes não significativas, mas um teste multivariada significativa para o mesmo conjunto de dados. De fato, há uma possibilidade de nenhuma associação entre quaisquer dois genes individuais e ainda de uma associação multivariada com a via cheia. Isso pode ocorrer devido aos efeitos combinados das variáveis ​​no teste multivariada. Por exemplo, AFF2 foi encontrado para ser significativamente associada com a via de orientação axônio (p-valor ajustado = 0,022) por meio de análise multivariada, enquanto há associações significativas entre AFF2 e qualquer um dos genes que constituem o percurso de orientação axônio foram encontrados pela análise univariada. Este pode ser o resultado de associações fracas entre AFF2 e membros da via, ou, alternativamente, devido a uma forte associação com um membro do caminho que não foi incluído nos dados. Em qualquer caso, a análise multivariada de associação de genes da via descoberto não poderia ter sido deduzida com base nos resultados da análise univariada.

No caso oposto, dois genes, A e B, podem ser associados por meio de análise univariada, enquanto nenhuma associação entre o gene a e o gene da via B pertence é encontrada por análise multivariada. Por exemplo CLCN5 foi encontrado por análise univariada para ser associado com MET e BCL2, ambas pertencentes à via de adesão focal, o que não estava associado com CLCN5 por testes variados. A análise multivariada revelou, no entanto, as associações entre CLCN5 e de Orientação e RAS vias Axon (Fig 3). Ambas estas vias conter MET, o único membro do caminho encontrado para ser associado com CLCN5 pela análise univariada. Tais resultados são esperados uma vez que MET é um receptor da tirosina quinase, transdução de sinais a partir do lado de fora da célula, e, assim, é, no início de muitas vias, ao passo que a BCL2 é uma proteína de terminal em muitas vias. Isto significa que uma associação univariada com eles não é suficientemente forte para detectar uma associação via. A corroboração que CLCN5 CNVs estão associados com a via de orientação Axon vem da observação de que 65,9% dos cancros do sistema nervoso central têm uma perda de uma ou duas cópias do gene CLCN5 (cosmos, [30]).

Estes exemplos demonstram a vantagem possível de testes multivariados de independência em relação aos testes univariadas quando o objectivo é encontrar uma relação entre um gene e um grupo de genes, tal como um caminho, ou encontrar uma associação entre dois grupos de genes (por exemplo, duas vias). Em geral, a fim de obter uma imagem completa, testa a associação tipos deve ser aplicada.

O os testes HHG dCov e são testes de permutação, e o cálculo de muitos desses testes pode ser computacionalmente desafiador. testes univariados livre de distribuição de um sabor semelhante ao HHG foram recentemente introduzido em [37]. Estes testes podem ser alternativas úteis para o teste HHG quando um grande número de testes univariados são simultaneamente examinada

Em resumo, os nossos resultados indicam: (1). A análise multivariada é uma ferramenta muito útil para atribuir papéis biológicos de genes de função desconhecida; (2) A análise univariada omnibus, ou seja, por meio de testes que detectam todos os tipos de relacionamentos, poderia descobrir muitas novas associações importantes que não podem ser detectados pelos testes de associação monótona lineares e comuns; (3) O teste HHG superou todos os outros testes em encontrar associações univariadas; E o mais importante, (4) Usando uma combinação de análise multivariada e univariada associações testes podem revelar informações importantes sobre redes de genes e, no contexto atual, sobre os processos de condução de câncer.

Materiais e Métodos

Bases de dados CNV

dados

hibridação genómica comparativa (CGH) de um painel de 60 linhas celulares de cancro humano (NCI-60) foi obtido a partir de [12,38]. O CGH contém 349 clones. Após a exclusão de clones com valores e clones faltando com símbolos gene desconhecido, a análise foi realizada em um conjunto de 99 clones CGH, representando 99 genes. S5 tabela contém dados brutos aCGH do NCI-60.

A análise univariada

Análise de associação foi realizada nos 99 clones com base no seu número de cópias em cada uma das 60 linhas de células de NCI-60. Testamos todas as possíveis associações de pares entre os 99 clones, gerando 4851 pares. Foram utilizados os seguintes testes de independência: (i) teste com base no coeficiente de correlação de Pearson [39] (ii) teste com base no coeficiente de correlação Spearman [40] (iii) distância covariância (dCov) [16,17]; (Iv) o coeficiente de informação máxima (MIC) [18]; e (v) um teste com base em fileiras de distâncias (HHG) [19]. Para cada método, ajustado para comparações múltiplas de FDR de Benjamini e Hochberg [21], e um resultado do teste foi considerada significativa se o seu valor p ajustado foi menor ou igual a 0,05.

No seguinte nós fornecemos um resumo dos testes. Suponha que tenhamos

N

observações independentes (

X

i

,

Y

i

),

i

= 1, …,

N

, a partir da distribuição conjunta de (

X

,

Y

),

X

,

Y

R

e nosso objetivo é testar se existe uma relação entre o

X

e

Y

.

Eu. Pearson coeficiente de correlação.

A amostra Pearson coeficiente de correlação, denotado por

r

p

, é givenwhere e é definida de forma semelhante com base em

Y

1, …,

Y

N

. O valor de

r

p

é entre -1 e 1.

r

p

equivale a 1 ou -1 corresponde a pontos de dados que encontram-se exatamente sobre uma linha. Um valor de 0 significa que não existe uma correlação linear entre o

X

e

Y

. Se (

X

,

Y

) segue a distribuição normal bivariada, sob a hipótese nula de ausência de relação linear entre a

X

e

Y

(ie o coeficiente de correlação verdade é igual a 0), segue

t

distribuição de um estudante com

N viajantes – 2 graus de liberdade [39]. Este Student

t

distribuição também detém aproximadamente, se a distribuição de (

X

,

Y

) não é normal, mas o tamanho da amostra é grande o suficiente. Nós aplicamos este teste usando a cor.test função com o método de parâmetro = ‘Pearson’ no pacote

Estatísticas

de R (https://www.r-project.org).

II. Spearman coeficiente de correlação.

Spearman coeficiente de correlação, denotado por

r

s

, é definido de forma semelhante ao

r

p

mas em vez de usar os valores observados suas fileiras são utilizados [40]. Em caso de valores vinculados, uma classificação igual à média das suas posições na ordem crescente dos valores é atribuído. Um valor de 1 ou -1 para

r

s

corresponde ao caso em que

X

e

Y Quais são as funções monótonas perfeitos de cada um. Sob a hipótese nula de nenhuma relação monótona entre as variáveis ​​e grande tamanho da amostra, segue

t

distribuição de um estudante com

N viajantes – 2 graus de liberdade [40]. Nós aplicamos este teste usando a cor.test função com o método de parâmetro = “lanceiro” no pacote

Estatísticas

de R (https://www.r-project.org).

III. . O teste dCov

O ensaio de distância covariância [16,17] usa todas as distâncias euclidianas pares

a

ij

= |

X

Deixe uma resposta