PLOS ONE: construção de um modelo estatístico para prever o cancro Genes

Sumário

Mais de 400 genes de câncer foram identificados no genoma humano. A lista ainda não está completa. Os modelos estatísticos prevendo genes do cancro podem ajudar com a identificação de candidatos do gene do cancro novos. Utilizou-se o câncer de próstata conhecido (PCA) genes (identificados através KnowledgeNet) como um conjunto de treinamento para construir um modelo de regressão logística binária identificar genes APC. validação interna e externa do modelo foi conduzida usando um conjunto de validação (também de KnowledgeNet), permutações e dados externos em genes com mutações de tumor da próstata recorrentes. Nós avaliamos um conjunto de 33 características genéticas como preditores. Dezesseis dos 33 preditores originais foram significativas no modelo. Descobrimos que um gene típico PCA é um factor de transcrição específico da próstata, quinase ou fosfatase com elevada variância interindividual do nível de expressão no tecido da próstata normal adjacente e de expressão diferencial entre o tecido da próstata normal e de tumor primário. CaP genes são susceptíveis de ter um efeito anti-apoptótico e a desempenhar um papel na proliferação celular, angiogénese, e a adesão de células. As proteínas são susceptíveis de ser ubiquitinadas ou sumoylated mas não acetilada. Um certo número de novos candidatos CaP têm sido propostos. anotações funcionais de novos candidatos identificados antiapoptose, regulação da proliferação celular, regulação positiva da actividade de quinase, a regulação positiva de actividade de transferase, a angiogénese, a regulação positiva de divisão celular, e a adesão celular como as principais funções. Nós fornecemos a lista do top 200 previu genes APC, que podem ser usados ​​como candidatos para a validação experimental. O modelo pode ser modificado para prever genes para outros locais de câncer

Citation:. Gorlov IP, Logothetis CJ, Fang S, Gorlova OY, Amos C (2012) Construindo um modelo estatístico para prever genes do cancro. PLoS ONE 7 (11): e49175. doi: 10.1371 /journal.pone.0049175

editor: Ludmila Prokunina-Olsson, do National Cancer Institute, National Institutes of Health, dos Estados Unidos da América

Recebido: 03 de agosto de 2012; Aceito: 09 de outubro de 2012; Publicado: November 15, 2012 |

Direitos de autor: © 2012 Gorlov et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo foi apoiado em parte pela David H. Koch Centro de Pesquisa Aplicada de cancros genito-urinário, os Institutos Nacionais de Saúde da próstata CA140388-01 concessão SPORE, e os Institutos Nacionais de Saúde Cancer Support Center Grant 5 P30 CA016672. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

Um censo de genes cancerosas humanas conduzidas pelo Futreal

et al.

[1] e atualizado por Santarious

et al

. [2] para identificar 400 genes relacionados com o cancro. É óbvio que esta lista de genes relacionados com o cancro não está completa: uma pesquisa PubMed da literatura realizada em junho de 2011 usando o termo “gene do cancro da novela” no título identificou mais de 100 artigos publicados em 2011 (dados não mostrados).

o desenvolvimento de um modelo preditivo para genes do câncer poderia acelerar a sua identificação. Neste estudo, foi desenvolvido um modelo estatístico para predição de câncer de próstata genes (PCA). Nosso estudo foi motivado pelo seguinte: i) um certo número de genes relacionados com o APC com a evidência experimental forte foram identificados, ii) muitos genes no genoma humano são amplamente comentada, e iii) análise ao nível do genoma de dados gene-expressão é disponível [3], [4]. Neste estudo, identificamos traços que são característicos de genes CaP conhecidos e usou-os para prever novos genes APC.

Materiais e Métodos

Genes CaP conhecidos

Nós utilizaram o KnowledgeNet (KN; uma literatura de mineração de algoritmo) abordagem para identificar genes CaP [5]. As pesquisas algoritmo KN para uma associação entre o gene e ambos os termos primário e secundário (

i.,

Relacionada). Como resultado, cada gene recebe uma pontuação de confiança (CS): quanto maior a CS, mais forte é a associação do gene com um fenótipo especificado; no nosso caso, o PCA. Foram identificados um total de 707 genes com a CSS variando 2,663-0,001 (Tabela S1) e usado o top 100 genes como “genes CaP conhecidos.” Os outros 607 genes da lista foram considerados “genes CaP putativos.” Os restantes 14,641 genes com um CS . 0.001 foram considerados “. genes não-APC” foram excluídos os 607 genes CaP putativos para criar um resultado binário bem definida para a nossa análise

Porque o nosso termo de pesquisa inicial para identificar genes ACP foi ” cancro da próstata “, o algoritmo procura os genes associados a quaisquer aspectos da carcinogênese da próstata, incluindo a iniciação, progressão, recorrência e sobrevivência. Em outras palavras, foi utilizada uma definição ampla de genes APC. Claro, uma busca pode ser mais específico,

por exemplo

. “Recorrência do câncer de próstata”, e este é esperado para produzir um conjunto de treinamento que será diferente a partir da lista que usamos.

modelo e variáveis ​​

Um modelo binário de regressão logística (BLR) foi usado para discriminar entre o “CaP conhecido” e os genes “não-APC”. Cada gene foi descrito por 33 variáveis ​​(Tabela 1). As variáveis ​​foram seleccionados com base em provas publicadas por nós e outros que as variáveis ​​individuais estão associados com CaP [6] – [11]. Uma descrição detalhada das variáveis ​​pode ser encontrada na informação S1. Nós subclassificado as variáveis ​​em duas categorias: tecido prostático específicos e inespecíficos. variáveis ​​de tecidos específicos incluídos dados de expressão de genes em tecidos normais e tumorais da próstata. variáveis ​​específicas de não-tecidos foram os que podem ser aplicadas a qualquer tipo de tecido,

por exemplo,

“factor de crescimento”, “” variáveis ​​fosforilada.

Porque o nosso modelo de regressão foi naturalmente desequilibrada, com muitos genes “não-APC” e muito poucos genes APC, não poderíamos usar um limiar de 0,5 para decidir se o gene era um APC ou gene “non-PCA”. O limiar de classificação (0,05) foi escolhida para assegurar que pelo menos 95% dos genes não-PCA foram preditos correctamente, e uma vez que reflecte a proporção de genes que foram identificados como o cancro da próstata (707) relacionado com o número total de genes estudados em a fase de treinamento (14.641). Esta taxa relativamente elevada de classificação correcta de genes “não-APC” foi seleccionado para reduzir o risco de experimental seguimento de falsos positivos, o que pode ser caro.

No total, utilizou-se 15,348 genes. dados de expressão de gene eram um factor limitativo da inclusão de cada gene na análise. Utilizou-se o conjunto de dados publicamente disponíveis GSE6919 [12], [13] e GSE21034 [13] a partir do Gene Expression Omnibus (GEO) [3], [4] e utilizado AMIGO

2 [14] para identificar os genes associados com função específica biológica, localização celular, e modificações pós-translacionais. O número de ortólogos humanos relatadas na base de dados HomoloGene (https://www.ncbi.nlm.nih.gov/HomoloGene) foi usada como o índice de conservação evolutiva [15], [16].

Validação de modelo

Para validar o modelo, nós subclassificado primeira aleatoriamente os 200 genes com maior CS na descoberta e validação conjuntos. Em seguida, construímos o modelo BLR usando apenas o conjunto de descoberta e é usado para prever genes APC no conjunto de validação. Para a validação interna adicional, nós construímos o modelo BLR usando os 100 genes, excluindo os genes CaP putativos, e depois aplicado o modelo para calcular a probabilidade de os genes CaP putativos. Esperava-se que a probabilidade de ser classificado como um gene APC irá ser maior para os genes putativos do que seria para os genes não-APC. Além disso, foram realizados testes de permutação, atribuindo aleatoriamente estado do gene CaP. Nós construímos um modelo BLR para os genes da “zombaria” CaP usando o mesmo conjunto de variáveis ​​que usamos para os genes “reais” PCA (

i

., Aqueles identificados com KN). Realizamos este procedimento 100 vezes e calcula a porcentagem da previu corretamente genes APC.

Para validação externa, verificamos para ver se a probabilidade derivado do modelo de estar de um gene relacionado CaP foi maior para os genes para os quais recorrente mutações somáticas em amostras de tumores de próstata são relatados no Catálogo de somáticas mutações em Câncer (COSMIC) do banco de dados [17], [18]. Nós também usamos os genes identificados como tendo mutações somáticas recorrentes nos resultados do estudo recentemente publicados de sequenciamento de todo o exome de amostras de tumores de próstata [19]. Note, entretanto, que nós não utilizar dados de mutação somática para construir nosso modelo.

É o Prevendo Modelo específico da próstata?

Para responder a esta pergunta, nós identificamos o top 100 de mama e top 100 genes do cancro de pulmão (Tabela S2) usando o mesmo algoritmo KN foi utilizado para identificar os genes APC. Em seguida, comparamos as porcentagens de genes da mama e cancro do pulmão corretamente previstas com a percentagem de previu corretamente genes APC.

Nós construímos modelos BLR com base apenas específicos ( “modelo específico”) e não específica ( “modelo inespecífica “) preditores. Em seguida, estimamos as porcentagens de genes corretamente preditos não-PCA e PCA para cada modelo. A análise estatística foi realizada usando SPSS versão 15.0.

Resultados

Previsto Genes CaP

Entre as 33 variáveis, 22 foram significativas na análise univariável (Tabela S3), enquanto que no o modelo BLR multivariada stepwise-forward (taxa de probabilidade), 16 variáveis ​​foram significativas (Tabela 2). O modelo previu correctamente 96% dos genes não-PCA e 55% dos genes APC e foi mais preciso do que o modelo construído sobre os dados que incluía os genes putativos CaP como genes não-APC, em que 96% de não-PCA genes e 46% dos genes CaP foram previstas corretamente.

Tabela S4 lista o top 200 previu genes APC e indica se eles eram conhecidos, putativo, ou novos previu genes. Classificando os genes de acordo com as probabilidades derivadas do modelo reformulou a lista original baseado no CS:

AR

(receptor andrógeno) foi sétimo classificado, não em primeiro lugar, como na lista original, e

KLK3

(antígeno específico da próstata [PSA]) foi o quarto, embora tenha sido o segundo na lista original. No geral, a correlação entre a CS ea probabilidade derivado do modelo de ser CaP relacionado foi de 0,32, df = 200;

p

= 2 × 10

-6. Tabela S5 mostra variáveis ​​individuais que contribuem para a probabilidade de que o gene está associada com PCA.

Genes putativos CaP têm uma maior probabilidade de serem classificados como CaP relacionados

genes putativos CaP são esperados para ter um maior probabilidade de ser CaP relacionados do que genes não-PCA tem. Nós usamos o nosso modelo com base nos dados sem os genes putativos para estimar a probabilidade de que um gene putativo é CaP relacionadas, comparando as proporções dos genes previstos para serem CaP relacionado entre os genes conhecidos, putativos, e não-APC. As proporções dos genes previsto para ser CaP relacionados foram 0,052 ± 0,002 para os genes não-PCA, 0,224 ± 0,017 para os genes CaP putativos, e 0,547 ± 0,049 para os genes CaP conhecidos. Como observado anteriormente, nós também construído um modelo que incluiu os genes CaP putativos como genes não-APC. Em geral, a precisão de previsão foi mais baixa com este modelo, com as proporções dos genes previsto para ser CaP associado sendo 0,037 ± 0,002 para os genes não-PCA, 0,217 ± 0,016 para os genes CaP putativos, e 0,455 ± 0,049 para o PCA conhecidos genes.

é a previsão CaP específicas?

Para saber se o nosso modelo preditivo é CaP específica, identificamos as 100 melhores da mama e cancro do pulmão genes utilizando a abordagem baseada em KN (Tabela S2 ). No geral, a proporção dos genes do cancro preditos correctamente era maior para próstata (0,55 ± 0,03) do que para o peito (0,37 ± 0,02) e cancros do pulmão (0,31 ± 0,02). Para o modelo construído com base em preditores inespecíficos única, a precisão foi melhor para os genes CaP (0,55 ± 0,02) do que foi para o peito (0,24 ± 0,02) e cancro do pulmão (0,21 ± 0,02) genes. E para o modelo baseado em indicadores específicos, a eficiência prevendo também foi maior para próstata (0,30 ± 0,02) do que foi para mama (0,08 ± 0,01) e cancro do pulmão (0,08 ± 0,01) genes.

Descoberta e Conjuntos de validação

Para a validação interna, distribuídos aleatoriamente os 200 genes relacionados-PCA à descoberta e validação define assim havia 100 genes em cada grupo. Nós, então, construiu o modelo BLR na base do conjunto de descoberta e é usado para prever genes CaP do conjunto de validação. O modelo previu descoberta correctamente 95% dos genes não-PCA e 43 ± 5% dos genes APC; previu proporções semelhantes no conjunto de validação: 96% dos genes não-PCA e 38 ± 5% dos genes APC. Realizamos este procedimento 100 vezes.

Permutations

Nós aleatoriamente designados status de CaP de 100 genes dos 15,348 genes na tabela original e construiu um modelo de predição para esses genes “zombaria” usando o mesmo 33 variáveis ​​(Tabela 1). O procedimento foi realizado de 100 vezes. Houve uma média de 0-2 variáveis ​​significativas no modelo gene simulada, e essas variáveis ​​variaram de modelo para modelo. Em média, 0,7 ± 0,2% de genes CaP simulados foram previstas corretamente, o que é significativamente (

p Art 10

-6) inferior à percentagem da previu corretamente “verdadeiros” genes PCA ( 55 ± 5%).

validação externa

Para validação externa, foram utilizados os resultados do relatório recentemente publicado sobre mutações somáticas recorrentes em tumores de próstata [19]. Esse estudo identificou 20 genes-

BDH1, DKK1, DLK2, FSIP2, GLI1, IKZF4, KDM4B, MGAT4B, NMI, NRCAM, PCDH11X, PDZRN3, PLA2G16, RAB32, SDF4, SF3A1, TBX20, TFG, TP53,

e

ZNF473-

que têm mutações somáticas recorrentes. Dezessete desses genes (todos exceto

BDH1, FSIP2

, e

PLAG16

) foram na nossa lista original de 15,348 genes. Nós descobrimos que a probabilidade gerado pelo modelo de ser um gene ACP foi mais de dez vezes maior para os genes com mutações somáticas recorrentes do que foi para todos os outros genes: 0,082 ± 0,041

vs

0,007 ± 0,001;. df = 15.348,

t

= 5,4,

p Art 10

-6 (Figura 1). Os outros preditores significativos foram factores de transcrição, o CS usado para classificar os genes de CaP de mineração literatura, a proliferação celular, fosfatases, factores de crescimento, e a angiogénese. Obtivemos resultados semelhantes para os genes com o APC mutações somáticas relatados a partir da base de dados COSMIC [18]. A probabilidade derivado do modelo de ser um gene ACP foi o preditor mais significativo de genes com mutações somáticas recorrentes em tumores da próstata. Outros preditores significativos incluídos CS, quinases, anti-apoptótica, proliferação celular, acetilado, membrana plasmática, e angiogênese.

linha vertical representa um limite para significância estatística.

Specific vs. inespecíficas Preditores

Nós construímos um modelo com base em apenas específico (oito variáveis) e apenas (25 variáveis) preditores inespecíficos. No modelo não específica, 11 variáveis ​​foram significativas (em ordem decrescente de significância estatística): quinases, fosfatases, espaço extracelular, factores de transcrição, anti-apoptóticos, transdução de sinal, factores de crescimento, a proliferação celular, sumoylated, adesão celular, e angiogénese. O modelo previu correctamente não específica de 95% de não-PCA e 40% de genes APC; que, com base em variáveis ​​específicas previu corretamente 95,5% dos não-PCA e 30,2% dos genes APC. Havia quatro preditores significativos em que o modelo (em ordem de significância estatística diminuindo.): Expressão específico da próstata (pontuação enriquecimento), variância no tecido adjacente, meta-análise da expressão do gene, e três de nível meta-análise

Discussão

Nós identificamos uma combinação de traços que é característica de genes PCA: um gene típico PCA é um fator específico da próstata transcrição, quinase ou fosfatase com alta variação interindividual no tecido da próstata normal adjacente e é expresso de forma diferente (upregulated ou regulados negativamente) no tecido da próstata normal e de tumor primário. CaP genes são susceptíveis de ter um efeito anti-apoptótico e desempenhar um papel na proliferação celular, angiogénese, e a adesão de células. Seus produtos são susceptíveis de ser ubiquitinada ou sumoylated mas não acetilado. Eles são susceptíveis de ser envolvido na transdução de sinal e ser um componente de espaço extracelular. Algumas das características dos genes identificados (CaP

por exemplo, a proliferação de células

ou angiogénese) são evidentes, enquanto que outros (

por exemplo

., Especificidade para o tecido, maior variância da expressão do gene em próstata normal adjacente tecido ou ubiquitination) não são tão aparentes. Porque vários fatores estão envolvidos na nomeação de um gene a ser cancro da próstata relacionado, diferentes genes mostram efeitos de diferentes fatores preditores. Os preditores são indicados na Tabela S5.

O nosso modelo também permite a classificação dos genes que são, de acordo com a evidência gerada pelo modelo, o PCA relacionados e, portanto, previsão de novos genes APC. Uma breve descrição dos dez melhores novela previu genes CaP segue

UPK3A-

uroplakin. 3A; um membro da família uroplakin, um grupo de proteínas transmembranares que formam complexos sobre a superfície apical do epitélio da bexiga. Mutações em

UPK3A

estão associados com adysplasia renal [20].

KITLG-

codifica o ligando do receptor de tirosina-quinase. O gene Acredita-se que desempenham um papel na migração celular [21].

NPY-

amplamente expressos no sistema nervoso central e influências muitos processos fisiológicos, incluindo a excitabilidade cortical, resposta ao stress, alimentos ingestão, ritmos circadianos, e função cardiovascular.

GHR-

um membro do tipo I citocina família de receptores.

SCGB1A-

um membro da a família de proteínas segregadas secretoglobin pequenas. A proteína codificada tem sido implicado em numerosas funções, incluindo anti-inflamatório, a inibição da fosfolipase A2, e sequestro dos ligandos hidrofóbicos.

NR3C1-

codifica o receptor de glucocorticóides, que pode funcionar tanto como um fator de transcrição e um regulador de outros fatores de transcrição.

JUP-

codifica uma proteína que é um elemento estrutural de placas submembranas de desmossomos. Ele forma complexos com cadherins.

NPM1-

codifica uma fosfoproteína que se move entre o núcleo eo citoplasma. O produto do gene é pensado para ser envolvido em vários processos, incluindo a regulação da via /p53 ARF.

CD177-

NB1, uma glicosil-fosfatidilinositol-linked

N

-glycosylated glicoproteína de superfície celular, foi descrita pela primeira vez em um caso de neutropenia aloimune neonatal [22].

FAM55D-

cromossoma 11 grelha de leitura aberta 33. Pouco se sabe sobre este gene, mas é regulada negativamente no tumor de próstata.

Realizamos anotação funcional de novos genes CaP usando todas 15,348 genes como pano de fundo para explicar possível viés de seleção. Para a anotação funcional, foi utilizado o banco de dados para anotação, visualização e descoberta integrada (DAVID) [23]. As funções biológicas superiores associados com os novos genes de PCA foi antiapoptose, regulação da proliferação celular, regulação positiva da actividade de quinase, a regulação positiva de actividade de transferase, a angiogénese, a regulação positiva de divisão celular, a adesão celular, MAPKKK cascata, o desenvolvimento do osso, e a regulação de localização celular. (Informações mais detalhadas podem ser encontradas na informações de apoio.) Existe uma considerável sobreposição entre a descrição do romance conhecidos e previsíveis funções genes APC »: antiapoptose, regulação da proliferação celular, a regulação positiva da actividade da quinase, a regulação positiva da actividade de transferase, e MAPKKK cascata estão presentes em ambas as listas. A única função única associada aos novos genes CaP previsto foi o desenvolvimento dos ossos em dez genes:

GHR, AMELX, TRAF6, FGF9, Smad1, CTGF, IGF2, AMBN, FGF18,

e

PTN

.

os resultados da validação interna demonstrado que os genes relacionados-PCA não são uma coleção aleatória de genes, mas sim compartilhar uma combinação de várias características. Eles também demonstram que é improvável que overfit o modelo. A validação externa demonstrado que a probabilidade gerado pelo modelo de ser um gene de PCA é o indicador mais importante dos candidatos CaP identificados através da análise de mutações somáticas recorrentes. Por outro lado, a presença de mutações somáticas nas amostras de tumor podem ser um dos factores que aumentam o CS e, por conseguinte, contribuem para a maior oportunidade de ser classificado como um gene conhecido CaP. Com efeito, o CS foi o terceiro indicador mais importante dos genes com mutações somáticas recorrentes. No entanto, foi menor do que o

t

estatística para a probabilidade gerado pelo modelo de ser um gene PCA:. 5.5

vs

3.4. A proporção dos genes com mutações somáticas COSMIC foi maior entre os genes CaP putativos: χ

2 = 22,8, df = 1,

p Art 0,0001. A proporção foi limítrofe maior para os novos genes CaP previstos: χ

2 = 3,8, df = 1,

p

= 0,05. Nós também descobrimos que a probabilidade derivado do modelo de média dos 112 genes publicados com uma assinatura de selecção positiva [24] foi maior do que a de um gene de média no genoma humano: Student

t

teste = 2,0, df = 30.495,

p

= 0,04. A sobreposição é modesto, mas significativo, especialmente se levarmos em conta que a lista publicada dos genes do cancro foi gerado para qualquer tipo de câncer, enquanto em nosso estudo que incidiu sobre CaP somente.

Nós demonstramos que tanto específicas e preditores inespecíficos são importantes: modelos baseados em apenas específicos, ou apenas preditores inespecíficos são menos eficientes do que o modelo construído sobre a combinação dos traços. O modelo específico à base de preditor é mais específico da próstata do que é o modelo baseado em preditores inespecíficos.

Obviamente, a estrutura do modelo de previsão depende muito do conjunto de treinamento. Nós usamos uma definição ampla de APC com os seguintes termos secundários: células cancerosas da próstata, o risco de câncer de próstata, Gleason, andrógeno-independente, neoplasias prostáticas, pontuação de Gleason, prostatectomia, próstata metastático, câncer de próstata humana, prostatectomia radical, próstata independente de androgénios, próstata avançado, antigénio específico da próstata, próstata primário, benigna da próstata, tumores da próstata, específico da próstata, a carcinogénese da próstata, e prostática benigna. Embora na sua forma actual, o modelo é concebido para detectar amplamente definida genes APC, que pode ser ajustada para ser mais específico; Por exemplo, para prever genes CaP de progressão. O elemento crucial aqui é para definir um conjunto de treinamento confiável para genes associados com CaP progressão do câncer.

O modelo BLR é um dos muitos algoritmos de classificação disponíveis. Para ver se outros métodos de classificação pode produzir resultados semelhantes, nós também analisamos nossos dados usando análise discriminante linear (LDA) e máquinas de vetor de suporte (SVM). Descobrimos que LDA e BLR têm eficácias de classificação bastante semelhante: 51% e 55% corretamente classificados genes APC com 95% e 96% dos genes não-PCA corretamente classificados, essencialmente com o mesmo conjunto de preditores significativos no modelo. A validação também foi um pouco melhor para o modelo BLR, com 18% dos genes CaP putativos previstos para ser genes APC, em comparação com 22% para o modelo LDA. Comparado com o BLR, o SVM foi mais eficiente no conjunto de descoberta, prever correctamente 84% dos genes conhecidos CaP e 95% dos genes não-APC; no entanto, na validação, ele previu corretamente apenas 34% dos genes APC, enquanto que o modelo BLR previu corretamente 46% dos genes APC da descoberta e de 44% no conjunto de validação. Por causa de que uma melhor eficiência de validação, nós nos concentramos em modelo BLR.

O próximo passo lógico seria a validação experimental dos novos candidatos CaP identificadas pelo modelo. Pensamos que uma das melhores maneiras de fazer isso seria com uma plataforma de rastreio de alto rendimento. Por exemplo, pode-se usar high-throughput screening RNAi de linhas de células APC. Depois de silenciamento de um gene candidato por ARNi, pode-se estimar o efeito do gene sobre a proliferação celular, migração, e a apoptose. Genes com um forte efeito sobre estes fenótipos associados ao cancro pode ser ainda analisada em tecido humano para confirmar o seu papel na tumorigénese da próstata.

Em conclusão, nós desenvolvemos um modelo BLR à base de bioinformática para a previsão dos genes associados com PCA. O modelo permite escalão genes humanos de acordo com sua probabilidade de ser CaP associado. Nós identificamos um número de novos candidatos APC com altas probabilidades de serem CaP relacionados, e os candidatos podem merecer a validação ainda experimental. A abordagem que utilizado também pode ser aplicado a outros tipos de genes e outros tipos de cancro; estamos actualmente a trabalhar no modelo de predição de genes de câncer de pulmão.

Informações de Apoio

Tabela S1. Tours A 707 genes com CS variando 2,663-0,001; utilizou-se o top 100 desses genes como

doi “genes CaP conhecidos.”: 10.1371 /journal.pone.0049175.s001

(XLSX)

Tabela S2.

Os melhores genes 100 de cancro da mama e cancro do pulmão 100 identificados usando a abordagem KnowledgeNet

doi:. 10.1371 /journal.pone.0049175.s002

(DOCX)

Tabela S3.

análise univariada identificou 22 das 33 variáveis ​​originais originais como preditores significativos de genes CaP

doi:. 10.1371 /journal.pone.0049175.s003

(DOCX)

Tabela S4.

Ranking das 200 melhores genes de probabilidade gerado pelo modelo de ser CaP relacionados. P, o gene putativo CaP; K, CaP gene conhecido; NP, romance previu gene CaP

doi:. 10.1371 /journal.pone.0049175.s004

(DOCX)

Tabela S5.

individuais que contribuem variáveis ​​no romance previu genes APC. variáveis ​​realçadas contribuir para uma elevada probabilidade de que um gene seja associado CaP. Para variáveis ​​binárias, contribuições positivas têm o valor de 1; para variáveis ​​contínuas, preditores ter um valor maior do que m + σ, onde m é uma média e σ é um desvio padrão

doi:. 10.1371 /journal.pone.0049175.s005

(XLS)

Informação S1.

descrição das variáveis ​​utilizados para construir o modelo de previsão. As variáveis ​​são listados na ordem em que são apresentados na Tabela 1.

doi: 10.1371 /journal.pone.0049175.s006

(DOCX)

Deixe uma resposta