PLOS ONE: Identificação de Relações Lógica entre genes e subtipos de Non-Small Cell Lung Cancer

Sumário

câncer de pulmão de células não pequenas (NSCLC) tem dois subtipos principais: adenocarcinoma (AC) e de carcinoma de células escamosas (SCC). O diagnóstico e tratamento do NSCLC são prejudicadas pelo conhecimento limitado sobre os mecanismos de patogénese de subtipos de NSCLC. É necessário pesquisar os mecanismos moleculares relacionados com AC e SCC. Neste trabalho, nós melhoramos o algoritmo de análise lógica para minar as condições suficientes e necessárias para os estados de presença (presença ou ausência) de fenótipos. Nós aplicamos o nosso método para espécimes AC e SCC, e identificou inferiores e superiores relações lógicas entre os genes e dois subtipos de NSCLC. As relações descobertas eram independentes de espécimes selecionados e seu significado foi validada pelo teste estatístico. Em comparação com os dois métodos anteriores (o método de fatoração de matriz não-negativo e o método de análise de relevância), o método atual superou esses métodos na precisão taxa de recuperação e classificação em NSCLC e amostras normais. Obtivemos biomarcadores. Entre biomarcadores, genes têm sido usadas para distinguir CA da SCC na prática, e outros seis genes foram biomarcadores recentemente descoberto para distinguir subtipos. Além disso,

NKX2-1

tem sido considerada como um alvo molecular para a terapia específica de AC, e outros genes podem ser novos alvos moleculares. Pela análise ontologia gene, descobrimos que dois processos biológicos ( ‘desenvolvimento epiderme »e« adesão celular’) estavam intimamente relacionadas com a tumorigênese dos subtipos de NSCLC. De modo mais geral, o método actual pode ser estendido a outras doenças complexas para distinguir subtipos e detectar os alvos moleculares para terapia direcionada

Citation:. Su Y, Pan L (2014) Identificação das Relações Lógica entre genes e subtipos de non-Small Cell Lung Cancer. PLoS ONE 9 (4): e94644. doi: 10.1371 /journal.pone.0094644

editor: Yan Zhang, Harbin Medical University, China

Recebido: 20 de novembro de 2013; Aceito: 18 de março de 2014; Publicação: 17 de abril de 2014

Direitos de autor: © 2014 Su, Pan. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Os autores ‘trabalho é apoiado pela National Science Foundation Natural da China (Grant Nos. 61100145, 61033003 e 91130034). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o cancro do pulmão é a principal causa de mortes relacionadas ao câncer em todo o mundo [1]. Foi dividido em duas classes pela Organização Mundial de Saúde (OMS): cancro do pulmão de células não pequenas (NSCLC) e cancro do pulmão de pequenas células (SCLC) [2]. NSCLC, que tem dois subtipos principais: adenocarcinoma (AC) e carcinoma de células escamosas (SCC), é responsável por mais de metade de todos os casos de câncer de pulmão [2]. No entanto, menos de de pacientes com NSCLC sobreviver além de cinco anos [3]. A eficácia limitada do diagnóstico e tratamento do NSCLC é causada principalmente pela dificuldade de distinguir os subtipos e limitado conhecimento sobre os mecanismos de patogénese de subtipos de NSCLC.

NSCLC é uma doença do sistema, ea diferença de AC e SCC pode ser refletida no nível celular e molecular. métodos tradicionais baseiam-se na morfologia da célula visual (por exemplo, tamanho do tumor e as características histológicas) para distinguir subtipos, os quais são baseados no nível celular [4] – [6]. Tem sido proposto que os métodos tradicionais podiam distinguir eficazmente a partir de SCLC NSCLC por causa da clara distinção entre a morfologia das células SCLC e que de células NSCLC [7]. No entanto, a diferença morfológica entre os subtipos de NSCLC permanece incerto [8]. Vários dados nível molecular (ARNm, e microARN dados metilação) entre NSCLC e normal foram usadas para análise de disfunções do NSCLC [9]. Sugeriu-se que a capacidade de discriminação de genes obtidos por dados de mRNA foi significativa maior do que os de dados de microRNA e metilação. Portanto, é razoável para recuperar genes valiosos e processos biológicos que têm grande capacidade de discriminar entre AC e SCC no nível de ARNm.

Um agente terapêutico alvo é concebido para interferir com um alvo molecular específico, que desempenha um papel crucial para o crescimento tumoral e progressão [10]. Por exemplo,, o qual é um agente terapêutico alvo para a terapia específica de NSCLC, é um anticorpo monoclonal para

VEGF. O gene

VEGF

é crucial porque é maior expresso no cancro do pulmão do que no pulmão normal [11]. Assim, as moléculas que desempenham papéis distintos entre o cancro e normal pode ser importante para a selecção de agentes terapêuticos. Apesar de terapia-alvo mostra benefícios clínicos, agentes direcionados não tiver habilitado terapias direcionadas para alterar o resultado clínico dramaticamente. Além disso, esquemas terapêuticos visados ​​existentes podem ser adequados para o prognóstico de um subtipo particular do NSCLC. Por exemplo, apenas os pacientes com não-SCC são melhores para usar [12]. Portanto, é necessário para pesquisar os mecanismos moleculares que estão relacionados com os subtipos de NSCLC, para desenvolver métodos eficazes para distinguir CA da SCC e novos agentes terapêuticos especiais para os subtipos de NSCLC.

Os padrões de várias expressão genes são encontrados para ser especial para os subtipos de doenças. Por exemplo, o gene da

NKX2-1

é expresso no pulmão CA [13]. O knockdown de

NKX2-1

inibição do crescimento resultados em células de pulmão AC. Portanto, a presença de pulmão CA depende da expressão de

NKX2-1

[14]. Outro exemplo é envolvido na pesquisa de câncer de esôfago, a combinação dos genes

GATA6

e

SPRR3

pode discriminar entre epitélio normal, displasia de Barrett e esôfago de Barrett associado AC [15]. existem algumas relações especiais entre o par de genes (

GATA6

e

SPRR3

) e os fenótipos de câncer de esôfago. Tais exemplos sugerem a existência de relações entre genes e os subtipos de doenças

Os métodos que identificam indiretamente relações gene-fenótipo pode ser dividido em três etapas comuns:. Construir um gene-gene (ou proteína-proteína) rede e uma rede fenótipo-fenótipo, reunindo dados de interação de várias bases de dados; ligar a rede de genes para o gene (ou proteína-proteína) com a rede fenótipo-fenótipo; utilizar um algoritmo (por exemplo, passeio aleatório com a reinicialização no algoritmo de rede heterogénea) para inferir relações gene-fenótipo pares [16], [17]. No entanto, o ruído da integração de dados limita a eficácia da detecção de relações gene-fenótipo.

Muitos métodos têm sido desenvolvidos para associar directamente moléculas individuais para fenótipos. O método de fatoração de matriz não negativo (NMF) é um algoritmo de redução de dimensionalidade para obter um conjunto de Metagenes e coeficientes associados [18]. Cada fenótipo corresponde a uma METAGENE. O coeficiente de um gene numa METAGENE representa a proximidade da relação entre o gene e o fenótipo correspondente ao METAGENE. Este método requer a filtrar vários dados para garantir a condição não-negativa, o que pode perda alguma informação útil. Os coeficientes de correlação foram usados ​​para medir associações genótipo-fenótipo entre proteínas individuais em um micróbio e fenótipos do micróbio [19]. Slonim et ai. utilizado o método de análise de relevância (RA) para inferir relações gene-fenótipo através da estimativa de informação mútua [20]. No entanto, os traços fenotípicos muitas vezes não são influenciados por um único gene, mas por combinações de genes. Associação mineração de regras (ARM) é uma técnica de mineração de dados para extrair regras se-então com a forma geral [21]. Bowers et ai. projetou o método de análise lógica para obter if-then regras de um item ou uma combinação de itens para outra. Estudos anteriores têm sido feitos para inferir relações lógicas entre os genes ou proteínas utilizando a análise lógica de pares e triplete em dados de expressão ou perfis filogenéticos [22]. No entanto, if-then regras não podem ter muitos casos biológicos, a menos que a relação inversa mantém bem [23].

Neste artigo, vamos melhorar o método de análise lógica para minar as condições necessárias e suficientes para os estados de presença (presença ou ausência) de fenótipos [22]. O actual método leva em consideração tanto um único gene e um par de genes que podem influenciar fenótipos. Nós aplicamos o método para inferir relações gene do subtipo com base em espécimes AC e SCC. Sugere-se que os padrões de expressão (expressão ou sem expressão) dos genes identificados são condições necessárias e suficientes para os estados de presença de CA ou SCC. A eficácia do método é demonstrada na corrente NSCLC e amostras normais. Nossos resultados mostram que o método atual supera os dois métodos existentes (o método NMF eo método RA) na taxa de recall e precisão da classificação. Este trabalho poderá ajudar a encontrar os biomarcadores para distinguir os subtipos de doenças e design inovador alvo agentes terapêuticos para doenças, bem como revelar os processos biológicos que estão estreitamente relacionadas com as doenças.

Resultados

Nós aplicamos o nosso método para identificar relações entre genes e dois grandes subtipos de NSCLC (AC e SCC). Além disso, a comparação do desempenho do nosso método com os dos dois métodos anteriores (o método NMF eo método RA) foi feito comparando duas medidas (a taxa de recall e precisão da classificação) sobre os dados de GSE18842 que contém um número semelhante de NSCLC e espécimes normais. Os biomarcadores, bem como processos biológicos que foram intimamente relacionados com os subtipos de NSCLC pode ser obtido a partir de várias relações entre genes e interessantes subtipos de NSCLC.

Identificação do gene-subtipo inferior e superior lógicos relações

Dado que o número de espécimes de corrente alternada () era muito maior do que a de espécimes de SCC () (Tabela 1), foram selecionados ao acaso a número fixo (iE) de amostras AC para garantir o número semelhante de amostras para diferentes fenótipos. Nós exigido as colunas de dados binários de sondas, bem como os dados de perfil de fenótipo, que correspondem às amostras AC seleccionados e todos os espécimes SCC. Os novos dados da sonda binários e os dados do perfil fenótipo foram formados pelas colunas exigido de dados binários de sonda e os dados do perfil fenótipo, manter as posições relativas de colunas. Os novos dados da sonda binários tinha tamanho, onde as primeiras colunas correspondeu espécimes AC, e as últimas colunas refered espécimes SCC. Os novos dados de perfil fenótipo tinha tamanho, onde a primeira fileira representada AC eo segundo representado SCC. Por conveniência, nós definimos o primeiro e segunda fila dos novos dados de perfil fenótipo como dados de perfil de CA e de dados de perfil de SCC, respectivamente. Os subtipos de dados NSCLC compreendia os novos dados da sonda binário e os novos dados de perfil fenótipo. Nós aplicamos o nosso método para os subtipos de dados NSCLC aos meus relacionamentos lógicos gene-subtipo.

Identificação da sonda-subtipo relações lógicas mais elevadas e baixa.

Com base nos subtipos de NSCLC dados, calculou-se o coeficiente de incerteza para um subtipo de NSCLC previsto por uma sonda (ou um par de sonda), bem como o coeficiente de incerteza de uma sonda (ou um par de sonda) previsto pelo subtipo na direcção inversa. O mesmo procedimento foi aplicado aos dados aleatórios sonda binários e os dados do perfil fenótipo. Os coeficientes máximos de incerteza aleatórios para combinações de pares de lógica e de trigêmeos foram usados ​​como os limiares relativos às relações lógicas inferiores e superiores, respectivamente. Isto é, a associação de uma sonda ou de um par sonda com um subtipo foi considerado significativo se e só se os seus coeficientes de incerteza em ambos os sentidos, foram encontrados como sendo maior que o valor máximo obtido a partir dos dados aleatórios. Deixe e ser os limiares de relacionamentos lógicos inferiores e superiores, respectivamente. Obtivemos lógicos combinações emparelhadas e combinações lógica tripletos com incerteza maiores coeficientes de e, respectivamente.

Como o significado da pairwise lógica descoberto e combinações tripletos não pode ser exactamente verificado pelo conhecimento disponível sobre a interacção gene-subtipo, uma análise estatística é merecia ser estimada [24]. Suponha que o nível de significância foi. Os valores de p foram todos os zeros para os pares lógica e triplete combinações descobertos, que foram menores do que o nível de significância. Os resultados da análise estatística mostrou que os pares e trigêmeos combinações lógicas descobertos não interagem de forma aleatória.

Em seguida, foi avaliada a taxa de descoberta de falsas (FDR) para controlar o significado global da pairwise lógica descoberto e combinações triplete . Ambos os valores FDR para combinações de pares e trigêmeos descobertos eram zero, portanto, todas as combinações de pares lógica e triplete descobertas não foram gerados por acaso e todos eles pode representar as associações reais.

Além disso, calculou-se a taxa de recorrência de descoberta de pares lógica e combinações triplete entre todos os ensaios aleatórios. As relações lógicas com a recorrência velocidade maior que foram considerados como os relacionamentos que eram independentes das amostras seleccionadas. Finalmente, derivado sonda-AC menores relações lógicas e sonda-AC relações maior lógicas (Tabela A e B na Tabela S1).

Note-se que os dados do perfil AC e dados de perfil SCC foram vectores complementares binários. Se uma sonda (ou um par de sonda) está relacionado com AC pelo th tipo de relações (superior) de lógica mais baixos, em seguida, a sonda (o par de sonda) está relacionada com a SCC pela th tipo de menores relações (superior) lógica, onde o coeficiente de incerteza da sonda auto-limpante inferior (mais elevada) a relação lógica é igual à da sonda-AC mais baixo (mais elevada) a relação lógica, mas. Portanto, a sonda que tem uma relação estreita com AC também está intimamente relacionada com a SCC. Finalmente, obtivemos sonda-AC /SCC menores relações lógicas e sonda-AC /SCC relações maior lógicas.

Identificação do gene-subtipo inferior e relações lógicas mais elevados.

Cada sonda, que foi focada em neste artigo, é mapeado para um único gene. Por outro lado, um gene pode ser detectado por mais do que uma sonda. Por exemplo, o

gene CLCA2

foi detectada por quatro sondas diferentes:

206164_at

,

206165_s_at

,

206166_s_at

e

217528_at

. Todos os acima de quatro sondas foram relacionados com AC pelo segundo tipo de relações lógicas inferiores. Além disso,,, e foram a dizer coeficientes de incerteza para cada uma das quatro sondas relacionados com o AC em ambos os sentidos, respectivamente. A sonda-AC relação lógica conjunto composto por diversos relações lógicas sonda-AC, onde sondas foram associados com o mesmo gene. Em uma sonda-AC relação lógica set, a sonda-AC /SCC relação lógica com o maior os coeficientes médios de incerteza em ambos os sentidos foi usado para gerar um AC gene /relação lógica SCC como descrito na secção Materiais e Métodos. Assim,

CLCA2

estava relacionado com AC pelo segundo tipo de relações lógicas inferiores e o coeficiente da

CLCA2

-AC /SCC relacionamento era.

De acordo com o exposto método, gene-AC /SCC relações lógicas inferior foram gerados a partir da sonda-AC /SCC menores relações lógicas (Tabela a na Tabela S2). Cada parte do resto da sonda-AC /SCC relações lógicas inferior gerado um gene-AC /SCC relação lógica inferior. Finalmente, obteve-gene-AC /SCC relacionamentos lógicos inferiores (Tabela A na Tabela S3).

Verificou-se que se um gene foi detectado por mais do que uma sonda, e as sondas foram relacionados com os subtipos pela lógica inferior relacionamentos, então os tipos de sonda-AC /SCC relações lógicas mais baixa eram os mesmos. Sugere-se que as sondas que estão associados com o mesmo gene pode estar relacionado com subtipos pelo mesmo caminho.

Nós obtivemos seis gene-AC /SCC relações maior lógica de sonda-AC /SCC relações maior lógicos ( Quadro B na tabela S2). Cada parte do resto da sonda-AC /SCC relacionamentos mais elevado de lógica gerado um gene-AC /SCC relação maior lógica. Finalmente, obtivemos gene-AC /SCC relações lógicas mais elevadas (Tabela B na Tabela S3).

No que se segue, discutimos exemplos de relações lógicas que podem ser inferidas a partir de fenômenos descritos anteriormente na literatura.

Exemplos de relações lógicas gene-subtipo mais baixos.

Se cada um dos genes

Dsg3

,

CLCA2,

DSC3 Comprar e

pKP1

foi expressa, então SCC estava presente, enquanto AC estava ausente. Além disso, se cada um dos genes acima não foi expresso, em seguida, a SCC se encontra ausente e AC estava presente. Isto é, a expressão de cada um dos genes acima foi uma condição suficiente e necessária a presença de CAA, bem como a ausência de AC. Nossos resultados sugerem que os genes (

Dsg3

,

CLCA2

,

DSC3

e

pKP1

) pode distinguir subtipo CA da SCC. Dado que as pontes intracelulares são um dos mais característicos da SCC, mas não da AC, proteínas envolvidas nestas pontes pode ser regulada para cima no SCC única, como desmosome proteínas e proteínas juncionais intercelulares [25].

Desmogleína 3

é a proteína codificada pelo

Dsg3

. Esta proteína é um componente glicoproteína transmembranar de ligação ao cálcio do desmossoma em células epiteliais de vertebrados. A proteína codificada por

DSC3

é uma glicoproteina dependente de cálcio (

desmocolina

3) que é necessária para a adesão de células e formação de desmossoma. A proteína codificada por

pKP1

pode estar envolvido no recrutamento molecular e de estabilização durante a formação desmossoma. A proteína codificada por

CLCA2

pertence à família de proteínas sensíveis cloreto de condutância de cálcio. Ele pode servir como molécula de adesão de células de câncer metastático de pulmão. Os quatro genes acima (

DSC3

,

Dsg3

,

pKP1

e

CLCA2

), que estão associados à desmosomes foram encontrados para ser regulada para cima no SCC comparado com o subtipo CA [26]. Concretamente,

Dsg3

mostrou alta expressão na SCC, enquanto a baixa expressão no AC [26].

DSC3

também foi regulada em SCC exclusivamente [27], [28]. Nos tumores primários de pulmão,

DSC3

era um marcador de diagnóstico potencial de carcinoma de células escamosas do pulmão [29].

pKP1

mostrou um vezes maior nível de expressão em que CCEs em ACs e de pulmão normal e, assim, pode ser útil no diagnóstico histopatológico [28].

CLCA2

foi inferida a ser especificamente sobre-expressos em SCC [30].

Nós descobrimos que o subtipo AC (SCC) estava presente (ausente) se e somente se

NKX2-1

foi expressa. Infere-se que a expressão de

NKX2-1

na amostra de AC é muito mais elevada do que a de SCC.

NKX2-1

que é conhecido como fator de transcrição da tireóide 1 (

TITF-1

) é um factor de transactivação contendo homeodomain, e é expressa nos bronquíolos do pulmão terminais e periferia do pulmão predominantemente [31 ]. A presença de

NKX2-1

proteína foi prevalente em AC, enquanto que no SCC

NKX2-1

estava ausente [13]. É de acordo com os nossos resultados.

Exemplos de gene do subtipo mais elevado relações lógicas.

As relações lógicas mais elevados entre os pares de genes e SCC foram selecionados para análise posterior. pares de genes (

GPX2

,

ITGB8

) e (

GPX2

,

SLC2A12

) estavam relacionados com SCC, através de um ‘E’ relação lógica ( maior lógica tipo de relação). Ele indica que

GPX2

,

ITGB8

e

SLC2A12

foram todos expressos se o espécime foi SCC. Além disso, todos os genes

GPX2

,

ITGB8

e

SLC2A12

não foram expressas se o espécime foi AC.

GPX2

foi detectada a ter maior expressão na SCC comparação com AC e normal [32], [33]. Estávamos cientes de evidências na literatura das relações entre

ITGB8

,

SLC2A12

e os subtipos de NSCLC. Nossa análise gerado vários relacionamentos novos.

Não há evidências suficientes para as relações lógicas mais elevados para distinguir os subtipos de NSCLC. Assim, a maioria das relações entre os pares de genes e os subtipos de NSCLC não foram confirmados. Como a falta de conhecimento sobre as relações de regulação entre genes e subtipos, as relações exatas entre os pares de genes comuns e subtipos são merecia ser verificado.

Comparação de desempenho

Nós exigiu as colunas de binário dados da sonda, bem como os dados de perfil de fenótipo, os quais correspondem aos modelos NSCLC e amostras normais de GSE18842. Os novos dados da sonda binários e os dados do perfil fenótipo foram formados pelas colunas exigido de dados binários de sonda e os dados do perfil fenótipo, manter as posições relativas de colunas. Os dados NSCLC e normais que compuseram os novos dados da sonda binários e dados do perfil fenótipo.

Aplicação dos três métodos.

Temos primeiro aplicou o método atual para o NSCLC e dados normais. Nós definir a, e obteve sonda-fenótipo inferior relações lógicas. A importância e significado global das relações descobertas foram verificadas pelo teste estatístico.

Em seguida, foi aplicado o método NMF ao NSCLC e dados normais. Linhas com ‘s’ foram filtrados a partir dos dados da sonda binários para assegurar a viabilidade do método NMF. Os dados da sonda binário resto continha linhas e colunas. Porque dois grupos de amostras (AC e SCC) foram incluídos nos dados da sonda binários, escolhemos como o parâmetro de redução de dimensionalidade para o método NMF. Entre os obtidos dois Metagenes, o segundo METAGENE apresentaram maior nível de expressão em quase todas (isto é,) dos espécimes NSCLC, enquanto menor nível de expressão em quase todas (isto é,) dos espécimes normais. As sondas dentro da segunda metagene foram classificadas de acordo com seus níveis de ativação (Tabela S4). A primeira sonda representada a sonda mais intimamente relacionado com o fenótipo NSCLC, enquanto a última sonda representada a sonda menos intimamente relacionados.

Finalmente, foi aplicado o método de RA para o NSCLC e dados normais. Separamos as sondas pela informação mútua entre os perfis de sonda e perfis NSCLC.

Note-se que as correlações entre pares de genes e fenótipos poderia ser medido pelo método atual, mas não podiam ser medido pelo NMF e RA métodos. Assim, a partir deste ponto de vista, o método actual é superior para os dois métodos anteriores. Todos os três métodos poderia encontrar genes individuais estreitamente relacionados com fenótipos. Por isso, nós apenas identificaram o gene-fenótipo relações lógicas inferiores pelo método atual e compararam os resultados com os obtidos pelos dois métodos anteriores.

Comparação de desempenho para os três métodos.

Foram selecionados dois conjuntos de dados envolveu os genes que estão relacionados com NSCLC. Um conjunto de dados contém genes de alta frequência no nível mRNA detectado por Huang et al. (Tabela S5) [9]. mostrou-se que estes genes pertencia ao topo conjuntos de genes disfuncionais com boa capacidade de discriminação. Nós escolhemos o conjunto de dados porque foi coletado de GEO com o número de acesso GSE18842, que também foi a fonte do NSCLC e dados normais neste trabalho. O outro conjunto de dados contém genes para cima /para baixo-regulados encontrados por Urgard et al., Em que os genes são regulados negativamente e os genes são regulados positivamente em NSCLC em comparação com o tecido normal (Tabela S5) [34]. Um total de genes foram compartilhadas pelos dois acima conjuntos de dados. Porque é difícil para validar os genes incluídos em cada conjunto de dados, é razoável considerar esses genes como os dados de verdade para estimar o desempenho de diferentes métodos neste trabalho.

Para estimar o desempenho do atual método e comparar o seu desempenho com os dois métodos anteriores (o método NMF e o método de RA), calculou-se uma medida: a taxa de recuperação, que foi a razão entre o número de genes detectados nos dados de verdade para o número total de genes no dados verdade. Note-se que a taxa de recuperação pode ser tendenciosa pela natureza incompleta dos dados de verdade. Além disso, avaliou-se a precisão da classificação que avaliou a capacidade de discriminação de sondas resultaram.

Entre todos os genes detectados por sondas obtidos pelo método atual, genes estavam nos dados de verdade. Assim, a taxa de recall do método atual era. Para comparar a taxa de recolha do método corrente com os dos dois métodos anteriores, foram seleccionados os melhores sondas obtidos pelo método e o método NMF RA, respectivamente. Encontrámos e de zero dos genes nos dados de verdade foram detectados pelo método NMF e o método RA, respectivamente. Assim, a taxa de retirada de NMF e RA foram e, respectivamente. O método atual apresentaram maior taxa de reconvocação de NMF e RA.

Por Fig. 1, verificou-se que o método atual alcançado maior precisão da classificação do que o método NMF eo método RA. Além disso, a precisão média de classificação do nosso método aproximado para (i), o que significa que as sondas obtidas por nosso método tem uma grande capacidade de classificação. Na figura, cada curva era estável com pouca variação. Ele indica que a precisão da classificação foi pouco sensível ao número de sondas.

De acordo com cada método, nós classificar os genes em ordem decrescente pelos coeficientes de genes relacionados com fenótipos. Nós selecte os melhores genes, onde. A precisão da classificação é calculada com base nos principais genes. ‘RA’, ‘NMF’ e ‘U’ representa o método de análise de relevância, o método de fatoração de matriz não-negativo e o método atual, respectivamente.

Biomarkers e pares de genes-chave

Biomarkers inferidas pelo gene do subtipo inferior relações lógicas.

Na pesquisa anterior, foram notificados um número total de genes a ser usado para diferenciar entre AC e SCC, e esses genes são

Dsg3

[26],

CLCA2

[30],

DSC3

[27],

pKP1

[28],

NKX2-1

[35], GJB5 [26], KRT6B [36], SERPINB13 [36], TP63 [37], TRIM29 [38],

KRT5

[28],

NTRK2

[28] e

DST

[39]. Separamos os genes que foram envolvidos nas gene-AC /SCC relações lógicas mais baixo em ordem decrescente por seus coeficientes. Curiosamente, todos os genes foram incluídas nas melhores genes. Sugere-se que um gene que tem alto coeficiente de incerteza pode distinguir claramente CA da SCC.

Para obter um conjunto de biomarcadores, que, em primeiro lugar seleccionado melhores classificados genes (Fig. 2). Porque os alvos moleculares para agentes terapêuticos alvo desempenham papéis cruciais para o tumor, os biomarcadores para a terapia-alvo deve ter as funções biológicas distintas entre NSCLC e normal. Em seguida, um conjunto de interseção foi gerado entre os altos genes e os genes envolvidos no gene-NSCLC relações lógicas inferior (os genes foram obtidas na subseção ‘Comparação de desempenho’). Finalmente, se cruzam genes foram considerados como os biomarcadores para distinguir CA da SCC, assim como novos alvos moleculares para agentes terapêuticos alvo. Ou seja, o conjunto de biomarcadores composta

DST

,

CLCA2

,

KRT5

,

Dsg3

,

GJB5

,

SERPINB13

,

BNC1

,

TRIM29

,

LOC642587

,

pKP1

,

KRT6B

,

FAT2

,

GOLT1A

,

DSC3

,

NKX2-1

,

TP63

,

LASS3

,

PVRL1 Comprar e

NTRK2

.

Existem genes relacionados com subtipos de NSCLC por relações lógicas menores, e cada gene atribui um coeficiente. Os genes são classificados de acordo com coeficientes em ordem decrescente. Os genes principais são selecionados para identificar biomarcadores. Os nós azuis representam biomarcadores identificados neste trabalho. Os nós amarelas representam seis genes que não estão relacionadas com NSCLC no NSCLC e amostras normais. Os nós vermelhas representam subtipos, ou seja, AC e SCC.

pares de genes-chave inferidas pelo gene do subtipo mais elevado relações lógicas.

Nós agrupados relações lógicas do gene-subtipo mais elevados com o mesma função lógica. Porque as duas funções lógicas E (Tipo 1) e XOR (Tipo 8) têm interpretações biológicas mais intuitivo do que outras funções lógicas, restringimos nossa análise a estas duas funções lógicas. Os pares de genes-chave foram definidos como os pares de genes envolvidos nas relações lógicas do gene-subtipo mais elevados com função lógica AND ou XOR. Obtivemos pares de genes-chave no total, onde e pares de genes estavam relacionados com o AC /SCC através das funções lógicas AND e XOR, respectivamente (Tabela S6). Este resultado pode ser explicado pelos parâmetros rigorosos que escolhemos.

análise Gene Ontology

O Gene Ontology (GO) é uma estruturados e controlados vocabulários e classificações sobre as anotações de genes, produtos genéticos e sequências [40]. GO inclui três categorias de termos: processos biológicos, funções moleculares e componentes celulares. Estávamos focados em processos biológicos enriquecendo os genes envolvidos nas relações lógicas inferiores. Assim, no que se segue, quando dizemos termos GO, isso significa que os termos GO na categoria ‘processo biológico’.

De acordo com a sonda-AC /associações de pares SCC e seus coeficientes de incerteza, obteve-se um conjunto de genes contendo genes sem sobreposição e cada gene ligado um coeficiente. Um total de genes foram classificados em ordem decrescente por coeficientes e dado como entrada para o gorila. O gorila deu termos GO significativas como “o desenvolvimento do tecido ‘(GO: 0.009.888),” desenvolvimento epiderme’ (GO: 0.008.544), e “diferenciação de células epiteliais ‘(GO: 0.030.855) (parte A do Apêndice S1). Tendo em conta que os termos GO significativos foram obtidos com base nos subtipos de dados com NSCLC, que tem de ser verificado se os termos GO significativas também são significativos em NSCLC e amostras normais. O mesmo procedimento foi aplicado aos genes classificados com base no NSCLC e dados normais. O teste revelou termos GO significativas com valor significativo (Parte B no Apêndice S1). No total, sete em termos ir no subtipos de dados NSCLC também foram significativas no NSCLC e amostras normais (Tabela 2). Ele indica que os seguintes sete processos biológicos são importantes para tumorigênese de NSCLC:. Desenvolvimento do tecido, o desenvolvimento epiderme, diferenciação de células epiteliais, o desenvolvimento estrutura anatômica, processo de desenvolvimento, a adesão celular e adesão biológica

Além disso, nós agrupou os genes estreitamente relacionados com os subtipos de NSCLC em dois grupos pelos tipos de gene-SCC inferior relações lógicas. Mapeamos os genes que foram relacionados com a SCC (AC) por Tipo () relações mais baixas de lógica para ir termos. análise do gene ontologia revelou termos ir com as pontuações p-valor menor do que e as pontuações de enriquecimento maior do que.

Deixe uma resposta