PLOS ONE: Projeções de estudo cruzado de Genomic Biomarkers: An Evaluation em Câncer Genomics

Abstract

estudos de doenças humanas usando microarranjos de DNA em ambos os estudos clínicos /observação e experimentais /controlados estão tendo cada vez maior impacto na nossa compreensão da a complexidade de doenças humanas. Um conceito fundamental é o uso da expressão do gene como uma “moeda comum” que liga os resultados de

in vitro

experiências controladas para

In vivo

estudos humanos observacionais. Muitos estudos – em câncer e outras doenças – mostraram-se promissores em usar

in vitro manipulações celulares

para melhorar a compreensão da

in vivo

biologia, mas as experiências muitas vezes simplesmente não refletem a enorme variação fenotípica visto em doenças humanas. Nós resolver este problema com uma estrutura e métodos para dissecar, melhorar e alargar o

in vivo

utilidade da

in vitro

assinaturas de expressão de genes derivados. A partir de uma assinatura de expressão gênica experimentalmente definido usamos análise fatorial estatística para gerar

vários fatores quantitativos Online em dados de expressão de genes de cancro humano. Esses fatores mantêm a sua relação com o original, unidimensional

in vitro

assinatura, mas descrever melhor a diversidade de

in vivo

biologia. Em uma análise do cancro da mama, mostramos que fatores podem refletir fundamentalmente diferentes processos biológicos ligados a características moleculares e clínicos de cancros humanos, e que em combinação eles podem melhorar a previsão dos resultados clínicos

Citation:. Lucas JE, Carvalho CM, Chen JL-Y, Chi JT, West M (2009) Projeções de estudo cruzado de Genomic Biomarkers: An Evaluation em Câncer Genomics. PLoS ONE 4 (2): e4523. doi: 10.1371 /journal.pone.0004523

editor: Sridhar Hannenhalli, University of Pennsylvania School of Medicine, Estados Unidos da América

Recebido: 01 de setembro de 2008; Aceite: 31 de dezembro de 2008; Publicação: 19 de fevereiro de 2009

Direitos de autor: © 2009 Lucas et al. . Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento: Research parcialmente apoiado pela National Science Foundation (DMS-0.342.172) e os Institutos Nacionais de Saúde (NCI U54-CA-112952). Quaisquer opiniões, resultados e conclusões ou recomendações expressas neste trabalho são de responsabilidade dos autores e não refletem necessariamente as opiniões do NSF ou NIH

Conflito de interesses:.. Os autores declararam que não existem interesses conflitantes

Introdução

tecnologia de microarrays permite a captura de diversos aspectos de fatores genéticos, ambientais, oncogênicos e outros como refletido na expressão de mRNA global e abre a possibilidade de personalizar o tratamento da doença [1], [2 ]. Vários estudos têm tido uma abordagem “top-down” para criação de perfis de expressão gênica em cancros humanos, e isso levou à identificação de subtipos de tumor não reconhecido anteriormente, bem como assinaturas de gene prevendo vários fenótipos clínicos [3] – [7]. Alternativamente, outros estudos têm tido uma abordagem “bottom-up” para determinar a alteração da expressão do gene causada por manipulações específicas das células em cultura

in vitro

. Nestes estudos de expressão gênica serve como um fenótipo comum para reconhecer características semelhantes em cancros humanos

in vivo

e fornecer uma ligação directa entre a perturbação biológica conhecida e os contextos clínicos [8] – [12].

Embora muitos desses estudos têm mostrado promessa em usar

in vitro

manipulações celulares para entender

in vivo

biologia, esta abordagem não pode reflectir plenamente a enorme variação fenotípica observada em cancros humanos. A partir desses estudos, pode-se derivar

assinaturas

. Estes nós definimos a ser listas de genes que são expressos diferencialmente, juntamente com os seus níveis de expressão diferencial associados (que chamamos pesos). No entanto, há quase sempre uma má partida entre estas assinaturas e padrões de expressão dos mesmos genes

in vivo

. Portanto, um quadro conceitual é necessária para dissecar ainda mais, melhorar e alargar o

in vivo

utilidade do

in vitro

assinatura derivado. Aqui, apresentamos uma técnica para alcançar este fim. Propomos que deriva múltiplos fatores, com base em estudos de expressão do gene do cancro humano, a partir de uma assinatura experimentalmente definido. Estes factores derivados irá reter a sua relação com a assinatura original mas representam processos biológicos distintos. É importante salientar, que mostram que fatores derivados diferentes podem ser combinados para fornecer muito melhores valores preditivos para os resultados clínicos. Diferentes fatores também reflecte as diferentes processos biológicos e estão associadas a vários aspectos de características moleculares e clínicos dos cânceres humanos.

Há uma série de abordagens possíveis para este problema. Uma abordagem tem sido populares para comparar a identidade das sondas diferencialmente expressos a bases de dados de percursos pré-definido. As descrições de tais abordagens podem ser encontradas em [13] – [15]. Embora estas abordagens estão apelando para a sua facilidade de interpretação, eles contam com os caminhos adequadamente pré-definidos, em vez de a estrutura dos dados em estudo. Alternativamente, pode simplesmente definir o nível de atividade de assinatura para uma amostra de como a média ponderada de

in vivo

níveis de expressão (onde os genes mais que para calcular os pesos e os próprios pesos são extraídas da assinatura original). Embora alguns estudos tenham mostrado o poder deste conceito, é claro que não se pode esperar para capturar a heterogeneidade do

in vivo

biologia pela resposta biológica controlada unidimensional do

in vitro

assinatura reflete.

A heterogeneidade inerente do meio ambiente e tipo de célula em amostras de tecido significa que os genes em uma assinatura pode potencialmente envolver muitas atividades adicionais não evidentes

in vitro

. Além disso, experiências com linhas de células clonadas de um único tipo de células cultivadas sob condições estritamente controladas por um determinado período (e relativamente curto) de tempo pode contrastar fortemente com amostras clínicas extraídos de organismos vivos que contêm vários tipos de células que tenham estado em um ambiente dinâmico para meses ou anos. Não há claramente método “correcta” para tomar o que é aprendido pela experiência de microarray em cultura e aplicando-o a avaliar a actividade da via em amostras de tecido. Alguns genes podem ser representantes mais pobres da atividade da via

in vivo

porque eles são mais propensos a se envolver em outras vias, porque reagem às condições ambientais que não estão presentes

in vitro

, ou para uma miríade de outras razões. É, portanto, importante para fornecer um quadro estatístico e conceitual que pode nos permitir usar o

in vivo

dados de expressão para dissecar ainda mais, refinar e melhorar o

In vitro

assinaturas genéticas -derived .

Assinatura Fator Análise Profiling

(SFPA), com base em modelos de fatores estatísticos esparsas, [16], [17] é um framework para o mapeamento

in vitro

assinaturas para uma coleção de

in vivo

fatores. Enquanto isso soa semelhante ao agrupamento hierárquico (que se tornou o método padrão para este tipo de problema), existem diferenças importantes. Em primeiro lugar, enquanto o agrupamento hierárquica pode ser utilizado para quebrar um conjunto de amostras em grupos, no interior do qual os padrões de expressão são semelhantes, de alguma forma, não quantificar essa semelhança. Em segundo lugar, agrupamento hierárquico exige que cada observação (gene) ser um membro de apenas um cluster. Isso impede a atribuição de clusters para vias biológicas, porque muitas combinações de atividade da via são possíveis. Por último, porque os factores são gerados dentro de um modelo estatístico, é possível identificar os níveis de actividade em cada um dos elementos de uma amostra recentemente medido sem refazer a análise estatística. Embora existam outros do que de agrupamento hierárquico técnicas que abordam algumas destas questões, por exemplo soft-agrupamento [18] e K-means clustering [19], o nosso algoritmo resolve-los todos dentro de um único quadro estatístico coerente. SFPA fornece:

modelagem estatística robusta de ambos expressão expressão gênica e amostra de tecido experimental

Identificação e correção de artefatos de ensaio, que são conhecidos por ser um problema significativo associado com o uso de tecnologias de microarray. .

um mapeamento de uma única assinatura, gerado

in vitro

, a um conjunto de fatores que mantêm as características pertinentes da assinatura ao refletir melhor a heterogeneidade

in vivo

associado com a perturbação biológica a assinatura representa.

Um modelo para imputar os valores dos fatores em novas coleções de amostras de tecido, embora estas amostras podem ser originários de diferentes grupos e em momentos diferentes.

Nós explorar esta abordagem de análise em traduzir uma recolha de assinaturas genéticas que refletem a resposta celular a cinco fatores do microambiente do tumor conhecidos, descobriu

in vitro

[8], com particular destaque para a assinatura associada com a resposta à acidose láctica. Nós demonstramos que múltiplos factores provenientes de um contexto do cancro da mama permanece representante das respostas das vias microambiental individuais a partir dos quais eles são derivados. Além disso, esses fatores diferenciam fenótipos biológicos mais importantes no cancro da mama, são capazes de melhorar as previsões clínicos em vários conjuntos de dados câncer, e manter a sua capacidade preditiva mesmo quando aplicado às amostras colhidas por muito momentos diferentes ou em diferentes centros de estudo.

Resultados

Contexto, dados e Análise da Estratégia

Começamos com cinco assinaturas definidas pelas respostas transcrição das células epiteliais da mama mamárias humanas cultivadas a cinco perturbações microambiente: hipóxia, acidose láctica, hipóxia mais láctico acidose, lactosis, e acidose. Cada um deles é visto em cancros humanos e carrega informações de prognóstico com relação a resultados clínicos [8]. As assinaturas representam mudanças na expressão de genes entre um conjunto de observações de controlo e células cultivadas na presença de acidose láctica (25 mM de ácido láctico, pH 6,7), hipoxia (2% O2), o ácido láctico, mais hipoxia, lactosis (sódio 25 mM lactato, pH neutro), e acidose (pH 6,7 sem lactato). Os ensaios de expressão utilizados Affymetrix + microarrays e assinaturas 2,0 U133 reflectindo cada um dos factores micro-ambientais têm sido descritas [8]. Como mostrado em [8], hipóxia, acidose láctica e acidose tem forte significado prognóstico em vários estudos de câncer de mama. Nosso objetivo aqui é explorar as várias componentes das assinaturas genéticas originais para avaliar a oportunidade para melhorar ainda mais os seus valores prognósticos e dissecando-los em fatores da via relevantes biológicas distintas com relevância clínica.

Nós usamos Bayesian Fator Regressão Modelagem (BFRM) [20] para definir e fatores estimativa baseada em uma determinada assinatura. Este começa com um pequeno conjunto de genes que são altamente sensível para a intervenção inicial (altamente expressos diferencialmente entre os grupos experimentais em cultura de células de controlo e) e, em seguida iterativamente refina o conjunto de genes, com base na co-expressão de uma in vivo conjunto de dados, em no contexto de uma análise factorial estatística. Primeiro, padrões comuns de expressão (fatores) são descobertos dentro do subconjunto de genes atualmente sob consideração. Em seguida, a associação entre esses fatores e o conjunto completo de genes na matriz nos permite identificar genes adicionais a serem incluídos em uma revisão da análise fatorial. A justificativa para isso é que, ao avaliar os fatores subjacentes aos genes iniciais de assinatura seleccionado nos permite elucidar

variabilidade in vivo

que não está presente

in vitro

, acrescentando genes de fora a assinatura original pode melhorar a caracterização destes factores, proporcionando ligações a outras vias relevantes. Correndo SFPA em cada uma das cinco assinaturas de forma independente, obtém-se 11 fatores de hipoxia, 10 fatores de acidose láctica, 20 hipóxia além de fatores de acidose láctica, 17 fatores lactosis e 9 fatores acidose. SFPA pára de fatores descobrir uma vez que a maior parte da variabilidade do conjunto de gene original foi explicado.

Relações Assinatura-Fator

Vamos nos concentrar, por agora, sobre os dez fatores acidose láctica. Examinando os genes em cada um dos factores (Figura 1a) mostra que todos os factores têm representantes da assinatura original além dos genes adicionados durante o processo de montagem do modelo de fatores. É importante ter a certeza de que na descoberta desses dez fatores, não perdemos a nossa assinatura original. Nós verificar isso regredindo os 10 conjuntos de escores de fatores derivados na pontuação assinatura acidose láctica. (Cálculo de uma pontuação de assinatura é descrito na secção Métodos.) Witin um único modelo de regressão multivariada, descobrimos que 7 dos 10 são significativos ao nível 0,01, e que quando nós eliminamos os restantes três fatores da regressão multivariada, os sete permanecem significativas. Assim, pelo menos sete dos fatores mostram uma associação significativa com a assinatura original.

(a) As ligações entre genes e os 10 fatores de acidose láctica em análise fatorial estatística dos dados de câncer de mama a partir de [21]. Os genes incluem os genes iniciais seleccionadas de assinatura (preto) e aqueles adicionados por meio da análise de enriquecimento iterativo (vermelho), com preto ou vermelho, indicando que um gene (linha) é altamente associado com um (coluna) de factor, e branco, indicando pouca ou nenhuma Associação. Cross-talk entre os fatores e os genes relacionados com a via putativos é evidente. (B) a assinatura acidose láctica (eixo vertical) é previsto por um ajuste de regressão linear (eixo horizontal) sobre os sete fatores significativamente associados com a assinatura acidose láctica. (C) Imagem de correlações limiarizadas entre 67 fatores (vertical) e os 10 fatores de acidose láctica (horizontal), com pares indicando negras de fatores cujos pares exemplo de correlação superior a 0,9 em valor absoluto.

Figura 1b mostra os valores ajustados da regressão da pontuação assinatura acidose láctica nos factores acidose láctico a partir da análise dos dados de 251 amostras de tumor estabelecidos a partir de [21]. O para esta regressão é elevada (0,74), mas é possível estes dez fatores pode ser capaz de explicar muitas assinaturas diferentes. A fim de mostrar que esta não é uma associação espúria, testamos a hipótese de que este nível é independente da qual os genes que são atribuídos pesos. Nós re-amostrados os pesos 10.000 vezes, cada vez regressão do vector pontuação assinatura calculado a partir desses pesos sobre os 10 fatores acidose láctica e de computação de um valor. Dos 10.000 valores de modo calculado sob a hipótese nula, a máxima foi de 0,48 garantindo que o valor-p «10

-4. Se aproximar a distribuição dos valores por uma distribuição beta (calculado pelo método dos momentos) obtemos um ajuste muito próximo (veja a Figura S1) e estimar o valor-p a ser ≈10

-13. Uma vez que apenas uma lista de genes expressos altamente diferencialmente a partir da assinatura de acidose láctica, e não os pesos, são usados ​​na descoberta fator, e porque os pesos são críticos para o cálculo das contagens de assinatura acidose láctica, a capacidade de recuperar pontuações de assinatura a partir de factores é uma forte evidência da relação entre os dois.

os três factores derivados da assinatura acidose láctica que não eram importantes na predição das pontuações assinatura pode ainda representar actividade relevante para a presença de ácido láctico, mas eles não são fortemente preditiva da assinatura original. Eles também podem simplesmente representar a actividade de vias biológicas que envolvem muito grandes conjuntos de genes, e são, portanto, descoberto a partir de diversos pontos de partida possíveis. No entanto, eles representam estrutura significativa na expressão do gene da assinatura expandido definido em dados relativos aos tumores, e nenhum destes factores seriam detectáveis ​​de estudar o assinatura sozinho como um fenótipo.

factores podem reflectir aspectos distintos de actividade biológica. mostra a figura 1c, que um dos 67 elementos (todos os factores descobertos a partir de cada um dos cinco assinaturas de partida) têm uma alta correlação com os factores 10 acidose láctico a partir da análise dos dados da mama Miller [21]. Observe que há dois dos fatores acidose láctica são altamente correlacionados, assim, esses fatores parecem descrever processos distintos. Alguns dos 10 factores, tais como a acidose láctica factor de 8, por exemplo, estão altamente correlacionados com vários outros factores, indicando que estes factores foram identificados a partir de várias assinaturas iniciais. A maioria, no entanto, mostram baixos níveis de correlação de pares. Entre os 67 fatores, 40 componentes principais são necessários para explicar 95% da variabilidade observada (figura S2 suplementar) o que implica que uma relativamente elevada “dimensão” biológica subjacente aos 67 fatores – eles refletem um conjunto diversificado de actividades biológicas, e, presumivelmente, vias alteradas nas respostas celulares a acidose láctica em tumores da mama humanos. A Figura 1a mostra as ligações entre genes e os 10 fatores de acidose láctica em análise. Os genes incluem os genes assinatura selecionada iniciais e os adicionados por meio da análise de enriquecimento iterativo. Os factores SFPA derivados reter uma percentagem elevada dos genes que foram mostrados para expor uma mudança na expressão quando as células são expostas à presença de ácido láctico

In vitro

, que mostra uma outra maneira em que estes factores ainda mantêm a sua ligação com a assinatura original. O cross-talk entre os fatores, em termos de genes que definem mais de um fator, também é evidente.

Fatores Predict características moleculares

SFPA derivado fatores podem representar aspectos distintos de processos biológicos associados com fenótipos clínicos. Para avaliar isso, nós exploramos modelos de regressão subconjunto de prever uma série de fenótipos clínicos no conjunto de dados Miller [21] – os fenótipos incluindo ER e estado PGR, o estado de p53 e tempos de sobrevivência. Os indicadores de status moleculares foram modelados com regressões binárias probit sobre os fatores e sobrevida com modelos padrão de sobrevivência Weibull. Utilizamos o método estocástico espingarda Pesquisa (SSS) [22], [23] para identificar pequenos subconjuntos dos factores que mostram valor preditivo em relação a cada um destes fenótipos. SSS é um modelo variável selecção que permite a utilização do modelo de cálculo de média (com base na probabilidade posterior) para a predição. média modelo tem se mostrado melhor do que algoritmos que utilizam o melhor modelo único para a previsão (como AIC ou BIC) realizar, porque dá uma estimativa mais fiel da incerteza [24]. Esta análise foi realizada no conjunto de dados a partir de [21], e em seguida os modelos resultantes equipados /com formação de regressão foram utilizadas para prever fenótipos em cada um dos cinco conjuntos separados de dados e biologicamente diversas cancro da mama [25] – [28]. Todos os conjuntos de dados estão disponíveis a partir da Expressão Gênica Omnibus (GEO).

Fatores de prever o estado de ER.

A análise indica que modelos de regressão altamente pontuação para a previsão do estado ER utilizar um dos fatores – a acidose 1, hipóxia 4, láctica a acidose 2 ou Lactosis 5. a partir da Figura 2a, pode-se ver que a correlação entre quaisquer dois desses fatores é alta, então vamos nos referir a eles coletivamente como os fatores ER. Figura 3a demonstra a capacidade deste fator para prever o estado de ER no conjunto de treinamento [21] e 3b mostra previsão sobre um conjunto de teste distinta e completamente independentes [27]. Para examinar a composição ontologia gênica (GO) da lista de genes envolvidos nos fatores ER, foi aplicada a Tabela REUNIR análise [29] e achar que GO termos associados com o ciclo celular, proliferação e e mitose são muito enriquecido nesses fatores ( 1), corroborando ligação conhecida entre a progressão celular e ER. Espera-se também que a presença de ácido age ou hipoxia láctico para encerrar o ciclo celular e o fator ER parece ligar diretamente os dois processos.

Cada ponto nestas parcelas representa um único paciente do conjunto de dados [21]. (A) scatterplots par a par de factores Acidose 1, hipoxia 4, acidose láctica 2 e Lactosis 5 dos sessenta e sete fatores. Cada um destes factores é derivado de uma assinatura de partida diferentes e elas são importantes e podem trocar entre a previsão do estado ER. As parcelas no eixo diagonal mostram histogramas das pontuações nos respectivos fatores. (B) Três há correlação significativa entre o ER e fatores PgR. (C) O ER e p53 fatores mostram alguma evidência de um relacionamento, mas têm estruturas claramente diferentes (valores mostrados são para a actividade dos respectivos fatores nos dados a partir de [21]).

ER e fatores PgR prever o estado de receptor de progesterona: (a) conjunto de dados de treinamento [21]; (B) projetada para os dados Wang. Os resultados são PgR- (azul, obs = 0) e PGR + (vermelho, obs = 1). Os fatores de ER (acidose 1, hipoxia 4, acidose láctica 2 ou Lactosis 5): set (c) formação [21], fortemente associada com o estado ER; (D) projetada para os dados de expressão de tumor de um estudo completamente diferente – os dados Wang definidos neste caso 25 – são capazes de prever o estado de ER. Os resultados são ER- (azul, obs = 0) e ER + (vermelho, obs = 1). (E) estimativa do estado p53, com resultados p53 tipo selvagem (azuis, obs = 0) e mutantes (vermelhos, obs = 1) separação entre formação (azul e vermelho escuro) e teste /validação (luz azul e rosa) amostras.

fatores de prever o estado de PGR.

O estrogênio e progesterona são conhecidos por serem antagonistas, por isso espera-se que os fatores de ER pode prever o estado de receptor de progesterona. Usando SSS descobrimos que os modelos de regressão altamente pontuação para o status PGR envolvem o fator ER, além de fator de láctica A acidose 10 – rotulamos este fator específico PGR. Figuras 3C e 3D mostram a capacidade equipada e preditiva desses dois fatores usados ​​em um modelo de regressão binária ajuste ao status de receptor de progesterona. Não existe uma correlação significativa na expressão tumoral entre a PGR e os fatores de ER (Figura 2b). ontologia gênica para os genes do fator específico PGR (Tabela 2) confirmam algumas das ligações conhecidas entre progesterona e metabolismo de RNA no cancro da mama [30].

Fatores de prever o estado de p53.

O terceiro fenótipo binário, tipo selvagem contra o gene p53 mutante, está presente em apenas o conjunto de dados a partir de [21]. SFPA foi re-executado em um seleccionado aleatoriamente 50% destes dados e usado para prever os outros 50% (Figura 3). modelos altamente marcados para p53 envolvem o fator de ER, o fator específico PGR, e uma das formas de hipóxia 1 ou láctica A acidose 3. A correlação entre esses dois últimos fatores é de 99%, por isso, classificá-los coletivamente como o fator específico p53. ontologia gene para este factor é idêntico ao que para o factor de ER com as excepções que a “proliferação celular” e “de iniciação da replicação de ADN” é substituída pela “divisão nuclear” e “fase M”. Para todas as ontologias de genes listados entre os oito primeiros para estes dois fatores, os fatores de Bayes são ≥10. Por causa do alto grau de semelhança na ontologia gene, é tentador para tentar igualar esses dois fatores. A Figura 2c mostra um gráfico de dispersão da actividade dos tumores nos dados a partir de [21] em cada um dos dois factores. O factor de p53 é significativamente bimodal, e a correlação leve pode-se ver é devida inteiramente a esta bimodalidade, como amostras de tumores com actividade de factor de alta ER são mais susceptíveis de ser no segundo modo do factor p53. Nós teorizam que esta bimodalidade está associada a um subtipo particular da mutação p53. No entanto, não há nenhuma evidência de multimodalidade no factor de ER, e o factor específico p53 prediz o estado de ER mal. Devido a estas diferenças, e porque a replicação celular é um processo complexo, é provável que estes dois factores estão relacionados com características distintas de desenvolvimento celular.

Ressaltamos que, se restringir-nos a considerar o original

in vitro

assinatura acidose láctica, que não têm capacidade para se adaptar ou prever qualquer um destes fenótipos biológicos (Tabela 3). Além disso, esses fatores foram gerados inteiramente sem levar em conta o estado ER, estado PGR, ou o status p53 das amostras. Isto está em contraste com um design mais típico em que assinaturas associadas com fenótipos são definidos estritamente baseadas em genes com perfis de expressão que correspondem a esses fenótipos (por exemplo [21]). Este tipo de projeto é atormentado com dificuldades que surgem a partir do grande número de genes, das dezenas de milhares em uma matriz, com padrões de expressão que correspondem a qualquer fenótipo arbitrária. Com SFPA, nós procurar genes que são expressos em conjunto sem levar em conta fenótipo, e são, portanto, muito menos propensos a ser atormentado por falsas descoberta (como comprovado pela nossa fora da precisão da previsão da amostra).

fatores Predict fenótipos clínicos

SFPA oferece uma técnica para interrogar uma única amostra de tumor independente contra qualquer número de assinaturas biologicamente determinada, e, em seguida, consequente ligação de fatores para fenótipos podem incluir resultados clinicamente relevantes, tais como os resultados de sobrevivência do paciente e da resposta à droga .

fatores de melhorar a previsão de sobrevivência de câncer de mama.

Subconjuntos dos 67 fatores foram avaliados em modelos de regressão de sobrevivência Weibull usando o método SSS para identificar e marcar modelos prevendo a sobrevivência. Cada modelo de um conjunto resultante de modelos de pontuação altamente produz curvas de sobrevivência embutidos e também pode ser utilizado para prever a sobrevivência de novas amostras. mandatos análise Bayesiana média de previsões de tal conjunto de modelos, e isso foi feito para resultar na Figura 4a. Isso mostra acessos de curvas de sobrevivência para o conjunto de dados de treinamento [21], em conjunto com a das previsões de amostra em quatro dos outros conjuntos de dados para os quais existe informação sobre a sobrevivência. Lembre-se que estes são conjuntos de dados a partir de estudos bastante distintas e diversas, por isso estamos avaliando um modelo equipado com um conjunto de dados em quatro bastante desafiador para fora da amostra conjuntos de dados de validação. Embora não seja descrito adicionalmente aqui, a análise do modelo estatístico BFRM utilizado pelo SFPA também aborda os problemas de efeitos específicos do gene-amostra de estudo dentro da análise e é capaz de corrigir o suficiente das idiossincrasias e polarização inerente em ensaios de microarray para manter a precisão preditiva [19 ], [31]. Os resultados demonstram que os factorprofiles destes

in vitro

assinaturas ambientais podem melhorar a previsão de sobrevivência significativamente em vários conjuntos de dados de teste. Resultados semelhantes são obtidos para a predição de sobrevida livre de metástases.

(a) Previsto tempos de sobrevivência de uma média de modelos de sobrevivência Weibull onde usado para dividir as 251 amostras de [21] de acordo com as previsões acima /abaixo da mediana e as curvas de sobrevivência empíricos resultantes (curvas de Kaplan-Meier) são mostrados. A estratificação vermelho /azul dos pacientes é a partir da análise usando subconjuntos dos 67 fatores (vermelhos – alto risco de 50%, azul de baixo risco 50%); as curvas de cinza são da mesma análise utilizando todos os originais cinco assinaturas (portanto, não há compensação para over-fitting aqui). Os valores de p em cada uma das parcelas correspondem a estratificação por análise fatorial (parte superior, preto) e estratificação usando as assinaturas (em baixo, cinza). Dados a partir de [21] foi usada para identificar os modelos de sobrevivência, por conseguinte, este gráfico representa valores ajustados. Os quatro lotes adicionais representam predição nas quatro amostras diferentes de tumor da mama com base na análise de apenas os dados de treinamento. A relevância preditiva, e importância, dos fatores é evidente e consistente em todos os estudos, e de forma consistente melhora no que se obtém com o uso de assinaturas sozinho. (B) O primeiro fator acidose láctica prediz a sobrevivência em pacientes que foram tratados com tamoxifeno (metade esquerda), mas não mostra nenhum valor preditivo em pacientes que não receberam a droga (metade direita). Em todas estas figuras, p-valores representam significado em um modelo de riscos proporcionais de Cox.

Fatores de prever a resposta Tamoxifen.

Quatro dos conjuntos de dados câncer de mama têm anotação clínica pertencente a tratamento com tamoxifeno. Embora os 67 fatores não são de forma direcionada especificamente para Tamoxifen, sabemos que eles estão associados com vias biológicas relevantes. De nossos 67 fatores, descobrimos que láctica A acidose 1 é preditivo de resistência Tamoxifen. Ele diferencia sobrevida livre de metástases em pacientes que receberam a droga e não mostra capacidade preditiva em pacientes que não (Figura 4b, a análise subjacente a esta seguiu a mesma abordagem que para a sobrevivência discutido acima). Uma vez que todos os pacientes que receberam tamoxifeno foram ER positivo, resistência à droga associada com este elemento deve ser independente da acção antagonista do fármaco sobre os receptores de estrogénio. Como nenhum desses conjuntos de dados foram utilizados na formação do modelo de fatores, a capacidade desses fatores para distinguir resistência ao tamoxifeno é notável e demonstra que eles são robustos para os vieses de coleta, muitas vezes visto em experimentos de microarranjos. Nós novamente utilizado se reúnem para estudar a ontologia dos genes incluídos neste fator (Tabela 4). Este se conecta com a conhecida associação de Tamoxifen com o transporte de fosfato [32], [33], bem como a adesão celular [34], [35]. Em particular, Cowell et ai. relatam que p130Cas /BCAR1 é uma molécula de adesão de células, que promove a resistência ao tamoxifeno por meio de uma via de fosforilação específica. Além destas ligações para os efeitos secundários de Tamoxifen é a ligação bem conhecido entre a sobrevivência dos pacientes no tamoxifeno e a toxicidade associada com a coagulação do sangue [36]. Um estudo mais aprofundado dos genes em este fator pode levar a insights sobre o mecanismo por trás da resistência tamoxifeno em câncer de mama positivo para o RE.

Descoberta de fatores específicos de órgãos de assinaturas acidose láctica.

enquanto os mesmos processos biológicos podem contribuir para fenótipos de tumor em diferentes tipos de cancro, o processo pelo qual isto acontece pode ser inteiramente diferente, dado o contexto celular particular, a expressão do gene específica para um tecido e influências epigenética. Desde SFPA pode utilizar

in vivo

expressão do gene do câncer de dissecar o

in vitro

gene assinatura -generated, oferece a possibilidade de identificar fatores de tecidos e órgãos específicos associados com as mesmas assinaturas genéticas. Esta aplicação tem o potencial para distinguir sub-vias que são conservadas entre vários tipos de tecido a partir aqueles que são específicos de órgãos. Para ilustrar este ponto, nós utilizamos o conjunto de dados do cancro do pulmão publicado em [11] e os dados de câncer de ovário definidos a partir de [10]. Obtivemos os dados de câncer de pulmão de GEO e os dados de câncer de ovário a partir do site do Programa de Biologia do Cancro Duke Integrative (ICBP) (https://data.cgt.duke.edu/platinum.php).

Deixe uma resposta