PLOS ONE: Perfis Mirna em linfoblastóides linhagens celulares de finlandeses Famílias do cancro da próstata

Abstract

Fundo

fatores hereditário, evidentemente envolvido no cancro da próstata (AEP) carcinogênese, mas atualmente, marcadores genéticos não são rotineiramente usados ​​na triagem ou diagnóstico da doença. informações mais precisas é necessária para a tomada de decisões de tratamento para distinguir casos agressivos de doença indolente, para os quais fatores hereditários podem ser uma ferramenta útil. A composição genética de PRCA só recentemente começou a ser desvendado através de estudos de associação do genoma de grande escala (GWAS). O single de Polimorfismos até agora identificados (SNPs) explicam, no entanto, apenas uma fração do agrupamento familiar. Além disso, os SNPs de risco conhecidos não estão associados com a evolução clínica da doença, tais como a doença agressiva ou metastizado, e, portanto, não pode ser utilizado para prever o prognóstico. Anotar os SNPs com dados clínicos profundo junto com perfis de expressão de miRNA pode melhorar a compreensão dos mecanismos subjacentes de diferentes fenótipos de câncer de próstata.

Resultados

Neste estudo foram estudados microRNA (miRNA) Perfis como potenciais biomarcadores para prever o resultado da doença. Os sujeitos do estudo eram de alto risco famílias com cancro da próstata finlandeses. Para identificar potenciais biomarcadores nós combinamos um teste não-paramétrico de romance com uma medida de importância fornecida a partir de um classificador aleatória Forest. Esta combinação entregue um conjunto de nove miRNAs que foi capaz de separar os casos dos controles. Os perfis de expressão de miRNA detectados poderia prever o desenvolvimento dos anos de doença antes do diagnóstico real AEP ou detectar a existência de outros tipos de cancro nos indivíduos estudados. Além disso, usando uma análise de expressão Quantitative Trait Loci (eQTL), SNPs regulamentares para miRNA miR-483-3p que também foram associados diretamente com PRCA foram encontrados.

Conclusão

Com base em nossos resultados, sugerimos que miARN perfil de expressão à base de sangue pode ser utilizada no diagnóstico e talvez mesmo o prognóstico da doença. No futuro, miRNA profiling poderia ser utilizado na triagem direcionada, juntamente com os testes (PSA) específico da próstata antígeno, para identificar os homens com um risco elevado AEP

Citation:. Fischer D, Wahlfors T, Mattila H, oja H, Tammela TLJ, Schleutker J (2015) Perfis Mirna em linfoblastóides linhagens celulares de Famílias finlandesa do cancro da próstata. PLoS ONE 10 (5): e0127427. doi: 10.1371 /journal.pone.0127427

Editor do Academic: Xin-Yuan Guan, The University of Hong Kong, China

Recebido: 19 de dezembro de 2014; Aceito: 15 de abril de 2015; Publicado em: 28 de maio de 2015

Direitos de autor: © 2015 Fischer et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Disponibilidade de dados: Todos os dados relevantes estão disponíveis a partir EBI (número de acesso e-MTAB-3397)

Financiamento:. Este trabalho foi financiado pelo Fundo de Investigação médica do Hospital Universitário de Tampere (9L091, 9M094, e 9N069), o Cancer Organizações finlandês, a Sigrid Juselius Foundation, e da Academia da Finlândia (concede 116437 e 251074) para JS. Este trabalho também foi apoiado pelo Programa de Doutoramento finlandês em Stochastics e Estatística para DF

Conflito de interesses:.. Os autores declararam que não existem interesses conflitantes

Introdução

Prostate câncer (AEP) é a neoplasia maligna não-cutâneos mais comum ea segunda principal causa de mortes relacionadas ao câncer entre os homens nos países industrializados [1]. Na Finlândia, 4604 casos de cancro da próstata nova foram diagnosticados em 2012 (Cancer Registry finlandês, https://www.cancer.fi/syoparekisteri/). Envelhecimento e testes de PSA podem ser as razões mais evidentes para o aumento do número de novos casos. A incidência crescente cria pressão sobre o sistema de saúde como a preocupação em relação overtreatment é considerável. Por conseguinte, um dos principais desafios é melhorar as ferramentas de diagnóstico e de prognóstico para ser capaz de distinguir da doença indolente letal a um estado curável da doença.

A contribuição de variantes genéticas foi estudada extensamente em associação com predisposição para o cancro da próstata. Ambos ligação e GWAS em conjunto com os poucos exemplos que derivam de abordagens gene candidato conduziram à identificação de cerca de 100 loci genéticos que explicam apenas cerca de 30% do risco genético para a doença [2] [3] [4] [5]. No entanto, não existe qualquer evidência molecular ou funcional óbvio que indica como as variações nestes locais candidatos ou suas variantes vizinhos co-herdado poderia causar AEP. Na verdade, a maioria das variantes de um único nucleótido (SNPs) encontrados por GWAS não são susceptíveis de afectar a sequência de codificação de qualquer gene, mas, em vez residem nas regiões intergénicas. Estes achados sugerem que eles têm um papel regulador, tal como na transcrição, splicing ou a estabilidade do ARNm, em vez de um efeito directo sobre a função do produto do gene [6].

Nos últimos anos, a importância do genoma de codificação não-proteína na regulação funcional do desenvolvimento normal e desenvolvimento da doença tornou-se evidente. MiRNAs são curtas RNAs não-codificantes que regulam a expressão do gene alvo, tipicamente por ligação à região 3 ‘não traduzida (UTR) do alvo ARNm [7]. variação individual dos níveis de expressão de miARN pode influenciar a expressão de ARNm do gene alvo, provocando diferenças fenotípicas.

Vários estudos demonstraram que os níveis de expressão de miARN são preditivos para o resultado de tumores sólidos e leucemias, mas a contribuição de alteraram os níveis de expressão de miRNA a suscetibilidade ao câncer genética não é conhecida. A actividade de transcrição de genes que codificam a proteína é herdada como uma característica quantitativa, e polimorfismos associados com a regulação da variabilidade dos níveis de ARNm são considerados eQTL. Apesar da importância demonstrada, o conhecimento da regulação genética de expressão miRNA ainda está em sua infância. Em recente publicação, mais de cem eQTLs em fibroblastos primários foram descritos, indicando, pelo menos, um papel parcial para a variação genética na expressão miRNA alterada [8]. análises combinadas de SNPs e variações comuns em perfis de expressão de miRNA pode servir como uma maneira de explicar as funções biológicas de SNPs identificados a partir de GWAS em doenças comuns.

O objetivo deste estudo foi avaliar os perfis de linfoblast�de expressão miRNA linhas celulares (LCL) derivadas de membros de alto risco famílias AEP. expressão miRNA alterada em LCLS paciente em comparação com aqueles de membros da família saudáveis ​​proporcionou a oportunidade de identificar variantes da linha germinativa em outras regiões reguladoras dos genes codificadores de proteínas como uma quantidade considerável de expressão miRNA promotor ou está correlacionada para hospedar e expressão do gene alvo [9]. A grande quantidade de resultados de teste de miARN-sábio significativas dentro dos dados também exigiu o desenvolvimento de um novo tipo de tubagem análise da expressão diferencial. Para desenvolver tal gasoduto, o teste de expressão diferencial foi combinada com as medidas importância do algoritmo de aprendizado de máquina, Random Floresta [10].

Materiais e Métodos

Declaração de Ética

Este estudo foi aprovado pelos respectivos conselhos IRB do Ministério dos Assuntos Sociais e da Saúde (SMT), autoridade nacional de controlo para o Bem Estar e Saúde (Valvira) e Comissão de Ética do Hospital Universitário de Tampere. Cada indivíduo participante do estudo tenha dado consentimento informado por escrito.

População do estudo

Todas as amostras são de origem finlandesa e a recolha das famílias tem sido relatado anteriormente [11]. Para o estudo microarray miRNA, foram utilizados 115 casos de 70 famílias AEP. As famílias selecionadas tiveram pelo menos dois parentes de primeiro grau com diagnóstico de câncer de próstata em qualquer idade. (= sem cancro da próstata diagnosticados) indivíduos saudáveis ​​(n = 78) a partir de 47 famílias foram utilizadas como controlos. A média de idade no momento do diagnóstico para os casos foi de 65 (44-86.2) anos e os controles tinham uma idade média de 57,5 ​​(35.2-83.3) anos no momento em que as amostras foram obtidas.

Um subconjunto de indivíduos ( n = 54) a partir do experimento de microarray foram genotipados com matriz de HumanOmniExpress Ilumina de outra experiência, e os resultados encontram-se publicados em outro [12]. Assim, essas amostras 54 pode ser utilizado aqui para a análise eQTL (39 casos AEP e 15 controlos). 83 indivíduos adicionais poderiam ser utilizados para fins de validação. Ao todo, havia 137 pessoas genotipados de 33 famílias (20 sobreposição de famílias com a parte microarray do estudo).

O resultado clínico do câncer de próstata pode ser grosseiramente classificados em câncer agressivo e não agressivo, com base no PSA , escore de Gleason e outras avaliações clínicas [13]. Com base nestas orientações, os doentes com cancro da próstata a partir dos dois experimentos foram agrupadas em 36 (36) agressiva e 79 (66) cancros da próstata não-agressivos. O número máximo de casos agressivos por família foi de 3, eo mínimo foi de 1. Uma descrição pormenorizada dos indivíduos no estudo é dado na figura 1.

Para cada grupo de saúde, o número de entidades privadas dos diferentes experiências é mostrado. O número global de um experimento é então indicada pela respectiva caixa colorida mais a caixa vermelha (sobreposição). inferior: Visualização do fundo familiar. As três opções ‘AEP única’, ‘apenas saudável “ou” AEP /Saudável’ são mostrados e agrupados de acordo. Além disso, o envolvimento de diferentes famílias nas duas experiências é mostrado. A ordenação é de acordo com um código de família interno.

extração de RNA a partir de linhas celulares linfoblastóides

LCLS foram obtidos pela transformação do vírus de Epstein-Barr de leucócitos mononucleares periféricas de pacientes e seus familiares saudáveis . As linhas de células linfoblastóides foram cultivadas em meio RPMI-1640 (Lonza, Walkersville, MD, EUA) suplementado com 10% de soro fetal bovino (Sigma-Aldrich, St. Louis, MO, EUA) e antibióticos, a 37 ° C, 5% de CO2 e 95% de humidade. Os sedimentos celulares foram congelados instantaneamente, e o ARN total foi extraído com Trizol de acordo com as instruções do fabricante (Invitrogen, Carlsbad, CA, EUA). Os rendimentos de ARN foram quantificados usando um espectrofotômetro ND-1000 (Nanodrop Technologies, Wilmington, DE, EUA) e Agilent 2100 Bioanalyzer (Agilent Technologies, Santa Clara, CA, EUA).

análise MicroRNA microarray

os níveis de expressão em microARN LCLS foram detectados usando Agilent Humano V2 miARN Oligo Microarray Kit (Agilent Technologies). Em primeiro lugar, com 100 ng de ARN total foi utilizado como material de partida, e miARNs foram marcadas utilizando o kit de rotulagem da Agilent miARN. RNA etiquetado foi hibridado com microarrays Agilent miRNA que têm oito matrizes idênticas por slide, com cada matriz contendo sondas dirigidas contra 817 miRNAs (719 humanos, 76 miRNAs virais não-humanos e 22 controle de miRNAs). No total, foram utilizados 26 slides, e os dados foram extraídos usando software da Agilent Feature Extraction (FES), versão 10.7.1.1 com o D_F_20091030 layout de grade. Para análise dos dados, as amostras de baixa qualidade foram primeiramente removido, resultando em 193 indivíduos. Cada Agilent microarray V2 indivíduo mede 13,737 características, ea FES então utilizado esses recursos para calcular os valores de expressão para 2.466 sondas (2.125 humanos); com base nessas sondas foram calculados os 817 valores de expressão de miRNA. Os dados podem ser acessados ​​através de adesão ArrayExpress E-MTAB-3397.

Os valores de expressão de miRNA são normalmente calculados com o algoritmo

gTotalGeneSignal

como implementado no FES, mas neste estudo, no entanto, sonda -wise, valores medianos fundo subtraído foram usados ​​em vez. A análise de diferentes sondas do mesmo miARN como um único valor expressão miARN não pareceu ser suficientemente fiável, e uma análise ao nível da sonda era mais viável. Depois de calcular os valores de expressão ao nível da sonda, todas as sondas não-humanos e os que não detectada pelos FES foram removidos. Apenas as sondas que foram detectados por, pelo menos, 50% das amostras em pelo menos um grupo do estado de saúde foram usadas para análise posterior. Além disso, as características de controlo não-humanos foram removidos antes da análise. No total, 547 sondas, o que representa 211 miRNAs, cumpriu esses critérios. A variabilidade técnica dos dados foi reduzida pela aplicação de uma normalização quantil [14].

Análise de Dados Genotipagem

O polimorfismo de nucleotídeo único (SNP) de dados de genótipos foram gerados usando um array HumanOmniExpress da Illumina em colaboração com do Instituto de Medicina Molecular Finlândia (FIMM). A matriz activada escolhido a genotipagem de SNPs cerca de 700k. Para produzir os dados de genótipos, os dados brutos foram analisados ​​com o genoma do estúdio de acordo com as instruções do fabricante (Illumina, San Diego, EUA).

No total, a informação do genótipo para 137 indivíduos estava disponível, com a expressão de miARN níveis também medido em 54 desses indivíduos. Assim, a análise foi eQTL com base nestas 54 pessoas. Os restantes 83 indivíduos foram utilizados para validação dos resultados.

Identificação de sondas diferencialmente expressos usando o teste direccional

pacientes AEP foram divididos em agressiva (A) e não-agressivo /leve (M) grupos AEP e comparados com controles saudáveis ​​(H). Um novo tipo de generalização de testes de Mann-Whitney foi aplicado para identificar sondas diferencialmente expressos em comparação com três grupos. O mesmo generalização foi utilizado para a análise eQTL (para mais detalhes veja [15] e [16]).

Para uma definição geral, deixe os tamanhos das amostras dos três grupos de ser

N

H

,

N

M Comprar e

N

a

o que resulta em um total tamanho de amostra de

N

H

+

N

M

+

N

A

=

N

. O teste de Mann-Whitney generalizada é baseada em índices probabilísticos calculados com somas triplos de funções indicadoras correspondentes. Seja x

p

;

H

= (

x

1,

p

;

H

,

x

2,

p

;

H

, …,

x

N

H

,

p

;

H

)

T

, x

p

;

M

= (

x

1,

p

;

M

,

x

2,

p

;

M

, …,

x

N

M

,

p

;

M

)

T Restaurant and x

p

;

A

= (

x

1,

p

;

A

,

x

2,

p

;

A

, …,

x

N

A

,

p

;

A

)

T

ser os valores de expressão para uma sonda

p

em cada grupo de saúde com subjacente

cdf

‘s

F

p

;

H

,

F

p

;

M Comprar e

F

p

;

A

. O índice probabilístico

P

^

H

,

M

,

A

;

p Compra de sonda

p

utilizado nesta abordagem pode ser calculada pore

I

(⋅) é a função indicador de que é 1 se a condição (⋅) é verdadeiro e 0 se não. Por favor note que a ordem do índice de

P

^

H

,

M

,

a

;.

p

refere-se à ordem utilizada na função indicador

Além disso, o índice probabilístico

P

^

H

,

M

,

A

;

P

pode, então, ser usadas para testar a hypothesiswhere direccional ≺ refere-se à ordenação estocástica de

CDF

‘s. Naturalmente, em diferentes ordens a condição (⋅) a função de indicador pode ser usado para testar diferentes alternativas. Além disso, quando os valores de expressão são atribuídos a grupos de genótipos em vez do estado de saúde, este procedimento de teste é ideal para testar eQTL, uma vez que os testes para as alternativas de direcção que estão claramente presentes no contexto de uma análise eQTL.

A dois índices probabilísticos

P

^

H

,

M

,

A

;

p

e

P

^

A

,

M

,

H

;

p

foram utilizados para sondas de teste

p

= 1, …, 547, e p-valores para a versão de teste de permutação foram calculados com base em 5000 permutações. Os resultados de teste com valor de p inferior a 0,01 foram considerados significativos. O método de teste é implementado no R-pacote

gMWT

[16], e o pacote

GeneticTools

exploits este método de teste para testes eQTL. Ambos os pacotes estão disponíveis gratuitamente a partir do Comprehensive R Archive Network (CRAN).

O procedimento de múltiplos testes Benjamini-Hochberg para controlar a taxa de detecção falsa é visualizada utilizando parcelas de rejeição e linhas. A proporção de rejeições esperados sob a hipótese nula é apresentada contra a proporção observada de rejeições. Se esta curva está acima da (0, 1) -line, temos rejeições mais do que o esperado sob a hipótese nula. As rejeições de um tamanho fixo de teste pode ser visualizado com uma linha vertical, e as rejeições para diferentes vários ajustes de teste podem ser visualizadas por linhas com uma certa inclinação. O número de hipóteses nulas rejeitadas é então determinada pelo ponto de passagem da curva e da linha. Para mais detalhes, veja [15].

Classificação, Medida Importância e Clustering

O classificador aprendizagem de máquina aleatória Floresta [10], tal como aplicado no pacote-R

Floresta aleatória

[17], foi aplicado aos dados de expressão, de tal modo que o conjunto de dados foi dividida em a formação (75%) e os dados de teste (25%). Os dados de treino foram usadas para criar um conjunto de 2500 árvores de decisão, e estas árvores foram então usados ​​para classificar os dados de teste. A divisão entre os dados de treinamento e validação foi então repetido 2000 vezes, e mais tarde os resultados da classificação de todos os dados execuções de teste foram avaliados. A medida importância Gini também foi extraído para cada Floresta aleatória, ea importância média de cada sonda foi combinado com o p-valor correspondente a partir do teste direcional. As sondas que tinham um valor de p inferior a 0,01 e que pertenciam aos 10% sondas mais importantes sobre todas as execuções aleatória florestais foram considerados de alto interesse (HI sondas) e foram, em seguida, utilizado no passo de agrupamento e na análise eQTL.

as Florestas aleatórios foram treinados para as três classes possível resultado saudável (H), leve PRCA (M) e PRCA agressivo (a). Vamos

L

i

,

r

;

H

,

L

i

,

r

;

M Comprar e

L

i

,

r

;

A

ser as probabilidades de classe fornecidas pelo Aleatório Floresta classificador run

r Compra de indivíduo

i jogue com

L

i

,

r

;

H

+

L

i

,

r

;

M

+

L

i

,

r

;

a

= 1. Estas probabilidades foram então combinados em um único valor de severidade PRCA

S

i

,

r

=

1

2

L

i

,

r

;

M

+

L

i

,

r

;

A

. O valor severness

S

i

,

r

foi escolhido de tal forma que

S

i

,

r

= 0 no caso de que

L

i

,

r

;

H

= 1 ,

S

i

,

r

= 0,5 para

L

i

,

r

;

M

= 1 e

S

i

,

r

= 1 se

L

i

,

r

;

a

= 1.

Em um 2-way prazo Floresta aleatória, a classificação foi realizada apenas entre os saudáveis ​​e PRCA classes, com mesma configuração como que para o 3-way aleatória Floresta descrito acima.

para calcular a área sob a curva (AUC) da curva Receiver Operating Characteristic (ROC), na Floresta Aleatório caso, foram escolhidas duas abordagens diferentes. Primeiro, as duas probabilidades

L

i

,

r

;

M Comprar e

L

i

,

r

;

a

foram adicionados para avaliar a capacidade da Mata aleatória para classificar PRCA em geral. Em seguida, na segunda comparação, as probabilidades

L

i

,

r

;

H Comprar e

L

i

,

r

;

M

foram adicionados para avaliar a sua aptidão para identificar AEP agressivo. Eventualmente, para traçar o ROC um valor de corte contínuo em [0, 1] foi aplicado sobre a probabilidade para classificar os indivíduos em verdadeiros /falsos positivos.

Para o agrupamento na heatmap, a matriz de correlação tau Kendall S entre todas as amostras foi calculada com base nos valores das sondas HI expressão. tau Kendall ‘entre duas variáveis ​​é uma medida de dependência positiva /negativa e é invariante sob qualquer estritamente crescente transformação para as variáveis ​​marginais. A distância correspondente entre as variáveis ​​é então definido como D = (1 – S) /2. Vamos então D ser a matriz de distâncias utilizados para o agrupamento hierárquico.

Análise eQTL

A informação do genótipo da matriz 700k foi combinado com os valores das sondas HI utilizando uma análise eQTL expressão. Foram identificados os locais cromossômicas das sondas de miRNA e todos os SNPs dentro de uma janela de 1Mb torno localização central da sonda estavam ligados a esta sonda. Os valores de expressão de sonda foram então designados para os grupos de genótipos de cada ligada SNP (figura 2 mostra um esboço sistemática desta etapa).

Independente do estado de saúde de cada indivíduo, os valores de expressão são agrupados de acordo com o grupos de genótipos dos SNPs vizinhas e, em seguida, testado para expressão diferencial entre os grupos. (Figura tomadas a partir de [16])

Em uma abordagem eQTL, três casos são possíveis, dependendo se os valores de expressão foram atribuídos a um, dois ou todos os três possíveis grupos de genótipos. variantes monomórfica não foram ainda consideradas na análise, e, no caso de dois grupos, um de dois lados teste de Mann-Whitney foi aplicado. No caso de três grupos, foi utilizado o teste de Mann-Whitney para generalizada alternativas direccionais para as duas alternativas diferentes se os valores mais elevados de expressão foram ligados com o tipo selvagem ou a mutação homozigótica. Este tipo de teste direccional foi usado no caso dos três grupo como uma ordem para os valores de expressão em relação aos grupos de genótipos é claramente esperado.

Análise Comparativa

Os dois estágios aqui usado abordagem foi comparado com dois outros métodos vulgarmente utilizados. O primeiro método foi um análise clássica de variância (ANOVA), testar a hipótese alternativa de que existe uma diferença entre, pelo menos, dois dos três grupos. Vamos

μ

p

,

H

,

μ

p

,

M

e

μ

p

,

a

ser os valores de expressão médios de sonda

p

para os três grupos, em seguida, é a hipótese de sonda-wise para o one-way ANOVA

Resultando valores de p foram então ajustados para testes múltiplos usando uma correção de Bonferroni.

o segundo método que foi usado como comparação foi um dois-encenado regressão logística com lasso (LRL). Em primeiro lugar, LRL foi aplicado sobre o conjunto de dados completa com as duas classes saudáveis ​​/doentes. O parâmetro de ajuste

λ

foi escolhido de modo que a quantidade de variáveis ​​selecionadas estavam no mesmo nível de grandeza que os identifica métodos aqui propostos. A segunda LRL prazo foi então aplicado sobre apenas e voltadas para a separação de PRCA leve e agressivo dos casos de câncer. Finalmente as sondas resultantes foram fundidas a uma matriz de resultados da análise LRL.

Para comparar os resultados da análise de variância e o LRL com a abordagem aqui proposta, um agrupamento hierárquico foi aplicado sobre as detecções identificadas usando também um Kendall de matriz de distância baseado tau. Em seguida, foi calculado o Índice de Rand ajustado entre a classificação dos três agrupamentos diferentes eo status câncer verdadeira dos indivíduos para determinar o nível de concordância.

Resultados

Usando o procedimento de teste direcional, 146 (87 com maior expressão na PRCA agressiva e 59 com maior expressão nos controles), de um total de 547 sondas foram identificados com perfis de expressão diferentes. A localização cromossômica das sondas significativas e do tipo de alternativa testes são visualizados na Figura 3.

resultados de testes significativos que também pertencem ao miRNAs 10% a mais importante (Índice de Gini) no prazo aleatório Floresta são indicadas como HI sondas.

para identificar sondas HI deste inesperadamente grande quantidade de sondas diferencialmente expressos, um classificador aleatória Forest, também foi aplicada aos dados de expressão. sondas significativas que estavam dentro de 10% das sondas mais importantes na Floresta aleatória, medida como índice de Gini, foram chamados sondas HI e são destacados na figura 3. As 13 sondas identificadas representam oito miRNAs diferentes e um RNA spliceosomal. Mais detalhes sobre as 13 sondas identificados estão listadas na Tabela 1.

O resultado geral de classificação com base nos valores de severidade

S

i

,

r

da Floresta aleatória é visualizado na Figura 4. os indivíduos saudáveis ​​(verde) claramente tendem a ser na área de menor risco, mas os pacientes AEP agressivos (vermelho) não tendem a ter valores maiores do que PRCA não agressivo pacientes (amarelo). Além disso, uma taxa média de classificação sobre todas as execuções de classificação foi determinada separadamente para as comparações entre saudável e PRCA e entre AEP agressiva e combinado AEP saudável e não-agressivo. A Floresta aleatória foi capaz de classificar PRCA com uma AUC média da ROC de aproximadamente 0,89 e PRCA agressiva contra as amostras combinadas de não-agressivo AEP e controles de 0,68 (Fig 5). Os resultados da classificação a nível individual são visualizados na informação de suporte (S1 e S2 Figs).

Indivíduos saudáveis ​​são comparados com resultados combinados não agressivos /agressivas PRCA (curva preta) e PRCA agressiva classificações são comparados com os outros grupos reunidos (vermelho).

Um agrupamento hierárquico mostra a importância das sondas HI. Agrupando o conjunto de dados com base em todas as sondas resultou em apenas uma classificação ligeiramente melhor do que o agrupamento com base nas 13 sondas HI. O dendrograma para Cluster indivíduos, dependendo das 13 sondas de HI em conjunto com o correspondente mapa de calor é mostrado na Fig 6. Aqui, a capacidade de separar claramente entre AEP agressivo e não agressivo foi limitado, mas curiosamente apenas cinco dos 78 indivíduos saudáveis ​​foram agrupados em estreita colaboração com os indivíduos AEP. Em contraste, 46 dos 115 casos AEP estavam dentro do cluster que continha a maioria dos indivíduos saudáveis.

As cores vermelhas referem-se a valores de expressão baixos, enquanto que as cores verdes representam grandes valores de expressão para a sonda particular. O miRNA alvo IDs correspondentes às IDs de sonda estão listadas na Tabela 1. Cores no dendrograma representar o estado de saúde observada (verde: saudável, amarelo:. Non-aggr AEP, vermelho: aggr.PrCa)

Além disso, foi realizada uma cis-eQTL (0,5MB up /janela downstream) para as sondas HI. No total, 3863 associações SNP-miRNA foram testados, e 79 tinham um valor de p ≤ 0,01, (S3 Fig nas informações de suporte). Todos os SNPs que foram encontrados para ter um possível efeito regulador sobre uma sonda HI foram então testados para uma associação direta PRCA pela aplicação de um Fisher-teste na mesa de 2 × 3 entre grupos de genótipos e estado de saúde. Durante quatro SNPs, uma associação significativa foi encontrada para os 53 genótipos das amostras eQTL (tamanho de teste 0,05).

Nas amostras em que só o genótipo de dados foi disponíveis, seis SNPs associados foram encontrados, mas SNPs significativas de o primeiro teste, inicial não pode ser validada com os dados de genótipos adicionais. Para ambos os conjuntos de dados no entanto, houve um, respectivo quatro (em 15) SNPs significativamente associados em cis-localização do miRNA hsa-miR-483-3p (ver Tabela 2 para obter informações detalhadas).

A parte superior parte é do conjunto de dados eQTL, ea parte inferior é os resultados para os dados de validação.

Finalmente, o método aqui proposto foi também comparado a uma abordagem ANOVA e uma LRL. Usando um nível de significância de testes ajustados múltipla

α

= 0,001 resultou em 14 sondas significativas, enquanto que o parâmetro LRL ajuste foi definido tal, que LRL identificou 15 sondas a ser de grande interesse. A quantidade de interseção sondas entre estas duas abordagens tinha sete anos, enquanto que a intersecção das HIprobes com as sondas ANOVA tinha apenas cinco anos e com LRL mesmo apenas três. Comparando a qualidade do agrupamento com base nessas sondas que utilizam o Índice de Rand Ajustado, resultou em um índice de Rand de 0,168 para as sondas identificadas pela abordagem aqui proposta, 0,130 para a análise de variância e 0,131 para a abordagem LRL.

discussão

os objectivos do estudo foram para aplicar novos métodos estatísticos que melhor diferenciam agressiva de câncer de próstata indolente e, são robustas contra valores extremos e para examinar os valores de prognóstico e de diagnóstico de miRNAs derivados do sangue.

neste estudo, foi utilizada uma abordagem Mann-Whitney generalizada [15] combinado com o algoritmo aleatório Floresta para identificar miRNAs diferencialmente expressos. Ao combinar os dois métodos, que foram capazes de reduzir significativamente o painel de miARNs interessantes. A vantagem desta abordagem é que ele combina eficazmente os dois métodos diferentes para detectar variáveis ​​significativas. Cada abordagem por si só identificou um grande número de miRNAs significativas, mesmo depois de controlar a taxa de descoberta de falsas. No entanto, combinar estes dois métodos, desde uma lista mais curta de miRNAs de interesse potencial, reduzindo efetivamente a quantidade de resultados falsos positivos. S4 Fig na informação de suporte mostra detalhes sobre as rejeições de teste e as consequências de uma correção Benjamini-Hochberg.

Sem qualquer correcção de testes múltiplos, os dois testes mostraram taxas de rejeição de cerca de 16% e 10% para um teste tamanho de 0,01. Aceitando uma taxa de detecção falsa de 0,05% as taxas de rejeição ainda estavam na ordem dos 5-10%. Em vez de controlar apenas a taxa de detecção falsa, um método de teste múltipla foi omitido, e um método de conjunto que combina os resultados das duas abordagens diferentes foi usado em vez disso. Embora isso foi feito sobre uma possível custa de muitos resultados falsos negativos, o conjunto aqui identificados ganhou ainda mais a confiança através da combinação dos resultados dos testes.

Além do desenvolvimento de ferramentas analíticas, obtendo bons jogos entre casos e controles é importante, especialmente em estudos de miRNA para o qual os resultados entre os estudos são muitas vezes conflitantes. O uso de casos familiares prca finlandeses e seus parentes saudáveis ​​activado para reduzir a heterogeneidade dos perfis de expressão de miARN de fundo a ser reduzida. Na realidade, os indivíduos dentro de famílias foram observadas para partilhar uma assinatura miARN específico para a família, e membros da família foram mais frequentemente agrupado ao lado do outro. Consequentemente, os biomarcadores de miRNA informativos que podem distinguir pacientes de suas contrapartes saudáveis ​​dentro de uma família são extremamente interessante.

expressão miRNA Altered foi identificado em diferentes neoplasias. Dependendo do perfil de expressão no tumor, eles podem actuar tanto como oncogenes ou supressores de tumores. Nosso protocolo identificou oito miRNAs e um RNA splicosomal com potencial importância na determinação do risco AEP.

Deixe uma resposta