PLOS ONE: Novel Métodos Estatísticos Revelar MicroRNAs com expressão diferencial em vários Cancer Types

Abstract

Background

microRNAs (miRNAs) regulam genes alvo ao nível pós-transcricional e peça baseada-Rank papéis importantes na patogénese e ao desenvolvimento do câncer. Variação entre os indivíduos é um fator de confusão significativo no miRNA (ou outros) estudos de expressão. O verdadeiro caráter da expressão diferencial biologicamente ou clinicamente significativa pode ser obscurecida pela variação inter-paciente. Neste estudo pretendemos identificar miRNAs com expressão diferencial consistente em vários tipos de tumor utilizando uma abordagem de análise de dados romance.

Métodos

Usando microarrays nós perfilado a expressão de mais de 700 miRNAs em 28 correspondida tumor /amostras normais de 8 tipos de tumores diferentes (mama, cólon, fígado, pulmão, linfoma, ovário, próstata e testículo). Este conjunto é único em colocar ênfase na minimização tipo de tecido e paciente variabilidade relacionados utilizando amostras normais e tumorais do mesmo paciente. Desenvolvemos pontuação para comparar expressão miRNA nos dados da amostra emparelhadas acima com base em uma caracterização rigorosa da distribuição de estatísticas de ordem sobre um conjunto de estados discretos, incluindo valores p exatos. Especificamente, calculamos um Índice Posto Consistência (RCOs) para cada miRNA medidos em nossos dados. Nossos métodos são também aplicáveis ​​em vários outros contextos. Nós comparamos os nossos métodos, como aplicado a amostras emparelhadas, para teste t pareado e o teste de classificações de Wilcoxon Signed.

Resultados

identificar consistente (através dos tipos de câncer medidas) miRNAs diferencialmente expressos . 41 miARNs são sob-expresso em cancro, em comparação com o normal, em FDR (Falso Descoberta Classificação) de 0,05 e 17 são sobre-expressos no mesmo nível FDR. miARNs expressos diferencialmente incluem oncomiRs conhecidos (e.g. miR-96), bem como miARNs que não foram anteriormente universalmente associados com o cancro. Exemplos específicos incluem miR-133b e miR-486-5p, que são consistentemente baixo regulado e mir-629 *, que é consistentemente-se regulada no cancro, no âmbito da nossa coorte. Os dados estão disponíveis no GEO. Software está disponível em: https://bioinfo.cs.technion.ac.il/people/zohar/RCoS/

Citation: Navon R, Wang H, Steinfeld I, Tsalenko A, Ben-Dor A, Yakhini Z (2009) Métodos estatísticos Novel Rank-Baseado Revelar MicroRNAs com expressão diferencial em vários tipos de câncer. PLoS ONE 4 (11): e8003. doi: 10.1371 /journal.pone.0008003

editor: Thomas Preiss, Chang Instituto Victor Cardiac Research (VCCRI), Austrália |

Recebido: 26 de julho de 2009; Aceito: 29 de outubro de 2009; Publicação: 25 de novembro de 2009

Direitos de autor: © 2009 Navon et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. RN, IS e ZY foram parcialmente financiado por uma subvenção da União Europeia FP6, no âmbito do Projeto MultiKnowledge. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

Conflito de interesses:. RN, HW, AT, ABD e ZY são funcionários atuais da Agilent Technologies. IS foi empregado pela Agilent Technologies durante parte do tempo do estudo. Os autores aderir plenamente a todas as PLoS ONE políticas em dados e materiais de compartilhamento.

Introdução

perfil de expressão gênica é comumente aplicada para identificar diferenças entre classes de tipos de células, como manifestado em genes diferencialmente expressos [1] – [4]. Um conjunto de dados típica compreende dezenas de amostras em que os níveis de milhares de genes de expressão são medidos. Em dados de expressão classificou o conjunto de amostras é dividida em diversos subgrupos ou classes com base no conhecimento prévio, tais como amostras normais versus amostras de tumor ou amostras de diferentes tipos de câncer. Do mesmo modo, pode ser dividida em condições diferentes, diferentes fases, ou de diferentes categorias terapia relacionada. A maior parte da literatura de análise de dados actual concentra-se em considerar todo o conjunto de dados no processo de identificação de genes expressos diferencialmente. Vários tipos de variações genômicas são significativos e muitas vezes ignorados fatores de confusão em estudos de expressão diferenciais. Por exemplo, em Shyamsundar et ai. [5] o levantamento autores RNA mensageiro variação do nível de expressão em tecidos humanos normais, mostrando os potenciais efeitos de confusão de variação inter-tecido.

Seria útil para identificar diferenças estatisticamente significativas em várias amostras que podem ser atribuídos de maneira confiável para o estado biológico específico, tal como o cancro ou a doença, em vez de variações biológicas individuais, tal como referido acima. Em muitas situações, há uma oportunidade para a recolha de série de tecido ou de sangue de um paciente, animal experimental ou linha celular de [6], [7]. No entanto, muitas técnicas de análise atual não exploram as relações únicas dentro de tais dados. Em outros casos, classe ou variabilidade paciente pode mascarar a expressão diferencial e precisa ser tratada. Neste estudo, analisar amostras pareados para investigar tumor vs. expressão diferencial normal, o que é consistente para vários tipos de tumores, e descrever os métodos estatísticos adequados e robustos que sustentam esta investigação.

Atualmente, centenas de microRNAs (miRNAs) foram identificados em seres humanos. Estes são curtos (geralmente cerca de 22 nt) não codificante moléculas de RNA de regulamentação e as suas sequências são publicados no Sanger miRBase [8]. miARN perfil de expressão tem sido reconhecido para fornecer informação valiosa biológico com potencial para complementar ou substituir o ARNm profiling [9]. miARNs regulam genes alvo ao nível pós-transcricional e desempenham um papel importante em desenvolvimento, bem como no cancro [9] – [11] e em outras doenças humanas, incluindo doenças do coração [12] – [14], a esquizofrenia [15] e psoríase [16]. miARNs são altamente expresso diferencialmente em diferentes tipos de tecidos [10]. Portanto, para identificar expressão diferencial miRNA devido às condições específicas que precisamos para minimizar o efeito de confusão da expressão diferencial dependente do tecido acima.

Nosso objetivo neste estudo é identificar miRNAs que estão consistentemente diferencialmente expressos em vários tipos de câncer . Para evitar tipo de tecido variabilidade e para medir câncer relacionado atividade de miRNA diferencial em cada tipo separadamente; usamos um conjunto de dados de amostra combinado que consiste em 32 medidas de microarray que representam 28 tumor combinados e amostras normais. Usamos micromatrizes contendo sondas para 799 miARNs ao perfil de expressão de miARN nestas amostras.

A nossa motivação na busca miARNs com expressão diferencial consistente em vários tipos de cancro origina a partir do conhecimento existente, que muitos processos biológicos são comuns a diferentes tipos de cancros. Em particular, vários genes são conhecidos por ser universalmente expressos diferencialmente em vários tipos de cancro. O exemplo mais óbvio é p53. p53 foi descoberto pela primeira vez em 1979 e, desde então, vários estudos indicaram o seu envolvimento em vários tipos de câncer. A importância da actividade regulada de p53 intactas em prevenir a formação de tumores é indicado pela presença de mutações na via de p53 em quase todos os tipos de cancro [17], [18]. Outro exemplo de uma proteína relacionada com o cancro universal é p16. Este gene reside no cromossoma 9 e verificou-se ser mutado ou eliminado em vários tipos de cancro [19] – [22]. Estes são apenas dois exemplos específicos, entre uma grande variedade de processos celulares que são universalmente associadas ao câncer.

Estudos anteriores sobre o papel dos miRNAs em câncer incluem Lu et al. [9] que realizado um tumor versus normais análise cruzada de tecido usando tecnologia de citometria de fluxo baseado em grânulo de uma forma não-emparelhados. Este estudo mostrou que miARNs são suficientes para classificar corretamente tecidos de cancro de acordo com a sua linhagem embrionário, dando características globais de expressão miARN no cancro. Outro estudo, realizado por Volinia et al. [10], descrito medição microarray de 228 miRNAs em 540 amostras (363 câncer e 177 normais) a partir de 6 tipos de tecidos diferentes. Além de produzir assinaturas de miRNA, os autores relataram alguns miRNAs que são consistentemente acima ou abaixo expresso, mas não houve aferição estatística detalhada para a consistência da expressão diferencial miRNA. Os autores afirmam que, quando o agrupamento seus dados de forma não supervisionada, as amostras de cluster com base nos tipos de tecidos, independentemente do estado da doença, refletindo a alta variação de miRNAs ao comparar tipos de tecidos. Isso reforça nossa afirmação acima, que aponta para miRNA-tecido inter-tipo variação basal como um fator de confusão quando se pretende medir miRNA expressão diferencial câncer. Vários outros estudos focam miRNAs em tipos específicos de câncer. Por exemplo, o miR-15 e miR-16 são frequentemente suprimida e /ou regulados negativamente na leucemia linfocítica crónica de células B [23], o miR-143 e miR-145 mostra a diminuição da expressão de neoplasia colorrectal [24], e miR-155 é -regulada em linfomas de células B humanas [25].

Para suportar nossos objetivos de pesquisa que desenvolvemos métodos estatísticos que abordam caracterizam distribuições de variáveis ​​aleatórias que surgem da comparação entre amostras pareadas. No nosso caso, calcular expressão diferencial em cada tipo de tumor e, em seguida, estatisticamente avaliar sua prevalência em nosso conjunto de dados. Nossos métodos são baseados em estatísticas de ordem discretas – o vetor k-dimensional que é obtida através da elaboração números independentes k uniformemente em 1 … N e, em seguida, classificá-los, resultando vetor. Embora a distribuição de estatísticas de ordem sobre espaços estado contínuo está bem caracterizada, este não é o caso para os espaços de amostras discretas como repetições pode então ocorrer com probabilidade positiva. distribuições de computação relacionados com estatísticas de ordem discretos foi abordado em [26]. Para as nossas necessidades definimos variáveis ​​aleatórias sobre estatísticas de ordem discretos, caracterizar completamente suas distribuições e, em seguida, aplicar os métodos para os dados biológicos para avaliar a significância estatística

Para resumir, a contribuição deste trabalho consiste em:.

caracterização rigorosa da distribuição das estatísticas de ordem ao longo de um estado discreto definido, bem como de variáveis ​​aleatórias relacionadas. Esta distribuição é altamente aplicável em análise de dados combinados em uma configuração não paramétrico. Também comparamos os nossos métodos de teste t pareado e o teste de classificações de Wilcoxon Signed.

Um conjunto de dados com amostras normais de tumor combinados representam um repertório de 8 tipos de tumores. Este conjunto é único em sua ênfase na minimização do tipo de tecido e relacionado paciente variabilidade através da utilização de amostras normais e tumorais do mesmo paciente.

Ao aplicar as novas estatísticas descritas acima para nosso conjunto de dados de amostra combinado que validam conhecidos oncomiRs e descrevem vários novos miRNAs diferencialmente expressos câncer universal. Deve notar-se que esta universalidade declarado só é fundamentada, dentro do contexto do presente estudo, para as 8 tipos representados aqui.

Métodos

O ponto de partida para a análise dos resultados de a expressão do gene ou miRNA profiling estudo é o

expressão de dados brutos matriz

. Ao descrever os métodos que usam a palavra “gene”, mas “miRNA” podem ser utilizados alternadamente. Esta matriz é, tipicamente, a saída de vários passos de pré-processamento, tais como a normalização e filtragem realizada nos dados de medição bruta.

Normalmente, a análise de perfis de expressão de dados começa com a identificação e a avaliação estatística dos genes que são diferencialmente expresso quando comparando várias classes representadas na coorte. Muitos métodos de pontuação gene actuais considerar todos os valores de um dado gene de expressão. Estes estão divididos em duas ou mais populações de acordo com a classificação estudado. As diferenças entre os subconjuntos de números resultantes são avaliados utilizando vários métodos estatísticos. métodos Gene pontuação dividem em duas grandes categorias – métodos paramétricos e métodos não-paramétricos (distribuição grátis). métodos paramétricos assumir uma certa distribuição para os valores de todos os genes de expressão dentro de cada classe dada (por exemplo, cancro ou normal) e, em seguida, marcar os genes de acordo com a forma separada as distribuições específicas de classe são. Exemplos de tais métodos são o padrão

t-teste

[27] e

Erro Gaussian

marcar [28]. pontuações livres de distribuição, em contrapartida, não se baseiam em pressupostos paramétricos. Estes incluem o

Kolmogorov-Smirnov

pontuação [29], e o

teste de Wilcoxon Rank-Sum

[30], bem como o

Informações

marcar [31] e

Threshold-Número de-erros de classificação

(

Tnom

em suma) [31]. Os métodos não paramétricos últimos foram aplicados a expressão do gene e outros dados genómicos e genéticos em diversos estudos, como em [2], [32] – [35]

Este trabalho está preocupado com informações adicionais e potencialmente mais relevante. que pode ser inferido quando os dados de expressão é a partir de vários doentes e quando todas as classes foram medidos para cada paciente. Por exemplo, as amostras antes e depois do tratamento para o mesmo paciente. Outro exemplo é o tumor e amostras normais a partir do mesmo tecido de cada paciente, um design utilizado neste trabalho. As pontuações que desenvolvemos ter em conta o grau em que um gene separa duas classes, na grande maioria dos pacientes. A interpretação é um gene que é relevante para a biologia subjacente se for altamente expresso diferencialmente para a maioria dos pacientes. Além disso, damos um nível de significância (p-valor) para cada nível de relevância pontuação. O valor de p é a probabilidade de obter esse nível ou melhor, ao acaso, como descrito abaixo em mais detalhe. análise estatística rigorosa é fundamental para genes confiantemente identificar que as classes de amostra acentuadamente separadas e, assim, apontando para prometendo direções de pesquisa. variantes parciais dos métodos descritos neste trabalho foram empregados em [6], [36]. É particularmente importante trabalhar com estatísticas emparelhadas na análise de dados de expressão de miRNA, como o nível basal para estes podem ser altamente variável, especialmente em tecidos distintos [10].

Nesta seção, descrever os métodos estatísticos em alta generalidade . concretizações específicas, no contexto do tumor consistente contra expressão normal diferencial miRNA, são descritos nos resultados da Secção.

Posto Consistência Score (RCOs)

A Pontuação Classificação Consistência (RCOs) é um diferencial pontuação expressão para 2 classes que leva a correspondência paciente em conta.

Nós chamamos as duas classes classe a e classe B. em primeiro lugar, calcular a expressão diferencial entre as duas classes para cada paciente (ou assunto ou subconjunto)

k = 1 … r

e para cada gene

g

. A expressão diferencial pode ser calculada utilizando métodos diferentes e o método escolhido depende do desenho do estudo e no número de amostras para cada paciente. pontuações de expressão diferenciais incluem: mudança vezes, a pontuação de erro Gaussian,

t

-teste, Tnom e outros métodos. Muitas vezes, o número de amostras para cada paciente e classe é 1, a mudança vezes tão simples é usado.

Em seguida, classificar todos os genes por paciente de acordo com a sua expressão diferencial entre classe A e classe B. Para cada gene

g

calculamos a sua classificação para a

k

-ésimo paciente:

R

k (g) Restaurant – este é um número entre 1 e

N

, onde

N

é o número total de genes. O gene

g

topo Compra de paciente k é a mais sobre-expresso na Classe A em relação à Classe B. Ela é classificada em primeiro lugar e vamos definir. A classificação do gene mais sub-expresso na Classe A em relação à Classe B é

N

.

O nosso objetivo é encontrar genes com consistentemente elevados fileiras (de expressão diferencial entre a classe A e de classe B) em todos os pacientes. Para cada gene

g

, definimos a pontuação classificação consistência

S (g; r)

como a classificação máxima normalizada deste gene entre todos os pacientes, ou seja,

Em outras palavras, a patente de gene

g

para todos os pacientes não é pior do

S (g; r) · N

para uma maior flexibilidade na definição de consistência que permitem valores atípicos. e calcular o grau de consistência pontuações

S (g; m) Compra de

m

fora do

r

pacientes. Neste caso, para cada gene que ordem as suas fileiras e, em seguida, a pontuação

S (g; m)

corresponde à normalizada

m

-ésimo menor classificação:

Chamamos o m de r pontuação classificação consistência,

S (g; m)

,

m /r

RCOs. Nós, às vezes, referem-se a

r /r

RCOs simplesmente como RCOs. A figura 1 ilustra a definição de vários

m

fora do

r

pontuação ranking de consistência. Pseudo-código para calcular o M /RCOs r está disponível em texto S1.

Em cada um dos 5 pacientes /grupos neste exemplo, fileiras dos genes mudar de 1 a 1000. Cada coluna representa uma lista ordenada para um grupo. O gene escolhido para o exemplo tem o pior entre os 5 grupos de classificação de 200. Portanto, a sua classificação consistência é marcar 200/1000 = 0,2; sua pontuação classificação consistência em 3 dos 5 pacientes é 95/1000 = 0,095, conforme indicado pelas setas.

A análise acima irá identificar genes que são sobre-expressos na Classe A em comparação com Classe B. para encontrar genes sobre-expressos na Classe B que pode realizar a mesma análise, invertendo a lista ordenada.

para avaliar a significância estatística de qualquer valor observado de RCOs que estimar a probabilidade de se obter o valor de s, ou melhor, em dados aleatórios desenhados de acordo com um modelo nulo. Esta probabilidade é a

p-valor

correspondente a este nível

s

, sob o modelo nulo em vigor. O

p

-Valores para RCOs e de suas variantes considerados neste trabalho são calculados com base no pressuposto de independência dos pacientes e de distribuição uniforme de fileiras entre os genes dentro de cada paciente. Estes dois pressupostos definir a null-modelo subjacente.

Para calcular os RCOs m /r

p

-valor em s, que calcular a probabilidade de um ranking gene da fração de topo s do lista, em pelo menos m pacientes. Vamos

V

ser um

r

dimensional vetor aleatório com entradas desenhadas independente e uniforme em

1, …, N

. Estamos interessados ​​na probabilidade de o

m

-ésimo menor entrada no

V

ser menor do que

sN

. Ela é dada por:

Mínimo Posto Consistência Score (minRCoS)

Ao trabalhar com amostra maior define a questão de quantos valores extremos para permitir (que m para escolher) surge. Uma solução possível é baseada em princípios para calcular o valor de p m /r RCOs para todos os valores possíveis de m e escolher o valor de m com o melhor valor de p. Este valor-p tem naturalmente de ser corrigido para testes múltiplos. Nesta seção, vamos definir a pontuação mínima-rank-consistência e mostrar como caracterizar de forma eficiente a sua distribuição, possibilitando o cálculo de valores de p (sem mais necessidade de correção de testes múltiplos). Em primeiro lugar, descrever os cálculos e, em seguida, analisar a sua complexidade tempo total

Para qualquer número

N Restaurant . 0, denotamos o conjunto de fileiras {1, ..,

N

} por [

N

]; Deixe [

N

]

r representam o conjunto de vetores de tamanho

r

, onde cada entrada é de [

N

]. Nós usamos

V

para denotar um vector aleatório distribuído uniformemente ao longo [N]

r.

Dado um vector que denotam a

m

-ésimo menor número em

v

pelo

v

m . Isso é, . Dado um índice, e uma praça, denotamos por

β

(

m

,

t

) a probabilidade de que

V

m

será igual a

t

ou menos. Note-se que

β (m, t)

é o valor-p, em s =

t /N

, de grau de consistência m-out-of-r pontuação previamente definido, e pode ser eficientemente computado como mostrado na seção anterior.

Nós definimos a

mínimo grau de consistência marcar

de um vector

v

, denotado por

mRCoS

(

v

), por. Em palavras,

mRCoS

(

v

) é o melhor (mínimo) Rank consistência p-valor, onde

m

varia de

1 | a

r

.

mRCoS

(

V

) é, portanto, um valor aleatório tomada variável em [0,1]. Vamos agora calcular o valor p exato associado com

mRCoS

(

V

) a um determinado valor, p:

Dada, e um índice, definir a ser a mínima classificação

t

tal que. Note-se que, uma vez que pode eficientemente computar

β (m, t) Compra de todos e, nós podemos de forma eficiente “invertido”

β (m, t) Comprar e compute

τ

m

(

p

). Observe que . Usando a notação acima, temos:

Dado um vector fileiras constante

C

, dizemos que um vector

v

∈ [

N

]

r

é

C Restaurant –

limitada

if (para todos

m

= 1, ..,

r

). Em palavras, todas as entradas de ordenados

v Quais são maior (ou igual a) As entradas correspondentes de

C

. Por exemplo, o vector

v

= 3,2 é delimitada por, desde então.

O número total de vetores em [

N

]

r que são

C

-bounded é denotado por

B

(

N

,

r

,

C

).

por exemplo, para,

O conjunto de vetores delimitada por é, e, portanto,.

pela definição de

B

(

N

,

r

,

C

), uma vez

V

é escolhida uniformemente ao acaso, ficamos, onde

τ

(

p

) denota o vetor. Portanto, reduzimos o problema de computar um valor-p para a pontuação mínima-rank-consistência para o problema combinatória de forma eficiente computação quantos vetores em [

N

]

r são delimitadas por uma determinada vetor.

Computing

B

(

N

,

r

,

C

)

Dado dois inteiros ,

N

,

r

e um vector

C

, queremos calcular

B

(

N

,

r

,

C

), o número de

C

vetores -bounded em [

N

]

r. Para cada vector

v

nós definimos duas propriedades:.

t (v) Comprar e

k (v)

t (v)

é a entrada máxima de

v

. Isso é, . Note-se que

t (v)

pode assumir os valores de 1 a

N

.

k (v)

é o número de entradas no

v

cujo valor é estritamente menor do que

t (v)

. Note-se que

k (v)

pode assumir os valores 0 a

r

-1.

Estas duas propriedades podem ser usadas para particionar [

N

]

r.

Nós denotar o conjunto de todos os

C

vetores -bounded para o qual e. Note-se que esses conjuntos são, de facto separado, e que sua união abrange todos os

C

vetores -bounded. Usando podemos calcular

B

(

N

,

r

,

C

), soma de todos os valores possíveis de

t

e

k

:

Como existem apenas N * r tais conjuntos isso conduziria a um procedimento eficiente para computar

B

(

N

,

r

,

C

). Nós usamos uma abordagem de programação dinâmica para calcular todos os valores r N *.

Vamos

C

(1 ..

k

) ser o primeiro

k

elementos de

C

, isto é. Notamos que em um vector da (r-k) maiores fileiras igual

t

. Portanto, para calcular precisamos apenas determinar as posições dentro

v

do

k

valores menores, e seus valores reais, de modo que todos eles são estritamente menor do que

t

, e são C (1..k) delimitada:

agora usamos o seguinte procedimento de programação dinâmica para calcular o número de

C

vetores -bounded:

Isso permite -nos para calcular eficientemente o valor-p minRCoS:

Há um total de passos N * R programação dinâmica necessários para calcular B (N, R, C). Em cada passo, o cálculo B (T, K, C) requer soma sobre os valores de k T * de B. No total, a complexidade do procedimento de programação dinâmica para calcular B (n, R, C) é, portanto, O (N

2 * r

2). Para calcular que precisamos para executar um máximo de r * N RCOs cálculos p-valor, cada uma tomada O (r). Portanto, a complexidade do cálculo p-valor minRCoS para um dado p é O (N

2 * r

2).

Samples, protocolo experimental e pré-processamento de dados

Os dados foram coletados a partir de amostras total do tumor do normal adjacentes RNA adquiridos de Ambion /ABI (tumor FirstChoice® Humano /normal RNA tecido adjacente). Os pares combinados de tumor e RNAs normais foram de 14 pacientes diferentes e 8 tipos diferentes de câncer. As amostras de tecido foram de várias linhagens embrionárias: Um par de mama, linfoma, e da próstata; dois pares a partir de fígado, ovário, testículos e de pulmão; e 3 pares de cólon. Técnicas repetições foram realizadas para as amostras de ovário e testículos, portanto, um total de 32 dados de microarray foram utilizados para este estudo

.

Para cada medição de microarray, os ARN totais foram marcadas com 100 ng Cy3 utilizando ARN-ligase de T4 por Agilent miARN Micorarray v1.5 sistemas de protocolo. As amostras de RNA marcadas foram hibridizadas em microarrays Agilent miARN (kit Agilent humano miARN Microarray V2 – G4470B) durante 21 horas a 55C. As matrizes contêm sondas para 723 76 miRNAs virais humanas a partir da base de dados V.10.1 Sanger e humanos. As matrizes foram, em seguida, lavou-se à temperatura ambiente e digitalizada para produzir os sinais de hibridação (Agilent miARN Micorarray sistemas de protocolo v1.5). As matrizes foram escaneados com uma gama dinâmica alargada a 5 e 100% PMT usando o scanner Agilent (modelo G2565AA).

software Feature Extraction da Agilent versão 9.5.3.1 foi usado para gerar arquivos GeneView [37]. Estes ficheiros contêm os sinais processados ​​para cada um dos 799 miARNs na matriz. Para cada miARN, os valores de expressão (gTotalGeneSignal) abaixo do nível de ruído (gTotalGeneError) foram substituídos por o valor do erro total do gene correspondente. Todas as amostras foram então normalizados para ter a mesma 75

th valor percentual. Os dados brutos e normalizados foram depositados em Gene Expression Omnibus NCBI [38] e são acessíveis através do número de acesso GEO Series GSE14985 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc= GSE14985). Todos os dados são Miame compatível. Os dados normalizados também estão disponíveis na Tabela S1.

Resultados

Nós aplicamos consistência classificação métodos para dados coletados em um estudo de perfis de expressão de miRNA em amostras de câncer relacionado marcar. Os dados recolhidos neste estudo consistiu em amostras pareadas de tumores e origens normais. Cada par de amostras foi feita a partir de partes diferentes do mesmo tecido em 14 pacientes diferentes e 8 tipos de cancro diferentes: mama, cólon, fígado, pulmão, linfoma, ovário, próstata e testículo. Os pares de amostras nos permitirá concentrar em mudanças nos níveis de expressão de miRNA que resultam do processo de câncer e para minimizar o efeito de confusão da variabilidade inter-individual e inter-tecido.

O objetivo do estudo foi . identificar miRNAs universalmente diferencialmente expressos em câncer utilizando os métodos estatísticos e medidas descritas acima

Nós calculamos o tumor vs. expressão diferencial normais de cada miRNA nos dados de quatro maneiras diferentes: Tnom [31], não pareado t -test, teste t pareado e minRCoS. Para os três primeiros métodos, os sinais foram log transformados e nos casos em que existe mais de um paciente por tipo de câncer foi utilizada a mediana. O teste t Tnom e não pareado, foram calculados para a comparação não pareado de todas as amostras tumorais para todas as amostras normais. Para o teste t pareado foi utilizado o correspondente tipo de câncer.

Para as diferentes variantes da RCOs (m /RCOs r e minRCoS), dobre a mudança foi calculada para cada miRNA e paciente, dividindo o sinal de tumor pela sinal normal. Em tipos de cancro em que existe mais do que um paciente (2 ou 3 pacientes) foi utilizada a média das alterações de dobragem. Isto foi feito para preservar a correspondência paciente (dentro do mesmo tipo de cancro) em nossos dados. Para cada tipo cancer os miARNs foram, então, classificados de acordo com estes valores para gerar as listas classificados necessários como a entrada para todas as variantes RCOs. A aplicação do quadro geral descrito na secção Métodos para nosso conjunto de dados, portanto, leva a seguinte semântica:.

Classe A e Classe B são tumor e normal

r = 8.

Se por um g miRNA, denotado, temos, por exemplo, 6/8 RCOs (g) = 0,2 para a sobre-expressão no tumor vs. normal, então este miRNA está classificado entre os top 20% dos miRNAs sobre- expresso no tumor versus normais, durante pelo menos 6 dos 8 tipos de tumores diferentes. Obviamente, as interpretações semelhantes são válidas para outros valores de m e s (6 e 0,2, respectivamente, no exemplo acima).

O conjunto completo de resultados de nossa análise, incluindo todas as pontuações de expressão diferencial e os valores p associados, está disponível como material suplementar (Tabela S2).

para aplicar o teste t pareado nesses dados, dobre a mudança foi calculada para cada miRNA e paciente, dividindo o sinal de tumor pela normais sinal. No cancro tipos onde mais do que um paciente existe a média dos valores de expressão foi usado no cálculo mudança de dobragem. Os dados foram, em seguida, ligar-transformadas para alcançar a normalidade requerido pelo teste t emparelhado. Notamos que, mesmo após o log-transformação, a hipótese de normalidade desta distribuição é rejeitada pelo teste de Jarque-Bera [39].

Os números observados e esperados de genes para todos os valores de p eo minRCoS níveis em que FDR (False Descoberta Rate) [40] e Bonferroni de 0,05 são obtidos são apresentados na Figura 2. Observe a superabundância específico de miRNAs diferencialmente expressos, em comparação com dados aleatórios números esperados.

a trama superior mostra a comparação das contagens observados e esperados de miRNAs para valores de p minRCoS. Para cada valor de p (no eixo X), o número esperado de miARN que têm este, ou melhor, p-valor com base no número total de miARN na matriz, é mostrado em azul (semelhante a [54]). As linhas vermelhas e verdes simbolizam o número de miRNAs observados em nossos dados com esses valores p minRCoS. O painel inferior mostra uma comparação das contagens observadas e esperadas de genes com valores p minRCoS de 0,003 ou menos (um zoom-in no painel superior). Linha A indica o limite de Bonferroni de 0,05, linha B indica o FDR [40] limiar de 0,05 para os miRNAs sobre-expressos (17 miRNAs) e linha C indica o limite de FDR de 0,05 para os miRNAs expressa-abrigo (41 miRNAs).

A heatmap dos miRNAs mais significativas identificadas pela análise minRCoS é mostrado na Figura 3. O painel direito contém os 30 melhores miRNAs cujos níveis de expressão são consistentemente aumentou em tecidos cancerosos; o painel da esquerda contém uma lista dos top 30 miRNA cujos níveis de expressão são consistentemente diminuiu em tecidos cancerosos. conclusões e resultados da análise específicas são descritas abaixo, incluindo miRNAs que foram anteriormente não universalmente associados com câncer.

As colunas representam tipos de câncer e as linhas representam miRNAs. Uma entrada verde representa um miRNA com uma elevada classificação ou seja, aquele que é sub-expressos nesta amostra específica do tumor em comparação com a amostra normal correspondido. Um rectângulo vermelho indica um miARN sobre-expresso na amostra de tumor. O painel esquerdo mostra os 30 melhores miRNAs universalmente sub-expressos em tumores classificados de acordo com a análise minRCoS eo painel da direita mostra os 30 melhores miRNAs universalmente sobre-expressos em tumores classificados de acordo com a análise minRCoS.

diferencialmente

Deixe uma resposta