PLOS ONE: S-Score: Um sistema de pontuação para a identificação e priorização dos genes do cancro Previsto

Sumário

Um novo método, que permite a identificação e priorização de genes de câncer previstos para análise futura, é apresentado. Este método gera uma pontuação específica do gene chamado de “S-Score” através da incorporação de dados de diferentes tipos de análise, incluindo pesquisa de mutações, estado de metilação, copy-número de variações e perfil de expressão. O método foi aplicado para os dados do Cancer Genome Atlas e permitiu a identificação de novos oncogenes conhecidos e potencialmente e supressores de tumor associados com diferentes características clínicas, incluindo mais curto prazo de sobrevida em pacientes com câncer de ovário e subtipos hormonais em pacientes com câncer de mama. Além disso, pela primeira vez, foi realizada uma pesquisa de todo o genoma para os genes que se comportam como oncogenes e supressores de tumor em diferentes tipos de tumores. Prevemos que o S-score pode ser usado como um método padrão para a identificação e priorização de genes do câncer de estudos de acompanhamento

Citation:. De Souza JES, Fonseca AF, Valieris R, Carraro DM, Wang JYJ, Kolodner RD, et ai. (2014) S-Score: Um sistema de pontuação para a identificação e priorização dos genes do cancro previsto. PLoS ONE 9 (4): e94147. doi: 10.1371 /journal.pone.0094147

Autor: Gil Ast, Universidade de Tel Aviv, Israel

Recebido: 12 de novembro de 2013; Aceito: 13 de março de 2014; Publicação: 07 de abril de 2014

Direitos de autor: © 2014 de Souza et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este estudo foi apoiado pelo CNPq concessão 483775 /2012-6 para SJS e pelo National Institutes of Health conceder GM26017 para RDK. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

a disponibilidade de diferentes tecnologias “genómica” eo recente desenvolvimento da próxima geração de sequenciamento trouxeram novas perspectivas para o campo da pesquisa sobre o câncer [1]. O projecto do Genoma do Câncer Atlas (TCGA), por exemplo, gerou grandes quantidades de dados através da aplicação das diferentes tecnologias “genómica” para estudar órgão local espécimes de cancro específicos [2] – [5]. Os dados TCGA incluem mutações somáticas, expressão gênica, metilação e variação do número de cópia, que, juntamente com informações clínicas dos pacientes representam um recurso importante para o desenvolvimento de novas estratégias de intervenções diagnósticas e terapêuticas, bem como o fornecimento de dados de base para estudos mais detalhados de genes e caminhos específicos [2] – [5].

Estes dados do genoma têm sido utilizados para identificar genes que são alterados no câncer. Estas alterações normalmente ocorrem em genes supressores de tumor como p53 ou oncogenes como KRAS. Alterações em genes supressores de tumores geralmente leva à perda de função das proteínas respectivas, enquanto alterações nos oncogenes levar a um aumento ou actividade alterada, quer devido à maior expressão ou mutações de activação. Embora existam genes que são frequentemente alteradas no cancro, uma p53 exemplo notável sendo, um dos principais conclusões a partir dos primeiros estudos em larga escala é que o processo tumorigénico é impulsionado por uma alteração de uma variedade de genes, tanto individualmente como em combinação, dependendo do contexto individual do paciente, entre outros fatores [2] – [7]

Uma questão importante na análise desses “genómica” conjuntos de dados é como medir o impacto de todas as alterações genéticas encontradas. em um grupo de amostras. O que é necessário para tal um estudo de impacto é uma pontuação específicos do gene que é tanto qualitativo (indicando se um gene é um supressor, um oncogene, um ou ambos) e quantitativa (que indica a frequência de alterações para esse gene num determinado conjunto de tumores). As tentativas anteriores para gerar pontuações para genes do cancro têm utilizado um único tipo de dados, seja frequência de mutação ou padrão de expressão [6], [8]. Mais recentemente, Volgestein et ai. [1] propôs uma estratégia que leva em conta tanto o tipo de mutações somáticas (missense recorrente para oncogenes e mutações de inactivação de supressores de tumor) e sua frequência (eles adotaram uma regra de 20%, ou seja, aqueles tipos de mutações tinham de aparecer em pelo menos 20% das amostras analisadas). Embora esta estratégia pode identificar eficientemente as mutações controlador mais comuns em tumores, não explorar toda a gama de alterações genéticas /epigenética que geram a heterogeneidade genética característica em tumores. Outra abordagem envolveu o cálculo do número de amostras não redundantes, em que um determinado gene ou grupo de genes é alterada. Embora esta estratégia tem sido amplamente utilizada, como por exemplo, no Cancer Genome Portal CBio [9], ele não discrimina entre alterações oncogênicos e supressores de tumor e não permite que o usuário forneça pesos diferentes para o tipo de alteração genética encontrada.

Aqui propomos a S-score, que integra informações sobre o estado de mutação, padrão de expressão, estado de metilação e número do exemplar para produzir um único valor diretamente proporcional à frequência com que um determinado gene está alterado em um tipo de câncer. O valor crítico desse método é que ele facilita a identificação de genes de câncer previstos, as ordens de classificá-las para priorizá-los para futura análise aprofundada e indica quais recursos (por exemplo, mutação, expressão, metilação, cópia alteração do número e suas combinações) deve ser investigado. Como prova de princípio, aqui o método S-score foi aplicada a dados provenientes de o projeto Cancer Genome Atlas (TCGA) para os tumores GBM, colo, ovário e de mama.

Material e Métodos

fonte de dados

Expressão z-scores, metilação e GISTIC CNV (número de cópias variação) dados foram obtidos a partir do portal CBio usando o pacote CGDS-R, que fornece um conjunto básico de funções para consultar o Genomic Cancer Servidor de dados (CGDS) através da plataforma R para computação estatística (https://cran.r-project.org/web/packages/cgdsr/index.html). dados de mutação somática foi obtido a partir do banco de dados CÓSMICA [10] e a partir de uma compilação de todos os locais de mutações somáticas encontrados na literatura. Limiares para todos os tipos de dados são discutidos abaixo. Os dados clínicos para todas as amostras foram obtidas no site da TCGA (https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp).

amplificação CNV e exclusão

putativo número de cópias chama em amostras foram determinadas utilizando GISTIC [9]. Os limiares GISTIC publicados utilizados no presente estudo foram: deleção homozigótica, = -2; exclusão, -2 Para = -1; neutra -1 A +1; ganho, = +1 Para 2; e amplificação, = 2. Boxplots foram gerados utilizando ggplot2, uma ferramenta gráfica para o pacote estatístico R.

Análise da expressão

dados de expressão a partir do portal CBio foi utilizado na análise aqui apresentada [9]. O nível de expressão é dada a expressão relativa de um dado gene em comparação com a expressão desse gene na população de referência (ou amostras ou tumores que são diplóides para aquele gene normais adjacentes). Cima e para baixo-regulação foram inferidos pelo Z-pontuação de que o nível de expressão, isto é, o número de desvios padrão da média de expressão na população de referência. Os mesmos dados expressão foi utilizado no cálculo da pontuação S-na Figura 1 e também como um conjunto de dados independente na Figura 2.

linhas cinzentas

transversais indicam um limiar de pontuação Z igual a 3. GBM, glioblastoma; OV, câncer de ovário; BRCA, câncer de mama; e COADREAD, cancro colo-rectal.

Cada ponto corresponde a uma amostra. (A) Gráfico de dispersão que mostra a expressão (eixo Y) e estado de metilação (eixo X) para TMEM101 no conjunto de tumores ovarianos de TCGA. (B) Gráfico de dispersão que mostra a expressão (eixo Y) e copie status de número para FBXO25 para câncer de ovário de TCGA. Com base nos valores Gistic, as amostras foram divididas em diferentes categorias (eixo X). Veja Métodos de limiares Gistic. (C) Gráfico de dispersão que mostra a expressão (eixo Y) e copie status de número para ACTR5 em tumores de cólon de TCGA. Com base nos valores Gistic, as amostras foram divididas em diferentes categorias (eixo X).

mutações somáticas

Para calcular o S-score, só mutações nonsense considerados (ns variáveis ​​no equações apresentadas no texto) encontrados para o respectivo gene em que o tipo de tumor. A variável foi estratificada para duas possíveis situações: onde apenas mutações nonsense que ocorrem em amostras de tumor de TCGA foram considerados e onde foram consideradas mutações nonsense ocorridos no mesmo tipo de tumor (todos os exemplos disponíveis em COSMIC). foi usado para dados apresentados nas Figuras 3 e 4, enquanto foi utilizado para a análise apresentada na Figura 1, Figura 5 e Tabela 1.

A trama heatmap mostrando genes com S-escores significativamente diferentes entre curto prazo e longo pacientes de sobrevivência -TERM com tumores de ovário. Azul é indicativo de S-score negativo enquanto o amarelo é indicativo de S-score positivo.

comparação S-score para os 50 oncogenes superiores e 50 supressores de tumor topo entre ER-PR e ER + PR + subtipos de câncer de mama. Cada ponto de dados é um gene. Eixos X e Y representa os S-pontuações para ER + PR + e sub-tipos ER-PR, respectivamente.

Genome-wide análise dos genes se comportam como supressor de tumor em um tipo de tumor e oncogene em um tipo de tumor diferente. Sessenta e sete genes com S-score -2.5 em um tipo de tumor e S-score 2,5 em um tipo de tumor diferentes foram selecionados e uma heatmap mostrando a sua S-score para todos os tipos de tumor é apresentado. O azul representa S pontuação negativa enquanto o amarelo representa S-score positivo

Resultados e Discussão

O S-score é dada pela equação # 1:. (1) onde, (2) e (3)

onde,

= número de mutações nonsense para o respectivo gene.

= número de amostras em que o respectivo gene é metilado .

= número total de amostras informativos para análise de metilação.

= número de amostras em que o respectivo gene é excluído

= número total de amostras informativos para análise CNV.

= número de amostras em que o respectivo gene é amplificado.

= número de amostras em que o respectivo gene é sobre-expresso.

= número total de amostras informativo para análise da expressão gênica.

= número de amostras em que o respectivo gene é sub-expressas.

= índice para a amplificação.

= índice para a sobre-expressão.

= índice de mutações nonsense.

= índice de metilação.

= índice de exclusões.

= índice para a sub-expressão.

No caso de 1 e 1, então (4)

No caso de 1 e 1, então (5)

Em caso e são ambos menores do que 1 , então . Ao longo deste relatório, o registo é uma representação de log

2.

O uso de log na equação # 1 permite que o S-score na faixa de negativo (indicativo de supressores de tumor ou a atividade do gene reduzida) para positiva (indicativo de oncogene ou aumento da atividade de genes) valores. O S-score como uma razão entre (equação # 2) e (equação # 3) também pretende dar mais valor a esses genes que apresentam um padrão exclusivo de ambos os supressores de tumor ou atividade oncogene em um respectivo tipo de tumor. Outra questão importante a destacar é que cada tipo de dados, CNV, mutação, expressão e metilação, é tratado de forma independente e tem um peso proporcional dado pelo índice numérico associado a cada tipo de dados.

A-score S método foi testada usando dados do projeto TCGA por quatro tipos de tumores: glioblastoma (GBM), tumor colorretal, tumores de mama e de tumores do ovário. Um parâmetro crítico no cálculo da pontuação S-é o índice numérico utilizado para cada tipo de dados. Para encontrar os melhores valores de índice para os parâmetros nas equações # 2 e # 3, dois valores para cada índice foram testados. Em todos os cenários, mais peso foi determinado a mutações sem sentido, devido ao facto de que este tipo de alteração geralmente conduz a uma redução significativa na função da respectiva proteína. Além disso, em todos os cenários de metilação não foi utilizado devido a problemas de controle de qualidade.

Uma lista de 138 genes do cancro identificados pelo Volgestein et al [1] foi utilizado como referência para avaliar qual o conjunto de índices que selecionar mais conhecidos oncogenes e supressores tumorais. Embora esta lista foi compilado usando dados de vários tipos de tumores e aqui temos apenas analisados ​​quatro tipos de tumores, acreditamos que nossa análise é abrangente o suficiente para tal teste. Para cada tipo de tumor aqui analisado o número de genes com S-score -2 ou 2 foi calculado para cada cenário (Tabela S1). Para testar para um possível enriquecimento, uma simulação de Monte Carlo foi realizada, onde foram selecionados conjuntos aleatórios de 138 genes (fora de todos os genes humanos conhecidos com um S-score para o respectivo tumor) eo número de S-scores extremas calculados. Entre todos os cenários testados, a um com um valor mais elevado para mutações nonsense (= 5) e um valor de 0,5 para todos os outros índices promoveu o enriquecimento mais significativa de genes do cancro conhecidos para todos os tipos de tumor (Tabela S1). Além disso, para evitar qualquer viés devido a um limite arbitrário (S-score -2 ou 2), usamos um novo limite para cada tipo de tumor definido como o S-score com uma pontuação Z de 2 (média de todos os S-scores mais ou menos dois desvios-padrão) (Tabela S2). O mesmo conjunto de índices, como com a análise anterior, mostrou a maior enriquecimento de genes do cancro conhecidos. Este conjunto de índices (5 =; = 0,5; = 0,5; 0,5 = e = 0,5)., Em seguida, foi utilizado para todos os outros estudos

Para obter mais informação sobre a capacidade de previsão do método S-pontuação, um estratégia de referência diferente foi realizada para definir “valor preditivo positivo” e “valor preditivo negativo” para cada tipo de tumor. Mil conjuntos aleatórios de 50 genes foram seleccionados a partir da lista de 138 genes de Volgestein et ai. [1] e foram usadas para calcular o número médio de verdadeiros positivos e falsos negativos. De um modo semelhante, mil conjuntos aleatórios de 50 genes foram seleccionados a partir de todos os genes humanos (menos os genes do cancro de 138) foram seleccionados e utilizados para calcular o número médio de verdadeiros negativos e falsos positivos para cada tipo de tumor. Estes valores estão apresentados na Tabela S3 Vale a pena mencionar, contudo, que a lista de genes do cancro de Volgestein et ai. [1] não é o padrão de ouro para este tipo de análise, uma vez que contém vários genes que são ou oncogenes ou supressores em tipos de tumores diferentes do que as analisadas aqui. Esses recursos provavelmente subestimam a capacidade preditiva do método S-score.

Estas análises anteriores mostram que o método S-score é capaz de identificar

bona fide

oncogenes e supressores tumorais. Os dados apresentados na Tabela 1 confirma que a compilação de genes do cancro de Volgestein et ai. [1] está inclinado para S-scores extremas ( 2 ou -2). Quando um limite normalizado é utilizado (S-scores que representam o S-pontuação média mais ou menos dois desvios-padrão) o mesmo padrão é observado (Tabela S4).

A Figura 1 mostra a distribuição dos S-scores para todos os genes humanos em cada tipo de tumor. Esses genes humanos com S-contagens que foram extremos positivas ou negativas (contagem Z 3) em, pelo menos, um tipo de tumor estão listados na Tabela S5. Como confirmação deste método, supressores tumorais conhecidos anteriormente e oncogenes mostram valores de pontuação S-extremos para estes tipos de tumores. Em GBM, por exemplo, o gene S com a maior pontuação-EGFR. Outros genes com elevada pontuação S-positivas incluem aquelas que são mapeados para o mesmo locus como EGFR (como SEC61G, LANCL2 e ECOP) e, portanto, são amplificados em conjunto com o EGFR. Enquanto estes genes não são necessariamente causal envolvido no processo tumorigénico, representam alterações genéticas bona fide do tipo de tumor que possa proporcionar novas oportunidades terapêuticas e de diagnóstico, como descrito para os genes passageiros eliminados em tumores [11], e como tal devem ser relatadas . A eficiência de nosso método é também ilustrado na outra extremidade da distribuição S-pontuação. Entre os genes com o S-pontuações mais negativos são bem conhecidos genes supressores de tumor como CDKN2A (o placar S mais negativo para GBM), PTEN, NF1 e RB1. Os S-pontuações para todos os genes humanos em quatro tipos de tumor, é fornecido na Tabela S6.

Uma utilidade do sistema S-Pontuação é que ele permite a fácil identificação de genes de interesse para análise adicional. Por exemplo, considere os genes FBXO25 (S-score = -3,18 no cancro do ovário), TMEM101 (S-Score = -1.6 no cancro do ovário) e ACTR5 (S-score = 3,69 no câncer de cólon), classificadas pela nossa análise como supressor, supressor putativo e do oncogene, respectivamente. Avaliação das parcelas de expressão versus número de cópias ou metilação por estes genes, como apropriado (Figura 2) identifica prontamente estes genes como possuindo uma fracção de identificação de casos TCGA associados com número de cópias e a expressão reduzida reduzida (gene supressor candidata), e expressão reduzida aumento da metilação (candidato gene supressor silenciado) e aumento do número de cópias e a expressão aumentada (oncogene candidato), respectivamente. Para ilustrar a utilidade de tais lotes de estratégia para oncogenes e supressores conhecidos são fornecidos como Figuras S1-S3. Este tipo de classificação mais detalhada, então, facilitar estudos de acompanhamento, fornecendo uma priorização dos genes, com base na pontuação, para posterior análise. Nenhum dos três genes de cima têm sido previamente identificadas como foi envolvida no desenvolvimento dos respectivos tipos de tumores.

O S-pontuação também permite uma comparação directa entre as amostras classificadas de forma diferente de acordo com um biológica e /ou clínica parâmetro. Para ilustrar esta aplicação, as amostras nos dados de cancro de alto grau TCGA serosos ovarianos foram divididos em quartis de acordo com a sobrevivência global. Em seguida, calculou-se a S-pontuação de todos os genes humanos, utilizando as amostras que pertencem à primeira (mais curto) e sobrevivência última (sobrevivência mais longo) quartil da distribuição sobrevivência. Uma comparação entre S-scores calculados a partir dos dois grupos nos permitiu identificar oncogenes putativos (com S-scores positivos) e genes supressores de tumor putativa (com S-scores negativos) associados ou o mais curto ou a sobrevivência mais longa (Figura 3). Vários dos genes identificados são conhecidos marcadores para a sobrevivência. Por exemplo, a inibição CDC42 tem sido associada com a maior sobrevivência em ratinhos com xenoenxertos de cancro da próstata [12]. Outro exemplo é canx cuja infra-regulação tem sido associada com maior sobrevida em pacientes com GBM [13]. Além disso, as variantes genéticas de RGS12 têm sido associados com a sobrevivência no cancro do pulmão de células de fase final não pequenas [14]. Outro gene interessante é TJP2 cuja sobre-expressão foi associada com sobrevivência a longo prazo em GBM [15], de acordo com o padrão mostrado na Figura 3.

Entre os genes identificados por este sistema de pontuação para ser associado com a sobrevivência, os mais interessantes são aqueles com as classificações opostos (notas positivas e negativas) no mais curto ou a sobrevivência mais longa quartis. Descobrimos que glucoronidase B (GUSB) tiveram uma pontuação positiva (3,04, indicativo de oncogene) para o grupo de sobrevivência mais curto e uma pontuação negativa (-1,40, indicativo de supressor de tumor) para o grupo de maior sobrevida. Glucuronidases são conhecidos por estarem envolvidos na disseminação das células tumorais do local primário [16] e GUSB foi recentemente incluído em uma assinatura para a previsão de metástase linfonodal no câncer do colo do útero [17]. O método S-score confirma a ideia de que GUSB tem uma função oncogénico nos tumores mais agressivos (sobrevida mais curta). No entanto, seu negativo S-score nos tumores menos agressivos indica que a perda de GUSB pode também impulsionar o desenvolvimento de cancro do ovário com os tumores resultantes sendo menos agressivo. Um achado interessante em nossa análise é a associação de RAD23B e XPC, ambos com S pontuação negativa, com sobrevivência a curto prazo (Figura 3). As proteínas codificadas por estes genes formam um complexo envolvido na reparação do ADN danificado-. Um número de outros genes com opostos S-contagens no menor e os grupos de maior sobrevivência estão apresentadas na Figura 3. Esses genes podem representar potenciais marcadores de prognóstico, bem como alvos para o desenvolvimento de novas terapias.

Para explorar ainda mais o potencial do sistema S-score para identificar genes relacionados a diferentes parâmetros clínicos, os pacientes de cancro da mama da coorte TCGA foram divididos de acordo com dois subtipos hormonais: ER + PR + e ER-PR (ER: o receptor de estrógeno; PR: receptor de progesterona ). Os dados de pacientes em cada subtipo foram então usados ​​para calcular os S-pontuações para todos os genes humanos. Enquanto os oncogenes em dois subtipos são basicamente os mesmos, uma discordância muito maior é observada para os genes supressores de tumor. Isso é mostrado no gráfico de dispersão na Figura 4, que contém os 50 melhores oncogenes putativos e 50 supressores putativos (classificados de acordo com a ER + PR + subtipo). Enquanto todos os oncogenes no ER + PR + subtipo (S-score cerca de 4) também são classificados como oncogenes no ER-PR- subtipo (S-score que varia 1,42-5,50), os supressores de tumor no ER + PR + (S -score torno -4) tem uma classificação diferente no ER-PR- subtipo (S-score variando de -4,85 a 2,69). De facto, uma grande fracção dos supressores do subtipo ER + PR + foram classificados como oncogenes em outro subtipo (Figura 4). Estes resultados sugerem que as diferenças de características biológicas e clínicas entre estes dois subtipos de cancro da mama pode ser devido a diferenças nos seus genes supressores tumorais. Estas assinaturas genéticas representam uma oportunidade para o desenvolvimento de alvos para novas abordagens de diagnóstico, prognóstico e terapêutica.

O método S-score também foi usado em uma busca em todo o genoma para genes que podem se comportam como supressor de tumor em um tipo e oncogenes em um tipo de tumor diferente. Nos últimos anos têm sido mostrado alguns genes de apresentar essas características. NOTCH1, por exemplo, é um oncogene conhecido para a leucemia linfoblástica aguda de células T [18] – [19], mas também apresenta actividade supressora de tumor em tumores de pele [20] e carcinoma hepatocelular [21]. Usando um conjunto de critérios rigorosos (S-score 2,5 em um tipo de tumor e S-score -2.5 em um tipo de tumor diferente), encontramos 65 genes que mostraram atividades supressivas oncogênicos e tumorais em diferentes tipos de tumores (entre os quatro tipos Analisamos aqui). A nossa análise identificou LMO7 como um gene comportando como supressor tumoral e oncogenes. Este gene tem sido relatada a ser regulada no cancro do pulmão [22] e camundongos sem este gene têm uma maior susceptibilidade ao câncer de pulmão espontânea [23]. Por outro lado, o gene parece ser um oncogene em ambos da mama [24] e do cancro do fígado [25]. Outro candidato interessante é USP12, um gene codificando para um deubiquitinase. Recentemente, USP12 foi demonstrado ser um regulador positivo da actuação do receptor de androgénio de uma forma pró-proliferativo no cancro da próstata [26]. USP12 também pode actuar como um supressor de tumor, regulando negativamente a activação AKT e promovendo assim a apoptose [27]. Outras análises são necessários para explorar plenamente todos os genes mostrados na Figura 5. É importante ressaltar que NOTCH1 não aparece em nossa lista devido ao fato de que nós não utilizados dados de leucemia em nossos estudos.

A desvantagem do método S-pontuação, que é uma limitação em qualquer tentativa para estabelecer este tipo de sistema de pontuação, é a falta de um índice de activação de mutações que ocorrem no oncogenes. Por exemplo, mutações de activação em KRAS são conhecidos por ser um factor determinante para muitos tipos de tumores [28]. Embora o S-score para KRAS foi positivo para três dos quatro tumores analisados ​​aqui, o nosso método não foi capaz de medir plenamente o impacto destes tipos de mutações ativadoras em oncogenes. Uma possibilidade seria o uso de mutações missense, como argumentado por Volgestein et al. [1]. Um problema com as mutações de sentido trocado, no entanto, é a forma de avaliar o seu impacto no nível de proteína, quer sejam de activação, inactivação ou neutro. Embora existam ferramentas computacionais destinadas para inferir o efeito de uma mutação sem sentido no nível da proteína, ainda pensam que o seu desempenho em geral é pobre [29]. No entanto, como podemos melhorar a nossa compreensão da natureza das mutações missense, estes tipos de alterações genéticas podem ser incorporados no cálculo da pontuação S.

Para tornar o sistema S-score mais útil para a comunidade, a portal web é fornecido https://www.bioinformatics-brazil.org/S-score com a pontuação do genoma disponíveis para download, bem como um sistema de recuperação para consultas personalizadas. Além disso, os usuários podem modificar os valores para todos os parâmetros nas equações # 2 e # 3 e gerar S-pontuações para todos os genes humanos conhecidos. Uma lista de todas as amostras TCGA de cada tipo de tumor utilizado neste estudo é fornecido como Tabela S7.

Informações de Apoio

Figura S1.

trama metilação Expressão X para o conhecido MGMT supressor de tumor. Cada ponto de dados representa uma amostra GBM. Os dados mostram o silenciamento de MGMT em várias amostras de GBM

doi:. 10.1371 /journal.pone.0094147.s001

(TIF)

Figura S2.

Expressão X número de cópias do lote variação para o conhecido CDKN2A supressor de tumor. Cada ponto de dados representa uma amostra GBM. Categorias de variação do número de cópias foram definidos pela classificação GISTIC. Homdel = deleção homozigótica; Hetloss = perda de heterozigose

doi:. 10.1371 /journal.pone.0094147.s002

(TIF)

Figura S3.

Expressão X lote variação do número de cópias para o ERBB2 oncogene conhecido. Cada ponto de dados representa uma amostra de tumor da mama. Categorias de variação do número de cópias foram definidos pela classificação GISTIC. Hetloss = perda de heterozigose; . Amp = amplificação

doi: 10.1371 /journal.pone.0094147.s003

(TIF)

Tabela S1.

Seleção de índices para os parâmetros nas equações S-score. Cada linha representa um cenário de valores para índices. O número entre parêntesis corresponde ao número de genes acima do limiar (S-pontuação S-2 ou pontuação -2) no conjunto real dos 138 genes de Volgestein et ai. [1]. Os números em cada célula corresponde ao número de conjuntos simulados em que o número de genes com S-scores acima do limiar é igual ou superior ao número correspondente no conjunto real (número entre parênteses)

doi:. 10.1371 /revista. pone.0094147.s004

(DOCX)

Tabela S2.

Seleção de índices para os parâmetros nas equações S-score. Cada linha representa um cenário de valores para índices. Número entre parênteses corresponde ao número de genes acima dos (valores S-pontuação correspondente à média mais ou menos dois desvios-padrão) limiar do verdadeiro conjunto de 138 genes de Volgestein et al. [1]. Os números em cada célula corresponde ao número de conjuntos simulados em que o número de genes com S-scores acima do limiar é igual ou superior ao número correspondente no conjunto real (número entre parênteses)

doi:. 10.1371 /revista. pone.0094147.s005

(DOCX)

Tabela S3.

Mil conjuntos aleatórios de 50 genes foram selecionados a partir da lista de 138 genes de Volgestein et al. [1] e foram usadas para calcular o número médio de verdadeiros positivos e falsos negativos. Valor Preditivo Positivo (VPP) foi calculado pela seguinte equação: verdadeiro positivo /positivo verdadeiro + falso positivo. De um modo semelhante, mil conjuntos aleatórios de 50 genes foram seleccionados a partir de todos os genes humanos (menos os genes do cancro 138) e utilizado para calcular o número médio de verdadeiros negativos e falsos positivos para cada tipo de tumor. O valor preditivo negativo foi calculada pela seguinte equação: true verdadeiro negativo negativo /+ falso negativo

doi:. 10.1371 /journal.pone.0094147.s006

(DOCX)

Tabela S4.

genes do cancro conhecidos têm S-scores extremas. Número de genes (Conjunto real) com S-scores maiores do que a média mais dois desvios-padrão (escore Z = 2) ou menor do que a menos dois desvios-padrão médio (pontuação Z = -2) na lista gene 138 de câncer de Volgestein et ai. [1]. Os números na “10.000 conjuntos simulados” linha correspondem à média do número de genes com S-score acima ou abaixo do limiar de 10.000 conjuntos contendo 138 genes selecionados aleatoriamente. Entre parênteses é o intervalo correspondente à média +/- desvio padrão de 2 ×. P-valor da diferença entre as séries reais e simulados é mostrado na última linha

doi:. 10.1371 /journal.pone.0094147.s007

(DOCX)

Tabela S5.

Correlação entre Z-score e S-score para o tumor BRCA. Cada folha de cálculo listas de todos os genes humanos com S-scores que eram extremos positivos ou negativos (Z-score 3)

doi:. 10.1371 /journal.pone.0094147.s008

(XLSX)

Tabela S6 .

S-pontuações para todos os genes humanos. Para cada um dos quatro tipos de tumores analisados, todos os genes humanos são listadas em ordem alfabética com os seus S-scores correspondentes

doi:. 10.1371 /journal.pone.0094147.s009

(XLSX)

Tabela S7.

Identificação de todas as amostras TCGA utilizados neste estudo. número de identificação para todas as amostras TCGA utilizados neste estudo

doi:. 10.1371 /journal.pone.0094147.s010

(XLS)

Reconhecimentos

Os autores são indebt para Raimundo Furtado Neto para ajudar na otimização do algoritmo S-score.

Deixe uma resposta