PLOS ONE: Wrangling Phosphoproteomic Dados de Clareza Cancer vias de sinalização

Sumário

A interpretação de conjuntos de dados biológicos é essencial para a geração de hipóteses que orientam a pesquisa, ainda métodos modernos de desafio análise global a nossa capacidade de discernir padrões significativos e, em seguida, transmitir os resultados de uma forma que pode ser facilmente apreciado . dados de proteômica é especialmente difícil porque os detectores de espectrometria de massa, muitas vezes perca peptídeos em amostras complexas, resultando em conjuntos de dados de baixa densidade populacional. Usando a linguagem de programação R e técnicas do campo de reconhecimento de padrões, temos desenvolvido métodos para resolver e avaliar aglomerados de proteínas relacionadas pelo seu padrão de expressão em diferentes amostras em conjuntos de dados de proteômica. Examinamos tirosina dados phosphoproteomic de amostras de câncer de pulmão. Calculamos diferenças entre as proteínas com base em Pearson ou correlações de Spearman e sobre distâncias euclidianas, enquanto que lidar com grandes quantidades de dados em falta. As diferenças foram então usados ​​como vetores de características em agrupamento e visualização algoritmos. A qualidade dos agrupamentos e visualizações foram avaliados com base internamente sobre os dados primários e externamente com base na ontologia do gene e redes de interação proteína. Os resultados mostram que distribuiu-t estocástica vizinho incorporação (t-SNE), seguido por grupos mínimos abrangendo métodos de árvores de dados de proteômica esparsas em agrupamentos significativos de forma mais eficaz do que outros métodos, tais como

k

-means e clássica escalonamento multidimensional. Além disso, os nossos resultados mostram que o uso de uma combinação de correlação de Spearman e distância euclidiana como uma representação dissimilaridade aumenta a resolução de aglomerados. As análises mostram que muitos aglomerados contêm uma ou mais tirosina-quinases e incluem efectores conhecidos, bem como proteínas sem interacções conhecidas. Visualizando esses aglomerados como redes elucidado anteriormente desconhecidos da tirosina quinase vias de transdução de sinal que conduzem câncer. A nossa abordagem pode ser aplicada a outros tipos de dados, e pode ser facilmente adotada porque os pacotes de software de código aberto são empregados

Citation:. Grimes ML, Lee WJ, van der Maaten L, Shannon P (2013) Wrangling Phosphoproteomic Dados de Clareza câncer vias de sinalização. PLoS ONE 8 (1): e52884. doi: 10.1371 /journal.pone.0052884

editor: Jorge Sans Burns, Hospital Universitário de Modena e Reggio Emilia, Itália

Deixe uma resposta