PLOS ONE: Separação automática Tumor-Stroma na fluorescência TMAs Habilita o Quantitative-High Throughput Analysis of Cancer Biomarkers

Abstract

Avaliação histológico do tumor A próxima quantificação e automação na biomarcador baseado múltipla exigirá métodos computacionais capazes de automaticamente identificação de áreas tumorais e diferenciá-los a partir do estroma. Como nenhum biomarcador tumor geralmente aplicáveis ​​está disponível, patologia usa rotineiramente critérios morfológicos como um sistema de referência espacial. Nós aqui presentes e avaliar um método capaz de realizar a classificação em histológico imunofluorescência desliza apenas usando uma mancha de fundo DAPI. Devido à restrição a um único canal de cor isto é inerentemente difícil. Nós formada gráficos de células com base na distribuição topológica dos núcleos das células do tecido e extraiu-se as características gráfico correspondente. Usando recursos topológico, morfológicas e de intensidade com base poderíamos sistematicamente quantificar e comparar a capacidade de discriminação de características individuais contribuem para o algoritmo geral. Nós aqui mostram que ao classificar lâminas de tecido de fluorescência no canal DAPI, características morfológicas e de intensidade com base superar claramente os topológicas que foram utilizados exclusivamente em abordagens anteriores relacionados. Nós reuniu os 15 melhores características para treinar uma máquina de vetores de suporte com base em áreas tumorais queratina manchadas. Em um conjunto de teste de TMAs com 210 núcleos de cânceres de mama triplo negativo nosso classificador foi capaz de distinguir entre tumor e tecido estroma com uma precisão global total de 88%. O nosso método produz os primeiros resultados sobre a capacidade de discriminação de grupos de recursos que é essencial para um diagnóstico de tumor automatizadas. Além disso, ele fornece um sistema de referência espacial objectivo para a análise multiplex de biomarcadores em imuno-histoquímica de fluorescência

Citation:. Lahrmann B, Halama N, Sinn HP, Schirmacher P, Jaeger D, Grabe N (2011) tumor-automática Stroma Separação de fluorescência TMAs Habilita o Quantitative-High throughput Analysis of Cancer Biomarkers múltipla. PLoS ONE 6 (12): e28048. doi: 10.1371 /journal.pone.0028048

editor: Pierre Busson, Instituto de Cancerologia Gustave Roussy, França |

Recebido: 21 Setembro, 2011; Aceito: 31 de outubro de 2011; Publicação: 02 de dezembro de 2011

Direitos de autor: © 2011 Lahrmann et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. O financiamento foi fornecida pelo Ministério Alemão de Educação e Pesquisa (BMBF) em seus programas de financiamento MEDSYS e Forsys. Números Grant: 0315401B (MEDSYS), 0.315.263 (Forsys). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

automação no processamento de imagem imuno Atualmente é essencial tecnológico lugar desenvolvimento tomada na caça clínica de biomarcadores objectivos em matéria de investigação e diagnóstico. Em Cancer Research um dos desafios mais importantes, mas também extremos é o desenvolvimento de métodos para a separação automática do tecido tumoral e estroma [1], [2]. Sucesso aqui terá um enorme impacto sobre a aplicabilidade de biomarcadores no diagnóstico de câncer de rotina e terapia bem a geração de grande escala dos dados histológicos de tecido para fins de pesquisa. Um método importante de rotina usado neste contexto que foi aqui usado para ilustrar o problema é a tecnologia de microarray de tecidos (TMA), introduzido em 1998 [3]. TMA permitir a análise imuno-histoquímica simultânea de várias centenas de tecidos em uma única lâmina [4] – [6]. Mas, como em geral em todos os campos da patologia, o escore visual manual dos TMAs é rotineiramente com base na análise quantitativa dos níveis de proteína por patologistas ou outros peritos é subjetiva, mão de obra intensiva, é demorado e mais importante ainda sofre de intra e inter-observador variabilidade [7]. Como solução, fluorescentes capazes microscópicas scanners integrais de slides se tornaram disponíveis recentemente, mas ainda são muito pouco utilizadas, embora eles terão um papel fundamental na transformação avaliação histológica na objetividade. coloração baseada fluorescência aqui é essencial, uma vez que supera o problema fundamental de manchas de campo claro pela captura objetiva e automática dos sinais de biomarcadores distintos [8]. Apesar de fluorescência ajuda na quantificação de células individuais, isso não ajuda per se na diferenciação do tumor e estroma. Em fluorescência lâminas de tecido são frequentemente contrastadas com DAPI (4 ‘, 6-diamidino-2-fenilindole), tendo o papel de uma mancha de fundo convencional. Isso faz com que a separação do tumor de estroma mais complexa como a informação visual primário da estrutura do tecido é muito mais difícil de reconhecer no canal DAPI que na histologia cromogénico. Um biomarcador histológico que exclusivamente manchar tecido tumoral não está disponível. Em vez disso heterogeneidade dos padrões de expressão de proteína espaciais é inerente ao câncer. Um excelente exemplo, aqui estão as agressivas triplos tecidos negativos de cancro da mama que não expressam os genes para o marcador de prognóstico mais valiosa como o receptor de estrogénio (ER), o marcador de progesterona (PR) e a de crescimento epidérmico de tipo 2 do receptor do factor humano (HER2) [9]. A ausência dos padrões de expressão destes biomarcadores proíbe a utilização de qualquer um deles como um biomarcador proteína de referência e torna essencial para separar o cancerosa do tecido saudável /conjuntivo com a ajuda de objectivo, algoritmos de processamento normalizados com base em critérios morfológicos. Assim, a avaliação patológica usa rotineiramente critérios morfológicos como um sistema de referência espacial para determinar a área do tumor em histologia do cancro. Concluímos que combina as vantagens de fluorescência com a aquisição automática de imagem e processamento requer o desenvolvimento de algoritmos para separação tumor-estroma exclusivamente a partir de uma mancha de fundo DAPI sendo frequentemente usado em imunofluorescência.

Por isso, nós aqui começou a desenvolver um tal algoritmo automático baseado somente no canal DAPI (Figura 1B-D). Vários métodos para a separação de tecido canceroso a partir de outros tipos de tecidos por critérios morfológicos estão disponíveis na literatura. Amaral et al. [10], [11] apresentam dois métodos diferentes em que recursos de cores são utilizados para a classificação de todo TMA-núcleos. Em [12] características texturais ajudar a separar as diferentes regiões de tecido em um TMA e em [13] características texturais são utilizados para a detecção de regiões patológicos em cortes histológicos. Mas todos estes métodos funcionam em amostras de tecido manchadas cromogénicos onde pela classificação dos diferentes tipos de tecidos a informação de todos os 3 canais RGB foi obtida. A classificação de tecido de tumor apenas no canal DAPI nos obriga a lidar com menos informação disponível para o passo de classificação em comparação com os outros métodos anteriores. Apenas poucas publicações lidar com a classificação de tecidos manchados fluorescente. Em [14], os autores usam recursos nucleares obtidos a partir do DAPI-channel para distinguir se todo o tecido é canceroso ou saudável, em vez de classificar os diferentes tipos presentes no tecido. A maioria dos trabalhos publicados no uso de pesquisa biomarcador dois biomarcadores para a co-localização ou manualmente segmento do tecido canceroso, em vez de uma forma automatizada [15] – [18].

(a) Representação de todos os 3 um canal de fluorescente manchado núcleo em cores RGB. Glifos originou devido à preparação do TMA. Vermelho que representa o marcador estromal (Vimentin), verde do marcador tumoral (CK19) e azul do canal DAPI destacando os núcleos das células; (B) o canal DAPI de (a) na forma de uma imagem intensa: em geral as células tumorais são mais escuras e mais apertado do que as células estromais ligado; (C) uma outra imagem DAPI de um núcleo com uma elevada densidade de células; (D) um exemplo de um núcleo com uma menor densidade de células mostra a elevada heterogeneidade entre os núcleos.

Gunduz et ai. [19] publicou um novo método para a classificação das amostras de tecido cerebral coradas cromogénicos. Formaram gráficos de células com base na distribuição topológica das células do tecido e extraiu-se as métricas gráfico correspondente para formar um classificador. O classificador foi capaz de distinguir entre tecido canceroso e saudável. Um gráfico aqui é uma representação abstrata de objetos (nós), onde pares de esses objetos são ligados por arestas. O método foi adicionalmente desenvolvido em [20] e [21]. Bilgin et ai. [22] – [23] demonstraram que eles analisadas amostras com êxito da mama e do tecido ósseo, com a ajuda dos gráficos de células. Eles avaliaram o seu método na mão-selecionados e não-biomarcador caracterizado amostras de câncer de mama.

Aqui nós desenvolvemos ainda mais esta abordagem através do desenvolvimento de um novo método capaz de classificar Tissue microarrays fluorescente manchadas. Nosso método utiliza gráficos de células com base em três diferentes categorias de características que refletem as propriedades das células contidas no gráfico (nós) e sua similaridade (bordas). A partir de um conjunto potencial de recursos que determinar aquelas que são mais capazes de separar o tecido do tumor e estroma. Claramente, realizando uma separação tumor-estroma precisas já é uma tarefa desafiadora. Usando além disso, apenas o DAPI-canal para essa tarefa requer um desempenho ainda maior em segmentação e classificação.

Como a primeira etapa foi realizada a segmentação de bacias hidrográficas e, em seguida, nós construímos gráficos de células, ligando os núcleos de células segmentadas sob o outro. A ligação das células se baseia em novas regras especialmente adaptadas para TMAs fluorescente manchado que pode consistir de vários tipos diferentes tecidos. Em vez de usar apenas métricas gráfico topológicas para a classificação de células-graph, nós também determinar as características celulares morfológicas e de intensidade de base de cada célula-graph. Através da combinação de todos os três tipos de recursos, fomos capazes de obter um classificador de tecido bem sucedida para lâminas histológicas fluorescentes.

Nós demonstramos o nosso método em 180 imagens centrais da TMA a partir de biópsias invasivas triplo-negativo câncer de mama contendo tecido canceroso, bem como estroma (tecido conjuntivo). Nosso método método foi capaz de separar tumor eo tecido conjuntivo que coexistem no mesmo núcleo de tecido com uma precisão global total de 88.80 (± 07.73)%.

Materiais e Métodos

As amostras de tecido

O total conjunto de dados consiste de 210 imagens do núcleo tissue microarray de invasoras triplos biópsias negativas de câncer de mama obtidos a partir de 6 TMAs. O tecido foi obtido a partir do banco de tecidos do Centro Nacional de Doenças tumorais (NCT) no Hospital Universitário de Heidelberg. Obtenção de amostras de tecido foi aprovado pelo comitê de ética da Faculdade de Medicina Heidelberg. De acordo com os regulamentos oficiais do Banco de Tecidos da Universidade determinada pela referida comissão de ética sem consentimento individual tem de ser obtido a partir de pacientes individuais para amostras de pacientes com idade superior a 3 anos. Documentação de todos os procedimentos são tratadas em um processo de certificação ISO pelo banco de tecidos NCT. Cada TMA contém dois núcleos de 1 mm de diâmetro a partir de 42 doentes diferentes (total de 84 núcleos por TMA). Um núcleo é obtido a partir da periferia do tumor e o outro é obtido a partir do centro do tumor. Foram excluídos os núcleos de nossos dados definido se a sua área foi abaixo de cinquenta por cento de um núcleo regular ou se inutilizável. Cada imagem é recolhida uma ampliação de 20 vezes e tem um tamanho médio de 2,800 × 2900 pixels. Todos TMAs estão manchadas com 3 corantes fluorescentes. Cada TMA foi corado com DAPI destacando os núcleos celulares como um counterstain Os outros anticorpos usados ​​(Vimentin, CK19 e CK5 /6) foram conjugados com Alexa Fluor® 488 (alternativa FITC, corante fluorescente verde) ou Alexa Fluor® 594 (corante vermelho) . A Figura 1A ilustra um núcleo de tecido coradas com 2 biomarcadores diferentes e DAPI como contrastante. Figura 1B-D ilustra exemplos mais representativos do canal DAPI de três diferentes tecidos núcleos.

A aquisição de imagens

fluorescência manchado TMAs foram fotografadas automaticamente usando o HT Sistema de Digitalização Nanozoomer (Hamamatsu Photonics, Hamamatsu Japão) capaz de digitalizar slides de inteiros. lâminas de vidro foram feitos a varredura em 20 ampliação vezes (resolução de 0,46 mm /pixel). Para a digitalização das lâminas de vidro, o scanner de slides detecta automaticamente a região de interesse que contém o conjunto de núcleos e também determina automaticamente um plano focal válida para a digitalização. Os slides virtuais resultantes tinham uma dimensão média de arquivo de 5 GB. imagens de núcleo único com um tamanho médio de 2.800 × 2.900 pixels foram localizados e extraídos do TMAs usando o modelo correspondente [24].

imagem geral do fluxo de trabalho de análise

O conceito chave neste manuscrito é o gráfico célula que usamos para capturar a distribuição de células topológica em tecidos, bem como as características celulares locais espacialmente relacionados para classificação. Os principais passos nesta abordagem são a segmentação dos núcleos das células no canal DAPI usando segmentação de bacias hidrográficas, a construção dos gráficos de células, extraindo as características celulares topológicas e locais de estes gráficos e usá-los para treinar um classificador. algoritmos de processamento de imagem foram desenvolvidos usando Matlab ™ (Mathworks, Natick, Massachusetts, EUA.) com a caixa de ferramentas de processamento de imagem

O nosso pipeline de análise de imagem contém as seguintes etapas conceituais (como ilustrado na figura 2):.

Após a obtenção das imagens, etapas de pré-processamento de melhorar a qualidade da imagem e segmentação divisor de águas para a segmentação subseqüente é aplicada. Por conseguinte, os gráficos de celulares são gerados e características estão informatizados. O último passo usa um SVM para classificar os gráficos quer como tumor ou estroma

2.1 Pré-processamento:.. Nós aplicada pela primeira vez vários métodos de melhoramento de imagem para preparar a imagem para a etapa de segmentação subsequente

2.2 segmentação celular: um divisor de águas-Transformação foi aplicado para a segmentação núcleos de células

geração de gráficos 2.3 Cell:. com base nos núcleos segmentados nós gerados gráficos de células que representam a distribuição topológica dos núcleos no tecido núcleos. Calculamos várias características para cada (sub) gráfico e também calculou recursos de base morfológicas intensidade e para cada núcleo em um núcleo

2.4 A classificação e seleção de características:. A Support Vector Machine foi treinado para a etapa de classificação ea F-Score foi calculado para seleção de características.

2.1 Preprocessing

Nesta primeira etapa, foram aplicados vários métodos para melhorar a qualidade da imagem do núcleo para a posterior classificação. Começamos a remover artefatos de sombreamento, que delineiam o resultado de vários fenômenos ópticos, como vinhetas de lente ou Fotobranqueamento. artefactos de sombreamento em imagens de fluorescência também pode ser causada devido a auto fluorescência das amostras ou o meio de montagem. correcção de sombreado (compensação do campo plana) foi utilizado para compensar vinhetas de lente, bem como para a falta de homogeneidade na iluminação. correção de sombreamento foi conseguido através de uma calibração balanço de preto usando áreas de fundo claras. O próximo passo na calha de processamento de imagem era a remoção de ruído e outras partículas pequenas que não eram adequados para análise posterior. Para excluir elementos imprecisos e difusos manchando todos os pixels com níveis de intensidade abaixo de um limiar de 25 foram definidos para zero. A mediana-filtro com um kernel 3 × 3 foi usado para suavizar a imagem. A imagem resultante foi convertida numa imagem binária (através da utilização do método de Otsu [25]), em que os objectos com uma área menor do que 150 pixels (menor do que o tamanho do núcleo do tecido conjuntivo) são removidos. Os objetos fora do formato regular núcleo foram removidos usando operações morfológicas como fechamento ou abertura combinado com filtro de área. Eventualmente, os núcleos isolados foram observadas no interior do núcleo. Assumiu-se que estes núcleos isolados pertencem a células não tumerous e foram assim excluídos do tecido tumoral. Para este fim, determinou-se a caixa delimitadora menor dos objetos e expandiu-lo por 20px em cada sentido. Com base nesta nova coordenadas, uma imagem foi recortada da imagem binária original e os presentes objetos nesta imagem foram contados. Se apenas um objecto esteve presente, o objecto foi removido, enquanto a presença de mais do que um objecto implica o contacto com outras células e manteve-se o objecto. Além disso, em vários núcleos descobrimos grandes áreas overstained com níveis máximos de intensidade. Estas áreas, que poderiam ser causados ​​por núcleos de células do tecido conjuntivo aglomerados na preparação de TMA ou a tempos de exposição elevados, não são adequados para análise posterior e foram removidos. A Figura 3B mostra os resultados da etapa de pré-processamento

(a) imagem original da DAPI-canal.; (B) imagem após a correção sombreamento e remoção de ruído; (C) resultado da segmentação de bacias hidrográficas, as células segmentadas são destacadas pelo contorno verde; (D) a imagem após a remoção das células individuais; (E) mostra que as células que foram ligados através do passo de geração de gráfico na mesma cor (células marcadas com a mesma cor pertencem à mesma sub-grafo); (F) representação gráfica de células das células. Os pontos vermelhos são os nós que representam as células, as linhas pretas são as arestas entre eles.

2.2 celular Segmentação

segmentação de células automatizado em fluorescently manchado TMA pode ser problemático por razões que incluem células sobreposição ou células agrupadas, estrutura do tecido complexo, detritos e desigual intensidade de fundo devido à auto fluorescência. Outra dificuldade é a variação de intensidade entre os núcleos o que pode levar a um excesso de segmentação dos núcleos das células. Devido a estas variações de intensidade entre os núcleos, primeiro dividiu a imagem em uma imagem que representa apenas objetos com uma iluminação mais brilhante e um que representam os objetos mais escuros. Em seguida, aplicado a etapa de segmentação separadamente em ambas estas imagens. Esta separação foi feito por meio do cálculo de um limiar com base no método de Otsu [25] ignorando pixels de fundo. Um algoritmo de segmentação, que provou ser muito útil para muitos casos de segmentação ou núcleos de células, é a segmentação bacia [26] – [28]. Nós aplicamos segmentação divisor de águas semeado para a segmentação. Semeados meio de segmentação de bacias hidrográficas, que as regiões de partida, que são chamados de sementes, são dados como entrada para a segmentação de bacias hidrográficas. Nós estabelecemos as sementes de uma forma automática utilizando o H-Maxima transformar [29]. O resultado desta etapa segmentação é mostrado na Figura 3C. Gráfico

2.3 celular Geração

Um grafo é denotado como um conjunto de objetos onde alguns pares de objetos são conectados por links. Os objetos conectados são representados por abstrações matemáticas chamados nós (também chamados vértices), e as ligações que conectam alguns pares de nós são chamados bordas. Formalmente, um grafo é um par ordenado

G = (V, E)

onde

V

é o conjunto de nós e

E

o conjunto de arestas que ligam os nós de

V

. No nosso trabalho, cada um dos núcleos de células ex segmentados foi utilizado como um nó. A Figura 4 mostra uma representação conceitual de gráficos de células

(a) esboço Artificial de 3 Tipo 3 células diferentes:. Células tumorais em azul, linfócitos em branco e em fibroblastos roxo. (B) representação gráfica celular de (a). As células são representadas como nós e as ligações entre elas representam relações biológicas.

Diferentes abordagens são apresentados na literatura para a geração de células gráficos, que representam o comportamento topológico de tecidos ou células em diferentes questões científicas [19], [21] – [23], [30]. Em [19] Gunduz et ai. fazer uso do modelo Waxman para a geração de gráficos célula. Bilgin et ai. [22] e Gunduz et ai. [21] utilizar uma função de probabilidade para as células ligando entre si. Em suas abordagens a probabilidade de células que ligam decai com a distância euclidiana crescente entre os centróides células. Em [23], [30] as células são simplesmente ligadas se a distância Euclidiana entre as suas centróide é inferior a uma distância específica. As células tumorais geralmente aparecem em grupos, consequentemente, eles podem ser esperados em uma distância marginal de outro ou appearingly “tocar” um ao outro. Assim, este “toque” de núcleos ocorre por causa da estrutura tridimensional de cortes histológicos. Ao utilizar o centróide núcleos para medições de distância só é possível que as células ficar ligado embora sejam mais afastadas do que as células tumorais típicos. No nosso caso, estamos realizando uma pré-classificação por só a construção de ligações entre os núcleos de células que tocam-se e excluindo assim as células solitárias (de origem do tecido conjuntivo) da etapa de construção de gráfico. No método testar se as células tocar uns aos outros pelos seguintes passos. Em primeiro lugar, converter o resultado da segmentação bacia para uma imagem binária e, depois, se dilatam cada um dos núcleos de células segmentadas separadamente. A dilatação de um (núcleo celular) -Image

eu jogue com um elemento estruturante

S

, indicado como

I⊕S

, é definida como a operação de conjunto, onde S significa o elemento estruturante simétrica. Escolhemos um elemento estruturante em forma de diamante com uma distância da origem de 2. Nós, então, determinar, se os núcleos celulares estavam em contato muito próximo (aparência “tocar”) e defina uma ligação entre eles, se sua interseção de pixel não é uma era conjunto vazio após a etapa de dilatação: (1) onde

I e J Quais são as imagens particulares de dois núcleos de células vizinhas. Nos tecidos, as células tumorais são eventualmente firmemente cercada por células do tecido conjuntivo que poderia, após a aplicação do chumbo regra distância acima descrito a erros estruturais no gráfico célula. Normalmente, as células de tumor estão a surgir com mais baixos níveis de intensidade do que as células do tecido conjuntivo. Daí que ligam apenas células, se a diferença entre os níveis de intensidade é menor do que um limiar específico. Este limiar é dependente de variações na coloração e sinal de fluorescência a eficiência de aquisição. Nós aqui empiricamente determinada uma diferença de 30 valores de intensidade como um limiar aplicável para o nosso conjunto de dados. Concluindo, vizinhos núcleos celulares, com uma diferença de intensidade abaixo deste limiar são ligados: (2) Onde é a média aritmética do nível de intensidade de imagem celular, X o número de linhas, Y o número de colunas e S = X * Y. Resumindo, estabelecendo uma ligação entre dois núcleos de células no nosso modelo depende da probabilidade de tocar uns aos outros e que a diferença dos seus níveis de intensidade é menor do que um limiar específico. A Figura 4D mostra uma imagem de exemplo através do qual as células individuais são removidos. A Figura 4E destaca os núcleos de células, que foram ligados através deste passo de geração de gráfico na mesma cor. Uma representação visual do gráfico este passo é mostrado na Figura 4F. As células que não foram ligados durante o processo de geração de gráficos foram tratados em uma etapa adicional descrita na seção “classificação de uma única célula”.

Características celular Graph

Depois de gerar os gráficos de células, foram computados vários recursos para a formação do classificador. No total, foram computados 22 características que podem ser divididos em três categorias diferentes. Os primeiros 10 recursos, na literatura geralmente chamadas de métricas gráfico [19], [23], capturar o comportamento topológico dos gráficos, como o número de células em um gráfico, o número de ligações entre eles ou em suas relações topológicas entre as células (recurso categoria T). Os restantes 12 recursos capturar propriedades morfológicas (recurso de categoria M), como área, forma, bem como propriedades com base intensidade (categoria I) recurso dos núcleos de células individuais de um gráfico e foram escolhidos com base na sua adequação esperado. As duas últimas categorias de recursos são primeiro lugar, calculada para cada um dos núcleos de células individuais e, em seguida, a média é utilizada como uma característica do gráfico correspondente. Tenha em atenção que várias destas características de intensidade baseado dependem das condições de imagem, como o tempo de exposição, a concentração do biomarcador, o tempo de retardação entre a coloração e imagiologia devido ao branqueamento foto e ainda mais. Ela exige que essas condições permanecem constantes em conjuntos de dados. Na Tabela 1 os recursos aplicados e métricas de gráficos são descritos em detalhe.

2.4 Classificação e seleção de recursos

Máquinas de vetores de suporte (SVMs) [31] são comumente usados ​​como métodos de aprendizagem supervisionadas para a classificação em tarefas de processamento de biologia e de imagem computacional [32] – [34]. ponto para a formação de um SVM partida é um conjunto de dados de treinamento cuja adesão classe é conhecida: (3) onde estão os vetores de características e seus respectivos rótulos de classe (células tumorais ou células do tecido conjuntivo). O SVM mapeia estes vectores de entrada para um espaço dimensional superior e cria um plano óptimo hiper separando os dados em dois grupos. Ao resolver um problema de optimização de programação quadrática, a SVM calcula o vector normal e o enviesamento do plano b de hiper separando o que maximiza a margem entre os vectores de apoio de diferentes classes. A largura da margem é igual a, pelo que a margem mais ampla entre os vectores é encontrado através da minimização sob as restrições, o que requer um conjunto de dados separados. O hiperplano em seguida, é usado como uma função de sinal para a classificação de cada característica do vetor do conjunto de teste. A função de classificação retorna ou +1, se os dados de teste é membro da classe, ou -1 se não é. Quando a separação perfeita não é possível, uma variável folga é introduzida para cada vector. As restrições para o cálculo da hiperplà óptima são depois formulados como eo hiperplà pode ser encontrado através da minimização: (4) onde

C

é um parâmetro de custo que determina o efeito dos Outliners no plano hiper resultante. O SVM descrito é capaz de separar os dados lineares. Para criar um classificador que é capaz de classificar os dados não-lineares o truque do kernel é aplicada. A ideia-chave é se transformar em um espaço de dimensão superior para encontrar um hiperplano separando usando um kernel. Isto permite que o algoritmo para ajustar o plano de máximo hiper-margem num espaço de características transformado. Equação 4 pode ser reescrita como (5) 🙁 5) (6) onde os valores são os multiplicadores de Lagrange, que pode ser positivo ou negativo, devido às restrições de igualdade e é a função kernel. Neste artigo, foi utilizado um núcleo de base radial (RBF), que também é conhecido como kernel gaussiano.

Seleção de Recursos

Foi calculado o F-score para a seleção dos recursos incluídos no SVM. seleção de recursos é uma técnica para encontrar um subconjunto de recursos através da remoção de características mais irrelevantes e redundantes a partir do espaço de características. Esta técnica geralmente ajuda a melhorar o desempenho total do classificador, acelerando o processo de aprendizagem, permite uma melhor representação de características importantes e resulta em um recurso remanescente definido com poder discriminatório mantida. O F-score mede a discriminação entre dois conjuntos de recursos [35]. A maior F-score indica a um recurso de discriminar maior do que um recurso com uma menor F-score. Calculou-se a F-score para cada recurso

i

como descrito em (7) com os vetores de treinamento dadas: (7) onde estão os valores médios do

i

recurso th do tumor , estroma e conjunto de dados inteiro. é denotado como o

i

recurso th da instância do tumor e do

i

recurso th da instância estroma.

Única célula classificação

Com base em os dois critérios para a geração de gráficos celular (intensidade e distância), pode ocorrer que as células individuais não estão ligados a qualquer outra célula. Assim, estas células não estão incluídos no passo de classificação e tratá-los com um algoritmo adicional num passo de classificação de células individuais em separado. Em primeiro lugar, tentar identificar células inflamatórias (linfócitos por exemplo) e fibroblastos, que são parte da classe estromal. Normalmente, os núcleos das células inflamatórias aparecem como pequenos núcleos das células arredondadas com um nível muito elevado de intensidade em relação a outras células no núcleo. núcleos celulares são, portanto, classificados como células inflamatórias quando: a intensidade núcleo da célula é superior a um determinado nível, uma métrica que calcula o arredondamento é superior a um limiar e a área é menor do que 500 pixels: (8), onde é a média aritmética da intensidade , S = X * Y e W a área do perímetro de um núcleo de célula. Os fibroblastos têm geralmente uma forma elíptica e foram identificados por: (9), onde está a oria e o eixo menor dos núcleos das células. Estes valores são utilizados para calcular a excentricidade de uma elipse. A excentricidade de um círculo é 0 e uma elipse que é uma excentricidade é um segmento de recta. Os núcleos das células restantes foram classificadas pela utilização de uma máquina de vetores de suporte. Usamos as 12 características morfológicas e de intensidade de base já mencionadas na secção “recursos Gráfico Cell” para classificar cada núcleo da célula única. Nós treinamos o SVM com os núcleos de células individuais de nosso conjunto de treinamento e avaliado o algoritmo separadamente, como descrito na seção resultado.

Resultados

O objetivo geral da nossa abordagem foi classificar automaticamente cada célula um núcleo de TMA com a ajuda dos gráficos de células geradas. A formação e a classificação se baseia somente no canal DAPI coloração principalmente os núcleos. A Figura 5 ilustra os resultados da nossa abordagem em 4 diferentes TMA-núcleos

(a-d) que mostra as imagens originais núcleo RGB.; (E-h) que mostra o canal DAPI correspondente como uma imagem intensa de os núcleos (a-d); (I-l) resultados da etapa de classificação, verde = células classificadas como células tumorais, azul = células classificadas como células do estroma.

segmentação celular etapa

A segmentação núcleos de células foi avaliadas em 3 imagens reais do núcleo selecionados aleatoriamente obtidos a partir de um TMA. No total, 5162 foram utilizados núcleos e verdade solo foi obtida a partir de um especialista, que marcou os núcleos celulares sobre e sub-segmentado. O algoritmo divisor de águas aqui proposto pode corretamente segmento de 94,1% (± 3,75) dos núcleos. A Tabela 2 mostra os resultados detalhados de segmentação e Figura 3C mostra um exemplo desta etapa em que os núcleos segmentados estão rodeados por um contorno verde.

Seleção de características

Seleção de características simplifica e encurta formação de um classificador, e frequentemente também melhora a sua precisão. Para seleção de características de imagem 30 do núcleo, primeiro gerado um total de 7888 gráficos de células topologicamente disjunct principais para usar o mesmo número total de vetores de características. Este conjunto total de recursos compreende 4065 vetores de características para a classe do tumor e 3823 para a classe estroma. Os valores de características ocorrer dentro largamente variados intervalos numéricos. Portanto, normalizou-los para o intervalo de [0,1] para melhorar o progresso de aprendizagem.

Foi calculado o F-score (poder discriminatório de um recurso) para cada um dos 22 recursos da Tabela 1 para determinar o melhor conjunto de recursos para a tarefa de classificação. Com base nos resultados apresentados na Tabela 3, escolhemos os 15 melhores características para a formação da máquina de vetores de suporte.

Deixe uma resposta