PLOS ONE: Diagnóstico por Early-Stage Lung Cancer Based on Data

Longitudinal e Equilibrado Computer-Aided

Abstract

Fundo

O cancro do pulmão é uma das formas mais comuns de câncer, resultando em mais de um milhão de mortes por ano em todo o mundo. Normalmente, o problema pode ser abordado através do desenvolvimento de métodos de diagnóstico mais discriminativos. Neste trabalho, o diagnóstico auxiliado por computador foi usado para facilitar a previsão das características dos nódulos pulmonares solitários no CT dos pulmões para diagnosticar o câncer de pulmão em estágio inicial.

Métodos

A minoria sintética sobre- técnica de amostragem (SMOTE) foi usado para contabilizar os dados brutos de forma a equilibrar o conjunto de dados de treinamento inicial. Curvelet-transformação características texturais, juntamente com 3 características demográficas dos pacientes, e 9 características morfológicas foram utilizados para estabelecer uma máquina de vetor de suporte (SVM) modelo de previsão. Os dados longitudinais como o conjunto de dados de teste foi utilizado para avaliar o desempenho da classificação de prever câncer de pulmão em estágio inicial.

Resultados

Usando o SMOTE como um procedimento de pré-processamento, os dados formação original em relação com uma proporção de maligna para casos benignos de 01:01. Precisão com base na avaliação cruzada para os dados e os dados desequilibradas inicial de equilíbrio foi de 80% e 97%, respectivamente. Baseado em Curvelet-transformação características de textura e outras características, o modelo de previsão SVM teve bom desempenho da classificação para câncer de pulmão em estágio inicial, com uma área sob a curva das SVMs de 0,949 (P 0,001). textural feature (desvio-padrão) mostraram casos benignos teve uma mudança maior no período de acompanhamento de casos malignos.

Conclusões

Com características texturais extraídas de uma transformação Curvelet e outros parâmetros, uma sensível apoio modelo de previsão de máquinas de vetores pode aumentar a taxa de diagnóstico de câncer de pulmão em estágio inicial. Este esquema pode ser usado como uma ferramenta auxiliar para diferenciar entre cancros benignos e malignos de pulmão em estágio inicial em imagens de CT

Citation:. Sun T, Zhang R, Wang J, Li X, Guo X (2013) Computador Diagnóstico -Aided para Early-Stage Lung Cancer baseados em dados longitudinais e equilibrada. PLoS ONE 8 (5): e63559. doi: 10.1371 /journal.pone.0063559

Autor: Michael Gormley, Thomas Jefferson University, Estados Unidos da América

Recebido: 20 de novembro de 2012; Aceito: 03 de abril de 2013; Publicado em: 15 de maio de 2013

Direitos de autor: © 2013 Sun et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este foi apoiado pelo Fundo Natural Science of China (Serial Number: 81172772); Fundo Natural Science of Beijing (Número de série: 4112015); e do Programa de Academic Desenvolvimento de Recursos Humanos em Instituições de Ensino Superior sob a jurisdição do Município de Pequim (Número de série: PHR201007112). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito

CONFLITO DE INTERESSES:.. Os autores declararam que não existem interesses conflitantes

Introdução

o cancro do pulmão, uma das mortes mais comuns relacionadas com o cancro, é responsável por 1,1 milhões de mortes por ano em todo o mundo [1]. Embora atenção tem sido dada às previsões fase precoce e diagnóstico, prognóstico permanece muito pobre, com taxas de sobrevivência de cinco anos variando de 54% para a Fase I a 10% para a Fase III [2]. Isso enfatiza a necessidade de um processo de previsão em estágio inicial de confiança que pode prolongar a vida dos pacientes. Digital tomografia computadorizada (TC) é actualmente amplamente utilizado para o cancro do pulmão em práticas clínicas. No entanto, em imagens de CT, câncer de pulmão geralmente aparece como nódulo solitário pulmonar (SPN), e partilhar semelhanças com os de várias doenças benignas [3]. Por definição, o nódulo pulmonar solitário (SPN) é um único esférica bem circunscrita opacidade radiográfica,,, que mede = 3 cm de diâmetro e é cercado completamente pelo pulmão aerado. Não há atelectasia associada, o alargamento hilar, ou derrame pleural.

Com o desenvolvimento da ciência e tecnologia, o diagnóstico auxiliado por computador (CAD) tornou-se uma ferramenta auxiliar. Para nosso conhecimento, utilizando métodos informáticos automatizados, tais como análise de imagem textura, para prever o cancro do pulmão tem sido relatado amplamente [4] – [9]. Via et ai. [4] extraído morfológicas, características de superfície e textura de 256 nódulos pulmonares, e estabeleceu uma análise discriminante linear. Um método de diagnóstico neural baseada em rede auxiliada por computador do diagnóstico de nódulos de pulmão através da combinação de morfometria e de perfusão características de prever características dos nódulos pulmonares solitários foi introduzido por Yeh et al. [5]. Em outro estudo, McCarville et ai. [6] coletadas 81 nódulos pulmonares, bases sobre achados da TC para diferir natureza benigna e maligna de nódulos pulmonares em pacientes pediátricos, enquanto Wang et al. [7] usou a matriz de co-ocorrência dos níveis de cinza eo modelo de multi-nível de prever características de nódulos pulmonares. Lee et al. [8] usou uma abordagem em duas etapas para seleção de características de construção classificador conjunto para facilitar a previsão das características dos nódulos pulmonares. Zhu et al. [9] apresentou um método para localizar e selecionar características de textura de nódulos pulmonares solitários (SPN) detectados por tomografia computadorizada (TC) e avaliar o desempenho da máquina de vetor de suporte (SVM) classificadores baseados em diferenciar lesões benignas de NPS malignos. No entanto, um desses métodos, nenhum deles teve como objetivo prever câncer de pulmão em estágio inicial usando análise de textura, apesar do fato de que é fundamental para prolongar a vida de pacientes com câncer de pulmão através da ressecção prontamente o câncer em seus primeiros estágios.

Em estudo anterior, eles simplesmente usado várias características morfológicas (como modelo Mayo Clinic e modelo VA) ou características texturais de prever a característica de nódulos. Neste papel, máquinas de vetor de suporte (SVMs) foram escolhidos como um modelo de predição, usando um conjunto abrangente de características texturais extraídas pela Curvelets [15] a partir de imagens de CT, características demográficas dos pacientes e características morfológicas para prever câncer de pulmão em estágio inicial que aparece como SPNs. Para o nosso conhecimento, esta é a primeira vez que a análise de textura foi utilizado para prever câncer de pulmão em estágio inicial e é um compromisso útil.

Materiais

Os dados adotados neste trabalho foi obtido a partir um estudo de coorte. O estudo de coorte foi criado em 2009 e implementado em 4 hospitais. A decisão sobre a inclusão e exclusão do paciente baseou-se nos resultados dos diagnósticos finais. As informações nas imagens de CT foi acessado por 8 radiologistas; Enquanto isso, os conflitos na interpretação final das imagens de TC foram resolvidas por discussão consenso. Um total de 360 ​​casos foram obtidas a partir deste estudo de coorte. 317 casos (317/360) tiveram apenas uma tomografia computadorizada tempo, onde o paciente só foi varrida uma vez, eo diagnóstico final dos casos malignos e benignos foi determinada por qualquer uma operação ou biópsia. 33 casos (33/360) tinham pelo menos dois exames de TC com um período de acompanhamento de 1 mês a 2 anos (pacientes foram acompanhados até diagnósticos finais estavam disponíveis), eo diagnóstico final dos casos malignos e benignos foi determinada por qualquer uma operação ou biópsia. 10 (10/360) dos casos foram excluídos por causa da falta de qualquer diagnóstico final.

tomografias foram obtidas utilizando um scanner de tomografia computadorizada helicoidal 64-slice (GE /Luz de velocidade ultra-Sistema CT99, EUA) com um tubo tensão de 120 kV e uma corrente de 200 mA. Os intervalos de espessura e reconstrução de reconstrução para digitalização de rotina foram 0,625 mm. Os dados foram reconstruídos com uma matriz de 512 × 512. De modo a remover alguns outros tecidos (tais como o músculo, osso e recipiente), todos os SPN nas imagens de CT foram segmentadas manualmente para obter uma região de interesse (ROI), e as características texturais foram extraídos por ROI ROI. A região de crescimento [10] algoritmo, uma ferramenta popular para segmentação de imagem, foi usado para remover quaisquer pixels de fundo.

Dados de treinamento incluiu 317 casos que tiveram apenas uma tomografia computadorizada tempo. Um total de 10,108 ROIs foram adquiridos a partir de 317 pacientes, com 3131 ROI benigna de 106 pacientes (58 homens, 48 ​​mulheres) e 6977 ROIs maligna de 211 pacientes (125 homens, 86 mulheres). Os detalhes são como se segue (ver Quadro 1). Os dados de treinamento foi usado para estabelecer um modelo de previsão SVMs.

Um total de 33 casos levou pelo menos duas tomografias e o conjunto de dados não incluem imagens SPN da última tomografia computadorizada de cada caso. A razão pela qual os dados de teste excluiu a última tomografia computadorizada de cada caso é que os radiologistas faria diagnósticos clínicos com base no último TC qualquer que seja correto ou errado e que os restantes dados das imagens SPN CT que eram difíceis de diagnosticar por radiologistas foram usadas para testar o desempenho de um modelo de predição de câncer de pulmão em estágio inicial. Estes dados são resumidos na Tabela 2.

Métodos

Um conjunto de características texturais extraídas pela Curvelets de CT ROIs, parâmetro demográfica e características morfológicas foram usados ​​como dados de entrada para estabelecer uma SVMs modelo de previsão. Como um facto que um paciente tem várias ROIs, de modo que a taxa de malignidade foi utilizado como a variável a desenhar uma curva de ROC. A taxa de malignidade foi definida como: (1).

Ética Declaração

Este estudo foi realizado com a aprovação ética (Comitê de Ética do Hospital Xuanwu, Capital Medical University, Aprovação Documento NO [2011] 01 ). consentimento por escrito foi dado pelos pacientes.

Minority Synthetic Over-amostragem Técnica (SMOTE)

Os dados adquiridos dos hospitais foi desequilibrada (a relação entre maligna aos casos benignos nos dados de treinamento foi 02:01). Esses dados usando para a classificação causado um viés na formação de classificadores e resultou em menor sensibilidade durante a detecção nos exemplos da classe minoritária [11]. Se os dados não balanceada foi usado neste estudo, os resultados teriam alta sensibilidade e baixa especificidade, que são resultados indesejáveis.

Um método de pré-processamento de dados usado para contabilizar os dados desequilibrada consiste em duas categorias seguintes [12 ]: sub-amostragem da classe majoritária e sobre-amostragem da classe minoritária. Sub-amostragem são aplicados métodos para remover alguns padrões de classe maioria de formação para reequilibrar conjuntos de dados, enquanto que sobre-amostragem métodos são usados ​​para formar uma nova amostra minoria de classe. Alguns pesquisadores preferem sobre-amostragem de métodos para métodos sub-amostragem porque o uso de sub-métodos de amostragem corre o risco de perda de informações classe majoritária.

A minoria sintética sobre-amostragem técnica (SMOTE) [13] é um tal excesso método de amostragem. Sua idéia principal é formar novas amostras minoria de classe por interpolação entre vários exemplos minoria de classe que estão juntos. No SMOTE, em vez de duplicar orientada meros dados, a classe positiva é sobre-amostrado criando instâncias sintéticos no espaço recurso formado pelos casos positivos. Para cada exemplo minoria, a sua k (que é definido como 5 em SMOTE) vizinhos mais próximos da mesma classe são calculados, em seguida, alguns exemplos são selecionados aleatoriamente a partir deles de acordo com a taxa de sobre-amostragem. Depois disso, novos exemplos sintéticos são gerados ao longo da linha entre o exemplo minoria e selecionados vizinhos mais próximos.

Texture Extração

A textura é uma característica fundamental das imagens digitais como geralmente reflete a estrutura de os objetos retratados. extração de características de imagem é um passo importante em técnicas de processamento de imagem.

A transformação Wavelet, um método de extração de características de textura, fornece uma representação multi-resolução e não redundante de sinais com uma capacidade de reconstrução exata, e forma uma precisão e um quadro uniforme para a análise espaço-frequência. Embora Wavelets funcionar muito bem para objetos com singularidades ponto, eles não são adequados para representar a singularidade 1D [14] – [15]. Em 2000, Candes e Donoho [16] desenvolveu o Curvelet, um tipo de Wavelets de segunda geração. Como uma extensão do quadro Wavelet de análise multi-escala, Curvelets pode efetivamente lidar com singularidades lineares em sinais 2D [14]. A transformação Curvelet é definido como uma ferramenta eficaz para encontrar curvas em níveis de resolução de múltiplos. Vários estudos usando transformações Curvelet em processamento de imagem mostraram que transformações Curvelet produzir melhores resultados [17] – [19]

Com base na transformação Curvelet, quatorze imagem CT características texturais de nódulos pulmonares foram extraídos:. Entropia, Média , Correlação, Energia, homogeneidade, desvio padrão, probabilidade máxima, Inverse momento da diferença, Tendência Cluster, Inércia, Sum-Meio, Difference-Média, Sum-entropia, e Diferença-Entropia. Como um pré-processo de classificação, uma transformação Curvelet produziu uma representação dos nódulos pulmonares de imagens de CT através da decomposição nível multi-escala. Os três matrizes de coeficientes Curvelet das escalas (a camada grossa, a camada detalhe, e a camada fina) foram escolhidos como candidatos. imagens de ROI foram decomposto em 34 sub-bandas, resultando na extração de 476 características de textura de cada ROI.

Levantamento de parâmetros clínicos

Três parâmetros demográficos (idade, hábitos de sexo e tabagismo) foram obtidos a partir de histórias médicas. 9 características morfológicas (incluindo alterações substanciais, densidade do SPN, a presença de espículas, cavernas, vacúolos, lobulação, calcificação e vidro moído no SPN, e área) foram relatados por radiologistas experientes de acordo com o SPN.

Previsão Modelo

Como sugerido por um grande corpo de literatura até à data, máquinas de vetores de suporte podem ser considerados bons algoritmos de classificação em alguns domínios de investigação [20] – [22]. Em um estudo anterior, os mesmos resultados foram demonstrados pelo nosso grupo [23].

A máquina de vetor de suporte (SVM) é descrito como um classificador populares com base no princípio de minimização do risco estrutural. Em comparação com outros classificadores, o SVM tem por objectivo encontrar o hiperplà que maximiza a distância a partir da hiperplà aos exemplos mais próximos em cada classe. Dado um conjunto de vetores de treinamento (l no total) pertencentes para separar as classes, denota o

i

th vetor de entrada e é a saída desejada correspondente. O classificador margem máxima procura encontrar um hiperplano para separar os dados de treinamento. Nos hiperplanos possíveis, apenas uma maximiza a margem (a distância entre a hiperplà e o ponto de cada classe de dados mais próxima). Os vetores de suporte designar os pontos situados na fronteira margem. A solução para a classificação é dada pela função de decisão: (2)

Onde está o multiplicador de Lagrange positivo, é os vetores de suporte (no total), e é a função para a convolução do kernel da decisão função.

R 2.14.0 software foi usado para implementar as máquinas de vetores de suporte e o SMOTE. O kernel função de base radial foi utilizada como o kernel das SVMs neste estudo.

Resultados

SMOTE de Pré-processamento da Desequilibrado Data Set

A distribuição de 3 demográfica parâmetros é mostrado na Tabela 3. Os dados de formação de imagens originais incluído de 3131 ROIs benignas e malignas 6977 ROIs, com uma proporção de maligna para casos benignos de 02:01. Usando o SMOTE como um procedimento de pré-processamento, os novos dados, incluindo a textura textural, parâmetros demográficos e características morfológicas foi gerado, e os dados de treinamento final incluiu observações de 9393 ROIs benignos e 9393 ROIs maligno.

resultados da previsão

a fim de testar o modelo SVM baseado em dados balanceados se era sensível ao câncer de pulmão, foram utilizados dois métodos:. 10 vezes cross-avaliação, a nova avaliação dos dados de testes

precisão com base em 10-dobra transversal de avaliação para os dados originais desequilibradas e os dados equilibrada foi de 80% e 97%, respectivamente. Provou-se que o algoritmo SMOTE iria aumentar consideravelmente o desempenho do modelo de previsão.

33 casos (17 casos malignos, 16 casos benignos) foram escolhidos como dados de teste para avaliar o desempenho de classificação para o câncer de pulmão em estágio inicial . O modelo de predição SVM foi estabelecida com sucesso usando 488 características texturais. A informação sobre os casos foi analisada, e a taxa de malignidade (Fórmula 1), foi adoptado como a variável independente para desenhar as curvas ROC, com os resultados apresentados na Figura 1. A área sob a curva do SVM foi 0,949 (

P Art 0,001, precisão estava 15/17 para os casos malignos, 14/16 para os casos benignos). Este resultado está resumido na Tabela 2. Para os dados de teste neste estudo, todos os casos tinham diagnóstico CT antes de operações e os resultados são mostrados na Tabela 2. Os diagnósticos de TC de 33 casos eram todos potencialmente maligno indicando que, embora por um período de seguimento o tempo é bastante difícil para tomar uma decisão clínica evidente.

Também fizemos avaliar a mudança de características texturais entre a primeira tomografia computadorizada e a última tomografia computadorizada com base no conjunto de dados de teste. Encontramos o recurso textural Curvelet (Desvio Padrão) uma grande diferença entre os casos benignos e malignos. A Figura 2 mostra a mudança na tendência do recurso textural (Desvio Padrão) valor médio.

Discussão

Atualmente, as taxas de incidência e mortalidade do cancro do pulmão têm classificada em primeiro lugar entre os vários tumores . O uso de CT scans é comum na prática clínica para distinguir entre SPN benignos e tumores malignos. Uma meta-análise [24] descobriu que ele tem uma sensibilidade combinada de 0,57 (intervalo de confiança de 95%, 0,49-0,66) e uma especificidade combinada de 0,82 (intervalo de confiança de 95%, ,77-,86) para câncer de pulmão usando tomografia computadorizada. Todas as pesquisas acima focados em câncer de pulmão, e não sobre o câncer de pulmão em estágio inicial. Assim, sensibilidade e especificidade para o cancro do pulmão em estágio inicial pode ser mais pobres. Com base na prática clínica, uma alta proporção de pacientes com condições benignas suspeitos que não poderia excluir uma possível malignidade exigiria novas investigações ou cirurgia, o que aumentaria a carga sobre os pacientes. diagnóstico de tecnologia (CAD) assistido por computador tornou-se mais prevalente em ajudar os radiologistas com o diagnóstico clínico. Para o nosso conhecimento, as pesquisas sobre análise de imagem SPN discutir a previsão das características do câncer de pulmão através da análise de textura, não cânceres de pulmão em estágio inicial que têm valor clínico mais significativo. Neste estudo, os dados longitudinal foi utilizado como dados de teste para avaliar o desempenho de classificação do modelo de previsão SVM para câncer de pulmão em estágio inicial. A área sob a curva do SVM foi 0,949 (

P

0,001), e o modelo tem potencial competência para predizer o cancro de pulmão na fase inicial. literatura relacionada ainda não foi relatado.

Os dados obtidos a partir dos hospitais estava desequilibrado. Usando dados desbalanceados podem causar uma especificidade inferior ao prever casos benignos. Neste estudo, o SMOTE, um método de sobre-amostragem, foi usado como o processo de pré-tratamento para equilibrar os dados, e o desempenho da classificação (exactidão) do modelo de predição teve uma grande melhoria de 80% a 97%. Assim, o SMOTE é um método útil para explicar os dados desequilibradas e pode melhorar a capacidade dos modelos.

Vários métodos para extrair as características texturais de imagens têm sido desenvolvidos. Um dos métodos mais populares de Wavelet é um que está a ser amplamente utilizados no processamento de imagens médicas [14] – [15]. Em comparação com Wavelets, transformações Curvelet pode fornecer representações estáveis, eficientes e quase ideais de objetos lisos com descontinuidades ao longo de curvas lisas [14]. Como uma característica fundamental das imagens digitais, características texturais geralmente refletem a estrutura microscópica dos objetos retratados, com vista para as características macroscópicas dos casos. Neste trabalho, características texturais extraído por Curvelets, além de 3 características do paciente e 9 características morfológicas que foram aplicados para descrever características macroscópicas dos tecidos, foram utilizadas como variáveis ​​de entrada para estabelecer um modelo de previsão SVMs. Este esquema é sensível ao câncer de pulmão em estágio inicial e pode, portanto, aumentar a taxa de precisão do diagnóstico.

Neste estudo, encontramos a característica textural Curvelet, Desvio Padrão, teve uma grande diferença entre os casos benignos e malignos. Embora todos os casos não têm a mesma data para a tomografia computadorizada anterior, o recurso textural (desvio padrão) dos casos benignos tiveram um aumento evidente a partir da primeira tomografia computadorizada para a última tomografia computadorizada na maioria dos casos, mas era relativamente estável em casos malignos. Este resultado poderia ser útil como uma pista para encontrar um biomarcador para o câncer de pulmão.

Para 33 casos, a verificação da média CT por caso foi de 3,2 vezes. A média, mediana, intervalo interquartil e desvio padrão de tempo de seguimento foi de 6,9, 2,0, 8,0 e 11,0 meses, respectivamente. Se o método envolvido neste papel pode ser utilizado na prática clínica para ajudar os radiologistas para tomada de decisão, o tempo para diagnósticos vai encurtar em 6,9 meses e economizar o custo de 2,2 tomografia computadorizada (em Pequim, China, o custo de 2,2 CT scans é de cerca de 1.000 RMB). Com base em uma meta-análise [25], o custo económico directo para pacientes com câncer de pulmão é diferente, variando de 18,019.4 RMB por pessoa para a Fase I para 3,2534.0 RMB por pessoa para a Fase IV RMB por pessoa na China e está a aumentar ano após ano. carga mental de pacientes e os custos económicos indirectos também são importantes. A China é um dos países com maior taxa de suicídio entre pacientes com câncer no mundo. Assim, se o regime introduzido neste estudo é utilizado na prática clínica, pode reduzir o fardo económico e mental em pacientes e prolongar o tempo de pacientes com câncer de pulmão. As arquiteturas do SVM e Curvelets são simples, corrigido facilmente, e são adequados para design de software. Ele pode ser utilizado na prática radiológica diária devido à sua vantagem no futuro não muito longe.

Existem, no entanto, limitações envolvidas neste estudo. O intervalo de tempo entre a primeira tomografia computadorizada e a última tomografia computadorizada é diferente entre os pacientes.

Deixe uma resposta