PLOS ONE: Comparação de Redes Neurais Artificiais e de regressão logística para prever a mortalidade intra-hospitalar após cirurgia de câncer primário de fígado

Abstract

Fundo

Uma vez que maioria dos artigos publicados que comparam o desempenho de redes neurais artificiais (RNA) modelos e modelos de regressão logística (RL) para a previsão de carcinoma hepatocelular (HCC) resultados apenas usado conjunto de dados único, a questão essencial da validade interna (reprodutibilidade) dos modelos não foi abordada. Os fins de estudo para validar a utilização do modelo de RNA para a previsão de mortalidade intra-hospitalar em pacientes cirúrgicos HCC em Taiwan e comparar a precisão da previsão da RNA com a do modelo LR.

Metodologia /Principais Achados

os pacientes que se submeteram a uma cirurgia HCC durante o período de 1998 a 2009 foram incluídos no estudo. Este estudo compararam retrospectivamente 1.000 pares de LR e modelos ANN com base em dados clínicos iniciais para 22,926 pacientes de cirurgia HCC. Para cada par de modelos Ann e LR, a área sob a operar curvas (AUROC) característicos, estatísticas Hosmer-Lemeshow (H-L) e taxa de precisão foram calculados e comparados usando t-testes emparelhados. Uma análise de sensibilidade global também foi realizada para avaliar a importância relativa de parâmetros de entrada no modelo do sistema ea importância relativa de variáveis. Em comparação com os modelos LR, os modelos ANN tido uma melhor taxa de precisão em 97,28% dos casos, uma melhor H-L estatística em 41,18% dos casos, e uma melhor curva de AUROC em 84,67% dos casos. o volume cirurgião foi o parâmetro mais influente (sensível) que afectam a mortalidade hospitalar seguido por idade e tempo de permanência.

Conclusões /Significado

Em comparação com o modelo convencional LR, o modelo ANN em o estudo era mais preciso na predição de mortalidade intra-hospitalar e teve índices mais elevados de desempenho geral. Mais estudos deste modelo pode considerar o efeito de uma base de dados mais detalhada que inclui complicações e achados do exame clínico, bem como dados sobre os resultados mais detalhados

Citation:. Shi HY, Lee KT, Lee HH, Ho WH, Sun DP, Wang JJ, et al. (2012) Comparação de Redes Neurais Artificiais e de regressão logística para prever a mortalidade intra-hospitalar após cirurgia de câncer primário de fígado. PLoS ONE 7 (4): e35781. doi: 10.1371 /journal.pone.0035781

editor: William B. Coleman, University of North Carolina School of Medicine, Estados Unidos da América

Recebido: 05 de janeiro de 2012; Aceite: 21 de março de 2012; Publicação: 26 de abril de 2012

Direitos de autor: © 2012 Shi et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original ea fonte sejam creditados

Financiamento:. Este trabalho foi apoiado em parte pelo Conselho Nacional de Ciência, Taiwan, República da China, sob os números de concessão NSC 99-2320-B-037-026-MY2 e NSC 99-2314-B-037-069-MY3. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e análise, decisão de publicar ou preparação do manuscrito. Sem financiamento externo adicional recebida para este estudo

Conflito de interesses:. Os autores declararam que não existem interesses conflitantes

Introdução

O carcinoma hepatocelular (HCC) é prevalente em regiões. da Ásia, do Mediterrâneo e na África do Sul. Em Taiwan, um vírus da hepatite B (HBV) e vírus da região epidemia de hepatite C (VHC), CHC é a principal causa de mortes por cancro em homens [1]. A incidência de HCC também aumentou em ambos Estados Unidos e no Reino Unido nas últimas duas décadas [1] – [3]. O prognóstico é geralmente sombria, e as terapias curativas conhecidos apenas são cirúrgicos, ou seja, a ressecção hepática ou transplante de fígado. Além disso, os pacientes percentuais com indicações apropriadas para a cirurgia são relativamente pequenos [2]. Nos últimos anos, estudos de tratamento cirúrgico para HCC e outras doenças têm tentado desenvolver modelos para predizer o resultado cirúrgico [4] – [6]. No entanto, modelos de previsão de resultados com precisão aceitável ter sido difícil desenvolver [7].

As redes neurais artificiais (RNAs) são sistemas não-lineares complexos e flexíveis, com propriedades não encontradas em outros sistemas de modelagem. Essas propriedades incluem um desempenho robusto para lidar com padrões de entrada ruidosos ou incompletos, alta tolerância a falhas, e a capacidade de generalizar a partir dos dados de entrada [8], [9]. Embora muitos diferentes RNAs foram desenvolvidos, uma característica comum é um grupo interligado de nodos em camadas múltiplas, em que os nós de entrada e de saída têm nodos correlações clínicas [10]. nós ocultos, que se conectam a entradas e saídas, permitem interações não lineares entre as variáveis ​​de entrada e não tem do mundo real se correlaciona. Os nós estão ligados por ligações, cada uma das quais tem um peso associado. Esta rede é “treinado” pela exposição a factores de produção emparelhados com saídas conhecidas, e aprendizagem ocorre quando os pesos entre os nós são modificadas de acordo com o feedback [8] – [10]. O poder computacional de uma RNA é derivado da natureza de ligações distribuídas. Uma vez que um modelo é treinado, saídas de previsão podem ser gerados a partir de novos registros [8] – [10].

comparações anteriores de regressão logística (LR) e os modelos ANN para prever resultados da cirurgia HCC têm mostrado grandes deficiências [ ,,,0],11], [12]. Em primeiro lugar, alguns autores utilizaram dados longitudinais para mais de dois anos. Em segundo lugar, os dados utilizados na maioria dos estudos ter sido para populações de pacientes de HCC nos Estados Unidos ou na Organização para a Cooperação e Desenvolvimento Económico (OCDE), que pode diferir substancialmente daqueles em Taiwan. Em terceiro lugar, não há estudos têm considerado as diferenças de grupo em outros fatores, como idade, sexo e tratamento não cirúrgico. Finalmente, uma vez que maioria dos artigos publicados que comparam o desempenho dos modelos de Ann e modelos LR para prever resultados HCC utilizado apenas um único conjunto de dados, a questão essencial da validade interna (reprodutibilidade) dos modelos ainda não foi abordado.

Portanto, o objetivo principal deste estudo foi validar o uso de modelos ANN para a previsão de mortalidade intra-hospitalar em pacientes cirúrgicos HCC. O objetivo secundário foi comparar previsão resultado entre os modelos Ann e LR.

Declaração de Materiais e Métodos

Ética

Este estudo analisou dados de pedidos administrativos obtidos a partir do Bureau of National Taiwan Seguro de saúde (BNHI). Porque o BNHI é o único pagador, em Taiwan, o conjunto de dados BNHI era assumidamente a fonte de dados mais abrangente e confiável para o estudo. Os sujeitos do estudo foram recrutados por rever os dados mensais de descarga paciente divulgados pelo BNHI. Além disso, o banco de dados contém um registro de instalações médicas contratadas, um registo dos médicos placa-certificados e resumos mensais para todas as reivindicações de internamento. Porque estes eram dados secundários agregados sem identificação pessoal, este estudo foi isentos de revisão completa pelo conselho de revisão interna. O protocolo do estudo está de acordo com padrões éticos de acordo com a Declaração de Helsinki publicado em 1964. Além disso, a exigência de consentimento dos pacientes escritas ou verbais para este estudo de ligação de dados foi dispensada.

Estudo da População

a amostra do estudo incluiu todos os pacientes com diagnóstico de neoplasia maligna do fígado e vias biliares (códigos ICD-9-CM 155.XX) durante os anos 1998-2009 (n = 148,018). Após a exclusão de outros do que aqueles que tinham recebido hepatectomia parcial (ICD-9-CM código de procedimento 50,22) ou lobectomia hepática (ICD-9-CM código de procedimento 50,3) casos, 24,748 casos permaneceu. Pacientes com neoplasia maligna secundária e não especificada maligno (códigos ICD-9-CM 196.XX-199.XX), neoplasia maligna das vias biliares (código CID-9-CM 155.1) ou neoplasia maligna de fígado para além de uma primária ou neoplasia maligna secundária (código CID-9-CM 155.2) também foram excluídos, o que deixou uma amostra de 22,926 indivíduos elegíveis com neoplasia hepática primária que receberam hepatectomias durante o período do estudo.

potenciais fatores de confusão

as características dos pacientes analisados ​​e características hospitalares da população do estudo incluíram idade, sexo, co-morbidade, o volume de hospital, o volume cirurgião, duração da estadia (LOS) e sobrevida hospitalar. Co-morbidade foi estimada utilizando o índice de Charlson co-morbidade (CCI) [13]. Para cada hospital ou cirurgião, o volume de HCC foi definida através do cálculo da percentagem de cirurgias HCC no total de cirurgias realizadas pelo respectivo hospital ou cirurgião durante o período do estudo. Especificamente, o volume de HCC para um hospital ou cirurgião foi classificado como baixo, médio, alto e muito alto se o número de cirurgias HCC realizados pelo hospital ou cirurgião durante um determinado ano, no período de estudo compreendeu $ \\ raster = “RG1” $ 25%, 26% ~ 50%, 51% ~74% e $ \\ raster = “RG2” $ 75%, respectivamente, dos procedimentos cirúrgicos totais realizada pelo hospital ou cirurgião daquele ano.

Desenvolvimento do modelo LR

o conjunto de dados foi dividida aleatoriamente em um conjunto de treinamento de 18,341 casos (80% do conjunto de dados global) e um teste conjunto de 4.585 casos (20% do conjunto de dados global). O conjunto de treinamento foi usado para construir o modelo LR. Idade, sexo, CCI, o volume de hospital, o volume cirurgião e LOS foram as variáveis ​​independentes, eo resultado (morte /sobrevivência) foi a variável dependente. O modelo LR foi então testado usando o conjunto de dados de teste. Estes passos (divisão randomizado de conjunto de dados e análise de regressão considerando as mesmas variáveis) foram repetidas 1.000 vezes para obter 1.000 pares de formação e conjuntos de dados de teste (80% e 20% do conjunto de dados original, respectivamente), que foram gravados para posterior processamento pela rede neural

Desenvolvimento do modelo de ANN

a ANN utilizada neste estudo foi, uma rede padrão de feed-forward back-propagação neural com três camadas:. uma camada de entrada, uma camada oculta e uma camada de saída. A rede perceptron multicamadas (MLP) é uma ferramenta emergente para a concepção de classes especiais de redes de feed-forward em camadas [14]. Sua camada de entrada consiste de nós de origem, e sua camada de saída consiste de neurônios; estas duas camadas conectar a rede para o mundo exterior. Em adição a estas duas camadas, o MLP geralmente tem uma ou mais camadas de neurónios referidos como neurónios escondidos porque eles não estão directamente acessíveis. Os neurônios ocultos extrair aspectos importantes contidos nos dados de entrada.

Um MLP é geralmente formado por um algoritmo back-propagation (BP), com frente e para trás fases [14]. O algoritmo de aprendizagem BP é facilmente implementado, e sua complexidade linear nos pesos sinápticos da rede torna computacionalmente eficiente. Para a eficiência de aprendizagem ideal, os neurônios são normalmente ativadas com ambas as funções anti-simétrico (por exemplo, função tangente hiperbólica) e funções não-simétricos (por exemplo função, logística). A seguinte técnica de validação cruzada é usado para otimizar o tempo em que uma sessão de treinamento da rede MLP “pára”. Em primeiro lugar, uma estimativa subconjunto dos exemplos é usado para a formação do modelo, e um subconjunto de validação é utilizado para avaliar o desempenho do modelo. A rede neural é otimizado usando um conjunto de dados de treinamento. Um conjunto de dados de teste em separado é usado para interromper o treinamento para atenuar o excesso de montagem. O ciclo de treinamento é repetido até que o erro de teste não diminui [15], [16].

A análise estatística

A unidade de análise neste estudo foi o indivíduo HCC paciente cirúrgico. A análise dos dados foi realizada em várias etapas. Em primeiro lugar, as variáveis ​​contínuas foram testadas para significância estatística pelo one-way análise de variância (ANOVA), e as variáveis ​​categóricas foram testadas por análise exato de Fisher. Análises univariadas foram realizadas para identificar preditores significativos (p 0,05). Em segundo lugar, o poder discriminatório dos modelos foi analisado usando a área sob a curva ROC (AUROCs). Aqui, poder discriminatório se refere à capacidade de um modelo para distinguir aqueles que morreram por aqueles que sobreviveram. Um modelo perfeitamente exigentes seria atribuir uma maior probabilidade de morte para pacientes que morreram do que para pacientes que sobreviveram. Em terceiro lugar, a calibragem relativa dos modelos foi comparada utilizando o Hosmer- Lemeshow (H-G) estatística para estudar a precisão preditiva dos modelos ao longo de toda a gama de gravidade. A estatística H-L é uma medida resumo simples de calibração e é baseado em uma comparação da mortalidade observada e estimada em pacientes agrupados por mortalidade estimada [17]. Quanto menor o H-G estatística, melhor o ajuste. Por conseguinte, um modelo perfeitamente calibrado deve ter um valor de H-G igual a zero. Finalmente, a análise de sensibilidade foi realizada para avaliar a importância das variáveis ​​nos modelos embutidos. Para simplificar o processo de formação, as principais variáveis ​​foram introduzidas, e as variáveis ​​desnecessárias foram excluídos. Uma análise de sensibilidade também foi realizado para avaliar a importância relativa dos parâmetros de entrada no modelo do sistema e para avaliar a importância das variáveis. A sensibilidade global, das variáveis ​​de entrada contra a variável de saída foi expressa como a razão entre o erro de rede (soma dos quadrados dos resíduos) com um dado de entrada omitido ao erro de rede com a entrada incluídos. Uma razão de 1 ou inferior indica que a variável diminui o desempenho da rede, e deverá ser removido

X

1, idade.; X

2, sexo; X

3, Charlson índice de co-morbidade; X

4, o volume hospitalar; X

5, o volume cirurgião; X

6, tempo de permanência; IB, o viés camada de entrada; HB, o viés camada escondida.

Para cada 1.000 pares de modelos de Ann e modelos LR (treinados e testados nos mesmos conjuntos de dados) esses índices (taxa de precisão, AUROC e Estatística HL) foram calculados e comparados usando testes t pareados

o software STATISTICA 10,0 (StatSoft, Tulsa, OK) foi usado para construir os modelos de Ann e modelos LR da relação entre os preditores identificados e variáveis ​​significativas selecionados (p 0,05)..

resultados

a Tabela 1 mostra as características do paciente e características hospitalares do estudo. A idade média da população do estudo foi de 58,6 anos (desvio padrão 12,7), e 73,7% dos pacientes eram do sexo masculino. A taxa de mortalidade intra-hospitalar foi de 97,3%. O CCI média na população estudada foi de 3,6 (desvio padrão 1,6). A Tabela 2 mostra os coeficientes de mortalidade intra-hospitalar obtidos para a formação definida no modelo LR. A mortalidade hospitalar teve uma associação negativa significativa com a idade, sexo masculino, CCI e LOS (p 0,05), mas uma associação positiva significativa com o hospital volume e volume de cirurgião (p 0,05).

A ANN-based abordagens utilizadas redes de 3 camadas e os pesos relativos de neurônios para prever a mortalidade intra-hospitalar. O modelo MLP incluídos 6 entradas (ou seja, idade, sexo, CCI, o volume de hospital, o volume cirurgião, e LOS), neurônio 1 viés na camada de entrada, 3 neurônios ocultos, um viés neurônio na camada oculta e 1 saída do neurônio ( Figura 1). As funções de ativação de sigmóide logística e tangente hiperbólica são usados ​​em cada neurônio da camada escondida e camada de saída, respectivamente.

A Tabela 3 mostra que a ANN superou significativamente LR em termos de discriminação, calibração e precisão (ponto de corte 0,5). Em comparação com LR, ANN tinha uma taxa superior de precisão em 97,28% dos casos, uma estatística HL superior em 41,18% dos casos, e uma AUROC superior em 84,67% dos casos.

O conjunto de dados de treinamento foi também usado para calcular os índices de sensibilidade variáveis ​​(VSR) para o modelo de RNA. A Tabela 4 mostra os valores VSR para o (a mortalidade intra-hospitalar) variável de resultado em relação ao sexo, idade, CCI, o volume de hospital, o volume cirurgião e LOS. No modelo de ANN, o volume cirurgião foi o parâmetro mais influente (sensível) que afectam a mortalidade intra-hospitalar seguido por idade e LOS. Todos os valores VSR ultrapassou 1, o que indica que a rede teve um desempenho melhor quando todas as variáveis ​​foram consideradas.

A Tabela 5 compara o modelo de RNA e modelo LR em termos de sensibilidade, especificidade, valor preditivo positivo (VPP) , valor preditivo negativo (VPN), a taxa de precisão e AUROC. Juntos, esses valores confirmou que o modelo de RNA teve sensibilidade superior (78,40% versus 62,64%), especificidade (94,57% versus 91,92%), PPV (84,22% versus 76,65%), NPV (96,91% versus 87,18%), taxa de precisão ( 95,93% versus 84,47%) e AUROC (0,82 contra 0,73).

Discussão

A comparação dos modelos de previsão neste estudo mostrou que a precisão na predição de mortalidade intra-hospitalar foi significativamente maior no modelo de RNA que no modelo LR (p 0,001). Para o nosso conhecimento, este estudo é o primeiro a utilizar uma base de dados de base populacional em todo o país para treinar e testar uma rede neural para prever resultado da cirurgia HCC. O modelo de rede neural foi comparado com resultados efectivos e com um modelo LR construído usando entradas idênticas. Dado um número limitado de entradas clínicos e uma medida de resultado específico, o modelo ANN consistentemente superou o modelo LR.

Considerando que outros modelos de previsão de ter utilizado dados para um único centro médico, o modelo de previsão neste estudo foi construído usando dados nacionais do registo do Taiwan BNHI. Por isso, dá uma melhor visão geral dos resultados atuais da cirurgia HCC em uma região de epidemia de HBV e HCV. Em comparação com os dados obtidos por estudos de séries de centro único, dados de estudos de registro fornecer uma melhor visão geral das práticas em grandes populações, evitando viés de referência ou preconceito refletindo as práticas de cirurgiões ou instituições individuais [18], [19].

Porque RNAs usar uma abordagem dinâmica para analisar o risco de mortalidade, eles podem modificar sua estrutura interna em relação a um objetivo funcional pela computação de baixo para cima (ou seja, usando os dados próprios para gerar o modelo). Embora eles não podem lidar com dados ausentes, RNAs pode lidar simultaneamente com inúmeras variáveis ​​através da construção de modelos com referência aos outliers e interações não lineares entre as variáveis ​​[8] – [10]. Considerando que os métodos estatísticos convencionais revelam parâmetros que só são significativos para a população em geral, RNAs incluem parâmetros que são significativos a nível individual, mesmo que eles não são significativos para a população em geral. Ao contrário de outros testes estatísticos padrão, RNAs também pode gerenciar a complexidade, mesmo quando o tamanho da amostra é pequeno e mesmo quando a relação entre variáveis ​​e registros é desequilibrado [8] – [10]. Isto é, RNAs evitar o problema dimensionalidade. O conjunto de dados grande e homogéneo neste estudo permitiu a formação de rede robusta, porque todas as variáveis ​​clínicas mostraram os potenciais impactos sobre a mortalidade em modelos LR anteriores [7], [20].

Chen et al. mostrou que ANN combinado com o algoritmo genético pode identificar variáveis ​​clinicamente significativas e podem prever com precisão as concentrações sanguíneas Tacrolimus em pacientes de transplante de fígado [21]. Em uma comparação de modelos Ann e LR para a previsão de cirrose em pacientes com hepatite C crónica, Cazzaniga et al. também mostrou que os RNAs foram ligeiramente mais precisos e mais reprodutíveis [20]. Recentemente, Cucchetti et al mostrou que ANN é mais preciso do que LR convencional para identificar HCC grau do tumor e invasão vascular microscópica com base em variáveis ​​pré-operatórias e é preferível a LR para adaptar o manejo clínico [5].

A abordagem ANN desenvolvido neste estudo amplia a faixa de previsão do modelo LR, substituindo funções de identidade com funções de ativação não-linear. A abordagem é aparentemente superior à regressão linear para sistemas de descrever. As RNAs pode ser treinado com dados adquiridos em vários contextos clínicos e pode considerar a expertise local, diferenças raciais, e outras variáveis ​​com efeitos incertos sobre o resultado clínico [8] – [10]. A análise não se limita aos parâmetros clínicos. Outras variáveis ​​podem ser testados para o uso em melhorar a precisão de previsão do modelo. A arquitectura ANN proposto também pode incluir mais do que uma variável dependente e pode realizar uma transformação não-linear entre variáveis ​​dependentes. Estudos futuros poderão avaliar como outras características ou características clínicas do paciente afeta a arquitetura proposta.

Ao longo deste estudo de base populacional em todo o país, o melhor preditor individual de mortalidade intra-hospitalar foi de volume cirurgião, que foi consistente com os resultados de outros relatórios que os cirurgiões de alto volume consistentemente conseguir resultados superiores de hepatectomia para HCC [22], [23]. Portanto, suas estratégias de tratamento devem ser cuidadosamente analisados ​​e emulado. Se a mortalidade intra-hospitalar é considerado um ponto de referência, o volume de cirurgião, que é um importante preditor de evolução pós-operatória, é crucial. Claramente, resultados de procedimentos cirúrgicos dependem não só da gestão dos doentes, mas também na habilidade e experiência dos cirurgiões individuais. Enquanto isso, os cirurgiões de alto volume em hospitais de alto volume são mais propensos a alcançar bons resultados para os pacientes, porque eles são assistidos por equipes altamente qualificados e cuidados interdisciplinar [22], [23].

Este estudo tem várias limitações que são inerentes a qualquer análise de banco de dados grande. Em primeiro lugar, o quadro clínico obtido nesta análise dos dados pedidos não é tão preciso quanto o de uma análise prospectiva dos dados de ensaios clínicos devido a possíveis erros na codificação dos diagnósticos primários e modalidades cirúrgicas. Em segundo lugar, complicações associadas a procedimentos cirúrgicos HCC não foram avaliados, o que limita a validade da comparação. Finalmente, apenas LR e modelos ANN foram utilizados para prever a mortalidade intra-hospitalar após a cirurgia HCC. A base de dados não podia ser usado para detectar outros resultados, tais como a qualidade de vida auto-relatada. No entanto, dada a magnitude robusta dos efeitos e a significância estatística dos efeitos observados neste estudo, essas limitações não são susceptíveis de comprometer os resultados.

Em conclusão, em comparação com o modelo convencional LR, o modelo ANN em este estudo foi mais preciso na predição de mortalidade intra-hospitalar e teve índices mais elevados de desempenho geral. A análise de sensibilidade global também mostrou que o volume cirurgião foi o melhor preditor de mortalidade intra-hospitalar após a cirurgia HCC. Os preditores analisados ​​neste estudo poderiam ser abordados por profissionais de saúde durante as consultas de cuidados de saúde pré-operatórios e pós-operatórios com os candidatos para a cirurgia HCC para educá-los no curso esperado de recuperação e de resultados de saúde. Mais estudos deste modelo pode considerar o efeito de uma base de dados mais detalhada que inclui complicações e achados do exame clínico, bem como dados sobre os resultados mais detalhados. Felizmente, o modelo irá evoluir para uma forma eficaz adjuvante ferramenta de tomada de decisão clínica.

Deixe uma resposta