metricas

Gastroenterología y Hepatología

Sugerencias
Gastroenterología y Hepatología Development and validation of interpretable machine learning models to detect un...
Información de la revista
Compartir
Descargar PDF
Más opciones de artículo
Visitas
49
Original Article
Pruebas no corregidas. Disponible online el 15 de mayo de 2026

Development and validation of interpretable machine learning models to detect unconfirmed hepatitis C using electronic health records (LiverTAI)

Desarrollo y validación de modelos de aprendizaje automático interpretables para detectar hepatitis C no confirmada utilizando historias clínicas electrónicas (LiverTAI)
Visitas
49
Gloria Sanchez-Antolína, Gema de la Pozab, Lorena Hidalgoc, María Victoria Aguilerad,e,f,g, Berta Cuyàsf,h,i, Francisco Ledesmaj, Eva Sanzk, Víctor Fanjull, Clara L. Oestel, Jose L. Callejam,
Autor para correspondencia
joseluis.calleja@uam.es

Corresponding author.
a Hospital Universitario Rio Hortega, IBioVall, Universidad de Valladolid, Valladolid, Spain
b Hospital Universitario de Fuenlabrada, Madrid, Spain
c Hospital Universitario Infanta Sofía, Madrid, Spain
d Hospital Universitario y Politécnico La Fe, Valencia, Spain
e Instituto de Investigación Sanitaria La Fe (IIS La Fe), Valencia, Spain
f CIBERehd, Instituto de Salud Carlos III (ISCIII), Madrid, Spain
g Faculty of Medicine, Valencia University, Valencia, Spain
h Hospital de la Santa Creu i Sant Pau, Barcelona, Spain
i Universitat Autònoma de Barcelona, Barcelona, Spain
j Former AbbVie Spain Employee, Madrid, Spain
k AbbVie Spain, Madrid, Spain
l Savana Research, Madrid, Spain
m Hospital Universitario Puerta de Hierro, Majadahonda, Madrid, Spain
Ver más
Este artículo ha recibido
Información del artículo
Resumen
Texto completo
Bibliografía
Descargar PDF
Estadísticas
Abstract
Objective

Hepatitis C virus (HCV) infection poses a global health threat with many undiagnosed cases despite advances in diagnosis and treatment. The LiverTAI project in Spain utilized electronic health records (EHRs) to study factors associated with HCV infection, aiming to develop a predictive model for identifying unconfirmed HCV cases in the hospital setting.

Patients and methods

Clinical data from EHRs of six hospitals in Spain were analyzed using machine learning and natural language processing through EHRead®. Patients were categorized as HCV positive, negative, or unknown. A semi-supervised learning framework allowed to incorporate labeled and unlabeled patient data extracted from clinical narratives. Propensity score matching was applied to reduce bias. Seven classification algorithms were used to predict HCV status based on 117 selected features, including demographics, risk factors, comorbidities, and clinical events. Model performance was confirmed through independent geographic validation.

Results

Among 2,440,358 screened patients, 44,235 were included in the training set, and 11,286 in the validation set. The Extreme Gradient Boosting model showed the best performance (AUC–ROC 0.794), followed by the logistic regression model (AUC–ROC 0.779). Key predictors included HCV risk factors (age, male sex, HIV, drug use), liver-related issues (cirrhosis, hepatocellular carcinoma), and extrahepatic conditions (neuropsychiatric, cardiovascular, immune-related disorders, cancer, and inflammatory processes).

Conclusions

LiverTAI identified new patients with potential HCV infection in routine hospital EHRs, providing a proof of concept for risk-stratified opportunistic screening. The model supports more efficient in-hospital testing strategies, though further prospective validation is required to confirm generalizability and clinical utility.

Keywords:
Hepatitis C virus (HCV)
Electronic health records (EHRs)
Natural language processing
Machine learning
Predictive model
Unconfirmed HCV cases
Resumen
Objetivo

La infección por virus de la hepatitis C (VHC) constituye una amenaza global, con numerosos casos no diagnosticados a pesar de los avances en diagnóstico y tratamiento. El proyecto LiverTAI en España utilizó historias clínicas electrónicas (HCE) para estudiar factores asociados con VHC y desarrollar un modelo predictivo capaz de identificar casos no confirmados en entornos hospitalarios.

Pacientes y métodos

Se analizaron HCE de seis hospitales en España mediante aprendizaje automático y procesamiento de lenguaje natural utilizando EHRead®. Los pacientes se clasificaron como positivos, negativos o desconocidos para VHC. Se empleó un enfoque de aprendizaje semi-supervisado que incorporó datos etiquetados y no etiquetados extraídos de narrativas clínicas, aplicando pareamiento por puntaje de propensión para reducir sesgos. Siete algoritmos de clasificación predijeron el estado de VHC a partir de 117 características, incluyendo demografía, factores de riesgo, comorbilidades y eventos clínicos. El desempeño se validó de forma geográfica independiente.

Resultados

De 2.440.358 pacientes evaluados, 44.235 se incluyeron en entrenamiento y 11.286 en validación. Extreme Gradient Boosting mostró el mejor desempeño (AUC-ROC 0,794), seguido de regresión logística (AUC-ROC 0,779). Los principales predictores fueron factores de riesgo de VHC (edad, sexo masculino, VIH, consumo de drogas), complicaciones hepáticas (cirrosis, carcinoma hepatocelular) y condiciones extrahepáticas (trastornos neuropsiquiátricos, cardiovasculares, inmunológicos, cáncer e inflamación).

Conclusiones

LiverTAI identificó pacientes con posible infección por VHC en HCE hospitalarias, demostrando la viabilidad del cribado oportunista estratificado por riesgo. El modelo apoya estrategias más eficientes de testeo hospitalario, aunque requiere validación prospectiva adicional para confirmar su aplicabilidad clínica.

Palabras clave:
Virus de la hepatitis C (VHC)
Historias clínicas electrónicas (HCE)
Procesamiento de lenguaje natural (PLN)
Aprendizaje automático
Modelo predictivo
Casos de VHC no confirmados
Resumen gráfico

Artículo

Opciones para acceder a los textos completos de la publicación Gastroenterología y Hepatología
Suscriptor
Suscriptor de la revista

Si ya tiene sus datos de acceso, clique aquí.

Si olvidó su clave de acceso puede recuperarla clicando aquí y seleccionando la opción "He olvidado mi contraseña".
Comprar
Comprar acceso al artículo

Comprando el artículo el PDF del mismo podrá ser descargado

Comprar ahora
Contactar
Teléfono para suscripciones e incidencias
De lunes a viernes de 9h a 18h (GMT+1) excepto los meses de julio y agosto que será de 9 a 15h
Llamadas desde España
932 415 960
Llamadas desde fuera de España
+34 932 415 960
E-mail
Opciones de artículo
Herramientas
Material suplementario