Hepatitis C virus (HCV) infection poses a global health threat with many undiagnosed cases despite advances in diagnosis and treatment. The LiverTAI project in Spain utilized electronic health records (EHRs) to study factors associated with HCV infection, aiming to develop a predictive model for identifying unconfirmed HCV cases in the hospital setting.
Patients and methodsClinical data from EHRs of six hospitals in Spain were analyzed using machine learning and natural language processing through EHRead®. Patients were categorized as HCV positive, negative, or unknown. A semi-supervised learning framework allowed to incorporate labeled and unlabeled patient data extracted from clinical narratives. Propensity score matching was applied to reduce bias. Seven classification algorithms were used to predict HCV status based on 117 selected features, including demographics, risk factors, comorbidities, and clinical events. Model performance was confirmed through independent geographic validation.
ResultsAmong 2,440,358 screened patients, 44,235 were included in the training set, and 11,286 in the validation set. The Extreme Gradient Boosting model showed the best performance (AUC–ROC 0.794), followed by the logistic regression model (AUC–ROC 0.779). Key predictors included HCV risk factors (age, male sex, HIV, drug use), liver-related issues (cirrhosis, hepatocellular carcinoma), and extrahepatic conditions (neuropsychiatric, cardiovascular, immune-related disorders, cancer, and inflammatory processes).
ConclusionsLiverTAI identified new patients with potential HCV infection in routine hospital EHRs, providing a proof of concept for risk-stratified opportunistic screening. The model supports more efficient in-hospital testing strategies, though further prospective validation is required to confirm generalizability and clinical utility.
La infección por virus de la hepatitis C (VHC) constituye una amenaza global, con numerosos casos no diagnosticados a pesar de los avances en diagnóstico y tratamiento. El proyecto LiverTAI en España utilizó historias clínicas electrónicas (HCE) para estudiar factores asociados con VHC y desarrollar un modelo predictivo capaz de identificar casos no confirmados en entornos hospitalarios.
Pacientes y métodosSe analizaron HCE de seis hospitales en España mediante aprendizaje automático y procesamiento de lenguaje natural utilizando EHRead®. Los pacientes se clasificaron como positivos, negativos o desconocidos para VHC. Se empleó un enfoque de aprendizaje semi-supervisado que incorporó datos etiquetados y no etiquetados extraídos de narrativas clínicas, aplicando pareamiento por puntaje de propensión para reducir sesgos. Siete algoritmos de clasificación predijeron el estado de VHC a partir de 117 características, incluyendo demografía, factores de riesgo, comorbilidades y eventos clínicos. El desempeño se validó de forma geográfica independiente.
ResultadosDe 2.440.358 pacientes evaluados, 44.235 se incluyeron en entrenamiento y 11.286 en validación. Extreme Gradient Boosting mostró el mejor desempeño (AUC-ROC 0,794), seguido de regresión logística (AUC-ROC 0,779). Los principales predictores fueron factores de riesgo de VHC (edad, sexo masculino, VIH, consumo de drogas), complicaciones hepáticas (cirrosis, carcinoma hepatocelular) y condiciones extrahepáticas (trastornos neuropsiquiátricos, cardiovasculares, inmunológicos, cáncer e inflamación).
ConclusionesLiverTAI identificó pacientes con posible infección por VHC en HCE hospitalarias, demostrando la viabilidad del cribado oportunista estratificado por riesgo. El modelo apoya estrategias más eficientes de testeo hospitalario, aunque requiere validación prospectiva adicional para confirmar su aplicabilidad clínica.



