metricas
covid
Clínica e Investigación en Arteriosclerosis Comparative performance of machine learning vs classical formulas for LDL-choles...
Información de la revista
Compartir
Descargar PDF
Más opciones de artículo
Visitas
18
Original article
Disponible online el 9 de diciembre de 2025
Comparative performance of machine learning vs classical formulas for LDL-cholesterol calculation
Rendimiento comparativo del aprendizaje automático frente a las fórmulas clásicas para el cálculo del colesterol LDL
Visitas
18
Salomón Martín Péreza,
Autor para correspondencia
salomon.martin.perez@gmail.com

Corresponding author.
, Remo Suppib, Teresa Arrobas Velillaa, Francisco de Borja Téllez Hernándeza, Antonio León-Justela,c,d,e,f
a Laboratory Medicine Department, Hospital Universitario Virgen Macarena, Spain
b Computer Architecture and Operating Systems Department, Universidad Autonoma de Barcelona (UAB), Spain
c Instituto Biomedicina Sevilla IBIs, Spain
d CSIC, Spain
e Universidad de Sevilla, Spain
f Universidad Loyola Andalucia, Spain
Este artículo ha recibido
Información del artículo
Resumen
Texto completo
Bibliografía
Descargar PDF
Estadísticas
Figuras (4)
Mostrar másMostrar menos
Tablas (3)
Table 1. Characteristics of the study population (N=34,678).
Tablas
Table 2. Results of the top three models and the FD and MHK formulas.
Tablas
Table 3. Relative feature importance of top ML models (%).
Tablas
Mostrar másMostrar menos
Abstract
Introduction

Low-density lipoprotein cholesterol (LDL-C) is a significant cardiovascular risk factor, as direct measurement is expensive and often unavailable in most clinical laboratories. The Friedewald formula (FD), despite its widespread use since 1972, has notable limitations, especially at high triglyceride levels and low LDL-C concentrations. Machine learning (ML) techniques offer promising alternatives for accurate LDL-C estimation, potentially overcoming traditional formula limitations by leveraging complex pattern recognition in lipid profile data.

Material and methods

This retrospective study analyzed 34,678 lipid profiles from patients over 18 years attending Hospital Virgen Macarena, Seville (January 2021–December 2022). The study was approved by the Ethics Committee (CEI HVM-VR_03/2024). All lipid parameters (total cholesterol, triglycerides, HDL-C, LDL-C) were measured using Cobas 6000 analyzer. Twenty-two machine learning models were developed using Python&apos;s PyCaret library with 80/20 train-test split. Models included Linear Regression, Random Forest, XGBoost, LightGBM, and Gradient Boosting among others. Performance was evaluated using coefficient of determination (R2), mean absolute error (MAE), and root mean square error (RMSE). Four triglyceride subgroups were analyzed: <150, 150–250, 250–400, and >400mg/dL.

Results

The dataset comprised 34,678 individuals with mean values: total cholesterol 204.6±73.36mg/dL, triglycerides 203.95±143.94mg/dL, HDL-C 51.83±18.45mg/dL, and LDL-C 120.38±62.29mg/dL. LightGBM achieved the highest performance (R2=0.965, RMSE=11.35, MAE=7.99), followed by Gradient Boosting (R2=0.962, RMSE=11.89, MAE=7.87) and XGBoost (R2=0.958, RMSE=12.49, MAE=8.3). Traditional formulas showed inferior performance: Martin–Hopkins (R2=0.951, RMSE=13.82, MAE=9.3) and Friedewald (R2=0.926, RMSE=16.92, MAE=11.97). Performance differences were more pronounced at triglyceride levels250mg/dL, with ML models maintaining R2>0.92 while classical formulas deteriorated significantly, particularly Friedewald (R2=0.34) at triglycerides>400mg/dL.

Conclusions

Machine learning models, particularly boosting algorithms (LightGBM, Gradient Boosting, XGBoost), significantly outperformed traditional LDL-C calculation formulas across all triglyceride ranges. These AI-based approaches yielded superior accuracy and robustness, especially in challenging clinical scenarios with elevated triglycerides where conventional formulas fail. Implementation of ML models in clinical laboratories could provide more reliable LDL-C estimations, contributing to improved cardiovascular risk stratification and patient management. This technological advancement represents a promising transformation in laboratory medicine methodology.

Keywords:
Machine learning
LDL-cholesterol
Cardiovascular risk
Lipid profile
Clinical laboratory
Gradient boosting
Resumen
Introducción

El colesterol de lipoproteínas de baja densidad (c-LDL) es un factor de riesgo cardiovascular significativo, siendo su medición directa costosa y no disponible en la mayoría de los laboratorios clínicos. La fórmula de Friedewald (FD), a pesar de su uso generalizado desde 1972, presenta limitaciones particularmente en niveles altos de triglicéridos y concentraciones bajas de c-LDL. Las técnicas de aprendizaje automático (ML) ofrecen alternativas prometedoras para la estimación precisa del c-LDL, superando potencialmente las limitaciones de las fórmulas tradicionales mediante el reconocimiento de patrones complejos en los datos del perfil lipídico.

Material y métodos

Este estudio retrospectivo analizó 34.678 perfiles lipídicos de pacientes mayores de 18 años que acudieron al Hospital Universitario Virgen Macarena, Sevilla (enero 2021-diciembre 2022). Se obtuvo la aprobación del estudio por el Comité de Ética (CEI HVM-VR_03/2024). Todos los parámetros lipídicos (colesterol total, triglicéridos, c-HDL, c-LDL) se midieron utilizando el analizador Cobas 6000. Se desarrollaron 22 modelos de aprendizaje automático utilizando la librería PyCaret de Python con división 80/20 entrenamiento-prueba. Los modelos incluyeron Regresión Lineal, Random Forest, XGBoost, LightGBM y Gradient Boosting, entre otros. El rendimiento se evaluó utilizando el coeficiente de determinación (R2), error absoluto medio (MAE) y error cuadrático medio (RMSE). Se analizaron cuatro subgrupos de triglicéridos: <150, 150-250, 250-400 y >400mg/dL.

Resultados

El conjunto de datos comprendió 34.678 individuos con valores medios: colesterol total 204,6±73,36mg/dL, triglicéridos 203,95±143,94mg/dL, c-HDL 51,83±18,45mg/dL y c-LDL 120,38±62,29mg/dL. LightGBM alcanzó el mayor rendimiento (R2=0,965, RMSE=11,35, MAE=7,99), seguido por Gradient Boosting (R2=0,962, RMSE=11,89, MAE=7,87) y XGBoost (R2=0,958, RMSE=12,49, MAE=8,3). Las fórmulas tradicionales mostraron rendimiento inferior: Martin-Hopkins (R2=0,951, RMSE=13,82, MAE=9,3) y Friedewald (R2=0,926, RMSE=16,92, MAE=11,97). Las diferencias de rendimiento se hicieron más evidentes en niveles de triglicéridos ≥ 250mg/dL, con los modelos de ML manteniendo R2> 0,92 mientras que las fórmulas clásicas se deterioraron significativamente, particularmente Friedewald (R2=0,34) con triglicéridos> 400mg/dL.

Conclusiones

Los modelos de aprendizaje automático, particularmente los algoritmos de boosting (LightGBM, Gradient Boosting, XGBoost), superaron significativamente a las fórmulas tradicionales de cálculo del c-LDL en todos los rangos de triglicéridos. Estos enfoques basados en IA demostraron precisión y robustez superiores, especialmente en escenarios clínicos desafiantes con triglicéridos elevados donde las fórmulas convencionales fallan. La implementación de modelos de ML en laboratorios clínicos podría proporcionar estimaciones más confiables del c-LDL, contribuyendo a una mejor estratificación del riesgo cardiovascular y manejo de pacientes. Este avance tecnológico representa una transformación prometedora en la metodología de la medicina de laboratorio.

Palabras clave:
Aprendizaje automático
Colesterol de lipoproteínas de baja densidad
Riesgo cardiovascular
Perfil lipídico
Laboratorio clínico
Gradient boosting

Artículo

Opciones para acceder a los textos completos de la publicación Clínica e Investigación en Arteriosclerosis
Suscriptor
Suscriptor de la revista

Si ya tiene sus datos de acceso, clique aquí.

Si olvidó su clave de acceso puede recuperarla clicando aquí y seleccionando la opción "He olvidado mi contraseña".
Suscribirse
Suscribirse a:

Clínica e Investigación en Arteriosclerosis

Comprar
Comprar acceso al artículo

Comprando el artículo el PDF del mismo podrá ser descargado

Comprar ahora
Contactar
Teléfono para suscripciones e incidencias
De lunes a viernes de 9h a 18h (GMT+1) excepto los meses de julio y agosto que será de 9 a 15h
Llamadas desde España
932 415 960
Llamadas desde fuera de España
+34 932 415 960
E-mail