To develop a predictive model of the total length of the small intestine to be applied in bariatric surgery, allowing for the individualization of surgery for each patient.
MethodsTwo Excel tables were generated from a Filemaker file. Python was used through a Notebook format in Google Collaborator. The methodology included data transformation and scaling (MinMaxScaler), clustering (unsupervised machine learning with KMeans), data interpolation (oversampling machine learning technique SMOTE), modeling (PyCaret model - XGBoost), and validation.
ResultsThe study sample included 1090 cases. Three clusters were obtained to categorize the dataset: low, medium, and high length. The algorithm detected patients in cluster c0 with 62% accuracy and 74% sensitivity, in cluster c1 with 63% accuracy and 50% sensitivity, and in cluster c2 with 86% accuracy and 87% sensitivity. Validation was conducted with a new sample of 54 cases, showing results of 50% accuracy and 42% sensitivity for cluster c0, 58% accuracy and 61% sensitivity for cluster c1, and 30% accuracy and 43% sensitivity for cluster c2.
ConclusionsThe development of a predictive algorithm for estimating the total length of the small intestine using clustering and machine learning techniques, along with XGBoost classification, is feasible, applicable, and potentially improvable with more data, both in terms of patient numbers and variables to consider.
Desarrollar un modelo predictivo de la longitud total del intestino delgado para aplicar en cirugía bariátrica que permita individualizar la cirugía a cada paciente.
Material y Método: Dos tablas Excel a partir de un archivo Filemaker. Phyton a través de un formato Notebook en Google Colaboratory. La metodología ha incluido transformación y escalado de datos (MinMaxScaler), clustering (machine learning no supervisado KMeans), interpolación de datos (machine learning sobremuestreo SMOTE), modelización (modelo PyCaret - XGBoost), y validación.
ResultadosMuestra de 1090 casos. Se han obtenido 3 clusters en los que incluir el conjunto de datos: longitud baja, media, y alta. El algoritmo detecta pacientes del cluster c0 con una precisión 62 % y sensibilidad 74 %, del cluster c1 con una precisión 63 % y sensibilidad del 50 %, y del cluster c2 con una precisión 86 % y sensibilidad 87 %. La validación se ha realizado a partir de una muestra de 54 casos nuevos, mostrando unos resultados de precisión 50 % y sensibilidad 42 % para el cluster c0, de precisión 58 % y sensibilidad 61 % para el cluster c1, y de precisión 30 % y sensibilidad 43 % para el cluster c2.
ConclusionesEl desarrollo de un algoritmo predictivo para conocer la longitud total del intestino delgado a través de técnicas de clustering y machine learning, y clasificación XGBoost es factible, aplicable, y potencialmente mejorable si se cuenta con más datos tanto en número de pacientes, como en variables a considerar.