Objective: To compare the diagnostic and classification accuracy of tibial plateau fractures on simple radiographs among three groups: knee surgeons, resident physicians, and artificial intelligence (ChatGPT-4).
Methods: An observational, descriptive, cross-sectional study with a control group was conducted on a prospective cohort of patients treated for tibial plateau fractures between 2020 and 2024. Anteroposterior radiographs were blindly evaluated by three groups—three knee surgeons, three resident physicians., and ChatGPT-4—with fractures classified according to the Schatzker system. The reference standard was computed tomography (CT). The interobserver agreement was assessed using the Kappa statistic for fracture detection and the Ciccetti weighted Kappa for fracture classification, with a 95% confidence interval. A significance level of p < 0.01 was established.
Results: A total of 387 radiographs were included, of which 129 showed tibial plateau fractures (classified according to Schatzker as follows: 7 type I, 28 type II, 5 type III, 16 type IV, 21 type V, and 52 type VI) and 258 were without fracture. The AI demonstrated the highest accuracy in fracture detection, achieving an absolute agreement of 99.5% and a Kappa of 0.98 (95% CI: 0.97–1.00, p < 0.001), compared to 97% (K = 0.93, 95% CI: 0.91–0.95, p < 0.001) for knee surgeons and 93% (K = 0.848, 95% CI: 0.81–0.88, p < 0.001) for residents. In terms of interobserver variability for fracture diagnosis, the AI showed greater consistency than the human evaluators; however, for fracture classification, knee surgeons achieved a higher weighted Kappa (0.616, 95% CI: 0.554–0.679, p < 0.001) compared to the AI (0.612, 95% CI: 0.502–0.722, p < 0.001) and residents (0.572, 95% CI: 0.510–0.635, p < 0.001).
Conclusions: Artificial intelligence demonstrated notable accuracy in the detection of tibial plateau fractures, outperforming both residents and attending physicians in this specific task. However, in the classification of fractures using the Schatzker system, attending physicians achieved higher accuracy. These findings suggest that AI may serve as a valuable support tool in the diagnostic process, particularly in its early stages, complementing—but not replacing—the clinical judgment and experience of healthcare professionals.
Level of evidence: level III. Diagnostic. Cross-sectional descriptive study with control group.
Introducción Las fracturas de meseta tibial constituyen aproximadamente el 1% de todas las fracturas en adultos y el 8% en personas mayores de 65 años. Sin embargo, la tasa de error sigue siendo elevada debido a interpretaciones erróneas de las radiografías. La inteligencia artificial (IA) se presenta como una herramienta prometedora para mejorar la precisión diagnóstica, al permitir detectar y clasificar fracturas de forma automatizada, reduciendo tanto la variabilidad en la interpretación como la necesidad de pruebas complementarias.
Objetivo Comparar la precisión en el diagnóstico y la clasificación de fracturas de meseta tibial mediante radiografías simples entre 3 grupos: facultativos especialistas de área, médicos internos residentes e inteligencia artificial (ChatGPT-4).
Métodos Estudio observacional, descriptivo y transversal, realizado en una cohorte retrospectiva de pacientes atendidos entre 2020 y 2024 por fractura de meseta tibial. Se evaluaron radiografías anteroposteriores de forma ciega por 3 grupos: 3 facultativos especialistas de área, 3 médicos internos residentes y el modelo ChatGPT-4.0. Todos los evaluadores clasificaron las fracturas según la clasificación de Schatzker utilizando un mismo cuestionario estructurado para garantizar uniformidad en el proceso diagnóstico. El estándar de referencia fue el TAC. Para evaluar la concordancia entre evaluadores se empleó el índice Kappa para la detección de fractura y el Kappa ponderado por Ciccetti para la clasificación del grado de fractura, con intervalos de confianza del 95%. Se estableció un nivel de significación estadística de p < 0,01.
Resultados Se incluyeron 387 radiografías, de las cuales 129 presentaban fracturas de meseta tibial (clasificadas según Schatzker: 7 tipo I, 28 tipo II, 5 tipo III, 16 tipo IV, 21 tipo V y 52 tipo VI) y 258 no presentaban fractura. La IA mostró la mayor precisión en la detección de fracturas, alcanzando un acuerdo absoluto del 99,5% y un índice Kappa de 0,98 (IC 95%: 0,97-1,00, p < 0,001), en comparación con el 97% obtenido por los facultativos (K = 0,93, IC 95%: 0,91-0,95, p < 0,001) y el 93% de los residentes (K = 0,848, IC 95%: 0,81-0,88, p < 0,001). En términos de variabilidad interobservador para el diagnóstico de fractura, la IA presentó mayor consistencia y menor variabilidad que los profesionales médicos. Sin embargo, en la clasificación del tipo de fractura, los adjuntos obtuvieron un índice Kappa ponderado superior (0,616, IC 95%: 0,554-0,679, p < 0,001) en comparación con la IA (0,612, IC 95%: 0,502-0,722, p < 0,001) y los residentes (0,572, IC 95%: 0,510-0,635, p < 0,001).
Conclusiones La IA mostró una capacidad destacada en la detección de fracturas de meseta tibial, con niveles de precisión superiores a los observados en médicos residentes y adjuntos en este aspecto concreto. No obstante, en la clasificación según el sistema de Schatzker, los médicos adjuntos obtuvieron mejores resultados. Estos hallazgos sugieren que la IA puede constituir una herramienta de apoyo útil en el proceso diagnóstico, especialmente en etapas iniciales, complementando —pero no reemplazando— el juicio clínico y la experiencia del profesional de la salud.
Nivel de evidencia: nivel III. Diagnóstico. Estudio observacional descriptivo y transversal con grupo control.


