metricas
covid
Open Respiratory Archives Synthetic Lung-Cancer Cohorts Generated by a Large Language Model: Epidemiologic...
Journal Information
Short communication
Full text access
Pre-proof, online 29 December 2025
Synthetic Lung-Cancer Cohorts Generated by a Large Language Model: Epidemiological Validity Assessment
Cohortes sintéticas de cáncer de pulmón generadas por inteligencia artificial: evaluación de la validez epidemiológica
Visits
34
Pablo Lozano Cuestaa,
Corresponding author
alvarofuentesmartin@gmail.com

Corresponding author: Servicio de Cirugía Torácica, Hospital Clínico Universitario de Valladolid. Avenida Ramón y Cajal, 47006, Spain
, Julio Mayolb, Barbara Segura Mendezc, Angel Cilleruelo-Ramosd
a Servicio de Cirugía Torácica, Hospital Clínico Universitario de Valladolid. Universidad de Valladolid, Spain
b Hospital Clínico San Carlos, IdISSC, Universidad Complutense de Madrid, Spain
c Servicio de Cirugía Cardiaca. Hospital Universitario de Salamanca, Spain
d Servicio de Cirugía Torácica, Hospital Clínico Universitario de Valladolid. Universidad de Valladolid, Spain
This item has received
Article information
Abstract

Large language models (LLMs) are increasingly used in medicine for clinical reasoning and educational simulation. This study assessed the epidemiological plausibility of a synthetic lung-cancer cohort generated by ChatGPT-4.0. A total of 102 virtual cases were created in Spanish using structured prompts including demographic, histologic, and molecular variables. When descriptively compared with international datasets (GLOBOCAN 2020, SEER, and biomarker meta-analyses), the cohort reproduced general disease patterns but showed statistically significant deviations (p < 0.05): early-stage disease and EGFR-positive tumors were overrepresented, while advanced stages, ALK rearrangements, and extreme PD-L1 values were underrepresented. These discrepancies likely reflect biases in model training data and the probabilistic nature of generative language models. Despite this quantified generative bias, the utility of these cohorts for non-epidemiological tasks like educational simulation is discussed, provided methodological transparency is maintained.

Keywords:
Synthetic Cohorts
Large language models
Thoracic oncology
Resumen

Los modelos de lenguaje de gran escala (LLM) se utilizan cada vez más en medicina para el razonamiento y la simulación clínica. Este estudio evaluó la plausibilidad epidemiológica de una cohorte sintética de cáncer de pulmón generada por ChatGPT-4.0. Se crearon un total de 102 casos sintéticos mediante prompts estructurados que incluían variables demográficas, histológicas y moleculares. Al compararla con bases de datos epidemiológicas, la cohorte reprodujo patrones generales de la enfermedad, aunque mostró desviaciones estadísticamente significativas (p < 0.05): sobrerrepresentación de estadios iniciales y de EGFR frente a la infrarepresentación de estadios avanzados, reordenamientos ALK y valores extremos de PD-L1. Estas discrepancias reflejan sesgos en el entrenamiento y la naturaleza probabilística de los modelos generativos. A pesar de este sesgo generativo cuantificado, se discute la utilidad de estas cohortes para tareas no epidemiológicas como la educación médica, siempre que se mantenga la transparencia metodológica.

Palabras Clave:
Cohortes sintéticas
Modelos de lenguaje de gran escala
Oncología torácica
Full text is only available in PDF
Copyright © 2025. Sociedad Española de Neumología y Cirugía Torácica (SEPAR)
Download PDF