Large language models (LLMs) are increasingly used in medicine for clinical reasoning and educational simulation. This study assessed the epidemiological plausibility of a synthetic lung-cancer cohort generated by ChatGPT-4.0. A total of 102 virtual cases were created in Spanish using structured prompts including demographic, histologic, and molecular variables. When descriptively compared with international datasets (GLOBOCAN 2020, SEER, and biomarker meta-analyses), the cohort reproduced general disease patterns but showed statistically significant deviations (p < 0.05): early-stage disease and EGFR-positive tumors were overrepresented, while advanced stages, ALK rearrangements, and extreme PD-L1 values were underrepresented. These discrepancies likely reflect biases in model training data and the probabilistic nature of generative language models. Despite this quantified generative bias, the utility of these cohorts for non-epidemiological tasks like educational simulation is discussed, provided methodological transparency is maintained.
Los modelos de lenguaje de gran escala (LLM) se utilizan cada vez más en medicina para el razonamiento y la simulación clínica. Este estudio evaluó la plausibilidad epidemiológica de una cohorte sintética de cáncer de pulmón generada por ChatGPT-4.0. Se crearon un total de 102 casos sintéticos mediante prompts estructurados que incluían variables demográficas, histológicas y moleculares. Al compararla con bases de datos epidemiológicas, la cohorte reprodujo patrones generales de la enfermedad, aunque mostró desviaciones estadísticamente significativas (p < 0.05): sobrerrepresentación de estadios iniciales y de EGFR frente a la infrarepresentación de estadios avanzados, reordenamientos ALK y valores extremos de PD-L1. Estas discrepancias reflejan sesgos en el entrenamiento y la naturaleza probabilística de los modelos generativos. A pesar de este sesgo generativo cuantificado, se discute la utilidad de estas cohortes para tareas no epidemiológicas como la educación médica, siempre que se mantenga la transparencia metodológica.


