Introducción: Los avances en tecnologías de procesamiento de lenguaje natural(PLN) han cobrado protagonismo para extraer información clínica de interés.Savana es una plataforma capaz de analizar texto libre e interpretar el contenido de la historias clínica electrónica(HCE).
Objetivo: Validar los resultados obtenidos mediante PLN por Savana de pacientes con CP incluidos en VA y compararlos con los datos de nuestra base de datos para evaluar la fiabilidad de los resultados.
Métodos: Estudio observacional y retrospectivo de pacientes con CP en VA entre 2014-2022.Los resultados de nuestra base fueron ciegos para Savana. La información de las HCE fue transformada por Savana en datos utilizables para la investigación. Tras un primer análisis fue necesaria una depuración de los resultados iniciales y nuevo ajuste de las variables y terminología para eliminar discrepancias.
Resultados: De 2865 pacientes incluidos en nuestra base de datos, 306 cumplían los criterios de selección. Savana detectó 366 pacientes con los términos “CP”,“Gleason” y “VA”. Los resultados fueron similares en el Gleason al diagnóstico: 93,4% Gleason 6 en nuestra serie vs 92% en Savana. También en la proporción de pacientes que recibió tratamiento con intención curativa, y el tipo de tratamiento: 33,3% en nuestra serie (PR:56,9%; RDT:42,1%) vs 32,5% en Savana (PR:59,7%; RDT:40,3%). Sin embargo, tan sólo el 24,8% progresaron en el Gleason en nuestra serie vs 31% en Savana. El número de muertes fue del 3,2% EN nuestra serie vs 7,4% en Savana.
Conclusiones: El PLN representa una herramienta prometedora en la investigación clínica, cuya implementación debe realizarse con cautela.
Introduction: Advances in natural language processing (NLP) technologies have gained prominence for extracting relevant clinical information. Savana is a platform capable of analyzing free-text data and interpreting the content of electronic health records (EHRs).
Objective: To validate the results obtained through NLP by Savana from data of patients with prostate cancer (PC) included in active surveillance (AS), compare them with our database, and assess their reliability.
Methods: Observational and retrospective study of patients with PC in AS between 2014-2022. The results from our database were blinded to Savana. Information from the EHRs was transformed by Savana into analysis-ready data. After an initial evaluation, it was necessary to refine the preliminary results and readjust the variables and terminology to eliminate discrepancies.
Results: Of the 2,865 patients included in our database, 306 met the selection criteria. Savana detected 366 patients with the terms "PC," "Gleason," and "AS." The results were similar regarding Gleason score at diagnosis: 93.4% Gleason 6 in our series vs. 92% in Savana. Likewise, the proportion of patients who received treatment with curative intent, and the type of treatment were comparable: 33.3% in our series (RP: 56.9%; RT: 42.1%) vs. 32.5% in Savana (RP: 59.7%; RT: 40.3%). However, only 24.8% showed Gleason progression in our series vs. 31% in Savana. The mortality rate was 3.2% in our series vs. 7.4% in Savana.
Conclusions: NLP represents a promising tool in clinical research, but its implementation should be approached with caution.






