Determinar el acuerdo intra- e interobservador en la categorización de la densidad mamográfica entre un grupo de profesionales según la 5.a edición del Atlas BI-RADS® - ACR y analizar la concordancia entre la categorización de los expertos y un software comercial de un mamógrafo digital para categorización automática.
Métodos6 médicos categorizaron la densidad mamográfica de 451 mamografías en dos oportunidades con un intervalo de 1 mes. Calculamos los coeficientes kappa ponderados lineales de acuerdo inter- e intraobservador para el grupo médico y la concordancia entre el software comercial y el reporte de la mayoría. Analizamos los resultados para las cuatro categorías de densidad mamaria y para el resultado dicotómico de mama densa/no densa.
ResultadosEl acuerdo interobservador entre especialistas y el reporte de la mayoría fue moderado y casi perfecto para el análisis por categoría (κ=0,64 a 0,84) y de manera dicotómica (κ=0,63 a 0,84). El acuerdo intraobservador fue sustancial y casi perfecto (κ=0,68 a 0,85 para 4 categorías y k=0,70 a 0,87 para el análisis dicotómico). El acuerdo entre el reporte de la mayoría y el software comercial fue moderado tanto por categoría (κ=0,43) como en el análisis dicotómico (κ=0,51).
ConclusiónHemos observado un acuerdo entre moderado y casi perfecto inter- e intraobservador entre los radiólogos, según los criterios establecidos en la 5.ª edición del Atlas BI-RADS®. El nivel de acuerdo entre el reporte de los especialistas y un software disponible comercialmente fue moderado.
To determine the level of agreement within and between observers in the categorization of breast density on mammograms in a group of professionals using the fifth edition of the American College of Radiology's BI-RADS® Atlas and to analyze the concordance between experts’ categorization and automatic categorization by commercial software on digital mammograms.
MethodsSix radiologists categorized breast density on 451 mammograms on two occasions one month apart. We calculated the linear weighted kappa coefficients for inter- and intra-observer agreement for the group of radiologists and between the commercial software and the majority report. We analyzed the results for the four categories of breast density and for dichotomous classification as dense versus not dense.
ResultsThe interobserver agreement among radiologists and the majority report was between moderate and nearly perfect for the analysis by category (κ=0.64 to 0.84) and for the dichotomous classification (κ=0.63 to 0.84). The intraobserver agreement was between substantial and nearly perfect (κ=0.68 to 0.85 for 4 categories and k=0.70 to 0.87 for the dichotomous classification). The agreement between the majority report and the commercial software was moderate both for the four categories (κ=0.43) and for the dichotomous classification (κ=0.51).
ConclusionAgreement on breast density within and between radiologists using the criteria established in the fifth edition of the BI-RADS® Atlas was between moderate and nearly perfect. The level of agreement between the specialists and the commercial software was moderate.
La densidad mamaria, evaluada mediante mamografía, se define como las cantidades relativas de tejido estromal y epitelial radiodensos respecto al tejido adiposo radiotransparente1. En la 5.ª edición del Atlas BI-RADS® del American College of Radiology (ACR) se definen cuatro patrones de densidad mamaria: ACR a predominantemente adiposo, ACR b con regiones dispersas de tejido fibroglandular, ACR c heterogéneamente denso y ACR d extremadamente denso2.
La alta densidad mamaria (categorías c y d) es un factor de riesgo independiente para el desarrollo del cáncer de mama3–5 y un factor de enmascaramiento que conlleva una disminución de la sensibilidad de la mamografía para la detección de esta enfermedad y otras lesiones6–10.
La evaluación de la densidad mamaria puede ser realizada de forma visual por un radiólogo. Algunos autores han detectado que este método supone una variabilidad intra- e interobservador considerable11–13. En una revisión sistemática de la bibliografía, realizada por el grupo de trabajo Task Force en el año 2016, se reportó que, en entornos comunitarios, el 19-22% de los exámenes mamográficos inicialmente clasificados como densos se reclasificaron posteriormente como no densos, mientras que el 10-16% de los exámenes inicialmente no densos se reclasificaron como densos. En la reproducibilidad secuencial describieron que al 20% de los estudios se le modifica la categoría en la ronda subsiguiente si la lectura era realizada por el mismo radiólogo, y la proporción subía al 33% si era evaluado por otro radiólogo13,14.
Por otra parte, cada vez son más frecuentes los sistemas automatizados de medición de la densidad mamaria15–19. Consecuentemente, en la práctica clínica, la densidad mamaria se reporta a partir de la valoración que realizan los especialistas con el soporte de dichos sistemas. Pero son escasos los estudios que realizan un análisis acerca del uso, la concordancia y la percepción de utilidad de los profesionales sobre estas herramientas.
El objetivo de nuestro trabajo fue determinar el acuerdo intra- e interobservador en la categorización de la densidad mamográfica según la 5.a edición del Atlas BI-RADS® - ACR, entre un grupo de profesionales especializados en imágenes mamarias de una institución de salud de alta complejidad. Analizamos además la concordancia entre la categorización realizada por expertos y la categorización realizada por un método de categorización automático: software comercial de un mamógrafo digital.
MétodosÁmbitoNuestro estudio fue llevado a cabo en la Sección de Diagnóstico e Intervencionismo Mamario, del Servicio de Diagnóstico por Imágenes de un hospital de tercer nivel. El servicio cuenta con imágenes digitales y sistema integrado RIS/PACS desde el año 201020. La sección está compuesta por 10 especialistas, 2 fellows e informa un promedio de 30.000 mamografías anuales. Los estudios mamográficos se asignan diariamente a los médicos radiólogos al azar para su reporte, cada uno recibe entre 200 y 400 casos mensuales. Una vez redactados los reportes de mamografía, se somete a revisión de pares el 10% de los estudios informados por especialistas (aproximadamente 300 estudios mensuales) y la totalidad de los estudios informados por fellows. Además, se realizan auditorías de calidad de reporte por parte del médico que solicitó el estudio.
Diseño del estudioEste estudio de corte transversal se realizó de acuerdo con los principios de la Declaración de Helsinki y fue aprobado por el Comité de Ética de nuestra institución. Contó, además, con el consentimiento de los pacientes.
Categorización de la densidad mamaria según la 5.a edición del BI-RADS® -- ACREl equipo de profesionales estuvo conformado por 6 médicos de la Sección de Diagnóstico e Intervencionismo Mamario. El grupo contaba con un promedio de experiencia en imágenes mamarias de 9 años y un rango de 2 a 18 años. Se incluyeron un total de 451 mamografías de pacientes asintomáticas seleccionadas al azar, perteneciente a pacientes con un rango etario entre 40 y 90 años, realizadas en la institución durante el mes de febrero de 2019. Se extrajo una de las cuatro adquisiciones de cada estudio, que podían ser craneocaudales u oblicuomediolaterales. Se excluyeron las incidencias focalizadas, magnificadas y estudios mamográficos de pacientes con antecedentes personales de cirugía mamaria (incluyendo implantes mamarios) y gigantomastia. Se definió esta última según la necesidad de utilizar más de una placa por incidencia.
Un bioingeniero y un radiólogo, que no participaron en la posterior categorización, extrajeron las imágenes para evaluar de la base de datos del hospital y eliminaron los datos de identificación de las pacientes. El muestreo utilizado fue de tipo consecutivo.
Una semana antes de la evaluación de las 451 imágenes mamográficas los profesionales participantes repasaron los criterios de categorización de densidad mamaria con imágenes de la 5.a edición del Atlas BI-RADS®2. A continuación, los especialistas categorizaron la densidad mamográfica de cada una de las mamografías. Las imágenes fueron evaluadas en estaciones de trabajo de 5 megapíxeles.
Los evaluadores no tenían conocimiento de los datos demográficos de las pacientes ni la categoría asignada en el reporte original de cada mamografía. Tampoco conocían la densidad asignada por los demás participantes del estudio ni la evaluación del software comercial. Se realizaron dos lecturas de las mismas mamografías separadas con un intervalo de un mes. El orden de los estudios en cada una de las dos lecturas fue aleatorio. Toda esta información se registró en una base de datos electrónica.
Utilizamos un software comercialmente disponible para categorización automática de densidad mamaria de las imágenes de nuestra muestra: Breast Density Measurement Software, del mamógrafo AMULET Innovality –3000AWS7.0 Option– FUJIFilm®. Este software calcula la densidad mamaria a partir de la relación entre el tejido fibroglandular y el área total de la mama21. A partir de esta proporción, estima la densidad mamaria en una escala continua y automáticamente asigna una categoría.
Variables de interés y métodos estadísticosEvaluamos la variabilidad intra- e interobservador de cada uno de los profesionales participantes mediante el cálculo de coeficientes kappa ponderados lineales, que se reportan con un intervalo de confianza (IC) del 95%. El cálculo del coeficiente se realizó para las cuatro categorías de densidad mamaria y también para el resultado dicotómico de mama densa versus mama no densa.
Elegimos, además, la medida de reporte de la mayoría (majority report), definida como la moda estadística de los reportes de los observadores, en concordancia con la literatura preexistente22. Calculamos el nivel de acuerdo entre cada evaluador y el reporte de la mayoría. Para los casos en los que se produjo un empate (distribución de categorizaciones no unimodal), un séptimo especialista en imágenes categorizó la mamografía para alcanzar un acuerdo.
Para el cálculo de kappa ponderado lineal (κ) utilizamos el método descrito por Cohen y Fleiss23,24. Reportamos los coeficientes kappa de acuerdo interobservador e intraobservador, que fueron a su vez clasificados según su nivel de acuerdo siguiendo la subdivisión del coeficiente kappa propuesta por Landis y Koch (0: “pobre”; de 0 a 0,2: “leve”; de 0,21 a 0,4: “justo”; de 0,41 a 0,6: “moderado”; de 0,61 a 0,8: “sustancial”; de 0,81 a 1: “casi perfecto”)25.
Por último, reportamos la concordancia entre el software comercial y el reporte de la mayoría.
Utilizamos el software estadístico STATA v. 14 y R versión 3.6.0. Se consideró un valor de p<0,05 para indicar significación.
Los investigadores participantes declaran no tener conflictos de intereses.
ResultadosLa frecuencia de las categorías asignadas por cada especialista se muestra en la figura 1. Los valores de kappa ponderados lineales para el acuerdo global interobservador (entre cada especialista y el reporte de la mayoría) en el momento de la primera evaluación se muestran en la tabla 1. Estos valores alcanzaron un rango de 0,64 (IC: 0,58 a 0,70) a 0,84 (IC: 0,80 a 0,89) para el análisis por categoría. Es decir, se alcanzó un acuerdo de moderado a casi perfecto entre cada uno de los observadores y el reporte de la mayoría. Valores similares se obtuvieron al analizar los resultados de manera dicotómica desde una perspectiva clínica, categorizando la imagen como mama densa/no densa.
Kappa ponderado lineal entre cada especialista y el reporte de mayoría
| Kappa ponderado lineal (IC 95%) | ||
|---|---|---|
| InterobservadorEn escala de 4 categoríasa | InterobservadorDicotomizado (denso/no denso)b | |
| Observador 1 | 0,66 (0,60 a 0,72) | 0,63 (0,55 a 0,70) |
| Observador 2 | 0,77 (0,72 a 0,83) | 0,76 (0,70 a 0,82) |
| Observador 3 | 0,64 (0,58 a 0,70) | 0,72 (0,66 a 0,78) |
| Observador 4 | 0,84 (0,80 a 0,89) | 0,84 (0,79 a 0,89) |
| Observador 5 | 0,83 (0,78 a 0,87) | 0,80 (0,75 a 0,86) |
| Observador 6 | 0,67 (0,61 a 0,73) | 0,66 (0,59 a 0,73) |
| Software comercial | 0,46 (0,39 a 0,52) | 0,51 (0,43 a 0,59) |
Los valores de kappa ponderados lineales para el acuerdo intraobservador entre la primera y la segunda observación se muestran en la tabla 2. Los resultados alcanzaron un rango de 0,68 (IC: 0,63 a 0,74) a 0,85 (IC: 0,80 a 0,89). Para el análisis dicotómico, los resultados fueron de 0,70 (IC: 0,64 a 0,77) a 0,87 (IC: 0,83 a 0,92). Para los resultados antes mencionados, los valores corresponden a un acuerdo entre sustancial y casi perfecto.
Kappa ponderado lineal para cada especialista en las lecturas realizadas con un intervalo de tiempo de un mes
| Kappa ponderado lineal (IC 95%) | ||
|---|---|---|
| IntraobservadorEn escala de 4 categoríasa | IntraobservadorDicotomizado (denso/no denso)b | |
| Observador 1 | 0,76 (0,71 a 0,81) | 0,75 (0,68 a 0,82) |
| Observador 2 | 0,70 (0,64 a 0,76) | 0,70 (0,64 a 0,77) |
| Observador 3 | 0,85 (0,80 a 0,89) | 0,87 (0,83 a 0,92) |
| Observador 4 | 0,72 (0,66 a 0,77) | 0,72 (0,66 a 0,79) |
| Observador 5 | 0,68 (0,63 a 0,74) | 0,73 (0,67-0,77) |
| Observador 6 | 0,73 (0,68 a 0,79) | 0,77 (0,70 a 0,83) |
| Reporte de la mayoría | 0,80 (0,76 a 0,85) | 0,85 (0,80 a 090) |
El acuerdo entre el reporte de la mayoría y el software comercial fue moderado para las cuatro categorías y para el análisis dicotómico, con valores kappa de 0,46 (IC: 0,39 a 0,52) y 0,51 (IC: 0,43 a 0,59), respectivamente.
DiscusiónLa densidad mamaria es un factor de riesgo independiente para el desarrollo de cáncer de mama. La categorización de la densidad mamaria resulta fundamental para realizar una evaluación de riesgo personalizada y complementar de manera eficiente los cribados poblacionales con estudios de mayor sensibilidad en pacientes con patrones densos, como la resonancia magnética o la ecografía mamaria26. Dicho factor puede ser utilizado para la selección del método más adecuado de diagnóstico para cada paciente. Esto permite evitar las sobreprestaciones o subprestaciones de estudios complementarios, logrando, así, evitar las demoras en el acceso a estudios correspondiente.
El presente trabajo evaluó la variabilidad inter- e intraobservador existente en un servicio de diagnóstico por imágenes para la categorización de densidad mamaria, basada en la 5.ª ed. del Atlas BI-RADS®.
El acuerdo interobservador para la densidad mamaria fue sustancial en la concordancia entre los 6 radiólogos y el reporte de la mayoría, tanto para la escala de 4 categorías como para la categorización dicotómica (denso/no denso). Analizando trabajos similares en la literatura científica encontramos resultados muy variables. Existen grupos que reportan mayor heterogeneidad en sus observaciones, con estudios que muestran concordancia interobservador entre los pares de radiólogos que van de leve a sustancial, con valores de kappa que varían de 0,02 a 0,72 (media=0,46, IC 95%: 0,36 a 0,55)27. Otros trabajos, en cambio, reportan valores que son similares a los que presentamos aquí22,27–30 El hecho de que el grupo de médicos participantes del estudio cuente con actividades académicas periódicas, ateneos y actualizaciones, auditorías de reporte, etc. podría explicar este resultado.
Para la evaluación de la variabilidad intraobservador, nuestro estudio registró valores kappa con un acuerdo sustancial y casi perfecto31, tanto en una escala de 4 categorías como en la escala dicotómica, sin una diferencia estadísticamente significativa entre ellos. No obstante, debemos mencionar el potencial riesgo de sesgo por el breve lapso transcurrido entre las dos lecturas.
En relación con lo anterior, si bien encontramos trabajos que reportan una diferencia estadísticamente significativa para los observadores con una experiencia mayor de 10 años en el diagnóstico de estudios mamográficos28, nuestros resultados no reflejaron lo mismo. Esto se puede explicar porque el equipo médico forma parte de una sección especializada con criterios diagnósticos homogéneos, reuniones de actualización periódicas y dedicación exclusiva al diagnóstico mamario. Como ya se ha mencionado, los evaluadores participaron de una sesión de actualización sobre criterios de categorización de densidad mamaria con anterioridad al inicio del estudio. Por lo tanto, nuestros resultados podrían generalizarse en centros con las mismas características.
Las principales ventajas de una herramienta de diagnóstico automatizada son su consistencia en el tiempo y su falta de variabilidad32. Es por esto por lo que un sistema automatizado independiente del observador permite mediciones reproducibles y debería ser más adecuado para una evaluación confiable y estandarizada. En este estudio, el acuerdo entre el reporte de la mayoría de los médicos y el software disponible comercialmente fue moderado. Podríamos atribuirlo, en primer lugar, a que los criterios asociados a los dos métodos de categorización son distintos. La categorización visual se fundamenta principalmente en el conocimiento y la experiencia del profesional, mientras que el método automatizado utiliza una estrategia cuantitativa para determinar la categoría ACR. En segundo lugar, los procesos de desarrollo y validación de una herramienta de software determinarán su desempeño en los distintos escenarios. Sería interesante mediante futuros estudios explorar los motivos de esta diferencia.
Si bien este trabajo fue realizado en una única institución, la misma es de referencia y recibe a diario derivaciones de todo el país. Un estudio multicéntrico sería conveniente para evaluar nuevas tecnologías. En relación con la muestra utilizada, esta cuenta con un bajo número de casos con patrón mamográfico extremadamente denso (ACR-d), acorde con la prevalencia reportada en el servicio en los últimos 5 años, durante los cuales los registros rondaron el 1-2%. Aun así, la prevalencia total de alta densidad (categorías c y d) en la muestra fue del 41%, también acorde con la prevalencia en nuestra población hospitalaria. El número de mamografías empleadas y la aleatorización del orden de los estudios evitó sesgos de memoria por posibles efectos de familiarización con la muestra de mamografías entre los dos tiempos de observación. Por último, nuestro diseño garantizó el ciego de los médicos a los reportes del software de clasificación automática y los diagnósticos del resto de los evaluadores.
ConclusiónAunque existe una variabilidad general entre observadores e incluso para el mismo operador, la clasificación cualitativa de densidad mamaria es un método aceptable con un acuerdo entre moderado y casi perfecto inter- e intraobservador según los criterios establecidos en la 5.a ed. del Atlas BI-RADS®. Hemos observado nivel de acuerdo moderado entre el reporte de los especialistas y un software disponible comercialmente. Futuros estudios podrán ahondar en la caracterización del acuerdo entre especialistas y métodos de clasificación automatizados.
Autoría1. Responsable de la integridad del estudio: SB, KP.
2. Concepción del estudio: MT, KP, JF.
3. Diseño del estudio: BB, JF.
4. Obtención de los datos: MJC, MPS.
5. Análisis e interpretación de los datos: BB, JF, MT, KP.
6. Tratamiento estadístico: BB, MT.
7. Búsqueda bibliográfica: JF, MT, KP, MJC.
8. Redacción del trabajo: JF, MT, KP, BB, MPS.
9. Revisión crítica del manuscrito con aportaciones intelectualmente relevantes: SB.
10. Aprobación de la versión final: JF, MT, KP, BB, MPS, SB.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses.







