Variabilidad en la interpretación de la radiografía de tórax entre una comunidad médica de atención primaria y sus radiólogos de referencia

Riquelme Miralles, DA; Simó Miñana, J

Información del artículo

Resumen

Texto completo

Bibliografía

Objetivos. Conocer la variabilidad (y sus determinantes) en la interpretación (normal/patológica) de la radiografía posteoanterior de tórax entre una comunidad médica de atención primaria y un diagnóstico patrón oro (DPO) procedente de 3 radiólogos de referencia.

Diseño. Estudio transversal.

Emplazamiento. Atención primaria. Centros de salud docentes de Elche.

Participantes. 39 participantes: 7 médicos de cabecera (MC) vía MIR, 11 MC no MIR, 9 residentes de tercero de medicina de familia y 12 estudiantes de sexto de medicina.

Mediciones. Mediante la concordancia simple (CS) y el índice kappa (K) se analiza el acuerdo interobservador entre el DPO y la lectura de cada participante en la interpretación de 100 radiografías. El acuerdo intraobservador se estudia mediante una segunda lectura. Mediante análisis uni y multivariante se estudian los factores potencialmente asociados.

Resultados. La CS y el K interobservadores globales son 71,3% (IC 95%, 69,2-73,3) y 0,41 (IC 95%, 0,36-0,46), respectivamente. El tiempo empleado en la lectura y el tiempo en la profesión se encuentran significativa e independientemente asociados a la obtención de un mayor y menor acuerdo interobservador, respectivamente, mientras que la experiencia profesional reciente, la plaza en propiedad y la edad no se asocian. La formación es la variable que independientemente más explica el acuerdo intra e interobservador.

Conclusiones. Aunque el acuerdo global sea aceptable y el observado en los médicos formados vía MIR sea bueno, el obtenido por los otros grupos no sobrepasa un umbral mínimo de aceptabilidad. Es necesaria una formación que eleve la competencia clínica, tal y como lo hace el período MIR.

Palabras clave:

Variabilidad inter e intraobservador

Radiografía de tórax

Atención primaria

Objective. To know the variability in the interpretation (normal/pathological) of posteroanterior view chest radiograph and the associated factors between a medical primary care community and a Gold Standard (GS) from 3 reference radiologists.

Design. Crossover study.

Setting. Primary care. Teaching health centers of Elche.

Methods. Interobserver percentage agreement (IPA) and Kappa statistic (K) were used to analyse the interobserver agreement (IA) between the GS and every of the participants in interpretation of 100 radiographs. Intraobserver variability was assessed with a second review. Using uni and multivariant analysis some possibly associated factors were studied.

Results. Overall IPA and K were 71.3% (CI 95%: 69.2-73.3) and 0.41 (CI 95%: 0.36-0.46) respectively. Time employed in radiographs reading and time passed after medicine studies finished were independently and significantly associated to higher and lower interobserver agreement results rspectively, whereas recent professional experience, permanent job and age were not associated. Professional training is the variable that most explain the inter and intraobserver variability.

Conclusions. Overall IA is acceptable. The IA showed by the participants trained under the MIR system is good but the IA achieved by the rest of participants is not acceptable. It is necessary a training which increase the clinical competence, as it does MIR training.

Keywords:

Inter-Intraobserver variability

Chest radiography

Primary Care

Texto completo

Introducción

Desde hace años, muchos estudios han ido aportando información acerca de la variabilidad entre patrones de práctica médica1. Las variaciones en la práctica clínica surgen ante situaciones tales como la decisión de ingresar o no a pacientes con similares características y necesidad de cuidados; la no unanimidad a la hora de actuar ante situaciones o procesos similares, indicando o no determinadas actuaciones diagnósticas o terapéuticas. La variabilidad en la práctica clínica también se nutre de las discrepancias o inconsistencias entre las observaciones de 2 o más médicos cuando examinan a un mismo paciente. En esta situación, la discrepancia clínica puede darse en la interpretación de la historia clínica y anamnesis, en la interpretación de los hallazgos físicos y de las pruebas diagnósticas2,3.

En particular, la interpretación de los resultados de una prueba diagnóstica afecta al pronóstico y tratamiento del paciente e influye en la decisión de solicitar o no otras exploraciones complementarias. En el ámbito particular de la atención primaria, la interpretación de una prueba puede influir, además, en la decisión de remitir o no al paciente a otros niveles de atención. Consecuencias psicológicas para el paciente derivadas del etiquetado diagnóstico y mayor gasto y riesgo de iatrogenia en exploraciones subsecuentes pueden ser consecuencias de un resultado falsamente positivo. Por su parte, los efectos derivados de la no intervención terapéutica o la interrupción del proceso diagnóstico ante un resultado falsamente negativo son evidentes y potencialmente importantes.

La radiografía de tórax sigue vigente a pesar del tiempo transcurrido desde su incorporación al arsenal diagnóstico. Es uno de los métodos básicos de exploración del tórax y representa una gran parte de los estudios radiológicos que se realizan4,5. Es una técnica simple de realizar, requiere poco tiempo, es accesible y barata y la dosis de radiación recibida es mínima. Por lo tanto, cualquier clínico debiera estar suficientemente capacitado para efectuar correctamente su interpretación.

El conocimiento de las causas de las discrepancias, desacuerdos o inconsistencias en la práctica clínica y su evaluación cuantitativa pueden contribuir decisivamente a mejorar la calidad de la práctica e investigaciones clínicas6,7. El objetivo de este estudio es determinar el grado de variabilidad en la interpretación de la radiografía posteroanterior de tórax y los factores asociados a la misma entre los miembros de una comunidad médica de atención primaria y sus radiólogos de referencia.

Participantes y métodos

Composición de la comunidad médica: los centros de salud docentes de Elche

La composición de la comunidad médica a la que se le solicitó su participación en este estudio incluyó a todos los médicos de cabecera de los centros de salud docentes (CS Altabix y CS Carrús) de la ciudad de Elche y, además, a todos los residentes de tercer año de medicina familiar y comunitaria (MFyC) y estudiantes de sexto curso de medicina que pasaron por estos centros durante los años 1996 y 1997. Todos los miembros de esta comunidad médica participaron en el estudio salvo un médico de cabecera especialista vía MIR en MFyC en situación de ILT de larga duración y un médico de cabecera no especialista vía MIR que rechazó participar. El total de participantes fue de 39 y su distribución según formación: 12 estudiantes de sexto curso de medicina, 11 médicos de cabecera no especialistas vía MIR, 9 residentes de tercer año de la especialidad de MFyC y 7 médicos de cabecera especialistas vía MIR en MFyC. Los participantes conocían el objetivo del estudio.

Procedencia y selección de las radiografías posteroanteriores de tórax

Uno de los centros de salud cuenta con una unidad de radiología simple. Un total de 160 radiografías posteroanteriores de tórax fueron seleccionadas al azar del archivo de esta unidad.

Diagnóstico patrón oro (gold standard)

El diagnóstico patrón oro (DPO) derivó del resultado de la lectura de las radiografías de tórax por parte de 3 radiólogos pertenecientes al Servicio de Radiodiagnóstico del Hospital de Elche que también conocían el objetivo del estudio.

Las 160 radiografías fueron examinadas en primer lugar por un radiólogo, el cual desechó 22 por mala calidad y 33 por considerar necesario disponer de una radiografía en proyección lateral para pronunciarse sobre la existencia o no de patología en la posteroanterior. Se desecharon, por último, 5 radiografías al azar con objeto de disponer exactamente de 100 radiografías y facilitar así los cálculos posteriores. Este primer radiólogo leyó estas 100 radiografías y las clasificó en normales o patológicas.

Un segundo radiólogo, que desconocía la interpretación del anterior, leyó esas mismas 100 radiografías y también las clasificó en normales o patológicas. Finalmente, las radiografías con lecturas discordantes entre el primer y segundo radiólogo fueron leídas por un tercero que desconocía la interpretación de los anteriores y que también las clasificó en normales o patológicas.

Para la conformación del DPO, una radiografía fue considerada normal, o en su caso, patológica, cuando así la clasificaron 2 de los 3 radiólogos. De este modo se obtuvo la clasificación definitiva de las 100 radiografías en 44 normales y 56 patológicas. Relación que, obviamente, desconocieron los participantes en el estudio.

Lectura de las radiografías y medición de la variabilidad

Sin límite de tiempo y de forma individual, cada participante observó sobre negatoscopio y clasificó las radiografías en normales o patológicas mientras le eran mostradas por uno de los autores del estudio. Transcurrido un mes de la primera lectura, los 39 participantes volvieron a examinar en una segunda lectura las mismas radiografías siguiendo el mismo orden y procedimiento que en la primera. La variabilidad en la interpretación de la lectura de las radiografías entre participantes y radiólogos se determinó por el grado de acuerdo entre el diagnóstico de cada participante con el DPO derivado de la lectura de los radiólogos. Los índices de acuerdo empleados en este estudio fueron la concordancia observada (porcentaje de acuerdos sobre el total de observaciones) y el índice kappa (K). Ambos se emplearon para determinar el acuerdo entre el diagnóstico de cada uno de los participantes y el DPO de los radiólogos (acuerdo interobservador) y también para determinar el acuerdo entre los diagnósticos emitidos por cada participante en sus 2 lecturas (acuerdo intraobservador). El índice K es el más apropiado para expresar el acuerdo entre observadores cuando, como en este caso, las observaciones son categóricas (normal/patológica)8. Este índice es útil, además, porque en su cálculo se tiene en cuenta el grado de acuerdo debido al azar. Según las propuestas más utilizadas9,10, se puede hablar de un acuerdo aceptable a partir de un valor de K superior a 0,40.

Criterios diagnósticos

Ninguno de los participantes, incluidos los radiólogos, conoció aspecto clínico alguno acerca de los pacientes a los que pertenecían las radiografías. Por ello, la clasificación de una radiografía como normal o patológica siempre se basó únicamente en criterios de lectura radiográfica, ya que nunca se tuvo acceso a la historia clínica de los pacientes.

Variables recogidas

De cada participante se obtuvieron las siguientes variables:

1. Variables de tipo profesional-laboral: a) cuantitativas: edad, tiempo en la profesión (años transcurridos desde la finalización de la licenciatura en medicina), tiempo trabajado (años trabajados durante los últimos 5 años), y b) cualitativas: plaza en propiedad (0: no, 1: sí), formación (1: estudiante de sexto curso de medicina; 2: médico de cabecera no especialista vía MIR en MFyC; 3: médico residente de tercer año de MFyC, y 4: médico de cabecera especialista vía MIR en MFyC).

2. Variables derivadas de la lectura de las radiografías: a) cuantitativas: concordancia interobservador (C inter), K interobservador (K inter), concordancia intraobservador (C intra), K intraobservador (K intra), sensibilidad (Sens), especificidad (Esp), valor predictivo del resultado positivo (VPP), valor predictivo del resultado negativo (VPN), porcentaje de diagnósticos de patología (PDP) y tiempo de lectura (minutos empleados en la lectura). Estos valores salvo, como es lógico, K intra y C intra, se obtuvieron calculando la media entre los resultados de la primera y la segunda lectura, y b) cualitativas: obtención de un K inter >0,40 (0: no, 1: sí).

Análisis estadístico

Inicialmente, se realizó un análisis univariante para averiguar el grado de asociación entre la variable obtención de un K inter >0,40 (0: no, 1: sí) y las hipotéticas variables explicativas. Para la diferencia de medias se utilizó la prueba de la t de Student (2 medias) o el análisis de la variancia; en caso necesario, ausencia de normalidad (según test de Kolmogorov Smirnov) o heterogeneidad de variancias (según test de Barlett), se aplicaron las pruebas de la U de Mann Whitney y la de Kruskal-Wallis. Para la comparación de proporciones se utilizó la ji-cuadrado con la corrección de Yates, aplicando la prueba exacta de Fisher cuando no se cumplían las condiciones de aplicación. Se utilizó la ji-cuadrado de tendencias (ji-cuadrado tend.) para la comparación de proporciones que representaran una exposición o prevalencia creciente o decreciente. Como medidas de magnitud de asociación se emplearon la odds ratio y el coeficiente de Pearson de la correlación simple. Posteriormente, se ajustó un modelo de regresión logística y otro modelo de regresión lineal, convirtiendo las variables cualitativas en variables dummy (variables indicador o ficticias). Dado el carácter exploratorio de los modelos en los que no existe una variable independiente principal, se introdujeron en los mismos todas aquellas variables que por su relevancia teórica pudieran ser explicativas, independientemente de que resultaran o no significativas en el análisis univariante. A partir de un primer modelo se buscó, mediante eliminación retrógrada de variables (método Backward, criterio de entrada: p<0,05, criterio de salida: p>0,10), el modelo más parsimonioso, tanto en regresión logística como en regresión lineal. La variable dependiente en el modelo de regresión logística fue obtención de un K inter >0,40 (0: no, 1: sí). En el modelo de regresión lineal la variable dependiente fue K inter. Los intervalos fueron calculados para un nivel de confianza del 95%. La base de datos se generó mediante dBASE IV y para el análisis estadístico se utilizó Epiinfo 6.04 y SPSS 5.0.1 para Windows.

Resultados

Análisis del acuerdo interobservador

La concordancia y el índice K globales son 71,3% (IC, 69,2-73,3) y 0,41 (IC, 0,36-0,46), respectivamente. La diferencia observada entre el K inter obtenido por los médicos de cabecera no especialistas vía MIR (0,38) y el obtenido por los estudiantes (0,28) es casi significativa (p=0,10). Ambos grupos han obtenido un K inter significativamente menor que el obtenido por los médicos especialistas vía MIR en MFyC (0,51) y por los residentes de tercer año de MFyC (0,53), sin existir diferencias significativas entre estos dos últimos grupos (tabla 1). El K inter obtenido por los participantes con formación MIR es 0,52 (IC, 0,47-0,56) y el de los participantes sin esa formación 0,33 (IC, 0,30-0,36), p<0,0001.

En la tabla 2 se comparan, en relación a hipotéticas variables explicativas, los participantes que han obtenido un K inter >0,40 con aquellos que obtuvieron un K inter ¾0,40. La probabilidad de obtener un K inter >0,40 aumenta a medida que lo hace la formación de los participantes, siendo el test de tendencias significativo (p=0,0097). Existen diferencias en el tiempo empleado en la lectura de las radiografías: aquellos participantes que han obtenido un K inter >0,40 han dedicado, en promedio, 7 minutos más a la lectura de las radiografías que los participantes cuyo K inter ha sido ¾0,40, p=0,038. El resto de variables (tiempo en la profesión, tiempo trabajado, edad y plaza en propiedad) no han mostrado una asociación significativa con la obtención de un K inter >0,40 en el análisis univariante.

Al introducir en el modelo de regresión logística (tabla 3) las variables potencialmente explicativas de la variable dependiente obtención de un K inter >0,40, comprobamos que tan sólo son aceptadas por el modelo las variables formación, tiempo de lectura y tiempo en la profesión. Esta última presenta un coeficiente beta de regresión negativo. El resto de variables (edad, plaza en propiedad y tiempo trabajado) no son aceptadas.

Al introducir en el modelo de regresión lineal (tabla 4) las variables potencialmente explicativas de la variable dependiente K inter, comprobamos que, al igual que ocurre con el modelo logístico, tan sólo son aceptadas las variables formación, tiempo de lectura y tiempo en la profesión. Esta última también presenta un coeficiente beta de regresión negativo y el resto de variables (edad, plaza en propiedad y tiempo trabajado) tampoco son aceptadas.

Análisis del acuerdo intraobservador

La C y el K globales son 80,4% (IC, 78,8-82,0) y 0,55 (IC, 0,51-0,59), respectivamente. No existen diferencias significativas entre el K intra promedio obtenido por los médicos no especialistas vía MIR y el obtenido por los estudiantes (0,52 y 0,49, respectivamente). El grupo de estudiantes ha obtenido en promedio un K intra significativamente menor que el obtenido por los médicos especialistas vía MIR en MFyC (0,60) y el obtenido por los residentes (0,63). No existen diferencias significativas en el K intra obtenido por estos dos últimos grupos cuando se comparan entre sí ni cuando se comparan con el grupo de médicos no especialistas vía MIR (tabla 1).

Para conocer qué variables se encontraban asociadas a la obtención de un mejor acuerdo intraobservador, se ajustó un modelo de regresión lineal múltiple de las mismas características que los anteriores y con las mismas variables explicativas. Como variable dependiente de este modelo se utilizó K intra. El modelo sólo aceptó como variables explicativas las relacionadas con la formación MIR (residentes de tercer año de MFyC y médicos especialistas vía MIR). El K intra obtenido por los participantes con formación MIR es 0,62 (IC, 0,57-0,66) y el de los participantes sin esa formación 0,51 (IC, 0,46-0,56), p=0,002. Existe, además, una correlación significativa entre K intra y K inter (r=0,49), p=0,002 (tabla 5).

Lectura de la radiografía de tórax como test diagnóstico

En la tabla 5 se aprecia que los mayores valores de especificidad y predictivos (sobre todo de VPP) se correlacionan con mayores valores de K inter y, por tanto, con menor variabilidad. En la tabla 1 no se observan diferencias en la sensibilidad y VPN obtenidos por los diferentes grupos, mientras que la especificidad y el VPP son significativamente mayores entre los médicos residentes y especialistas vía MIR, precisamente aquellos que mejor acuerdo han mostrado con el DPO.

Discusión

En España se han realizado pocos estudios que investiguen el acuerdo en la interpretación clínica o de pruebas diagnósticas entre médicos de atención primaria y sus especialistas de referencia11-14. Es difícil que una investigación imite perfectamente la realidad, y este tipo de estudios no son, ciertamente, ninguna excepción. Esta consideración hay que tenerla en cuenta a la hora de enjuiciarlos.

Las propuestas más utilizadas9,10 señalan un acuerdo aceptable a partir de un valor de K>0,40. Por tanto, podemos considerar aceptable el acuerdo interobservador global obtenido (K=0,41) y como bueno el acuerdo interobservador obtenido por los residentes (K=0,53) y por los médicos de cabecera especialistas vía MIR (K=0,51). Sin embargo, el acuerdo interobservador obtenido por los estudiantes (0,28) y los médicos de cabecera no especialistas vía MIR (0,38) no supera este umbral mínimo de aceptabilidad. En este sentido, detectamos mayor acuerdo interobservador entre los radiólogos y los participantes a medida que aumenta la formación de estos últimos (tablas 2 y 5). Tras ajustar por el resto de variables, podemos comprobar que la formación es la variable que independientemente más explica el acuerdo interobservador y, en consecuencia, la variabilidad (tablas 3 y 4).

El tiempo trabajado durante los últimos 5 años (tiempo trabajado) y los años transcurridos desde la finalización de la licenciatura (tiempo en la profesión) no se asocian a la obtención de un mejor acuerdo. Es más, esta última variable (tiempo en la profesión) se ha encontrado independiente e inversamente asociada al K inter en ambos modelos multivariantes. La mayor experiencia, en este caso, no es sinónimo de mejores conocimientos y habilidades. Sigue siendo necesaria, por tanto, una formación de calidad, reglada y estructurada que eleve la competencia clínica, tal y como lo hace el período de formación MIR15, también para aquellos médicos que van a ejercer en el ámbito de la atención primaria, ya que la que aporta la universidad o la que proporciona la experiencia es insuficiente, al menos en este caso. Creemos necesario, por ello, un período mínimo de rotación del MIR de MFyC por el servicio de radiodiagnóstico durante su residencia para familiarizarse, particularmente, con aquellas exploraciones que, como el caso de la radiografía de tórax, tendrá que interpretar correctamente en el ejercicio de su labor como médico del primer nivel asistencial. El médico de cabecera necesita también una formación continuada en interpretación de pruebas radiológicas, y más concretamente en radiología simple de tórax, a pesar de que el profesional disponga de una formación adecuada como es el período MIR, ya que el paso del tiempo influye negativamente en el mantenimiento de la formación o de las habilidades aprendidas.

El tiempo empleado en la lectura de las radiografías (tiempo de lectura) se ha encontrado asociado directa e independientemente al K inter en el análisis univariante y ha sido también aceptado por ambos modelos multivariantes. Una lectura más sistemática y detallada puede requerir más tiempo y ser más efectiva. Es probable que así la hayan efectuado aquellos participantes y grupos que obtuvieron mayor acuerdo con el DPO y, por tanto, menor variabilidad.

Los resultados obtenidos referentes a las diferentes características operacionales (sensibilidad, especificidad y valores predictivos), y sus relaciones con la formación y el grado de acuerdo interobservador, nos hacen sospechar que lo que realmente marca la diferencia formativa a favor de los participantes que han obtenido un mejor acuerdo con el DPO es, precisamente, clasificar de modo correcto aquellos hallazgos radiográficos que serían diagnosticados como patológicos por observadores con menor formación y que, en cambio, aquellos observadores adecuadamente entrenados y formados los clasifican como normales. Ésta puede ser la explicación de que hayan sido precisamente los grupos (tabla 1) y participantes (tabla 5) que han obtenido menor acuerdo interobservador aquellos que han emitido un superior porcentaje de diagnósticos de patología (PDP).

K tiene algunas características que limitan su utilidad. Por un lado, tiende a disminuir a medida que aumentan las categorías diagnósticas16. Por otra parte, varía su valor según la prevalencia del factor estudiado, a pesar de que los observadores mantengan su misma calidad en la observación17. En particular, en los valores extremos de prevalencia, tanto si es muy baja como si es muy alta, tiende a disminuir. Los valores predictivos también se ven afectados por la prevalencia del factor estudiado18. Estas características de K dificultan la comparación de estos resultados entre aquellos estudios en los que la prevalencia del factor estudiado sea sustancialmente distinta. En nuestro caso, el DPO derivado de la lectura de los radiólogos ofreció una proporción de radiografías patológicas del 56%. Pensamos que, al no tratarse de una prevalencia extrema, los valores predictivos y los de K no se verán excesivamente influenciados por la misma.

El diseño del estudio posee varias desviaciones respecto a la práctica clínica convencional que pasaremos a comentar. Según cuáles de ellas predominaran, los resultados de este trabajo podrían estar infra o sobrestimando la variabilidad real. También es posible que estas desviaciones no influyan determinantemente en los resultados y, por ello, pensamos que, a pesar de ellas, éstos no ven comprometida decisivamente su validez.

Existen evidentes e importantes diferencias entre la lectura de radiografías de tórax en la práctica clínica habitual y la lectura de las radiografías de tórax en nuestro estudio. Fundamentalmente, el conocimiento de la historia clínica del paciente y la presunción diagnóstica que motiva la solicitud de la exploración son los elementos diferenciales. Estos elementos influyen en la lectura e interpretación de la radiografía en la práctica clínica habitual, ya que orientan la búsqueda de eventuales anormalidades. La disponibilidad de la historia clínica parece mejorar la detección de anomalías radiográficas en radiografías de tórax mejorando la exactitud diagnóstica19-21. Si los participantes hubieran conocido detalles clínicos acerca de los pacientes a los que pertenecían las radiografías, es probable que la variabilidad detectada hubiera sido menor.

El hecho de que los participantes conocieran el objetivo del estudio pudo condicionar el grado de precisión en la lectura de las radiografías y por tanto afectar a la variabilidad interobservador. Por un lado, pudo haber ocurrido que los participantes prestaran más atención que la habitual y que, por ello, identificaran mínimas anormalidades que en el caso de una lectura dentro del contexto de la práctica diaria hubieran ignorado. Por otra parte, pudo ocurrir también que los participantes, al conocer que no se trataba de una situación real y que, además, no se trataba de pacientes actuales en los que hubiera que decidir «de verdad» realizaran una lectura algo menos cuidadosa. Es difícil pronunciarse en favor de alguna de estas dos posibilidades. De todos modos, también es posible que estos factores no influyeran determinantemente y que, por tanto, el grado de precisión en la lectura de las radiografías por parte de los participantes del estudio no fuera tan diferente del habitual en su práctica diaria. Sea como fuere, estos factores podrían condicionar la variabilidad en la interpretación entre participantes y radiólogos, pero difícilmente afectarían a las diferencias observadas entre los grupos participantes.

En la práctica diaria, el clínico ha de apoyar, a veces, su toma de decisiones en la interpretación de radiografías de tórax de dudosa calidad técnica y, por otro lado, casi siempre tiene la posibilidad de solicitar una proyección lateral. La mejor o peor calidad técnica de la radiografía y la disponibilidad o no de una proyección lateral son también eventuales fuentes de variabilidad. En la estrategia seguida para la obtención del DPO se solicitó al primer radiólogo que, a su juicio, eliminara aquellas radiografías posteroanteriores de tórax de mala calidad técnica y aquellas en las que considerara necesaria la proyección lateral para pronunciarse sobre la existencia o no de patología en la posteroanterior. Con ello se pretendía aumentar la probabilidad de una clasificación diagnóstica de las radiografías (normal/patológica) más exacta y fiable por parte de los radiólogos. Por ello se decidió el rechazo de las radiografías de mala calidad y las que requerían de una proyección lateral para pronunciarse sobre el diagnóstico en la posteroanterior. Por este mismo motivo se solicitó la participación de 2 radiólogos más: un segundo que realizó una segunda lectura y un tercero que leyó las radiografías con diagnóstico discordante entre el primero y el segundo. Se pretendía un buen DPO para que las distintas características operacionales (sensibilidad, especificidad y valores predictivos) tuvieran la suficiente validez y también para «forzar» a los participantes a que se pronunciaran sin ambages por una categoría diagnóstica de normalidad o de patología, ya que la inclusión de una tercera categoría diagnóstica (por ejemplo, «inclasificable») probablemente hubiera requerido la participación en el estudio de más observadores con objeto de detectar resultados significativos. Muy probablemente, este modo de proceder disminuyó la variabilidad entre radiólogos, ya que si el primer radiólogo no hubiera excluido ninguna radiografía, probablemente se hubiera detectado menor acuerdo entre éste y el segundo. Debido a la estrategia seguida, no es posible por tanto conocer la variabilidad real en la interpretación de la radiografía de tórax entre los radiólogos. Aunque éste no era, en principio, un objetivo del estudio, conocer esta variabilidad hubiera permitido su comparación con la variabilidad mostrada por los grupos participantes y, así, se hubiera podido enjuiciar esta última en relación a una variabilidad «de referencia», la de los radiólogos.

La incertidumbre en el seno de una comunidad de profesionales genera variaciones en los patrones de práctica clínica. En ausencia de comunicación, estos profesionales quizá nunca lleguen a ser conscientes de sus desacuerdos y mucho menos de cómo resolverlos2. Esperemos que este estudio proporcione, al ser comunicadas las discrepancias y sus causas, mayor información tanto a la comunidad médica implicada como a la no implicada y, por tanto, se reduzca parte de la incertidumbre. Las discrepancias en la práctica clínica pueden ser reducidas. En el caso particular de la interpretación de la radiografía de tórax, las discrepancias podrían reducirse mediante la adecuada formación de los profesionales y la disponibilidad del suficiente tiempo de consulta. Su eliminación total quizá no sea absolutamente necesaria ni posible, pero el conocimiento de las causas de los desacuerdos e inconsistencias y su evaluación cuantitativa pueden mejorar la calidad de la práctica e investigaciones clínicas y a ello esperamos haber contribuido.

Agradecimientos

Los autores damos las gracias a todos los estudiantes y médicos por su participación en el estudio, porque supieron entender que no se trataba de un «examen» y por haber contribuido a desvelar algunos de los elementos determinantes de la variabilidad de nuestra práctica clínica. Asimismo, agradecemos especialmente a Julio Sáez, Carlos Lozano y José Sendra, radiólogos del Hospital de Elche, su inestimable colaboración. Sin todos ellos, evidentemente, este trabajo nunca hubiese visto la luz. Se agradecen los siempre acertados comentarios de Jaime Latour a una versión previa del manuscrito.

Bibliografía

[1]

Feinstein AR..

A bibliography of publications on observer variability..

J Chronic Dis, 38 (1985), pp. 619-632

Medline

[2]

Variaciones entre zonas pequeñas, estilo de práctica y calidad asistencial. En: Evans RG, Barer ML, Marmor TR, eds. ¿Por qué alguna gente está sana y otra no? Los determinantes de la salud de las poblaciones. Madrid: Díaz de Santos, 1996; 253-275.

[3]

Sackett DL, Haynes RB, Guyatt GH, Tugwell P..

El examen clínico. En: Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed..

Buenos Aires: Panamericana,, 34- (1994), pp. 61

[4]

En: Martín Zurro A, Cano Pérez JF, eds. Atención primaria. Conceptos, organización y práctica clínica. 3ª ed. Barcelona: Mosby/Doyma Libros, 1994; 169-181.

[5]

Métodos diagnósticos en la consulta del médico de familia. Barcelona: Doyma, 1994.

[6]

Hernández Aguado I, Porta Serra M, Miralles M, García Benavides F, Bolúmar F..

La cuantificación de la variabilidad en las observaciones clínicas..

Med Clin (Barc), 95 (1990), pp. 424-429

[7]

Delgado Vila R..

La variabilidad de la práctica clínica..

Rev Calidad Asistencial, 11 (1996), pp. 177-183

[8]

Kramer MS, Feinstein AR..

Clinical biostatistics. The biostatistics of concordance..

Clin Pharmacol Ther, 29 (1981), pp. 111-123

Medline

[9]

Statistical methods for rates and proportions. Nueva York: John Wiley & Sons, 1981.

[10]

Landis JR, Koch GG..

The measurement of observer agreement for categorical data..

Biometrics, 33 (1977), pp. 159-174

Medline

[11]

Formento JA, Domínguez JL, Arenas A, Lorente T, Vázquez R, Isanta C..

Grado de acuerdo en la interpretación radiológica de cavidades cardíacas izquierdas entre radiólogo, médico de familia y residente de MFyC..

Aten Primaria, 11 (1993), pp. 243-245

Medline

[12]

Moreno A, Iglesias P, Arbesu E..

Grado de concordancia en la interpretación de electrocardiogramas..

Aten Primaria, 16 (1995), pp. 187-191

Medline

[13]

Sánchez M, Tovar J, Medina MA..

Concordancia diagnóstica entre los médicos de atención primaria y los reumatólogos..

Aten Primaria, 13 (1994), pp. 446-448

Medline

[14]

Arribas Blanco JM, Martín Martín S, Bru Amantegui S, Villarroel Rodríguez J, Suárez Martín E, Caballero Martínez F..

Estudio del acuerdo diagnóstico entre médico de familia y dermatólogo..

Medifam, 5 (1995), pp. 17-21

[15]

Pujol R, Busquet J, Feliu E, Castellsague J, Gómez Sáez JM, Martínez Carretero JM et al..

Evaluación de la competencia clínica de una población de médicos especialistas formados por el sistema MIR..

Med Clin (Barc), 105 (1995), pp. 491-495

[16]

Maclure M, Willet WC..

Misinterpretation and misuse of the kappa statistic..

Am J Epidemiol, 126 (1987), pp. 161-169

Medline

[17]

Thompson WD, Walter SD..

A reappraisal of the kappa coefficient..

J Clin Epidemiol, 41 (1988), pp. 949-958

Medline

[18]

Interpretación de los datos diagnósticos. En: Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Buenos Aires: Ed. Panamericana, 1994; 80-157.

[19]

Potchen EJ, Gard JW, Lazar P, Lahaie P, Andary M..

The effect of clinical history data on chest film interpretation: direction or distraction..

Invest Radiol, 14 (1979), pp. 404

[20]

Berbaum KS, Franken EA Jr, Dorfman DD, Barloon T, Ell SR, Lu CH et al..

Tentative diagnoses facilitate the detection of diverse lesions in chest radiographs..

Invest Radiol, 21 (1986), pp. 532-539

Medline

[21]

Tudor GR, Finlay D, Taub N..

An assessment of inter-oberver agreement and accurancy when reporting plain radiograhs..