metricas
covid
Radiología Lectura crítica de artículos observacionales
Información de la revista
Vol. 57. Núm. S2.
Lectura crítica 2
Páginas 1-9 (Noviembre 2015)
Visitas
1378
Vol. 57. Núm. S2.
Lectura crítica 2
Páginas 1-9 (Noviembre 2015)
ARTÍCULO ESPECIAL
Acceso a texto completo
Lectura crítica de artículos observacionales
Critical reading of analytical observational studies
Visitas
1378
C. García Villara, I. Marín Leónb,
Autor para correspondencia
ignacio.marin.sspa@juntadeandalucia.es

Autor para correspondencia.
a Unidad Clínica de Diagnóstico por Imagen, Hospital Universitario Puerta del Mar, Cádiz, España
b Medicina Interna, Hospital Universitario Virgen del Rocío, Sevilla, España. CIBERESP-IBIS, Fundación Enebro
Este artículo ha recibido
Información del artículo
Resumen
Texto completo
Bibliografía
Descargar PDF
Estadísticas
Tablas (4)
Tabla 1. Características de los principales estudios observacionales6
Tablas
Tabla 2. Sistemática de evaluación crítica del artículoa
Tablas
Tabla 3. Cálculo de la probabilidad en los estudios observacionales
Tablas
Tabla 4. Ejemplo de análisis del riesgo relativo y absoluto en estudio de cohorte27
Tablas
Mostrar másMostrar menos
Resumen

Los estudios observacionales analíticos aportan información muy relevante sobre la práctica clínica en la vida real, la historia natural de las enfermedades y la sospecha de causalidad. Además, son muy habituales en las revistas científicas.

El objetivo de este artículo es revisar los conceptos principales para una lectura crítica de los artículos con diseño observacional en radiología.

Se revisan las características exigibles a los artículos de buena calidad con diseño de casos y controles o estudios de cohortes.

Se sigue una metodología de lectura crítica mediante el chequeo de los atributos que hay que valorar en cada tipo de artículo, estructurado en un listado de preguntas específicas. Se resaltan las principales características que confieren credibilidad y confianza al artículo evaluado.

Se dota al lector de herramientas para el análisis crítico de los estudios observacionales publicados en revistas científicas.

Palabras clave:
Estudios observacionales
Cohortes
Casos y controles
Medicina basada en evidencia
Abstract

Analytical observational studies provide very important information about real-life clinical practice and the natural history of diseases and can suggest causality. Furthermore, they are very common in scientific journals.

The aim of this article is to review the main concepts necessary for the critical reading of articles about radiological studies with observational designs. It reviews the characteristics that case-control and cohort studies must have to ensure high quality. It explains a method of critical reading that involves checking the attributes that should be evaluated in each type of article using a structured list of specific questions. It underlines the main characteristics that confer credibility and confidence on the article evaluated. Readers are provided with tools for the critical analysis of the observational studies published in scientific journals.

Keywords:
Oservational studies
Cohorts
Case-control studies
Evidence-based medicine
Texto completo
Introducción

Los médicos nos preguntamos constantemente cuál sería la mejor opción diagnóstica o terapéutica para nuestros pacientes. Los estudios de investigación surgen de la necesidad de dar respuesta a tales preguntas. Aunque existen diferentes formas para aproximarnos a la solución de un mismo problema, a la hora de comenzar a diseñar un estudio de investigación debemos tener en cuenta qué tipo de pregunta nos planteamos para así elegir el diseño que nos aporte mayor nivel de evidencia1.

En ocasiones, por las características de la cuestión que se pretende contestar, es más adecuado escoger otro tipo de estudio diferente al ensayo clínico aleatorizado (ECA), como los observacionales, para obtener la mejor respuesta posible1. Por ello, un aspecto clave de la lectura crítica es conocer las características que deben tener los estudios observacionales analíticos, para así poder discernir si el estudio que se valora tiene el tipo de diseño adecuado para responder a la pregunta que se formula el investigador, y en caso afirmativo, valorar si se ejecutó con el suficiente rigor como para poder confiar en la respuesta que se da a esa pregunta que motivó el estudio2.

Antes de enfrentarnos a la lectura crítica de un estudio observacional, debemos tener claro varios conceptos: a) qué son, b) cuándo se debe escoger este tipo de diseño y c) cuáles son sus ventajas y debilidades, tal como se expone en el primer artículo de esta serie3. Las principales características de cada tipo de estudio observacional4,5 se resumen en la tabla 1.

Tabla 1.

Características de los principales estudios observacionales6

Diseño  Punto de partida  Evaluación  Puntos fuertes  Puntos débiles 
Cohorte  Estado respecto a exposición  Desenlace  Ideal cuando la aleatorización por la exposición no es posible  Predisposición a sesgosValidez limitada 
Casos y controles  Estado respecto a desenlace  Exposición sufrida  Evita retrasosPuede realizarse con muestras pequeñas  Predisposición a sesgosValidez limitada 
Transversal  La exposición y el desenlace ocurren de forma simultánea  Coincidencia de exposición y desenlace  Permite seleccionar con rapidez candidatos de factores de riesgo para formular hipótesis  Validez limitadaNo confirman ninguna relación 

Los estudios observacionales constituyen un tipo de diseño que permite además de construir hipótesis, confirmarlas con un buen nivel de evidencia6. Por ello, cada vez están cobrando más importancia en la investigación en radiología7, ya que se ha comprobado su utilidad para establecer las asociaciones entre los distintos factores clínicos (o factores de riesgo) y las enfermedades, o para elaborar los algoritmos diagnósticos que contribuyen al uso racional de las pruebas de imagen8,9. En este sentido, una de las actuaciones más evaluadas es la utilidad que tiene el cribado con mamografía sobre la mortalidad atribuible al cáncer de mama10.

Así, los estudios observacionales han constituido el diseño idóneo para establecer relaciones causales muy importantes a lo largo de la historia de la medicina. Por ejemplo, la asociación entre el tabaco y el cáncer, que se estableció gracias a un estudio de cohortes publicado en la década de 1950 por Hill y Doll11,12. Otro ejemplo es el estudio de casos y controles diseñado por los doctores Posada y Kilbourne13, que sirvió para confirmar la relación del síndrome del aceite tóxico con el consumo de aceite adulterado en la década de 1980.

Al igual que en otro tipo de diseño de estudios, también podemos encontrar instrumentos que nos ayuden a valorar si un estudio observacional analítico está bien descrito o tiene sesgos importantes que limiten su aplicación. Aquí debemos nombrar la iniciativa STROBE (Strengthening the Reporting of Observational Studies in Epidemiology)14, elaborada en 2004. Se trata de una lista pormenorizada de los requisitos que deben cumplir los principales estudios observacionales (cohortes, casos y controles, y estudios transversales), y que sirve de guía a los lectores y autores para valorar qué aspectos son relevantes en este tipo de estudios15.

Para la lectura crítica de los dos tipos principales de estudios observacionales analíticos: los estudios de casos y controles y los de cohortes, vamos a seguir la sistemática propuesta por el grupo de medicina basada en la evidencia de la Universidad Mc Master5, que consiste en ir cotejando si un artículo cumple el escrutinio de seis atributos organizados en dos grandes apartados, y presentados en formas de preguntas, recogidas en la tabla 2.

Tabla 2.

Sistemática de evaluación crítica del artículoa

¿Son los resultados válidos? 
¿Es la muestra de pacientes representativa?¿Se han seleccionado los casos y controles de forma adecuada? 
¿Las características basales de los grupos de la muestra son similares?¿Tuvieron los grupos de casos y controles la misma probabilidad (riesgo) de estar expuestos? ¿Son comparables los grupos en estudio? 
¿La evaluación de los factores es similar en los grupos de la muestra?¿Fue el seguimiento suficientemente completo? ¿La atribución de los riesgos y desenlaces se realiza de modo similar en los grupos de la muestra? ¿Los criterios para detectar desenlaces fueron objetivos y sin sesgos? 
 
¿Cuáles son los resultados? 
¿Cuál es la probabilidad del desenlace?¿Queda descartado que el resultado se podría haber dado por azar? 
¿Cómo de precisa es la estimación de la probabilidad?¿La magnitud del resultado y su rango son lo suficientemente resolutivos? 
 
¿Cómo se pueden aplicar los resultados a la asistencia? 
¿Los pacientes del estudio y la forma de atenderlos son similares a mis pacientes? 
¿Los desenlaces relevantes fueron tenidos en cuenta? 
¿En qué periodo de tiempo se contemplan los resultados descritos? 
¿Puedo utilizar los resultados en la atención a mis pacientes? 
a

Tomado de Randolph et al5.

Estudios de casos y controles

Como ya hemos visto, son estudios observacionales, analíticos, longitudinales y retrospectivos. En ellos se parte de un grupo de individuos que presentan el efecto o enfermedad de interés (CASOS) y otro grupo de personas libres de la enfermedad en cuestión (CONTROLES). Ambos grupos se estudian de forma retrospectiva, con respecto a una exposición previa, analizando los niveles de exposición en cada uno de ellos. Al comparar las tasas de la exposición previa en el grupo de los casos con la del grupo de los controles, se evalúa si la exposición al factor de riesgo tiene algún papel en la probabilidad de padecer la enfermedad.

Este enfoque es muy importante en diagnóstico por imagen, ya que identificando los distintos pacientes de riesgo para una determinada enfermedad permite seleccionar las técnicas de imagen adecuadas para detectar la enfermedad en los estadios precoces. Por ejemplo, se ha utilizado un estudio con diseño de caso y control, para evaluar la utilidad del cribado con mamografía en la disminución de la tasa de mortalidad atribuible a cáncer de mama9. Otro ejemplo lo tenemos en la identificación de los factores de riesgo asociados a fracturas vertebrales en accidentes de tráfico. ¿Qué paciente se beneficiaría de una tomografía computarizada (TC) y cuál de una radiografía convencional?16.

Lectura crítica de estudios de casos y controles

Al igual que en otros estudios, lo primero que debemos comprobar es que el diseño de casos y controles es el adecuado para responder a la pregunta que se formula el investigador (una enfermedad en busca de una causa, un diagnóstico en busca de una prueba).

Posteriormente, es necesario saber cuáles son las características, tanto en el diseño como en el análisis de resultados, para confiar en que las conclusiones del artículo son válidas, y por último si tales conclusiones son aplicables a nuestra práctica habitual.

A continuación, se detallan los aspectos clave a tener en cuenta en los estudios de casos y controles:

¿Son los resultados válidos?

Este es el segundo paso de la lectura crítica, si la percepción que se tiene es que por su diseño o ejecución los resultados que ofrece el estudio de casos y controles no son fiables, obvia tomarlo en consideración. Dada la gran oferta de estudios disponibles y el siempre restringido tiempo para leerlos, se recomienda no seguir leyendo el artículo. Su valoración se realiza en el apartado material y métodos, con los siguientes pasos.

¿Es la muestra de pacientes representativa?

La selección de casos y controles es uno de los puntos clave en el diseño de tales estudios. Una mala selección de los casos y/o de los controles compromete la validez de las conclusiones debido a un sesgo de selección.

Para responder si se han seleccionado los casos de forma adecuada lo primero es definir la población de la que se obtienen los casos (ya sea geográfica o temporalmente). Aunque todos los casos de una población pueden ser incluidos como participantes, por razones prácticas se selecciona una muestra. Por ello, debe exigirse que los criterios de selección de casos estén definidos de forma clara y precisa. Dicho de otra forma: ¿qué se entiende por enfermo en este estudio? Así, deben constar los criterios para definir la enfermedad que está siendo estudiada en términos clínicos (síntomas), resultados de laboratorio y estrategias diagnósticas empleadas para confirmarla17.

Los resultados también pueden verse afectados dependiendo de si los casos incluidos son incidentes o prevalentes. Para la fuerza estadística de «riesgo» es mejor que los seleccionados sean los casos incidentes (nuevos) que los prevalentes.

¿Se han seleccionado los controles de forma óptima? A este respecto se trata de detectar un sesgo de selección que pueda comprometer la capacidad de generalizar los hallazgos del estudio18.

Los controles deben ser representativos de la población definida de la que se obtiene los casos, y deben conseguirse de forma aleatorizada desde dicha población, ya que representan la población que tiene riesgo de convertirse en caso. Por ello, la selección de los controles debe ser independiente de la exposición que se está investigando19.

Si hubiera muchas personas que no aceptaron participar en el estudio (p. ej., no responden la encuesta que se les pasó), debe constar si estos «no respondedores» tienen alguna condición diferente al resto. Por ejemplo, si es más probable que rellene un cuestionario de hábito tabáquico una persona que no fuma que una que fuma.

Es importante saber si se ha seleccionado un número suficiente de controles y cuál es la proporción con respecto a los casos.

¿Las características basales de los grupos del estudio son similares respecto a los factores pronósticos?

Conocer si los grupos de casos y controles son similares en todas las características basales es lo que permite confiar en que son comparables respecto al riesgo en estudio.

El resultado final de evitar un sesgo de selección implica que los casos y los controles solo difieren en la enfermedad en cuestión. Los sesgos de selección posibles son los sesgos de Berkson y de Neyman20:

  • El sesgo de Berkson ocurre cuando el hecho de estar enfermo y haber estado expuesto al factor de riesgo en estudio aumenta la probabilidad de ser ingresado en un hospital, lo que da lugar a una tasa de exposición más elevada entre los casos hospitalarios, en comparación con los controles también hospitalarios. Por ejemplo, una salpingitis con un dispositivo intrauterino (DIU) es criterio de ingreso hospitalario, mientras que una salpingitis con anticoncepción hormonal no. ¿Qué ocurre aquí? Pues que si los casos son obtenidos en el hospital, muchas mujeres con salpingitis tendrán DIU, con el resultado de una alta proporción de pacientes expuestas que incrementará la odds ratio (OR)21.

  • El sesgo de Neyman se produce cuando transcurre un tiempo excesivo entre la exposición y la selección de participantes y no se incluye en el estudio aquellos casos mortales, transitorios o subclínicos, por lo que no se crea un grupo de casos representativo de la comunidad.

Otro tipo de sesgo que ocurre en los estudios de casos y controles es el de información, también conocido como de observación, clasificación o medida, por el que se determina de forma incorrecta la exposición, la enfermedad o ambas. Habitualmente, los casos recuerdan mejor los posibles factores de riesgo de la enfermedad que padecen que los controles (que olvidan algunas exposiciones porque no les dan importancia).

¿La evaluación de los factores (variables) es similar en los grupos de la muestra?

Para responder esta cuestión hay que valorar cómo fue recogida la exposición al posible factor de riesgo, así como comprobar que el tiempo contemplado es suficiente, que la atribución de los riesgos y desenlaces se realiza de modo similar en los grupos de la muestra, y que los criterios para detectar desenlaces fueron objetivos y sin sesgos.

La exposición debe estar claramente definida y debe medirse de forma precisa (en términos de tiempo, duración o cantidad). Para ello es mejor utilizar variables objetivas que subjetivas, los sistemas de medición deben estar validados (para reflejar de forma adecuada aquello que se suponen que tienen que medir) y tienen que ser similares tanto en los casos como en los controles.

También es importante que la relación temporal sea correcta. Es decir, la exposición de interés debe preceder al resultado o la variable de enfermedad.

Como se trata de resolver si los resultados pueden estar afectados por la presencia de otros factores (sexo, edad, tabaco, nivel económico, dieta, etc.) que pudieran estar asociados tanto con la exposición en estudio como con el desenlace (pero no directamente implicados en la causalidad), hay que preguntarse ¿qué factores de confusión se han tenido en cuenta?

Controlar algunas influencias que pueden llevarnos a detectar asociación entre la exposición y el desenlace, aun cuando no haya relación causal del efecto de la exposición, es uno de los principales retos de los estudios observacionales. Pero aunque se realice un ajuste por los factores de confusión, debe tenerse en cuenta siempre que los resultados detectados pueden estar influidos por otros factores de riesgo que se desconozcan o no se hayan medido.

En los estudios observacionales que miden desenlaces beneficiosos (protección/efectividad) o adversos (riesgo/daño), la confusión puede deberse a la presencia de comorbilidades, que difieren con la exposición y que complican el método epidemiológico cuando hay numerosas covariables que controlar. Las opciones de diseño, como la restricción o el emparejamiento, pueden hacerse inviables cuando hay excesivas variables.

Hay tres vías para abordar los confundentes: por el diseño del estudio (incluye restricción y emparejamiento), por el análisis (estratificación, regresión y ponderación) o por ambas vías22. Veamos las opciones, en el supuesto de un estudio de casos y controles, de relación entre la exposición a cribado seriado mediante mamografía y la supervivencia de las mujeres.

Control de factores de confusión en el diseño del estudio:

  • Restricción: se trata de evitar en la muestra aquellas personas que pueden ser poco representativas de la variable de interés (como las que hayan realizado menos de una exploración en un determinado periodo de tiempo) que no representan ni a las que se realizan la mamografía sistemáticamente ni a las que no. La restricción para comparar subgrupos de población que cumplan numerosas condiciones conduce a disponer de grupos cada vez más pequeños, con la consiguiente pérdida de capacidad para hacer comparaciones y generalizar los resultados.

  • Emparejamiento: se trata de que por cada persona que se incluye en el estudio expuesta a la variable de interés y con una posible variable confundente, se incluye otra con dicha variable, pero no expuesta a la de interés. La ratio de emparejamiento puede ir de 1:1 a 1:4. El emparejamiento puede utilizarse junto a la estratificación para examinar la heterogeneidad del efecto y medir potenciales modificadores del efecto (pronóstico vital más elevado cuanto más delgada sea la persona que accede a la mamografía, por ejemplo). Entre las ventajas del emparejamiento se encuentra la transparencia si se describen explícitamente las características de la muestra, como en una «tabla 1» de los ensayos clínicos. Por su parte, el emparejamiento para muchas características conduce a agrandar la muestra, lo que lleva a que detectar la exposición y los desenlaces entre todas las categorías de emparejamiento se haga más difícil.

Control de los factores de confusión en el análisis23:

  • Estratificación: se trata de que la muestra que está expuesta y la que no lo está puedan ser divididas en subgrupos de acuerdo con los niveles de otra covariable (p. ej., volumen de senos). Al valorar la asociación entre la exposición a mamografía y el riesgo de desenlace dentro de cada subgrupo con nivel similar de la covariable, esta queda controlada para producir confusión, ya que las comparaciones de la variable principal de exposición (mamografía) se están realizando entre valores similares (estratos) de la covariable. La estratificación solo puede realizarse con muy pocas covariables, pues de otro modo se reduce excesivamente el tamaño de los subgrupos y la probabilidad del evento en estudio, y con ello la precisión del estimador del efecto en estudio20.

  • Modelización: cuando se realiza un análisis multivariante con todas la covariables que pueden influir en la relación entre la variable explicativa (exposición a cribado seriado mediante mamografía) y el desenlace de interés (supervivencia), para ajustar por todas ellas. La clave es facilitar la interpretación, pues dadas las asunciones que se realizan en el modelo, puede haber poca transparencia para explicar el efecto de las covariables. La combinación de la estratificación y emparejamiento con la modelización facilitan su desarrollo, pues ayudan a retirar variables del modelo, como las que están emparejadas, así como las que no confirman diferencia de efecto en sus estratos, aparte de facilitar la interpretación de resultados, según los hallazgos del análisis estratificado.

  • Ponderación: cuando se discrimina habitualmente en el nivel de exposición. Es una forma de medir los modificadores del efecto (p. ej., entre las personas que realizan toda la serie de cribado a lo largo de su vida y las que solo lo hacen unas pocas veces). Una primera ventaja es que todos los miembros de la muestra pueden ser utilizados en el análisis, pues se tienen en cuenta con la ponderación del cumplimiento insuficiente de las condiciones de exposición. Una desventaja es la pérdida de transparencia debida a la decisión de los puntos de corte de la ponderación, que junto a la falta de familiaridad con el proceso puede conducir a malinterpretar la población estándar y a sacar inferencias incorrectas.

¿Cuáles son los resultados del estudio?

Este aspecto de los artículos en evaluación se valoran en el apartado del análisis, y solo hay que considerarlo cuando la percepción que se tenga del estudio es que los resultados pueden ser válidos tras la evaluación realizada en los pasos precedentes.

¿Cuál es la probabilidad del desenlace?

En los estudios de casos y controles, los resultados se miden mediante una OR, que es una medida de asociación entre la exposición y el desenlace. Representa la probabilidad de que ocurra una enfermedad tras una determinada exposición, comparada con la probabilidad de que la enfermedad aparezca en ausencia de dicha exposición24.

Los resultados se presentan utilizando una tabla de contingencia como la tabla 3. La interpretación es similar al riesgo relativo (RR) (que se verá más adelante). Cuanto mayor sea la OR, mayor será la fuerza de asociación entre el factor de riesgo y el evento estudiado. Así, una OR>1 significa que la exposición al factor de riesgo aumenta la probabilidad de padecer la enfermedad, y se lee, por ejemplo, una OR=4, cómo es cuatro veces más probable padecer la enfermedad que en los no expuestos; la OR<1 significa que la exposición hace disminuir la probabilidad de padecer la enfermedad (factor protector); en nuestro ejemplo sería que la exposición a mamografías seriadas aumenta la probabilidad de que las mujeres esten vivas a los 80 años de vida. Por último, una OR=1 significa que no existe ninguna asociación entre la enfermedad y la exposición estudiada.

Tabla 3.

Cálculo de la probabilidad en los estudios observacionales

Exposición  Efecto+(casos)  Efecto–(controles)  Totales 
Sí (cohorte expuesta)  a+
No (cohorte no expuesta)  c+
Total  a+b+a+b+c+
  Razón de expuestos entre los casos=a/c  Razón de expuestos entre los controles=b/d   

Odds ratio en estudios de casos y controles (lectura en vertical de la tabla)

OR=(a/c)/(b/d)=ad/bc

Riesgo relativo en estudios de cohortes (lectura en horizontal de la tabla)

RR=(a/a+b)/(c/c+d)

¿Cómo de precisa es la estimación de la probabilidad?

Para valorar la precisión de la OR, se deben utilizar los intervalos de confianza (IC). Un IC amplio indica una precisión baja, mientras que uno estrecho indica una alta precisión. En la práctica, se utilizan IC ajustados al 95%, que indica que hay un 95% de probabilidad de que los resultados reales estén dentro de dicho intervalo. Dado que una OR de 1 no reporta ningún tipo de asociación, los IC que incluyan al 1 no se consideran estadísticamente significativos14.

El lector del artículo comprobará si una vez calculada la OR, los autores ajustaron los resultados a los posibles factores de confusión, y ver si con ello se ha modificado de forma importante la OR.

Estudios de cohortes

Como se ha comentado en otro artículo de esta serie3, los estudios observacionales de tipo cohorte se definen por el seguimiento a lo largo del tiempo de un grupo concreto de sujetos (cohorte), para observar la ocurrencia de unos desenlaces predeterminados que se relacionan con características de los sujetos o de una exposición y que se denominan factores de riesgo4. Son especialmente útiles cuando el desenlace que se estudia es un daño o la incidencia de desenlaces es baja, que haría inviable un ECA, bien por razones éticas o de factibilidad23. También para conocer efectos en la vida real (uso rutinario y en grandes poblaciones) de una intervención diagnóstica o terapéutica (previamente avalada por un ECA)20,22. Sus ventajas e inconvenientes se recogen en la tabla 15.

Por ejemplo, en la cohorte del Multicenter Osteoarthritis Study25 se estudia en 587 pacientes, mediante resonancia magnética (RM), la relación de la existencia de lesión grave en el cartílago de la rodilla, con el desprendimiento o no de la raíz del menisco. Encuentran que el daño en el cartílago es mayor cuando hay desprendimiento de la raíz meniscal (76,7% frente a 19,7%, p<0,0001). Dicho estudio de cohorte trata de evaluar la asociación entre una «exposición» detectada por RM (rotura de raíz del menisco) y un desenlace (las lesiones graves del cartílago).

Lectura crítica de los estudios de cohortes

Tras comprobarse que el diseño de cohortes es el adecuado para responder a la hipótesis en estudio, hay que evaluar la validez del estudio siguiendo la sistemática recogida en la tabla 25.

¿Son los resultados válidos?

Se trata de valorar el diseño y ejecución del estudio, que si se han realizado correctamente apoyarán la fiabilidad de los resultados del estudio.

¿Es la muestra de pacientes representativa?

La cohorte seleccionada ha de ser representativa de una población en la que se hayan utilizado criterios explícitos y razonados de inclusión y exclusión. Ha de tenerse en cuenta que el grado de selectividad aplicado afecta a las inferencias que se hagan sobre la población de la que se tomó la muestra, es decir, si los resultados son generalizables a las realidades de los lectores del artículo14.

Al no haber aleatorización, los estudios de cohortes están abiertos a sesgos y se asume que los grupos no son comparables, de ahí la utilidad del emparejamiento, en el que deben quedar definidos los criterios de comparación y el número en cada grupo22. No hay sesgo de selección cuando los participantes en los grupos expuestos y no expuestos son similares en todos los aspectos importantes, excepto en la exposición en estudio. Si el grupo no expuesto tiene un riesgo basal de padecer el desenlace mayor que el grupo expuesto, la diferencia de desenlaces entre ambos grupos será inferior a la real, y este sesgo provocará una infraestimación del efecto de la exposición, y viceversa14.

Cuando se detecta un sesgo de selección, los autores lo han podido contrarrestar ajustando en el análisis por grados de riesgo basal.

¿Las características basales de los grupos de la muestra son similares?

La distribución de valores de las variables en los grupos expuestos y no expuestos de la cohorte debe ser similar en caso de que no haya sesgos. Dichos valores se aprecian de modo resumido en la «tabla 1» del estudio, en la que también debe constar el tiempo de seguimiento y los rangos de valores. De este modo se puede comprobar la comparabilidad (p. ej., la edad) respecto al nivel de riesgo basal. Cuando el artículo presente grupos que no están equilibrados en dichas variables, hay que evaluar si en el análisis han utilizado técnicas estadísticas para ajustar por las diferencias observadas22.

Este es un aspecto clave de la fiabilidad de los estudios de cohortes, ya que la principal debilidad de tales estudios es que las cohortes de expuesto/no expuesto partan desde el inicio de un riesgo distinto de presentar el desenlace, lo cual hará que la atribución del desenlace a la exposición quede sesgada, con relaciones espurias (confusión)20.

¿La evaluación de los factores es similar en los grupos de la cohorte?

La sistemática y operativa para la medición de las variables de exposición y de desenlaces han de estar claramente especificadas, detallando cuáles pueden considerarse confundentes. Se trata de evaluar si la ejecución del estudio está correctamente realizada, es decir que se captura con precisión la cohorte que está expuesta al riesgo (o tratamiento) y la que no, del mismo modo que la medición de los desenlaces está realizada con razonable sensibilidad y especificidad, y del mismo modo en los grupos en comparación23.

Los sesgos principales que se detectan en las cohortes en esta fase son de dos tipos14:

  • Sesgo de procedimiento. Cuando no se ha procedido del mismo modo con ambos grupos a lo largo del estudio. Imaginemos que al grupo de expuestos se le sigue en persona, mientras que a los no expuestos se les sigue mediante datos administrativos. Puede no conocerse si el sesgo afecta aumentando o disminuyendo el efecto detectado.

  • Sesgo de información. Cuando la información no se recoge del mismo modo en los expuestos y no expuestos. Si se busca más concienzudamente el desenlace en un grupo que en otro, en ese se sesgarán hacia arriba los desenlaces encontrados, o si las pérdidas de seguimiento no son similares en ambos grupos.

¿Cuál es el resultado?

Una vez que por el diseño y ejecución del estudio se consideran los resultados fiables, el siguiente paso de lectura crítica es valorarlos en el análisis mostrado en el artículo.

¿Cuál es la probabilidad de que se dé el desenlace en la cohorte?

La estimación de la probabilidad de relación entre la exposición y el desenlace en los estudios de cohorte es el RR, que es la proporción entre las tasas de desenlaces entre expuestos y no expuestos: así, el RR de presentar el desenlace (D) es: (D+/Expuestos)/(D+/No expuestos).

Como se aprecia en la tabla de resultados (tabla 3), en los estudios de cohortes, a diferencia de los estudios de casos y controles, los cálculos de la fuerza de la relación (probabilidad) entre la exposición y el desenlace se realizan en lectura horizontal. Los resultados se presentan mediante una proporción: RR de presentar el desenlace entre los sujetos expuestos frente a los no expuestos al factor de riesgo, en un determinado tiempo.

En el ejemplo25 resumido en la tabla 4, si entre las 515 rodillas a las que se practicó una RM hay 139 con cartílago dañado, entre los 270 que presentan desprendimiento de la raíz del menisco (139/270=51,5%), mientras que entre las 245 sin afectación de la raíz hay 60 con daño del cartílago (60/245=24,5%) el resultado del RR es 2,1 (51,5%/24,5%). Se interpreta que los individuos expuestos al factor de riesgo (desprendimiento de la raíz del menisco en la RM) tienen 2,1 veces más probabilidad de presentar el desenlace en estudio (daño en el cartílago) que los no expuestos a dicho factor. Cuanto mayor es el efecto detectado, más debe convencerle al clínico, ya que menor es la posibilidad de que ese resultado este falseado por sesgos22.

Tabla 4.

Ejemplo de análisis del riesgo relativo y absoluto en estudio de cohorte27

Estimador efecto  Afectación de la raíz (n=270)Sin afectación de la raíz (n=245)
  Cartílago dañado  Cartílago no afectado  Cartílago dañado  Cartílago no afectado 
  139  131  60  185 
Tasa de riesgo  139/270=51,5%60/245=24,5%
Riesgo relativo  51,2/24,5=2,10 (IC 95%: 1,55, 2,85) El riesgo es doble en la muestra con afectación de la raíz
Aumento absoluto del riesgo  51,5%–24,5%=27%. Esta es la diferencia absoluta de riesgo de lesión de cartílago, según afectación de la raíz
Aumento relativo del riesgo  (1–RR)×100%=(1–2,1)×100=110% de aumento relativo del riesgo
¿Cómo de precisa es la estimación de la probabilidad?

El lector desea saber si ese RR es suficientemente elevado como para convencerse de la relación en estudio. Ello conlleva dos pasos, el primero es constatar que el resultado es distinto entre los dos grupos en comparación, es decir que el RR es mayor de 1, y además el rango del IC está siempre por encima o por debajo de 1 (si se trata de menor riesgo). El segundo paso es saber si dicho resultado es lo suficientemente convincente; para ello se precisa la certeza de que los sesgos no modificarían el resultado. Por ello, algunos autores proponen mantener dudas ante todo RR que sea menor de 3, dada la vulnerabilidad a sesgos de los estudios observacionales5.

En el ejemplo de la tabla 4, el aumento del 27% del riesgo absoluto es una estimación puntual que no tiene por qué ser la verdad, aunque si el estudio está bien ejecutado, el valor real debe estar próximo a dicho valor. La forma de definir esa vecindad de valor es mediante el IC, que son los límites entre los que se mueve el valor real. Donde su límite es menor indica que ese podría ser el verdadero estimador en su menor valor del riesgo, y el límite mayor refleja que ese podría ser el valor máximo verdadero del riesgo, es decir que el valor verdadero de la estimación se mueve entre los dos extremos del IC14.

El IC tiene una propiedad que se aproxima al concepto convencional de la significación estadística del valor de la p>0,05. Cuando el IC contiene el 1, el estimador indica que no hay diferencia entre los dos grupos, y por tanto, la estimación detectada puede deberse al azar y no por efecto de la variable de exposición en estudio. Cuando no se aprecia un riesgo, el límite mayor del IC refleja cuán alto podría ser el riesgo, a pesar de no poder demostrar una asociación significativa24.

Toda la información y utilidad que aportan los IC no la contiene p26. Por convención, los estadísticos han definido el valor de p en menos de 0,05 como estadísticamente significativo, es decir que en menos de 5 de cada 100 veces que se haga la medición del efecto se produciría dicho resultado por azar. Cuanto menor es el valor de p, menor es la probabilidad de que el resultado obtenido se deba al azar (p<0,001, 1 de cada 1000 veces que se repita el estudio, este resultado sería por azar). Pero ello no se basa más que en una convención, su «significación» de desigualdad en menos de 0,05. Los IC aportan la misma significación y además dan una idea del tamaño del efecto y de la precisión, son más informativos20.

Una vez que el lector dispone del resultado que considera preciso (IC estrecho y sin incluir el 1), convincente (efecto elevado) y sobre sujetos similares a sus pacientes y con desenlaces clínicamente relevantes, debe entender los resultados muy claramente para saber cómo utilizarlo en su práctica clínica. Las medidas de RR (como la OR o el RR) no ayudan mucho a calibrar el impacto sobre la práctica; por el contrario, al reformular los resultados en términos absolutos es más intuitivo de comprender. Para eso es clave que el lector convierta los RR en riesgos absolutos para un periodo relevante, si no los proporciona directamente el artículo en evaluación, y con ello poder calcular los NNT (número necesario a tratar)24.

En el ejemplo de la tabla 4 se puede mirar el mismo resultado como un 110% de aumento relativo del riesgo de lesión del cartílago, frente al 27% de aumento absoluto del riesgo. Es decir, que de cada 100 pacientes con afectación del menisco, se encontrarán 27 más pacientes con lesión del cartílago en los que se desprende la raíz del menisco que en los que no lo hace. Dicho de otra manera, que por cada 4 pacientes con afectación del menisco se encontrará en la RM uno más con lesión del cartílago entre los que tienen desprendimiento de la raíz meniscal, que en los que no la tengan. Es el NNT en el caso del ejemplo (NNT: 1/27=0,037×100=4). Como se ve, con esta lectura del resultado, el lector se queda con una conclusión de lo que aporta el resultado mucho más aplicable a su práctica cotidiana.

¿Cómo se pueden aplicar los resultados a la asistencia?

La interpretación de los resultados, tanto para los artículos de casos y controles como de cohortes, exige una consideración crítica por parte del lector. Ha de discernir, en primer lugar, si los pacientes del estudio son similares a los que él atiende, y si los resultados son aplicables a desenlaces relevantes, o por el contrario son clínicamente banales.

Ello tiene que ver con el análisis de los sesgos en que haya incurrido el artículo en estudio.

Las conclusiones de una asociación estadística válida, es decir los resultados de un estudio epidemiológico analítico diseñado para testar una hipótesis, tienen tres posibles explicaciones plausibles, además de que realmente exista la asociación detectada5:

  • Por azar.

  • Por sesgos o errores sistemáticos: dada la forma en la que los individuos fueron seleccionados u observados.

  • Por confusión o asociación de las variables con la exposición y los factores de riesgo independientes para el desenlace.

Las tres alternativas deben ser valoradas con rigor en un estudio observacional analítico, antes de concluir que hay una asociación estadísticamente válida.

Los sesgos de selección e información han debido ser evitados, mejorando la consistencia de las observaciones, por ejemplo con entrenamiento de los observadores. La cuestión de los datos ausentes puede influir en la estimación del efecto, que según las causas de la pérdida de datos puede sesgar notablemente las conclusiones de los estudios. Imaginemos que los datos que faltan son los de las personas mayores; por muy significativo que sea el resultado, se desconoce si también afectan a dicho grupo de edad. Para los clínicos que asisten fundamentalmente a personas de elevada edad, las conclusiones del artículo solo podrán ser aplicadas con notable incertidumbre. En este sentido debe exigirse a los artículos que aporten análisis de sensibilidad, mediante los que se contrastan los resultados obtenidos bajo las distintas asunciones y características de la muestra. Lo mismo puede decirse del análisis de subgrupos que evalúan la consistencia de los resultados: ¿es la relación entre exposición y desenlace encontrada similar, o en la misma dirección, en mayores o menores de 75 años?27. Si las características de los pacientes o de la práctica asistencial que describe el artículo son muy distintas a la del lector, difícilmente se podrá considerar relevante para este.

El siguiente aspecto de la aplicabilidad es saber cuál es la dimensión esperable del efecto en el contexto del lector.

Respecto a la relevancia de los desenlaces medidos, debe escrutarse con especial cuidado cuando se presentan desenlaces compuestos. Imaginemos un estudio de cribado de cáncer de mama donde se evalúa la utilidad de la mamografía para un desenlace compuesto de dos elementos, «supervivencia» y «adelanto en el diagnóstico», y que arroja un resultado en el que la mamografía es significativamente beneficiosa para tal desenlace. Si ese resultado tiene una significación distinta para sus dos elementos, de modo que la significación conjunta la aporta la magnitud del desenlace «adelanto en el diagnóstico» y no la «supervivencia», el clínico lector se queda con dudas justificadas para aplicar tal estudio a su práctica, si lo que pretende es mejorar la supervivencia de sus pacientes.

Mención especial requiere la relación de causalidad, pues una asociación estadística no es evidencia de causalidad. La causalidad es un juicio que se elabora a partir de una indudable evidencia, tal como se comenta en el artículo sobre aplicabilidad de resultados. Los criterios que conjuntamente apoyan un juicio positivo de causalidad incluyen fuerza de la asociación, plausibilidad biológica, consistencia, relación temporal y relación dosis-respuesta28.

Conclusión

La breve revisión que se ha presentado permite resumir que los estudios observacionales analíticos, de casos y controles o estudios de cohortes son una aproximación investigadora que aporta al lector gran información de experiencia empírica, y en ocasiones son la mejor fuente de evidencia disponible para las relaciones de causalidad o la observación de efectos adversos en la vida real, para los que los ECA o no son éticamente aceptables o tienen notables limitaciones. Su desarrollo e interpretación están sujetos a unos principios metodológicos rigurosos, que de seguirse son los que garantizan la validez y utilidad de estos.

Responsabilidades éticasProtección de personas y animales

Los autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.

Confidencialidad de los datos

Los autores declaran que en este artículo no aparecen datos de pacientes.

Derecho a la privacidad y consentimiento informado

Los autores declaran que en este artículo no aparecen datos de pacientes.

Conflicto de intereses

Los autores declaran no tener ningún conflicto de intereses.

Bibliografía
[1]
Oxford Centre for Evidence-Based Medicine Web site. Explanation of the 2011 Oxford Centre for Evidence-Based Medicine Levels of Evidence (Background Document) [acceso 24 de febrero de 2015]. Disponible en: http://www.cebm.net/index.aspx?o=5653.
[2]
J. Eng, S.S. Siegelman.
Improving radiology research methods: what is being asked and who is being studied.
Radiology., 205 (1997), pp. 651-655
[3]
C. García Villar.
Introducción a la lectura crítica de artículos: diseño de estudios y sesgos.
Radiología., 57 (2015),
[4]
J.R. Ricoy, M. Carrasco, L.E. Clavería.
Educación médica e investigación.
Med Clin (Barc)., 112 (1999), pp. 259-263
[5]
A. Randolph, H. Bucher, W.S. Richardson, G. Wells, P. Tugwell, G. Guyatt.
Prognosis.
Users’ guides to the medical literature. A manual for evidence-based clinical practice,
[6]
C.H. Hennekens, D. DeMets.
Statistical association and causation contributions of different types of evidence.
JAMA., 305 (2011), pp. 1134-1135
[7]
C.C. Blackmore.
The challenge of clinical radiology research.
[8]
J.R. Thornbury, W. Eugene.
Caldwell lecture. Clinical efficacy of diagnostic imaging: love it or leave it.
AJR Am J Roentgenol., 162 (1994), pp. 1-8
[9]
C.C. Blackmore, P. Cummings.
Observational studies in radiology.
AJR Am J Roentgenol., 183 (2004), pp. 1203-1208
[10]
S.M. Moss, M.E. Summerley, B.T. Thomas, R. Ellman, J.O. Chamberlain.
A case-control evaluation of the effect of breast cancer screening in the United Kingdom trial of early detection of breast cancer.
J Epidemiol Community Health., 46 (1992), pp. 362-364
[11]
R. Doll, A. Bradford-Hill.
Smoking and carcinoma of the lung.
Br Med J., 2 (1950), pp. 739-748
[12]
R. Doll, R. Peto, K. Wheatley, R. Gray, I. Sutherland.
Mortality in relation to smoking: 40 years’ observations on male British doctors.
BMJ., 309 (1994), pp. 901-911
[13]
M. Posada, M. Castro, E.M. Kilbourne, F. Díaz de Rojas, I. Abaitua, J.M. Tabuenca, et al.
Toxic-oil syndrome: case reports associated with the ITH oil refinery in Sevilla.
Food Chem Toxicol., 25 (1987), pp. 87-90
[14]
STROBE statement sitio web [acceso el 3 de noviembre de 2014]. Disponible en: http://www.strobe-statement.org/.
[15]
E. Von Elm, D.G. Altman, M. Egger, S.J. Pocock, P.C. Gotzsche, J.P. Vandebroucke.
The Strengthening the reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies.
J Clin Epidemiol., 61 (2008), pp. 344-349
[16]
C.C. Blackmore, S.S. Emerson, F.A. Mann, T.D. Koepsell.
Cervical spine imaging in patients with trauma: determination of fracture risk to optimize use.
[17]
K.F. Schulz, D.A. Grimes.
Case-control studies: research in reverse.
Lancet., 359 (2002), pp. 431-434
[18]
J.B. Cabello.
Plantilla para ayudarte a entender un estudio de casos-controles. En: Guías CASPe de Lectura Crítica de la literatura médica.
CASPe, (2005), pp. 26-29
[19]
D.A. Grimes, K.F. Schulz.
Compared to what? Finding controls for case-control studies.
Lancet., 365 (2005), pp. 1429-1433
[20]
D.A. Grimes, Schulz K.F. Bias.
causal associations in observational research.
Lancet., 359 (2002), pp. 248-252
[21]
R.A. Kronmal, C.W. Whitney, S.D. Mumford.
The intrauterine device and pelvic inflammatory disease: the Women's health study reanalyzed.
J Clin Epidemiol., 44 (1991), pp. 109-122
[22]
Hulley SB, Cummings SR, Browner WS, Grady D, Hearst N, Newman TB. Designing Clinical Research. [acceso el 3 de noviembre de 2014]. Disponible en: http://www.equator-network.org/wp-content/uploads/2014/10/Introduction-to-study-design-Doug-Altman.pdf.
[23]
D.A. Grimes, K.F. Schulz.
Cohort studies: matching towards outcomes.
Lancet., 359 (2002), pp. 341-345
[24]
D.L. Sackett, W.S. Richardson, W. Rosenberg, R.B. Haynes.
Medicina basada en la evidencia.
Churchill Livingstone, (1997),
[25]
A. Guermazi, D. Hayashi, M. Jarraya, F.W. Roemer, Y. Zhang, J. Niu, et al.
Medial posterior meniscal root tear and medial tibiofemoral cartilage damage.
Radiology., 268 (2013), pp. 814-821
[26]
R. Nuzzo.
Statistical errors.
Nature., 506 (2014), pp. 150-152
[27]
F. Torres, C. Pontes.
Datos ausentes: orden de búsqueda y captura.
Med Clin (Barc)., 141 (2013), pp. 297-299
[28]
A.B. Hill.
The environment and disease: association or causation.
Proc R Soc Med., 58 (1965), pp. 295-300
Copyright © 2014. SERAM
Descargar PDF