x

¿Aún no está registrado?

Cree su cuenta. Regístrese en Elsevier y obtendrá: información relevante, máxima actualización y promociones exclusivas.

Registrarme ahora
Ayuda - - Regístrese - Teléfono 902 888 740
Buscar en

FI 2016

1,125
© Thomson Reuters, Journal Citation Reports, 2016

Indexada en:

Current Contents/Clinical Medicine, Journal Citation Reports, SCI-Expanded, Index Medicus/Medline, Excerpta Medica/EMBASE, IBECS, IME, MEDES, PASCAL, SCOPUS, ScienceDirect

Métricas

  • Factor de Impacto: 1,125(2016)
  • 5-años Factor de Impacto: 1,292
  • SCImago Journal Rank (SJR):0,221
  • Source Normalized Impact per Paper (SNIP):0,385

© Thomson Reuters, Journal Citation Reports, 2016

Med Clin 2002;118:382-4
El intervalo de confianza: algo más que un valor de significación estadística
Confidence intervals: something more than a statistical significance test
Josep M Argimona
a Regi?? Sanit??ria Costa de Ponent. Servei Catal?? de la Salut. L'Hospitalet de Llobregat. Barcelona.

En la década de los ochenta, algunos autores1,2 auspiciaron cambios en la presentación de los resultados de los estudios de investigación al recomendar la publicación de los intervalos de confianza (IC) junto con, o en sustitución de, los valores de significación estadística.

Cuando se compara la eficacia de dos intervenciones, una prueba de significación estadística calcula la probabilidad de que los resultados observados entre grupos puedan ser debidos al azar, en el supuesto de que ambas intervenciones fueran igual de eficaces, es decir, que la hipótesis nula sea cierta. Esta probabilidad es el grado de significación estadística y se representa con la letra p. Generalmente se adopta el valor p = 0,05 como punto de corte por debajo del cual se considera que se dispone de suficientes evidencias para rechazar la hipótesis de igualdad entre ambas intervenciones y concluir que el resultado es estadísticamente significativo. Si el valor es superior a 0,05, se considera que la probabilidad de que los resultados obtenidos sean debidos al azar es demasiado elevada y se concluye que no son estadísticamente significativos. No se concluye que ambas intervenciones son igual de eficaces, sino que no hay suficientes pruebas para afirmar que son diferentes3.

El valor de significación estadística no mide la magnitud o relevancia de la diferencia o asociación entre los grupos de sujetos que reciben las diferentes intervenciones4. Se pueden obtener valores muy pequeños de p estudiando un número elevado de sujetos. Por el contrario, el IC, además de dar respuesta a la cuestión de si los resultados son estadísticamente significativos, tiene la ventaja de expresar los resultados en las unidades en que se han realizado las mediciones, lo que facilita su interpretación en términos de magnitud y relevancia clínica. El IC permite conocer entre qué límites es probable que se encuentre la verdadera diferencia o asociación. Los límites inferior y superior se corresponden, respectivamente, con la mínima y máxima diferencia o asociación compatible con los datos, y dan una idea de la precisión con que se ha efectuado la estimación.

Sin embargo, es frecuente que los investigadores interpreten los IC simplemente como un valor de significación estadística, sin tener en cuenta la relevancia clínica del resultado. Así, cuando se utiliza como medida del efecto la diferencia de eficacia entre las intervenciones, si el IC incluye el valor 0, que es el valor correspondiente a la hipótesis nula de que no hay diferencia entre ambos grupos, se concluye que el resultado no es estadísticamente significativo, mientras que si lo excluye se concluye que la diferencia es estadísticamente significativa. Cuando el interés no se centra en una diferencia absoluta, sino en una medida relativa del tipo riesgo relativo u odds ratio, la hipótesis nula de igualdad entre los grupos que se contrasta es la misma, pero al expresarse como un cociente corresponde al valor 1. Por tanto, un riesgo relativo indica un aumento estadísticamente significativo del riesgo cuando su IC del 95% excluye el valor 1. Esta conclusión no tiene en cuenta ni la magnitud ni la relevancia clínica de la diferencia.

Uso de los intervalos de confianza en la interpretación de resultados

Tanto si un resultado es estadísticamente significativo como si no lo es, ¿cómo podemos concluir que es clínicamente relevante? Al diseñar un estudio los investigadores establecen la magnitud mínima de la diferencia o asociación que consideran de relevancia clínica, y de acuerdo con ella calculan el tamaño de la muestra necesaria. El valor de esta diferencia o asociación mínima que se desea detectar se fija dependiendo de muchos factores, como la seguridad de la intervención que se está evaluando, la facilidad de administrarla o su coste, por ejemplo5.

Al finalizar el estudio, la interpretación del resultado observado y de su IC debe tener en cuenta esta magnitud. Se ha de determinar si el IC incluye o excluye el valor de la mínima diferencia de relevancia clínica para evaluar si el estudio es concluyente acerca de la existencia de una diferencia clínicamente importante6.

Si el valor del límite inferior de un IC es mayor que la diferencia considerada clínicamente relevante, el estudio será concluyente y estadísticamente significativo, mientras que si el IC incluye el valor considerado clínicamente relevante, el resultado no es concluyente, con independencia del valor de significación estadística, y se necesitan estudios con una muestra mayor y también mayor potencia estadística7.

Supongamos un estudio que compara la eficacia de un tratamiento activo con la de un placebo y utiliza como medida de resultado la diferencia en el porcentaje de curación. Los investigadores establecieron, al diseñar el estudio, que la diferencia mínima que consideraban de relevancia clínica es del 20% favorable al tratamiento activo. En la figura 1 se sintetizan 5 posibles resultados hipotéticos con su correspondiente IC y las conclusiones que se pueden extraer6.

Fig. 1. Resultados hipotéticos de un estudio que compara un tratamiento activo frente a un placebo y utiliza como medidas del efecto la diferencia entre los porcentajes de curación observados. Los investigadores consideran que la mínima diferencia de relevancia clínica es del 20%. H0: hipótesis nula; RC: diferencia de relevancia clínica; NS: estadísticamente no significativo (p > 0,05); ES: estadísticamente significativo (p < 0,05).

Imaginemos que después de analizar los datos se obtiene una diferencia del 20% (IC del 95%, +10 a +30%) (fig. 1, situación A). Aunque la diferencia es del 20%, y además estadísticamente significativa, el resultado no puede considerarse concluyente, ya que el límite inferior del IC está por debajo de este valor, lo que implica que la verdadera diferencia podría ser menor que el valor de relevancia clínica establecido por los investigadores antes de iniciar el estudio. Sólo cuando el límite inferior del IC se sitúe por encima del 20% el resultado se puede considerar clínicamente relevante (fig. 1, situación B).

Igualmente, si el valor del límite superior del IC está por debajo del valor fijado por los investigadores como clínicamente relevante, el resultado del estudio es concluyente. Imaginemos ahora que el resultado observado en el estudio presentado en el párrafo anterior es una diferencia en el porcentaje de curaciones del 10% favorable al tratamiento activo (IC del 95%, +5 a +15%) (fig. 1, situación C). Dado que el valor del límite superior del IC está por debajo del fijado como clínicamente relevante, el estudio es concluyente en el sentido de no otorgar relevancia clínica al resultado, aunque la diferencia sea estadísticamente significativa ya que el IC excluye el valor 0. En cambio, si el resultado hubiera sido igualmente del 10% pero con un IC mucho más amplio, por ejemplo desde el ­5 al +25% (fig. 1, situación D), la diferencia no sería estadísticamente significativa ya que el valor 0 está entre los probables, pero el resultado sería poco concluyente porque no permite descartar que la diferencia sea clínicamente relevante, puesto que el valor 20% también está dentro del IC y es una diferencia probable.

No todos los valores dentro de un IC son igualmente probables. Cuanto más se aleja un valor de la estimación puntual, menor será la probabilidad de que sea el verdadero valor de la diferencia o asociación. Por consiguiente, un IC no debe interpretarse mecánicamente en función de si contiene o no el valor considerado de relevancia clínica, sino de lo probable o improbable de que se produzca este resultado. Si en el ejemplo hipotético obtenemos una diferencia del 25% con un IC del 95% que va desde +15 a +35% (fig. 1, situación E), la conclusión sería similar a la situación anterior en la que los límites inferior y superior del IC eran ­5 y +25%, respectivamente, ya que el IC contiene el valor 20%. Sin embargo, con este resultado el valor 20% está más cerca de la estimación puntual y es más probable que, como mínimo, el tratamiento activo sea un 20% más efectivo que el placebo, que no en la situación anterior. De hecho, en este caso el valor de estimación puntual es mayor que el valor fijado como mínimo (20%) para establecer que el resultado es clínicamente relevante. Al igual que sucedía en la situación anterior, el tamaño de la muestra de un estudio de estas características sería inadecuado para establecer definitivamente la idoneidad de administrar el tratamiento activo, aunque la potencia estadística sería mayor.

En los ejemplos presentados hasta ahora, los investigadores presuponían que uno de los tratamientos era más eficaz que el otro. Cuando se quiere comprobar la equivalencia terapéutica entre dos tratamientos, los valores de significación estadística tienen, incluso, menos interés, ya que un resultado estadísticamente significativo no implica que los tratamientos sean equivalentes y, por el contrario, una diferencia pequeña que sea estadísticamente significativa puede ser compatible con la equivalencia práctica entre los tratamientos.

En el caso de equivalencia terapéutica, los investigadores predefinen un intervalo de valores todos ellos compatibles con una diferencia sin importancia clínica. Si los límites del IC calculado con los datos procedentes del estudio se encuentran dentro de este intervalo de valores, se concluirá que los tratamientos son equivalentes8. Al igual que sucede con los estudios que tratan de demostrar la superioridad de un tratamiento, la definición de este intervalo de valores es difícil y requiere una profunda discusión entre clínicos expertos en el tema objeto de estudio. En la figura 2 se presentan ejemplos de posibles resultados de un estudio en el que se comparan dos tratamientos con la finalidad de comprobar su equivalencia terapéutica.

Fig. 2. Ejemplos de posibles resultados de un estudio que compara dos tratamientos con la finalidad de comprobar su equivalencia terapéutica; ­d a +d es el rango de valores compatible con equivalencia terapéutica preestablecida por los investigadores. ES: estadísticamente significativo; NS: estadísticamente no significativo.

La prueba de significación continúa siendo el procedimiento estadístico utilizado con mayor frecuencia, probablemente más por tradición que por utilidad real. Los defensores de los contrastes de significación argumentan que su ventaja radica en que, en ocasiones, se precisa una respuesta explícita positiva o negativa a una pregunta. Pero incluso en esta situación los IC son igualmente útiles, y lo son más si la respuesta debe darse de acuerdo con información procedente de diversos estudios. Las ventajas de la utilización de los IC en el análisis e interpretación de los resultados parecen claras, y cada vez son más los editores de revistas biomédicas que la recomiendan a los autores9.

Bibliograf??a
1
Confidence intervals rather than p values: estimation rather than hypotesis testing. Br Med J (Clin Res Ed) 1986;292: 746-50.
2
Guidelines for statistical reporting in articles for medical journals. Amplifications and explanations. Ann Intern Med 1988; 108:266-73.
3
Sifting the evidence. What's wrong with significance test? BMJ 2001;322:226-31.
4
Confidence intervals in practice. En: Altman DG, Machin D, Bryant TN, Gardner MJ, editores. Statistics with confidence: confidence intervals and statistical guidelines. (2.#nd# ed.). Londres: BMJ Books, 2000; p. 6-14.
5
When should an effective treatment be used? Derivation of the threshold number needed to treat and the minimum event rate for treatment. J Clin Epidemiol 2001; 54:253-62.
6
M??todos de investigaci??n cl??nica y epidemiol??gica (2.#a# ed.). Madrid: Harcourt, 2000;230-2.
7
Interpreting study results: confidence intervals. CMJA 1995;152:169-73.
8
Trials to assess equivalence: the importance of rigorous methods. BMJ 1996;313:36-9.
9
Requisitos de uniformidad para manuscritos presentados para publicaci??n en revistas biom??dicas. Med Clin (Barc) 1997;109:756-63.