Interpretaciones erróneas de los valores de p

Campillo Artero, C

Información del artículo

Texto completo

Cuando se evalúa el rigor científico y se leen numerosos artículos presentados para publicación a revistas del área de la salud, e incluso artículos publicados, salta a la vista la asiduidad con que uno encuentra interpretaciones erróneas del valor de p. La confusión del significado de este concepto, además de traslucir falta de rigor en el análisis, puede tener consecuencias negativas en la práctica clínica. Como se ha demostrado reiteradamente, el valor de p puede incluso decidir en determinadas circunstancias si un estudio alcanzará las páginas impresas. Muchas investigaciones no se publican no porque sean de baja calidad metodológica, sino porque en ellas no se han detectado diferencias estadísticamente significativas. Este fenómeno se conoce con el epígrafe de sesgo de publicación.

Por los motivos señalados, en este artículo se intenta esclarecer brevemente el significado del valor de p y revisar de forma pormenorizada los errores en su interpretación más frecuentes.

Para comenzar, conviene repasar la definición del valor de p. En términos sencillos es la probabilidad de que las diferencias observadas en las poblaciones estudiadas se deban al azar. Según una definición más rigurosa, es la probabilidad de observar valores estadísticos de la prueba aplicada (por ejemplo, ji al cuadrado, t de Student, etc.) tan o más extremos que los observados desde la suposición de que la hipótesis nula sea cierta. El valor de p constituye una medida de la credibilidad de la hipótesis nula. Cuanto menor sea, más nos inclinaremos a rechazar la hipótesis nula, según la cual no existen diferencias entre los datos observados de las poblaciones estudiadas (por ejemplo, proporciones, medias, etc.).

El nivel de significación estadística responde al interrogante ¿por debajo de qué valor aceptaremos que existen diferencias estadísticamente significativas o, simplemente, diferencias entre los datos observados?, y viene dado por el valor prefijado de alfa. Alfa y el riesgo que estamos dispuestos a correr de cometer el error de afirmar que hay una diferencia cuando realmente no existe (error de tipo I) se seleccionan por convención. El valor que se acepta habitualmente es 0,05, si bien en otras circunstancias puede ser conveniente seleccionar, por razones distintas de las estadísticas, valores como 0,10, 0,03, 0,01, etc.

Por consiguiente, si convenimos adoptar un valor alfa igual a 0,05 y, al realizar la prueba estadística obtenemos un valor de p menor de 0,05, concluiremos que las muestras proceden de poblaciones distintas o, en otras palabras, que la diferencia observada entre los valores de cierta variable también existe en la población (por ejemplo, la media de la tensión arterial de dos grupos, la proporción de personas con determinado atributo en dos o más grupos, etc.).

No obstante, muchos investigadores olvidan que un valor de p bajo puede convertirse en una caja de Pandora y corresponder a cualquiera de las tres situaciones siguientes. Primero, que la hipótesis nula es falsa; es decir, que existen diferencias en las poblaciones y, afortunadamente, las hemos detectado. Segundo, que nos encontremos frente a un acontecimiento raro. En este caso, como no creemos en fenómenos inusuales y siempre y cuando el modelo o la prueba estadística empleados sean adecuados decidiremos rechazar la hipótesis nula. Tercero, que el modelo construido para realizar la prueba de hipótesis o la prueba estadística sean inadecuados. A menudo, llevamos a cabo pruebas estadísticas omitiendo los supuestos que deben cumplirse para poder aplicarlas.

Podemos incurrir en este error al realizar, por ejemplo, una prueba de hipótesis cuya condición de aplicación exige que la variable siga una distribución normal y no comprobamos el cumplimiento de ese supuesto. Si la variable no se distribuye según la curva de Gauss, los valores de p que obtengamos, por muy bajos que sean, no tienen demasiado sentido.

La rápida difusión de potentes ordenadores y de programas estadísticos para éstos hoy día al alcance de la mayoría de los profesionales de las ciencias de la salud, aunada a su uso irreflexivo, explican gran parte de los problemas que se abordan en este artículo. Un modo deseable de proceder para evitar muchos problemas en investigación acaso sea adoptar la costumbre de consultar a estadísticos y epidemiólogos antes de dar por concluido el diseño de una investigación.

Tampoco debemos caer en el error de interpretar el valor de p como la probabilidad de que la hipótesis nula sea cierta. No olvidemos que esta hipótesis la formula el investigador y, por tanto, es cierta o falsa, independientemente del valor que adopte p. Nosotros, al realizar el estudio, en definitiva sólo intentamos averiguar su veracidad. Como hemos visto al definirlo antes, el valor de p expresa algo muy distinto.

En ocasiones, rechazamos la hipótesis nula cuando el valor de p se aproxima a 0,04 y hacemos lo contrario cuando se acerca a 0,06. En estas instancias, y antes de tomar ninguna decisión, debemos preguntarnos qué diferencia real existe entre valores de p igual a, por ejemplo 0,04, 0,05 y 0,06, y qué factores pueden explicar esos valores. Hay que pensar, además, que una diferencia estadísticamente significativa no siempre es importante desde el punto de vista clínico, y esto es más decisivo y relevante que el valor de p. Lo ilustraremos un poco más adelante.

Por otro lado, si el tamaño muestral de los grupos estudiados es muy grande, más probable será encontrar diferencias, meramente desde el punto de vista de la significación estadística, que cuando las muestras son pequeñas. Para ilustrar esta situación, imaginemos que estudiamos dos muestras de un millón de personas cada una y observamos que la media de la tensión arterial sistólica en el primer grupo es, digamos, 145 mmHg y en el segundo, 146 mmHg. Con tamaños muestrales de este calibre es muy probable que obtengamos diferencias estadísticamente muy significativas. Ahora bien, en este caso, antes de extraer una conclusión y mucho menos de tomar una decisión, uno debería lícitamente preguntarse: ¿qué significado tiene dicha diferencia?, ¿es importante para el propósito de mi estudio y para las posibles aplicaciones de los resultados?

Analicemos una variante del caso anterior, que no reviste menos importancia, con el fin de esclarecer completamente el problema. Supongamos que la diferencia observada entre las medias de la tensión arterial de dos grupos es de 3 mmHg y que la hemos obtenido en un ensayo clínico aleatorizado y a doble ciego con el propósito de evaluar la eficacia de un determinado medicamento para reducir la hipertensión arterial en crisis hipertensivas. Como cabe esperar, los tamaños del grupo experimental y del control se encuentran muy por debajo de los señalados en el ejemplo anterior; empero, la diferencia también es estadísticamente muy significativa. Obviamente, el descenso alcanzado con dicho fármaco deja mucho que desear en un episodio hipertensivo, que bien puede poner en peligro la vida del paciente. Aunque la diferencia es muy significativa desde el punto de vista estadístico, desde una perspectiva clínica prácticamente carece de importancia.

Supongamos, ahora, que evaluamos la efectividad de una intervención de educación sanitaria en la comunidad destinada a reducir la tensión arterial, y que detectamos la misma diferencia también estadísticamente muy significativa que en el caso anterior entre el grupo de intervención y el control. Si es posible atribuir esa diferencia con rigor, desde el punto de vista metodológico, a la efectividad del programa (no todas las evaluaciones de programas permiten hacerlo) y podemos extrapolar los resultados a la población general, las respuestas a las preguntas formuladas anteriormente cambian. A pesar de ser pequeña, la diferencia es importante tanto desde el punto de vista estadístico como desde el de la intervención. Reflexionemos por un instante en lo que significaría disponer de un programa de intervención en la comunidad con el que pudiéramos reducir 3 mmHg la media de la tensión arterial de la población.

Otro problema que surge en ocasiones consiste en no observar diferencias aun cuando existen en la realidad, porque nuestra capacidad de detectarlas (la denominada potencia o poder estadístico de la prueba), que viene dada en parte por el tamaño muestral, es baja.

En otro orden de cosas, que un valor de p sea bajo no es sinónimo necesariamente de que en realidad exista una diferencia, pues siempre nos arriesgamos a cometer un error de tipo I, esto es, de nuevo, rechazar la hipótesis nula cuando es cierta o, dicho de otro modo, afirmar que hay diferencias entre las poblaciones estudiadas cuando en realidad no existen. (A propósito, cometemos un error de tipo II cuando no rechazamos la hipótesis nula, siendo ésta falsa.)

Sumamente importante es tener presente el hecho de que un resultado estadísticamente no significativo no implica de modo necesario la ausencia de una diferencia, sino que los datos observados (los que hemos recogido en nuestra investigación) son congruentes o compatibles con la inexistencia de esa diferencia. No olvidemos que trabajamos con muestras y que podíamos haber extraído muchas otras, unas distintas y algunas similares a las seleccionadas.

Otro error conceptual y de interpretación frecuente es el que se ilustra en el siguiente ejemplo, no exento de limitaciones por haberse sacado de contexto. En la sección de Resultados de los artículos a menudo encontramos frases como «La proporción de fumadores en el primer grupo fue de 0,34 (intervalo de confianza del 95%: 0,27-0,42), y en el segundo, de 0,40 (IC 95%: 0,31-0,48). Por consiguiente, la diferencia no es estadísticamente significativa».

Antes de responder a esta pregunta, revisemos sucintamente los distintos tipos de inferencia estadística. Las pruebas de estimación responden al siguiente interrogante: ¿qué valor del parámetro que pretendemos estimar es el más congruente con los datos observados? Por su parte, las pruebas de estimación por intervalo permiten conocer el conjunto de valores del parámetro (intervalo de confianza: IC) que son más congruentes con los datos observados con un nivel de confianza prefijado (por ejemplo, 95%). Por último, las pruebas de hipótesis o de significación estadística responden a las preguntas: ¿Es un valor determinado de un parámetro (que viene indicado por la hipótesis nula) congruente con los datos observados? ¿De qué pruebas o evidencias disponemos para respaldar esta afirmación? (información que refleja el valor de p).

En casos como el ilustrado en esa frase, los autores confunden los conceptos que subyacen a las pruebas de estimación con los de significación estadística o de hipótesis; sólo se limitan a calcular los intervalos de confianza del 95% de las dos proporciones, no los valores de p de una prueba de hipótesis. Por lo tanto, en rigor no es correcto afirmar que la diferencia es estadísticamente significativa, porque una aseveración de esta naturaleza corresponde al lenguaje de las pruebas de hipótesis o de significación. Si bien existen correspondencias entre ambas pruebas, las relaciones entre ellas no son siempre las esperadas. Hay casos en que los intervalos de confianza se solapan (comparten valores) y, al realizar la prueba de significación, la diferencia es estadísticamente significativa. Sin embargo, cuando los intervalos de confianza no se solapan, la prueba de significación correspondiente es significativa.

Para finalizar, es preciso revisar otro problema habitual: el de las comparaciones múltiples. Por ejemplo, en la evaluación de programas sanitarios, cuando comparamos dos proporciones (digamos por caso, las de las personas que en el grupo de intervención y en el grupo control adoptaron cierto comportamiento después de aplicar una intervención en un tiempo de seguimiento preestablecido), la probabilidad de rechazar la hipótesis nula (de igualdad de las dos proporciones) cuando es cierta, es decir, cuando realmente no son distintas, viene dada por el valor de alfa (por ejemplo, 0,05). En términos más sencillos, de cada 100 veces que efectuemos la comparación, en cinco afirmaremos erróneamente que difieren (cometeremos un error de tipo I). Como indica la tabla 1, cuando el número de comparaciones aumenta (tal es el caso de la evaluación en que disponemos de más de un grupo de intervención o más de un grupo control), también lo hace la probabilidad de rechazar incorrectamente al menos una hipótesis nula. Esta probabilidad puede calcularse mediante la fórmula 1-(1-alfa)k, siendo k el número de comparaciones, y alfa, el nivel de significación estadística adoptado por los investigadores a priori.

Por tanto, si en vez de comparar dos proporciones con un valor de alfa de 0,05 comparamos las de cuatro grupos entre sí (correspondientes, por ejemplo, a tres grupos de intervención y a un grupo control) a ese mismo nivel de significación, en total haremos 6 comparaciones y, por consiguiente, formularemos 6 hipótesis nulas de igualdad de proporciones. Y en este caso, la probabilidad de rechazar al menos una hipótesis nula cuando es cierta no será 0,05, sino, como puede colegirse de la tabla 1, 0,26.

Para solventar este problema, se han postulado diversos métodos. Uno de ellos, que aquí se propone por su sencillez, consiste en utilizar en cada comparación un valor alfa igual al que escogeríamos para realizar una sola dividida por k (en este caso, cada una de las 6 comparaciones deberíamos efectuarla con una alfa=0,05/6=0,008). Si en otro estudio comparáramos más de dos medias, podríamos realizar un análisis de la variancia, ajustando lógicamente el valor de alfa en cada comparación como en el caso anterior.

Bibliografía general

Alan Dever GE. Epidemiology in health services management. Gaithersburg: Aspen, 1984.

Altman DG, Gore SM, Gardner MJ, Pockock SJ. Statistical guidelines for contributors to medical journals. Br Med J 286; 1.489-1.493.

Armitage P, Berry G. Statistical methods in medical research, 2ª ed. Oxford: Blackwell Scientific Publications, 1987.

Bailar JCIII, Mosteler F. Medical uses of statistics, 2ª ed. Boston: NEJM Books, 1992.

Breslow NE, Day NE. Statistical methods in cancer research, vol. II. The design and analysis of cohort studies. Lyon: International Agency for Research on Cancer, 1987.

Campbell DT, Stanley JC. Experimental and quasi-experimental designs for research. Boston: Houghton Mifflin Company, 1963.

Chalmers TC, Frank CS, Reitman D. Minimizing the three stages of publication bias. JAMA 1990; 263: 1.392-1.395.

Colton T. Estadística en medicina. Barcelona: Salvat Editores, S.A., 1987.

Daniel WW. Biostatistics: a foundation for analysis in the health sciencies. Nueva York: John Wiley & Sons, 1987.

Dickersin K. The existence of publication bias and risk factors for its occurrence. JAMA 1990; 262: 1.385-1.389.

Fleiss JL. The design and analysis of clinical experiments. Nueva York: John Wiley & Sons, 1986.

Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than hypothesis testing. Br Med J 1986; 292: 746-750.

Gardner J, Machin D, Campbell MJ. Use of cheklists in assessing the statistical content of medical studies. Br Med J 1986; 292: 810-812.

Kahn HA, Sempos CT. Statistical methods in epidemiology. Nueva York: Oxford University Press, 1989.

Kleinbaum DG, Kupper LL, Muller KE. Applied regression analysis and other multivariate methods. Boston: PWS-Kent Publishing Company, 1988.

Last JM, ed. A dictionary of epidemilogoy. Nueva York: Oxford University Press, 1988.

Lee ET. Statistical methods for survival analysis. 2ª ed. Nueva York: John Wiley & Sons, 1992.

Levy PS, Lemeshow S. Sampling of populations. Methods and aplicactions. Nueva York: John Wiley & Sons, 1991.

Meinert CL. Clinical Trials. Design, conduct, and analysis. Nueva York: Oxford University Press, 1986.

Schlesselman JJ. Case-control studies. Design, conduct, analysis. Nueva York: Oxford University Press, 1982.

Sharp DW. What can and should be done to reduce publication bias. JAMA 1990; 263: 1.390-1.391.

Silva LC. Muestreo para la investigación en ciencias de la salud. Madrid: Díaz de Santos, 1993.

Indexada en:

Síguenos:

Suscribirse:

Indexada en:

Síguenos:

Suscribirse:

Suscríbase a la newsletter