Análisis multivariante en investigación quirúrgica

Rebasa Cladera, Pere

doi:10.1016/j.ciresp.2022.03.004

Información del artículo

Texto completo

Bibliografía

Descargar PDF

Estadísticas

Texto completo

¿ Por qué debemos usar modelos de regresión en investigación quirúrgica? ¿No es suficiente la t de Student, la X2 o un test de análisis de la varianza para obtener las suficientes pruebas de una relación entre un hecho y una consecuencia?

Por supuesto, para intentar obtener la verdad científica, puede que sea útil una prueba univariante como las que hemos citado, pero es poco probable que sea suficiente, o que nos lleve a robustas conclusiones de causa-efecto, que es lo que como cirujanos solemos buscar en la inmensa mayoría de nuestras investigaciones (¿fallan más las suturas si el paciente está hipoproteinémico?, ¿es más probable la recidiva tumoral si he transfundido al paciente?).

En general, las variables biológicas tienen una intensa relación entre ellas. Es difícil atribuir a una sola variable X el efecto sobre Y. Lo más habitual es que haya una miríada de otras variables que pueden alterar esa relación: ¿la hipoproteinemia en el fallo de sutura puede estar condicionada de alguna manera a que el paciente tenga una hepatopatía conocida? En biología, por tanto, difícilmente puede usarse un análisis puro univariante (relación entre X e Y sin atender a ninguna otra consideración) salvo en el caso de estudios experimentales altamente controlados, y que habitualmente sólo son posibles en el contexto de un laboratorio y con animales de experimentación.

Los sistemas biológicos suelen seguir patrones caóticos, en los que pequeñas modificaciones de las condiciones iniciales llevan a enormes cambios en los resultados. Esto es lo que como cirujanos afrontamos cada día al hacer una anastomosis: la incerteza de que haciendo siempre lo mismo, nuestros resultados pueden diferir mucho entre pacientes. ¿Cómo puedo, por tanto, conseguir establecer relaciones potentes de causa efecto en un sistema biológico caótico? Con el análisis multivariante.

Tipos de análisis multivariante

¿Todos los análisis multivariantes son iguales? ¿Es tan fácil como tener una parrilla de datos en SPSS y darle al «enter» en la pestaña de «análisis multivariante»? No y no. ¿Cuándo vamos a usar un modelo de regresión simple? Siempre que busquemos comprobar y cuantificar la relación entra la variable X y la variable Y: por ejemplo, cuál es la relación entre el nivel de hemoglobina preoperatoria y las complicaciones infecciosas en el postoperatorio. Pero en la mayoría de las situaciones clínicas hay que contar con otras variables. Aquí entra la regresión múltiple1. Pongamos unos ejemplos:

•
Estudios epidemiológicos de factores de riesgo. Imaginemos que hemos recogido datos sobre un potencial factor de riesgo del cáncer gástrico (mutación del gen HER2, por ejemplo) en una cohorte de pacientes en el momento t, y que seguimos estos pacientes cinco años para comprobar cuántos de ellos han desarrollado el cáncer gástrico. Ahora bien, algunos de estos pacientes eran fumadores, y otros tenían Helicobacter pylori positivo. La pregunta correcta aquí no es ¿cuál es la relación entre la mutación HER2 y el cáncer gástrico?, si no que debería ser ¿Cuánta relación entre la mutación HER2 y el cáncer gástrico existe que no pueda ser explicada por la relación entre el tabaco, el Helicobacter pylori y el cáncer gástrico?
•
Estudios de factores pronósticos. En estos estudios queremos identificar los factores de los pacientes que nos ayuden a hacer una predicción respecto a una determinada enfermedad o resultados. Puede tratarse de un nuevo factor pronóstico, intentando contestar a la pregunta ¿este nuevo factor predictivo, mejora el pronóstico respecto a los que usamos hoy en día? O con la idea de crear un nuevo índice pronóstico ¿cómo podemos combinar los valores de diversos factores pronósticos para crear un score predictivo?
•
Estudios diagnósticos. Muy similares a los estudios de factores pronósticos citados en el párrafo anterior, en este caso lo que se busca es el diagnóstico de una enfermedad. ¿Los criterios de Alvarado nos ayudan a diagnosticar la apendicitis aguda? Estos estudios tienen una característica diferencial respecto a los estudios de factores pronóstico y es que al final, lo que buscamos es una respuesta sí/no para poder afirmar o negar que el paciente tiene la enfermedad, y no sólo estimar la probabilidad de que el paciente tenga la enfermedad.
•
Estudios multifactoriales. Menos frecuentes en nuestro ámbito, estos estudios buscan investigar diversos factores simultáneamente intentando aprovechar el uso de material disponible (animales de experimentación habitualmente). Por ejemplo (y aquí hay innumerables ejemplos posibles), podemos usar tres dosis diferentes de hormona de crecimiento y tres dosis diferentes de insulin-like growth factor en nueve animales para testar la translocación bacteriana tras un traumatismo.
•
Modificación del efecto. Finalmente, puede que lo que nos interese es conocer el efecto que una variable puede tener sobre otra, o en un ejemplo claro, si la nueva quimioterapia es superior a la que disponemos para una población con neoplasia de esófago, y si este efecto se mantiene atendiendo a múltiples covariables conocidas que lo pueden modificar (tabaco, alcohol).

En definitiva, los modelos de regresión múltiple (lineales, logísticos, Cox) no sólo nos proporcionan un marco para describir el efecto de una variable sobre otra (cosa que ya pueden hacer los modelos univariantes), si no que nos permiten describir cómo estos efectos dependen de otras variables, y cuánto lo modifican.

La p y los estudios multivariantes. Cómo sacar conclusiones (inferencias) en un estudio multivariante

Hace muchos años que los cirujanos (y no sólo nosotros, de hecho) confiamos de manera demasiado ciega en los valores de la p para reforzar nuestras conclusiones. Hay buenos artículos en esta revista2 que nos explican cómo funciona y cómo se interpreta correctamente la p, incluso Nature ha creído necesario entrar en el tema3. ¿Cómo podemos sacar conclusiones de análisis multivariantes? Hay que recordar que la p, el error estándar y los intervalos de confianza, perfectamente calculados por nuestro programa estadístico de confianza, dependen íntegramente de la técnica que usemos para calcularlos, y no del valor intrínseco de la relación entre nuestros datos.

Sin entrar en un análisis profundo, existen dos técnicas diferentes para obtener inferencias en la regresión múltiple4, una «clásica» que cualquier programa estadístico tiene implementada, y otra «moderna» disponible como opción en los mejores programas. Pero ambas dependen absolutamente de dos asunciones en lo que respecta a la variable Y (en este análisis, la variable Y son los errores, en terminología estadística): por un lado, el supuesto de linealidad, por otro lado, el de independencia (que incluye homocedasticidad y normalidad de las variables Y). Excede de largo el objetivo de este trabajo explicar estos conceptos, pero debe saberse que no pueden ser ignorados, y que alguien que conozca perfectamente cómo investigarlos y cómo controlarlos debe ser el responsable del análisis de nuestros datos. La manera «moderna» de obtener inferencias eliminará las necesidades de explorar la homocedasticidad y la normalidad en la distribución de los errores.

¿Cómo sabemos lo válidos que son los resultados de nuestra regresión?5,6 Con el principio de los mínimos cuadrados, con la bondad del ajuste. ¿Cómo? ¿No eran esas bonitas p que aparecen en el SPSS tras darle al enter? No exactamente. Con una p < 0,05, por cada 20 comparaciones para comprobar si la longitud de las uñas se relaciona con el fallo de sutura, en una de ellas nos va a decir que sí, independientemente de si tienen o no una real relación de causa y efecto. En un análisis de regresión para ver si además de la longitud de las uñas, la albúmina, la edad y otras 10 variables influyen en el fallo de sutura, se van a hacer centenares de comparaciones y, por tanto, la probabilidad de que una de ellas salga por debajo del mágico 0,05 es muy alta. Habrá que ser extremadamente cuidadoso cuando publiquemos nuestro resultado diciendo que la longitud de las uñas tiene una p = 0,028 y se relaciona con el fallo de sutura. Eso no es una prueba de asociación. Es una mala interpretación de un resultado ofrecido por un programa estadístico que no sabe nada de medicina.

¿Qué deberíamos hacer al plantearnos un estudio multivariante?7 Test de significación clínica con intervalos de confianza, explicar los métodos utilizados para seleccionar las variables independientes, explicar los métodos específicos para generar los modelos, explicar cómo, si se ha hecho, se ha calculado la interacción entre variables, describir si realmente hemos obtenido 10 eventos por variable independiente, comprobar que hemos descrito la linealidad de los residuos, describir si hemos comprobado que no hay colinealidad, describir cómo hemos validado el modelo, describir la bondad del ajuste (goodness-of-fit), los estadísticos de discriminación, y proveer información completa de cómo hemos codificado las variables7.

Resumiendo: en Medicina, un estudio multivariante siempre debería ser el elegido para buscar las relaciones de causa efecto entre las variables que nos interesan. Los univariantes pueden darnos las primeras pistas de cuáles pueden ser las variables relevantes a tener en cuenta en el multivariante. Necesitamos a un experto en análisis multivariantes con nosotros a su lado para el análisis, y habrá que hacer muchas comprobaciones antes de publicar cualquier resultado para que no estemos publicando un resultado anómalo y no una relación causa efecto.

Bibliografía

[1]

E.Y. Boateng, D.A. Abaye.

A review of the logistic regression model with emphasis on medical research.

Journal of data Analysis and Information Processing, 7 (2019), pp. 190-207

[2]

P. Rebasa.

Entendiendo la «p < 0,001».

Cir Esp., 73 (2003), pp. 361-365

[3]

V. Amrhein, S. Greenland.

McShane Blake. Retire statistical significance.