Comparación de índices de validez de contenido para investigación en enfermería clínica: un caso práctico

Hurtado-Arenas, Paulina; Guevara, Miguel R.; González-Chordá, Víctor M.

doi:10.1016/j.enfcli.2025.502214

Información del artículo

Resumen

Texto completo

Bibliografía

Descargar PDF

Estadísticas

Tablas (2)

Tabla 1. Descripción métodos validez contenido, incluyendo la escala utilizada y la fórmula de cálculo

Tabla 2. Resumen de índices de validez según cada ítem. Resaltado en negrita se presentan los valores que obtuvieron valores más bajos

Mostrar másMostrar menos

Material adicional (1)

Resumen

Objetivo

Comparar diferentes técnicas para analizar la validez de contenido de instrumentos de medición aplicables en la investigación en cuidados de enfermería a través de un caso práctico.

Método

Estudio secundario que deriva de la validación de una encuesta hospitalaria sobre seguridad del paciente (HSOPS) en un hospital chileno. El ámbito de estudio fue la atención hospitalaria, con una población centrada en el personal de enfermería y una muestra de 12 expertas enfermeras docentes o con experiencia clínica en calidad y seguridad del paciente. Diseño y prueba de validez de contenido basado en 3 fases: identificación de principales métodos, cálculo de los métodos, comparación similitudes y diferencias de los métodos.

Resultados

Existe similitud entre los métodos de Lawsche, Tristán-López, Lynn y Polit et al. El valor kappa modificado es similar al valor de Índice de Validez de Contenido (I-CVI), con una pequeña variación que se produce al penalizar el valor por probabilidad de acuerdo al azar. Existen diferencias significativas entre todos los métodos y el coeficiente de validez de contenido (CVC) de Hernández-Nieto.

Conclusiones

El método de Polit et al. tiene mayor rigor y su formulación matemática está mejor justificada, entregando solidez a la investigación en enfermería clínica. Además, se sugiere utilizar el método de Hernández-Nieto cuando se busca validar más de una característica.

Palabras clave:

Estudio de validación

Investigación metodológica en enfermería

Investigación en enfermería clínica

Encuestas y cuestionarios

Abstract

Objective

To compare techniques to analyze the content validity of measurement instruments applicable to nursing care research through a practical case.

Method

Secondary study derived from validating the Hospital Survey on Patient Safety (HSOPS) in a Chilean hospital. The study setting was hospital care, with a population focused on nursing staff and a sample of 12 expert nurses who are teachers or have clinical experience in quality and patient safety. Design and content validity test based on three phases: identification of primary methods, calculation of methods, comparison of similarities and differences of methods.

Results

Lawsche, Tristan-López, Lynn, Polit et al. methods are similar. The modified kappa value is similar to the content validity index (I-CVI) value, with a slight variation when penalizing the value by probability according to chance. There are significant differences between all methods and Hernández Nieto's content validity coefficient (CVC).

Conclusions

The Polit et al. method is more rigorous, and its mathematical formulation is better justified, providing solidity to clinical nursing research. Furthermore, the Hernandez-Nieto method is suggested when validating more than one characteristic.

Keywords:

Validation study

Methodological research in nursing

Clinical nursing research

Surveys and questionnaires

Texto completo

¿Qué se conoce?

La validez de contenido es una propiedad fundamental de los instrumentos de medición, y existen diferentes técnicas para su análisis.

¿Qué aporta?

El estudio entrega la primera comparación detallada de 5 técnicas para analizar la validez de contenido. Esta descripción permite a enfermería mejorar la elección del método de evaluación de validación de contenido en los cuestionarios a aplicar en la práctica clínica.

Introducción

La investigación en enfermería es esencial para mejorar la calidad, tanto en la gestión del equipo de enfermería como en la ejecución de cuidados. Para ello con frecuencia se utilizan cuestionarios, encuestas o instrumentos de medición validados y confiables. En enfermería clínica, es fundamental contar con instrumentos precisos que garanticen lo que se pretende medir1.

La taxonomía Consensus based Standards for the selection of health Measurement Instruments (COSMIN), considera que la validez de contenido es la más importante dentro de las propiedades de medición y recomienda evaluar dicha validez con estándares propuestos sobre relevancia, exhaustividad y comprensibilidad, ofreciendo una lista de verificación para garantizar una evaluación sistemática y transparente en la validación de contenido de los instrumentos de medición2.

Existen métodos de validación de contenido, que involucran una o 2 rondas de juicios de expertos y análisis estadístico. El análisis por juicio de expertos implica la selección de un panel de expertos en el área temática, quienes evalúan la relevancia y representatividad de cada ítem del instrumento. Cuenta con las siguientes etapas: 1) Selección expertos: los expertos deben tener conocimientos profundos y experiencia en área temática del instrumento; 2) Evaluación ítems: cada experto revisa los ítems del instrumento y califica su relevancia utilizando una escala (p. ej., de 1 a 4, donde 1 es «nada relevante», y 4) es «muy relevante»); 3) Análisis de resultados: se calcula el nivel de acuerdo entre los expertos, p. ej, a través de la media de las calificaciones de relevancia para cada ítem y se determina si los ítems cumplen con el umbral predefinido de aceptabilidad.

En enfermería, se utilizan diversos instrumentos para evaluar aspectos como calidad de vida, seguridad del paciente, entre otros.

Debido al elevado uso de instrumentos de medición en enfermería clínica, a la importancia de la validez de contenido y a que no se recuperaron estudios previos similares, se consideró relevante comparar diferentes técnicas para estudiar la validez de contenido a partir de un caso práctico, con la finalidad de aportar rigor a la investigación en cuidados de enfermería. En este contexto, el objetivo de este estudio fue comparar diferentes técnicas para analizar la validez de contenido de instrumentos de medición aplicables en la investigación en cuidados de enfermería a través de un caso práctico.

Método

Estudio secundario derivado de la validación de una encuesta hospitalaria sobre seguridad del paciente (HSOPS) en un hospital chileno3. Para el análisis se consideraron 3 fases: 1) identificación de los principales métodos de evaluación de la validez de contenido; 2) cálculo según cada método, y 3) diferencias y similitudes de los métodos.

El ámbito fue un hospital de alta complejidad en Valparaíso-Chile, basado en una investigación primaria realizada el año 20213. La población estuvo conformada por 12 expertas: 6 enfermeras académicas con grado de magíster y 5 años de experiencia docente en áreas de gestión de salud o investigación y 6 enfermeras con 5 años de experiencia en unidades de gestión de calidad y seguridad del paciente del hospital.

Las variables correspondieron al nivel de suficiencia, claridad, coherencia y relevancia, asignado por cada experta en cada ítem. Se solicitó una puntuación en base a una escala de Likert con valoración del 1 al 4, siendo 1 irrelevante y 4 extremadamente relevante.

La recogida de datos se efectuó mediante correo electrónico a cada experta. Se realizaron 2 rondas para alcanzar niveles aceptables de validez de contenido.

Las 5 técnicas comparadas para identificar diferencias y semejanzas fueron Lawshe4, Tristán-López5, Lynn6, Polit et al.7 y Hernández-Nieto8 como se describe en la tabla 1. Estas técnicas son principalmente de proporción, de la suma de expertos que valoraron positivamente el ítem, sobre el total de expertos. Lawshe propone un índice (similar a una correlación) que varía de −1 a 1. De una escala de 3 valores, para el cálculo se considera el número de expertos que evalúan el ítem como esencial.

Tabla 1.

Descripción métodos validez contenido, incluyendo la escala utilizada y la fórmula de cálculo

Autor, año.	Escala utilizada	Fórmula de cálculo por ítem	Punto de corte y rango de valoración para cada ítem	Fórmula de cálculo para el instrumento
Lawshe, 19754	0: No es necesario1: Útil3: Esencial	CVR = ne− N/2N/2CVR: Razón de validez de contenido (content validity ratio)ne: Número de expertos que evaluaron un ítem como «esencial»N: Número total de expertos	Punto de corte:Dependiente del número de expertos.Ejemplo:5 expertos=16 expertos >0,8312 expertos ≥0,56Rango de valoración con 12 expertos:≤0,56: No aceptable>0,56: Aceptable	CVI = ∑i = 1M CVRiMCVI: Índice de validez de contenido de todo el instrumento (content validity index)CVR: Razón de validez de contenido de los ítems aceptablesM: Total de ítems aceptables de la prueba
Tristán-López, 20085	0: No es necesario1: Útil3: Esencial	CVR' = neN CVR’: Razón de validez de contenido modificada (content validity ratio)ne: Número de expertos que evaluaron un ítem como «esencial»N: Número total de expertos	Punto de corte:>0,58Independiente del número de expertosRango de valoración:≤0,58: No aceptable>0,58: Aceptable	CVI = ∑i = 1M CVRi'MCVI: Índice de validez de contenido de todo el instrumento (content validity index)CVR’: Razón de validez de contenido de los ítems aceptablesM: Total de ítems aceptables de la prueba
Lynn, 19866	1: Irrelevante2: Algo relevante3: Bastante relevante4: Extremadamente relevante	ICVI= n3+ n4NICVI: índice de validez de contenido para el ítem (ítem-content validity index)n3: Número de expertos que evaluaron un ítem con 3n4: Número de expertos que evaluaron un ítem con 4N: Número total de expertos	Punto de corte: Dependiente del número de expertosRango de valoración con 12 expertos:<0,75: No aceptable≥0,75: Bueno≥0,78: Excelente	SCVI/Ave = ∑i = 1M ICVIiMSCVI/Ave: Índice promedio de validez de contenido de todo el instrumento (scale-content validity index, average)ICV: Índice de validez de contenido de los ítems considerados válidosM: Total de ítems válidos de la pruebaOtra forma de calcular el índice a nivel del instrumento, es sumar la cantidad de ítems que consiguieron acuerdo universal y dividir por la cantidad total de ítems (SCVI/UA)
Polit et al., 20077	1: Irrelevante2: Algo relevante3: Bastante relevante4: Extremadamente relevante	k∗=1−CV−pc1−pcpc=N!A!(N−A)!pA(1−p)N−AQue se simplifica:pc=N!A!(N−A)!0.5Nsólo si p=0.5ICVI: Índice de validez de contenido para el ítem según Lynn 1986 (ítem content validity index)pc: probabilidad de acuerdo por azarN: Número de expertosA: Número de expertos que acordaron buena relevancia	Punto de corte:≥0.6Independiente del número de expertos, con un mínimo de 3Rango de valoración:<0,4: No aceptable≤0,59: Regular≤0,74: Bueno>0,74: Excelente	SCVI/Ave = ∑i = 1M ICVIiMSCVI: Índice de validez de contenido de todo el instrumento (scale content validity index)ICV: Índice de validez de contenido de los ítems considerados válidosM: Total de ítems válidos de la pruebaOtra forma de calcular el índice a nivel del instrumento, es sumar la cantidad de ítems que consiguieron acuerdo universal y dividir por la cantidad total de ítems (SCVI/UA)
Hernández-Nieto, 2011.8	Escala de Likert de 3, 4 o 5 valoresEjemplo:1: Irrelevante2: Algo relevante3: Bastante relevante4: Extremadamente relevante	CVCi = MiVmax − PePe = 1jjCVCi: Coeficiente de validez de contenido para el ítem iPe: Error asignado a cada ítemj: número de revisoresMi: Media de la puntuación dada por los expertos en el ítem iVmáx: Puntuación máxima que el ítem podría alcanzar	Punto de corte:>0,7Independiente del número de expertos, siendo más estable con 5 o másRango de valoración:≤0,6: Inaceptable≤0,7: Deficiente≤0,8: Aceptable≤0,9: Buena>0.9: Excelente	∑i = 1N CVCiNCVCi: Coeficiente de validez de contenido para el ítem iN: Número de ítems

Lawshe modificado por Tristán-López simplifica el método anterior utilizando la proporción del total de expertos que evaluaron un ítem como esencial sobre el total de expertos. Esto hace el método más simple de interpretar en el rango de 0 a 1.

Lynn estima el índice de validez de contenido (I-CVI) y mide la proporción de expertos que evalúan un ítem como «bastante o extremadamente relevante» sobre el total de expertos. Esto es muy similar al método anterior, salvo que la escala que utiliza es de 4 valores y no de 3.

Polit et al. proponen una corrección al índice anterior con el Kappa modificado, calculando la probabilidad de acuerdo por azar para restar al valor de I-CVI, con lo que aseguran la reducción de cualquier distorsión estadística.

Hernández-Nieto, mide la proporción obtenida entre la media de puntuaciones asignadas al ítem y el valor máximo que se puede obtener como valoración en ese ítem. Se interpreta como «nivel de logro» alcanzado. También realiza una corrección por el error estadístico asignado a cada ítem que es una constante. Cuando se evalúan varias dimensiones, el cálculo se realiza por la suma de las 4 dimensiones para cada ítem y no de forma individual para cada dimensión.

Adicionalmente, se aplicó la prueba de Kruskal-Wallis para evaluar diferencias globales entre las distribuciones de los métodos y la prueba post hoc de Dunn para identificar los pares de métodos con diferencias significativas.

Resultados

Los resultados obtenidos en la característica «relevancia» en cada ítem y en promedio de cada dimensión del instrumento HSOPS 2.0, durante el proceso de adaptación transcultural, se presentan en la tabla 2.

Tabla 2.

Resumen de índices de validez según cada ítem. Resaltado en negrita se presentan los valores que obtuvieron valores más bajos

		Lawsche		Tristán-López		Lynn		Polit et al.		Hernández-Nieto
DIM	ITEM	CVR	Valoración	CVR’	Valoración	ICV	Valoración	K*	Valoración	CVC	Valoración
D1	1 (A1)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9479	Excelente
D1	2 (A8)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9635	Excelente
D1	3 (A9)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9844	Excelente
D2	4 (A2)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9219	Excelente
D2	5 (A3)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,8958	Buena
D2	6 (A5)	0,8333	Aceptable	0,9167	Aceptable	0,9167	Excelente	0,9164	Excelente	0,9115	Excelente
D2	7 (A11)	0,6667	Aceptable	0,8333	Aceptable	0,8333	Excelente	0,8306	Excelente	0,8906	Buena
D3	8 (A4)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9792	Excelente
D3	9 (A12)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9687	Excelente
D3	10 (A14)	0,8333	Aceptable	0,9167	Aceptable	0,9167	Excelente	0,9164	Excelente	0,9323	Excelente
D4	11 (A6)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9583	Excelente
D4	12 (A7)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9792	Excelente
D4	13 (A10)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9792	Excelente
D4	14 (A13)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9635	Excelente
D5	15 (B1)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9844	Excelente
D5	16 (B2)	0,8333	Aceptable	0,9167	Aceptable	0,9167	Excelente	0,9164	Excelente	0,9427	Excelente
D5	17 (B3)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9740	Excelente
D6	18 (C1)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9792	Excelente
D6	19 (C2)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9844	Excelente
D6	20 (C3)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9740	Excelente
D7	21 (C4)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9896	Excelente
D7	22 (C5)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9844	Excelente
D7	23 (C6)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9844	Excelente
D7	24 (C7)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9948	Excelente
D8	25 (D1)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9062	Excelente
D8	26 (D2)	0,8333	Aceptable	0,9167	Aceptable	0,9167	Excelente	0,9164	Excelente	0,8698	Buena
D9	27 (F1)	0,8333	Aceptable	0,9167	Aceptable	0,9167	Excelente	0,9164	Excelente	0,9271	Excelente
D9	28 (F2)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9844	Excelente
D9	29 (F3)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9635	Excelente
D10	30 (F4)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9427	Excelente
D10	31 (F5)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9062	Excelente
D10	32 (F6)	1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9687	Excelente
Promedio total		0,9635	Aceptable	0,9818	Aceptable	0,9818	Excelente	0,9816	Excelente	0,9543	Excelente
Promedio DIM1		1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9653	Excelente
Promedio DIM2		0,875	Aceptable	0,9375	Aceptable	0,9375	Excelente	0,9368	Excelente	0,9049	Excelente
Promedio DIM3		0,9444	Aceptable	0,9722	Aceptable	0,9722	Excelente	0,9721	Excelente	0,9601	Excelente
Promedio DIM4		1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9701	Excelente
Promedio DIM5		0,9444	Aceptable	0,9722	Aceptable	0,9722	Excelente	0,9721	Excelente	0,9670	Excelente
Promedio DIM6		1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9792	Excelente
Promedio DIM7		1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9883	Excelente
Promedio DIM8		0,9167	Aceptable	0,9583	Aceptable	0,9583	Excelente	0,9582	Excelente	0,8880	Excelente
Promedio DIM9		0,9444	Aceptable	0,9722	Aceptable	0,9722	Excelente	0,9721	Excelente	0,9583	Excelente
Promedio DIM10		1	Aceptable	1	Aceptable	1	Excelente	1	Excelente	0,9392	Excelente

CVC: coeficiente de validez de contenido; CVR: razón de validez de contenido (content validity ratio); DIM: dimensión del instrumento; ICVI: índice de validez de contenido para el ítem (ítem content validity index); K*: kappa modificado.

Se observa similitud en los métodos Lawsche, Tristán-López, Lynn, Polit et al., ya que el 81,25% de los ítems (n=21) obtuvieron valores igual a 1. Los valores Lawshe y Tristán-López son prácticamente los mismos, pero en una escala diferente. Los valores de Tristán-López y Lynn son los mismos, debido a la forma en que se agruparon los datos para ser consistente con la escala de 3 valores de Tristán-López, en el caso presentado, se reunieron los valores 3 y 4 de la escala, siendo este procedimiento, el mismo que realiza el método de Lynn para el cálculo del I-CVI.

Se visualizó que el valor de kappa modificado es similar al valor I-CVI, con pequeña variación a la baja, que se produce al disminuir el valor obtenido, por la probabilidad de acuerdo al azar.

La prueba de Kruskal-Wallis seguida de la prueba post hoc de Dunn identificó que la variable CVC tiene distribuciones significativamente diferentes respecto a CVR, CVR’, I-CVI, y K* (p<0,001).

En ninguno de los métodos aplicados, se eliminaron ítems debido a la obtención de valores por debajo del umbral de aceptación, definido para cada uno (tabla 1). El material suplementario detalla cálculo y características como suficiencia, claridad, coherencia.

Discusión

A través de un caso práctico, se comparan 5 técnicas para analizar la validez de contenido en instrumentos de medición aplicables en la investigación en cuidado de enfermería. Es relevante, identificar la manera más adecuada de calcular el índice de validez contenido, según la problemática que se esté abordando y el tipo de instrumento a validar9. Los valores obtenidos fueron altos y no existieron grandes diferencias entre los métodos aplicados, debido a que el instrumento había tenido un proceso de validación previo que, aunque en otro idioma, facilitó la selección de ítems. La selección de los expertos es esencial, incluyendo la determinación de los criterios de su elección, la cantidad de los mismos, el proceso de valoración que incluya un recordatorio y los tiempos estimados para ello, entre otros10.

Las 4 primeras técnicas son similares y la más óptima es Polit et al., debido a que recoge de forma precisa la información. Las diferencias en los valores de I-CVI podrían deberse a la naturaleza del cálculo, ya que ninguno de ellos obtiene la nota máxima. Los ítems que no obtuvieron una «excelente» valoración, coinciden con valoraciones bajas de otros métodos, lo cual podría deberse a que utilizaron otras características y no solo la relevancia. En este sentido, el método de Hernández-Nieto (CVC) presenta mayores diferencias y permite obtener información complementaria para el análisis, esta diferencia se confirma que es significativa a través del análisis estadístico con la prueba de Kruskal-Wallis seguida de la prueba post hoc de Dunn.

Este estudio no está exento de limitaciones metodológicas como haber utilizado un único instrumento de medición, con una cantidad de expertos ajustados y en un contexto geográfico específico. Además, la temática se aborda desde un caso práctico y no con datos sintéticos. Estas limitaciones deberían tenerse en cuenta en futuras investigaciones. No obstante, consideramos que este estudio aporta resultados relevantes sobre diferentes técnicas para estudiar la validez de contenido.

En conclusión, se recomienda la utilización del método Polit et al., para validez contenido en instrumentos de medición para investigación en enfermería clínica, porque a nivel matemático tiene mayor rigor y está mejor justificada, entregando solidez a la investigación en cuidados. Complementariamente, se recomienda utilizar el método Hernández-Nieto, cuando se busca validar más de una característica.

Financiación

La presente investigación no ha recibido ayuda específica proveniente del sector público, privado, comercial o entidades sin fines de lucro.

Consideraciones éticas

El estudio se enmarca en un proyecto aprobado por la Comisión Deontológica de la Universitat Jaume I Expediente CD/43/2019, se siguieron las consideraciones éticas dispuestas en la Ley 20.585 sobre acceso a información pública en Chile y los principios de declaración Helsinki. Los evaluadores expertos firmaron electrónicamente el consentimiento informado, aclarándose previamente que su participación era voluntaria y anónima.

Conflicto de intereses

Los autores declaran no tener ningún conflicto de intereses.

Agradecimientos

Agradecemos la participación del panel de expertos, conformado por enfermeras académicas y enfermeras clínicas con experiencia en la gestión de calidad y seguridad del paciente de Chile.

Anexo A

Material adicional