Comparar diferentes técnicas para analizar la validez de contenido de instrumentos de medición aplicables en la investigación en cuidados de enfermería a través de un caso práctico.
MétodoEstudio secundario que deriva de la validación de una encuesta hospitalaria sobre seguridad del paciente (HSOPS) en un hospital chileno. El ámbito de estudio fue la atención hospitalaria, con una población centrada en el personal de enfermería y una muestra de 12 expertas enfermeras docentes o con experiencia clínica en calidad y seguridad del paciente. Diseño y prueba de validez de contenido basado en 3 fases: identificación de principales métodos, cálculo de los métodos, comparación similitudes y diferencias de los métodos.
ResultadosExiste similitud entre los métodos de Lawsche, Tristán-López, Lynn y Polit et al. El valor kappa modificado es similar al valor de Índice de Validez de Contenido (I-CVI), con una pequeña variación que se produce al penalizar el valor por probabilidad de acuerdo al azar. Existen diferencias significativas entre todos los métodos y el coeficiente de validez de contenido (CVC) de Hernández-Nieto.
ConclusionesEl método de Polit et al. tiene mayor rigor y su formulación matemática está mejor justificada, entregando solidez a la investigación en enfermería clínica. Además, se sugiere utilizar el método de Hernández-Nieto cuando se busca validar más de una característica.
To compare techniques to analyze the content validity of measurement instruments applicable to nursing care research through a practical case.
MethodSecondary study derived from validating the Hospital Survey on Patient Safety (HSOPS) in a Chilean hospital. The study setting was hospital care, with a population focused on nursing staff and a sample of 12 expert nurses who are teachers or have clinical experience in quality and patient safety. Design and content validity test based on three phases: identification of primary methods, calculation of methods, comparison of similarities and differences of methods.
ResultsLawsche, Tristan-López, Lynn, Polit et al. methods are similar. The modified kappa value is similar to the content validity index (I-CVI) value, with a slight variation when penalizing the value by probability according to chance. There are significant differences between all methods and Hernández Nieto's content validity coefficient (CVC).
ConclusionsThe Polit et al. method is more rigorous, and its mathematical formulation is better justified, providing solidity to clinical nursing research. Furthermore, the Hernandez-Nieto method is suggested when validating more than one characteristic.
La validez de contenido es una propiedad fundamental de los instrumentos de medición, y existen diferentes técnicas para su análisis.
¿Qué aporta?El estudio entrega la primera comparación detallada de 5 técnicas para analizar la validez de contenido. Esta descripción permite a enfermería mejorar la elección del método de evaluación de validación de contenido en los cuestionarios a aplicar en la práctica clínica.
La investigación en enfermería es esencial para mejorar la calidad, tanto en la gestión del equipo de enfermería como en la ejecución de cuidados. Para ello con frecuencia se utilizan cuestionarios, encuestas o instrumentos de medición validados y confiables. En enfermería clínica, es fundamental contar con instrumentos precisos que garanticen lo que se pretende medir1.
La taxonomía Consensus based Standards for the selection of health Measurement Instruments (COSMIN), considera que la validez de contenido es la más importante dentro de las propiedades de medición y recomienda evaluar dicha validez con estándares propuestos sobre relevancia, exhaustividad y comprensibilidad, ofreciendo una lista de verificación para garantizar una evaluación sistemática y transparente en la validación de contenido de los instrumentos de medición2.
Existen métodos de validación de contenido, que involucran una o 2 rondas de juicios de expertos y análisis estadístico. El análisis por juicio de expertos implica la selección de un panel de expertos en el área temática, quienes evalúan la relevancia y representatividad de cada ítem del instrumento. Cuenta con las siguientes etapas: 1) Selección expertos: los expertos deben tener conocimientos profundos y experiencia en área temática del instrumento; 2) Evaluación ítems: cada experto revisa los ítems del instrumento y califica su relevancia utilizando una escala (p. ej., de 1 a 4, donde 1 es «nada relevante», y 4) es «muy relevante»); 3) Análisis de resultados: se calcula el nivel de acuerdo entre los expertos, p. ej, a través de la media de las calificaciones de relevancia para cada ítem y se determina si los ítems cumplen con el umbral predefinido de aceptabilidad.
En enfermería, se utilizan diversos instrumentos para evaluar aspectos como calidad de vida, seguridad del paciente, entre otros.
Debido al elevado uso de instrumentos de medición en enfermería clínica, a la importancia de la validez de contenido y a que no se recuperaron estudios previos similares, se consideró relevante comparar diferentes técnicas para estudiar la validez de contenido a partir de un caso práctico, con la finalidad de aportar rigor a la investigación en cuidados de enfermería. En este contexto, el objetivo de este estudio fue comparar diferentes técnicas para analizar la validez de contenido de instrumentos de medición aplicables en la investigación en cuidados de enfermería a través de un caso práctico.
MétodoEstudio secundario derivado de la validación de una encuesta hospitalaria sobre seguridad del paciente (HSOPS) en un hospital chileno3. Para el análisis se consideraron 3 fases: 1) identificación de los principales métodos de evaluación de la validez de contenido; 2) cálculo según cada método, y 3) diferencias y similitudes de los métodos.
El ámbito fue un hospital de alta complejidad en Valparaíso-Chile, basado en una investigación primaria realizada el año 20213. La población estuvo conformada por 12 expertas: 6 enfermeras académicas con grado de magíster y 5 años de experiencia docente en áreas de gestión de salud o investigación y 6 enfermeras con 5 años de experiencia en unidades de gestión de calidad y seguridad del paciente del hospital.
Las variables correspondieron al nivel de suficiencia, claridad, coherencia y relevancia, asignado por cada experta en cada ítem. Se solicitó una puntuación en base a una escala de Likert con valoración del 1 al 4, siendo 1 irrelevante y 4 extremadamente relevante.
La recogida de datos se efectuó mediante correo electrónico a cada experta. Se realizaron 2 rondas para alcanzar niveles aceptables de validez de contenido.
Las 5 técnicas comparadas para identificar diferencias y semejanzas fueron Lawshe4, Tristán-López5, Lynn6, Polit et al.7 y Hernández-Nieto8 como se describe en la tabla 1. Estas técnicas son principalmente de proporción, de la suma de expertos que valoraron positivamente el ítem, sobre el total de expertos. Lawshe propone un índice (similar a una correlación) que varía de −1 a 1. De una escala de 3 valores, para el cálculo se considera el número de expertos que evalúan el ítem como esencial.
Descripción métodos validez contenido, incluyendo la escala utilizada y la fórmula de cálculo
| Autor, año. | Escala utilizada | Fórmula de cálculo por ítem | Punto de corte y rango de valoración para cada ítem | Fórmula de cálculo para el instrumento |
|---|---|---|---|---|
| Lawshe, 19754 | 0: No es necesario1: Útil3: Esencial | CVR = ne− N/2N/2CVR: Razón de validez de contenido (content validity ratio)ne: Número de expertos que evaluaron un ítem como «esencial»N: Número total de expertos | Punto de corte:Dependiente del número de expertos.Ejemplo:5 expertos=16 expertos >0,8312 expertos ≥0,56Rango de valoración con 12 expertos:≤0,56: No aceptable>0,56: Aceptable | CVI = ∑i = 1M CVRiMCVI: Índice de validez de contenido de todo el instrumento (content validity index)CVR: Razón de validez de contenido de los ítems aceptablesM: Total de ítems aceptables de la prueba |
| Tristán-López, 20085 | 0: No es necesario1: Útil3: Esencial | CVR' = neN CVR’: Razón de validez de contenido modificada (content validity ratio)ne: Número de expertos que evaluaron un ítem como «esencial»N: Número total de expertos | Punto de corte:>0,58Independiente del número de expertosRango de valoración:≤0,58: No aceptable>0,58: Aceptable | CVI = ∑i = 1M CVRi'MCVI: Índice de validez de contenido de todo el instrumento (content validity index)CVR’: Razón de validez de contenido de los ítems aceptablesM: Total de ítems aceptables de la prueba |
| Lynn, 19866 | 1: Irrelevante2: Algo relevante3: Bastante relevante4: Extremadamente relevante | ICVI= n3+ n4NICVI: índice de validez de contenido para el ítem (ítem-content validity index)n3: Número de expertos que evaluaron un ítem con 3n4: Número de expertos que evaluaron un ítem con 4N: Número total de expertos | Punto de corte: Dependiente del número de expertosRango de valoración con 12 expertos:<0,75: No aceptable≥0,75: Bueno≥0,78: Excelente | SCVI/Ave = ∑i = 1M ICVIiMSCVI/Ave: Índice promedio de validez de contenido de todo el instrumento (scale-content validity index, average)ICV: Índice de validez de contenido de los ítems considerados válidosM: Total de ítems válidos de la pruebaOtra forma de calcular el índice a nivel del instrumento, es sumar la cantidad de ítems que consiguieron acuerdo universal y dividir por la cantidad total de ítems (SCVI/UA) |
| Polit et al., 20077 | 1: Irrelevante2: Algo relevante3: Bastante relevante4: Extremadamente relevante | k∗=1−CV−pc1−pcpc=N!A!(N−A)!pA(1−p)N−AQue se simplifica:pc=N!A!(N−A)!0.5Nsólo si p=0.5ICVI: Índice de validez de contenido para el ítem según Lynn 1986 (ítem content validity index)pc: probabilidad de acuerdo por azarN: Número de expertosA: Número de expertos que acordaron buena relevancia | Punto de corte:≥0.6Independiente del número de expertos, con un mínimo de 3Rango de valoración:<0,4: No aceptable≤0,59: Regular≤0,74: Bueno>0,74: Excelente | SCVI/Ave = ∑i = 1M ICVIiMSCVI: Índice de validez de contenido de todo el instrumento (scale content validity index)ICV: Índice de validez de contenido de los ítems considerados válidosM: Total de ítems válidos de la pruebaOtra forma de calcular el índice a nivel del instrumento, es sumar la cantidad de ítems que consiguieron acuerdo universal y dividir por la cantidad total de ítems (SCVI/UA) |
| Hernández-Nieto, 2011.8 | Escala de Likert de 3, 4 o 5 valoresEjemplo:1: Irrelevante2: Algo relevante3: Bastante relevante4: Extremadamente relevante | CVCi = MiVmax − PePe = 1jjCVCi: Coeficiente de validez de contenido para el ítem iPe: Error asignado a cada ítemj: número de revisoresMi: Media de la puntuación dada por los expertos en el ítem iVmáx: Puntuación máxima que el ítem podría alcanzar | Punto de corte:>0,7Independiente del número de expertos, siendo más estable con 5 o másRango de valoración:≤0,6: Inaceptable≤0,7: Deficiente≤0,8: Aceptable≤0,9: Buena>0.9: Excelente | ∑i = 1N CVCiNCVCi: Coeficiente de validez de contenido para el ítem iN: Número de ítems |
Lawshe modificado por Tristán-López simplifica el método anterior utilizando la proporción del total de expertos que evaluaron un ítem como esencial sobre el total de expertos. Esto hace el método más simple de interpretar en el rango de 0 a 1.
Lynn estima el índice de validez de contenido (I-CVI) y mide la proporción de expertos que evalúan un ítem como «bastante o extremadamente relevante» sobre el total de expertos. Esto es muy similar al método anterior, salvo que la escala que utiliza es de 4 valores y no de 3.
Polit et al. proponen una corrección al índice anterior con el Kappa modificado, calculando la probabilidad de acuerdo por azar para restar al valor de I-CVI, con lo que aseguran la reducción de cualquier distorsión estadística.
Hernández-Nieto, mide la proporción obtenida entre la media de puntuaciones asignadas al ítem y el valor máximo que se puede obtener como valoración en ese ítem. Se interpreta como «nivel de logro» alcanzado. También realiza una corrección por el error estadístico asignado a cada ítem que es una constante. Cuando se evalúan varias dimensiones, el cálculo se realiza por la suma de las 4 dimensiones para cada ítem y no de forma individual para cada dimensión.
Adicionalmente, se aplicó la prueba de Kruskal-Wallis para evaluar diferencias globales entre las distribuciones de los métodos y la prueba post hoc de Dunn para identificar los pares de métodos con diferencias significativas.
ResultadosLos resultados obtenidos en la característica «relevancia» en cada ítem y en promedio de cada dimensión del instrumento HSOPS 2.0, durante el proceso de adaptación transcultural, se presentan en la tabla 2.
Resumen de índices de validez según cada ítem. Resaltado en negrita se presentan los valores que obtuvieron valores más bajos
| Lawsche | Tristán-López | Lynn | Polit et al. | Hernández-Nieto | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| DIM | ITEM | CVR | Valoración | CVR’ | Valoración | ICV | Valoración | K* | Valoración | CVC | Valoración |
| D1 | 1 (A1) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9479 | Excelente |
| D1 | 2 (A8) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9635 | Excelente |
| D1 | 3 (A9) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9844 | Excelente |
| D2 | 4 (A2) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9219 | Excelente |
| D2 | 5 (A3) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,8958 | Buena |
| D2 | 6 (A5) | 0,8333 | Aceptable | 0,9167 | Aceptable | 0,9167 | Excelente | 0,9164 | Excelente | 0,9115 | Excelente |
| D2 | 7 (A11) | 0,6667 | Aceptable | 0,8333 | Aceptable | 0,8333 | Excelente | 0,8306 | Excelente | 0,8906 | Buena |
| D3 | 8 (A4) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9792 | Excelente |
| D3 | 9 (A12) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9687 | Excelente |
| D3 | 10 (A14) | 0,8333 | Aceptable | 0,9167 | Aceptable | 0,9167 | Excelente | 0,9164 | Excelente | 0,9323 | Excelente |
| D4 | 11 (A6) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9583 | Excelente |
| D4 | 12 (A7) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9792 | Excelente |
| D4 | 13 (A10) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9792 | Excelente |
| D4 | 14 (A13) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9635 | Excelente |
| D5 | 15 (B1) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9844 | Excelente |
| D5 | 16 (B2) | 0,8333 | Aceptable | 0,9167 | Aceptable | 0,9167 | Excelente | 0,9164 | Excelente | 0,9427 | Excelente |
| D5 | 17 (B3) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9740 | Excelente |
| D6 | 18 (C1) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9792 | Excelente |
| D6 | 19 (C2) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9844 | Excelente |
| D6 | 20 (C3) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9740 | Excelente |
| D7 | 21 (C4) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9896 | Excelente |
| D7 | 22 (C5) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9844 | Excelente |
| D7 | 23 (C6) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9844 | Excelente |
| D7 | 24 (C7) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9948 | Excelente |
| D8 | 25 (D1) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9062 | Excelente |
| D8 | 26 (D2) | 0,8333 | Aceptable | 0,9167 | Aceptable | 0,9167 | Excelente | 0,9164 | Excelente | 0,8698 | Buena |
| D9 | 27 (F1) | 0,8333 | Aceptable | 0,9167 | Aceptable | 0,9167 | Excelente | 0,9164 | Excelente | 0,9271 | Excelente |
| D9 | 28 (F2) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9844 | Excelente |
| D9 | 29 (F3) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9635 | Excelente |
| D10 | 30 (F4) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9427 | Excelente |
| D10 | 31 (F5) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9062 | Excelente |
| D10 | 32 (F6) | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9687 | Excelente |
| Promedio total | 0,9635 | Aceptable | 0,9818 | Aceptable | 0,9818 | Excelente | 0,9816 | Excelente | 0,9543 | Excelente | |
| Promedio DIM1 | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9653 | Excelente | |
| Promedio DIM2 | 0,875 | Aceptable | 0,9375 | Aceptable | 0,9375 | Excelente | 0,9368 | Excelente | 0,9049 | Excelente | |
| Promedio DIM3 | 0,9444 | Aceptable | 0,9722 | Aceptable | 0,9722 | Excelente | 0,9721 | Excelente | 0,9601 | Excelente | |
| Promedio DIM4 | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9701 | Excelente | |
| Promedio DIM5 | 0,9444 | Aceptable | 0,9722 | Aceptable | 0,9722 | Excelente | 0,9721 | Excelente | 0,9670 | Excelente | |
| Promedio DIM6 | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9792 | Excelente | |
| Promedio DIM7 | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9883 | Excelente | |
| Promedio DIM8 | 0,9167 | Aceptable | 0,9583 | Aceptable | 0,9583 | Excelente | 0,9582 | Excelente | 0,8880 | Excelente | |
| Promedio DIM9 | 0,9444 | Aceptable | 0,9722 | Aceptable | 0,9722 | Excelente | 0,9721 | Excelente | 0,9583 | Excelente | |
| Promedio DIM10 | 1 | Aceptable | 1 | Aceptable | 1 | Excelente | 1 | Excelente | 0,9392 | Excelente | |
CVC: coeficiente de validez de contenido; CVR: razón de validez de contenido (content validity ratio); DIM: dimensión del instrumento; ICVI: índice de validez de contenido para el ítem (ítem content validity index); K*: kappa modificado.
Se observa similitud en los métodos Lawsche, Tristán-López, Lynn, Polit et al., ya que el 81,25% de los ítems (n=21) obtuvieron valores igual a 1. Los valores Lawshe y Tristán-López son prácticamente los mismos, pero en una escala diferente. Los valores de Tristán-López y Lynn son los mismos, debido a la forma en que se agruparon los datos para ser consistente con la escala de 3 valores de Tristán-López, en el caso presentado, se reunieron los valores 3 y 4 de la escala, siendo este procedimiento, el mismo que realiza el método de Lynn para el cálculo del I-CVI.
Se visualizó que el valor de kappa modificado es similar al valor I-CVI, con pequeña variación a la baja, que se produce al disminuir el valor obtenido, por la probabilidad de acuerdo al azar.
La prueba de Kruskal-Wallis seguida de la prueba post hoc de Dunn identificó que la variable CVC tiene distribuciones significativamente diferentes respecto a CVR, CVR’, I-CVI, y K* (p<0,001).
En ninguno de los métodos aplicados, se eliminaron ítems debido a la obtención de valores por debajo del umbral de aceptación, definido para cada uno (tabla 1). El material suplementario detalla cálculo y características como suficiencia, claridad, coherencia.
DiscusiónA través de un caso práctico, se comparan 5 técnicas para analizar la validez de contenido en instrumentos de medición aplicables en la investigación en cuidado de enfermería. Es relevante, identificar la manera más adecuada de calcular el índice de validez contenido, según la problemática que se esté abordando y el tipo de instrumento a validar9. Los valores obtenidos fueron altos y no existieron grandes diferencias entre los métodos aplicados, debido a que el instrumento había tenido un proceso de validación previo que, aunque en otro idioma, facilitó la selección de ítems. La selección de los expertos es esencial, incluyendo la determinación de los criterios de su elección, la cantidad de los mismos, el proceso de valoración que incluya un recordatorio y los tiempos estimados para ello, entre otros10.
Las 4 primeras técnicas son similares y la más óptima es Polit et al., debido a que recoge de forma precisa la información. Las diferencias en los valores de I-CVI podrían deberse a la naturaleza del cálculo, ya que ninguno de ellos obtiene la nota máxima. Los ítems que no obtuvieron una «excelente» valoración, coinciden con valoraciones bajas de otros métodos, lo cual podría deberse a que utilizaron otras características y no solo la relevancia. En este sentido, el método de Hernández-Nieto (CVC) presenta mayores diferencias y permite obtener información complementaria para el análisis, esta diferencia se confirma que es significativa a través del análisis estadístico con la prueba de Kruskal-Wallis seguida de la prueba post hoc de Dunn.
Este estudio no está exento de limitaciones metodológicas como haber utilizado un único instrumento de medición, con una cantidad de expertos ajustados y en un contexto geográfico específico. Además, la temática se aborda desde un caso práctico y no con datos sintéticos. Estas limitaciones deberían tenerse en cuenta en futuras investigaciones. No obstante, consideramos que este estudio aporta resultados relevantes sobre diferentes técnicas para estudiar la validez de contenido.
En conclusión, se recomienda la utilización del método Polit et al., para validez contenido en instrumentos de medición para investigación en enfermería clínica, porque a nivel matemático tiene mayor rigor y está mejor justificada, entregando solidez a la investigación en cuidados. Complementariamente, se recomienda utilizar el método Hernández-Nieto, cuando se busca validar más de una característica.
FinanciaciónLa presente investigación no ha recibido ayuda específica proveniente del sector público, privado, comercial o entidades sin fines de lucro.
Consideraciones éticasEl estudio se enmarca en un proyecto aprobado por la Comisión Deontológica de la Universitat Jaume I Expediente CD/43/2019, se siguieron las consideraciones éticas dispuestas en la Ley 20.585 sobre acceso a información pública en Chile y los principios de declaración Helsinki. Los evaluadores expertos firmaron electrónicamente el consentimiento informado, aclarándose previamente que su participación era voluntaria y anónima.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses.
Agradecemos la participación del panel de expertos, conformado por enfermeras académicas y enfermeras clínicas con experiencia en la gestión de calidad y seguridad del paciente de Chile.





