La fiabilidad del cuestionario de salud general de doce ítems (GHQ-12) bajo supuestos realistas
El Cuestionario de Salud General de doce ítems (GHQ-12) está destinado a detectar la morbilidad psiquiátrica general (no psicótica) . Se ha utilizado ampliamente y, como resultado, se ha traducido a muchos idiomas y se ha validado ampliamente en poblaciones generales y clínicas de todo el mundo. El proceso de validación ha sido principalmente de naturaleza psicométrica, centrándose en la fiabilidad y la validez de los datos generados, con el apoyo adicional de los estudios sobre la sensibilidad y la especificidad de la medición. A pesar de ello, se ha cuestionado la utilidad de utilizar medidas de autoinforme como el GHQ-12, y una revisión reciente concluye que los clínicos pueden encontrar el bajo valor predictivo positivo de este método poco convincente como ayuda al diagnóstico . Esto plantea la cuestión de si la validación psicométrica por sí sola es una base suficiente para adoptar el GHQ-12 como instrumento de cribado en la práctica clínica. En la práctica clínica, un valor predictivo positivo deficiente significa que muchas de las personas que dan positivo en el cribado no sufren un trastorno psiquiátrico, pero pueden considerarse merecedoras de una investigación adicional; en un contexto de investigación, significa que muchos participantes serán clasificados erróneamente, una forma de error de medición que sesgará los análisis posteriores.
En la teoría clásica de las pruebas, se evalúa la dimensionalidad, la fiabilidad y la validez de una prueba o cuestionario. La dimensionalidad se evalúa mediante el análisis factorial, un método basado en el patrón de correlaciones entre las puntuaciones de los ítems del cuestionario. Si todos los ítems comparten correlaciones de moderadas a fuertes, se produce un único «factor» y se sugiere que la escala mide una única dimensión. Varios grupos de estos ítems producen varios factores, lo que sugiere que se están midiendo varias dimensiones. Dado que el método depende de las correlaciones entre ítems, cualquier cosa que produzca ítems correlacionados se interpretará como un factor y, por lo tanto, hay que tener cuidado al interpretar las estructuras factoriales como dimensiones sustantivas . La fiabilidad es una estimación del grado de error de medición que conlleva la medición de una sola dimensión por parte de varios ítems. Si un cuestionario mide varias dimensiones, entonces cada una requiere una estimación de la fiabilidad. Se suelen utilizar varios métodos para estimar la fiabilidad (por ejemplo, el Alfa de Cronbach o las correlaciones test-retest), pero todos se basan en la correlación entre los ítems (Alfa) o las puntuaciones de la escala (test-retest). Además, la interpretación del coeficiente de fiabilidad resultante depende de que se cumplan algunos supuestos importantes: sobre todo, en el contexto del presente estudio, existe el supuesto de que el error de medición de cada ítem es aleatorio (es decir, no está correlacionado con nada más). Por último, la validez se refiere a la medida en que la prueba o el cuestionario mide lo que se supone que debe medir. Esto se suele evaluar con referencia a algún criterio externo, pero debe quedar claro que un cuestionario destinado a medir una sola dimensión no puede ser válido si mide varias dimensiones, o si produce datos con una alta proporción de error de medición. Por lo tanto, el análisis factorial y las estimaciones de fiabilidad contribuyen a la suficiencia de una medida, pero no la garantizan.
Aunque la evaluación psicométrica del GHQ-12 sugiere que es una medida válida de la morbilidad psiquiátrica (es decir, mide lo que pretende medir), y también una medida fiable (es decir, el error de medición es bajo), el examen de la estructura factorial ha llevado repetidamente a la conclusión de que el GHQ-12 mide la morbilidad psiquiátrica en más de un dominio . Estos resultados se han interpretado como evidencia de que el GHQ-12 mide más de una dimensión de la morbilidad psiquiátrica, aunque normalmente se ha encontrado que cada dimensión es fiable y el error de medición para cada dimensión es aceptable. Actualmente, el consenso parece ser que el GHQ-12 mide la disfunción psiquiátrica en tres dominios, la disfunción social, la ansiedad y la pérdida de confianza, aunque al haberse derivado únicamente del análisis factorial, tanto la utilidad como la ontología clínica de estos dominios siguen sin estar claras.
Otra interpretación de esta evidencia del análisis factorial es que la aparente naturaleza multidimensional del GHQ-12 es simplemente un artefacto del método de análisis, más que un aspecto del propio GHQ-12 . Los estudios que informan de que el GHQ-12 es multidimensional utilizaron el análisis factorial exploratorio (AFE) o el análisis factorial confirmatorio por modelización de ecuaciones estructurales (SEM), y se sabe desde hace tiempo que estos métodos pueden producir dimensiones espurias incluso cuando la medida en cuestión es unidimensional si el cuestionario comprende una mezcla de ítems con frases positivas y con frases negativas . Por ejemplo, se pensó que la escala de autoestima de Rosenberg era multidimensional sobre la base de análisis factoriales repetidos, pero el análisis de los efectos del método reveló que los «factores» dividían la escala en ítems redactados positiva y negativamente, y que los datos eran más consistentes con una medida unidimensional con sesgo de respuesta en los ítems redactados negativamente. Además, la sustitución de los ítems redactados negativamente por los mismos conceptos expresados en frases positivas dio lugar a una estructura unidimensional. Del mismo modo, la Escala de Consideración de las Consecuencias Futuras (CFC), aparentemente bidimensional, resultó ser unidimensional cuando se tuvo en cuenta el sesgo de respuesta en los ítems redactados de forma inversa.
Las dimensiones identificadas para el GHQ-12 dividen esencialmente el cuestionario en ítems redactados de forma positiva y negativa, y el análisis de los efectos del método en una amplia muestra de población general ha confirmado que los datos son más consistentes con una medida unidimensional, aunque con un sesgo de respuesta sustancial en los ítems redactados de forma negativa. El sesgo de respuesta así identificado se ha atribuido a la redacción ambigua de las respuestas a los ítems con frases negativas, donde las opciones de respuesta a afirmaciones como «Se sentía constantemente bajo tensión» son: «No más de lo habitual», «En absoluto», «Bastante más de lo habitual» y «Mucho más de lo habitual». Las dos primeras opciones se aplican igualmente a los encuestados que desean indicar la ausencia de un estado de ánimo negativo. Sin embargo, esta explicación depende fundamentalmente del sistema de puntuación que se aplique al GHQ-12. El GHQ-12 tiene dos métodos de puntuación recomendados: una escala de respuesta de cuatro puntos (‘método Likert’) o una escala de respuesta de dos puntos (‘método GHQ’), y esta ambigüedad sólo puede aplicarse a la primera; para la segunda, ambas respuestas se colapsan en la misma categoría de respuesta (ausente) y la distinción desaparece. Además, se ideó otro método de puntuación (método «C-GHQ») expresamente para eliminar la ambigüedad de las respuestas a los ítems con frases negativas, a raíz de la observación de que alguien que indicara que «Se sentía constantemente bajo tensión», «No más de lo habitual», probablemente estaba indicando la presencia de este estado de ánimo negativo. Se ha comprobado que la variación en el método de puntuación afecta a la sensibilidad, la discriminación y la dimensionalidad aparente del GHQ-12. En resumen, el escaso valor predictivo del GHQ-12 puede deberse a la naturaleza multidimensional del cuestionario o al sesgo de respuesta en los ítems con frases negativas: se trata de hipótesis contrapuestas, ya que el sesgo de respuesta también es responsable de la apariencia de multidimensionalidad, y los modelos multidimensionales asumen a su vez que no hay sesgo de respuesta. Si el GHQ-12 es multidimensional, entonces tendrá un mal rendimiento como cribado de la morbilidad psiquiátrica no específica; si tiene un grado sustancial de sesgo de respuesta, el problema se agrava porque los índices convencionales de fiabilidad, como el Alfa de Cronbach, pueden subestimar el grado de error de medición . Sólo dos estudios han abordado este problema de forma sistemática. El primero de ellos evaluó el ajuste relativo de varios modelos competitivos unidimensionales, bidimensionales y tridimensionales utilizando los tres métodos de puntuación diferentes, pero no modeló el sesgo de respuesta. El segundo evaluó el ajuste de los modelos dimensionales en competencia, incluyendo uno con sesgo de respuesta, pero no examinó los efectos del método de puntuación. Por lo tanto, este estudio tenía como objetivo evaluar el GHQ-12 en términos de los tres métodos de puntuación aplicados a tres modelos: el modelo unidimensional original, el «mejor» modelo tridimensional y un modelo unidimensional que incorpora el sesgo de respuesta. Una vez determinado el mejor modelo para los datos, el segundo objetivo fue estimar la fiabilidad del GHQ-12 bajo los supuestos más realistas que conlleva el modelo.
Leave a Reply