La fiabilité du questionnaire de santé générale à douze items (GHQ-12) sous des hypothèses réalistes

Le questionnaire de santé générale à douze items (GHQ-12) est destiné à dépister la morbidité psychiatrique générale (non psychotique) . Il a été largement utilisé et, par conséquent, traduit dans de nombreuses langues et largement validé dans les populations générales et cliniques du monde entier . Le processus de validation a été principalement de nature psychométrique, se concentrant sur la fiabilité et la validité des données générées, avec un soutien supplémentaire provenant d’études sur la sensibilité et la spécificité de la mesure. Malgré cela, l’utilité de l’utilisation de mesures d’auto-évaluation telles que le GHQ-12 a été remise en question, une étude récente ayant conclu que les cliniciens pourraient trouver la faible valeur prédictive positive de cette méthode peu convaincante en tant qu’aide au diagnostic. Cela soulève la question de savoir si la validation psychométrique seule est une base suffisante pour adopter le GHQ-12 comme instrument de dépistage dans la pratique clinique. Dans la pratique clinique, une faible valeur prédictive positive signifie qu’un grand nombre de personnes dont le dépistage est positif ne souffrent pas d’un trouble psychiatrique mais peuvent être considérées comme justifiant une investigation plus approfondie ; dans un contexte de recherche, cela signifie que de nombreux participants seront mal classés, une forme d’erreur de mesure qui biaisera les analyses ultérieures .

Dans la théorie classique des tests, un test ou un questionnaire est évalué pour sa dimensionnalité, sa fiabilité et sa validité . La dimensionnalité est évaluée à l’aide de l’analyse factorielle, une méthode basée sur le schéma des corrélations entre les scores des items du questionnaire. Si tous les items partagent des corrélations modérées à fortes, cela produit un seul « facteur » et suggère que l’échelle mesure une seule dimension. Plusieurs groupes d’items de ce type produisent plusieurs facteurs, ce qui suggère que plusieurs dimensions sont mesurées. Puisque la méthode dépend des corrélations inter-items, tout ce qui produit des items corrélés sera interprété comme un facteur, et il faut donc faire preuve de prudence lorsqu’on interprète les structures factorielles comme des dimensions substantielles. La fiabilité est une estimation du degré d’erreur de mesure que comporte la mesure d’une seule dimension par plusieurs items. Si un questionnaire mesure plusieurs dimensions, chacune d’entre elles nécessite une estimation de la fiabilité. Plusieurs méthodes sont couramment utilisées pour estimer la fiabilité (par exemple, l’Alpha de Cronbach ou les corrélations test-retest), mais toutes reposent sur la corrélation entre les items (Alpha) ou les scores d’échelle (test-retest). En outre, l’interprétation du coefficient de fiabilité qui en résulte dépend de la réalisation de certaines hypothèses fortes : plus particulièrement dans le contexte de l’étude actuelle, il y a l’hypothèse que l’erreur de mesure de chaque item est aléatoire (c’est-à-dire non corrélée avec autre chose). Enfin, la validité fait référence à la mesure dans laquelle le test ou le questionnaire mesure ce qu’il est censé mesurer. Elle est généralement évaluée par rapport à un critère externe, mais il est clair qu’un questionnaire destiné à mesurer une seule dimension ne peut être valide s’il mesure plusieurs dimensions ou s’il produit des données comportant une forte proportion d’erreurs de mesure. Par conséquent, l’analyse factorielle et les estimations de fiabilité contribuent à la suffisance d’une mesure, mais ne la garantissent pas.

Bien que l’évaluation psychométrique du GHQ-12 suggère qu’il s’agit d’une mesure valide de la morbidité psychiatrique (c’est-à-dire qu’il mesure ce qu’il prétend mesurer), et également d’une mesure fiable (c’est-à-dire que l’erreur de mesure est faible), l’examen de la structure factorielle a conduit à plusieurs reprises à la conclusion que le GHQ-12 mesure la morbidité psychiatrique dans plus d’un domaine . Ces résultats ont été interprétés comme une preuve que le GHQ-12 mesure plus d’une dimension de la morbidité psychiatrique, bien qu’en général chaque dimension ait été jugée fiable et l’erreur de mesure pour chaque dimension acceptable. Actuellement, le consensus semble être que le GHQ-12 mesure le dysfonctionnement psychiatrique dans trois domaines, le dysfonctionnement social, l’anxiété et la perte de confiance, bien qu’ayant été dérivé uniquement de l’analyse factorielle, l’utilité et l’ontologie clinique de ces domaines restent floues.

Une autre interprétation de cette preuve d’analyse factorielle est que la nature multidimensionnelle apparente du GHQ-12 est simplement un artefact de la méthode d’analyse, plutôt qu’un aspect du GHQ-12 lui-même. Les études rapportant que le GHQ-12 est multidimensionnel ont utilisé soit une analyse factorielle exploratoire (AFE), soit une analyse factorielle confirmatoire par modélisation d’équations structurelles (MES), et l’on sait depuis longtemps que ces méthodes peuvent produire de fausses dimensions même lorsque la mesure en question est unidimensionnelle si le questionnaire comprend un mélange d’items formulés positivement et d’items formulés négativement . Par exemple, l’échelle d’estime de soi de Rosenberg était considérée comme multidimensionnelle sur la base d’analyses factorielles répétées, mais l’analyse des effets de la méthode a révélé que les « facteurs » divisaient l’échelle en items formulés positivement et négativement, et que les données correspondaient davantage à une mesure unidimensionnelle avec un biais de réponse sur les items formulés négativement. En outre, la substitution des items formulés de manière négative par les mêmes concepts exprimés de manière positive a donné lieu à une structure unidimensionnelle. De même, l’échelle apparemment bidimensionnelle de considération des conséquences futures (CFC) s’est avérée unidimensionnelle lorsque le biais de réponse sur les items formulés à l’envers a été pris en compte .

Les dimensions identifiées pour le GHQ-12 divisent essentiellement le questionnaire en items formulés positivement et négativement et l’analyse des effets de méthode dans un grand échantillon de population générale a confirmé que les données sont plus cohérentes avec une mesure unidimensionnelle, bien qu’avec un biais de réponse substantiel sur les items formulés négativement . Le biais de réponse ainsi identifié a été attribué à la formulation ambiguë des réponses aux items formulés de manière négative, où les choix de réponse à des affirmations telles que « Je me sens constamment sous tension » sont les suivants : « Pas plus que d’habitude », « Pas plus que d’habitude », « Pas plus que d’habitude », « Pas plus que d’habitude » : Pas plus que d’habitude », « Pas du tout », « Plutôt plus que d’habitude » et « Beaucoup plus que d’habitude ». Les deux premières options s’appliquent tout aussi bien aux répondants souhaitant indiquer l’absence d’un état d’esprit négatif. Toutefois, cette explication dépend essentiellement du système de notation appliqué au GHQ-12. Le GHQ-12 a deux méthodes de notation recommandées : une échelle de réponse à quatre points (« méthode Likert ») ou une échelle de réponse à deux points (« méthode GHQ »), et cette ambiguïté ne peut s’appliquer qu’à la première ; pour la seconde, les deux réponses sont regroupées dans la même catégorie de réponse (absence) et la distinction disparaît. En outre, une autre méthode de notation (méthode C-GHQ) a été conçue expressément pour éliminer l’ambiguïté des réponses aux items formulés de manière négative, après avoir observé qu’une personne indiquant qu’elle se sentait « constamment sous tension », « pas plus que d’habitude », indiquait probablement la présence de cet état d’humeur négatif. On a constaté que la variation de la méthode de notation affecte la sensibilité, la discrimination et la dimensionnalité apparente du GHQ-12. En résumé, la faible valeur prédictive du GHQ-12 peut être due à la nature multidimensionnelle du questionnaire ou à un biais de réponse sur les items formulés négativement : il s’agit d’hypothèses concurrentes, puisque le biais de réponse est également responsable de l’apparence de multidimensionnalité, et que les modèles multidimensionnels supposent à leur tour qu’il n’y a pas de biais de réponse. Si le GHQ-12 est multidimensionnel, il sera peu performant en tant que dépistage de la morbidité psychiatrique non spécifique ; s’il présente un degré substantiel de biais de réponse, le problème est exacerbé car les indices conventionnels de fiabilité tels que l’Alpha de Cronbach peuvent sous-estimer le degré d’erreur de mesure . Seules deux études ont abordé ce problème de manière systématique. La première a évalué l’adéquation relative de plusieurs modèles concurrents unidimensionnels, bidimensionnels et tridimensionnels en utilisant les trois différentes méthodes de notation, mais n’a pas modélisé le biais de réponse. La seconde a évalué l’adéquation de modèles dimensionnels concurrents, dont un avec un biais de réponse, mais n’a pas examiné les effets de la méthode de notation. Cette étude visait donc à évaluer le GHQ-12 en fonction des trois méthodes de notation appliquées à trois modèles : le modèle unidimensionnel original, le « meilleur » modèle tridimensionnel et un modèle unidimensionnel intégrant un biais de réponse. Après avoir déterminé le meilleur modèle pour les données, le deuxième objectif était d’estimer la fiabilité du GHQ-12 sous les hypothèses plus réalistes impliquées par le modèle.

Leave a Reply