Die Zuverlässigkeit des Zwölf-Elemente-Fragebogens zum allgemeinen Gesundheitszustand (GHQ-12) unter realistischen Annahmen

Der Zwölf-Elemente-Fragebogen zum allgemeinen Gesundheitszustand (GHQ-12) dient der Erfassung allgemeiner (nicht psychotischer) psychiatrischer Morbidität. Er ist weit verbreitet und wurde daher in viele Sprachen übersetzt und in allgemeinen und klinischen Populationen weltweit umfassend validiert. Der Validierungsprozess war in erster Linie psychometrischer Natur und konzentrierte sich auf die Zuverlässigkeit und Validität der gewonnenen Daten; zusätzliche Unterstützung kam von Studien zur Sensitivität und Spezifität der Messung. Dennoch wurde der Nutzen von Selbstauskünften wie dem GHQ-12 in Frage gestellt, und eine kürzlich durchgeführte Untersuchung kam zu dem Schluss, dass Kliniker den geringen positiven Vorhersagewert dieser Methode als diagnostisches Hilfsmittel nicht überzeugend finden könnten. Dies wirft die Frage auf, ob die psychometrische Validierung allein eine ausreichende Grundlage für den Einsatz des GHQ-12 als Screening-Instrument in der klinischen Praxis darstellt. In der klinischen Praxis bedeutet ein geringer positiver Vorhersagewert, dass viele derjenigen, die ein positives Screening durchführen, nicht an einer psychiatrischen Störung leiden, aber möglicherweise weitere Untersuchungen benötigen; in einem Forschungskontext bedeutet dies, dass viele Teilnehmer falsch klassifiziert werden, was eine Form von Messfehler darstellt, der nachfolgende Analysen verzerrt.

In der klassischen Testtheorie wird ein Test oder Fragebogen auf seine Dimensionalität, Zuverlässigkeit und Gültigkeit hin untersucht. Die Dimensionalität wird mit Hilfe der Faktorenanalyse beurteilt, einer Methode, die auf dem Muster der Korrelationen zwischen den Itemwerten des Fragebogens basiert. Wenn alle Items mäßig bis stark miteinander korrelieren, entsteht ein einziger „Faktor“, was darauf schließen lässt, dass die Skala eine einzige Dimension misst. Mehrere Gruppen solcher Items ergeben mehrere Faktoren, was darauf hindeutet, dass mehrere Dimensionen gemessen werden. Da die Methode von den Korrelationen zwischen den Items abhängt, wird alles, was korrelierte Items hervorbringt, als Faktor interpretiert, so dass bei der Interpretation von Faktorstrukturen als substanzielle Dimensionen Vorsicht geboten ist. Die Reliabilität ist eine Schätzung des Grades des Messfehlers, der bei der Messung einer einzelnen Dimension durch mehrere Items auftritt. Wenn ein Fragebogen mehrere Dimensionen misst, ist für jede Dimension eine Schätzung der Reliabilität erforderlich. Zur Schätzung der Reliabilität werden üblicherweise mehrere Methoden verwendet (z. B. Cronbachs Alpha oder Test-Retest-Korrelationen), die sich jedoch alle auf die Korrelation zwischen den Items (Alpha) oder den Skalenwerten (Test-Retest) stützen. Darüber hinaus hängt die Interpretation des sich ergebenden Reliabilitätskoeffizienten davon ab, dass einige strenge Annahmen erfüllt sind: Im Kontext der vorliegenden Studie besteht insbesondere die Annahme, dass der Messfehler der einzelnen Items zufällig ist (d. h. nicht mit anderen Faktoren korreliert). Schließlich bezieht sich die Validität auf das Ausmaß, in dem der Test oder Fragebogen das misst, was er messen soll. Dies wird üblicherweise anhand eines externen Kriteriums beurteilt, aber es sollte klar sein, dass ein Fragebogen, der eine einzige Dimension messen soll, nicht gültig sein kann, wenn er mehrere Dimensionen misst oder wenn er Daten mit einem hohen Anteil an Messfehlern liefert. Daher tragen Faktorenanalyse und Reliabilitätsschätzungen zur Angemessenheit eines Maßes bei, garantieren sie aber nicht.

Während die psychometrische Bewertung des GHQ-12 darauf hindeutet, dass er ein gültiges Maß für psychiatrische Morbidität ist (d.h. er misst, was er zu messen vorgibt) und auch ein zuverlässiges Maß (d.h. der Messfehler ist gering), hat die Untersuchung der Faktorenstruktur wiederholt zu der Schlussfolgerung geführt, dass der GHQ-12 psychiatrische Morbidität in mehr als einem Bereich misst. Diese Ergebnisse wurden als Beweis dafür interpretiert, dass der GHQ-12 mehr als eine Dimension der psychiatrischen Morbidität misst, obwohl sich in der Regel jede Dimension als zuverlässig und der Messfehler für jede Dimension als akzeptabel erwiesen hat. Gegenwärtig scheint der Konsens zu sein, dass der GHQ-12 psychiatrische Funktionsstörungen in drei Bereichen misst, nämlich soziale Funktionsstörungen, Angst und Vertrauensverlust, obwohl sowohl der Nutzen als auch die klinische Ontologie dieser Bereiche unklar bleibt, da sie ausschließlich aus der Faktorenanalyse abgeleitet wurden.

Eine andere Interpretation dieser faktorenanalytischen Evidenz ist, dass die offensichtliche multidimensionale Natur des GHQ-12 einfach ein Artefakt der Analysemethode ist, und nicht ein Aspekt des GHQ-12 selbst. Die Studien, die berichten, dass der GHQ-12 multidimensional ist, haben entweder eine explorative Faktorenanalyse (EFA) oder eine konfirmatorische Faktorenanalyse durch Strukturgleichungsmodellierung (SEM) verwendet, und es ist seit langem bekannt, dass diese Methoden falsche Dimensionen erzeugen können, selbst wenn die fragliche Messung eindimensional ist, wenn der Fragebogen eine Mischung aus positiv formulierten Items und negativ formulierten Items enthält. So wurde beispielsweise die Rosenberg-Selbstwertgefühl-Skala auf der Grundlage wiederholter Faktorenanalysen als multidimensional angesehen, aber die Analyse der Methodeneffekte ergab, dass die „Faktoren“ die Skala in positiv und negativ formulierte Items aufspalteten und dass die Daten eher mit einer eindimensionalen Messung mit Antwortverzerrungen bei den negativ formulierten Items übereinstimmten. Darüber hinaus ergab die Substitution der negativ formulierten Items durch dieselben Konzepte, die in positiven Formulierungen ausgedrückt wurden, eine eindimensionale Struktur. In ähnlicher Weise erwies sich die scheinbar zweidimensionale Skala Consideration of Future Consequences (CFC) als eindimensional, wenn die Antwortverzerrung bei den umgekehrt formulierten Items berücksichtigt wurde.

Die für den GHQ-12 ermittelten Dimensionen teilen den Fragebogen im Wesentlichen in positiv und negativ formulierte Items auf, und die Analyse der Methodeneffekte in einer großen Stichprobe der Allgemeinbevölkerung hat bestätigt, dass die Daten eher mit einer eindimensionalen Messung übereinstimmen, wenn auch mit einer erheblichen Antwortverzerrung bei den negativ formulierten Items. Die so ermittelte Antwortverzerrung wurde auf die mehrdeutige Formulierung der Antworten auf die negativ formulierten Items zurückgeführt, bei denen die Antwortmöglichkeiten auf Aussagen wie „Fühlte sich ständig unter Druck“ wie folgt lauten: „Nicht mehr als sonst“, „Überhaupt nicht“, „Eher mehr als sonst“ und „Viel mehr als sonst“. Die ersten beiden Möglichkeiten gelten auch für Befragte, die das Fehlen einer negativen Stimmungslage angeben wollen. Diese Erklärung hängt jedoch entscheidend von dem auf den GHQ-12 angewandten Bewertungssystem ab. Für den GHQ-12 gibt es zwei empfohlene Bewertungsmethoden: eine vierstufige Antwortskala („Likert-Methode“) oder eine zweigestufte Antwortskala („GHQ-Methode“), und diese Mehrdeutigkeit kann nur für die erstgenannte Methode gelten; bei der letztgenannten werden beide Antworten in derselben Antwortkategorie (abwesend) zusammengefasst, und die Unterscheidung entfällt. Darüber hinaus wurde eine weitere Auswertungsmethode („C-GHQ“-Methode) entwickelt, um die Mehrdeutigkeit der Antworten auf die negativ formulierten Items zu beseitigen, nachdem festgestellt worden war, dass jemand, der angab, er fühle sich „ständig belastet“, „nicht mehr als sonst“, wahrscheinlich das Vorhandensein dieses negativen Stimmungszustands anzeigte. Es hat sich gezeigt, dass eine unterschiedliche Auswertungsmethode die Sensitivität, die Diskriminierung und die scheinbare Dimensionalität des GHQ-12 beeinträchtigt. Zusammenfassend lässt sich sagen, dass der schlechte Vorhersagewert des GHQ-12 entweder auf den multidimensionalen Charakter des Fragebogens oder auf eine Antwortverzerrung bei den negativ formulierten Items zurückzuführen ist: Dies sind konkurrierende Hypothesen, da die Antwortverzerrung auch für das Auftreten von Multidimensionalität verantwortlich ist und die multidimensionalen Modelle ihrerseits davon ausgehen, dass es keine Antwortverzerrung gibt. Wenn der GHQ-12 multidimensional ist, dann ist er als Screeninginstrument für unspezifische psychiatrische Morbidität schlecht geeignet; wenn er ein erhebliches Maß an Antwortverzerrung aufweist, dann wird das Problem noch verschärft, weil herkömmliche Reliabilitätsindizes wie Cronbachs Alpha den Grad des Messfehlers unterschätzen können. Nur zwei Studien haben sich systematisch mit diesem Problem befasst. In der ersten wurde die relative Passung mehrerer konkurrierender ein-, zwei- und dreidimensionaler Modelle unter Verwendung der drei verschiedenen Auswertungsmethoden bewertet, wobei jedoch die Antwortverzerrung nicht modelliert wurde. Die zweite Studie bewertete die Anpassung konkurrierender dimensionaler Modelle, einschließlich eines Modells mit Antwortverzerrung, untersuchte aber nicht die Auswirkungen der Auswertungsmethode. Ziel dieser Studie war es daher, den GHQ-12 im Hinblick auf die drei Bewertungsmethoden zu bewerten, die auf drei Modelle angewandt wurden: das ursprüngliche eindimensionale Modell, das „beste“ dreidimensionale Modell und ein eindimensionales Modell mit Antwortverzerrung. Nachdem das beste Modell für die Daten ermittelt wurde, bestand das zweite Ziel darin, die Zuverlässigkeit des GHQ-12 unter den realistischeren Annahmen des Modells abzuschätzen.

Leave a Reply