The reliability of the twelve-item general health questionnaire (GHQ-12) under realistic assumptions

The twelve-item General Health Questionnaire (GHQ-12) is intended to screen for general (non-psychotic) psychiatric morbidity . Jest on szeroko stosowany, a w rezultacie przetłumaczony na wiele języków i szeroko walidowany w populacjach ogólnych i klinicznych na całym świecie. Proces walidacji miał głównie charakter psychometryczny, koncentrując się na rzetelności i ważności generowanych danych, a dodatkowe wsparcie pochodziło z badań nad czułością i swoistością pomiaru. Pomimo tego, użyteczność stosowania miar samoopisowych, takich jak GHQ-12, została zakwestionowana, a w ostatnim przeglądzie stwierdzono, że klinicyści mogą uznać niską pozytywną wartość predykcyjną tej metody za nieprzekonującą jako pomoc diagnostyczną. Rodzi to pytanie, czy sama walidacja psychometryczna jest wystarczającą podstawą do przyjęcia GHQ-12 jako instrumentu przesiewowego w praktyce klinicznej. W praktyce klinicznej słaba pozytywna wartość predykcyjna oznacza, że wiele osób z pozytywnymi wynikami badań przesiewowych nie cierpi na zaburzenia psychiczne, ale może być uznanych za uzasadniające dalsze badania; w kontekście badawczym oznacza to, że wielu uczestników zostanie błędnie zaklasyfikowanych, co stanowi formę błędu pomiarowego, który będzie wpływał na późniejsze analizy.

W klasycznej teorii testu test lub kwestionariusz ocenia się pod kątem wymiarowości, rzetelności i ważności. Wymiarowość jest oceniana za pomocą analizy czynnikowej, metody opartej na wzorcu korelacji między wynikami pozycji kwestionariusza. Jeśli wszystkie pozycje wykazują umiarkowane lub silne korelacje, powstaje jeden „czynnik” i sugeruje to, że skala mierzy jeden wymiar. Kilka grup takich pozycji daje kilka czynników, co sugeruje, że mierzonych jest kilka wymiarów. Ponieważ metoda ta zależy od korelacji między pozycjami, wszystko, co daje skorelowane pozycje, będzie interpretowane jako czynnik i dlatego należy zachować ostrożność przy interpretowaniu struktur czynnikowych jako istotnych wymiarów. Rzetelność jest oszacowaniem stopnia błędu pomiaru, jaki wiąże się z pomiarem jednego wymiaru przez kilka pozycji. Jeśli kwestionariusz mierzy kilka wymiarów, to każdy z nich wymaga oszacowania rzetelności. Do oszacowania rzetelności powszechnie stosuje się kilka metod (np. alfa Cronbacha lub korelacje test-retest), ale wszystkie opierają się na korelacji między pozycjami (alfa) lub punktami skali (test-retest). Ponadto, interpretacja wynikowego współczynnika rzetelności zależy od spełnienia pewnych istotnych założeń: przede wszystkim w kontekście obecnego badania, istnieje założenie, że błąd pomiaru każdej pozycji jest losowy (tj. nieskorelowany z niczym innym). Wreszcie, ważność odnosi się do zakresu, w jakim test lub kwestionariusz mierzy to, co ma mierzyć. Jest to zwykle oceniane w odniesieniu do jakiegoś zewnętrznego kryterium, ale powinno być jasne, że kwestionariusz przeznaczony do pomiaru jednego wymiaru nie może być ważny, jeśli mierzy kilka wymiarów lub jeśli dostarcza danych z wysokim odsetkiem błędów pomiaru. Stąd analiza czynnikowa i szacunki rzetelności przyczyniają się do wystarczalności środka, ale jej nie gwarantują.

Podczas gdy ocena psychometryczna GHQ-12 sugeruje, że jest on ważnym środkiem pomiaru zachorowalności psychicznej (tj. mierzy to, co ma mierzyć), a także środkiem rzetelnym (tj. błąd pomiaru jest niski), badanie struktury czynnikowej wielokrotnie prowadziło do wniosku, że GHQ-12 mierzy zachorowalność psychiczną w więcej niż jednej domenie. Wyniki te były interpretowane jako dowód, że GHQ-12 mierzy więcej niż jeden wymiar chorobowości psychiatrycznej, chociaż zazwyczaj każdy wymiar był uznawany za rzetelny, a błąd pomiaru dla każdego wymiaru za akceptowalny. Obecnie konsensus wydaje się być taki, że GHQ-12 mierzy dysfunkcję psychiatryczną w trzech domenach, dysfunkcję społeczną, lęk i utratę zaufania, chociaż po uzyskaniu wyłącznie z analizy czynnikowej, zarówno użyteczność, jak i ontologia kliniczna tych domen pozostaje niejasna.

Inna interpretacja tego czynnikowego dowodu analitycznego jest taka, że pozorna wielowymiarowość GHQ-12 jest po prostu artefaktem metody analizy, a nie aspektem samego GHQ-12. Badania donoszące, że GHQ-12 jest wielowymiarowy używane albo eksploracyjnej analizy czynnikowej (EFA) lub potwierdzającej analizy czynnikowej przez modelowanie równań strukturalnych (SEM), a od dawna wiadomo, że metody te mogą produkować fałszywe wymiary, nawet jeśli środek, o którym mowa jest jednowymiarowy, jeśli kwestionariusz składa się z mieszaniny pozytywnie sformułowanych pozycji i negatywnie sformułowanych pozycji . Na przykład, Skala Samooceny Rosenberga była uważana za wielowymiarową na podstawie powtarzanych analiz czynnikowych, ale analiza efektów metod ujawniła, że „czynniki” podzieliły skalę na pozycje sformułowane pozytywnie i negatywnie, a dane były bardziej spójne z jednowymiarową miarą z tendencyjnością odpowiedzi na pozycjach sformułowanych negatywnie. Ponadto, zastąpienie negatywnie sformułowanych pozycji tymi samymi koncepcjami wyrażonymi w pozytywnych zwrotach dało w rezultacie strukturę jednowymiarową. Podobnie, pozornie dwuwymiarowa Skala Względu na Przyszłe Konsekwencje (CFC) okazała się jednowymiarowa, gdy uwzględniono tendencyjność odpowiedzi na pozycjach sformułowanych odwrotnie. Wymiary zidentyfikowane dla GHQ-12 zasadniczo dzielą kwestionariusz na pozycje sformułowane pozytywnie i negatywnie, a analiza efektów metod w dużej próbie populacji ogólnej potwierdziła, że dane są bardziej spójne z jednowymiarową miarą, aczkolwiek ze znaczną tendencyjnością odpowiedzi na pozycjach sformułowanych negatywnie. Zidentyfikowaną w ten sposób tendencyjność odpowiedzi przypisano niejednoznacznemu sformułowaniu odpowiedzi na pytania sformułowane negatywnie, gdzie warianty odpowiedzi na stwierdzenia takie jak „Czułem się stale obciążony” to: 'Nie bardziej niż zwykle’, 'Zupełnie nie’, 'Raczej bardziej niż zwykle’ i 'Znacznie bardziej niż zwykle’. Pierwsze dwie opcje równie dobrze można zastosować do respondentów chcących wskazać brak negatywnego stanu nastroju. Wyjaśnienie to zależy jednak zasadniczo od systemu punktacji stosowanego w GHQ-12. GHQ-12 ma dwie zalecane metody punktacji: czteropunktową skalę odpowiedzi („metoda Likerta”) lub dwupunktową skalę odpowiedzi („metoda GHQ”), a ta niejednoznaczność może dotyczyć tylko pierwszej z nich; w przypadku drugiej obie odpowiedzi są łączone w tę samą kategorię odpowiedzi (nieobecny) i rozróżnienie znika. Ponadto, kolejna metoda punktacji (metoda „C-GHQ”) została opracowana specjalnie w celu wyeliminowania niejednoznaczności odpowiedzi na negatywnie sformułowane pozycje, w następstwie spostrzeżenia, że osoba wskazująca, iż „Czuje się stale napięta”, „Nie bardziej niż zwykle”, prawdopodobnie wskazuje na obecność tego negatywnego stanu nastroju. Stwierdzono, że różnice w sposobie punktowania wpływają na czułość, dyskryminację i pozorną wymiarowość GHQ-12. Może również, jak argumentowano powyżej, wpływać na stopień błędu odpowiedzi i ewentualnie całkowicie go wyeliminować.

Podsumowując, słaba wartość predykcyjna GHQ-12 może wynikać z wielowymiarowego charakteru kwestionariusza lub błędu odpowiedzi na negatywnie sformułowanych pozycjach: są to konkurujące hipotezy, ponieważ błąd odpowiedzi jest również odpowiedzialny za pojawienie się wielowymiarowości, a modele wielowymiarowe z kolei zakładają, że nie ma błędu odpowiedzi. Jeśli GHQ-12 jest wielowymiarowy, to będzie działał słabo jako ekran dla niespecyficznej zachorowalności psychiatrycznej; jeśli ma znaczny stopień tendencyjności odpowiedzi, to problem jest zaostrzony, ponieważ konwencjonalne wskaźniki rzetelności, takie jak Alfa Cronbacha, mogą zaniżać stopień błędu pomiaru. Tylko dwa badania podeszły do tego problemu w sposób systematyczny. Pierwsze z nich oceniało względne dopasowanie kilku konkurencyjnych modeli jedno-, dwu- i trójwymiarowych przy użyciu trzech różnych metod punktacji, ale nie modelowało tendencyjności odpowiedzi. Drugi oceniał dopasowanie konkurujących modeli wymiarowych, w tym jednego z tendencyjnością odpowiedzi, ale nie badał wpływu metody punktacji. Niniejsze badanie miało zatem na celu ocenę GHQ-12 pod względem trzech metod punktacji zastosowanych do trzech modeli: oryginalnego modelu jednowymiarowego, „najlepszego” modelu trójwymiarowego oraz modelu jednowymiarowego uwzględniającego nierówność odpowiedzi. Po określeniu najlepszego modelu dla danych, drugim celem było oszacowanie wiarygodności GHQ-12 przy bardziej realistycznych założeniach związanych z tym modelem.

Leave a Reply