The reliability of the twelve-item general health questionnaire (GHQ-12) under realistic assumptions

The twelve-item General Health Questionnaire (GHQ-12) is intended to screen for general (non-psychotic) psychiatric morbidity . Széles körben használták, és ennek eredményeképpen számos nyelvre lefordították, és világszerte széles körben validálták általános és klinikai populációkban . A validálási folyamat alapvetően pszichometriai jellegű volt, a generált adatok megbízhatóságára és érvényességére összpontosítva, és további támogatást nyújtottak a mérés érzékenységét és specificitását vizsgáló tanulmányok . Ennek ellenére megkérdőjelezték az önbevallásos mérések, például a GHQ-12 használatának hasznosságát, és egy nemrégiben készült áttekintés arra a következtetésre jutott, hogy a klinikusok a módszer alacsony pozitív prediktív értékét diagnosztikai segédeszközként nem találják meggyőzőnek. Ez felveti a kérdést, hogy vajon a pszichometriai validáció önmagában elegendő alap-e a GHQ-12 szűrőeszközként való elfogadásához a klinikai gyakorlatban. A klinikai gyakorlatban a gyenge pozitív prediktív érték azt jelenti, hogy a pozitív szűrésen részt vevők közül sokan nem szenvednek pszichiátriai rendellenességben, de további vizsgálatra érdemesnek tekinthetők; kutatási kontextusban ez azt jelenti, hogy sok résztvevő tévesen lesz besorolva, ami a mérési hiba egy formája, ami torzítja a későbbi elemzéseket .

A klasszikus tesztelméletben egy teszt vagy kérdőív dimenzionalitását, megbízhatóságát és érvényességét vizsgálják . A dimenzionalitást faktorelemzéssel értékelik, amely módszer a kérdőív elemeinek pontszámai közötti korrelációk mintázatán alapul. Ha az összes tétel között mérsékelt vagy erős korrelációk vannak, akkor ez egyetlen “faktort” eredményez, és arra utal, hogy a skála egyetlen dimenziót mér. Ilyen tételek több csoportja több faktort eredményez, ami arra utal, hogy több dimenziót mérnek. Mivel a módszer az itemek közötti korrelációktól függ, minden, ami korrelált itemeket eredményez, faktornak értelmezhető, és ezért óvatosan kell eljárni a faktorstruktúrák érdemi dimenzióként való értelmezésekor. A megbízhatóság a mérési hiba mértékének becslése, amely egy dimenzió több elemmel történő méréséből adódik. Ha egy kérdőív több dimenziót mér, akkor mindegyikhez szükséges a megbízhatóság becslése. A megbízhatóság becslésére általában többféle módszert használnak (például a Cronbach-alfa vagy a teszt-reteszt korrelációk), de mindegyik a tételek (alfa) vagy a skála pontszámai (teszt-reteszt) közötti korrelációra támaszkodik. Ezenkívül az így kapott megbízhatósági együttható értelmezése néhány erős feltételezés teljesülésétől függ: a jelen tanulmány kontextusában a legfontosabb feltételezés az, hogy az egyes tételek mérési hibája véletlenszerű (azaz nem korrelál semmi mással). Végül az érvényesség arra utal, hogy a teszt vagy kérdőív milyen mértékben méri azt, amit mérnie kell. Ezt általában valamilyen külső kritériumra való hivatkozással értékelik, de világosnak kell lennie, hogy egy egyetlen dimenzió mérésére szánt kérdőív nem lehet érvényes, ha több dimenziót mér, vagy ha nagy arányú mérési hibával rendelkező adatokat szolgáltat. Ezért a faktorelemzés és a megbízhatósági becslések hozzájárulnak egy mérőeszköz megfelelőségéhez, de nem garantálják azt.

Míg a GHQ-12 pszichometriai értékelése azt sugallja, hogy a pszichiátriai morbiditás érvényes mérőeszköze (azaz azt méri, amit állítólag mér), és megbízható mérőeszköz is (azaz a mérési hiba alacsony), a faktorszerkezet vizsgálata ismételten arra a következtetésre vezetett, hogy a GHQ-12 egynél több területen méri a pszichiátriai morbiditást . Ezeket az eredményeket annak bizonyítékaként értelmezték, hogy a GHQ-12 a pszichiátriai morbiditás egynél több dimenzióját méri, bár jellemzően mindegyik dimenzió megbízhatónak és az egyes dimenziók mérési hibája elfogadhatónak bizonyult. Jelenleg úgy tűnik, konszenzus van abban, hogy a GHQ-12 három területen méri a pszichiátriai diszfunkciót, a szociális diszfunkciót, a szorongást és az önbizalomvesztést , bár mivel kizárólag faktoranalízisből származik, e területek hasznossága és klinikai ontológiája is tisztázatlan marad .

A faktoranalitikus bizonyítékok másik értelmezése szerint a GHQ-12 látszólagos többdimenziós jellege egyszerűen az elemzési módszer artefaktuma, nem pedig magának a GHQ-12-nek az aspektusa . A GHQ-12 többdimenziós voltáról beszámoló tanulmányok vagy feltáró faktorelemzést (EFA) vagy megerősítő faktorelemzést használtak strukturális egyenletmodellezéssel (SEM), és már régóta ismert, hogy ezek a módszerek hamis dimenziókat eredményezhetnek még akkor is, ha a kérdéses intézkedés egydimenziós, ha a kérdőív pozitívan és negatívan megfogalmazott tételek keverékéből áll . Például a Rosenberg önértékelési skálát az ismételt faktorelemzések alapján többdimenziósnak gondolták, de a módszer hatásainak elemzése kimutatta, hogy a “faktorok” a skálát pozitívan és negatívan megfogalmazott tételekre osztották, és hogy az adatok inkább egy egydimenziós mérésnek feleltek meg, a negatívan megfogalmazott tételek válaszadási torzításával. Ezenkívül a negatívan megfogalmazott tételek helyettesítése ugyanazokkal a pozitívan megfogalmazott fogalmakkal egydimenziós struktúrát eredményezett. Hasonlóképpen, a látszólag kétdimenziósnak tűnő Consideration of Future Consequences Scale (CFC) egydimenziósnak bizonyult, amikor figyelembe vették a fordítottan megfogalmazott tételek válaszadási torzítását .

A GHQ-12 esetében azonosított dimenziók lényegében pozitívan és negatívan megfogalmazott tételekre osztották a kérdőívet, és a módszer hatásainak elemzése egy nagy általános populációs mintán megerősítette, hogy az adatok jobban megfelelnek egy egydimenziós intézkedésnek, bár a negatívan megfogalmazott tételek jelentős válaszadási torzításával . Az így azonosított torzítást a negatívan megfogalmazott tételekre adott válaszok kétértelmű megfogalmazásának tulajdonították, ahol az olyan állításokra adott válaszlehetőségek, mint például a “Folyamatosan feszültnek éreztem magam”: “Nem jobban, mint általában”, “Egyáltalán nem”, “Inkább jobban, mint általában” és “Sokkal jobban, mint általában”. Az első két lehetőség ugyanolyan jól alkalmazható azokra a válaszadókra, akik a negatív hangulati állapot hiányát kívánják jelezni. Ez a magyarázat azonban döntően a GHQ-12-re alkalmazott pontozási rendszertől függ. A GHQ-12-nek kétféle pontozási módszere ajánlott: egy négypontos válaszskála (“Likert-módszer”) vagy egy kétpontos válaszskála (“GHQ-módszer”), és ez a kétértelműség csak az előbbire vonatkozhat; az utóbbi esetében mindkét válasz összevonható ugyanabba a válaszkategóriába (hiányzik), és a különbségtétel eltűnik. Ezenkívül egy további pontozási módszert (“C-GHQ módszer”) kifejezetten a negatívan megfogalmazott tételekre adott válaszok kétértelműségének kiküszöbölésére dolgoztak ki, miután megfigyelték, hogy ha valaki azt jelzi, hogy “Folyamatosan feszültnek érzi magát”, “A szokásosnál nem jobban”, akkor valószínűleg ennek a negatív hangulati állapotnak a jelenlétét jelzi. Megállapították, hogy a pontozási módszer eltérése befolyásolja a GHQ-12 érzékenységét, diszkriminációját és látszólagos dimenzionalitását. A fenti érvelés szerint befolyásolhatja a válaszadási torzítás mértékét is, és esetleg teljesen kiküszöbölheti azt.

Összefoglalva, a GHQ-12 gyenge prediktív értéke a kérdőív többdimenziós jellegének vagy a negatívan megfogalmazott tételekre vonatkozó válaszadási torzításnak tudható be: ezek egymással versengő hipotézisek, mivel a válaszadási torzítás is felelős a többdimenziós jelleg megjelenéséért, a többdimenziós modellek viszont feltételezik, hogy nincs válaszadási torzítás. Ha a GHQ-12 többdimenziós, akkor rosszul fog teljesíteni a nem specifikus pszichiátriai morbiditás szűréseként; ha jelentős mértékű válaszadási torzítással rendelkezik, akkor a probléma súlyosbodik, mivel a megbízhatóság hagyományos mutatói, mint például a Cronbach-alfa, alábecsülhetik a mérési hiba mértékét. Csak két tanulmány közelítette meg szisztematikusan ezt a problémát. Ezek közül az első több egymással versengő egy-, két- és háromdimenziós modell relatív illeszkedését vizsgálta a három különböző pontozási módszerrel, de nem modellezte a válaszadási torzítást. A második a versengő dimenzionális modellek illeszkedését értékelte, beleértve egy olyan modellt is, amely válaszeltérítést tartalmazott, de nem vizsgálta a pontozási módszer hatásait. E tanulmány célja ezért az volt, hogy a GHQ-12-t a három pontozási módszer szempontjából értékelje, három modellre alkalmazva: az eredeti egydimenziós modell, a “legjobb” háromdimenziós modell és egy egydimenziós modell, amely magában foglalja a válaszadási torzítást. Miután meghatároztuk az adatokhoz legjobban illeszkedő modellt, a második cél a GHQ-12 megbízhatóságának becslése volt a modell által feltételezett reálisabb feltételezések mellett.

Leave a Reply