The reliability of the twelve-item general health questionnaire (GHQ-12) under realistic assumptions

De twelve-item General Health Questionnaire (GHQ-12) is bedoeld om te screenen op algemene (niet-psychotische) psychiatrische morbiditeit . De vragenlijst is op grote schaal gebruikt en als gevolg daarvan vertaald in vele talen en uitgebreid gevalideerd in algemene en klinische populaties wereldwijd. Het validatieproces is voornamelijk psychometrisch van aard, met de nadruk op de betrouwbaarheid en validiteit van de gegenereerde gegevens, met extra ondersteuning van studies naar de gevoeligheid en specificiteit van de meting . Desondanks zijn er vraagtekens geplaatst bij het nut van zelfrapportagemethoden zoals de GHQ-12, waarbij in een recent overzicht werd geconcludeerd dat clinici de lage positief voorspellende waarde van deze methode als diagnostisch hulpmiddel wellicht niet overtuigend vinden. Dit roept de vraag op of psychometrische validatie alleen een voldoende basis is om de GHQ-12 als screeningsinstrument in de klinische praktijk te gebruiken. In de klinische praktijk betekent een lage positief voorspellende waarde dat veel van degenen die positief screenen niet aan een psychiatrische stoornis lijden, maar wel geacht kunnen worden nader onderzoek te rechtvaardigen; in een onderzoekscontext betekent het dat veel deelnemers verkeerd worden geclassificeerd, een vorm van meetfout die latere analyses zal vertekenen. In de klassieke testtheorie wordt een test of vragenlijst beoordeeld op dimensionaliteit, betrouwbaarheid en validiteit. Dimensionaliteit wordt beoordeeld met behulp van factoranalyse, een methode gebaseerd op het patroon van correlaties tussen de itemscores op de vragenlijst. Indien alle items matige tot sterke correlaties delen, levert dit één “factor” op en suggereert dit dat de schaal één dimensie meet. Meerdere groepen van dergelijke items leveren meerdere factoren op, wat suggereert dat meerdere dimensies worden gemeten. Aangezien de methode afhangt van de inter-item correlaties, zal alles wat gecorreleerde items oplevert, geïnterpreteerd worden als een factor, en daarom is voorzichtigheid geboden bij het interpreteren van factorstructuren als substantiële dimensies. Betrouwbaarheid is een schatting van de mate van meetfout die optreedt bij de meting van een enkele dimensie door verscheidene items. Indien een vragenlijst verschillende dimensies meet, moet voor elke dimensie een schatting van de betrouwbaarheid worden gemaakt. Er worden gewoonlijk verschillende methoden gebruikt om de betrouwbaarheid te schatten (bijvoorbeeld Cronbach’s Alpha of test-hertest correlaties), maar alle berusten op de correlatie tussen items (Alpha) of schaalscores (test-hertest). Bovendien hangt de interpretatie van de resulterende betrouwbaarheidscoëfficiënt af van een aantal sterke veronderstellingen: met name in de context van de huidige studie is er de veronderstelling dat de meetfout van elk item willekeurig is (d.w.z. niet gecorreleerd met iets anders). Tenslotte verwijst de validiteit naar de mate waarin de test of vragenlijst meet wat hij verondersteld wordt te meten. Dit wordt gewoonlijk beoordeeld aan de hand van een extern criterium, maar het moet duidelijk zijn dat een vragenlijst die bedoeld is om één dimensie te meten, niet geldig kan zijn als hij verschillende dimensies meet, of als hij gegevens oplevert met een hoog percentage meetfouten. Daarom dragen factoranalyse en betrouwbaarheidsschattingen bij aan de toereikendheid van een maatstaf, maar garanderen deze niet.

Terwijl psychometrische evaluatie van de GHQ-12 suggereert dat het een valide maatstaf van psychiatrische morbiditeit is (d.w.z. het meet wat het zegt te meten), en ook een betrouwbare maatstaf (d.w.z. meetfout is laag), heeft onderzoek van de factorstructuur herhaaldelijk geleid tot de conclusie dat de GHQ-12 psychiatrische morbiditeit in meer dan één domein meet. Deze resultaten zijn geïnterpreteerd als bewijs dat de GHQ-12 meer dan één dimensie van psychiatrische morbiditeit meet, hoewel doorgaans elke dimensie betrouwbaar is bevonden en de meetfout voor elke dimensie acceptabel. Op dit moment lijkt de consensus te zijn dat de GHQ-12 psychiatrisch disfunctioneren meet in drie domeinen, sociaal disfunctioneren, angst en verlies van zelfvertrouwen , hoewel deze alleen zijn afgeleid van factoranalyse, zowel het nut als de klinische ontologie van deze domeinen onduidelijk blijft.

Een andere interpretatie van dit factoranalytische bewijs is dat de schijnbare multidimensionale aard van de GHQ-12 eenvoudigweg een artefact is van de analysemethode, en niet zozeer een aspect van de GHQ-12 zelf. De studies die rapporteren dat de GHQ-12 multidimensionaal is, gebruikten exploratieve factoranalyse (EFA) of confirmatieve factoranalyse door structurele vergelijkingsmodellering (SEM), en het is al lang bekend dat deze methoden onechte dimensies kunnen produceren, zelfs als de maat in kwestie eendimensionaal is, als de vragenlijst een mengsel van positief geformuleerde items en negatief geformuleerde items bevat. Zo werd de Rosenberg-schaal voor zelfwaardering multidimensionaal geacht op basis van herhaalde factoranalyses, maar analyse van de methode-effecten toonde aan dat de “factoren” de schaal opsplitsten in positief en negatief geformuleerde items, en dat de gegevens beter overeenkwamen met een eendimensionale meting met een vertekening van de respons op de negatief geformuleerde items. Bovendien, vervanging van de negatief geformuleerde items door dezelfde concepten uitgedrukt in positieve zinnen resulteerde in een eendimensionale structuur. Evenzo bleek de ogenschijnlijk tweedimensionale Consideration of Future Consequences Scale (CFC) eendimensionaal te zijn wanneer rekening werd gehouden met responsvertekening op de omgekeerd geformuleerde items.

De voor de GHQ-12 geïdentificeerde dimensies splitsen de vragenlijst in wezen in positief en negatief geformuleerde items en analyse van methode-effecten in een grote algemene bevolkingssteekproef heeft bevestigd dat de gegevens meer consistent zijn met een eendimensionale maat, zij het met aanzienlijke responsvertekening op de negatief geformuleerde items. De aldus vastgestelde responsvertekening wordt toegeschreven aan de dubbelzinnige formulering van de antwoorden op de negatief geformuleerde items, waarbij de antwoordkeuzen op stellingen als ‘voelde zich voortdurend gespannen’ zijn: Niet meer dan gewoonlijk’, ‘Helemaal niet’, ‘Eerder meer dan gewoonlijk’ en ‘Veel meer dan gewoonlijk’. De eerste twee opties zijn even goed van toepassing op respondenten die de afwezigheid van een negatieve gemoedstoestand willen aangeven. Deze uitleg hangt echter in hoge mate af van het scoringssysteem dat op de GHQ-12 wordt toegepast. De GHQ-12 heeft twee aanbevolen scoringsmethoden: een vierpuntsschaal (“Likert-methode”) of een tweepuntsschaal (“GHQ-methode”), en deze dubbelzinnigheid kan alleen gelden voor de eerste; bij de tweede worden beide antwoorden samengevoegd tot dezelfde antwoordcategorie (afwezig) en verdwijnt het onderscheid. Bovendien werd een andere scoremethode (“C-GHQ”-methode) ontwikkeld, uitdrukkelijk om de dubbelzinnigheid van de antwoorden op de negatief geformuleerde items op te heffen, naar aanleiding van de vaststelling dat iemand die aangaf dat hij “zich voortdurend gespannen voelde”, “niet meer dan gewoonlijk”, waarschijnlijk op de aanwezigheid van deze negatieve gemoedstoestand wees. Variatie in de scoringsmethode blijkt van invloed te zijn op de gevoeligheid, de discriminatie en de schijnbare dimensionaliteit van de GHQ-12 . Het kan ook, zoals hierboven betoogd, de mate van respons bias beïnvloeden en mogelijk geheel elimineren.

Samenvattend, de slechte voorspellende waarde van de GHQ-12 kan te wijten zijn aan de multidimensionale aard van de vragenlijst of aan respons bias op de negatief geformuleerde items: dit zijn concurrerende hypothesen, omdat de respons bias ook verantwoordelijk is voor de verschijning van multidimensionaliteit, en de multidimensionale modellen op hun beurt veronderstellen dat er geen respons bias is. Als de GHQ-12 multidimensioneel is, zal hij slecht presteren als screen voor aspecifieke psychiatrische morbiditeit; als hij een aanzienlijke mate van responsbias heeft, wordt het probleem nog groter omdat conventionele betrouwbaarheidsindices zoals Cronbach’s Alpha de mate van meetfout kunnen onderschatten. Slechts twee studies hebben dit probleem op een systematische manier benaderd. In de eerste werd de relatieve fit van verschillende concurrerende één-, twee- en driedimensionale modellen beoordeeld aan de hand van de drie verschillende scoremethoden, maar werd geen model voor responsvertekening ontwikkeld. Het tweede model beoordeelde de fit van concurrerende dimensionale modellen, waaronder één met responsvertekening, maar onderzocht niet de effecten van de scoremethode. Deze studie had daarom tot doel de GHQ-12 te evalueren in termen van de drie scoringsmethoden toegepast op drie modellen: het oorspronkelijke eendimensionale model, het ‘beste’ driedimensionale model, en een eendimensionaal model dat responsvertekening integreert. Nadat het beste model voor de gegevens was vastgesteld, was het tweede doel een schatting te maken van de betrouwbaarheid van de GHQ-12 onder de meer realistische veronderstellingen die het model met zich meebracht.

Leave a Reply