Pålideligheden af det tolv-items spørgeskema om det generelle helbred (GHQ-12) under realistiske antagelser

Det tolv-items spørgeskema om det generelle helbred (GHQ-12) er beregnet til at screene for generel (ikke-psykotisk) psykiatrisk sygelighed. Det er blevet anvendt i vid udstrækning og er som følge heraf blevet oversat til mange sprog og er blevet omfattende valideret i generelle og kliniske populationer over hele verden . Valideringsprocessen har hovedsageligt været af psykometrisk karakter med fokus på pålideligheden og validiteten af de genererede data, med yderligere støtte fra undersøgelser af målingens følsomhed og specificitet . På trods heraf er der blevet sat spørgsmålstegn ved nytten af at anvende selvrapporteringsmålinger som GHQ-12, og i en nylig gennemgang konkluderes det, at klinikere kan finde den lave positive prædiktive værdi af denne metode ikke overbevisende som diagnostisk hjælpemiddel . Dette rejser spørgsmålet om, hvorvidt psykometrisk validering alene er et tilstrækkeligt grundlag for at indføre GHQ-12 som et screeningsinstrument i klinisk praksis. I klinisk praksis betyder en lav positiv prædiktiv værdi, at mange af dem, der screenes positivt, ikke lider af en psykiatrisk lidelse, men kan anses for at være berettiget til yderligere undersøgelse; i en forskningssammenhæng betyder det, at mange deltagere vil blive fejlklassificeret, en form for målefejl, der vil forvrænge efterfølgende analyser .

I klassisk testteori vurderes en test eller et spørgeskema for dimensionalitet, pålidelighed og validitet . Dimensionaliteten vurderes ved hjælp af faktoranalyse, en metode, der er baseret på mønstret af korrelationer mellem spørgeskemaelementernes score. Hvis alle elementer har moderate til stærke korrelationer, giver dette en enkelt “faktor” og tyder på, at skalaen måler en enkelt dimension. Flere grupper af sådanne elementer giver flere faktorer, hvilket tyder på, at der måles flere dimensioner. Da metoden afhænger af korrelationerne mellem elementerne, vil alt, hvad der giver korrelerede elementer, blive fortolket som en faktor, og man bør derfor være forsigtig med at fortolke faktorstrukturer som væsentlige dimensioner . Reliabilitet er et skøn over graden af målefejl ved måling af en enkelt dimension ved hjælp af flere elementer. Hvis et spørgeskema måler flere dimensioner, skal der for hver af dem foretages et skøn over pålideligheden. Der er flere metoder, der almindeligvis anvendes til at estimere pålideligheden (f.eks. Cronbachs Alpha eller test-retestkorrelationer), men alle er baseret på korrelationen mellem items (Alpha) eller skala-scores (test-retest). Desuden afhænger fortolkningen af den resulterende pålidelighedskoefficient af, at nogle stærke forudsætninger er opfyldt: i forbindelse med den aktuelle undersøgelse er der især den antagelse, at målefejlen for hvert element er tilfældig (dvs. ikke korreleret med noget andet). Endelig henviser validitet til, i hvilket omfang testen eller spørgeskemaet måler det, som det er meningen, at det skal måle. Dette vurderes almindeligvis i forhold til et eksternt kriterium, men det bør være klart, at et spørgeskema, der er beregnet til at måle en enkelt dimension, ikke kan være gyldigt, hvis det måler flere dimensioner, eller hvis det producerer data med en høj andel af målefejl. Derfor bidrager faktoranalyse og pålidelighedsvurderinger til at sikre, at et mål er tilstrækkeligt, men garanterer det ikke.

Mens den psykometriske evaluering af GHQ-12 tyder på, at det er et gyldigt mål for psykiatrisk sygelighed (dvs. det måler det, som det hævdes at måle) og også et pålideligt mål (dvs. målefejlen er lav), har en undersøgelse af faktorstrukturen gentagne gange ført til den konklusion, at GHQ-12 måler psykiatrisk sygelighed på mere end ét område . Disse resultater er blevet fortolket som bevis for, at GHQ-12 måler mere end én dimension af psykiatrisk sygelighed, selv om hver enkelt dimension typisk er blevet fundet pålidelig, og målefejlen for hver enkelt dimension er acceptabel. I øjeblikket synes der at være enighed om, at GHQ-12 måler psykiatrisk dysfunktion i tre domæner, nemlig social dysfunktion, angst og tab af selvtillid , selv om det udelukkende er blevet udledt af faktoranalyse, og både nytten og den kliniske ontologi af disse domæner er uklar .

En anden fortolkning af dette faktoranalytiske bevis er, at GHQ-12’s tilsyneladende flerdimensionale karakter blot er et artefakt af analysemetoden snarere end et aspekt af selve GHQ-12 . De undersøgelser, der rapporterer, at GHQ-12 er flerdimensional, anvendte enten eksplorativ faktoranalyse (EFA) eller konfirmatorisk faktoranalyse ved strukturel ligningsmodellering (SEM), og det har længe været kendt, at disse metoder kan producere falske dimensioner, selv når den pågældende foranstaltning er endimensional, hvis spørgeskemaet består af en blanding af positivt formulerede elementer og negativt formulerede elementer . F.eks. blev Rosenberg Self-Esteem Scale anset for at være flerdimensional på grundlag af gentagne faktoranalyser , men en analyse af metodeeffekter viste, at “faktorerne” opdelte skalaen i positivt og negativt formulerede elementer, og at dataene var mere i overensstemmelse med en endimensionel foranstaltning med svarforvridning på de negativt formulerede elementer. Desuden resulterede udskiftning af de negativt formulerede punkter med de samme begreber udtrykt i positive vendinger i en endimensional struktur . På samme måde blev den tilsyneladende todimensionelle skala for overvejelse af fremtidige konsekvenser (CFC) fundet at være endimensionel, når der blev taget hensyn til svarbias på de omvendt formulerede emner .

De dimensioner, der er identificeret for GHQ-12, opdeler i det væsentlige spørgeskemaet i positivt og negativt formulerede emner, og en analyse af metodeeffekter i en stor prøve fra den almindelige befolkning har bekræftet, at dataene er mere i overensstemmelse med en endimensionel foranstaltning, om end med betydelig svarbias på de negativt formulerede emner . Den således identificerede svarforvridning er blevet tilskrevet den tvetydige formulering af svarene på de negativt formulerede spørgsmål, hvor svarmulighederne på udsagn som “Føler sig konstant under pres” er: “Ikke mere end sædvanligt”, “Slet ikke”, “Mere end sædvanligt” og “Meget mere end sædvanligt”. De to første valgmuligheder passer lige så godt på respondenter, der ønsker at angive fraværet af en negativ stemningstilstand. Denne forklaring afhænger imidlertid i høj grad af det scoringssystem, der anvendes på GHQ-12. GHQ-12 har to anbefalede scoringsmetoder: en firepunktsresponsskala (“Likert-metoden”) eller en topunktsresponsskala (“GHQ-metoden”), og denne tvetydighed kan kun gælde for førstnævnte; i sidstnævnte tilfælde slås begge svar sammen til den samme svarkategori (fraværende), og forskellen forsvinder. Desuden blev der udviklet endnu en scoringsmetode (“C-GHQ-metoden”), der udtrykkeligt skulle fjerne tvetydigheden i svarene på de negativt formulerede spørgsmål, efter at det var blevet konstateret, at en person, der angav, at han/hun “følte sig konstant belastet”, “ikke mere end normalt”, sandsynligvis angav, at han/hun var i denne negative stemningstilstand. Variation i scoringsmetoden har vist sig at påvirke GHQ-12’s følsomhed, diskrimination og tilsyneladende dimensionalitet. Det kan også, som anført ovenfor, påvirke graden af responsbias og muligvis helt fjerne den.

Sammenfattende kan GHQ-12’s dårlige prædiktive værdi skyldes spørgeskemaets flerdimensionale karakter eller responsbias på de negativt formulerede items: det er konkurrerende hypoteser, da responsbias også er ansvarlig for den tilsyneladende flerdimensionalitet, og de flerdimensionale modeller til gengæld antager, at der ikke er responsbias. Hvis GHQ-12 er flerdimensional, vil den give dårlige resultater som screeningsundersøgelse for uspecifik psykiatrisk sygelighed; hvis den har en betydelig grad af responsbias, forværres problemet, fordi konventionelle indekser for pålidelighed såsom Cronbachs Alpha kan undervurdere graden af målefejl . Kun to undersøgelser har behandlet dette problem på en systematisk måde. I den første af disse undersøgelser blev den relative tilpasning af flere konkurrerende en-, to- og tredimensionelle modeller vurderet ved hjælp af de tre forskellige scoringsmetoder, men der blev ikke modelleret for svarbias. Den anden vurderede tilpasningen af konkurrerende dimensionelle modeller, herunder en model med responsbias, men undersøgte ikke virkningerne af scoringsmetoden. Formålet med denne undersøgelse var derfor at evaluere GHQ-12 i forhold til de tre scoringsmetoder anvendt på tre modeller: den oprindelige endimensionelle model, den “bedste” tredimensionelle model og en endimensionel model, der inkorporerer responsbias. Efter at have bestemt den bedste model for dataene var det andet mål at vurdere pålideligheden af GHQ-12 under de mere realistiske antagelser, som modellen indebærer.

Leave a Reply