Tillförlitligheten hos det tolv punkter långa frågeformuläret om allmän hälsa (GHQ-12) under realistiska antaganden

Det tolv punkter långa frågeformuläret om allmän hälsa (GHQ-12) är avsett för att upptäcka allmän (icke-psykotisk) psykiatrisk sjuklighet. Det har använts i stor utsträckning och har därför översatts till många språk och validerats i stor utsträckning i allmänna och kliniska populationer över hela världen . Valideringsprocessen har huvudsakligen varit psykometrisk och fokuserat på tillförlitligheten och validiteten hos de data som genererats, med ytterligare stöd från studier av mätningens känslighet och specificitet . Trots detta har man ifrågasatt nyttan av att använda självrapporteringsmått som GHQ-12, och i en nyligen genomförd genomgång har man dragit slutsatsen att kliniker kan tycka att det låga positiva prediktiva värdet av denna metod är föga övertygande som diagnostiskt hjälpmedel . Detta väcker frågan om enbart psykometrisk validering är en tillräcklig grund för att anta GHQ-12 som ett screeninginstrument i klinisk praxis. I klinisk praxis innebär ett lågt positivt prediktivt värde att många av dem som screenas positivt inte lider av en psykiatrisk störning, men kan anses motivera ytterligare utredning; i forskningssammanhang innebär det att många deltagare kommer att felklassificeras, en form av mätfel som kommer att snedvrida efterföljande analyser .

I klassisk testteori bedöms ett test eller frågeformulär med avseende på dimensionalitet, tillförlitlighet och validitet . Dimensionaliteten bedöms med hjälp av faktoranalys, en metod som bygger på mönstret av korrelationer mellan resultaten av enkätfrågorna. Om alla frågor har måttliga till starka korrelationer ger detta en enda ”faktor” och tyder på att skalan mäter en enda dimension. Flera grupper av sådana frågor ger flera faktorer, vilket tyder på att flera dimensioner mäts. Eftersom metoden är beroende av korrelationerna mellan punkterna kommer allt som ger korrelerade punkter att tolkas som en faktor, och därför bör man vara försiktig när man tolkar faktorstrukturer som väsentliga dimensioner . Reliabiliteten är en uppskattning av graden av mätfel vid mätning av en enskild dimension med hjälp av flera objekt. Om ett frågeformulär mäter flera dimensioner krävs en uppskattning av tillförlitligheten för varje dimension. Flera metoder används vanligen för att uppskatta tillförlitligheten (t.ex. Cronbachs Alpha eller test-retestkorrelationer), men alla bygger på korrelationen mellan objekt (Alpha) eller skalvärden (test-retest). Dessutom är tolkningen av den resulterande tillförlitlighetskoefficienten beroende av att vissa starka antaganden uppfylls: i den aktuella studien är det framför allt antagandet att mätfelet för varje objekt är slumpmässigt (dvs. inte korrelerat med något annat). Slutligen avser validiteten i vilken utsträckning testet eller frågeformuläret mäter det som det är tänkt att mäta. Detta bedöms vanligen med hänvisning till något externt kriterium, men det bör stå klart att ett frågeformulär som är avsett att mäta en enda dimension inte kan vara giltigt om det mäter flera dimensioner, eller om det producerar data med en hög andel mätfel. Därför bidrar faktoranalys och tillförlitlighetsbedömningar till att ett mått är tillräckligt, men garanterar det inte.

Samtidigt som den psykometriska utvärderingen av GHQ-12 tyder på att det är ett giltigt mått på psykiatrisk sjuklighet (dvs. det mäter det som det avser att mäta), och även ett tillförlitligt mått (dvs. mätningsfelet är lågt), har en undersökning av faktorstrukturen vid upprepade tillfällen lett till slutsatsen att GHQ-12 mäter psykiatrisk sjuklighet inom mer än en domän . Dessa resultat har tolkats som bevis för att GHQ-12 mäter mer än en dimension av psykiatrisk sjuklighet, även om varje dimension vanligtvis har befunnits vara tillförlitlig och mätfelet för varje dimension acceptabelt. För närvarande tycks man vara överens om att GHQ-12 mäter psykiatrisk dysfunktion inom tre områden, social dysfunktion, ångest och förlorat självförtroende, även om det är oklart om dessa områden är användbara och har en klinisk ontologi, eftersom de enbart har härletts från en faktoranalys.

En annan tolkning av dessa faktoranalytiska bevis är att den uppenbara flerdimensionella karaktären hos GHQ-12 helt enkelt är en artefakt av analysmetoden, snarare än en aspekt av GHQ-12 i sig självt . De studier som rapporterar att GHQ-12 är flerdimensionell använde antingen explorativ faktoranalys (EFA) eller bekräftande faktoranalys genom strukturell ekvationsmodellering (SEM), och det är sedan länge känt att dessa metoder kan ge upphov till falska dimensioner även när måttet i fråga är endimensionellt om frågeformuläret består av en blandning av positivt formulerade frågor och negativt formulerade frågor . Exempelvis trodde man att Rosenbergs skala för självkänsla var flerdimensionell på grundval av upprepade faktoranalyser, men en analys av metodereffekter visade att ”faktorerna” delade upp skalan i positivt och negativt formulerade punkter, och att uppgifterna stämde bättre överens med ett endimensionellt mått med svarsbias på de negativt formulerade punkterna. Om man dessutom ersatte de negativt formulerade frågorna med samma begrepp uttryckta i positiva fraser, fick man en endimensionell struktur . På samma sätt visade sig den till synes tvådimensionella skalan för övervägande av framtida konsekvenser (CFC) vara endimensionell när hänsyn togs till svarsbias på de omvänt formulerade punkterna .

De dimensioner som identifierats för GHQ-12 delar i huvudsak upp frågeformuläret i positivt och negativt formulerade punkter, och analysen av metodereffekter i ett stort urval från den allmänna befolkningen har bekräftat att uppgifterna stämmer bättre överens med en endimensionell måttstock, även om det finns en betydande svarsbias på de negativt formulerade punkterna . Den svarsbias som identifierats har tillskrivits den tvetydiga formuleringen av svaren på de negativt formulerade frågorna, där svarsalternativen för påståenden som ”kände sig ständigt ansträngd” är följande: ”Inte mer än vanligt”, ”Inte alls”, ”Ganska mycket mer än vanligt” och ”Mycket mer än vanligt”. De två första alternativen passar lika bra för respondenter som vill ange avsaknaden av ett negativt humörtillstånd. Denna förklaring beror dock i hög grad på det poängsystem som tillämpas på GHQ-12. GHQ-12 har två rekommenderade poängsättningsmetoder: en fyrgradig svarsskala (”Likert-metoden”) eller en tvågradig svarsskala (”GHQ-metoden”), och denna tvetydighet kan bara gälla den förstnämnda metoden; för den sistnämnda sammanfattas båda svaren i samma svarskategori (frånvarande) och skillnaden försvinner. Dessutom utformades ytterligare en poängsättningsmetod (C-GHQ-metoden) uttryckligen för att eliminera tvetydigheten i svaren på de negativt formulerade frågorna, efter att ha observerat att en person som angav att han/hon ”kände sig ständigt ansträngd”, ”inte mer än vanligt”, troligen angav att han/hon hade ett sådant negativt humörtillstånd. Variationer i poängsättningsmetoden har visat sig påverka GHQ-12:s känslighet, diskrimination och den uppenbara dimensionaliteten. Det kan också, som ovan anförts, påverka graden av svarsbias och eventuellt eliminera den helt och hållet.

Sammanfattningsvis kan GHQ-12:s dåliga prediktiva värde bero på frågeformulärets flerdimensionella karaktär eller på svarsbias i fråga om de negativt formulerade frågorna: detta är konkurrerande hypoteser, eftersom svarsbias också är orsaken till att det ser ut som om det finns flerdimensionalitet, och de flerdimensionella modellerna i sin tur förutsätter att det inte finns någon svarsbias. Om GHQ-12 är flerdimensionell kommer den att fungera dåligt som en screening för ospecifik psykiatrisk sjuklighet. Om den har en betydande grad av svarsbias förvärras problemet eftersom konventionella tillförlitlighetsindex som Cronbachs Alpha kan underskatta graden av mätfel . Endast två studier har angripit detta problem på ett systematiskt sätt. I den första av dessa studier bedömdes den relativa anpassningen av flera konkurrerande en-, två- och tredimensionella modeller med hjälp av de tre olika poängsättningsmetoderna, men man modellerade inte svarsbias. I den andra studien bedömdes hur passande konkurrerande dimensionella modeller var, inklusive en modell med svarsbias, men effekterna av poängsättningsmetoden undersöktes inte. Denna studie syftade därför till att utvärdera GHQ-12 med avseende på de tre poängsättningsmetoderna tillämpade på tre modeller: den ursprungliga endimensionella modellen, den ”bästa” tredimensionella modellen och en endimensionell modell med responsbias. Efter att ha fastställt den bästa modellen för uppgifterna var det andra målet att uppskatta GHQ-12:s tillförlitlighet under de mer realistiska antaganden som modellen medförde.

Leave a Reply