The reliability of the twelve-item general health questionnaire (GHQ-12) under realistic assumptions

The twelve-item General Health Questionnaire (GHQ-12) is intended to screen for general (non-psychotic) psychiatric morbidity . Sitä on käytetty laajalti, ja sen seurauksena se on käännetty monille kielille ja validoitu laajasti yleisissä ja kliinisissä väestöryhmissä maailmanlaajuisesti . Validointiprosessi on ollut luonteeltaan pääasiassa psykometrinen, ja siinä on keskitytty tuotettujen tietojen luotettavuuteen ja validiteettiin, ja lisätukea on saatu mittauksen herkkyyttä ja spesifisyyttä koskevista tutkimuksista . Tästä huolimatta GHQ-12:n kaltaisten itseraportointimittareiden käytön hyödyllisyys on kyseenalaistettu, ja hiljattain julkaistussa katsauksessa todettiin, että kliiniset lääkärit saattavat pitää tämän menetelmän pientä positiivista ennustearvoa diagnostisena apuvälineenä epäuskottavana. Tämä herättää kysymyksen siitä, onko pelkkä psykometrinen validointi riittävä perusta GHQ-12:n hyväksymiselle seulontamittariksi kliinisessä käytännössä. Kliinisessä käytännössä heikko positiivinen ennustearvo tarkoittaa, että monet positiivisen seulontatuloksen antaneista eivät kärsi psykiatrisesta häiriöstä, mutta heidän voidaan katsoa tarvitsevan lisätutkimuksia; tutkimuskontekstissa se tarkoittaa, että monet osallistujat luokitellaan väärin, mikä on eräänlainen mittausvirhe, joka vääristää myöhempiä analyysejä .

Klassisessa testiteoriassa testiä tai kyselylomaketta arvioidaan sen ulottuvuuden, luotettavuuden ja validiteetin kannalta . Ulottuvuutta arvioidaan faktorianalyysillä, joka on menetelmä, joka perustuu kyselylomakkeen kysymysten pistemäärien välisten korrelaatioiden malliin. Jos kaikilla kysymyksillä on kohtalainen tai voimakas korrelaatio, syntyy yksi ”faktori”, joka viittaa siihen, että asteikko mittaa yhtä ulottuvuutta. Useat tällaisten kysymysten ryhmät tuottavat useita faktoreita, mikä viittaa siihen, että mitataan useita ulottuvuuksia. Koska menetelmä on riippuvainen kohtien välisistä korrelaatioista, kaikki korreloivat kohteet tulkitaan faktoriksi, ja siksi faktorirakenteiden tulkitsemisessa sisällöllisiksi ulottuvuuksiksi on oltava varovainen. Reliabiliteetti on arvio mittausvirheen asteesta, joka aiheutuu yksittäisen ulottuvuuden mittaamisesta useilla tehtävillä. Jos kyselylomakkeella mitataan useita ulottuvuuksia, jokaiselle ulottuvuudelle on tehtävä arvio reliabiliteetista. Luotettavuuden arvioimiseksi käytetään yleisesti useita menetelmiä (esimerkiksi Cronbachin alfa tai testin ja uusintatestin väliset korrelaatiot), mutta kaikki perustuvat kohteiden väliseen korrelaatioon (alfa) tai asteikkopisteiden väliseen korrelaatioon (testin ja uusintatestin välinen korrelaatio). Lisäksi tulokseksi saadun reliabiliteettikertoimen tulkinta riippuu joidenkin vahvojen oletusten täyttymisestä: tämän tutkimuksen yhteydessä tärkeimpänä oletuksena on, että kunkin kohteen mittausvirhe on satunnainen (eli ei korreloi minkään muun kanssa). Validiteetti viittaa siihen, missä määrin testi tai kyselylomake mittaa sitä, mitä sen on tarkoitus mitata. Tätä arvioidaan yleensä jonkin ulkoisen kriteerin perusteella, mutta pitäisi olla selvää, että yhden ulottuvuuden mittaamiseen tarkoitettu kyselylomake ei voi olla pätevä, jos se mittaa useita ulottuvuuksia tai jos se tuottaa tietoja, joissa mittausvirheiden osuus on suuri. Näin ollen faktorianalyysi ja luotettavuusarviot edistävät osaltaan mittarin riittävyyttä, mutta eivät takaa sitä.

Vaikka GHQ-12-lomakkeen psykometrinen arviointi viittaa siihen, että se on pätevä psykiatrisen sairastavuuden mittari (eli se mittaa sitä, mitä sen väitetään mittaavan) ja myös luotettava mittari (eli mittausvirhe on vähäinen), faktorirakenteen tarkastelu on toistuvasti johtanut siihen johtopäätökseen, että GHQ-12-lomakkeella mitataan psykiatrista sairastavuutta useammalla kuin yhdellä osa-alueella . Nämä tulokset on tulkittu todisteeksi siitä, että GHQ-12 mittaa useampaa kuin yhtä psykiatrisen sairastavuuden ulottuvuutta, vaikka yleensä jokainen ulottuvuus on todettu luotettavaksi ja kunkin ulottuvuuden mittausvirhe hyväksyttäväksi. Tällä hetkellä näyttää vallitsevan yksimielisyys siitä, että GHQ-12 mittaa psykiatrista häiriötä kolmella osa-alueella, jotka ovat sosiaalinen häiriö, ahdistuneisuus ja itseluottamuksen menetys, vaikkakin koska se on johdettu yksinomaan faktorianalyysin avulla, näiden osa-alueiden hyödyllisyys ja kliininen ontologia ovat edelleen epäselviä.

Toinen tulkinta tästä faktorianalyyttisestä todistusaineistosta on, että GHQ-12:n näennäinen moniulotteinen luonne on pikemminkin analyysimenetelmästä johtuvaa artefaktia kuin GHQ-12:n itsensä ominaisuus. Tutkimuksissa, joissa raportoitiin, että GHQ-12 on moniulotteinen, käytettiin joko eksploratiivista faktorianalyysiä (EFA) tai konfirmatorista faktorianalyysiä rakenneyhtälömallinnuksen (SEM) avulla, ja on jo pitkään tiedetty, että nämä menetelmät voivat tuottaa harhaanjohtavia ulottuvuuksia silloinkin, kun kyseinen mittari on yksiulotteinen, jos kyselylomakkeessa on sekaisin myönteisesti ja kielteisesti muotoiltuja kohtia. Esimerkiksi Rosenbergin itsetuntoasteikkoa pidettiin toistuvien faktorianalyysien perusteella moniulotteisena, mutta menetelmän vaikutusten analyysi osoitti, että ”faktorit” jakoivat asteikon positiivisesti ja negatiivisesti muotoiltuihin kohtiin ja että tiedot olivat johdonmukaisempia yksiulotteisen mittarin kanssa, jossa negatiivisesti muotoiltujen kohtien vastaukset olivat vääristyneet. Lisäksi negatiivisesti muotoiltujen kohtien korvaaminen samoilla käsitteillä, jotka oli ilmaistu positiivisesti, johti yksiulotteiseen rakenteeseen. Vastaavasti näennäisesti kaksiulotteinen Consideration of Future Consequences Scale (CFC) osoittautui yksiulotteiseksi, kun käänteisesti muotoiltujen kohtien vastausharha otettiin huomioon .

GHQ-12:lle määritetyt ulottuvuudet jakoivat kyselylomakkeen pohjimmiltaan positiivisesti ja negatiivisesti muotoiltuihin kohtiin, ja menetelmän vaikutusten analyysi laajassa väestöotoksessa vahvisti, että tiedot ovat johdonmukaisemmat yksiulotteisen mittarin kanssa, vaikkakin negatiivisesti muotoiltujen kohtien vastausharha oli huomattava . Näin havaittu vastausharha on johtunut vastausten epäselvästä sanamuodosta negatiivisesti muotoilluissa kysymyksissä, joissa vastausvaihtoehdot väittämiin, kuten ”Tunsin oloni jatkuvasti rasittuneeksi”, ovat seuraavat: ”Ei tavallista enemmän”, ”Ei lainkaan”, ”Melko tavallista enemmän” ja ”Paljon tavallista enemmän”. Kaksi ensimmäistä vaihtoehtoa soveltuvat yhtä hyvin vastaajiin, jotka haluavat ilmoittaa, ettei heillä ole negatiivista mielialaa. Tämä selitys riippuu kuitenkin ratkaisevasti GHQ-12:een sovellettavasta pisteytysjärjestelmästä. GHQ-12:ssa on kaksi suositeltua pisteytysmenetelmää: nelipisteinen vastausasteikko (”Likert-menetelmä”) tai kaksipisteinen vastausasteikko (”GHQ-menetelmä”), ja tämä epäselvyys voi koskea vain ensin mainittua; jälkimmäisessä molemmat vastaukset yhdistetään samaan vastausluokkaan (poissaolo), ja ero häviää. Lisäksi kehitettiin toinen pisteytysmenetelmä (”C-GHQ-menetelmä”) nimenomaan negatiivisesti muotoiltujen kohtien vastausten moniselitteisyyden poistamiseksi sen jälkeen, kun oli havaittu, että henkilö, joka ilmoitti, että hän ”tunsi itsensä jatkuvasti rasittuneeksi”, ”ei enempää kuin tavallisesti”, ilmoitti todennäköisesti tämän negatiivisen mielialatilan. Pisteytysmenetelmän vaihtelun on todettu vaikuttavan GHQ-12-mittarin herkkyyteen, erottelukykyyn ja näennäiseen ulottuvuuteen. Se voi myös, kuten edellä on esitetty, vaikuttaa vastausharhan asteeseen ja mahdollisesti poistaa sen kokonaan.

Yhteenvetona voidaan todeta, että GHQ-12-mittarin heikko ennustearvo voi johtua kyselylomakkeen moniulotteisesta luonteesta tai negatiivisesti muotoiltujen kohtien vastausharhasta: nämä ovat kilpailevia hypoteeseja, koska vastausharha on myös vastuussa moniulotteisuuden näennäisestä ilmenemisestä, ja moniulotteisissa malleissa puolestaan oletetaan, että vastausharhaa ei ole. Jos GHQ-12-mittari on moniulotteinen, se toimii huonosti epäspesifisen psykiatrisen sairastavuuden seulana; jos siinä on huomattavaa vastausharhaa, ongelma pahenee, koska tavanomaiset luotettavuusindeksit, kuten Cronbachin alfa, saattavat aliarvioida mittausvirheen astetta. Vain kahdessa tutkimuksessa tätä ongelmaa on lähestytty järjestelmällisesti. Ensimmäisessä näistä tutkimuksista arvioitiin useiden kilpailevien yksi-, kaksi- ja kolmiulotteisten mallien suhteellista sopivuutta käyttäen kolmea eri pisteytysmenetelmää, mutta niissä ei mallinnettu vastausharhaa. Toisessa tutkimuksessa arvioitiin kilpailevien ulottuvuusmallien sopivuutta, mukaan lukien yksi malli, jossa oli vastausharhaa, mutta siinä ei tutkittu pisteytysmenetelmän vaikutuksia. Tämän vuoksi tässä tutkimuksessa pyrittiin arvioimaan GHQ-12-mittaria kolmella pisteytysmenetelmällä, joita sovellettiin kolmeen malliin: alkuperäiseen yksiulotteiseen malliin, ”parhaaseen” kolmiulotteiseen malliin ja yksiulotteiseen malliin, joka sisälsi vastausharhaa. Kun aineistolle oli määritetty paras malli, toisena tavoitteena oli arvioida GHQ-12:n luotettavuutta mallin mukaisilla realistisemmilla oletuksilla.

Leave a Reply