Spolehlivost dvanáctipoložkového dotazníku všeobecného zdraví (GHQ-12) za realistických předpokladů
Dvanáctipoložkový dotazník všeobecného zdraví (GHQ-12) je určen ke screeningu všeobecné (nepsychotické) psychiatrické morbidity. Byl široce používán a v důsledku toho přeložen do mnoha jazyků a rozsáhle validován v obecné i klinické populaci po celém světě . Proces validace byl především psychometrické povahy, se zaměřením na spolehlivost a platnost získaných údajů, s další podporou pocházející ze studií citlivosti a specifičnosti měření . Přesto byla užitečnost používání sebeposuzovacích měřítek, jako je GHQ-12, zpochybněna, přičemž nedávný přehled dospěl k závěru, že kliničtí lékaři mohou považovat nízkou pozitivní prediktivní hodnotu této metody za nepřesvědčivou diagnostickou pomůcku . To vyvolává otázku, zda je samotná psychometrická validace dostatečným základem pro přijetí GHQ-12 jako screeningového nástroje v klinické praxi. V klinické praxi nízká pozitivní prediktivní hodnota znamená, že mnoho osob s pozitivním screeningem netrpí psychiatrickou poruchou, ale mohou být považovány za osoby, které si zaslouží další vyšetřování; v kontextu výzkumu to znamená, že mnoho účastníků bude nesprávně klasifikováno, což je forma chyby měření, která zkresluje následné analýzy .
V klasické teorii testů se test nebo dotazník posuzuje z hlediska dimenzionality, reliability a validity . Dimenzionalita se posuzuje pomocí faktorové analýzy, což je metoda založená na vzorci korelací mezi skóre položek dotazníku. Pokud všechny položky sdílejí střední až silné korelace, vzniká jediný „faktor“ a naznačuje, že škála měří jedinou dimenzi. Několik skupin takových položek vytváří několik faktorů, což naznačuje, že se měří několik dimenzí. Vzhledem k tomu, že metoda závisí na korelacích mezi položkami, bude vše, co vytváří korelované položky, interpretováno jako faktor, a proto je třeba být opatrný při interpretaci faktorových struktur jako podstatných dimenzí . Spolehlivost je odhad míry chyby měření, která vzniká při měření jedné dimenze pomocí několika položek. Pokud dotazník měří několik dimenzí, pak každá z nich vyžaduje odhad reliability. K odhadu reliability se běžně používá několik metod (například Cronbachova alfa nebo korelace test-retest), ale všechny se opírají o korelaci mezi položkami (alfa) nebo skóre škály (test-retest). Interpretace výsledného koeficientu reliability navíc závisí na splnění některých silných předpokladů: v kontextu této studie je to především předpoklad, že chyba měření každé položky je náhodná (tj. nekorelovaná s ničím jiným). A konečně validita se týká toho, do jaké míry test nebo dotazník měří to, co měřit má. To se obvykle posuzuje s ohledem na nějaké vnější kritérium, ale mělo by být jasné, že dotazník určený k měření jedné dimenze nemůže být validní, pokud měří více dimenzí nebo pokud poskytuje údaje s vysokým podílem chyby měření. Proto faktorová analýza a odhady spolehlivosti přispívají k dostatečnosti měření, ale nezaručují ji.
Ačkoli psychometrické hodnocení GHQ-12 naznačuje, že je platným měřítkem psychiatrické morbidity (tj. měří to, co má měřit), a také spolehlivým měřítkem (tj. chyba měření je nízká), zkoumání faktorové struktury opakovaně vedlo k závěru, že GHQ-12 měří psychiatrickou morbiditu ve více než jedné oblasti . Tyto výsledky byly interpretovány jako důkaz, že GHQ-12 měří více než jednu dimenzi psychiatrické morbidity, ačkoli obvykle byla každá dimenze shledána spolehlivou a chyba měření pro každou dimenzi přijatelnou. V současné době se zdá, že panuje shoda v tom, že GHQ-12 měří psychiatrickou dysfunkci ve třech doménách, a to sociální dysfunkci, úzkost a ztrátu sebedůvěry , ačkoli vzhledem k tomu, že byl odvozen výhradně na základě faktorové analýzy, zůstává užitečnost i klinická ontologie těchto domén nejasná .
Jinou interpretací těchto důkazů faktorové analýzy je, že zjevná vícedimenzionální povaha GHQ-12 je spíše pouhým artefaktem metody analýzy než aspektem samotného GHQ-12 . Studie uvádějící, že GHQ-12 je vícedimenzionální, používaly buď explorační faktorovou analýzu (EFA), nebo konfirmační faktorovou analýzu pomocí modelování strukturálních rovnic (SEM), přičemž je již dlouho známo, že tyto metody mohou vytvářet falešné dimenze, i když je daná míra jednodimenzionální, pokud dotazník obsahuje směs pozitivně formulovaných položek a negativně formulovaných položek . Například Rosenbergova škála sebeúcty byla na základě opakovaných faktorových analýz považována za vícedimenzionální , ale analýza vlivů metody odhalila, že „faktory“ rozdělily škálu na pozitivně a negativně formulované položky a že údaje spíše odpovídají jednodimenzionálnímu měřítku se zkreslením odpovědí u negativně formulovaných položek. Kromě toho nahrazení negativně formulovaných položek stejnými pojmy vyjádřenými pozitivními frázemi vedlo k jednorozměrné struktuře . Podobně se ukázalo, že zdánlivě dvourozměrná škála Zvažování budoucích důsledků (CFC) je jednodimenzionální, když se vzalo v úvahu zkreslení odpovědí u opačně formulovaných položek .
Dimenze identifikované pro GHQ-12 v podstatě rozdělily dotazník na pozitivně a negativně formulované položky a analýza účinků metody na velkém vzorku obecné populace potvrdila, že údaje jsou konzistentnější s jednodimenzionální mírou, i když se značným zkreslením odpovědí u negativně formulovaných položek . Takto zjištěné zkreslení odpovědí bylo připsáno nejednoznačnému znění odpovědí na negativně formulované položky , kde jsou možnosti odpovědí na výroky typu „Cítil jsem se neustále pod tlakem“: „Ne více než obvykle“, „Vůbec ne“, „Spíše více než obvykle“ a „Mnohem více než obvykle“. První dvě možnosti platí stejně dobře pro respondenty, kteří chtějí uvést nepřítomnost negativního stavu nálady. Toto vysvětlení však zásadně závisí na systému bodování použitém pro GHQ-12. GHQ-12 má dvě doporučené metody skórování: čtyřbodovou škálu odpovědí („Likertova metoda“) nebo dvoubodovou škálu odpovědí („metoda GHQ“) a tato nejednoznačnost se může týkat pouze první z nich; u druhé se obě odpovědi shrnou do stejné kategorie odpovědí (nepřítomný) a rozdíl zmizí. Kromě toho byla výslovně navržena další bodovací metoda („metoda C-GHQ“), aby se odstranila nejednoznačnost odpovědí na negativně formulované položky , a to po zjištění, že někdo, kdo uvedl, že „se cítí neustále pod tlakem“, „ne více než obvykle“, pravděpodobně označuje přítomnost tohoto negativního stavu nálady. Bylo zjištěno, že rozdíly ve způsobu skórování ovlivňují citlivost , diskriminaci a zjevnou dimenzionalitu GHQ-12 . Může také, jak bylo argumentováno výše, ovlivnit míru zkreslení odpovědí a případně ji zcela eliminovat.
Shrnem lze říci, že špatná výpovědní hodnota dotazníku GHQ-12 může být způsobena multidimenzionální povahou dotazníku nebo zkreslením odpovědí u negativně formulovaných položek: to jsou konkurenční hypotézy, protože zkreslení odpovědí je také zodpovědné za zdání multidimenzionality a multidimenzionální modely zase předpokládají, že zkreslení odpovědí neexistuje. Pokud je GHQ-12 multidimenzionální, pak bude jako screening nespecifické psychiatrické morbidity fungovat špatně; pokud má značnou míru zkreslení odpovědí, pak se problém ještě zhorší, protože konvenční indexy reliability, jako je Cronbachova alfa, mohou podcenit míru chyby měření. Pouze dvě studie se tomuto problému věnovaly systematicky. První z nich posuzovala relativní shodu několika konkurenčních jednorozměrných, dvourozměrných a třírozměrných modelů s použitím tří různých metod skórování, ale nemodelovala zkreslení odezvy. Druhá hodnotila shodu konkurenčních dimenzionálních modelů, včetně jednoho se zkreslením odezvy, ale nezkoumala vliv metody skórování. Cílem této studie proto bylo vyhodnotit GHQ-12 z hlediska tří skórovacích metod aplikovaných na tři modely: původní jednorozměrný model, „nejlepší“ třírozměrný model a jednorozměrný model zahrnující zkreslení odpovědi. Po určení nejlepšího modelu pro data bylo druhým cílem odhadnout spolehlivost GHQ-12 za realističtějších předpokladů, které s sebou tento model nese.
.
Leave a Reply