L’affidabilità del questionario generale sulla salute a dodici voci (GHQ-12) sotto ipotesi realistiche
Il questionario generale sulla salute a dodici voci (GHQ-12) è destinato allo screening della morbilità psichiatrica generale (non psicotica). È stato ampiamente utilizzato e, di conseguenza, tradotto in molte lingue e ampiamente convalidato in popolazioni generali e cliniche in tutto il mondo. Il processo di convalida è stato principalmente di natura psicometrica, concentrandosi sull’affidabilità e la validità dei dati generati, con un ulteriore supporto proveniente da studi sulla sensibilità e specificità della misurazione. Nonostante ciò, l’utilità dell’uso di misure self-report come il GHQ-12 è stata messa in discussione, con una recente revisione che conclude che i medici possono trovare il basso valore predittivo positivo di questo metodo poco convincente come aiuto diagnostico. Questo solleva la questione se la sola convalida psicometrica sia una base sufficiente per adottare il GHQ-12 come strumento di screening nella pratica clinica. Nella pratica clinica, uno scarso valore predittivo positivo significa che molti di coloro che risultano positivi allo screening non soffrono di un disturbo psichiatrico, ma possono essere ritenuti meritevoli di ulteriori indagini; in un contesto di ricerca significa che molti partecipanti saranno classificati in modo errato, una forma di errore di misurazione che influenzerà le analisi successive.
Nella teoria classica dei test, un test o un questionario viene valutato per dimensionalità, affidabilità e validità. La dimensionalità è valutata usando l’analisi dei fattori, un metodo basato sul modello delle correlazioni tra i punteggi degli elementi del questionario. Se tutti gli item condividono correlazioni da moderate a forti, questo produce un singolo “fattore” e suggerisce che la scala misura una singola dimensione. Diversi gruppi di questi item producono diversi fattori, suggerendo che vengono misurate diverse dimensioni. Poiché il metodo dipende dalle correlazioni tra gli item, tutto ciò che produce item correlati sarà interpretato come un fattore, e quindi si dovrebbe esercitare cautela nell’interpretare le strutture dei fattori come dimensioni sostanziali. L’affidabilità è una stima del grado di errore di misura che comporta la misurazione di una singola dimensione da parte di più item. Se un questionario misura diverse dimensioni, allora ognuna richiede una stima dell’affidabilità. Diversi metodi sono comunemente usati per stimare l’affidabilità (per esempio, l’Alfa di Cronbach o le correlazioni test-retest), ma tutti si basano sulla correlazione tra gli item (Alfa) o i punteggi della scala (test-retest). Inoltre, l’interpretazione del coefficiente di affidabilità risultante dipende dal rispetto di alcune forti assunzioni: in particolare, nel contesto dello studio attuale, c’è l’assunzione che l’errore di misurazione di ogni item sia casuale (cioè non correlato con nient’altro). Infine, la validità si riferisce alla misura in cui il test o il questionario misura ciò che si suppone che misuri. Questo è comunemente valutato con riferimento a qualche criterio esterno, ma dovrebbe essere chiaro che un questionario destinato a misurare una singola dimensione non può essere valido se misura diverse dimensioni, o se produce dati con un’alta percentuale di errore di misura. Quindi, l’analisi dei fattori e le stime di affidabilità contribuiscono alla sufficienza di una misura, ma non la garantiscono.
Mentre la valutazione psicometrica del GHQ-12 suggerisce che è una misura valida della morbilità psichiatrica (cioè misura ciò che pretende di misurare), e anche una misura affidabile (cioè l’errore di misura è basso), l’esame della struttura dei fattori ha ripetutamente portato alla conclusione che il GHQ-12 misura la morbilità psichiatrica in più di un dominio . Questi risultati sono stati interpretati come prova che il GHQ-12 misura più di una dimensione della morbilità psichiatrica, anche se tipicamente ogni dimensione è stata trovata affidabile e l’errore di misura per ogni dimensione accettabile. Attualmente il consenso sembra essere che il GHQ-12 misuri la disfunzione psichiatrica in tre domini, la disfunzione sociale, l’ansia e la perdita di fiducia, anche se essendo stato derivato esclusivamente dall’analisi dei fattori, sia l’utilità che l’ontologia clinica di questi domini rimane poco chiara.
Un’altra interpretazione di questa evidenza analitica è che l’apparente natura multidimensionale del GHQ-12 è semplicemente un artefatto del metodo di analisi, piuttosto che un aspetto del GHQ-12 stesso. Gli studi che riportano che il GHQ-12 è multidimensionale hanno utilizzato l’analisi fattoriale esplorativa (EFA) o l’analisi fattoriale confermativa mediante modellazione di equazioni strutturali (SEM), ed è noto da tempo che questi metodi possono produrre dimensioni spurie anche quando la misura in questione è unidimensionale se il questionario comprende una miscela di elementi frasali positivi e negativi. Per esempio, si pensava che la Rosenberg Self-Esteem Scale fosse multidimensionale sulla base di analisi fattoriali ripetute, ma l’analisi degli effetti del metodo ha rivelato che i “fattori” dividevano la scala in item formulati positivamente e negativamente, e che i dati erano più coerenti con una misura unidimensionale con bias di risposta sugli item formulati negativamente. Inoltre, la sostituzione degli item formulati negativamente con gli stessi concetti espressi in frasi positive ha portato ad una struttura unidimensionale. Allo stesso modo, l’apparentemente bidimensionale Consideration of Future Consequences Scale (CFC) si è rivelata unidimensionale quando è stata presa in considerazione la distorsione di risposta sugli item formulati al contrario.
Le dimensioni identificate per il GHQ-12 essenzialmente dividono il questionario in item formulati positivamente e negativamente e l’analisi degli effetti del metodo in un ampio campione di popolazione generale ha confermato che i dati sono più coerenti con una misura unidimensionale, anche se con sostanziali distorsioni di risposta sugli item formulati negativamente. La distorsione di risposta così identificata è stata attribuita alla formulazione ambigua delle risposte agli item a formulazione negativa, dove le scelte di risposta ad affermazioni come “Mi sentivo costantemente sotto sforzo” sono: ‘Non più del solito’, ‘Per niente’, ‘Piuttosto più del solito’ e ‘Molto più del solito’. Le prime due opzioni si applicano altrettanto bene agli intervistati che desiderano indicare l’assenza di uno stato d’animo negativo. Questa spiegazione, tuttavia, dipende in modo cruciale dal sistema di punteggio applicato al GHQ-12. Il GHQ-12 ha due metodi di punteggio raccomandati: una scala di risposta a quattro punti (‘metodo Likert’) o una scala di risposta a due punti (‘metodo GHQ’), e questa ambiguità può applicarsi solo al primo; per il secondo, entrambe le risposte vengono fatte collassare nella stessa categoria di risposta (assente) e la distinzione scompare. Inoltre, un ulteriore metodo di punteggio (metodo “C-GHQ”) è stato ideato espressamente per eliminare l’ambiguità delle risposte agli item formulati in modo negativo, in seguito all’osservazione che qualcuno che indicava di “sentirsi costantemente sotto tensione”, “non più del solito”, stava probabilmente indicando la presenza di questo stato d’animo negativo. La variazione nel metodo di punteggio è stato trovato per influenzare la sensibilità, la discriminazione e la dimensionalità apparente del GHQ-12. In sintesi, lo scarso valore predittivo del GHQ-12 può essere dovuto alla natura multidimensionale del questionario o alla distorsione della risposta sugli item formulati negativamente: si tratta di ipotesi contrastanti, poiché la distorsione della risposta è anche responsabile della comparsa della multidimensionalità, e i modelli multidimensionali a loro volta presuppongono che non vi sia distorsione della risposta. Se il GHQ-12 è multidimensionale, allora funzionerà male come schermo per la morbilità psichiatrica non specifica; se ha un grado sostanziale di bias di risposta, allora il problema è aggravato perché gli indici convenzionali di affidabilità come l’Alfa di Cronbach possono sottostimare il grado di errore di misurazione. Solo due studi hanno affrontato questo problema in modo sistematico. Il primo di questi ha valutato l’adattamento relativo di diversi modelli concorrenti mono, bi e tridimensionali utilizzando i tre diversi metodi di punteggio, ma non ha modellato il bias di risposta. Il secondo ha valutato l’adattamento di modelli dimensionali concorrenti, compreso uno con bias di risposta, ma non ha esaminato gli effetti del metodo di punteggio. Questo studio ha quindi mirato a valutare il GHQ-12 in termini di tre metodi di punteggio applicati a tre modelli: il modello monodimensionale originale, il “miglior” modello tridimensionale, e un modello monodimensionale che incorpora la distorsione di risposta. Avendo determinato il miglior modello per i dati, il secondo obiettivo è stato quello di stimare l’affidabilità del GHQ-12 sotto le ipotesi più realistiche che il modello comporta.
Leave a Reply