A fiabilidade do questionário de saúde geral de doze itens (GHQ-12) sob hipóteses realistas

O questionário de saúde geral de doze itens (GHQ-12) destina-se a analisar a morbilidade psiquiátrica geral (não psicótica). Tem sido amplamente utilizado e, como resultado, traduzido para muitas línguas e amplamente validado em populações gerais e clínicas em todo o mundo . O processo de validação tem sido principalmente de natureza psicométrica, centrando-se na fiabilidade e validade dos dados gerados, com apoio adicional proveniente de estudos de sensibilidade e especificidade da medição . Apesar disso, a utilidade do uso de medidas de auto-relato, como o GHQ-12, tem sido questionada, com uma revisão recente concluindo que os clínicos podem achar o baixo valor preditivo positivo deste método pouco convincente como auxílio diagnóstico . Isto levanta a questão de se a validação psicométrica por si só é uma base suficiente para a adoção do GHQ-12 como um instrumento de triagem na prática clínica. Na prática clínica, o baixo valor preditivo positivo significa que muitos dos que têm valor preditivo positivo não sofrem de um distúrbio psiquiátrico, mas podem ser considerados como merecedores de investigação adicional; em um contexto de pesquisa significa que muitos participantes serão classificados erroneamente, uma forma de erro de medida que enviesará análises subseqüentes .

Na teoria clássica dos testes, um teste ou questionário é avaliado quanto à dimensionalidade, confiabilidade e validade . A dimensionalidade é avaliada através da análise fatorial, um método baseado no padrão de correlações entre as pontuações dos itens do questionário. Se todos os itens compartilham correlações moderadas a fortes, isto produz um único ‘fator’ e sugere que a escala mede uma única dimensão. Vários grupos de tais itens produzem vários fatores, sugerindo que várias dimensões estão sendo medidas. Como o método depende das correlações entre itens, qualquer coisa que produza itens correlacionados será interpretada como um fator e, portanto, deve-se ter cautela ao interpretar estruturas de fatores como dimensões substantivas. Confiabilidade é uma estimativa do grau de erro de medida que implica a medição de uma única dimensão por vários itens. Se um questionário mede várias dimensões, então cada uma requer uma estimativa de confiabilidade. Vários métodos são comumente usados para estimar a confiabilidade (por exemplo, as correlações Alfa do Cronbach ou test-retest), mas todos dependem da correlação entre os itens (Alfa) ou da pontuação da escala (test-retest). Além disso, a interpretação do coeficiente de confiabilidade resultante depende de algumas fortes suposições que estão sendo cumpridas: principalmente no contexto do estudo atual, há a suposição de que o erro de medição de cada item é aleatório (ou seja, não relacionado a nada mais). Finalmente, a validade refere-se à medida em que o teste ou questionário mede o que é suposto medir. Isto é comumente avaliado com referência a algum critério externo, mas deve ficar claro que um questionário destinado a medir uma única dimensão não pode ser válido se medir várias dimensões, ou se produzir dados com uma alta proporção de erro de medição. Assim, a análise fatorial e as estimativas de confiabilidade contribuem para a suficiência de uma medida, mas não a garantem.

Embora a avaliação psicométrica do GHQ-12 sugira que é uma medida válida de morbidade psiquiátrica (ou seja, mede o que se pretende medir), e também uma medida confiável (ou seja, o erro de medida é baixo), o exame da estrutura de fatores tem levado repetidamente à conclusão de que o GHQ-12 mede morbidade psiquiátrica em mais de um domínio . Estes resultados têm sido interpretados como evidência de que o GHQ-12 mede mais de uma dimensão de morbidade psiquiátrica, embora tipicamente cada dimensão tenha sido considerada confiável e o erro de medida para cada dimensão seja aceitável. Atualmente o consenso parece ser que o GHQ-12 mede disfunção psiquiátrica em três domínios, disfunção social, ansiedade e perda de confiança , embora tendo sido derivado apenas da análise fatorial, tanto a utilidade quanto a ontologia clínica desses domínios permanece pouco clara .

Uma outra interpretação dessa evidência analítica fatorial é que a aparente natureza multidimensional do GHQ-12 é simplesmente um artefato do método de análise, e não um aspecto do próprio GHQ-12 . Os estudos que relatam que o GHQ-12 é multidimensional utilizam a análise fatorial exploratória (EFA) ou a análise fatorial confirmatória por modelagem de equações estruturais (SEM), e há muito se sabe que estes métodos podem produzir dimensões espúrias, mesmo quando a medida em questão é unidimensional, se o questionário compreender uma mistura de itens fraseados positivamente e itens fraseados negativamente . Por exemplo, a Escala de Auto-Estima de Rosenberg foi considerada multidimensional com base em análises de fatores repetidos , mas a análise dos efeitos do método revelou que os ‘fatores’ dividiram a escala em itens fraseados positiva e negativamente, e que os dados eram mais consistentes com uma medida unidimensional com viés de resposta nos itens fraseados negativamente. Além disso, a substituição dos itens com frases negativas pelos mesmos conceitos expressos em frases positivas resultou em uma estrutura unidimensional . Da mesma forma, a aparentemente bidimensional Consideration of Future Consequences Scale (CFC) foi encontrada para uma dimensão quando se levou em conta o viés de resposta nos itens com palavras invertidas .

As dimensões identificadas para o GHQ-12 essencialmente dividiram o questionário em itens com frases positivas e negativas e a análise dos efeitos do método em uma grande amostra geral da população confirmou que os dados são mais consistentes com uma medida unidimensional, embora com um viés substancial de resposta nos itens com frases negativas . O viés de resposta assim identificado foi atribuído à formulação ambígua das respostas aos itens com frases negativas , onde as escolhas de resposta a afirmações como “Sentir-se constantemente sob tensão” são: “Não mais do que o habitual”, “Nada disso”, “Um pouco mais do que o habitual” e “Muito mais do que o habitual”. As duas primeiras opções aplicam-se igualmente bem aos respondentes que desejam indicar a ausência de um estado de humor negativo. Esta explicação, porém, depende crucialmente do sistema de pontuação aplicado ao GHQ-12. O GHQ-12 tem dois métodos de pontuação recomendados: uma escala de resposta de quatro pontos (“método Likert”) ou uma escala de resposta de dois pontos (“método GHQ”), e esta ambiguidade só se pode aplicar à primeira; para a segunda, ambas as respostas são colapsadas na mesma categoria de resposta (ausente) e a distinção desaparece. Além disso, um outro método de pontuação (método ‘C-GHQ’) foi concebido expressamente para eliminar a ambiguidade das respostas aos itens com frases negativas , seguindo a observação de que alguém indicando que eles ‘Sentiam-se constantemente sob tensão’, ‘Não mais do que o habitual’, estava provavelmente indicando a presença deste estado de humor negativo. Verificou-se que a variação no método de pontuação afecta a sensibilidade , a discriminação e a aparente dimensionalidade do GHQ-12 . Pode também, como argumentado acima, afetar o grau de viés de resposta e possivelmente eliminá-lo completamente.

Em resumo, o fraco valor preditivo do GHQ-12 pode ser devido à natureza multidimensional do questionário ou ao viés de resposta nos itens negativamente expressos: estas são hipóteses concorrentes, já que o viés de resposta também é responsável pelo aparecimento da multidimensionalidade, e os modelos multidimensionais, por sua vez, assumem que não há viés de resposta. Se o GHQ-12 é multidimensional, então ele terá um mau desempenho como tela de morbidade psiquiátrica não específica; se ele tem um grau substancial de viés de resposta, então o problema é exacerbado porque índices convencionais de confiabilidade como o Alfa de Cronbach podem subestimar o grau de erro de medida. Apenas dois estudos abordaram este problema de uma forma sistemática. O primeiro deles avaliou o ajuste relativo de vários modelos concorrentes unidimensionais, bidimensionais e tridimensionais usando os três diferentes métodos de pontuação, mas não modelou o viés de resposta. O segundo avaliou o ajuste de modelos dimensionais concorrentes, incluindo um com viés de resposta, mas não examinou os efeitos do método de pontuação. Este estudo visou, portanto, avaliar o GHQ-12 em termos dos três métodos de pontuação aplicados a três modelos: o modelo unidimensional original, o modelo tridimensional ‘melhor’ e um modelo unidimensional que incorpora o viés de resposta. Tendo determinado o melhor modelo para os dados, o segundo objetivo foi estimar a confiabilidade do GHQ-12 sob as suposições mais realistas que o modelo implica.

Leave a Reply