The reliability of twelve-item general health questionnaire (GHQ-12) under realistic assumptions

12項目の一般健康質問票 (GHQ-12) は、一般精神疾患(非精神病)のスクリーニングを目的としています。 その結果,多くの言語に翻訳され,世界中の一般集団および臨床集団で広く検証されている。 その検証過程は、主に心理測定的なものであり、生成されたデータの信頼性と妥当性に焦点が当てられ、さらに測定の感度と特異性の研究からも裏付けが得られている。 にもかかわらず、GHQ-12のような自己報告式の測定法の有用性は疑問視されており、最近のレビューでは、臨床医はこの測定法の低い陽性適中率を診断の補助としては納得できないと結論づけている . このことは、GHQ-12を臨床の場でスクリーニング尺度として採用するのに、心理測定的妥当性のみで十分な根拠となりうるかという疑問を提起している。 臨床の場では、陽性適中率が低いと、スクリーニング陽性者の多くが精神疾患に罹患しているわけではないが、さらなる調査が必要と判断されることを意味する。研究の場では、多くの参加者が誤って分類され、その後の分析に偏りをもたらす測定誤差の一種を意味する。 次元性は因子分析を用いて評価されるが、これは質問項目の得点間の相関のパターンに基づく方法である。 すべての項目が中程度から強い相関を共有している場合、これは単一の「因子」を生成し、尺度が単一の次元を測定することを示唆している。 そのような項目のいくつかのグループは、いくつかの因子を生成し、いくつかの次元が測定されていることを示唆している。 この方法は項目間相関に依存するので、相関のある項目を生み出すものはすべて因子と解釈される。したがって、因子構造を実質的な次元として解釈する場合は注意が必要である。 信頼性とは、1つの次元を複数の項目で測定する際に生じる測定誤差の程度を推定するものである。 質問紙が複数の次元を測定する場合、それぞれに信頼性の推定が必要となる。 信頼性の推定には、いくつかの方法(例えば、クロンバックのアルファ値やテスト-リテスト相関)が一般的に用いられますが、いずれも項目間の相関(アルファ値)または尺度得点(テスト-リテスト)に依存します。 さらに、得られた信頼性係数の解釈は、いくつかの強い仮定が満たされることに依存します。最も注目すべきは、本研究の文脈では、各項目の測定誤差がランダムである(すなわち、他のものと相関がない)という仮定があることです。 最後に、妥当性とは、テストやアンケートが、測定しようとするものをどの程度測定しているかということです。 これは、一般的に何らかの外部基準を参照して評価されますが、単一次元の測定を意図したアンケートが、複数の次元を測定したり、測定誤差の割合が高いデータを生成する場合は、妥当とは言えないことは明らかです。 したがって,因子分析や信頼性推定は尺度の十分性に寄与するが,それを保証するものではない。

GHQ-12の心理測定評価は,それが精神疾患の妥当な尺度であること(すなわち,測定しようとするものを測定している),また信頼できる尺度(すなわち測定誤りが少ない)ことを示しているが,因子構造の検討はGHQ-12が複数の領域の精神疾患を測定するという結論を繰り返し導いてきた。 これらの結果は、GHQ-12が精神疾患の2つ以上の次元を測定している証拠と解釈されているが、通常、各次元は信頼性が高く、各次元の測定誤差は許容範囲であることが判明している。 現在では,GHQ-12は社会的機能障害,不安,自信喪失の3つの領域で精神機能障害を測定しているというのがコンセンサスのようであるが,因子分析のみから導かれたため,これらの領域の有用性と臨床的存在論は依然として不明確である。 GHQ-12が多次元的であると報告した研究は、探索的因子分析(EFA)あるいは構造方程式モデリング(SEM)による確証的因子分析を用いており、これらの方法は、質問票がポジティブな言い回しの項目とネガティブな言い回しの項目の混合からなる場合には、当該指標が一次元であっても偽の次元を生成しうることが以前から知られている … 例えば、Rosenberg Self-Esteem Scaleは、繰り返し因子分析に基づいて多次元であると考えられていたが、方法の効果を分析した結果、「因子」が尺度を正と負に分割し、データは負に分割された項目で反応バイアスを持つ一次元の尺度とより一致することが明らかになった。 さらに,ネガティブな表現の項目をポジティブな表現で表現された同じ概念で置き換えると,1次元の構造になった. 同様に、一見2次元に見えるCFC(Consideration of Future Consequences Scale)も、逆フレーズの項目の回答バイアスを考慮すると1次元になることが分かった。 このような回答バイアスは、否定的な表現を用いた項目に対する回答の曖昧な表現に起因するもので、「常に緊張を感じている」などの記述に対する回答の選択肢は以下の通りです。 いつもより全然」、「全然」、「むしろいつもより」、「いつもよりずっと」。 最初の2つの選択肢は、ネガティブな気分の状態がないことを示したいと考えている回答者にも同様に当てはまります。 しかし、この説明は、GHQ-12に適用される採点システムに決定的に依存する。 GHQ-12には、4点回答スケール(’Likert法’)と2点回答スケール(’GHQ法’)の2つの推奨採点法があり、このあいまいさは前者にのみ当てはまる。後者では、両方の回答は同じカテゴリーの回答(不在)にまとめられ、区別はなくなる。 さらに、「いつも緊張している」「いつもと変わらない」と答えた人は、おそらくこの否定的な気分状態の存在を示しているという観察から、否定的なフレーズの項目に対する回答の曖昧さをなくすために、さらなる採点方法(「C-GHQ」法)が特別に考案された。 採点方法の違いは、GHQ-12の感度、識別性、見かけの次元性に影響を与えることが判明している。

要するに、GHQ-12の予測値が低いのは、質問票が多次元的であるためか、あるいは否定的に表現された項目に対する反応バイアスのためか、ということである。 もしGHQ-12が多次元的であれば、非特異的な精神疾患のスクリーニングとしては不十分であろう。もし反応バイアスがかなりあれば、Cronbachのαのような従来の信頼性指標は測定誤差の程度を過小評価しかねないので問題はより深刻になるであろう … この問題に体系的に取り組んだ研究は2件しかない。 最初の研究は、3つの異なる採点方法を用いて、いくつかの競合する1次元、2次元、3次元モデルの相対的適合性を評価したもので、応答バイアスのモデル化は行っていない。 2番目は、応答バイアスを含む競合する次元モデルの適合性を評価したが、スコアリング方法の効果は検証しなかった。 そこで本研究では、3つの採点方法を3つのモデル(オリジナルの1次元モデル、「最良の」3次元モデル、反応バイアスを組み込んだ1次元モデル)に適用して、GHQ-12の評価を行うことを目的とした。 そして、データに最適なモデルを決定した後、そのモデルによってもたらされるより現実的な仮定の下でGHQ-12の信頼性を推定することを第二の目的とした

Leave a Reply