判別分析入門(その1)

考え方が明確になり、焦点が判別的になればなるほど、私たちは力を発揮できるようになります!

次の二つの文章を少し分析してみましょう:

文1:私は、彼/彼女が全体として、健康であるときより良いパフォーマンスをすると思うのですが。

文章2: 体力的にも精神的にも健康である方が、より良いパフォーマンスを発揮することができる。

2つ目の文では、フィットネスの2つの側面と必要な焦点の間に明確な区別がありました。

差別化は、実現した差別化が否定的に使われる場合には悪いことです。 そうでなければ、差別化、区別、適切な焦点の分配を行う能力の助けを借りて、分岐した目標を達成するために驚くべきことができる。

Discriminant Analysisは、discriminationという単語から緩やかに派生したもので、結果のレベルを分類するために広く使用されている概念である。 つまり、ある変数のセットがカテゴリーメンバーの予測に有効かどうかを判断するのに役立ちます

たとえば、ある学生が試験で「合格」するか「不合格」するかを、期末試験までの間に行われた各種クラステストの点数に基づいて予測したい場合があります。

同様に、顧客が毎月の住宅ローンの支払いを行うかどうかを、彼が支払っている給与、毎月の支出、その他の銀行債務などに基づいて予測したい場合があります。 応答に影響を与える、あるいは応答がどうなるかを決定する上で重要な役割を持つ要因は、独立変数と呼ばれます。

多くの分類手法に関するさまざまな本を読んでいるうちに、非常に強力な分類ツールとして判別分析に出会いました。 また、ロジスティック回帰という手法もありますが、こちらはもっと広く使われているようです。 特に応答変数が2水準以上ある場合に、ロジスティック回帰より優れていることがある判別分析の微妙な点を明らかにしたいと思いました。 このトピックでは、大きく分けて次のような内容を扱います:

I. 判別分析とは何か

II. 判別分析とManovaの関係

III. 簡単な例による説明

I. 判別分析とは何か

Source: https://www.flickr.com/photos/15609463@N03/14898932531

Discriminant は、その名前が示すように、応答変数を異なるクラスに区別または識別する目的で、ビジネス問題を分析する方法です。

Typically Discriminant analysis is put to use when we already have predefined classes/categories of response and we want to build a model that helps in distinctly predicing the class, if any new observation comes into equation.

しかし、応答のクラスがまだ定義されていないデータセットがある場合、クラスタリングが判別に先行し、集団の動作を最もよく定義する出力のさまざまなカテゴリを作成します。 クラスタが構築された後、多くの統計学者/分析者は一般に、新しい観察を分類するための予測手法として判別モデルまたはロジスティック モデルを使用します。

Discriminant モデルが使用できる実際の関連例として、次のようなものがあります。

  • さまざまな性能指標に基づいて、エンジン/マシンの安定度 – 「良好」、「要検査」、「要修理/交換」 – を予測する。
  • 式の観点では、応答変数と独立変数の間の予想される関係は以下の式で説明できる

    d=v1*X1+v2*X2+…+vn*Xn+a

    ここでdは判別関数、v-判別係数、X-その変数についての応答者スコア、a-定数(エラー)である。 nは従属変数が持つグループ/メンバシップの数で、常にn-1の判別式が得られます。 Irisのデータセットでは、従属変数であるspeciesに3つのクラスがあるので、2つの方程式が得られます。 そして、その確率が最も高いグループに個人を割り当てる。 左の例を参照してください。

    ロジスティック回帰と比較して、LDAは結果変数が2つ以上のクラスを含む状況で、観測のカテゴリを予測するためにより適しています。 さらに、多クラス分類問題では、ロジスティック回帰よりも安定している。 LDA は,予測変数が正規分布(ガウス分布)であり,異なるクラスがクラス固有の平均と等しい分散/共分散を持つことを仮定する. これらの仮定が破られた場合、ロジスティック回帰の方がLDAより優れている。

    LDAの拡張である2次判別分析(QDA)は、分散/共分散の等しさを仮定していないという意味で、前者より少し柔軟である。 つまり、QDAでは共分散行列はクラスごとに異なっていてもよい。 LDAは,学習セットが少ない場合には,QDAよりも優れている傾向がある. これに対してQDAは、学習セットが非常に大きく、分類器の分散が大きな問題にならない場合や、Kクラスに共通の共分散行列の仮定が明らかに成り立たない場合に推奨されます。 判別分析とMANOVAの関係

    判別分析は、通常、カテゴリ応答変数と連続的な独立変数のセットがあるときに使用されます。 Manova 出力がカテゴリ変数の平均が有意に異なることを示し,それによって,応答に影響を与えると推定される要因の間に(平均の)差がないという帰無仮説を棄却するならば,判別分析は,応答変数を(判別モデルで)区別して分類する良い仕事をすることになる. もしManova が帰無仮説を棄却しないなら,判別分析は無駄な作業であろう. したがって、多くの点で判別はManovaに依存し、Manovaの逆と呼ばれることもあります。 以下、いくつかの例を挙げて、この点を詳しく見ていきます。 例による説明

    以下に見られるように、いくつかの相関する変数があります

    フラブノイドと非フラブノイドはOD280、OD315と相関があります。 プロリンやアルコールもそれなりの相関があります

    上記のコードに対する一変量プロットの一部を以下に示します

    Leave a Reply