Einführung in die Diskriminanzanalyse (Teil 1)

Je klarer wir in unserem Denken werden und je differenzierter wir uns konzentrieren, desto STÄRKER werden wir!

Nehmen Sie sich einen Moment Zeit, um diese beiden Sätze zu analysieren:

Satz 1: Ich denke, man ist besser, wenn man fit ist, insgesamt. Es ist wichtig, alles zu tun, um in jeder Hinsicht fit zu bleiben.

Satz 2: Man ist leistungsfähiger, wenn man sowohl körperlich als auch geistig fit ist. Es ist wichtig, an beiden Aspekten zu arbeiten, indem man verschiedene/unterschiedliche Formen von Energie auf jeden der Aspekte lenkt.

Kannst du irgendeinen Unterschied zwischen den beiden finden?

Im zweiten Satz gab es eine klare Unterscheidung zwischen den beiden Aspekten der Fitness und dem erforderlichen Fokus.

Unterscheidung ist schlecht, wenn die erreichte Unterscheidung auf negative Weise verwendet wird. Andernfalls kann man mit Hilfe der Fähigkeit zu unterscheiden, zu differenzieren und einen angemessenen Fokus zu verteilen, um divergierende Ziele zu erreichen, erstaunliche Dinge erreichen.

Die Diskriminanzanalyse, eine lose Ableitung des Wortes Diskriminierung, ist ein weit verbreitetes Konzept zur Klassifizierung von Stufen eines Ergebnisses. Mit anderen Worten, es ist nützlich, um festzustellen, ob eine Reihe von Variablen die Zugehörigkeit zu einer Kategorie vorhersagen kann

Zum Beispiel könnte ich vorhersagen wollen, ob ein Schüler in einer Prüfung „bestanden“ oder „nicht bestanden“ haben wird, und zwar auf der Grundlage der Noten, die er in den verschiedenen Klassenarbeiten im Vorfeld der Abschlussprüfung erzielt hat.

In ähnlicher Weise kann ich vorhersagen, ob ein Kunde seine monatliche Hypothekenzahlung leisten wird oder nicht, und zwar auf der Grundlage seines Gehalts, seiner monatlichen Ausgaben und anderer Bankverbindlichkeiten usw.

In beiden oben genannten Fällen zielen meine Bemühungen darauf ab, eine Antwort vorherzusagen, die kategorialer Natur ist. Die Faktoren, die die Antwort beeinflussen oder eine wesentliche Rolle bei der Entscheidung spielen, wie die Antwort ausfallen wird, werden als unabhängige Variablen bezeichnet.

Als ich mich durch verschiedene Bücher über eine Vielzahl von Klassifizierungstechniken las, stieß ich auf die Diskriminanzanalyse als ein sehr leistungsfähiges Klassifizierungsinstrument. Eine weitere Technik dieser Art ist die logistische Regression, die weitaus häufiger eingesetzt wird. Ich wollte die Feinheiten der Diskriminanzanalyse herausstellen, die manchmal die logistische Regression übertrifft, besonders wenn die Antwortvariable mehr als 2 Stufen hat. Das Thema umfasst im Wesentlichen die folgenden Bereiche:

I. Was ist Diskriminanzanalyse?

II. Welche Beziehung besteht zwischen der Diskriminanzanalyse und Manova?

III. Veranschaulichung anhand eines einfachen Beispiels

I. Was ist Discriminant Analysis?

Quelle: https://www.flickr.com/photos/15609463@N03/14898932531

Die Diskriminanzanalyse ist, wie der Name schon sagt, eine Methode zur Analyse von Geschäftsproblemen, die darauf abzielt, die Antwortvariable in verschiedene Klassen zu differenzieren oder zu unterscheiden.

Typischerweise wird die Diskriminanzanalyse eingesetzt, wenn wir bereits vordefinierte Klassen/Kategorien von Antworten haben und wir ein Modell erstellen wollen, das bei der eindeutigen Vorhersage der Klasse hilft, wenn eine neue Beobachtung in die Gleichung kommt.

Wenn wir jedoch einen Datensatz haben, für den die Antwortklassen noch nicht definiert sind, geht die Clusterbildung der Diskriminanzanalyse voraus, um die verschiedenen Kategorien der Ausgabe zu erstellen, die das Verhalten der Population am besten definieren. Nachdem die Cluster gebildet wurden, verwenden viele Statistiker/Analytiker im Allgemeinen entweder ein Diskriminanz- oder ein logistisches Modell als Vorhersagetechnik, um neue Beobachtungen zu klassifizieren.

Einige relevante Beispiele aus dem wirklichen Leben, bei denen ein Diskriminanzmodell verwendet werden kann, sind

  1. Wenn wir vorhersagen wollen, ob ein Antragsteller für ein Bankdarlehen wahrscheinlich säumig ist oder nicht.
  2. Vorhersage der Wahrscheinlichkeit eines Herzinfarkts auf der Grundlage verschiedener Gesundheitsindikatoren.
  3. Vorhersage des Stabilitätsgrads – „Gut“, „Erfordert Inspektion“ oder „Erfordert Reparatur/Ersatz“ – eines Motors/einer Maschine auf der Grundlage verschiedener Leistungsindikatoren.

In Form einer Gleichung kann die erwartete Beziehung zwischen der Antwortvariablen und den unabhängigen Variablen durch die folgende Gleichung erklärt werden

d=v1*X1+v2*X2+…+vn*Xn+a

Wobei d die Diskriminanzfunktion ist, v-die Diskriminanzkoeffizienten, X-der Wert der Antwortvariablen für diese Variable. a-Konstante(Fehler). Wir erhalten immer n-1 Diskriminanzgleichungen, wobei n die Anzahl der Gruppen/Mitgliedschaften ist, die die abhängige Variable hat. Für den Iris-Datensatz erhalten wir zwei Gleichungen, da wir drei Klassen der abhängigen Variable, d. h. der Arten, haben.

LDA (Lineare Diskriminanzanalyse) bestimmt die Gruppenmittelwerte und berechnet für jedes Individuum die Wahrscheinlichkeit, zu den verschiedenen Gruppen zu gehören. Die Person wird dann der Gruppe mit dem höchsten Wahrscheinlichkeitswert zugewiesen. Siehe Beispiel links.

Im Vergleich zur logistischen Regression eignet sich die LDA besser zur Vorhersage der Kategorie einer Beobachtung, wenn die Ergebnisvariable mehr als zwei Klassen enthält. Außerdem ist sie bei Mehrklassen-Klassifizierungsproblemen stabiler als die logistische Regression. Die LDA geht davon aus, dass die Prädiktoren normalverteilt sind (Gauß-Verteilung) und dass die verschiedenen Klassen klassenspezifische Mittelwerte und gleiche Varianz/Kovarianz haben. Wenn diese Annahmen verletzt werden, ist die logistische Regression besser als die LDA.

Die quadratische Diskriminanzanalyse (QDA), eine Erweiterung der LDA, ist etwas flexibler als die LDA, da sie nicht von der Gleichheit der Varianz/Kovarianz ausgeht. Mit anderen Worten: Bei QDA kann die Kovarianzmatrix für jede Klasse unterschiedlich sein. LDA ist tendenziell besser als QDA, wenn Sie eine kleine Trainingsmenge haben. Im Gegensatz dazu wird QDA empfohlen, wenn die Trainingsmenge sehr groß ist, so dass die Varianz des Klassifikators kein großes Problem darstellt, oder wenn die Annahme einer gemeinsamen Kovarianzmatrix für die K Klassen eindeutig unhaltbar ist.

II. Beziehung zwischen Diskriminanz- und MANOVA

Die Diskriminanzanalyse wird in der Regel verwendet, wenn wir eine kategoriale Antwortvariable und eine Reihe unabhängiger Variablen haben, die kontinuierlicher Natur sind.

Der Test vor der Verwendung einer Diskriminanzanalyse besteht darin, Manova auf die gleiche Reihe von Variablen anzuwenden, aber nach Umkehrung der Gleichung, d.h. Antwort (=abhängige) und unabhängige Variablen für die Diskriminanz werden zu unabhängigen Variablen bzw. Antwortvariablen für Manova. Wenn die Manova-Ausgabe zeigt, dass die Mittelwerte der kategorialen Variablen signifikant unterschiedlich sind und damit die Nullhypothese zurückgewiesen wird, dass es keinen Unterschied (in den Mittelwerten) zwischen den Faktoren gibt, von denen angenommen wird, dass sie sich auf die Antwort auswirken, nur dann leistet die Diskriminanzanalyse gute Arbeit bei der Differenzierung und Klassifizierung der Antwortvariablen (im Diskriminanzmodell). Wenn Manova die Nullhypothese nicht zurückweist, wäre die Diskriminanzanalyse eine sinnlose Übung. In vielerlei Hinsicht ist Discriminant also von Manova abhängig und wird manchmal als Umkehrung von Manova bezeichnet. Wir werden dies in den folgenden Abschnitten, in denen wir einige Beispiele durchgehen werden, noch genauer sehen.

III. Illustration anhand eines Beispiels

Ein paar korrelierte Variablen sind vorhanden, wie unten zu sehen ist

Flavnoide und Nicht-Flavnoide sind mit OD280.OD315 korreliert. Prolin und Alkohol weisen ebenfalls einen angemessenen Korrelationsgrad auf

Einige der Univariatsdiagramme für die obigen Codes sind unten dargestellt

Leave a Reply