Wprowadzenie do analizy dyskryminacyjnej (część 1)

Istniejemy w naszym myśleniu, i bardziej dyskryminacyjne w naszej koncentracji, tym bardziej EMPOWERED stajemy się!

Poświęć chwilę na analizę tych dwóch zdań:

Zdanie 1: Myślę, że jeden wykonuje lepiej, gdy on / ona jest w formie, ogólnie. Ważne jest, aby zrobić wszystko, co jest wymagane, aby pozostać w dobrej formie pod każdym kątem.

Zdanie 2: Człowiek radzi sobie lepiej, gdy jest w dobrej formie, zarówno fizycznej, jak i psychicznej. Ważne jest, aby pracować nad obydwoma aspektami poprzez kierowanie różnych/odrębnych form energii do każdego z aspektów.

Czy można znaleźć jakąś różnicę między tymi dwoma?

W drugim zdaniu, było wyraźne rozróżnienie między dwoma aspektami sprawności fizycznej i wymaganej koncentracji.

Dyskryminacja jest zła, gdy osiągnięte rozróżnienie jest używane w negatywny sposób. W przeciwnym razie, niesamowite rzeczy można zrobić z pomocą zdolności do rozróżniania, różnicowania i dystrybucji odpowiedniego skupienia, aby osiągnąć rozbieżne cele.

Analiza dyskryminacyjna, luźna pochodna od słowa dyskryminacja, jest koncepcją szeroko stosowaną do klasyfikacji poziomów wyniku. Innymi słowy, jest ona przydatna w określaniu, czy zestaw zmiennych jest skuteczny w przewidywaniu przynależności do kategorii

Na przykład, mogę chcieć przewidzieć, czy student „zda” czy „obleje” egzamin na podstawie ocen, jakie uzyskał w różnych testach klasowych w okresie poprzedzającym egzamin końcowy.

Podobnie, mogę chcieć przewidzieć, czy klient zrobi jego miesięczną ratę kredytu hipotecznego lub nie w oparciu o wynagrodzenie, które pobierał, jego miesięczne wydatki i inne zobowiązania bankowe itp. Czynniki, które wpływają na odpowiedź lub mają istotną rolę w podejmowaniu decyzji, co odpowiedź będzie, są nazywane niezależne variables.

Jak czytałem przez różne książki na wiele technik klasyfikacji, natknąłem się na analizę dyskryminacyjną jako bardzo potężne narzędzie klasyfikacji. Inną taką techniką jest regresja logistyczna, która okazała się być wykorzystywana znacznie szerzej. Chciałem wydobyć subtelności analizy dyskryminacyjnej, która czasami przewyższa regresję logistyczną, zwłaszcza gdy zmienna odpowiedzi ma więcej niż 2 poziomy. Temat szeroko obejmuje następujące obszary:

I. Co to jest analiza dyskryminacyjna?

II. Jaki jest związek Analizy dyskryminacyjnej z Manovą?

III. Ilustracja na prostym przykładzie

I. Czym jest Analiza dyskryminacyjna?

Źródło: https://www.flickr.com/photos/15609463@N03/14898932531

Dyskryminacja, jak sama nazwa wskazuje, jest metodą analizy problemów biznesowych, mającą na celu rozróżnienie lub dyskryminację zmiennej odpowiedzi na jej odrębne klasy.

Typowo analiza dyskryminacyjna jest oddawana do użytku, gdy mamy już predefiniowane klasy/kategorie odpowiedzi i chcemy zbudować model, który pomoże w wyraźnym przewidywaniu klasy, jeśli jakaś nowa obserwacja pojawi się w równaniu.

Jednakże jeśli mamy zbiór danych, dla których klasy odpowiedzi nie są jeszcze zdefiniowane, klastrowanie poprzedza Discriminant do tworzenia różnych kategorii wyjściowych, które najlepiej określa zachowanie populacji. Po klastrów są zbudowane, wiele statystycy / analitycy ogólnie używać albo Discriminant lub modelu logistycznego jako predykcyjnej techniki do klasyfikowania żadnych nowych observation.

Some istotne rzeczywiste przykłady z życia, gdzie model dyskryminacyjny może być używany są

  1. Gdy chcemy przewidzieć, czy wnioskodawca o kredyt bankowy jest prawdopodobne, aby nie wywiązać się lub nie.
  2. Predict prawdopodobieństwo ataku serca na podstawie różnych wskaźników zdrowia.
  3. Przewidywanie poziomu stabilności – „Good”, „Requires Inspection” lub „Requires Repair/Replacement”- silnika/maszyny na podstawie różnych wskaźników wydajności.

W kategoriach równania oczekiwana relacja pomiędzy zmienną odpowiedzi a zmiennymi niezależnymi może być wyjaśniona przez poniższe równanie

d=v1*X1+v2*X2+…+vn*Xn+a

Gdzie d jest funkcją dyskryminacyjną, v-współczynniki dyskryminacyjne, X-wynik respondenta dla tej zmiennej. a-stała(błąd). Zawsze otrzymujemy n-1 równań dyskryminacyjnych, gdzie n jest liczbą grup/członkostw, które posiada zmienna zależna. Dla zestawu danych Iris otrzymujemy dwa równania, ponieważ mamy trzy klasy zmiennej zależnej tj. gatunki.

LDA(Linear Discriminant analysis) określa średnie grupowe i oblicza dla każdego osobnika prawdopodobieństwo przynależności do różnych grup. Dana osoba jest następnie przypisywana do grupy o najwyższym wyniku prawdopodobieństwa. Zobacz przykład po lewej stronie.

W porównaniu z regresją logistyczną, LDA jest bardziej odpowiednia do przewidywania kategorii obserwacji w sytuacji, gdy zmienna wynikowa zawiera więcej niż dwie klasy. Dodatkowo, jest bardziej stabilna niż regresja logistyczna dla problemów klasyfikacji wieloklasowej. LDA zakłada, że predyktory mają rozkład normalny (rozkład gaussowski) oraz że poszczególne klasy mają charakterystyczne dla siebie średnie i równe wariancje/kowariancje. Jeśli te założenia zostaną naruszone, regresja logistyczna będzie lepsza od LDA.

Quadratic Discriminant Analysis(QDA), rozszerzenie LDA, jest nieco bardziej elastyczna niż ta pierwsza, w tym sensie, że nie zakłada równości wariancji/kowariancji. Innymi słowy, dla QDA macierz kowariancji może być różna dla każdej klasy. LDA jest lepsza niż QDA, gdy mamy mały zbiór treningowy. Z kolei QDA jest zalecana, gdy zbiór treningowy jest bardzo duży, tak że wariancja klasyfikatora nie jest istotnym problemem, lub gdy założenie o wspólnej macierzy kowariancji dla K klas jest wyraźnie nie do utrzymania.

II. Związek między analizą dyskryminacyjną i MANOVA

Analiza dyskryminacyjna jest zwykle stosowana, gdy mamy kategoryczną zmienną odpowiedzi i zestaw zmiennych niezależnych, które są ciągłe w naturze.

Testem przed użyciem analizy dyskryminacyjnej jest zastosowanie Manova na tym samym zestawie zmiennych, ale po odwróceniu równania, tj. zmienne odpowiedzi (=zależne) i zmienne niezależne dla analizy dyskryminacyjnej stają się zmiennymi niezależnymi i zmiennymi odpowiedzi, odpowiednio dla Manova. Jeśli wyjście Manova pokazuje, że środki zmiennej kategorycznej są znacząco różne, odrzucając tym samym hipotezę zerową, że nie ma różnicy (w środkach) między czynnikami, co do których zakłada się, że mają wpływ na odpowiedź, tylko wtedy analiza dyskryminacyjna wykona dobrą pracę w zakresie różnicowania i klasyfikowania zmiennej odpowiedzi (w modelu dyskryminacyjnym). Jeśli Manova nie odrzuci hipotezy zerowej, analiza dyskryminacyjna będzie daremnym ćwiczeniem. Tak więc na wiele sposobów, Discriminant jest zależny od Manova i czasami określany jako odwrotność Manova. Zobaczymy to bardziej szczegółowo w następujących sekcjach, gdzie będziemy przechodzić przez kilka przykładów.

III. Ilustracja na przykładzie

Jest tam kilka skorelowanych zmiennych, jak widać poniżej

Flawnoidy i nieflawnoidy są skorelowane z OD280.OD315. Prolina i Alkohol mają również przyzwoity stopień korelacji

Kilka wykresów wariancji uni, dla powyższych kodów jest pokazanych poniżej

Leave a Reply