Úvod do diskriminační analýzy (1. část)

Čím jasnější je naše myšlení a čím více se zaměřujeme na diskriminaci, tím více jsme EMPOWERED!“

Udělejte si chvilku času a analyzujte tyto dvě věty:

Věta 1: Myslím, že člověk podává lepší výkon, když je celkově fit. Je důležité dělat vše, co je potřeba, aby člověk zůstal fit po všech stránkách.

Věta 2: Člověk podává lepší výkony, když je fit fyzicky i psychicky. Je důležité pracovat na obou aspektech tím, že do každého z nich bude směřovat různé/odlišné formy energie.

Dá se mezi nimi najít nějaký rozdíl?“

V druhé větě došlo k jasnému rozlišení obou aspektů kondice a potřebného zaměření.

Rozlišení je špatné, pokud je dosažené rozlišení použito negativním způsobem. V opačném případě lze pomocí schopnosti rozlišovat, diferencovat a rozdělovat vhodné zaměření k dosažení odlišných cílů dokázat úžasné věci.

Diskriminační analýza, volně odvozená od slova diskriminace, je pojem široce používaný ke klasifikaci úrovní výsledku. Jinými slovy, je užitečná při určování, zda je soubor proměnných účinný při předpovídání příslušnosti ke kategorii

Například mohu chtít předpovědět, zda student u zkoušky „projde“ nebo „neprojde“, na základě známek, které získal v různých třídních testech v období před závěrečnou zkouškou.

Podobně mohu chtít předpovědět, zda zákazník zaplatí měsíční splátku hypotéky, nebo ne, na základě platu, který pobíral, jeho měsíčních výdajů a dalších bankovních závazků atd.

V obou výše uvedených případech směřuje mé úsilí k předpovědi odpovědi, která má kategorickou povahu. Faktory, které ovlivňují odpověď nebo mají podstatnou roli při rozhodování o tom, jaká bude odpověď, se nazývají nezávislé proměnné.

Když jsem pročítal různé knihy o množství klasifikačních technik, narazil jsem na diskriminační analýzu jako na velmi účinný klasifikační nástroj. Další takovou technikou je logistická regrese, která našla mnohem širší uplatnění. Chtěl jsem přiblížit jemnosti Diskriminační analýzy, která někdy překonává Logistickou regresi, zejména pokud má proměnná odpovědi více než 2 úrovně. Téma široce pokrývá následující oblasti:

I. Co je to diskriminační analýza?

II. Jaký je vztah diskriminační analýzy a Manova?

III. Ilustrace na jednoduchém příkladu

I. Co je to diskriminační analýza?

Zdroj: https://www.flickr.com/photos/15609463@N03/14898932531

Diskriminační analýza, jak název napovídá, je metoda analýzy obchodních problémů, jejímž cílem je rozlišit nebo diskriminovat proměnnou odpovědi do jejích odlišných tříd.

Typicky se diskriminační analýza využívá v případě, že již máme předem definované třídy/kategorie odpovědí a chceme sestavit model, který pomůže jednoznačně předpovědět třídu, pokud se do rovnice dostane nějaké nové pozorování.

Máme-li však soubor dat, pro který třídy odezvy ještě nejsou definovány, předchází Discriminant shlukování, aby se vytvořily různé kategorie výstupu, které nejlépe definují chování populace. Po vytvoření shluků řada statistiků/analytiků obvykle používá buď Diskriminační, nebo logistický model jako predikční techniku pro klasifikaci jakéhokoli nového pozorování.

Několik relevantních příkladů z reálného života, kde lze použít Diskriminační model:

  1. Když chceme předpovědět, zda žadatel o bankovní úvěr pravděpodobně nesplácí, nebo ne.
  2. Předpovědět pravděpodobnost infarktu na základě různých zdravotních ukazatelů.
  3. Předpovídat úroveň stability – „dobrá“, „vyžaduje kontrolu“ nebo „vyžaduje opravu/výměnu“- motoru/stroje na základě různých ukazatelů výkonnosti.

V rovnici lze očekávaný vztah mezi proměnnou odpovědi a nezávislými proměnnými vysvětlit pomocí následující rovnice

d=v1*X1+v2*X2+…+vn*Xn+a

Kde d je diskriminační funkce, v-diskripční koeficienty, X-skóre respondenta pro danou proměnnou. a-konstanta(chyba). Vždy dostaneme n-1 diskriminačních rovnic, kde n je počet skupin/členství, které má závislá proměnná. Pro soubor dat Iris dostaneme dvě rovnice, protože máme tři třídy závislé proměnné, tj. druhů.

LDA(Lineární diskriminační analýza) určuje průměry skupin a vypočítává pro každého jedince pravděpodobnost příslušnosti k různým skupinám. Jedinec je pak přiřazen ke skupině s nejvyšším skóre pravděpodobnosti. Viz příklad vlevo.

Ve srovnání s logistickou regresí je LDA vhodnější pro předpověď kategorie pozorování v situaci, kdy výsledná proměnná obsahuje více než dvě třídy. Navíc je stabilnější než logistická regrese pro problémy klasifikace více tříd. LDA předpokládá, že prediktory jsou normálně rozděleny (Gaussovo rozdělení) a že různé třídy mají střední hodnoty specifické pro jednotlivé třídy a stejný rozptyl/kovarianci. Pokud jsou tyto předpoklady porušeny, logistická regrese předčí LDA.

Kvadratická diskriminační analýza (QDA), rozšíření LDA, je o něco pružnější než první z nich v tom smyslu, že nepředpokládá rovnost rozptylů/kovariancí. Jinými slovy, pro QDA může být kovarianční matice pro každou třídu jiná. LDA bývá lepší než QDA, pokud máte malou trénovací množinu. Naopak QDA se doporučuje, pokud je trénovací množina velmi velká, takže rozptyl klasifikátoru nepředstavuje zásadní problém, nebo pokud je předpoklad společné kovarianční matice pro K tříd zjevně neudržitelný.

II. Vztah mezi Diskriminační analýzou a MANOVOU

Diskriminační analýza se obvykle používá, když máme kategoriální proměnnou odpovědi a soubor nezávislých proměnných, které mají spojitý charakter.

Testem před použitím Diskriminační analýzy je použití Manovy na stejném souboru proměnných, ale po obrácení rovnice, tj. proměnné odpovědi (=závislé)a nezávislé proměnné pro Diskriminační analýzu se stanou nezávislými proměnnými a proměnnými odpovědí, resp. pro Manovu. Pokud výstup Manova ukáže, že se průměry kategoriální proměnné významně liší, čímž se zamítne nulová hypotéza, že neexistuje žádný rozdíl (v průměrech) mezi faktory, u nichž se předpokládá, že ovlivňují odpověď, teprve pak Diskriminační analýza odvede dobrou práci při rozlišování a klasifikaci proměnné odpovědi (v Diskriminačním modelu). Pokud Manova nezamítne nulovou hypotézu, byla by Diskriminační analýza zbytečná. V mnoha ohledech je tedy Diskriminační analýza závislá na Manově a někdy se označuje jako reverz Manovy. Podrobněji si to ukážeme v následujících částech, kde si projdeme několik příkladů.

III. Ilustrace na příkladu

Je zde několik korelovaných proměnných, jak je vidět níže

Flavnoidy a NonFlavnoidy jsou korelovány s OD280.OD315. Slušnou míru korelace mají také prolin a alkohol

Některé univariační grafy, pro výše uvedené kódy, jsou uvedeny níže

.

Leave a Reply