Elvezetés a diszkriminancia-elemzésbe (1. rész)

Mennél tisztábbá válik a gondolkodásunk, és minél diszkriminatívabbak vagyunk, annál ERŐSEBBEK leszünk!

Foglaljon egy pillanatot, és elemezze ezt a két mondatot:

1. mondat: Szerintem az ember összességében jobban teljesít, ha fitt. Fontos, hogy mindent megtegyünk azért, hogy minden szempontból fittek maradjunk.”

2. mondat: Az ember jobban teljesít, ha fizikailag és szellemileg is fitt. Fontos, hogy mindkét aspektuson dolgozzunk úgy, hogy az energia különböző/megkülönböztetett formáit irányítjuk az egyes aspektusokra.”

Megtalálja a különbséget a kettő között?

A második mondatban egyértelmű különbségtétel történt a fittség két aspektusa és a szükséges összpontosítás között.

A különbségtétel akkor rossz, ha az elért különbségtételt negatív módon használjuk. Egyébként csodálatos dolgokat lehet tenni a megkülönböztetés, a differenciálás és a megfelelő fókusz elosztásának képességével az eltérő célok elérése érdekében.

A diszkriminatív elemzés, amely a megkülönböztetés szóból való laza levezetés, egy olyan fogalom, amelyet széles körben használnak egy eredmény szintjeinek osztályozására. Más szóval, hasznos annak meghatározására, hogy a változók egy csoportja hatékonyan képes-e megjósolni a kategóriához tartozást

Elképzelhető például, hogy meg akarom jósolni, hogy egy diák “megfelelt” vagy “nem felelt meg” egy vizsgán, annak alapján, hogy a záróvizsgát megelőzően milyen jegyeket kapott a különböző osztályozó teszteken.

Hasonlóképpen, megjósolhatom, hogy egy ügyfél fizetni fogja-e a havi jelzáloghitelét vagy sem, az általa felvett fizetés, a havi kiadásai és egyéb banki kötelezettségei stb. alapján.

Mindkét fenti esetben az erőfeszítéseim egy kategorikus jellegű válasz előrejelzésére irányulnak. Azokat a tényezőket, amelyek befolyásolják a választ, vagy jelentős szerepet játszanak annak eldöntésében, hogy mi lesz a válasz, független változóknak nevezzük.

Amint különböző könyveket olvastam át az osztályozási technikák sokaságáról, rábukkantam a diszkrimináns analízisre, mint egy nagyon hatékony osztályozási eszközre. Egy másik ilyen technika a logisztikus regresszió, amelyet sokkal szélesebb körben használtak. Ki akartam mutatni a diszkriminancia-elemzés finomságait, amely néha felülmúlja a logisztikus regressziót, különösen akkor, ha a válaszváltozónak több mint 2 szintje van. A téma nagyjából az alábbi területeket öleli fel:

I. Mi az a diszkriminancia-elemzés?

II. Mi a diszkriminanciaanalízis és a Manova kapcsolata?

III. Illusztráció egy egyszerű példával

I. Mi az a diszkriminancia-analízis?

Forrás: A diszkriminancia-analízis és a diszkriminancia-elemzés: https://www.flickr.com/photos/15609463@N03/14898932531

A diszkriminancia, ahogy a neve is mutatja, az üzleti problémák elemzési módszere, amelynek célja a válaszváltozó megkülönböztetése vagy diszkriminálása a válaszváltozók különböző osztályaiba.

A diszkriminancia analízist tipikusan akkor vesszük igénybe, amikor már vannak előre meghatározott osztályaink/kategóriáink a válaszra, és olyan modellt szeretnénk építeni, amely segít az osztály megkülönböztethető előrejelzésében, ha bármilyen új megfigyelés kerül az egyenletbe.

Ha azonban olyan adathalmazunk van, amelyhez a válasz osztályai még nincsenek meghatározva, a klaszterezés megelőzi a diszkriminanciát, hogy létrehozza a különböző kimeneti kategóriákat, amelyek a legjobban meghatározzák a populáció viselkedését. A klaszterek létrehozása után sok statisztikus/elemző általában vagy a diszkriminanciamodellt vagy a logisztikus modellt használja előrejelző technikaként bármely új megfigyelés osztályozására.

Egy-két releváns valós életbeli példa arra, hogy hol használható a diszkriminanciamodell:

  1. Ha azt akarjuk megjósolni, hogy egy banki hitelkérelmező valószínűleg nem fog-e fizetni vagy sem.
  2. A szívroham valószínűségének előrejelzése különböző egészségügyi mutatók alapján.
  3. Egy motor/gép stabilitási szintjének – “Jó”, “Ellenőrzést igényel” vagy “Javítást/cserét igényel” – előrejelzése különböző teljesítménymutatók alapján.

Egyenlettel kifejezve a válaszváltozó és a független változók közötti várható kapcsolat az alábbi egyenlettel magyarázható

d=v1*X1+v2*X2+…+vn*Xn+a

Hol d a diszkriminatív függvény, v-diszkrimináns együtthatók, X-válaszadó pontszáma az adott változóra. a-állandó(hiba). Mindig n-1 diszkriminanciaegyenletet kapunk, ahol n a csoportok/tagságok száma, a függő változó rendelkezik. Az Írisz adathalmaz esetében két egyenletet kapunk, mivel a függő változónak, azaz a fajnak három osztálya van.

Az LDA(Lineáris diszkriminanciaanalízis) meghatározza a csoportátlagokat és kiszámítja minden egyed számára a különböző csoportokba tartozás valószínűségét. Az egyén ezután a legmagasabb valószínűségi pontszámmal rendelkező csoportba kerül. Lásd a bal oldali példát.

A logisztikus regresszióhoz képest az LDA alkalmasabb egy megfigyelés kategóriájának előrejelzésére abban a helyzetben, amikor a kimeneti változó több mint két osztályt tartalmaz. Ezenkívül stabilabb, mint a logisztikus regresszió többosztályos osztályozási problémák esetén. Az LDA feltételezi, hogy a prediktorok normális eloszlásúak (Gauss-eloszlás), és hogy a különböző osztályok osztályspecifikus átlagokkal és egyenlő varianciával/kovarianciával rendelkeznek. Ha ezek a feltételezések sérülnek, a logisztikus regresszió felülmúlja az LDA-t.

A quadratikus diszkriminancia-elemzés (QDA), az LDA kiterjesztése egy kicsit rugalmasabb az előbbinél, abban az értelemben, hogy nem feltételezi a variancia/kovariancia egyenlőségét. Más szóval, a QDA esetében a kovariancia mátrix minden osztály esetében eltérő lehet. Az LDA általában jobb, mint a QDA, ha kis gyakorlóhalmazzal rendelkezünk. Ezzel szemben a QDA akkor ajánlott, ha a képzési halmaz nagyon nagy, így az osztályozó varianciája nem jelent nagy problémát, vagy ha a K osztály közös kovariancia mátrixának feltételezése egyértelműen tarthatatlan.

II. A diszkriminancia és a MANOVA kapcsolata

A diszkriminanciát tipikusan akkor használjuk, ha kategorikus válaszváltozóval és független változók halmazával rendelkezünk, amelyek folytonos jellegűek.

A diszkriminancia-elemzés alkalmazása előtti teszt a Manova alkalmazása ugyanazon változóhalmazon, de az egyenlet megfordítása után, azaz a diszkriminancia esetében a válasz (=függő)és független változókból független változók és válaszváltozók lesznek a Manova esetében. Ha a Manova kimenete azt mutatja, hogy a kategorikus változó átlagai szignifikánsan különböznek, és ezzel elutasítja azt a nullhipotézist, hogy nincs különbség (az átlagok között) a válaszra feltételezhetően hatást gyakorló tényezők között, akkor a diszkriminancia-elemzés csak akkor végez jó munkát a válaszváltozó megkülönböztetésében és osztályozásában (a diszkriminancia-modellben). Ha a Manova nem utasítja el a nullhipotézist, a diszkriminanciaanalízis hiábavaló feladat lenne. Tehát sok szempontból a diszkriminancia a Manova függvénye, és néha a Manova fordítottjaként emlegetik. Ezt részletesebben is látni fogjuk a következő fejezetekben, ahol néhány példán végigmegyünk.

III. Illusztráció egy példán keresztül

Egy pár korrelált változó van, ahogy az alább látható

A flavonoidok és a nem flavonoidok korrelálnak az OD280.OD315. A prolin és az alkohol szintén megfelelő mértékű korrelációt mutat

A fenti kódokhoz tartozó univariáns ábrák egy része az alábbiakban látható

.

Leave a Reply