Esittely diskriminanttianalyysiin (osa 1)
Mitä selkeämmäksi ajattelumme muuttuu ja mitä enemmän keskitymme diskriminoivaan analyysiin, sitä VALTAKUNNALLISEMMAT meistä tulee!
Analysoi hetki näitä kahta lausetta:
Lause 1: Uskon, että ihminen suoriutuu kokonaisuutena ottaen paremmin silloin, kun hän on kunnossa. On tärkeää tehdä kaikkensa pysyäkseen kunnossa kaikin puolin.
Lause 2: Ihminen suoriutuu paremmin, kun hän on kunnossa sekä fyysisesti että henkisesti. On tärkeää työskennellä molempien osa-alueiden parissa kanavoimalla eri/erilaisia energiamuotoja kumpaankin osa-alueeseen.
Voitteko löytää mitään eroa näiden kahden välillä?
Kakkoslauseessa oli selkeä erottelu kuntoilun kahden osa-alueen ja vaadittavan keskittymisen välillä.
Erottelu on huono asia silloin, kun saavutettua erottelua käytetään negatiivisella tavalla. Muuten voidaan tehdä hämmästyttäviä asioita kyvyn avulla erottaa, eriyttää ja jakaa asianmukainen fokus erilaisten tavoitteiden saavuttamiseksi.
Diskriminoiva analyysi, joka on löyhä johdos sanasta discrimination, on käsite, jota käytetään laajalti tuloksen tasojen luokitteluun. Toisin sanoen se on hyödyllinen määritettäessä, onko joukko muuttujia tehokas ennustamaan kategoriaan kuulumista
Voitan esimerkiksi haluta ennustaa, tuleeko opiskelija läpäisemään vai hylkäämään kokeen sen perusteella, millaisia pisteitä hän on saanut eri luokkakokeissa ennen loppukokeen alkua.
Samoin saatan haluta ennustaa, maksaako asiakas kuukausittaisen asuntolainansa vai ei, perustuen hänen saamaansa palkkaan, kuukausittaisiin menoihinsa ja muihin pankkivelkoihinsa jne.
Kummassakin edellä mainitussa tapauksessa pyrkimykseni kohdistuvat sellaisen vastauksen ennustamiseen, joka on luonteeltaan kategorinen. Tekijöitä, jotka vaikuttavat vastaukseen tai joilla on merkittävä rooli sen päättämisessä, mikä vastaus on, kutsutaan riippumattomiksi muuttujiksi.
Lukiessani läpi erilaisia kirjoja lukuisista luokittelutekniikoista törmäsin diskriminanttianalyysiin, joka on erittäin tehokas luokitteluväline. Toinen tällainen tekniikka on logistinen regressio, jota käytetään paljon laajemmin. Halusin tuoda esiin diskriminanttianalyysin hienouksia, sillä joskus se päihittää logistisen regression erityisesti silloin, kun vastemuuttujalla on enemmän kuin kaksi tasoa. Aihe kattaa laajasti seuraavat alueet:
I. Mikä on diskriminanttianalyysi?
II. Mikä on diskriminanttianalyysin suhde Manovaan?
III. Havainnollistaminen yksinkertaisella esimerkillä
I. Mikä on diskriminanttianalyysi?
Diskriminanttinen analyysi on nimensä mukaisesti liike-elämän ongelmien analysointimenetelmä, jonka tavoitteena on erottaa tai diskriminoida vastemuuttuja sen eri luokkiin.
Tyypillisesti diskriminanttinen analyysi otetaan käyttöön silloin, kun meillä on jo valmiiksi määritellyt luokat/vastausluokat, ja haluamme rakentaa mallin, joka auttaa ennustamaan luokan selvästi, jos yhtälöön tulee jokin uusi havainto.
Mutta jos meillä on tietokokonaisuus, jolle vastauksen luokkia ei ole vielä määritelty, klusterointi edeltää diskriminanttianalyysia luodaksemme erilaiset tuotosluokat, jotka parhaiten määrittelevät populaation käyttäytymistä. Kun klusterit on muodostettu, monet tilastotieteilijät/analyytikot käyttävät yleensä joko Diskriminantti- tai logistista mallia ennustetekniikkana minkä tahansa uuden havainnon luokittelemiseksi.
Joitakin asiaankuuluvia esimerkkejä todellisesta elämästä, joissa Diskriminantti-mallia voidaan käyttää, ovat
- Kun halutaan ennustaa, laiminlyökö pankkilainan hakija todennäköisesti maksujaan.
- Sydäninfarktin todennäköisyyden ennakoiminen erilaisten terveysindikaattoreiden perusteella.
- Ennustaa moottorin/koneen vakaustaso – ”Hyvä”, ”Vaatii tarkastuksen” tai ”Vaatii korjauksen/vaihdon” – eri suorituskykyindikaattoreiden perusteella.
Yhtälön avulla vastemuuttujan ja riippumattomien muuttujien välinen odotettu suhde voidaan selittää alla olevalla yhtälöllä
d=v1*X1+v2*X2+…+vn*Xn+a
Jossa d on diskriminaattifunktio, v-diskriminaattikertoimet, X-vastaajan pistemäärä kyseisen muuttujan osalta. a-vakio(virhe). Saamme aina n-1 diskriminanttiyhtälön, jossa n on ryhmien/jäsenyyksien lukumäärä, joka riippuvalla muuttujalla on. Iiriksen aineistolle saamme kaksi yhtälöä, koska riippuvaisella muuttujalla eli lajilla on kolme luokkaa.
LDA(Lineaarinen diskriminanttianalyysi) määrittää ryhmien keskiarvot ja laskee kullekin yksilölle todennäköisyyden kuulua eri ryhmiin. Tämän jälkeen yksilö luokitellaan siihen ryhmään, jonka todennäköisyyspistemäärä on suurin. Katso esimerkki vasemmalla.
LDA soveltuu logistiseen regressioon verrattuna paremmin havainnon luokan ennustamiseen tilanteessa, jossa tulosmuuttuja sisältää enemmän kuin kaksi luokkaa. Lisäksi se on vakaampi kuin logistinen regressio moniluokkaisissa luokitusongelmissa. LDA:ssa oletetaan, että ennustajat ovat normaalisti jakautuneita (Gaussin jakauma) ja että eri luokilla on luokkakohtaiset keskiarvot ja yhtä suuri varianssi/kovarianssi. Jos näitä oletuksia rikotaan, logistinen regressio päihittää LDA:n.
Quadratic Discriminant Analysis (QDA), LDA:n laajennus, on hieman joustavampi kuin edellinen siinä mielessä, että se ei oleta varianssin/kovarianssin tasa-arvoa. Toisin sanoen QDA:ssa kovarianssimatriisi voi olla erilainen jokaiselle luokalle. LDA on yleensä parempi kuin QDA, kun harjoitusjoukko on pieni. QDA:ta sen sijaan suositellaan, jos harjoitusjoukko on hyvin suuri, jolloin luokittelijan varianssi ei ole merkittävä ongelma, tai jos oletus K-luokkien yhteisestä kovarianssimatriisista on selvästi kestämätön.
II. Diskriminantin ja MANOVA:n välinen suhde
Diskriminanttia käytetään tyypillisesti silloin, kun meillä on kategorinen vastemuuttuja ja joukko riippumattomia muuttujia, jotka ovat luonteeltaan jatkuvia.
Testi ennen diskriminanttianalyysin käyttöä on käyttää Manovaa samaan muuttujajoukkoon, mutta sen jälkeen, kun yhtälö on käännetty toisin päin, eli vaste- (=riippuvainen)ja riippumattomat muuttujat, joita käytetään diskriminanttianalyysiä varten, muuttuvat riippumattomiksi muuttujiksi ja vaste- ja vastemuuttujiksi, vastaavasti, kun niitä käytetään Manovaa varten. Jos Manova-tulos osoittaa, että kategorisen muuttujan keskiarvot eroavat merkitsevästi toisistaan, jolloin hylätään nollahypoteesi, jonka mukaan vastaukseen oletettavasti vaikuttavien tekijöiden välillä ei ole eroa (keskiarvoissa), vain silloin diskriminanttianalyysi tekee hyvää työtä vastemuuttujan erottelussa ja luokittelussa (diskriminantti-mallissa). Jos Manova ei hylkää nollahypoteesia, diskriminanttianalyysi olisi turha harjoitus. Discriminant-analyysi on siis monin tavoin riippuvainen Manovasta, ja sitä kutsutaan joskus Manovan kääntöpuoleksi. Näemme tämän yksityiskohtaisemmin seuraavissa jaksoissa, joissa käymme läpi muutamia esimerkkejä.
III. Havainnollistaminen esimerkin avulla
Korreloituja muuttujia on muutama, kuten alla näkyy
Joitakin edellä mainittujen koodien uni variate plotteja on esitetty alla
.
Leave a Reply