Inleiding tot Discriminantanalyse (deel 1)
Hoe helderder we denken en hoe meer we ons op discriminatie richten, des te KRACHTIGER we worden!
Neem even de tijd om deze twee zinnen te analyseren:
Zin 1: Ik denk dat iemand beter presteert als hij/zij fit is, in het algemeen. Het is belangrijk om alles te doen wat nodig is om vanuit alle hoeken fit te blijven.
Zin 2: Men presteert beter als hij/zij fit is, zowel lichamelijk als geestelijk. Het is belangrijk om aan beide aspecten te werken door verschillende/distinctieve vormen van energie naar elk van de aspecten te kanaliseren.
Vind je enig verschil tussen de twee?
In de tweede zin was er een duidelijke differentiatie tussen de twee aspecten van fitness en de vereiste focus.
Discriminatie is slecht wanneer de bereikte differentiatie op een negatieve manier wordt gebruikt. Anders kunnen verbazingwekkende dingen worden gedaan met behulp van het vermogen om te discrimineren, te differentiëren en de juiste focus te verdelen om uiteenlopende doelen te bereiken.
Discriminerende analyse, een losse afleiding van het woord discriminatie, is een concept dat veel wordt gebruikt om niveaus van een uitkomst te classificeren. Met andere woorden, het is nuttig om te bepalen of een reeks variabelen effectief is in het voorspellen van het lidmaatschap van een categorie.
Zo kan ik bijvoorbeeld willen voorspellen of een student zal “slagen” of “zakken” voor een examen op basis van de cijfers die hij heeft gescoord in de verschillende klassentoetsen in de aanloop naar het eindexamen.
Ook kan ik voorspellen of een klant zijn maandelijkse hypotheekaflossing zal voldoen of niet, op basis van het salaris dat hij heeft ontvangen, zijn maandelijkse uitgaven en andere bankverplichtingen enz.
In beide bovengenoemde gevallen zijn mijn inspanningen gericht op het voorspellen van een respons die categorisch van aard is. De factoren die de respons beïnvloeden of een belangrijke rol spelen bij de beslissing wat de respons zal zijn, worden onafhankelijke variabelen genoemd.
Terwijl ik verschillende boeken over een veelheid van classificatietechnieken doorlas, kwam ik Discriminantanalyse tegen als een zeer krachtig classificatie-instrument. Een andere techniek is Logistische Regressie, die veel meer gebruikt blijkt te worden. Ik wilde de subtiliteiten van Discriminantanalyse aan het licht brengen, die soms beter presteert dan Logistische regressie, vooral wanneer de responsvariabele meer dan 2 niveaus heeft. Het onderwerp bestrijkt in grote lijnen de volgende gebieden:
I. Wat is Discriminerende Analyse?
II. Wat is het verband tussen Discriminantanalyse en Manova?
III. Illustratie met een eenvoudig voorbeeld
I. Wat is Discriminantanalyse?
Discriminant is, zoals de naam al doet vermoeden, een methode om zakelijke problemen te analyseren, met als doel de responsvariabele te differentiëren of te discrimineren in de verschillende klassen.
Typisch wordt Discriminantanalyse gebruikt wanneer we al vooraf gedefinieerde klassen/categorieën van respons hebben en we een model willen bouwen dat helpt bij het duidelijk voorspellen van de klasse, als er een nieuwe observatie in vergelijking komt.
Als we echter een dataset hebben waarvoor de klassen van de respons nog niet zijn gedefinieerd, gaat clustering vooraf aan Discriminant om de verschillende categorieën van output te creëren die het gedrag van de populatie het beste definiëren. Nadat de clusters zijn opgebouwd, gebruiken veel statistici/analisten over het algemeen Discriminant of een logistisch model als de voorspellende techniek om elke nieuwe waarneming te classificeren.
Enkele relevante voorbeelden uit de praktijk van waar een Discriminant-model kan worden gebruikt, zijn
- Wanneer we willen voorspellen of een aanvrager van een banklening waarschijnlijk in gebreke zal blijven of niet.
- Voorspellen van de waarschijnlijkheid van een hartaanval op basis van verschillende gezondheidsindicatoren.
- Voorspellen stabiliteitsniveau – “Goed”, “Vereist inspectie” of “Vereist reparatie/vervanging”- van een motor/machine op basis van diverse prestatie-indicatoren.
In termen van een vergelijking kan het verwachte verband tussen de responsvariabele en de onafhankelijke variabelen worden verklaard met de volgende vergelijking
d=v1*X1+v2*X2+…+vn*Xn+a
Waarbij d de discriminantfunctie is, v-discriminantcoëfficiënten, X-de score van de respondent voor die variabele. a-constant(fout). We krijgen altijd n-1 discriminantvergelijkingen waarbij n het aantal groepen/lidmaatschappen is dat de afhankelijke variabele heeft. Voor de Iris-dataset krijgen we twee vergelijkingen omdat we drie klassen van de afhankelijke variabele hebben, d.w.z. de soort.
Enkele van de univariate plots, voor de bovenstaande codes, worden hieronder getoond
Leave a Reply