Inleiding tot Discriminantanalyse (deel 1)

Hoe helderder we denken en hoe meer we ons op discriminatie richten, des te KRACHTIGER we worden!

Neem even de tijd om deze twee zinnen te analyseren:

Zin 1: Ik denk dat iemand beter presteert als hij/zij fit is, in het algemeen. Het is belangrijk om alles te doen wat nodig is om vanuit alle hoeken fit te blijven.

Zin 2: Men presteert beter als hij/zij fit is, zowel lichamelijk als geestelijk. Het is belangrijk om aan beide aspecten te werken door verschillende/distinctieve vormen van energie naar elk van de aspecten te kanaliseren.

Vind je enig verschil tussen de twee?

In de tweede zin was er een duidelijke differentiatie tussen de twee aspecten van fitness en de vereiste focus.

Discriminatie is slecht wanneer de bereikte differentiatie op een negatieve manier wordt gebruikt. Anders kunnen verbazingwekkende dingen worden gedaan met behulp van het vermogen om te discrimineren, te differentiëren en de juiste focus te verdelen om uiteenlopende doelen te bereiken.

Discriminerende analyse, een losse afleiding van het woord discriminatie, is een concept dat veel wordt gebruikt om niveaus van een uitkomst te classificeren. Met andere woorden, het is nuttig om te bepalen of een reeks variabelen effectief is in het voorspellen van het lidmaatschap van een categorie.

Zo kan ik bijvoorbeeld willen voorspellen of een student zal “slagen” of “zakken” voor een examen op basis van de cijfers die hij heeft gescoord in de verschillende klassentoetsen in de aanloop naar het eindexamen.

Ook kan ik voorspellen of een klant zijn maandelijkse hypotheekaflossing zal voldoen of niet, op basis van het salaris dat hij heeft ontvangen, zijn maandelijkse uitgaven en andere bankverplichtingen enz.

In beide bovengenoemde gevallen zijn mijn inspanningen gericht op het voorspellen van een respons die categorisch van aard is. De factoren die de respons beïnvloeden of een belangrijke rol spelen bij de beslissing wat de respons zal zijn, worden onafhankelijke variabelen genoemd.

Terwijl ik verschillende boeken over een veelheid van classificatietechnieken doorlas, kwam ik Discriminantanalyse tegen als een zeer krachtig classificatie-instrument. Een andere techniek is Logistische Regressie, die veel meer gebruikt blijkt te worden. Ik wilde de subtiliteiten van Discriminantanalyse aan het licht brengen, die soms beter presteert dan Logistische regressie, vooral wanneer de responsvariabele meer dan 2 niveaus heeft. Het onderwerp bestrijkt in grote lijnen de volgende gebieden:

I. Wat is Discriminerende Analyse?

II. Wat is het verband tussen Discriminantanalyse en Manova?

III. Illustratie met een eenvoudig voorbeeld

I. Wat is Discriminantanalyse?

Bron: https://www.flickr.com/photos/15609463@N03/14898932531

Discriminant is, zoals de naam al doet vermoeden, een methode om zakelijke problemen te analyseren, met als doel de responsvariabele te differentiëren of te discrimineren in de verschillende klassen.

Typisch wordt Discriminantanalyse gebruikt wanneer we al vooraf gedefinieerde klassen/categorieën van respons hebben en we een model willen bouwen dat helpt bij het duidelijk voorspellen van de klasse, als er een nieuwe observatie in vergelijking komt.

Als we echter een dataset hebben waarvoor de klassen van de respons nog niet zijn gedefinieerd, gaat clustering vooraf aan Discriminant om de verschillende categorieën van output te creëren die het gedrag van de populatie het beste definiëren. Nadat de clusters zijn opgebouwd, gebruiken veel statistici/analisten over het algemeen Discriminant of een logistisch model als de voorspellende techniek om elke nieuwe waarneming te classificeren.

Enkele relevante voorbeelden uit de praktijk van waar een Discriminant-model kan worden gebruikt, zijn

  1. Wanneer we willen voorspellen of een aanvrager van een banklening waarschijnlijk in gebreke zal blijven of niet.
  2. Voorspellen van de waarschijnlijkheid van een hartaanval op basis van verschillende gezondheidsindicatoren.
  3. Voorspellen stabiliteitsniveau – “Goed”, “Vereist inspectie” of “Vereist reparatie/vervanging”- van een motor/machine op basis van diverse prestatie-indicatoren.

In termen van een vergelijking kan het verwachte verband tussen de responsvariabele en de onafhankelijke variabelen worden verklaard met de volgende vergelijking

d=v1*X1+v2*X2+…+vn*Xn+a

Waarbij d de discriminantfunctie is, v-discriminantcoëfficiënten, X-de score van de respondent voor die variabele. a-constant(fout). We krijgen altijd n-1 discriminantvergelijkingen waarbij n het aantal groepen/lidmaatschappen is dat de afhankelijke variabele heeft. Voor de Iris-dataset krijgen we twee vergelijkingen omdat we drie klassen van de afhankelijke variabele hebben, d.w.z. de soort.

LDA (Lineaire Discriminantanalyse) bepaalt de groepsgemiddelden en berekent voor elk individu de waarschijnlijkheid dat het tot de verschillende groepen behoort. Het individu wordt dan ingedeeld in de groep met de hoogste waarschijnlijkheidsscore. Zie het voorbeeld hiernaast.

Vergeleken met logistische regressie is LDA geschikter om de categorie van een waarneming te voorspellen in een situatie waarin de uitkomstvariabele meer dan twee klassen bevat. Bovendien is het stabieler dan de logistische regressie voor multi-class classificatie problemen. LDA gaat ervan uit dat de voorspellers normaal verdeeld zijn (Gaussische verdeling) en dat de verschillende klassen klassespecifieke gemiddelden en gelijke variantie/covariantie hebben. Als deze aannames worden geschonden, zal logistische regressie het beter doen dan LDA.

Quadratic Discriminant Analysis(QDA), een uitbreiding van LDA, is iets flexibeler dan LDA, in die zin dat het niet uitgaat van de gelijkheid van variantie/covariantie. Met andere woorden, voor QDA kan de covariantiematrix voor elke klasse verschillend zijn. LDA is over het algemeen beter dan QDA wanneer je een kleine trainingsset hebt. Daarentegen wordt QDA aanbevolen als de trainingsverzameling zeer groot is, zodat de variantie van de classificator geen groot probleem is, of als de aanname van een gemeenschappelijke covariantiematrix voor de K klassen duidelijk onhoudbaar is.

II. Verband tussen Discriminant en MANOVA

Discriminant wordt gewoonlijk gebruikt wanneer we een categorische responsvariabele hebben en een reeks onafhankelijke variabelen die continu van aard zijn.

De test vóór het gebruik van een Discriminant-analyse is het gebruik van Manova op dezelfde reeks variabelen, maar na omkering van de vergelijking, d.w.z. respons (=afhankelijke)en onafhankelijke variabelen voor Discriminant worden respectievelijk onafhankelijke variabelen en responsvariabelen voor Manova. Als de Manova-uitvoer aantoont dat de gemiddelden van de categorische variabele significant verschillend zijn, en daarmee de nulhypothese verwerpt dat er geen verschil is (in gemiddelden) tussen de factoren die verondersteld worden de respons te beïnvloeden, alleen dan zal de Discriminantanalyse goed werk leveren bij het differentiëren en classificeren van de responsvariabele (in het Discriminantmodel). Als Manova de nulhypothese niet verwerpt, zou Discriminantanalyse een zinloze exercitie zijn. In veel opzichten is Discriminant dus afhankelijk van Manova en wordt soms aangeduid als het omgekeerde van Manova. Wij zullen dit meer in detail zien in de volgende secties, waar wij enkele voorbeelden zullen bespreken.

III. Illustratie aan de hand van een voorbeeld

Een paar gecorreleerde variabelen zijn er zoals hieronder te zien is

Flavnoïden en NonFlavnoïden zijn gecorreleerd aan OD280.OD315. Proline en alcohol hebben ook een behoorlijke correlatie

Enkele van de univariate plots, voor de bovenstaande codes, worden hieronder getoond

Leave a Reply