Indledning til diskriminantanalyse (del 1)

Desto klarere vi bliver i vores tankegang, og jo mere diskriminerende vores fokus er, jo mere MAGT bliver vi!

Tag et øjeblik til at analysere disse to sætninger:

Sætning 1: Jeg tror, at man præsterer bedre, når man er i god form, generelt set. Det er vigtigt at gøre alt, hvad der er nødvendigt for at holde sig i form fra alle vinkler.

Sætning 2: Man præsterer bedre, når man er i form, både fysisk og mentalt. Det er vigtigt at arbejde med begge aspekter ved at kanalisere forskellige/distinkte former for energi til hvert af aspekterne.

Kan du finde nogen forskel mellem de to?

I den anden sætning var der en klar differentiering mellem de to aspekter af fitness og det fokus, der kræves.

Diskriminering er dårlig, når den opnåede differentiering bruges på en negativ måde. Ellers kan der gøres fantastiske ting ved hjælp af evnen til at skelne, differentiere og fordele passende fokus for at opnå divergerende mål.

Diskriminantanalyse, der er en løs afledning af ordet diskrimination, er et begreb, der i vid udstrækning anvendes til at klassificere niveauer af et resultat. Med andre ord er det nyttigt til at afgøre, om et sæt variabler er effektive til at forudsige kategoritilhørsforhold

For eksempel kan jeg ønske at forudsige, om en elev vil “bestå” eller “dumpe” til en eksamen på baggrund af de karakterer, han har opnået i de forskellige klasseprøver i tiden op til den afsluttende eksamen.

På samme måde vil jeg måske forudsige, om en kunde vil betale sit månedlige realkreditlån eller ej på grundlag af den løn, han har fået, hans månedlige udgifter og andre bankforpligtelser osv.

I begge de ovennævnte tilfælde er mine bestræbelser rettet mod at forudsige et svar, der er kategorisk i sin natur. De faktorer, der har indflydelse på svaret eller spiller en væsentlig rolle for at afgøre, hvad svaret bliver, kaldes uafhængige variabler.

Som jeg læste forskellige bøger om et væld af klassifikationsteknikker, stødte jeg på Diskriminantanalyse som et meget effektivt klassifikationsværktøj. En anden af disse teknikker er logistisk regression, som er meget mere udbredt. Jeg ønskede at fremhæve finesserne ved diskriminantanalyse, som nogle gange overgår Logistisk regression, især når responsvariablen har mere end 2 niveauer. Emnet dækker i store træk følgende områder:

I. Hvad er diskriminantanalyse?

II. Hvad er forholdet mellem diskriminantanalyse og Manova?

III. Illustration med et enkelt eksempel

I. Hvad er diskriminantanalyse?

Kilde: https://www.flickr.com/photos/15609463@N03/14898932531

Diskriminant er, som navnet antyder, en metode til analyse af forretningsproblemer med det formål at differentiere eller skelne svarvariablen i dens forskellige klasser.

Typisk tages diskriminantanalyse i brug, når vi allerede har foruddefinerede klasser/kategorier af svar, og vi ønsker at opbygge en model, der hjælper med at forudsige klassen tydeligt, hvis der kommer en ny observation ind i ligningen.

Hvorimod hvis vi har et datasæt, for hvilket svarets klasser endnu ikke er defineret, går clustering forud for Discriminant for at skabe de forskellige kategorier af output, der bedst definerer befolkningens adfærd. Når klyngerne er opbygget, bruger mange statistikere/analytikere generelt enten Discriminant- eller logistisk model som forudsigelsesteknik til at klassificere enhver ny observation.

Nogle relevante eksempler fra det virkelige liv på, hvor en Discriminant-model kan bruges, er

  1. Når vi ønsker at forudsige, om en ansøger til et banklån sandsynligvis vil misligholde sine forpligtelser eller ej.
  2. Forudsige sandsynligheden for et hjerteanfald på baggrund af forskellige sundhedsindikatorer.
  3. Forudsige stabilitetsniveauet – “Godt”, “Kræver inspektion” eller “Kræver reparation/udskiftning” – for en motor/maskine på grundlag af forskellige præstationsindikatorer.

I form af en ligning kan det forventede forhold mellem responsvariablen og de uafhængige variabler forklares ved nedenstående ligning

d=v1*X1+v2*X2+…+vn*Xn+a

Hvor d er den diskriminerende funktion, v-diskriminerende koefficienter, X-respondentens score for den pågældende variabel. a-konstant(fejl). Vi får altid n-1 diskriminantligninger, hvor n er antallet af grupper/medlemskaber, den afhængige variabel har. For Iris’ datasæt får vi to ligninger, da vi har tre klasser af den afhængige variabel, dvs. arten.

LDA(Linear Discriminant Analysis) bestemmer gruppernes middelværdier og beregner for hvert individ sandsynligheden for at tilhøre de forskellige grupper. Individet tilknyttes derefter til den gruppe med den højeste sandsynlighedsscore. Se eksemplet til venstre.

I forhold til logistisk regression er LDA mere velegnet til at forudsige kategorien for en observation i den situation, hvor udfaldsvariablen indeholder mere end to klasser. Desuden er den mere stabil end den logistiske regression for klassifikationsproblemer med flere klasser. LDA forudsætter, at prædiktorerne er normalfordelte (Gauss-fordeling), og at de forskellige klasser har klassespecifikke middelværdier og samme varians/kovarians. Hvis disse antagelser overtrædes, vil logistisk regression være bedre end LDA.

Quadratic Discriminant Analysis(QDA), en udvidelse af LDA, er lidt mere fleksibel end førstnævnte i den forstand, at den ikke forudsætter lighed af varians/kovarians. Med andre ord kan kovariansmatrixen for QDA være forskellig for hver klasse. LDA har en tendens til at være bedre end QDA, når man har et lille træningssæt. Derimod anbefales QDA, hvis træningssættet er meget stort, således at variansen af klassifikatoren ikke er et stort problem, eller hvis antagelsen om en fælles kovariansmatrix for de K klasser er klart uholdbar.

II. Forholdet mellem diskriminant og MANOVA

Diskriminant anvendes typisk, når vi har en kategorisk responsvariabel og et sæt uafhængige variabler, som er kontinuerlige af natur.

Testen før anvendelse af en diskriminantanalyse er at anvende Manova på det samme sæt variabler, men efter omvendt ligning, dvs. responsvariable (=afhængige)og uafhængige variabler for diskriminant bliver henholdsvis uafhængige variabler og responsvariable for Manova. Hvis resultatet af Manova viser, at middelværdierne for den kategoriske variabel er signifikant forskellige, hvorved nulhypotesen om, at der ikke er nogen forskel (i middelværdierne) mellem de faktorer, der formodes at påvirke responsen, forkastes, er det kun i så fald, at Diskriminantanalysen vil gøre et godt stykke arbejde med at differentiere og klassificere responsvariablen (i Diskriminantmodellen). Hvis Manova ikke afviser nulhypotesen, vil diskriminantanalyse være en nyttesløs øvelse. Så på mange måder er Discriminant afhængig af Manova og omtales undertiden som omvendt af Manova. Vi vil se dette mere detaljeret i de følgende afsnit, hvor vi vil gennemgå et par eksempler.

III. Illustration ved hjælp af et eksempel

Et par korrelerede variabler er der, som det kan ses nedenfor

Flavnoider og NonFlavnoider er korreleret til OD280.OD315. Prolin og alkohol har også en rimelig grad af korrelation

Nogle af uni variate plots, for ovenstående koder er vist nedenfor

Leave a Reply