Introduktion till diskriminantanalys (del 1)

Desto klarare vi blir i vårt tänkande och ju mer diskriminerande vårt fokus är, desto mer MÄKTIGARE blir vi!

Ta ett ögonblick för att analysera de här två meningarna:

Sats 1: Jag tror att man presterar bättre när man är i form, totalt sett. Det är viktigt att göra vad som krävs för att hålla sig i form från alla håll och kanter.

Sats 2: Man presterar bättre när man är i form, både fysiskt och mentalt. Det är viktigt att arbeta med båda aspekterna genom att kanalisera olika/distinkta former av energi till var och en av aspekterna.

Kan du hitta någon skillnad mellan de två?

I den andra meningen fanns det en tydlig differentiering mellan de två aspekterna av kondition och det fokus som krävs.

Diskriminering är dålig när den uppnådda differentieringen används på ett negativt sätt. Annars kan fantastiska saker göras med hjälp av förmågan att diskriminera, differentiera och fördela lämpligt fokus för att uppnå divergerande mål.

Diskriminantanalys, en lös avledning av ordet diskriminering, är ett begrepp som används i stor utsträckning för att klassificera nivåer av ett resultat. Med andra ord är det användbart för att avgöra om en uppsättning variabler är effektiva när det gäller att förutsäga kategoritillhörighet

Till exempel kan jag vilja förutsäga om en elev kommer att ”klara” eller ”misslyckas” på ett prov baserat på de betyg han har fått på de olika klassproven under tiden fram till slutprovet.

På samma sätt kanske jag vill förutsäga om en kund kommer att göra sin månatliga amortering eller inte baserat på den lön han har fått, hans månatliga utgifter och andra bankskulder etc.

I båda ovanstående fall är mina ansträngningar inriktade på att förutsäga ett svar som är kategoriskt till sin natur. De faktorer som påverkar svaret eller som har en väsentlig roll när det gäller att avgöra vad svaret kommer att bli kallas oberoende variabler.

När jag läste igenom olika böcker om en mängd olika klassificeringstekniker stötte jag på Diskriminantanalys som ett mycket kraftfullt klassificeringsverktyg. En annan sådan teknik är logistisk regression, som har visat sig användas i mycket större utsträckning. Jag ville lyfta fram finesserna i Diskriminantanalys, som ibland överträffar Logistisk regression, särskilt när svarsvariabeln har mer än två nivåer. Ämnet omfattar i stort sett följande områden:

I. Vad är diskriminantanalys?

II. Vad är förhållandet mellan diskriminantanalys och Manova?

III. Illustration med ett enkelt exempel

I. Vad är diskriminantanalys?

Källa: https://www.flickr.com/photos/15609463@N03/14898932531

Diskriminant är, som namnet antyder, en metod för att analysera affärsproblem, med målet att differentiera eller särskilja svarsvariabeln i dess distinkta klasser.

Typiskt sett används diskriminantanalys när vi redan har fördefinierade klasser/kategorier av svar och vi vill bygga en modell som hjälper till att tydligt förutsäga klassen, om någon ny observation kommer in i ekvationen.

Hursomhelst, om vi har ett dataset för vilket svarsklasserna ännu inte är definierade, föregår klustring Discriminant för att skapa de olika kategorierna av utdata som bäst definierar befolkningens beteende. Efter att klustren har byggts upp använder många statistiker/analytiker i allmänhet antingen Discriminant- eller logistisk modell som prediktiv teknik för att klassificera alla nya observationer.

Några relevanta exempel från verkligheten på var en Discriminant-modell kan användas är

  1. När vi vill förutsäga om det är troligt att en sökande av ett banklån kommer att försumma sina betalningar eller inte.
  2. Förutsägelse av sannolikheten för hjärtinfarkt baserat på olika hälsoindexer.
  3. Förutsäga stabilitetsnivån – ”Bra”, ”Kräver inspektion” eller ”Kräver reparation/utbyte” – för en motor/maskin baserat på olika prestandaindikatorer.

I form av en ekvation kan det förväntade förhållandet mellan svarsvariabeln och de oberoende variablerna förklaras med följande ekvation

d=v1*X1+v2*X2+…+vn*Xn+a

Varvid d är diskrimineringsfunktionen, v-diskrimineringskoefficienter, X-respondentens poäng för den variabeln. a-konstant(fel). Vi får alltid n-1 diskriminanta ekvationer där n är antalet grupper/medlemmar, den beroende variabeln har. För Iris datamängd får vi två ekvationer eftersom vi har tre klasser av den beroende variabeln, dvs. arten.

LDA (Linear Discriminant Analysis) bestämmer gruppmedelvärdena och beräknar, för varje individ, sannolikheten för att tillhöra de olika grupperna. Individen tilldelas sedan den grupp som har den högsta sannolikhetspoängen. Se exemplet till vänster.

Vid jämförelse med logistisk regression är LDA mer lämplig för att förutsäga kategorin för en observation i den situation där utfallsvariabeln innehåller mer än två klasser. Dessutom är den mer stabil än logistisk regression för klassificeringsproblem med flera klasser. LDA förutsätter att prediktorerna är normalfördelade (gaussisk fördelning) och att de olika klasserna har klassspecifika medelvärden och lika stor varians/kovarians. Om dessa antaganden bryts kommer logistisk regression att prestera bättre än LDA.

Quadratisk diskriminantanalys(QDA), en utvidgning av LDA är lite mer flexibel än den förstnämnda, i den meningen att den inte utgår från jämlikhet i varians/kovarians. Med andra ord kan kovariansmatrisen för QDA vara olika för varje klass. LDA tenderar att vara bättre än QDA när man har en liten träningsuppsättning. QDA rekommenderas däremot om träningsuppsättningen är mycket stor, så att klassificerarens varians inte är ett stort problem, eller om antagandet om en gemensam kovariansmatris för K-klasserna är klart ohållbart.

II. Förhållandet mellan diskriminant och MANOVA

Diskriminant används vanligtvis när vi har en kategorisk svarsvariabel och en uppsättning oberoende variabler som är kontinuerliga till sin natur.

Testet innan man använder en diskriminantanalys är att använda Manova på samma uppsättning variabler, men efter att ha vänt ekvationen, dvs. svarsvariablerna (=beroende) och de oberoende variablerna för diskriminant blir oberoende variabler och svarsvariabler, respektive för Manova. Om Manova-resultatet visar att medelvärdena för den kategoriska variabeln är signifikant olika och därmed förkastar nollhypotesen att det inte finns någon skillnad (i medelvärden) mellan de faktorer som antas påverka svaret, är det först då som diskriminantanalysen kommer att göra ett bra jobb när det gäller att differentiera och klassificera svarsvariabeln (i diskriminantmodellen). Om Manova inte förkastar nollhypotesen är diskriminantanalysen meningslös. På många sätt är Discriminant alltså beroende av Manova och kallas ibland för Manovas motsats. Vi kommer att se detta mer i detalj i de följande avsnitten där vi kommer att gå igenom några exempel.

III. Illustration med hjälp av ett exempel

Flera korrelerade variabler finns som kan ses nedan

Flavnoider och NonFlavnoider är korrelerade med OD280.OD315. Prolin och alkohol har också en hyfsad grad av korrelation

Nedan visas några av de unika variatdiagrammen för koderna ovan

.

Leave a Reply