Introducere la analiza discriminantă (Partea 1)

Cu cât devenim mai clari în gândirea noastră și cu cât ne concentrăm mai discriminant, cu atât devenim mai PUTERNICI!

Analizați puțin aceste două propoziții:

Propoziția 1: Cred că cineva performează mai bine atunci când este în formă, în general. Este important să facem tot ceea ce este necesar pentru a ne menține în formă din toate punctele de vedere.

Fraza 2: Cineva performează mai bine atunci când este în formă, atât fizic, cât și psihic. Este important să se lucreze asupra ambelor aspecte, canalizând forme diferite/distincte de energie către fiecare dintre aspecte.

Poți găsi vreo diferență între cele două fraze?

În cea de-a doua frază, a existat o diferențiere clară între cele două aspecte ale condiției fizice și concentrarea necesară.

Discriminarea este rea atunci când diferențierea realizată este folosită într-un mod negativ. În caz contrar, se pot face lucruri uimitoare cu ajutorul capacității de a discrimina, diferenția și distribui focalizarea adecvată pentru a atinge obiective divergente.

Analiza discriminantă, o derivare liberă din cuvântul discriminare, este un concept utilizat pe scară largă pentru a clasifica nivelurile unui rezultat. Cu alte cuvinte, este utilă pentru a determina dacă un set de variabile sunt eficiente în prezicerea apartenenței la o categorie

De exemplu, aș putea dori să prezic dacă un elev va fi „admis” sau „respins” la un examen pe baza notelor pe care le-a obținut la diferitele teste din clasă în perioada premergătoare examenului final.

În mod similar, aș putea dori să prezic dacă un client își va achita sau nu plata lunară a creditului ipotecar pe baza salariului pe care l-a primit, a cheltuielilor sale lunare și a altor datorii bancare etc.

În ambele cazuri de mai sus, eforturile mele sunt îndreptate spre prezicerea unui răspuns care este de natură categorică. Factorii care influențează răspunsul sau care au un rol substanțial în a decide care va fi răspunsul se numesc variabile independente.

Cum citeam diverse cărți despre o multitudine de tehnici de clasificare, am dat peste analiza discriminantă ca fiind un instrument de clasificare foarte puternic. O altă astfel de tehnică este Regresia logistică, care s-a dovedit a fi folosită mult mai mult. Am vrut să scot în evidență subtilitățile analizei Discriminant, care uneori surclasează Regresia logistică mai ales atunci când variabila de răspuns are mai mult de 2 niveluri. Subiectul acoperă în linii mari domeniile de mai jos:

I. Ce este analiza discriminantă?

II. Care este relația dintre analiza discriminantă și Manova?

III. Ilustrare cu un exemplu simplu

I. Ce este Analiza Discriminantă?

Sursa: https://www.flickr.com/photos/15609463@N03/14898932531

Analiza discriminantă, după cum sugerează și numele, este o metodă de analiză a problemelor de afaceri, cu scopul de a diferenția sau discrimina variabila de răspuns în clasele sale distincte.

În mod obișnuit, analiza discriminantă este pusă în aplicare atunci când avem deja clase/categorii predefinite de răspuns și dorim să construim un model care să ne ajute în predicția distinctă a clasei, în cazul în care o nouă observație intră în ecuație.

Dar dacă avem un set de date pentru care clasele de răspuns nu sunt încă definite, gruparea precede Discriminant pentru a crea diferitele categorii de ieșire care definesc cel mai bine comportamentul populației. După ce clusterele sunt construite, o mulțime de statisticieni/analiști folosesc, în general, fie modelul Discriminant, fie modelul logistic ca tehnică de predicție pentru a clasifica orice nouă observație.

Câteva exemple relevante din viața reală în care poate fi utilizat un model Discriminant sunt

  1. Când dorim să prezicem dacă un solicitant al unui împrumut bancar este probabil să nu plătească sau nu.
  2. Prevederea probabilității unui atac de cord pe baza diferiților indicatori de sănătate.
  3. Prediceți nivelul de stabilitate – „Bun”, „Necesită inspecție” sau „Necesită reparație/înlocuire”- al unui motor/mașină pe baza diverșilor indicatori de performanță.

În termenii unei ecuații, relația așteptată între variabila de răspuns și variabilele independente poate fi explicată prin ecuația de mai jos

d=v1*X1+v2*X2+…+vn*Xn+a

Unde d este funcția discriminantă, v-coeficienții discriminanți, X-scorul respondentului pentru acea variabilă. a-constanta(eroare). Întotdeauna obținem n-1 ecuații discriminante, unde n este numărul de grupuri/apartenențe, pe care le are variabila dependentă. Pentru setul de date Iris obținem două ecuații, deoarece avem trei clase ale variabilei dependente, adică specia.

LDA(Linear Discriminant analysis) determină mediile de grup și calculează, pentru fiecare individ, probabilitatea de apartenență la diferite grupuri. Individul este apoi atribuit grupului cu cel mai mare scor de probabilitate. A se vedea exemplul din stânga.

În comparație cu regresia logistică, LDA este mai potrivită pentru a prezice categoria unei observații în situația în care variabila de rezultat conține mai mult de două clase. În plus, este mai stabilă decât regresia logistică pentru problemele de clasificare multiclasă. LDA presupune că predictorii sunt distribuiți în mod normal (distribuție gaussiană) și că diferitele clase au medii specifice fiecărei clase și o varianță/covarianță egală. Dacă aceste ipoteze sunt încălcate, regresia logistică va fi mai performantă decât LDA.

Quadratic Discriminant Analysis(QDA), o extensie a LDA, este puțin mai flexibilă decât prima, în sensul că nu presupune egalitatea varianței/covarianței. Cu alte cuvinte, pentru QDA, matricea de covarianță poate fi diferită pentru fiecare clasă. LDA tinde să fie mai bună decât QDA atunci când aveți un set de instruire mic. În schimb, QDA este recomandată în cazul în care setul de instruire este foarte mare, astfel încât varianța clasificatorului nu reprezintă o problemă majoră, sau în cazul în care ipoteza unei matrice de covarianță comună pentru cele K clase este în mod clar nesustenabilă.

II. Relația dintre Discriminant și MANOVA

Discriminantul este utilizat în mod obișnuit atunci când avem o variabilă de răspuns categorică și un set de variabile independente care sunt de natură continuă.

Testul înainte de a utiliza o analiză Discriminant este de a utiliza Manova pe același set de variabile, dar după inversarea ecuației, adică variabilele de răspuns (=dependente) și independente pentru Discriminant devin variabile independente și, respectiv, variabile de răspuns, pentru Manova. Dacă rezultatul Manova arată că mediile variabilei categoriale sunt semnificativ diferite, respingând astfel ipoteza nulă conform căreia nu există nicio diferență (în ceea ce privește mediile) între factorii care se presupune că au un impact asupra răspunsului, numai atunci analiza Discriminant va face o treabă bună în ceea ce privește diferențierea și clasificarea variabilei de răspuns (în modelul Discriminant). În cazul în care Manova nu respinge ipoteza nulă, analiza Discriminantă ar fi un exercițiu inutil. Așadar, în multe privințe, Discriminant este dependent de Manova și, uneori, este denumit inversul lui Manova. Vom vedea acest lucru mai în detaliu în secțiunile următoare, unde vom trece în revistă câteva exemple.

III. Ilustrație cu ajutorul unui exemplu

Există câteva variabile corelate, după cum se poate vedea mai jos

Flavnoidele și NonFlavnoidele sunt corelate cu OD280.OD315. Prolina și alcoolul au, de asemenea, un grad decent de corelație

Câteva dintre diagramele uni variate, pentru codurile de mai sus sunt prezentate mai jos

.

Leave a Reply