Introduzione all’Analisi Discriminante (Parte 1)

Più chiaro diventiamo nel nostro pensiero, e più discriminante è la nostra attenzione, più diventiamo EMPOWERED!

Prendetevi un momento per analizzare queste due frasi:

Frase 1: Penso che uno renda meglio quando è in forma, nel complesso. È importante fare tutto il necessario per rimanere in forma da tutti i punti di vista.

Frase 2: Si lavora meglio quando si è in forma, sia fisicamente che mentalmente. È importante lavorare su entrambi gli aspetti incanalando forme diverse/distinte di energia a ciascuno di essi.

Puoi trovare qualche differenza tra i due?

Nella seconda frase, c’era una chiara differenziazione tra i due aspetti della forma fisica e l’attenzione richiesta.

La discriminazione è cattiva quando la differenziazione ottenuta è usata in modo negativo. Altrimenti, si possono fare cose sorprendenti con l’aiuto della capacità di discriminare, differenziare e distribuire l’attenzione appropriata per raggiungere obiettivi divergenti.

L’analisi discriminante, una derivazione libera dalla parola discriminazione, è un concetto ampiamente utilizzato per classificare i livelli di un risultato. In altre parole, è utile per determinare se un insieme di variabili sono efficaci nel predire l’appartenenza ad una categoria

Per esempio, potrei voler predire se uno studente sarà “Passato” o “Bocciato” in un esame in base ai voti che ha ottenuto nelle varie prove di classe nel periodo precedente l’esame finale.

Similmente, potrei voler prevedere se un cliente pagherà o meno il suo mutuo mensile in base allo stipendio che ha percepito, alle sue spese mensili e ad altri debiti bancari, ecc.

In entrambi i casi i miei sforzi sono diretti a prevedere una risposta che è di natura categorica. I fattori che influenzano la risposta o che hanno un ruolo sostanziale nel decidere quale sarà la risposta, sono chiamati variabili indipendenti.

Mentre leggevo vari libri su una moltitudine di tecniche di classificazione, mi sono imbattuto nell’analisi discriminante come strumento di classificazione molto potente. Un’altra tecnica di questo tipo è la Regressione Logistica che ha trovato un uso molto più ampio. Ho voluto mettere in evidenza le sottigliezze dell’analisi discriminante, che a volte supera la regressione logistica soprattutto quando la variabile di risposta ha più di 2 livelli. L’argomento copre ampiamente le seguenti aree:

I. Cos’è l’analisi discriminante?

II. Qual è la relazione dell’Analisi Discriminante con Manova?

III. Illustrazione con un semplice esempio

I. Cos’è l’Analisi Discriminante?

Fonte: https://www.flickr.com/photos/15609463@N03/14898932531

Discriminante, come suggerisce il nome, è un metodo di analisi dei problemi di business, con l’obiettivo di differenziare o discriminare la variabile di risposta nelle sue classi distinte.

Tipicamente l’analisi discriminante è messa in uso quando abbiamo già classi/categorie predefinite di risposta e vogliamo costruire un modello che aiuti a predire distintamente la classe, se qualsiasi nuova osservazione entra in equazione.

Se invece abbiamo un set di dati per cui le classi di risposta non sono ancora definite, il clustering precede il discriminante per creare le varie categorie di output che meglio definiscono il comportamento della popolazione. Dopo che i cluster sono stati costruiti, molti statistici/analisti generalmente usano o il modello Discriminante o il modello logistico come tecnica predittiva per classificare ogni nuova osservazione.

Alcuni esempi rilevanti di vita reale in cui un modello Discriminante può essere usato sono

  1. Quando vogliamo prevedere se un richiedente di un prestito bancario è probabile che sia inadempiente o meno.
  2. Prevedere la probabilità di un infarto sulla base di vari indicatori di salute.
  3. Prevedere il livello di stabilità – “Buono”, “Richiede ispezione” o “Richiede riparazione/sostituzione” – di un motore/macchina in base a vari indicatori di prestazione.

In termini di un’equazione la relazione attesa tra la variabile di risposta e le variabili indipendenti può essere spiegata dalla seguente equazione

d=v1*X1+v2*X2+…+vn*Xn+a

dove d è la funzione discriminante, v-codici discriminanti, X-il punteggio del corrispondente per quella variabile. a-costante (errore). Otteniamo sempre n-1 equazioni discriminanti dove n è il numero di gruppi/membri che la variabile dipendente ha. Per l’insieme di dati Iris otteniamo due equazioni poiché abbiamo tre classi della variabile dipendente, cioè la specie.

LDA (Linear Discriminant analysis) determina le medie dei gruppi e calcola, per ogni individuo, la probabilità di appartenere ai diversi gruppi. L’individuo viene quindi assegnato al gruppo con il punteggio di probabilità più alto. Vedere l’esempio a sinistra.

Paragonata alla regressione logistica, LDA è più adatta a predire la categoria di un’osservazione nella situazione in cui la variabile di risultato contiene più di due classi. Inoltre, è più stabile della regressione logistica per problemi di classificazione multiclasse. LDA presuppone che i predittori siano normalmente distribuiti (distribuzione gaussiana) e che le diverse classi abbiano medie specifiche per classe e varianza/covarianza uguali. Se questi presupposti sono violati, la regressione logistica supererà LDA.

Quadratic Discriminant Analysis(QDA), un’estensione di LDA è un po’ più flessibile della prima, nel senso che non presuppone l’uguaglianza di varianza/covarianza. In altre parole, per QDA la matrice di covarianza può essere diversa per ogni classe. LDA tende ad essere migliore di QDA quando si ha un piccolo set di allenamento. Al contrario, QDA è raccomandato se l’insieme di allenamento è molto grande, in modo che la varianza del classificatore non sia un problema importante, o se l’assunzione di una matrice di covarianza comune per le classi K è chiaramente insostenibile.

II. Relazione tra Discriminante e MANOVA

Il Discriminante è tipicamente usato quando abbiamo una variabile di risposta categorica e un insieme di variabili indipendenti che sono di natura continua.

Il test prima di usare un’analisi Discriminante è di impiegare Manova sullo stesso insieme di variabili, ma dopo aver invertito l’equazione, cioè la risposta (=dipendente) e le variabili indipendenti per il Discriminante diventano rispettivamente variabili indipendenti e variabili di risposta per Manova. Se l’output di Manova mostra che le medie della variabile categorica sono significativamente diverse, rifiutando così l’ipotesi nulla che non c’è differenza (nelle medie) tra i fattori che si presume abbiano un impatto sulla risposta, solo allora l’analisi discriminante farà un buon lavoro di differenziazione e classificazione della variabile risposta (nel modello discriminante). Se Manova non rifiuta l’ipotesi nulla, l’analisi discriminante sarebbe un esercizio inutile. Quindi, sotto molti aspetti, Discriminante dipende da Manova e a volte viene definito il contrario di Manova. Vedremo questo in modo più dettagliato nelle sezioni seguenti, dove esamineremo alcuni esempi.

III. Illustrazione con un esempio

Ci sono alcune variabili correlate come si può vedere qui sotto

Flavnoidi e NonFlavnoidi sono correlati a OD280.OD315. Anche la prolina e l’alcool hanno un discreto grado di correlazione

Alcuni dei grafici uni variati, per i codici di cui sopra sono mostrati qui sotto

Leave a Reply