Il quartetto di Anscombe

Parth Shah
19 settembre, 2018 – 2 min read

Ho sempre creduto nel “i calcoli numerici sono esatti, ma i grafici sono grezzi”. Venendo da una persona che ha appena iniziato a imparare l’analitica dei dati, è stato difficile per me capire l’importanza della visualizzazione dei dati insieme alle statistiche riassuntive. Ma tutto è cambiato dopo aver partecipato a questo Data Visualization Meetup, che è quando sono stato introdotto al Quartetto di Anscombe.

Il Quartetto di Anscombe è stato sviluppato dallo statistico Francis Anscombe. Comprende quattro serie di dati, ciascuna contenente undici coppie (x,y). La cosa essenziale da notare su questi insiemi di dati è che condividono le stesse statistiche descrittive. Ma le cose cambiano completamente, e sottolineo COMPLETAMENTE, quando vengono graficati. Ogni grafico racconta una storia diversa a prescindere dalle loro statistiche riassuntive simili.

Statistiche riassuntive del quartetto

Le statistiche riassuntive mostrano che le medie e le varianze erano identiche per x e y nei gruppi :

  • Media di x è 9 e media di y è 7.50 per ogni set di dati.
  • Similmente, la varianza di x è 11 e la varianza di y è 4,13 per ogni set di dati
  • Il coefficiente di correlazione (quanto è forte una relazione tra due variabili) tra x e y è 0.816 per ogni set di dati

Quando tracciamo questi quattro set di dati su un piano di coordinate x/y, possiamo osservare che mostrano le stesse linee di regressione, ma ogni set di dati racconta una storia diversa:

  • Il dataset I sembra avere modelli lineari puliti e ben adattati.
  • Il dataset II non è distribuito normalmente.
  • Nel dataset III la distribuzione è lineare, ma la regressione calcolata è sballata da un outlier.
  • Il dataset IV mostra che un outlier è sufficiente per produrre un alto coefficiente di correlazione.

Questo quartetto sottolinea l’importanza della visualizzazione nell’analisi dei dati. Guardare i dati rivela molto della struttura e un quadro chiaro del set di dati.

Un computer dovrebbe fare sia calcoli che grafici. Entrambi i tipi di output dovrebbero essere studiati; ognuno di essi contribuirà alla comprensione.

.

Leave a Reply