Anscombe’s Quartet

Parth Shah
19 sept, 2018 – 2 min citește

Întotdeauna am crezut în „calculele numerice sunt exacte, dar graficele sunt aproximative”. Venind din partea unei persoane care abia a început să învețe analiza datelor, mi-a fost greu să înțeleg importanța vizualizării datelor împreună cu statisticile sumare. Dar totul s-a schimbat după ce am participat la acest Data Visualization Meetup, care a fost momentul în care am făcut cunoștință cu Anscombe’s Quartet.

Anscombe’s Quartet a fost dezvoltat de statisticianul Francis Anscombe. Acesta cuprinde patru seturi de date, fiecare conținând unsprezece perechi (x,y). Lucrul esențial de reținut cu privire la aceste seturi de date este că ele au în comun aceleași statistici descriptive. Dar lucrurile se schimbă complet, și trebuie să subliniez COMPLET, atunci când acestea sunt reprezentate grafic. Fiecare grafic spune o poveste diferită, indiferent de statisticile lor sumare similare.

Statisticile sumare ale cvartetului

Statisticile sumare arată că mediile și varianțele au fost identice pentru x și y în toate grupurile :

  • Media lui x este 9 și media lui y este 7.50 pentru fiecare set de date.
  • În mod similar, varianța lui x este 11 și varianța lui y este 4,13 pentru fiecare set de date
  • Coeficientul de corelație (cât de puternică este o relație între două variabile) între x și y este 0.816 pentru fiecare set de date

Când reprezentăm aceste patru seturi de date pe un plan de coordonate x/y, putem observa că ele prezintă aceleași linii de regresie, de asemenea, dar fiecare set de date spune o poveste diferită :

  • Setul de date I pare să aibă modele liniare curate și bine adaptate.
  • Setul de date II nu este distribuit în mod normal.
  • În setul de date III distribuția este liniară, dar regresia calculată este dată peste cap de o valoare aberantă.
  • Setul de date IV arată că o valoare aberantă este suficientă pentru a produce un coeficient de corelație ridicat.

Acest cvartet evidențiază importanța vizualizării în analiza datelor. Privirea datelor dezvăluie o mare parte din structura și o imagine clară a setului de date.

Un calculator ar trebui să facă atât calcule cât și grafice. Ambele tipuri de rezultate ar trebui să fie studiate; fiecare va contribui la înțelegere.

Leave a Reply