Anscombe’s Quartet

Parth Shah
19 sep, 2018 – 2 min read

Ik geloofde altijd in “numerieke berekeningen zijn exact, maar grafieken zijn ruw”. Als iemand die net begonnen is met het leren van Data Analytics, was het moeilijk voor mij om het belang van Data Visualization te begrijpen, samen met samenvattende statistieken. Maar dat veranderde allemaal na het bijwonen van deze Data Visualization Meetup, toen ik kennismaakte met het Kwartet van Anscombe.

Anscombe’s Kwartet werd ontwikkeld door statisticus Francis Anscombe. Het bestaat uit vier datasets, die elk elf (x,y) paren bevatten. Het essentiële aan deze datasets is dat zij dezelfde beschrijvende statistieken delen. Maar de zaken veranderen volledig, en ik moet benadrukken COMPLETEEL, wanneer ze in een grafiek worden gezet. Elke grafiek vertelt een ander verhaal, ongeacht hun vergelijkbare samenvattende statistieken.

Kwartet’s Summary Stats

De samenvattende statistieken tonen aan dat de gemiddelden en de varianties identiek waren voor x en y in alle groepen :

  • Het gemiddelde van x is 9 en het gemiddelde van y is 7.50 voor elke dataset.
  • Zo ook is de variantie van x 11 en de variantie van y 4,13 voor elke dataset
  • De correlatiecoëfficiënt (hoe sterk een verband is tussen twee variabelen) tussen x en y is 0.816 voor elke dataset

Wanneer we deze vier datasets plotten op een x/y-coördinatenvlak, kunnen we zien dat ze ook dezelfde regressielijnen laten zien, maar elke dataset vertelt een ander verhaal :

  • Dataset I lijkt schone en goed passende lineaire modellen te hebben.
  • Dataset II is niet normaal verdeeld.
  • In dataset III is de verdeling lineair, maar de berekende regressie wordt door een uitbijter in de war gestuurd.
  • Dataset IV laat zien dat één uitbijter genoeg is om een hoge correlatiecoëfficiënt te produceren.

Dit kwartet onderstreept het belang van visualisatie bij data-analyse. Het bekijken van de gegevens onthult veel van de structuur en een duidelijk beeld van de dataset.

Een computer moet zowel berekeningen als grafieken maken. Beide soorten uitvoer moeten worden bestudeerd; elk zal bijdragen tot een beter begrip.

Leave a Reply