Kwartet Anscombe’a

Parth Shah
Sep 19, 2018 – 2 min read

Zawsze wierzyłem w „obliczenia numeryczne są dokładne, ale wykresy są szorstkie”. Pochodząc od osoby, która dopiero zaczęła uczyć się analityki danych, trudno było mi zrozumieć znaczenie wizualizacji danych wraz z podsumowującymi statystykami. Ale to wszystko zmieniło się po uczestnictwie w Data Visualization Meetup, kiedy to zostałem wprowadzony do Kwartetu Anscombe’a.

Kwartet Anscombe’a został opracowany przez statystyka Francisa Anscombe’a. Składa się on z czterech zestawów danych, z których każdy zawiera jedenaście par (x,y). Najważniejszą rzeczą, którą należy zauważyć w tych zestawach danych jest to, że mają one te same statystyki opisowe. Ale wszystko zmienia się całkowicie, i muszę podkreślić KOMPLETNIE, gdy zestawi się je na wykresach. Każdy wykres opowiada inną historię, niezależnie od podobnych statystyk zbiorczych.

Statystyki zbiorcze kwartetu

Statystyki zbiorcze pokazują, że średnie i wariancje były identyczne dla x i y we wszystkich grupach :

  • Średnia x wynosi 9, a średnia y wynosi 7.50 dla każdego zestawu danych.
  • Podobnie, wariancja x wynosi 11, a wariancja y wynosi 4.13 dla każdego zestawu danych
  • Współczynnik korelacji (jak silny jest związek między dwiema zmiennymi) między x i y wynosi 0.816 dla każdego zestawu danych

Gdy wykreślimy te cztery zestawy danych na płaszczyźnie współrzędnych x/y, możemy zaobserwować, że pokazują one te same linie regresji, ale każdy zestaw danych opowiada inną historię:

  • Zbiór danych I wydaje się mieć czyste i dobrze dopasowane modele liniowe.
  • Zbiór danych II nie ma rozkładu normalnego.
  • W zbiorze danych III rozkład jest liniowy, ale obliczona regresja jest zaburzona przez wartość odstającą.
  • Zbiór danych IV pokazuje, że wystarczy jedna wartość odstająca, aby uzyskać wysoki współczynnik korelacji.

Ten kwartet podkreśla znaczenie wizualizacji w analizie danych. Spojrzenie na dane ujawnia wiele ze struktury i jasny obraz zbioru danych.

Komputer powinien wykonywać zarówno obliczenia jak i wykresy. Oba rodzaje danych wyjściowych powinny być badane; każdy z nich przyczyni się do zrozumienia.

.

Leave a Reply