Anscombe’s Quartett

Parth Shah
19. Sep, 2018 – 2 min read

Ich habe immer an „numerische Berechnungen sind genau, aber Graphen sind grob“ geglaubt. Als jemand, der gerade erst mit der Datenanalyse begonnen hat, fiel es mir schwer, die Bedeutung der Datenvisualisierung zusammen mit der zusammenfassenden Statistik zu verstehen. Das änderte sich jedoch nach der Teilnahme an diesem Data Visualization Meetup, bei dem ich das Anscombe-Quartett kennenlernte.

Das Anscombe-Quartett wurde vom Statistiker Francis Anscombe entwickelt. Es umfasst vier Datensätze, die jeweils elf (x,y)-Paare enthalten. Das Wesentliche an diesen Datensätzen ist, dass sie dieselben deskriptiven Statistiken aufweisen. Aber die Dinge ändern sich völlig, und ich betone VOLLSTÄNDIG, wenn sie grafisch dargestellt werden. Jedes Diagramm erzählt eine andere Geschichte, ungeachtet ihrer ähnlichen zusammenfassenden Statistiken.

Zusammenfassende Statistiken des Quartetts

Die zusammenfassenden Statistiken zeigen, dass die Mittelwerte und die Varianzen für x und y in den Gruppen identisch waren:

  • Mittelwert von x ist 9 und Mittelwert von y ist 7.
  • Gleichermaßen ist die Varianz von x 11 und die Varianz von y 4,13 für jeden Datensatz
  • Der Korrelationskoeffizient (wie stark eine Beziehung zwischen zwei Variablen ist) zwischen x und y ist 0.816 für jeden Datensatz

Wenn wir diese vier Datensätze auf einer x/y-Koordinatenebene auftragen, können wir feststellen, dass sie auch die gleichen Regressionslinien zeigen, aber jeder Datensatz erzählt eine andere Geschichte:

  • Datensatz I scheint saubere und gut passende lineare Modelle zu haben.
  • Datensatz II ist nicht normal verteilt.
  • In Datensatz III ist die Verteilung linear, aber die berechnete Regression wird durch einen Ausreißer gestört.
  • Datensatz IV zeigt, dass ein Ausreißer ausreicht, um einen hohen Korrelationskoeffizienten zu erzeugen.

Dieses Quartett unterstreicht die Bedeutung der Visualisierung bei der Datenanalyse. Der Blick auf die Daten verrät viel über die Struktur und ein klares Bild des Datensatzes.

Ein Computer sollte sowohl Berechnungen als auch Grafiken erstellen. Beide Arten der Ausgabe sollten untersucht werden; jede wird zum Verständnis beitragen.

Leave a Reply