Anscombe’s Quartet

Parth Shah
szept. 19, 2018 – 2 min read

Mindig is hittem abban, hogy “a numerikus számítások pontosak, de a grafikonok durvák”. Egy olyan személytől, aki most kezdte el tanulni az adatelemzést, nehéz volt megértenem az adatvizualizáció fontosságát az összefoglaló statisztikákkal együtt. De minden megváltozott, miután részt vettem ezen az Adatvizualizációs találkozón, ahol megismertem az Anscombe-kvartettet.

Anscombe-kvartettet Francis Anscombe statisztikus fejlesztette ki. Négy adatkészletből áll, amelyek mindegyike tizenegy (x,y) párt tartalmaz. A lényeges dolog, amit ezekkel az adatkészletekkel kapcsolatban meg kell jegyezni, hogy ugyanazokat a leíró statisztikákat használják. A dolgok azonban teljesen megváltoznak, és hangsúlyoznom kell, hogy TELJESEN, amikor grafikusan ábrázoljuk őket. Mindegyik grafikon más történetet mesél el, függetlenül attól, hogy hasonlóak az összefoglaló statisztikáik.

A kvartett összefoglaló statisztikái

Az összefoglaló statisztikák azt mutatják, hogy az x és y átlagai és szórásai azonosak voltak a csoportok között :

  • az x átlaga 9, az y átlaga pedig 7.50 minden adatcsoport esetében.
  • Hasonlóképpen, az x szórása 11 és az y szórása 4,13 minden adatcsoport esetében
  • A korrelációs együttható (mennyire erős a kapcsolat két változó között) x és y között 0.816 mindegyik adatkészlet esetében

Ha ezt a négy adatkészletet egy x/y koordinátasíkon ábrázoljuk, megfigyelhetjük, hogy ugyanazokat a regressziós egyeneseket mutatják, de mindegyik adatkészlet más-más történetet mond :

  • Az I. adathalmaz tiszta és jól illeszkedő lineáris modellnek tűnik.
  • A II. adatkészlet nem normális eloszlású.
  • A III. adatkészletben az eloszlás lineáris, de a számított regressziót egy kiugró érték dobja meg.
  • A IV. adatkészlet azt mutatja, hogy egy kiugró érték elég ahhoz, hogy magas korrelációs együtthatót kapjunk.

Ez a kvartett hangsúlyozza a vizualizáció fontosságát az adatelemzésben. Az adatok megtekintése sokat elárul a szerkezetről, és világos képet ad az adathalmazról.

A számítógépnek számításokat és grafikont is kell készítenie. Mindkét fajta kimenetet tanulmányozni kell; mindegyik hozzájárul a megértéshez.

Leave a Reply