Quatuor d’Anscombe
J’ai toujours cru en « les calculs numériques sont exacts, mais les graphiques sont rugueux ». Venant d’une personne qui vient de commencer à apprendre l’analyse des données, il était difficile pour moi de comprendre l’importance de la visualisation des données avec les statistiques sommaires. Mais tout a changé après avoir assisté à ce Data Visualization Meetup, c’est à ce moment-là que l’on m’a présenté le quatuor d’Anscombe.
Le quatuor d’Anscombe a été développé par le statisticien Francis Anscombe. Il comprend quatre ensembles de données, chacun contenant onze paires (x,y). La chose essentielle à noter à propos de ces jeux de données est qu’ils partagent les mêmes statistiques descriptives. Mais les choses changent complètement, et j’insiste sur COMPLETEMENT, lorsqu’elles sont représentées sous forme de graphiques. Chaque graphique raconte une histoire différente indépendamment de leurs statistiques sommaires similaires.
Les statistiques sommaires montrent que les moyennes et les variances étaient identiques pour x et y à travers les groupes :
- La moyenne de x est de 9 et la moyenne de y est de 7.50 pour chaque ensemble de données.
- De même, la variance de x est de 11 et la variance de y est de 4,13 pour chaque ensemble de données
- Le coefficient de corrélation (la force de la relation entre deux variables) entre x et y est de 0.816 pour chaque ensemble de données
Lorsque nous traçons ces quatre ensembles de données sur un plan de coordonnées x/y, nous pouvons observer qu’ils montrent également les mêmes lignes de régression mais que chaque ensemble de données raconte une histoire différente :
- Le jeu de données I semble avoir des modèles linéaires propres et bien ajustés.
- Le jeu de données II n’est pas distribué normalement.
- Dans le jeu de données III, la distribution est linéaire, mais la régression calculée est déséquilibrée par une valeur aberrante.
- Le jeu de données IV montre qu’une valeur aberrante est suffisante pour produire un coefficient de corrélation élevé.
Ce quatuor souligne l’importance de la visualisation dans l’analyse des données. Regarder les données révèle beaucoup de la structure et une image claire de l’ensemble de données.
Un ordinateur devrait faire à la fois des calculs et des graphiques. Les deux sortes de sortie devraient être étudiées ; chacune contribuera à la compréhension.
Leave a Reply