Introduction à l’analyse discriminante (1ère partie)
Plus nous devenons clairs dans notre pensée, et plus nous sommes discriminants dans notre focalisation, plus nous devenons EMPOWERES !
Prenez un moment pour analyser ces deux phrases :
Phrase 1 : Je pense que l’on est plus performant quand on est en forme, globalement. Il est important de faire tout ce qui est nécessaire pour rester en forme sous tous les angles.
Phrase 2 : On est plus performant quand on est en forme, physiquement et mentalement. Il est important de travailler sur les deux aspects en canalisant des formes différentes/distinctes d’énergie vers chacun des aspects.
Pouvez-vous trouver une différence entre les deux ?
Dans la deuxième phrase, il y avait une différenciation claire entre les deux aspects de la forme physique et la concentration requise.
La discrimination est mauvaise lorsque la différenciation réalisée est utilisée de manière négative. Sinon, des choses étonnantes peuvent être faites avec l’aide de la capacité à discriminer, à différencier et à distribuer la focalisation appropriée pour atteindre des objectifs divergents.
L’analyse discriminante, une dérivation libre du mot discrimination, est un concept largement utilisé pour classer les niveaux d’un résultat. En d’autres termes, elle est utile pour déterminer si un ensemble de variables est efficace pour prédire l’appartenance à une catégorie
Par exemple, je peux vouloir prédire si un élève va « Réussir » ou « Echouer » à un examen en me basant sur les notes qu’il a obtenues dans les différents tests de classe en vue de l’examen final.
De même, je peux vouloir prédire si un client fera ou non son paiement hypothécaire mensuel en fonction du salaire qu’il a perçu, de ses dépenses mensuelles et de ses autres dettes bancaires, etc.
Dans les deux cas ci-dessus, mes efforts visent à prédire une réponse qui est catégorique par nature. Les facteurs qui influencent la réponse ou qui ont un rôle substantiel dans la décision de ce que sera la réponse, sont appelés variables indépendantes.
En lisant divers livres sur une multitude de techniques de classification, je suis tombé sur l’analyse discriminante comme un outil de classification très puissant. Une autre technique de ce type est la régression logistique qui s’est avérée être utilisée beaucoup plus largement. Je voulais faire ressortir les subtilités de l’analyse discriminante, qui est parfois plus performante que la régression logistique, surtout lorsque la variable de réponse a plus de 2 niveaux. Le sujet couvre largement les domaines ci-dessous :
I. Qu’est-ce que l’analyse discriminante ?
II. Quelle est la relation entre l’analyse discriminante et Manova ?
III. Illustration avec un exemple simple
I. Qu’est-ce que l’analyse discriminante ?
L’analyse discriminante, comme son nom l’indique, est une méthode d’analyse des problèmes d’entreprise, dans le but de différencier ou de discriminer la variable de réponse dans ses classes distinctes.
Typiquement, l’analyse discriminante est mise à contribution lorsque nous avons déjà des classes/catégories prédéfinies de réponse et que nous voulons construire un modèle qui aide à prédire distinctement la classe, si une nouvelle observation entre en équation.
Cependant, si nous avons un jeu de données pour lequel les classes de la réponse ne sont pas encore définies, le clustering précède le Discriminant pour créer les différentes catégories de sortie qui définissent le mieux le comportement de la population. Après la construction des clusters, beaucoup de statisticiens/analystes utilisent généralement le modèle Discriminant ou logistique comme technique prédictive pour classer toute nouvelle observation.
Certains exemples pertinents de la vie réelle où un modèle Discriminant peut être utilisé sont
- Lorsque nous voulons prédire si un demandeur de prêt bancaire est susceptible de faire défaut ou non.
- Prédire la probabilité d’une crise cardiaque en fonction de divers indicateurs de santé.
- Prédire le niveau de stabilité – « Bon », « Nécessite une inspection » ou « Nécessite une réparation/remplacement »- d’un moteur/machine sur la base de divers indicateurs de performance.
En termes d’équation, la relation attendue entre la variable de réponse et les variables indépendantes peut être expliquée par l’équation suivante
d=v1*X1+v2*X2+…+vn*Xn+a
Où d est la fonction discriminante, v-les coefficients discriminants, X-le score du répondant pour cette variable. a-constante(erreur). Nous obtenons toujours n-1 équations discriminantes où n est le nombre de groupes/membres, la variable dépendante a. Pour l’ensemble des données de l’Iris, nous obtenons deux équations car nous avons trois classes de la variable dépendante, c’est-à-dire l’espèce.
LDA(Linear Discriminant analysis) détermine les moyennes des groupes et calcule, pour chaque individu, la probabilité d’appartenir aux différents groupes. L’individu est ensuite affecté au groupe dont le score de probabilité est le plus élevé. Voir l’exemple à gauche.
Par rapport à la régression logistique, la LDA est plus adaptée pour prédire la catégorie d’une observation dans la situation où la variable de résultat contient plus de deux classes. De plus, elle est plus stable que la régression logistique pour les problèmes de classification multi-classes. LDA suppose que les prédicteurs sont normalement distribués (distribution gaussienne) et que les différentes classes ont des moyennes spécifiques à la classe et une variance/covariance égale. Si ces hypothèses sont violées, la régression logistique sera plus performante que la LDA.
L’analyse discriminante quadratique(QDA), une extension de la LDA est un peu plus flexible que la première, dans le sens où elle ne suppose pas l’égalité de la variance/covariance. En d’autres termes, pour QDA, la matrice de covariance peut être différente pour chaque classe. LDA a tendance à être meilleur que QDA lorsque vous disposez d’un petit ensemble d’apprentissage. En revanche, QDA est recommandé si l’ensemble d’entraînement est très grand, de sorte que la variance du classificateur n’est pas un problème majeur, ou si l’hypothèse d’une matrice de covariance commune pour les K classes est clairement intenable.
II. Relation entre Discriminant et MANOVA
Le Discriminant est typiquement utilisé lorsque nous avons une variable de réponse catégorielle et un ensemble de variables indépendantes qui sont de nature continue.
Le test avant d’utiliser une analyse Discriminant est d’employer Manova sur le même ensemble de variables, mais après avoir inversé l’équation c’est-à-dire que la réponse (=dépendante)et les variables indépendantes pour le Discriminant deviennent des variables indépendantes et des variables de réponse, respectivement pour Manova. Si le résultat de Manova montre que les moyennes de la variable catégorielle sont significativement différentes, rejetant ainsi l’hypothèse nulle qu’il n’y a pas de différence (dans les moyennes) entre les facteurs présumés avoir un impact sur la réponse, alors seulement l’analyse discriminante fera un bon travail de différenciation et de classification de la variable de réponse (dans le modèle discriminant). Si Manova ne rejette pas l’hypothèse nulle, l’analyse discriminante sera un exercice futile. Ainsi, à bien des égards, l’analyse discriminante dépend de Manova et est parfois appelée l’inverse de Manova. Nous verrons cela plus en détail dans les sections suivantes où nous passerons par quelques exemples.
III. Illustration à l’aide d’un exemple
Leave a Reply