Introducción al Análisis Discriminante (Parte 1)

¡Cuanto más claro sea nuestro pensamiento y más discriminante nuestro enfoque, más EMPODERADOS estaremos!

Tómese un momento para analizar estas dos frases:

Obra 1: Creo que uno rinde más cuando está en forma, en general. Es importante hacer lo que sea necesario para mantenerse en forma desde todos los ángulos.

Frase 2: Uno rinde más cuando está en forma, tanto física como mentalmente. Es importante trabajar en ambos aspectos canalizando formas diferentes/distintas de energía a cada uno de los aspectos.

¿Puedes encontrar alguna diferencia entre los dos?

En la segunda frase, había una clara diferenciación entre los dos aspectos de la aptitud física y el enfoque requerido.

La discriminación es mala cuando la diferenciación lograda se utiliza de forma negativa. De lo contrario, se pueden hacer cosas asombrosas con la ayuda de la capacidad de discriminar, diferenciar y distribuir el enfoque adecuado para lograr objetivos divergentes.

El análisis discriminante, una derivación poco precisa de la palabra discriminación, es un concepto ampliamente utilizado para clasificar los niveles de un resultado. En otras palabras, es útil para determinar si un conjunto de variables es eficaz para predecir la pertenencia a una categoría

Por ejemplo, puedo querer predecir si un alumno va a «Aprobar» o «Suspender» en un examen basándome en las notas que ha ido sacando en las distintas pruebas de clase en el periodo previo al examen final.

De forma similar, puedo querer predecir si un cliente hará o no el pago mensual de su hipoteca basándome en el salario que ha estado cobrando, sus gastos mensuales y otras obligaciones bancarias, etc.

En ambos casos mis esfuerzos se dirigen a predecir una respuesta que es de naturaleza categórica. Los factores que influyen en la respuesta o que desempeñan un papel importante a la hora de decidir cuál será la respuesta se denominan variables independientes.

Mientras leía varios libros sobre multitud de técnicas de clasificación, me encontré con el análisis discriminante como una herramienta de clasificación muy potente. Otra técnica de este tipo es la Regresión Logística, cuyo uso está mucho más extendido. Quería destacar las sutilezas del análisis discriminante, que a veces supera a la regresión logística, especialmente cuando la variable de respuesta tiene más de dos niveles. El tema cubre ampliamente las siguientes áreas:

I. ¿Qué es el análisis discriminante? ¿Cuál es la relación del Análisis Discriminante con la Manova?

III. Ilustración con un ejemplo sencillo

I. ¿Qué es el análisis discriminante?

Fuente: https://www.flickr.com/photos/15609463@N03/14898932531

El discriminante, como su nombre indica, es un método de análisis de problemas empresariales, con el objetivo de diferenciar o discriminar la variable de respuesta en sus distintas clases.

Típicamente el análisis discriminante se pone en uso cuando ya tenemos clases/categorías de respuesta predefinidas y queremos construir un modelo que ayude a predecir distintamente la clase, si alguna nueva observación entra en ecuación.

Sin embargo, si tenemos un conjunto de datos para el que las clases de la respuesta aún no están definidas, la agrupación precede a la Discriminante para crear las diversas categorías de salida que mejor definen el comportamiento de la población. Una vez construidos los conglomerados, muchos estadísticos/analistas suelen utilizar el modelo Discriminante o el logístico como técnica de predicción para clasificar cualquier nueva observación.

Algunos ejemplos relevantes de la vida real en los que se puede utilizar un modelo Discriminante son

  1. Cuando queremos predecir si es probable que un solicitante de un préstamo bancario incumpla o no.
  2. Predecir la probabilidad de un ataque al corazón en función de varios indicadores de salud.
  3. Predecir el nivel de estabilidad – «Buena», «Requiere inspección» o «Requiere reparación/sustitución»- de un motor/máquina en función de varios indicadores de rendimiento.

En términos de una ecuación la relación esperada entre la variable de respuesta y las variables independientes puede ser explicada por la siguiente ecuación

d=v1*X1+v2*X2+…+vn*Xn+a

Donde d es la función discriminante, v-coeficientes discriminantes, X-puntuación de la respuesta para esa variable. a-constante(error). Siempre obtenemos n-1 ecuaciones discriminantes donde n es el número de grupos/membresías que tiene la variable dependiente. Para el conjunto de datos de Iris obtenemos dos ecuaciones, ya que tenemos tres clases de la variable dependiente, es decir, la especie.

LDA(Linear Discriminant analysis) determina las medias de los grupos y calcula, para cada individuo, la probabilidad de pertenecer a los diferentes grupos. A continuación, el individuo se asigna al grupo con la mayor puntuación de probabilidad. Véase el ejemplo de la izquierda.

Comparado con la regresión logística, el LDA es más adecuado para predecir la categoría de una observación en la situación en que la variable de resultado contiene más de dos clases. Además, es más estable que la regresión logística para problemas de clasificación multiclase. El LDA asume que los predictores se distribuyen normalmente (distribución gaussiana) y que las diferentes clases tienen medias específicas de clase e igual varianza/covarianza. Si se violan estos supuestos, la regresión logística superará al LDA.

El Análisis Discriminante Cuadrático (QDA), una extensión del LDA es un poco más flexible que el primero, en el sentido de que no asume la igualdad de varianza/covarianza. En otras palabras, para el QDA la matriz de covarianza puede ser diferente para cada clase. LDA tiende a ser mejor que QDA cuando se tiene un conjunto de entrenamiento pequeño. Por el contrario, el QDA se recomienda si el conjunto de entrenamiento es muy grande, de modo que la varianza del clasificador no es un problema importante, o si la suposición de una matriz de covarianza común para las K clases es claramente insostenible.

II. Relación entre el Discriminante y el MANOVA

El Discriminante se utiliza normalmente cuando tenemos una variable de respuesta categórica y un conjunto de variables independientes que son de naturaleza continua.

La prueba antes de utilizar un análisis Discriminante es emplear el Manova en el mismo conjunto de variables, pero después de invertir la ecuación, es decir, las variables de respuesta (=dependientes) y las independientes para el Discriminante se convierten en variables independientes y variables de respuesta, respectivamente para el Manova. Si el resultado de Manova muestra que las medias de la variable categórica son significativamente diferentes, rechazando así la hipótesis nula de que no hay diferencia (en las medias) entre los factores que se supone que influyen en la respuesta, sólo entonces el análisis discriminante hará un buen trabajo de diferenciación y clasificación de la variable de respuesta (en el modelo discriminante). Si Manova no rechaza la hipótesis nula, el análisis discriminante sería un ejercicio inútil. Así que, en muchos sentidos, el Discriminante depende del Manova y a veces se le llama el reverso del Manova. Veremos esto con más detalle en las siguientes secciones en las que veremos algunos ejemplos.

III. Ilustración con un ejemplo

Hay algunas variables correlacionadas como se puede ver a continuación

Los flavonoides y los no flavonoides están correlacionados con la DO280.DO315. La prolina y el alcohol también tienen un grado decente de correlación

A continuación se muestran algunos de los gráficos de la variante uni, para los códigos anteriores

Leave a Reply