Introdução à Análise Discriminatória (Parte 1)

Quanto mais claro nos tornamos em nosso pensamento, e quanto mais discriminantes em nosso foco, mais VAZIOS nos tornamos!

Passar um momento para analisar estas duas frases:

Frasão 1: Acho que se tem melhor desempenho quando está em forma, em geral. É importante fazer o que for necessário para se manter em forma de todos os ângulos.

Frasão 2: Uma pessoa tem melhor desempenho quando está em forma, tanto física como mentalmente. É importante trabalhar em ambos os aspectos canalizando formas diferentes/distintas de energia para cada um dos aspectos.

Pode encontrar alguma diferença entre os dois?

Na segunda frase, houve uma diferenciação clara entre os dois aspectos da aptidão física e o foco necessário.

Discriminação é má quando a diferenciação alcançada é usada de forma negativa. Caso contrário, coisas incríveis podem ser feitas com a ajuda da capacidade de discriminar, diferenciar e distribuir o foco apropriado para atingir objetivos divergentes.

Análise discriminatória, uma derivação solta da palavra discriminação, é um conceito amplamente utilizado para classificar níveis de um resultado. Em outras palavras, é útil para determinar se um conjunto de variáveis é eficaz na previsão da categoria de membro

Por exemplo, eu posso querer prever se um aluno vai “Passar” ou “Chumbar” em um exame com base nas notas que ele vem pontuando nos vários testes de classe na corrida até o exame final.

Simplesmente, eu posso querer prever se um cliente irá ou não fazer o seu pagamento mensal de hipoteca com base no salário que ele tem sacado, suas despesas mensais e outras obrigações bancárias etc.

Em ambos os casos acima meus esforços são direcionados para prever uma resposta que é categórica na natureza. Os fatores que influenciam a resposta ou têm um papel substancial na decisão de qual será a resposta, são chamados de variáveis independentes.

Como eu estava lendo vários livros sobre uma infinidade de técnicas de classificação, eu me deparei com a análise Discriminatória como uma ferramenta de classificação muito poderosa. Outra técnica desse tipo é a Regressão Logística, que se tornou muito mais utilizada. Eu queria realçar as sutilezas da Análise Discriminatória, que às vezes supera a regressão logística, especialmente quando a variável resposta tem mais de 2 níveis. O tópico cobre amplamente as áreas abaixo:

I. O que é Análise Discriminatória?

II. O que é a Relação da Análise Discriminatória com Manova?

III. Ilustração com um exemplo simples

I. O que é Análise Discriminatória?

Source: https://www.flickr.com/photos/15609463@N03/14898932531

Discriminante, como o nome sugere, é um método de análise de problemas de negócios, com o objetivo de diferenciar ou discriminar a variável resposta em suas classes distintas.

Análise tipicamente discriminante é colocada em uso quando já temos classes/categorias de resposta predefinidas e queremos construir um modelo que ajude na previsão distinta da classe, se alguma nova observação entrar em equação.

No entanto, se tivermos um conjunto de dados para o qual as classes da resposta ainda não estão definidas, o agrupamento precede o Discriminant para criar as várias categorias de output que melhor definem o comportamento da população. Após os clusters serem construídos, muitos estatísticos/analistas geralmente usam o modelo Discriminante ou logístico como técnica de previsão para classificar qualquer nova observação.

Alguns exemplos relevantes da vida real onde um modelo Discriminante pode ser usado são

  1. Quando queremos prever se um candidato a um empréstimo bancário tem probabilidade de inadimplência ou não.
  2. Preverar a probabilidade de um ataque cardíaco com base em vários indicadores de saúde.
  3. Prever o nível de estabilidade – “Bom”, “Requer Inspecção” ou “Requer Reparação/Substituição” – de um motor/máquina com base em vários indicadores de desempenho.

Em termos de uma equação a relação esperada entre a variável de resposta e as variáveis independentes pode ser explicada pela equação abaixo

d=v1*X1+v2*X2+…+vn*Xn+a

Onde d é a função discriminada, coeficientes v-discriminantes, pontuação do X-respondente para essa variável. a-constant(erro). Sempre obtemos n-1 equações discriminantes onde n é o número de grupos/membros, a variável dependente tem. Para o conjunto de dados Iris obtemos duas equações pois temos três classes da variável dependente, ou seja, a espécie.

LDA(Linear Discriminant analysis) determina as médias dos grupos e calcula, para cada indivíduo, a probabilidade de pertencer aos diferentes grupos. O indivíduo é então atribuído ao grupo com a pontuação de probabilidade mais alta. Veja exemplo à esquerda.

Comparado com a regressão logística, o LDA é mais adequado para prever a categoria de uma observação na situação em que a variável de resultado contém mais de duas classes. Além disso, é mais estável do que a regressão logística para problemas de classificação multiclasse. A LDA assume que os preditores são normalmente distribuídos (distribuição Gaussiana) e que as diferentes classes têm meios específicos de classe e igual variância/covariância. Se estas suposições forem violadas, a regressão logística terá um desempenho superior ao da LDA.

Quadratic Discriminant Analysis(QDA), uma extensão da LDA é um pouco mais flexível que a primeira, no sentido de que não assume a igualdade de variância/covariância. Em outras palavras, para QDA a matriz de covariância pode ser diferente para cada classe. A LDA tende a ser melhor que a QDA quando se tem um pequeno conjunto de formação. Em contraste, o QDA é recomendado se o conjunto de treinamento for muito grande, de modo que a variância do classificador não seja um problema maior, ou se a suposição de uma matriz de covariância comum para as classes K for claramente insustentável.

II. Relação entre Discriminante e MANOVA

Discriminante é tipicamente usado quando temos uma variável de resposta categórica e um conjunto de variáveis independentes que são contínuas por natureza.

O teste antes de usar uma análise Discriminante é empregar Manova no mesmo conjunto de variáveis, mas depois de reverter a equação i.e. resposta (=dependente)e variáveis independentes para Discriminante torna-se variáveis independentes e variáveis de resposta, respectivamente para Manova. Se o output de Manova mostrar que as médias da variável categórica são significativamente diferentes, rejeitando assim a hipótese nula de que não há diferença (em médias) entre os fatores presumidos que estão impactando a resposta, somente então a análise discriminante fará um bom trabalho de diferenciação e classificação da variável de resposta (no Modelo Discriminante). Se Manova não rejeitar a hipótese nula, a análise discriminante seria um exercício fútil. Assim, de muitas maneiras, Discriminante é dependente de Manova e às vezes referido como o inverso de Manova. Veremos isso com mais detalhes nas seções seguintes onde passaremos por alguns exemplos.

III. Ilustração usando um exemplo

Algumas variáveis correlacionadas estão lá como pode ser visto abaixo

Flavnoids e NonFlavnoids estão correlacionados com OD280.OD315. Proline e Alcohol também estão tendo um grau decente de correlação

Algumas das parcelas de variação unida, pois os códigos acima são mostrados abaixo

Leave a Reply