Regressão Logística: Conceitos Essenciais e Modelo

Regressão Logística, também chamada de Logit, é uma técnica de modelagem utilizada para lidar com variáveis binárias (0 ou 1). Para responder a questões como “qual o salário de um indivíduo, dado seus anos de estudos”, “qual o valor de uma casa, dadas suas características”, a regressão linear é suficiente. Entretanto, se quisermos responder a questões como “o indivíduo vai pagar uma dívida?”, “o consumidor vai comprar determinado produto?”, i.e., perguntas de sim (=1) ou não (=0), aí faz sentido usar outro modelo, dentre as diversas possibilidades temos a regressão logística.

POR QUE NÃO USAR A REGRESSÃO LINEAR COM VARIÁVEIS BINÁRIAS?

Esta é uma pergunta comum e a principal resposta está nas premissas assumidas:

  1. Primeiro, veja que a premissa da regressão linear é que exista uma relação linear entre a variável resposta e as variáveis explicativas. Para o caso de variáveis binárias, principalmente quando temos uma variável explicativa contínua, essa premissa será violada;
  2. Os valores projetados por um modelo de regressão linear podem ser superiores a 1 ou inferiores a 0;
  3. A premissa de variância constante dos resíduos é violada.

Veja a diferença do item 2 nos gráficos abaixo, onde temos a comparação de uma função linear e a função logística:

linear_vs_logistic_regression

Fonte da Imagem: https://www.machinelearningplus.com

O MODELO

Regressão logística é um algoritmo de classificação. Conforme exemplificado no primeiro parágrafo, a técnica é utilizada para prever variáveis binárias (1 ou 0). Um exemplo clássico é o modelo para inadimplência, que deve prever se um indivíduo vai pagar ou não a sua dívida. Outro exemplo, bastante utilizado nos cursos em que se utiliza o R para explicar modelagem, é a identificação de um e-mail como sendo spam ou não.

A técnica tem muitas vantagens perante a regressão linear, principalmente no que diz respeito à normalidade e linearidade. Não há a necessidade da relação linear entre variável resposta e variáveis explicativas. Além disso, os resíduos não precisam estar normalmente distribuídos.

Ao utilizarmos este modelo, estamos interessados na probabilidade como saída. No nosso caso de inadimplência, estaríamos interessados em obter a probabilidade de um indivíduo para sua dívida. Ou seja, queremos o modelo p(X) = P(Y=1|X). Para evitar os problemas já mencionados, utilizamos a função logística, que resulta numa curva num formato de um S:

320px-Logistic-curve

Fonte da Imagem: https://en.wikipedia.org

A equação da regressão logística pode causar estranheza, pois diferente da regressão linear, a variável resposta é escrita na forma de

Captura de Tela 2018-08-29 às 11.46.36

Vale destacar que o resultado da equação não é direto. Para quem for escrever a equação na mão, multiplicando os coeficientes pelos respectivos x, precisará fazer uma pequena transformação para obter a probabilidade. O gráfico abaixo, retirado do Analytics Vidhya, traduz a equação da regressão logística das duas formas possíveis:

logit

Fonte da Imagem: https://www.analyticsvidhya.com/blog/2015/10/basics-logistic-regression/

Ou seja, após aplicar os coeficientes na equação, você utilizará o resultado no expoente do número ‘e’ (número de Euler). Aí sim, você vai obter a probabilidade desejada. Note também que essa tradução será facilmente feita pelos softwares que você vai utilizar, onde já serão separados no resultado final os “bons” (=1) dos “ruins” (=0).

ODD RATIO (RAZÃO DE CHANCE)

Uma observação importante deve ser feita sobre a tal probabilidade p dividida por 1-p. Esta razão é conhecida como odds ratio, ou, traduzindo de forma direta, razão da chance. O que ela apresenta é a chance de sucesso em relação a chance de fracasso. Ou seja, se uma pessoa tem 75% de probabilidade de pagar, ela tem 25% de chance de não pagar. Logo, a chance dela pagar é 3x maior que a chance de não pagar.

AGORA É SÓ APLICAR!

Agora que você já entende o que faz a regressão logística, que tal tentar aplicar os conhecimentos no R? Veja o post Regressão Logística no R!

Acredito que isso seja suficiente para a compreensão do que é essencial em regressão logística. Pretendo ainda fazer mais posts sobre o tema, talvez mostrando mais a matemática ou então aplicabilidade. A técnica é muito utilizada, e mesmo hoje com tanta coisa mais robusta em Machine Learning, você vai ver um Logit por aí, não tenho dúvida nenhuma disso. Se você achou alguma explicação muito rasa e gostaria de se aprofundar nas derivações de fórmulas ou alguma outra extensão da regressão logística, sugiro os 3 links abaixo:

Datacamp: Logistic Regression in R

Portal Action: Regressão Logística

Ernesto Amaral: Aula 33

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s