regressao linear

Regressão Linear no Python

Como já expliquei em vários outros posts, Regressão Linear é uma técnica muito utilizada em modelagem – caso não se recorde, visite os posts Regressão Linear Simples – Parte 1Regressão Linear Simples – Parte 2Regressão Linear Simples – Parte 3 e Regressão Linear Múltipla. Em suma, um modelo linear será a soma ponderada de uma ou mais variáveis, chamadas de variáveis independentes ou explicativas, que irão predizer uma varável-alvo, também chamada de variável dependente ou resposta. Agora, vamos ver como você consegue rodar esse modelo no Python. (mais…)

Listas de Econometria (2): Demonstrações Envolvendo Somatória

Dando continuidade às resoluções de exercícios de Econometria I, seguem mais alguns que são comuns de se ver nas primeiras listas da disciplina. Dessa vez, são demonstrações que envolvem lidar com a somatória. São exercícios simples, pouco trabalhosos, mas que são muito úteis para entender o resto da matéria. Inclusive, um deles servirá de base para a demonstração que está em Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples. Eu espero de verdade que isso ajude quem está apanhando da matéria. Qualquer problema no entendimento, até se achar que algo não está legível, não hesite em me contatar. Bora passar nessa matéria! (mais…)

Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples

O que será apresentado neste post é um exercício padrão de quem faz Econometria I na faculdade. Todo professor de econometria em algum momento mostrou aos alunos como derivar a fórmula do intercepto e a inclinação da reta (os betas) de uma Regressão Linear Simples. E é isso que veremos hoje! (mais…)

Outra forma de criar variável dummy no R

Além do método explicado em Criando variáveis dummy no R, podemos utilizar a função tslm() para criar uma dummy que será incluída diretamente na regressão linear.

Por exemplo, se você tiver a variável dia da semana nos seus dados, ao invés de fazer várias colunas (cada uma para um dia da semana) que recebe 0 e 1, basta você acrescentar a variável season dentro da função tslm(). Vejamos no exemplo abaixo a regressão com os dados da série uschange do pacote fpp2:

Leia mais…

5 modelos básicos de forecast no R

Há algumas formas básicas de se fazer projeções para valores futuros (forecast), diferentes dos modelos geralmente falados nesse blog, mas que podem ser úteis. A seguir, temos 5 métodos simples que fazem parte do pacote fpp do R (na verdade são parte do pacote forecast que é carregado junto).

Leia mais…

Viés de Variável Omitida: Um exemplo prático

Já mencionei o viés de variável omitida no post Quanto mais polícia, mais crimes? e Paradoxo de Simpson, vamos ver mais um exemplo prático.

Vamos supor que você queira analisar o impacto do número de professores em uma escola com as notas dos alunos. Ou seja, você gostaria de estimar os beta 1 da seguinte equação:

média das notas = β0 + β1*n° de professores + u

É de se esperar que β1 seja maior que 0, pois a expectativa é que um número maior de professores seja benéfico para os alunos por diversos motivos.

Entretanto, pensemos nas variáveis não utilizadas no modelo e que “alocamos” em u. Dentre essas variáveis, temos, por exemplo, o investimento do governo nessas escolas. Afinal, um governo que investe mais, tenderá a contratar mais professores para suprir todas as necessidades da escola. Ou seja, a correlação entre número de professores e investimento do governo é positiva, quanto maior o investimento feito, maior o número de professores. Note que a esperança do u dado o parâmetro n° de professores não é zero. Afinal, como já dissemos, quanto maior o investimento de um governo, maior o número de professores, sendo assim, violamos uma premissa da nossa regressão OLS (ordinal least squares).

Ε (u | n° de professores) ≠ 0

É provável que se calcularmos um coeficiente de valor 10, este valor seja na verdade um valor menor qualquer como 7 ou 5. Isso ocorre porque o parâmetro n° de professores está absorvendo parte do impacto que o investimento do governo causa. O resultado é que nosso coeficiente está com viés, superestimando o impacto da variável.

Este é o problema de se omitir uma variável relevante.

Baseado em: Omitted Variable Bias – Ben Lambert