Econometria

Para que serve e como funciona a variável instrumental?

Variáveis instrumentais, em inglês Instrumental Variables (IVs), são excelentes para analisar causa e efeito de diversos eventos. Descobri esta técnica quando estudei Microeconometria, uma disciplina optativa no meu mestrado. Notei que muitas pessoas, mesmo dentro da estatística e econometria não tem tanta familiaridade com ela e achei mais espantoso ainda ela ter sido optativa. Sendo assim, resolvi escrever este breve texto introduzindo o conteúdo e a forma como esta técnica funciona. (mais…)

Anúncios

Artigo Científico sobre Experimentos Aleatórios Controlados

No meu texto de segunda feira escrito para o Portal Deviante, chamado Qual o tamanho da influência de seus amigos?, mencionei um ótimo artigo para quem quer estudar RCT (Randomized Controlled Trials). O artigo se chama How Does Peer Pressure Affect Educational Investments e é altamente recomendável para quem está estudando a matéria. Leia o meu texto e as indicações ao final dele!

Abraços!

Viés de Variável Omitida: Prova Matemática

Já expliquei o conceito de Omitted Variable Bias em Viés de Variável Omitida: Um exemplo prático. Agora, vou deixar aqui a “prova” matemática do problema. Isto é, o que acontece com nosso estimador quando deixamos de incluir uma variável relevante no modelo. Há bastantes rasuras. Pode me escrever se não entender – ou se achar que tem algum erro.

Leia mais…

A estrutura dos dados em Econometria

Os dados com os quais trabalhamos em econometria, podem estar estruturados de diversas formas. Podemos ter informações dos clientes de uma loja extraídas em um determinado momento, podemos ter dados mensais de crescimento do PIB de um país com histórico de alguns anos e podemos ter também dados de pais de família que participaram de um experimento e foram acompanhados por alguns anos. Cada informação mencionada deve ser tratada de uma maneira diferente. Embora algumas técnicas sejam aplicadas para os três casos com pequenas mudanças apenas, é importante saber como seus dados estão estruturados para saber como a técnica deve ser utilizada e que tipo de características específicas devem ser consideradas. As estruturas mais importantes são:

  1. Dados Cross-Section (Dados de corte transversal): São dados extraídos em um determinado momento no tempo. Embora as informações possam ser coletadas em diferentes momentos no tempo, isso não é levado em consideração. Vamos supor que você trabalha em uma empresa que vende roupas e gostaria de saber qual o perfil do cliente que compra online. Ao coletar as informações dos clientes que compraram online no último ano, montar aquela sua tabela cheia de informações como idade, salário, emprego, número de peças compradas, valor gasto, etc. Você está estruturando dados no formato cross-section.
  2. Séries Temporais: Consiste em informações observadas ao longo do tempo. Em determinados casos, faz-se necessário considerar que o passado influencia o presente, por isso utilizamos essa estrutura de dados e as técnicas correspondentes a ela para análises. Quando pensamos em índices de preços, PIB, vendas ao longo do ano, preços de ações, estamos sempre (ou quase sempre) utilizando técnicas de séries temporais. Nos casos mencionados, as informações não são independentes ao longo do tempo. Essa é a chave para se compreender séries temporais.
  3. Dados em Painel: É uma mescla de séries temporais com cross-section. São séries para cada cross-section do indivíduo em análise. Por exemplo, suponha que tenhamos o histórico de diversas informações de um mesmo grupo de indivíduos ao longo do tempo, como salário, emprego, distância ao trabalho e horas extras realizadas. Você tem diversas “fotos” dessas mesmas informações para os mesmos indivíduos durante 10 anos. Ou então, você tem as informações dos estados do Brasil, como índice de desemprego, índice de homicídios, número de habitantes e número de parques. Esses dois casos consistem em dados em painel. Esse tipo de informação é bastante utilizada em experimentos controlados e análises de políticas adotadas por governantes.

Você vai ver que alguns mercados utilizam mais uma estrutura de dados do que outra. Isso pode ser importante também para você entender quais técnicas deve se aprofundar mais, dado o seu trabalho atual ou a área em que você pretende atuar!

Regressão Diff-In-Diff com Efeitos Fixos no R

O conteúdo desse post demanda um certo tempo para explicar e detalhar, mas para não segurar informação, segue um código para rodar um modelo de diferenças em diferenças com efeito fixo em R:

## dummy de periodo: o experimento ocorreu no mes 6
dados_modelo$time = ifelse(dados_modelo$mes > 6, 1, 0);

## dummy de tratamento: grupo tratado tem campo tratamento = 1
dados_modelo$treated = ifelse(dados_modelo$tratamento == 1, 1, 0 );

## dummy tratamento * periodo ~ efeito do experimento
dados_modelo$did = dados_modelo$time * dados_modelo$treated;

## regressao diff-in-diff cujo tratamento eh ter ou nao tratamento
## com efeito fixo por paciente
regressao = lm(variavel_resposta ~ treated + time + did + 
factor(paciente_id),data = dados_modelo);
summary(regressao);

Acredito que o leitor não terá muito problemas para entender que se for necessário focar em diff-in-diff, ele deve se atentar para a dummy did e para o efeito fixo a sintaxe factor().

Para quem está com o inglês já no nível próximo ao avançado, enquanto não posto nada a respeito desse tema, sugiro os links abaixo:

DID101R

An intuitive introduction to Difference-in-Differences

Fixed Effects estimators: an introduction

Empréstimos inteligentes para pessoas sem histórico de crédito

 

Muitas pessoas não sabem o que faz uma pessoa que trabalha com modelagem estatística. E olha que isso pode estar presente no job description de muitos cargos: analista de risco de crédito, inteligência de cobrança, inteligência de mercado, cientista de dados, CRM, big data, pesquisa de mercado, só para citar alguns.

Então vai aí um exemplo prático, e nobre, do uso de modelagem estatística e mineração de dados: