Autor: Yukio

Equivalente ao Proc Sql Group By no R

Suponha que você tenha uma tabela analítica com as informações de compras dos seus clientes. Cada linha da tabela equivale a uma compra diferente que o cliente fez. O que você quer é saber o valor médio das compras de cada cliente. Como você conseguiria fazer isso no R? (mais…)

Anúncios

Merge (Join) no R

No post Como combinar tabelas no SAS utilizando left join e full join ensinei como unir tabelas no SAS, utilizando o PROC SQL. Agora, como podemos fazer essa união no R? Como utilizar os clássicos inner join, left join, right join, etc., no R? É bem simples, você vai ver que consegue fazer tudo isso com menos linhas que no SQL. (mais…)

Localizando Outliers Através do Intervalo Interquartil (+ Boxplot + Código SAS)

Recentemente, estava trabalhando com uma base de mais ou menos 500 mil linhas, onde a maior parte dos dados de uma determinada variável estava no intervalo de 0 a 1.000. Esta mesma variável, no entanto, possuía algumas linhas em que o valor dela era 5.000, 10.000 e até 15.000. Ou seja, haviam alguns outliers. Isto era um problema, principalmente, quando eu construía um gráfico de distribuição. Para lidar com isso, eu exclui os outliers com base no conceito do intervalo interquartil. (mais…)

Geolocalização: Plotando os pontos em um mapa no R

Trabalhando com uma base de dados de vendas do e-commerce brasileiro, me deparei com uma lista dos locais onde as compras foram feitas e outra com os locais de onde eram os compradores. Pensei comigo que uma forma bacana de demonstrar onde as compras eram feitas, seria marcando os locais das lojas ou dos compradores, no próprio mapa. (mais…)

Sumifs e Countifs no R

A maioria das pessoas que usa Excel já utilizou as funções sumif() e countif(), em português soma.se() e cont.se(). Estas funções tem como retorno a soma de determinada coluna condicionada a alguma regra qualquer. Imagine, por exemplo, que você é dono de uma loja e queira saber qual foi o gasto total em compras dos clientes acima de 50 anos na sua loja. Mais do que a soma, você pode querer a média ou a contagem do número de clientes. Para entender como se obter isso no R, dê uma olhada na tabela abaixo, composta por uma chave de identificação do cliente (id_cliente), o valor gasto em compras (vlr_compra), a idade e a UF: (mais…)

Para que serve e como funciona a variável instrumental?

Variáveis instrumentais, em inglês Instrumental Variables (IVs), são excelentes para analisar causa e efeito de diversos eventos. Descobri esta técnica quando estudei Microeconometria, uma disciplina optativa no meu mestrado. Notei que muitas pessoas, mesmo dentro da estatística e econometria não tem tanta familiaridade com ela e achei mais espantoso ainda ela ter sido optativa. Sendo assim, resolvi escrever este breve texto introduzindo o conteúdo e a forma como esta técnica funciona. (mais…)

Diferença entre duas datas no SAS (em dias, meses ou anos)

Calcular a diferença entre duas datas no SAS é simples, basta subtrair uma data pela outra. Porém, se você quiser fazer a diferença em meses, anos, semanas ou alguma unidade do tipo, há duas escolhas: (1) realizar a subtração e depois dividir o valor pelo número de dias correspondentes ao período (ex.: dividir por 30 no caso de mês) ou (2) utilizar a função intck(). É desta segunda que vou falar neste post. (mais…)

Probabilidade (II): Princípio Fundamental da Contagem

Em análise combinatória, princípio fundamental da contagem é a ideia de que a quantidade de formas que ações independentes distintas podem ocorrer é a multiplicação do número de modos em que elas podem se apresentar. Em outras palavras, se você tem um evento X que pode ocorrer de n formas, um evento Y, distinto e independente, que pode ocorrer de formas, o número de formas com que esses dois eventos podem se apresentar será n*m. (mais…)

Probabilidade (I): Introdução e Conceitos Básicos

A probabilidade é o estudo da chance de ocorrência de um determinado evento. Quando jogamos um dado e perguntamos “qual a probabilidade de sair o número 3?”, queremos saber qual a chance de sair 3. Queremos saber o que é esperado deste evento, que é jogar um dado. A forma que temos de quantificar uma probabilidade é um número que vai de 0 até 1. Claro que, muito provavelmente, você prefira expressar a probabilidade em percentual, o que é a mesma coisa. Quando temos 100% de chance de que o evento ocorra, a probabilidade será 1, já quando temos 50%, a chance é 0,5. (mais…)