group by

Missing no Python: Como Localizar e Substituir

Nenhuma base de dados vem completa. Se você não sabe disso, já é bom ter conhecimento de que isso é um fato. Na vida real, as bases são bem diferentes do que costumamos ver na academia ou até mesmo em sites como Kaggle (embora algumas tenham missing por lá). Sendo assim, é importante saber como lidar quando se deparar com um conjunto de dados em que haja algo faltando. Aqui, construímos um dataframe no Pandas contendo algumas linhas missing. Vejamos como localizar essas linhas, como contar a quantidade de campos missing, como substituir esse campo por média ou mediana (da coluna completa ou por grupos), dentre outras coisas. (mais…)

Tutorial: Limpeza e Análise de Dados com Python

Hoje vamos aprender algumas coisas que podem ser feitas quando se trabalha com dataframes no Python. Como filtrar uma base? Como converter textos para números? Como extrair um valor de moeda no formato texto para o formato numérico (ex.: converter R$ 15,00 no formato texto para 15 no forma numérico)? Como obter as estatísticas descritivas? Como obter o percentil? Como criar novas colunas? Como criar novas colunas com base nas informações de outras colunas? Como traçar um histograma? Como localizar valores nulos e preenchê-los com a média da coluna?

Tudo isso será abordado nesse post! (mais…)

Group By no Python + Group By com Base Filtrada

O termo group by é muito popular para quem trabalha com base de dados. Quando temos repetições para o elemento chave e queremos fazer um resumo, um agrupamento, é esse o comando a ser utilizado. Um exemplo clássico é quando você tem os dados dos gastos feitos por clientes de uma loja e sua base contém um gasto por linha. Para obter o total gasto por cada cliente, você irá recorrer ao group by. (mais…)

SAS Group By no R

Já aprendemos como somar e agrupar os dados no SAS aqui, no R isso é tão simples quanto, basta você utilizar a função tapply(). A função é composta basicamente de três elementos: o vetor contendo valores, o campo que será utilizado no agrupamento e a função que será aplicada. (mais…)

Soma com condição no SAS: Agrupamentos com Proc Sql

O group by é um método bem tranquilo de agrupar os valores de uma coluna de acordo com os valores de outra coluna. Veja os três exemplos abaixo, onde queremos primeiro saber qual o número de vendas de cada marca, o número de vendas por estado e o número de vendas de cada marca em cada estado:

Leia mais…