pandas

Machine Learning do Zero no Python (Versão 1)

Recentemente, estive na Python Brasil 2019. Um evento muito legal, falei um pouco sobre ele no Twitter do EstatSite (veja a thread aqui), e, inclusive, estou devendo um post aqui no blog. Acabei participando de um tutorial chamado “Machine Learning do Zero”, dado pelo Tarsis Azevedo – o cara é fera, recomendo que acompanhem o trabalho dele pelo Twitter ou Github, @tarsisazevedo. Aqui, vai o código feito em sala de aula, com algumas alterações feitas por mim, comentários que inclui porque achei relevante, e com uma pendência ainda: finalizar a regressão. Quando tudo estiver pronto, posto uma versão (2). Faça bom proveito! (mais…)

Anúncios

Análise dos Jogadores de Fifa 19 Usando Python

Ok, confesso, este post é parcialmente um click bait. Parcialmente porque tem alguns códigos em Python, mas está tudo meio bagunçado ainda. De qualquer jeito, alguns podem se divertir, aprender como calcular correlação entre as variáveis de um Dataframe do Pandas, como calcular quartil, plotar histogramas já filtrando algum campo (ex.: Calcular a distribuição do campo Overall, mas só para jogadores cuja coluna Nacionalidade for England) e por aí vai. (mais…)

Selecionando Apenas Colunas Numéricas no Python + Listando Todas as Colunas de um Dataframe (Pandas)

Recentemente fui analisar várias colunas de um dataframe no Python, mas as funções que estava utilizando eram todas numéricas. Ou seja, as colunas que não eram numéricas estavam atrapalhando meu código. Para resolver este problema, descobri que era possível selecionar somente as colunas numéricas no Python com uma função bem simples: (mais…)

Group By no Python + Group By com Base Filtrada

O termo group by é muito popular para quem trabalha com base de dados. Quando temos repetições para o elemento chave e queremos fazer um resumo, um agrupamento, é esse o comando a ser utilizado. Um exemplo clássico é quando você tem os dados dos gastos feitos por clientes de uma loja e sua base contém um gasto por linha. Para obter o total gasto por cada cliente, você irá recorrer ao group by. (mais…)

Join – Merge no Python (Usando Pandas)

Assim como aprendemos no SQL, ou qualquer linguagem para manipulação de bases de dados, como unir bases de dados de diferentes maneiras, o Pandas nos permite fazer estas tratativas no Python. Abaixo, vamos aprender como fazer as uniões de tabelas e algumas táticas que podem facilitar sua vida. (mais…)

Tabela Dinâmica no Python

Todo mundo já se complicou tentando fazer uma tabela dinâmica (pivot table) fora do Excel. No Python, você não precisa criar uma função ou fazer algum tipo de manipulação com a tabela para chegar numa visão semelhante ao que fazemos nas tabelas dinâmicas do Excel. Vamos entender então como utilizar a função pivot_table – se você estiver iniciando e não sabe ainda o que é uma tabela dinâmica, recomendo que vá ao Youtube, faça uma pesquisa rápida e volte em seguida. (mais…)

Tutorial: Strings em Python

Trabalhar com variáveis texto não é a coisa mais difícil do mundo, mas nem sempre é trivial. Como contar a quantidade de caracteres (i.e. o comprimento) de uma variável? Como converter uma variável minúscula para maiúscula? Como pegar um trecho (~substring) de uma variável texto? Como concatenar dois campos e criar uma nova coluna com base neles? Tudo isso é essencial para a sobrevivência de um cientista de dados. Neste post, vamos conhecer alguns comandos essenciais para quando se trabalha com variáveis strings no Python. (mais…)

Entendendo seus dados em Python

Quando você importa alguma tabela em ambientes como o R e o Python, diferente de um Excel que está escancarado na sua cara, é preciso ter um conhecimento mínimo de algumas funções para entender o que há na tabela. Por exemplo, o que está nas primeiras linhas, o que está nas últimas ou qual o tipo de cada elemento. Este post é para isso.

Leia mais…