Resumão dos Tweets

Muito do que posto no Twitter acaba não vindo parar aqui. Às vezes são coisas tão breves que nem conseguiria elaborar um post. Outras vezes, são threads que até caberiam aqui, mas que são mais fáceis de se postar por lá. E tem coisa também que são só reflexões aleatórias ou piadinhas. De qualquer forma, aqui vão alguns dos tweets recentes, para quem não acompanha a conta saber mais ou menos qual é a pegada por lá. No fim deste post, há uma thread que essa sim acho essencial para todos que estudam ciência de dados. (mais…)

Anúncios

Algoritmo de Classificação: KNN (K Nearest Neighbors) no R

O código a seguir é um exemplo de execução de KNN no R. Além do código para executar o algoritmo em si, você verá que há uma parte de análise descritiva que eu inseri. É sempre interessante saber o que há no seu conjunto de dados. No caso, utilizaremos um dataset famoso chamado iris que não requer nenhum download. Peço encarecidamente que você visite o post Algoritmo de Classificação: KNN (K Nearest Neighbors), caso conheça pouco do algoritmo KNN. (mais…)

Algoritmo de Classificação: KNN (K Nearest Neighbors)

O algoritmo KNN, abreviação de K Nearest Neighbors, é um algoritmo bastante utilizado por cientistas de dados, principalmente pela sua facilidade de implementação (além de ser um lazy learner*). É um algoritmo supervisionado de machine learning, utilizado para problemas de classificação e regressão. Hoje, o foco é na parte de classificação. A ideia é simples, separar os indivíduos em grupos (ou classes) de acordo com a semelhança existente. Vamos entender o que isso quer dizer… (mais…)

GGPLOT( ) é o Puro Creme dos Gráficos em R

Ok, o título é brega, mas eu tinha que chamar a atenção ao ggplot(). Embora já tenha falado do pacote ggplot2 em outros posts, a função ggplot() e todo seu poder de fogo mereciam um espaço inteiramente à eles. Aqui você vai aprender a fazer mais uma vez gráficos em barras, de dispersão, de linha, dentre outros, mas vai ver também várias formas de demonstrar a relação de 3 ou mais variáveis e de visualizar essas diferentes saídas. Como é um post mais específico e não tem aquele título para um objetivo específico, é possível que poucos o vejam. Se você está aqui, não feche a janela, sério, você não vai se arrepender. São só alguns minutinhos! (mais…)

Desenhando Gráficos de Diversas Variáveis no R

Algo muito útil para qualquer análise exploratória é poder traçar vários gráficos de uma vez só, num mesmo quadro. Tanto a possibilidade de traçar um histograma e um boxplot de uma determinada variável lado a lado, quanto a de traçar o histograma de todas as variáveis da base são muitos úteis na análise exploratória. Neste post, veremos algumas das possibilidades existentes no R: (mais…)

Everest Regression

Alguém postou recentemente um comentário sobre Everest Regression no Twitter – não me recordo, mas creio que tenha sido o @lmonasterio. Acabei me recordando desse termo maravilhoso que ouvi somente umas duas vezes, mas que acho bem divertido e interessante. Sendo assim, vamos entender o que ele significa! (mais…)

Tutorial: Limpeza e Análise de Dados com Python na Prática

Hoje vamos aprender algumas coisas que podem ser feitas quando se trabalha com dataframes no Python. Como filtrar uma base? Como converter textos para números? Como extrair um valor de moeda no formato texto para o formato numérico (ex.: converter R$ 15,00 no formato texto para 15 no forma numérico)? Como obter as estatísticas descritivas? Como obter o percentil? Como criar novas colunas? Como criar novas colunas com base nas informações de outras colunas? Como traçar um histograma? Como localizar valores nulos e preenchê-los com a média da coluna?

Tudo isso será abordado nesse post! (mais…)

Análise dos Jogadores de Fifa 19 Usando Python

Ok, confesso, este post é parcialmente um click bait. Parcialmente porque tem alguns códigos em Python, mas está tudo meio bagunçado ainda. De qualquer jeito, alguns podem se divertir, aprender como calcular correlação entre as variáveis de um Dataframe do Pandas, como calcular quartil, plotar histogramas já filtrando algum campo (ex.: Calcular a distribuição do campo Overall, mas só para jogadores cuja coluna Nacionalidade for England) e por aí vai. (mais…)

Selecionando Apenas Colunas Numéricas no Python + Listando Todas as Colunas de um Dataframe (Pandas)

Recentemente fui analisar várias colunas de um dataframe no Python, mas as funções que estava utilizando eram todas numéricas. Ou seja, as colunas que não eram numéricas estavam atrapalhando meu código. Para resolver este problema, descobri que era possível selecionar somente as colunas numéricas no Python com uma função bem simples: (mais…)