missing

Missing no Python: Como Localizar e Substituir

Nenhuma base de dados vem completa. Se você não sabe disso, já é bom ter conhecimento de que isso é um fato. Na vida real, as bases são bem diferentes do que costumamos ver na academia ou até mesmo em sites como Kaggle (embora algumas tenham missing por lá). Sendo assim, é importante saber como lidar quando se deparar com um conjunto de dados em que haja algo faltando. Aqui, construímos um dataframe no Pandas contendo algumas linhas missing. Vejamos como localizar essas linhas, como contar a quantidade de campos missing, como substituir esse campo por média ou mediana (da coluna completa ou por grupos), dentre outras coisas. (mais…)

Tutorial: Limpeza e Análise de Dados com Python

Hoje vamos aprender algumas coisas que podem ser feitas quando se trabalha com dataframes no Python. Como filtrar uma base? Como converter textos para números? Como extrair um valor de moeda no formato texto para o formato numérico (ex.: converter R$ 15,00 no formato texto para 15 no forma numérico)? Como obter as estatísticas descritivas? Como obter o percentil? Como criar novas colunas? Como criar novas colunas com base nas informações de outras colunas? Como traçar um histograma? Como localizar valores nulos e preenchê-los com a média da coluna?

Tudo isso será abordado nesse post! (mais…)

Tutorial: Lidando com Missing no SAS

Já falei sobre missing em alguns posts aqui (ver post Verificar se alguma das colunas é missing no SAS e Formas de deletar linhas com Missing no SAS), mesmo assim, notei que faltaram algumas coisas. Este post é para dar conta do que não foi abordado no assunto. Ou seja, pode considerar o TUTORIAL como sendo a soma destes 3 posts. (mais…)

Verificar se alguma das colunas é missing no SAS

Já vimos algumas formas de lidar com variáveis missing, tanto no post Tutorial: Proc Sql (SAS), quando no Formas de deletar linhas com Missing no SAS. Mas essas são formas de olhar para uma variável e excluir a linha. E se quisermos olhar para todas as variáveis? (mais…)

Tutorial: Proc Sql (SAS)

Como já disse algumas vezes aqui, o SQL é uma linguagem própria para trabalhar com bases de dados. Logo, é de se esperar que alguns softwares utilizem funções semelhantes, ou até iguais, a ela. Isso porque (i) muitas pessoas que utilizam base de dados já estão acostumadas com o SQL, e (ii) é muito mais fácil se basear nessas funções já existentes do que ficar tentando criar algo novo mirabolante. O SAS, assim como outros softwares estatísticos (mais…)

Entendendo seus dados em Python

Quando você importa alguma tabela em ambientes como o R e o Python, diferente de um Excel que está escancarado na sua cara, é preciso ter um conhecimento mínimo de algumas funções para entender o que há na tabela. Por exemplo, o que está nas primeiras linhas, o que está nas últimas ou qual o tipo de cada elemento. Este post é para isso.

Leia mais…

Substituindo missing pela média no R

Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:

Leia mais…

Excluindo linhas missing no R

Essa é bem curtinha. Já expliquei como tirar os missings de seus cálculos no post Evitando “NA” nos cálculos do R, mas às vezes a gente quer construir uma base sem esses valores. Para fazer isso no R é simples, basta usar a função na.omit():

matriz_teste
      [,1] [,2]
 [1,]  10    5
 [2,]  NA    2
matriz_teste_sem_na = na.omit(matriz_teste)
matriz_teste_sem_na
      [,1] [,2]
 [1,]  10    5