missing

Tutorial: Limpeza e Análise de Dados com Python na Prática

Hoje vamos aprender algumas coisas que podem ser feitas quando se trabalha com dataframes no Python. Como filtrar uma base? Como converter textos para números? Como extrair um valor de moeda no formato texto para o formato numérico (ex.: converter R$ 15,00 no formato texto para 15 no forma numérico)? Como obter as estatísticas descritivas? Como obter o percentil? Como criar novas colunas? Como criar novas colunas com base nas informações de outras colunas? Como traçar um histograma? Como localizar valores nulos e preenchê-los com a média da coluna?

Tudo isso será abordado nesse post! (mais…)

Anúncios

Tutorial: Lidando com Missing no SAS

Já falei sobre missing em alguns posts aqui (ver post Verificar se alguma das colunas é missing no SAS e Formas de deletar linhas com Missing no SAS), mesmo assim, notei que faltaram algumas coisas. Este post é para dar conta do que não foi abordado no assunto. Ou seja, pode considerar o TUTORIAL como sendo a soma destes 3 posts. (mais…)

Verificar se alguma das colunas é missing no SAS

Já vimos algumas formas de lidar com variáveis missing, tanto no post Tutorial: Proc Sql (SAS), quando no Formas de deletar linhas com Missing no SAS. Mas essas são formas de olhar para uma variável e excluir a linha. E se quisermos olhar para todas as variáveis? (mais…)

Tutorial: Proc Sql (SAS)

Como já disse algumas vezes aqui, o SQL é uma linguagem própria para trabalhar com bases de dados. Logo, é de se esperar que alguns softwares utilizem funções semelhantes, ou até iguais, a ela. Isso porque (i) muitas pessoas que utilizam base de dados já estão acostumadas com o SQL, e (ii) é muito mais fácil se basear nessas funções já existentes do que ficar tentando criar algo novo mirabolante. O SAS, assim como outros softwares estatísticos (mais…)

Entendendo seus dados em Python

Quando você importa alguma tabela em ambientes como o R e o Python, diferente de um Excel que está escancarado na sua cara, é preciso ter um conhecimento mínimo de algumas funções para entender o que há na tabela. Por exemplo, o que está nas primeiras linhas, o que está nas últimas ou qual o tipo de cada elemento. Este post é para isso.

Leia mais…

Substituindo missing pela média no R

Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:

Leia mais…

Excluindo linhas missing no R

Essa é bem curtinha. Já expliquei como tirar os missings de seus cálculos no post Evitando “NA” nos cálculos do R, mas às vezes a gente quer construir uma base sem esses valores. Para fazer isso no R é simples, basta usar a função na.omit():

matriz_teste
      [,1] [,2]
 [1,]  10    5
 [2,]  NA    2
matriz_teste_sem_na = na.omit(matriz_teste)
matriz_teste_sem_na
      [,1] [,2]
 [1,]  10    5