Substituindo missing pela média no R

Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:


> x = c(10, 5, 5, 10, NA, NA);
> x
[1] 10 5 5 10 NA NA
> x[is.na(x)] = mean(x,na.rm=TRUE);
> x
[1] 10.0 5.0 5.0 10.0 7.5 7.5

Repare na lógica dos colchetes com a função is.na() – que indica a posição dos valores missing. Quando você utiliza a função is.na(), você obtém as posições dos valores missing. Ao inserir essas posições entre colchetes após o x, você está apontando para onde os valores chamados serão inseridos. Vale a pena compreender bem o uso de colchetes no R.

Anúncios

1 comentário

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s