r

Histograma no R

Fazer um histograma no R é bem simples, basta utilizar o comando hist() com a variável que você quer investigar a distribuição. No entanto, um gráfico detalhado pode necessitar de mais detalhes, seja uma mudança na cor ou a apresentação das medidas de tendência central. Este post apresentará os detalhes que são possíveis de acrescentar no seu histograma utilizando o R.

Leia mais…

Anúncios

Tutorial: Manipulação e Análise de Dados em R

Esse é um pequeno tutorial para quem não tem muita familiriadade com o R. O foco é entender o que o R é capaz de fazer, mas não deixar de fora as explicações estatísticas (ainda que sejam breves). Se você nunca abriu o R, recomendo que passe primeiro por Primeiros passos no R (Studio) e em seguida volte aqui.

Leia mais…

Outra forma de criar variável dummy no R

Além do método explicado em Criando variáveis dummy no R, podemos utilizar a função tslm() para criar uma dummy que será incluída diretamente na regressão linear.

Por exemplo, se você tiver a variável dia da semana nos seus dados, ao invés de fazer várias colunas (cada uma para um dia da semana) que recebe 0 e 1, basta você acrescentar a variável season dentro da função tslm(). Vejamos no exemplo abaixo a regressão com os dados da série uschange do pacote fpp2:

Leia mais…

Séries Temporais: Introdução e Decomposição dos Componentes em R

Esse post vai ensinar de forma sucinta como inputar seus dados de séries temporais no R e separar graficamente o que é a sazonalidade, a tendência e a aleatoriedade dos seus dados. Se você já conhece o conceito de séries, pode pular os dois próximos parágrafos.

Séries temporais são observações ao longo do tempo. Se você está trabalhando com dados ao longo do tempo, então as técnicas serão diferentes das utilizadas quando se trabalha com dados que consistem em informações retiradas de uma foto ao longo do tempo (dados cross-sectional). Exemplos de variáveis analisadas em séries temporais: preço diários de uma ação, crescimento anual do PIB, inflação anual, vendas mensais, resultados trimestrais de uma empresa, etc.

Leia mais…

Escolhendo o diretório no R

Esse post bem que poderia ser uma continuação do Primeiros passos no R Studio, pois trataremos de algumas coisas que você vai fazer assim que abrir o R e iniciar seus trabalhos, como escolher o diretório em que você vai salvar as figuras ou carregar os dados, saber as dimensões do arquivo externo que você carregou, etc., é bem útil.  É também um pouco repetitivo, já vimos algumas dessas funções separadamente, mas é bom reforçar para quem não viu outros links.

Leia mais…

Substituindo missing pela média no R

Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:

Leia mais…

Proc Sort no R

Muita gente sabe utilizar o proc sort para ordenar os campos no SAS.

Por exemplo, podemos ordenar uma tabela chamada dados_entrada pelas colunas campo1 e campo2, do menor para o maior valor, e ter como saída uma tabela dados_saida (exemplo 1). E podemos também ordenar uma tabela chamada dados_entrada pelas colunas campo1, do menor para o maior, e campo2, do maior para o menor valor, e ter como saída uma tabela dados_saida (exemplo 2). Bastaria utilizar:

* exemplo 1
proc sort data= dados_entrada out= dados_saida; 
    by campo1 campo2; 
run;

* exemplo 2
proc sort data= dados_entrada out= dados_saida; 
    by campo1 descending campo2; 
run;

A mesma coisa, que nem todo mundo sabe, pode ser feita no R, e é até mais simples:

## exemplo 1
dados_saida = dados_entrada[order(dados_entrada$campo1,
dados_entrada$campo2),];

## exemplo 2
dados_saida = dados_entrada[order(dados_entrada$campo1,
-dados_entrada$campo2),];

R sendo R!

Filtros no R

Já falei várias vezes sobre como filtrar os dados no R (Excluindo linhas de uma tabela no R tem algo parecido), segue mais um exemplo:

## Filtrando apenas as linhas com a coluna mes igual a 3
## na tabela dados_modelo
dados_modelo[(dados_modelo$mes == 3),];

## Filtrando apenas as linhas com a coluna mes igual a 3, 4 ou 5
## na tabela dados_modelo
dados_modelo[dados_modelo$mes %in% c(3,4,5,6,7,8,9,10,11),];

## Filtrando apenas as linhas com a coluna mes igual a 3, 4, 5, ..., 10
dados_modelo[dados_modelo$mes %in% c(3:10),];

## Filtrando apenas as linhas com a coluna estado igual a SP
dados_modelo[dados_modelo$estado == "SP"),];