Programacao em R

Média por Grupo no R

Imagine que você tenha uma base contendo informações de diversos grupos ou categorias diferentes. Pode ser que você tenha a informação de idade para cada indivíduo e queira saber a média por sexo, por região ou até por separação de grupo tratamento e controle. No R, o pacote plyr facilita bastante esta análise. Não tenho certeza se já postei isso antes, mas como utilizei o código agora a pouco durante um curso de Data Science, acho válido compartilhar. (mais…)

Anúncios

Regressão Logística no R

Regressão logística é uma técnica estatística muito poderosa, utilizada para modelagem de saídas binárias (sim ou não). Quando se quer medir a relação de uma variável dependente binária com uma ou mais variáveis independentes, é comum utilizar esta técnica. Pense, por exemplo, numa empresa que empresta dinheiro para um cliente. Com base nas informações deste cliente (idade, profissão, etc.), é interessante a empresa tentar prever se o cliente vai pagar a dívida ou não. Uma forma de tentar prever isso é utilizando a regressão logística.  (mais…)

Análise de Componentes Principais (PCA) no R

Estava fazendo um curso de machine learning, quando reparei que as minhas notas com o código R para rodar PCA, estavam até que bem didáticas. Ainda não falei do conteúdo aqui no site, mas acho que compartilhar esse código já deve ajudar algumas pessoas. (mais…)

Gráfico no R, colorindo pontos por categoria

Normalmente, quando fazemos gráficos, estamos analisando duas variáveis em conjunto. Posso estar analisando renda salarial vs. anos de estudo, peso vs. altura, e por aí vai. Sempre o tradicional gráfico com dois eixos. Prático e de fácil leitura. Mas e se você precisasse incluir mais uma dimensão? Sendo esta dimensão uma variável categórica, que tal colocar um pouco mais de cor no seu gráfico? (mais…)

Separando a base treino e teste no R

Como a maioria aqui já sabe, quando temos um conjunto de dados para utilizar na construção de um modelo, precisamos fazer uma separação entre o que chamamos de treino teste. O que costumamos chamar de base treino, é o conjunto de dados que utilizaremos na construção do modelo. (mais…)

Unindo tabelas no R (Join/Merge)

Quem trabalha muito com bases de dados com certeza já usou algum comando com o nome merge ou os famosos joins. Esse eu acho que é de longe o tipo de comando que eu mais uso quando trabalho com base de dados. Como você nunca tem todas as informações possíveis em uma tabela, você sempre vai precisar enriquecer suas bases com informações de outros locais.  (mais…)