Gráfico no R, colorindo pontos por categoria

Normalmente, quando fazemos gráficos, estamos analisando duas variáveis em conjunto. Posso estar analisando renda salarial vs. anos de estudo, peso vs. altura, e por aí vai. Sempre o tradicional gráfico com dois eixos. Prático e de fácil leitura. Mas e se você precisasse incluir mais uma dimensão? Sendo esta dimensão uma variável categórica, que tal colocar um pouco mais de cor no seu gráfico?

Suponha que você queira analisar se a renda de um trabalhador varia de acordo com os anos de estudos dele. Inicialmente, parece óbvio que a renda dele vai crescer quanto mais anos de estudos ele tiver. Mas e se em uma profissão, ter doutorado importa muito mais do que em outra profissão? Bom, nesse caso, o aumento salarial de uma vai ser diferente da outra. Podemos imaginar que para uma, até 8 anos de estudos a relação entre salário e anos de estudos seja linear crescente, entretanto, pode ser que a partir disso a relação já não seja tão linear. Já na profissão onde doutorado vale muito, a relação pode ser linear sempre.

A mesma coisa pode ocorrer quando analisamos a relação entre idade e salário. Para algumas profissões, ser jovem é essencial. Para outras, pode não só não ser essencial, como ser algo negativo. Uma boa ideia para visualizar isto tudo num só gráfico, é traçando a relação entre salário e anos de estudos, mas colorindo os pontos de acordo com a profissão da pessoa.

Na base Wage, do pacote ISLR, temos exatamente o que queremos mostrar, duas variáveis contínuas que serão traçadas num gráfico de dispersão comum. Abaixo, veja como fica o gráfico de idade por salário da base Wade:


## carrega pacote ISLR q contem a base Wage
install.packages("ISLR", dependencies=TRUE)
library("ISLR")
## carrega ggplot2, pois tem a funcao qplot
install.packages("ggplot2", dependencies=TRUE)
library("ggplot2")
## traca grafico de age vs wage
qplot(age, wage, data=Wage)

grafico_age_wage

E agora, com a mesma função, vamos incluir o argumento colour, para especificar qual a variável vai determinar a cor com a qual o ponto será pintado. Aqui, vamos pintar os pontos de acordo com a classe do trabalho:

## traca grafico de age vs wage
qplot(age, wage, colour=jobclass, data=Wage)

Rplot

Agora, de certa forma, você consegue apresentar três dimensões no seu gráfico!

Anúncios

1 comentário

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s