grafico de dispersao

Gráfico no R, colorindo pontos por categoria

Normalmente, quando fazemos gráficos, estamos analisando duas variáveis em conjunto. Posso estar analisando renda salarial vs. anos de estudo, peso vs. altura, e por aí vai. Sempre o tradicional gráfico com dois eixos. Prático e de fácil leitura. Mas e se você precisasse incluir mais uma dimensão? Sendo esta dimensão uma variável categórica, que tal colocar um pouco mais de cor no seu gráfico? (mais…)

Anúncios

Gráfico de Dispersão no Python

O gráfico de dispersão, ou scatterplot, é um gráfico no qual se traçam os diferentes pares de pontos (x, y). É utilizado para entender a relação entre duas variáveis. Isto é, se x aumenta a medida que y aumenta, se não há nenhuma relação entre as variáveis, dentre outras possíveis interpretações. No exemplo abaixo, utilizamos a biblioteca numpy para criar uma série aleatória e matplotlib para gerar o gráfico:

Leia mais…

Visualizando seus dados: Gráficos de Dispersão

Outra forma de fazer uma primeira análise dos seus dados é plotar um gráfico de dispersão.

Um gráfico de dispersão é uma representação dos seus dados em eixos onde um valor está em função de outro. Normalmente, esses gráficos possuem dois eixos, um eixo horizontal (eixo x) e um eixo vertical (eixo y) onde cada eixo serve como referência para cada um dos valores do seu par.

Vamos ver na prática como funciona!

Tomando os mesmos dados que tínhamos das notas dos alunos utilizadas no post sobre histogramas, vamos agora verificar a relação entre o número de faltas dos alunos e suas notas:

Dados

Agora, queremos ter uma ideia de como essas variáveis se relacionam. Talvez a gente consiga ter uma ideia do comportamento, afinal, é provável que quem falte mais tenha piores notas. Poderemos ver isso com o gráfico de dispersão. Vejamos as diferentes formas de se gerar esse tipo de gráfico utilizando o SAS:

SYMBOL1 V=circle C=black I=none;
TITLE 'Notas x Faltas 1';
PROC GPLOT DATA=auto;
 PLOT Notas*Faltas;
RUN;

  

SYMBOL1 V=circle C=blue I=r;
TITLE 'Notas x Faltas 2';
PROC GPLOT DATA=auto;
 PLOT Notas*Faltas;
RUN;
QUIT;

Como vocês podem notar, SYMBOL é responsável por especificar as características do seu gráfico, sendo que V define o formato, no meu caso usei círculos, mas poderia ser Plus (+), Dot (•), dentre muitos outros. C define a cor e I o que chamamos de interpol nos traz a reta da regressão. Experimente modificar essas características no seu gráfico!

Quando se trabalha com gráfico de dispersão, fica mais claro a correlação entre as duas variáveis em questão. Você vai ver que por si só, esse gráfico já será muito útil na vida profissional e acadêmica. E claro, se você quiser ir além, esse gráfico é um começo para suas análises e regressões!