percentil

Como marcar o percentil no SAS?

Matemáticos, estatísticos e cientistas de dados em geral, gostam de trabalhar com percentil. Faz mais sentido do que dividir uma variável contínua em faixas de valor quaisquer, escolhidas de forma subjetiva. No SAS, eu costumo criar essas faixas com o PROC UNIVARIATE. Eu crio uma tabela auxiliar com os valores de cada percentil e depois marco na minha base à qual percentil que o indivíduo (ou elemento qualquer ali) pertence. Não sei se é a melhor forma, mas funciona. Espero que o código abaixo lhe seja útil: (mais…)

Anúncios

Percentil – Conceito e Código SAS

Expliquei o conceito de mediana nesse post quando falei de estatística descritiva. O que não  falei é que a mediana pode ser chamada também de 50° percentil (ou p50).

O percentil é uma medida estatística que representa a posição de um número, ou melhor dizendo, representa a posição percentual de um número em uma determinada lista ordenada. A mediana é o valor que se encontra no 50° percentil, na posição em que 50% dos valores da amostra ordenada está abaixo dela. Se formos falar do p10, ou 10° percentil, estaremos falando do valor situado acima de 10% da amostra ordenada. O percentil vai lhe dar uma boa ideia de como seus dados estão distribuídos.

Exemplo: Suponha que a lista abaixo represente as notas dos alunos de uma determinada turma:

percentil2

Você quer saber como estão distribuídos seus alunos. Se grande parte deles está com uma nota boa, acima da média da escola. Então, você resolve observar o p25, que mostrará um valor no qual 25% da sua turma está abaixo dele. Boa parte da turma tem nota acima de p25 (75% para sermos precisos), ou seja, se esse valor for alto pode indicar que sua turma tem boas notas.

Para nosso exemplo, veja que se ordenarmos os dados, o p25 da turma será 5.7, ou seja, 25% dos alunos tiraram menos que 5.7. E é isso que ocorre, veja que 25% de 12 é 3, e há exatamente 3 notas abaixo de 5.7.

Como encontrar esses valores no SAS?

Se você estiver com uma grande base de dados nas mãos, será complicado encontrar o percentil “na raça”. Então vamos ao código que solta uma tabela com todos os percentiles que você quiser no SAS:

PROC UNIVARIATE DATA=NOTAS_ALUNOS;
VAR NOTAS;
OUTPUT PCTLPRE=P_ PCTLPTS= 5, 25 to 100 by 5;
run;

Dá para ter uma boa ideia do que o código faz sem explicações, certo?

O proc univariate solta diversas medidas estatísticas da variável nota. Como queremos os percentiles de 25 a 100, de 5 em 5, nós criamos uma tabela com todos esses percentiles.

Faça o teste e, se houver dúvidas, fique a vontade para comentar o post!