amostra

Amostra: Definição e Exemplo Prático

População é o conjunto de todos os indivíduos, coisas ou eventos do problema em questão. Em um estudo médico sobre obesidade, a população são todos os indivíduos obesos. Em uma análise sobre acidentes de trânsito, a população é composta por todos os acidentes de trânsito.

Uma amostra é um subconjunto da população que é extraída de forma a garantir que a representatividade de uma população. Como em muitos casos é impossível analisar a população como um todo, a amostra é uma forma de estudar o problema em questão utilizando um subgrupo da população. Se um médico quisesse testar a efetividade de um remédio para obesidade, sendo impossível testar o remédio em todas as pessoas obesas do mundo, ele provavelmente iria escolher um grupo de pessoas de diferentes idades, gêneros e raças para fazer parte do estudo. A partir do resultado obtido com a amostra, ele inferiria o resultado para a população de obesos.

post_amostra

Erros na extração de uma amostra invalidam um estudo. Duas anedotas são contadas no meu texto  Amostra que perde guerra!, disponível no Portal Deviante. Outra explicação sobre viés na amostragem, você pode encontrar nos posts Viés de Seleção: Seus resultados podem estar te enganando e Um exemplo prático de Viés de Seleção.

A técnica de amostragem mais comum é a amostragem aleatória simples. O método consiste em extrair um subconjunto de indivíduos de uma população de forma que todos os indivíduos tenham a mesma probabilidade de ser escolhidos e cada amostra possível tenha a mesma probabilidade de ser escolhida que qualquer outra amostra.

Para aprender a extrair amostras aleatórias no R e no SAS, visite os posts Gerar uma amostra aleatória simples no R e Gerar amostras aleatórias simples no SAS.

No Python, como ainda não há posts aqui no EstatSite, recomendo visitar: Random Sampling Numpy.

No futuro pretendo apresentar outras técnicas de amostragem e ainda o conceito de amostra não probabilística. Apesar de serem menos utilizadas que a técnica aqui apresentada, podem ser úteis ao leitor.

E se você gostou desse post, deixe sua curtida e divulgue para seus amigos. Isso ajuda bastante o site. Bons estudos!

Anúncios

Gerar amostras aleatórias simples no SAS

Em diversos estudos estatísticos, seja para fazer uma pesquisa de mercado ou um modelo estatístico, é necessário gerar uma amostra aleatória. No SAS, isso é bem simples:

/*Substitua os nomes: tabela_entrada, amostra_gerada *\
/*          e tamanho_da_amostra                     *\
proc surveyselect 
    data= tabela_entrada
    out= amostra_gerada
    n = tamanho_da_amostra method=SRS;
run;

Ps.: As amostras são sem reposição!

Seja mais ágil utilizando firstobs e inobs no SAS

Quando se trabalha com milhões de dados, qualquer tratamento vai consumir alguns bons minutos – ou até horas – do seu dia. Ou seja, se você escrever seu código, rodar e ele apresentar algum erro, lá se vai uma parte do seu dia. Como ninguém é perfeito, esse processo de escrever + executar + problemas se repete várias vezes ao longo do dia. Logo, você vai gastar horas para escrever um código, muitas vezes simples, e vai passar horas ocioso. Porque você vai escrever um trecho do código, vai colocar para rodar, vai esperar alguns minutos e aí sim vai resolver um problema. Para depois fazer isso de novo. E aí segue seu dia, chato e improdutivo.

Evitar o problema descrito é mais simples do que parece. Ao menos parte dele é solucionado testando em uma amostra. Por exemplo, você quer converter o formato de data da sua base. Não escreva o código e fique lá 20 minutos rodando enquanto você não faz nada, ou finge fazer. Teste essa conversão em 10 linhas da base de dados e veja o que ocorre. Se o processo for grande, envolver várias etapas, siga testando com essas 10 linhas fazendo todos os tratamentos, seja enriquecendo a base com dados de outras fontes, seja tratando os campos. Para pegar apenas 10 linhas, você tem as duas opções abaixo, uma para quem usa data step e outra para quem usa proc sql:

* primeira opcao via data step
* seleciona do primeiro ao decimo elemento
* util caso voce queira selecionar elementos do meio da tabela;
data seleciona_amostra;
    set base (firstobs = 1 obs = 10);
run;

* segunda opcao via proc sql;
proc sql inobs = 10;
    select * from base;
run;

Bem simples. Desta forma não precisa mais escrever um trecho, deixar rodando por 1h para só depois checar se deu certo.

Espero que tenha ajudado. Dúvidas, sugestões ou críticas é só escrever aí embaixo.

Estatística, Estatística Descritiva, Inferência Estatística

Para quem já é do ramo parece algo trivial, mas para quem nunca viu, os nomes acima não são tão triviais. Sendo assim, acho que vale a pena explicar rapidamente aqui o que é cada um.

Estatística é o estudo de como coletar, organizar, analisar e interpretar dados. Pense em uma pesquisa eleitoral. Não é possível entrevistar todos os eleitores de um país. Sendo assim, técnicas estatísticas vão nos ensinar como coletar dados de forma a pegar uma amostra que represente a população ou saber quais as falhas a coleta pode ter. Além disso, é preciso saber o que retirar desses dados. Quem vota em qual político, qual a característica dos eleitores que votam no político X e quais as características de quem vota no político Y. Esse é apenas um exemplo dentre tantos que mostram como a estatística é utilizada.

Estatística descritiva é uma forma de sumarizar seus dados de forma quantitativa. É uma forma de resumir a informação que você possui. Pensemos agora em uma sala de aula. A professora tem a nota de todos seus alunos e quer saber como a classe está se saindo. Para isso, ela pode calcular a média, o mínimo, o máximo e o desvio padrão das notas dos alunos. Esses valores são estatísticas descritivas e estão passando para a professora uma ideia, um resumo, de como a sala dela está se saindo.

Por fim, temos a inferência estatística, que é o conjunto de técnicas para tirar conclusões dos seus dados. A inferência estatística é a parte em que a estatística tirará conclusões e deduzirá propriedades da sua população. Após você coletar uma amostra da sua população, você pode tirar algumas estatísticas descritivas dessa amostra mas e depois? Suponha que você queira saber quanto a família brasileira gasta. Você não consegue entrevistar todas as famílias do Brasil. O que você faz? Entrevista algumas e a partir disso, utilizando as técnicas corretas, deduz o quanto a família brasileira gasta. Note que estatística descritiva te dá apenas as informações da sua amostra coletada, sem deduzir nada, diferente da inferência, que é quando você irá traçar conclusões de toda a população com base na sua amostra.