Amostra: Definição e Exemplo Prático

População é o conjunto de todos os indivíduos, coisas ou eventos do problema em questão. Em um estudo médico sobre obesidade, a população são todos os indivíduos obesos. Em uma análise sobre acidentes de trânsito, a população é composta por todos os acidentes de trânsito.

Uma amostra é um subconjunto da população que é extraída de forma a garantir que a representatividade de uma população. Como em muitos casos é impossível analisar a população como um todo, a amostra é uma forma de estudar o problema em questão utilizando um subgrupo da população. Se um médico quisesse testar a efetividade de um remédio para obesidade, sendo impossível testar o remédio em todas as pessoas obesas do mundo, ele provavelmente iria escolher um grupo de pessoas de diferentes idades, gêneros e raças para fazer parte do estudo. A partir do resultado obtido com a amostra, ele inferiria o resultado para a população de obesos.

post_amostra

Erros na extração de uma amostra invalidam um estudo. Duas anedotas são contadas no meu texto  Amostra que perde guerra!, disponível no Portal Deviante. Outra explicação sobre viés na amostragem, você pode encontrar nos posts Viés de Seleção: Seus resultados podem estar te enganando e Um exemplo prático de Viés de Seleção.

A técnica de amostragem mais comum é a amostragem aleatória simples. O método consiste em extrair um subconjunto de indivíduos de uma população de forma que todos os indivíduos tenham a mesma probabilidade de ser escolhidos e cada amostra possível tenha a mesma probabilidade de ser escolhida que qualquer outra amostra.

Para aprender a extrair amostras aleatórias no R e no SAS, visite os posts Gerar uma amostra aleatória simples no R e Gerar amostras aleatórias simples no SAS.

No Python, como ainda não há posts aqui no EstatSite, recomendo visitar: Random Sampling Numpy.

No futuro pretendo apresentar outras técnicas de amostragem e ainda o conceito de amostra não probabilística. Apesar de serem menos utilizadas que a técnica aqui apresentada, podem ser úteis ao leitor.

E se você gostou desse post, deixe sua curtida e divulgue para seus amigos. Isso ajuda bastante o site. Bons estudos!

Anúncios

Variáveis: Definição e Classificação

Em estatística, quando falamos de variável estamos falando sobre um atributo, uma característica de uma pessoa ou coisa. A altura de uma pessoa, o número de filhos e o estado civil são exemplo de variáveis.
As variáveis podem ser divididas em qualitativas ou quantitativas:
  • Variáveis Quantitativas: são variáveis numéricas, mensuráveis em uma escala quantitativa. A altura de uma pessoa e a quantidade de filhos que ela tem são variáveis quantitativas. Essas variáveis podem ainda ser divididas em variáveis discretas ou contínuas.
    • Discretas: são variáveis quantitativas cujos valores possíveis formam um conjunto finito ou enumerável de números (referenciar Bussab). Resulta de procedimento de contagem. Exemplos: número de filhos, quantidade de latas de cerveja, número de ovos que uma galinha bota ao longo da vida, etc.
    • Contínuas: são características mensuráveis. Em um determinado intervalo, podem adotar quaisquer valores (números reais). Na construção de tabelas de frequência, para estas variáveis, é necessário construir intervalos que agrupem os dados. Exemplos: altura, peso, renda salarial, etc.
  • Variáveis Qualitativas: são variáveis que não possuem valor quantitativo, não são expressas numericamente. A cor dos olhos e o sexo de um indivíduo são exemplos de variáveis qualitativas. Podemos ainda dividir estas variáveis em nominais e ordinais.
    • Nominais: variáveis que não possuem ordenação. Exemplos: sexo, cor dos olhos, nacionalidade, cidade de nascimento, etc.
    • Ordinais: variáveis que possuem ordenação. Exemplos: escolaridade, classe social, etc.
O quadro abaixo – um pouco mau desenhado, confesso – resume a classificação de variáveis:

pst_variaveis

Agora que você já entende o conceito de variáveis, é importante estudar como apresentar a frequência delas. Alguns posts bacanas sobre esse segundo passo são: Visualizando seus dados: HistogramaAnálise Bidimensonal para Variáveis Quantitativas e Análise Bidimensional para Variáveis Qualitativas.

Abraços e bons estudos!

Formatação de Datas no SAS

Complementando o post Formatando Datas no SAS, aqui vão mais algumas dicas para formatar os campos de data no SAS.

Neste post aprenderemos como podemos criar um campo com o ano e o mês de uma data. Como um extra, lembraremos também como converter uma data no formato texto para um campo no formato data. E, por fim, um operador novo que acredito que não mencionei ainda que são as duas barras verticais ||, que servem para concatenar (=unir) dois campos.

Começamos com uma base que traz uma coluna com a data em formato de texto. A tabela abaixo tem as informações da data em que uma compra foi realizada e o valor gasto:

data compras;
    input dt_compra vlr_compras;
    cards;
 20151102 1000
 20151010 500
 20161201 650
 20140130 900
;
run;

post_formato_anomes

Agora, vamos converter a data que está em formato de texto e deixá-la em formato de data. Para isso, usamos a função input() combinada com o format. Chamaremos o campo novo de dt_compra_new. Apesar de ocupar mais espaço, é uma boa ideia para novos usuários do SAS criar campos novos, ao invés de perder os antigos, até mesmo para visualizar a diferença entre o campo novo e o antigo. A nossa tabela com o campo dt_compra_new se chamará formata_data:

data formata_data;
    set compras;
    dt_compra_new = input(put(dt_compra, 8.), yymmdd10.);
    format dt_compra_new yymmdd10.;
run;

post_formato_anomes_2

Agora, duas formas de obter um campo formado pelo ano e o mês da data em questão são mostrados abaixo. A primeira forma demonstrada abaixo é criando o campo ANO_MES_1. Obtemos esse campo extraindo o ano da data utilizando a função year() e o mês com a função month(). A partir desses dois valores, utilizamos as duas barras verticais ‘||‘ para juntá-los. Como o mês extraído corre o risco de ter um dígito apenas, precisamos acrescentar um zero para alguns casos (e.g.: o mês de setembro combinado com o ano 2018, se não colocarmos um zero no meio, ficaria 20183). A segunda maneira é utilizando a função put() combinada com o argumento monyy7. Veja o exemplo abaixo:

data formata_data_2;
    set formata_data;

    if month(dt_compra_new) < 10 then ANO_MES_1 = compress(year(dt_compra_new) || '0' || month(dt_compra_new));
    else ANO_MES_1 = compress(year(dt_compra_new) || month(dt_compra_new));

    ANO_MES_2 = put(dt_compra_new, monyy7.);

run;

post_formato_anomes_3

Teste os dois exemplos. Com eles você vai aprimorar mais ainda o uso do if, do || e da função put().

Bons estudos!

Artigo Científico sobre Experimentos Aleatórios Controlados

No meu texto de segunda feira escrito para o Portal Deviante, chamado Qual o tamanho da influência de seus amigos?, mencionei um ótimo artigo para quem quer estudar RCT (Randomized Controlled Trials). O artigo se chama How Does Peer Pressure Affect Educational Investments e é altamente recomendável para quem está estudando a matéria. Leia o meu texto e as indicações ao final dele!

Abraços!

Como converter caractere para número no SAS

Complementando o post Tutorial: Trabalhando com Variáveis Texto no SAS, abaixo estão algumas formas de converter caractere para número no SAS. Primeiro, criamos um campo texto e na sequência demonstramos duas formas de convertê-lo em número. No primeiro exemplo temos um campo numérico escrito como texto que é convertido em em número com a função input() e o número de posições que o número terá. O segundo é um campo numérico com cifrão e o convertemos em número, sem incluir o cifrão.

Leia mais…

Diagrama de Ramo-e-Folhas

Uma alternativa ao histograma é o diagrama ramo-e-folhas. No diagrama é possível observar a distribuição de um conjunto de valores. A grande diferença é que nele os valores originais são apresentados. A ideia aqui é dividir a informação em partes denominadas ramo e folha, sendo a primeira o valor inteiro e a segunda o decimal (até dois dígitos). Para o valor 5,35, o ramo é 5 e 35 as folhas.

Leia mais…

Tutorial: Trabalhando com Variáveis Texto no SAS

Trabalhar com variáveis texto (aka string, var char) é muito comum e sempre necessário. Seja porque a variável não é em sua essência uma string – pode ser uma variável numérica que foi inserida como texto -, seja porque você quer retirar somente algumas partes desejáveis do campo, você sempre precisa dar uma trabalhada nelas.

Este post ensinará como algumas dicas do que pode ser feito com variáveis texto no SAS. Como extrair uma parte da string? Como deixar o campo com a letra inicial maiúscula? Como excluir espaços em branco? Essas e outras funções você encontrará logo abaixo.

Leia mais…

Macro em SAS para verificar a existência de uma base

A macro abaixo, adaptação do próprio site da empresa SAS, verifica a existência de um arquivo antes de começar a fazer a tarefa demandada. No exemplo, a função exist() é utilizada e o parâmetro recebido é o nome do arquivo – com a libname, obviamente. A única tarefa do exemplo é exibir o dataset, qualquer outra tarefa que você queira fazer é só substituir o trecho do proc print:

Leia mais…