estatistica

Probabilidade de um evento que nunca ocorreu

A técnica desse post provavelmente será pouco utilizada por ser algo atípico. Mas achei interessante, pode ser útil no dia a dia de um cientista de dados. Encontrei no ótimo blog do John D. Cook. Vamos lá então…

Leia mais…

Anúncios

Podcasts

Você pega trânsito no trabalho? Já cansou dos programas de rádio? Quer fazer algo mais produtivo com esse tempo? Que tal tentar um podcast?

Fiz uma pequena lista de programas falando sobre estatística:

Podcasts que falam sobre Estatística

PS.: Depois de ouvir os programas sobre estatística, dê uma chance a essa mídia. Recomendo o Scicast e o Dragões de Garagem para quem gosta de ciência!

A probabilidade do outro filho ser menino ou menina é…

Assim como no post Qual a probabilidade de tirar o número 1 jogando um dado duas vezes? vamos olhar para mais uma pegadinha clássica nas questões de probabilidade. E, assim como no outro post, um dos erros cometidos é não pensar no conjuntos de resultados possíveis.

Se um casal tem duas crianças, e lhe foi dito que uma delas é um menino. Qual a probabilidade da outra criança ser também um menino?

Leia mais…

Média Truncada (Trimmed Mean)

Já falei de estatística descritiva algumas vezes (como em Estatística Descritiva), mas nunca mencionei a média truncada, principalmente porque eu quase não uso.

A média  truncada nada mais é do que a média desconsiderando algum percentil, o que a faz útil se você quer desconsiderar os outliers. Se você quiser calcular a média truncada de um conjunto de 10 observações, você vai retirar a primeira e a última observação, para depois calcular a média.

Por exemplo: Qual a média truncada de 10% de {1,2,2,2,2,2,2,2,2,10}?

Será (2+2+…+2)/8 = 2

E se quisermos calcular no R?

dados = c(1,2,2,2,2,2,2,2,2,10);
mean(dados, trim=.1);
[1] 2

Simples!

Proc Means

No SAS, uma das melhores formas de se obter estatísticas descritivas é através do proc means. Além de ser possível obter média, mediana e moda, você consegue diferentes faixas de percentil, observações missing e até mesmo gerar estatísticas cruzando variáveis.

Veja algumas maneiras de se utilizar o proc means com a nossa conhecida base german_credit_2:

1.  Primeiro, vamos obter algumas informações para a variável DurationOfCreditMonth utilizando o proc means da maneira mais simples possível:

proc means data= german_credit_21;
    var DurationOfCreditMonth;
run;

 2. Em alguns momentos você pode precisar gerar as informações segregadas por diferentes grupos. Por exemplo, você pode precisar da mediana da dívida dos clientes por cada estado, ou a média das notas dos alunos por matéria. Em nosso exemplo, vamos observar como a variável DurationOfCreditMonth se diferencia entre clientes com Creditability = 1 e Creditability = 0:

proc means data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth;
run;

3. Média, mediana e desvio padrão são medidas interessantes e auxiliam na interpretação dos números. No entanto, você pode estar interessado em entender mais a respeito da distribuição desses números. Uma forma de entender isso, é através de algum percentil:

proc means n mean std p10 p25 p50 p75 data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth;
run;

4. Agora que você já possui alguns números para entender melhor a variável, pode ser uma boa ideia deixar o seu resultado mais limpo limitando a duas casas decimais com o maxdec:

proc means n mean std skew p10 p25 p50 p75 data=tmp.german_credit_21 maxdec=2;
    class Creditability;
    var DurationOfCreditMonth;
run;

5. Não é tão interessante quanto os primeiros itens, mas salvar seus resultados em uma tabela – que aqui chamamos de tabela_saida – pode ser útil, principalmente em processos mais automáticos:

proc means data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth;
    output out=tabela_saida sum=soma mean=media p50=mediana;
run;

6. Outra coisa que podemos fazer, semelhante ao que fizemos no item 2, é gerar essas medidas para mais variáveis dividindo todas pelo Creditability ou então, gerar as medidas da variável por outras classes:

proc means data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth Purpose;
    output out=tabela_saida sum=soma mean=media p50=mediana;
run;
proc means data=tmp.german_credit_21;
    class Creditability Purpose;
    var DurationOfCreditMonth;
    output out=tabela_saida sum=soma mean=media p50=mediana;
run;

BÔNUS:

Para incluir os dados missing e ainda contar o número de observações missing, acrescente missing e nmiss no proc means:

proc means  data= <nome da base> missing nmiss;
    class <classe - nao obrigatorio>;
    var <variavel>;
run;

Visualizando a assertividade do seu experimento

Este post é um complemento ao Teorema de Bayes na prática: interpretando falso positivo e Probabilidade Condicional e o Teorema de Bayes. Apresento aqui uma demonstração visual de algumas medidas muito utilizadas na estatística.

Dado um experimento em que queremos verificar se um exame é capaz de diagnosticar uma doença, temos os seguintes resultados possíveis:

medidas_bayes

  • True Positive (TP) ~ Verdadeiro Positivo: O paciente foi diagnosticado como portador da doença e ele realmente é portador dela;
  • False Positive (FP) ~ Falso Positivo: O paciente foi diagnosticado como portador da doença, porém, ele não é portador dela;
  • False Negative (FN) ~ Falso Negativo: O paciente foi diagnosticado como não sendo portador da doença, porém, ele é portador dela;
  • True Negative (TN) ~ Verdadeiro Negativo: O paciente foi diagnosticado como não sendo portador da doença, e ele realmente não é portador dela.

A partir deste quadro, temos as seguintes medidas:

  • Sensibilidade: Probabilidade do exame ser positivo, dado que o paciente é portador da doença. Ou seja, capacidade do exame de acertar o diagnóstico de um paciente portador da doença;
  • Especificidade: Probabilidade do exame ser negativo, dado que o paciente não é portador da doença. Ou seja, capacidade do exame de acertar o diagnóstico de um paciente saudável;
  • Acurácia: Probabilidade do diagnóstico do exame estar correto.

Colocando em fórmulas matemáticas:

  • Sensibilidade = TP / (TP+FN)
  • Especificidade = TN / (FP+TN)
  • Acurácia = (TP+TN) / (TP+FN+FP+TN)

Veja que estamos falando de exames e doenças, mas essas medidas são utilizadas de diversas formas. Por exemplo, se você fizer uma regressão logística para prever inadimplência, você pode calcular a sensibilidade do seu modelo, qual a probabilidade de identificar um mau pagador, dado que o indivíduo é realmente mau pagador.

Probabilidade Condicional e o Teorema de Bayes

Seguindo a linha de obtenção da probabilidade quando temos mais de um evento, muitas vezes vamos querer saber a probabilidade de algo acontecer, dada alguma condição. Por exemplo, em uma escola podemos querer calcular a probabilidade do aluno ter nota vermelha, dado que é menino. Essa probabilidade pode ser diferente da probabilidade de se ter nota vermelha, dado que é uma menina. Para melhor visualização, considere a tabela abaixo com os alunos aprovados e reprovados nas primeiras provas de cada disciplina (tabela gerada com o randbetween() do excel):

alunos_notas

Se escolhermos aleatoriamente um aluno, qual a probabilidade dele estar aprovado em matemática dado que é um menino?

Temos um total de 13 meninos, sendo que 6 estão aprovados. Logo, a probabilidade é 6/13.

A mesma pergunta, aplicado ao caso de que tenha sido escolhida uma menina resultaria em 5/14.

Ou seja, precisamos fazer pequenos ajustes no que consideramos nosso espaço amostral.

Utilizando as notações adequadas, temos que dado dois eventos A e B, a probabilidade condicional de A dado B, denotada por P(A|B) é:

P(A|B) = P(A∩B) / P(B)

Ou seja, no nosso exemplo, queremos P(aprovado | menino) e a resposta será a interseção dos dois eventos dividido pela probabilidade de ser menino.

A probabilidade de ser homem e estar aprovado em matemática é 6/27, temos 6 meninos aprovados em matemática de um total de 27 alunos.

Como temos 13 meninos em uma sala de 27 alunos, a probabilidade de ser menino é 13/27.

Logo, P(aprovado|menino) = 6/27 ÷ 13/27 = 6/13.

Isso é o que chamamos de probabilidade condicional.

Um teorema muito importante quando se fala de probabilidade condicional é o Teorema de Bayes. O que este teorema nos fornece é uma forma de relacionar as probabilidades condicionais ao seu inverso. Por exemplo, se você precisa saber a probabilidade de um evento A ocorrer dado que ocorreu um evento B, e você sabe a probabilidade de um evento B ocorrer dado que o evento A ocorreu, o teorema vai te levar a resposta. A fórmula principal do teorema é:

P(A|B) = P(A) x P(B|A) /  P(B)

BÔNUS: Agora, e se quisermos saber a probabilidade de sair coroa em um lançamento de moeda, dado que no lançamento anterior saiu cara?

Essa é uma pergunta que confunde muitas pessoas. Nem todos responderiam 1/2, que é a resposta correta.

Pense comigo, se você está lançando uma moeda, independente do que já aconteceu no passado, a chance de cair coroa é 50%. O fato de ter saído cara, ou coroa, em um primeiro lançamento não alterou nada na moeda que faça com que ela agora tenha um peso diferente e provavelmente vai sair cara (ou coroa). Se você quiser saber a probabilidade de ocorrer coroa nos dois lançamentos consecutivos, isso sim altera nosso resultado final, pois estamos avaliando os dois eventos simultaneamente. Parece besta para quem entende, mas muita gente comete este erro.

 

Probabilidade: E vs. OU

Exemplo 1: Vamos supor que você tenha um dado de seis faces e uma moeda honesta. Você decide realizar apostas e quem acertar o resultado de ambos ganhará um prêmio. Seu amigo aposta que sairá o número seis E cara. Qual a probabilidade dele estar certo? E qual seria a probabilidade se você facilitasse o jogo um pouco para ele, e deixasse que ele levasse um prêmio se acertasse um dos dois apenas?

Para responder a pergunta, você trabalhará com dois tipos de eventos.

O primeiro é uma intersecção (https://pt.wikipedia.org/wiki/Interse%C3%A7%C3%A3o), ou seja, quando ocorrem dois eventos simultaneamente, no caso o lançamento do dado resultar no número seis e o da moeda em cara.

O segundo caso, em teoria dos conjuntos, é uma união. Ou seja, se qualquer um dos eventos ocorrer, já satisfaço a condição.

Considerando o espaço amostral do experimento, temos:

Ω = {(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6)}

No caso da interseção, apenas o resultado (cara, 6) satisfaz. Ou seja, a probabilidade é 1/12.

No caso da união, há um conjunto de resultados que satisfazem, para ser mais preciso, 7 resultados satisfazem a condição para que o jogador ganhe:

{(c,1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 6)}

Ou seja, no segundo jogo as chances do seu amigo ganhar aumentam muito, para 7/12.

Uma outra forma de fazer isso seria utilizando a multiplicação para o primeiro caso e a soma para o segundo.

Interseção: P(cara e 6) = P(cara) * P(6) = 1/2 * 1/6 = 1/12

União: P(cara ou 6) = P(cara) + P(6) = 1/2 + 1/6 = 7/12

Exemplo 2: Um dado foi lançado 3 vezes. Qual a probabilidade de sair 3 caras? E de sair ao menos uma cara?

P(3 caras) = 1/2 * 1/2 * 1/2 = 1/8

P(ao menos uma cara) = 1 – P (3 coroas) = 1 – (1/2 * 1/2 * 1/2) =

Essa de pelo menos uma cara pode confundir alguns, por isso resolvi colocar. Alguns poderiam fazer 1/2 + 1/2 + 1/2 = 3/2 = 150%. Mas como é possível uma probabilidade de 150%? Lembre-se de que probabilidade é um valor entre 0 e 1, escrevendo de outra forma, entre 0 e 100%. Isso não é possível porque aqui, se tivermos cara no primeiro caso, a nossa condição já está satisfeita para as demais. Para resolver este exercício, apresento aqui o conceito de complementar.

Sendo A um evento, o evento complementar de A são todos os eventos do espaço amostral que não estão contidos em A. Ou seja, se o evento é ocorrer cara, o complementar é ocorrer coroa. Se o que buscamos é que ocorra pelo menos uma cara, se considerarmos todas as opções que temos de eventos, o complementar do evento ‘ao menos uma cara’ é quando só ocorre coroa nos três lançamentos.

Visualmente: Wikipedia – Complementar

 

Primeiros Passos em Probabilidade

O QUE É PROBABILIDADE?

Produzi muito mais material de programação do que de estatística, por motivos óbvios: mais da metade do tempo gasto no trabalho é tratando as bases de dados. Isso é normal para qualquer um que trabalhe com modelagem estatística ou qualquer outro trabalho que utilize um volume grande de dados.

Por causa disso, acabei deixando um tema muito importante de fora: probabilidade!

Probabilidade é uma medida que varia de zero a um e que indica a chance de um evento ocorrer. Sendo que zero indica que não há chances do evento ocorrer e um indica que o evento ocorrerá com certeza.

Para se medir a probabilidade de um evento específico ocorrer devemos medir o número de vezes que este evento pode ocorrer pelo número total de eventos que podem ocorrer.

Exemplo 1: Qual a probabilidade de sair cara em um lançamento de uma moeda honesta?

Temos o evento cara, ou seja, um evento. E temos um total de dois eventos, pois o lançamento pode resultar em cara ou coroa. Logo, a resposta é:

1/2 = 0,5

Exemplo 2: Qual a probabilidade de tirarmos um número par no lançamento de um dado honesto?

O número de vezes que o evento ocorrer são 3, pois tiraremos um número par quando obtivermos o número 2, 4 ou 6 no lançamento.

O total de eventos que pode ocorrer é 6, pois podemos tirar 1, 2, 3, 4, 5 ou 6 no lançamento.

Sendo assim, a resposta é 3/6 = 1/2 = 0,5.

ESPAÇO AMOSTRAL

Note que você foi introduzido – sem notar – a um conceito novo que é amplamente utilizados na estatística: o espaço amostral.

Espaço amostral é o conjunto de todos eventos que podem ocorrer em um experimento. Por exemplo, o espaço amostral no lançamento de uma moeda é um conjunto de 2 elementos: cara e coroa. No caso do lançamento de um dado, o espaço amostral possui 6 elementos, os números 1, 2, 3, 4, 5 e 6.

O espaço amostral é usualmente denotado pela letra grega omega: Ω. Porém, em alguns casos você pode encontrar a letra U também, derivada do conceito de Universo.

Dado um espaço amostral Ω = {ω1, ω2, … , ωn}, onde ωi se refere ao evento i do experimento, P(ω) é a probabilidade do evento ω ocorrer.

Exemplo 3: Temos uma caixa com 3 bolas vermelhas, 5 bolas amarelas e 7 bolas verdes dentro. Qual o espaço amostral do experimento? Qual a probabilidade de eu tirar uma bola vermelha? E uma amarela? E uma verde? Qual cor tem mais chance de sair em uma retirada?

Ω = {vermelha, vermelha, vermelha, amarela, amarela, amarela, amarela, amarela, verde, verde, verde, verde, verde, verde, verde}

P(vermelho) = 3 / (3+5+7) = 3/15 = 1/5

P(amarela) = 5 / (3+5+7) = 5/15 = 1/3

P(verde) = 3 / (3+5+7) = 7/15

Note que a probabilidade de sair verde é maior que as demais. O que é bem intuitivo, afinal temos mais bolas verdes na caixa.

Simples não?

Lembre-se sempre da fórmula abaixo:

P(A) = N° de vezes que A ocorre / N° Total de Eventos que ocorrem