probabilidade

Probabilidade de um evento que nunca ocorreu

A técnica desse post provavelmente será pouco utilizada por ser algo atípico. Mas achei interessante, pode ser útil no dia a dia de um cientista de dados. Encontrei no ótimo blog do John D. Cook. Vamos lá então…

Leia mais…

Anúncios

A probabilidade do outro filho ser menino ou menina é…

Assim como no post Qual a probabilidade de tirar o número 1 jogando um dado duas vezes? vamos olhar para mais uma pegadinha clássica nas questões de probabilidade. E, assim como no outro post, um dos erros cometidos é não pensar no conjuntos de resultados possíveis.

Se um casal tem duas crianças, e lhe foi dito que uma delas é um menino. Qual a probabilidade da outra criança ser também um menino?

Leia mais…

Teorema de Bayes na prática: interpretando falso positivo

8cebaff1fbaa61370cdbd474bd35c42b

As pessoas, e eu me incluo nessa, fazem uma enorme confusão com probabilidades condicionais no cotidiano. Por exemplo, é considerada a mesma coisa a chance de um exame dar positivo se a pessoa não tem a doença e a chance de não se ter a doença se o exame dá positivo. Veja que não estamos falando da mesma coisa.

O livro “O andar do bêbado” de Leonard Mlodinow explica bem essa situação. O autor recebeu um exame de HIV com resultado positivo para a doença. Junto com o resultado, o médico lhe deu a notícia de que a chance de ele viver mais de uma década era de 1 em 1 mil.

Como o médico chegou nesse número?

Ele já sabia que o resultado do exame de HIV gera um resultado positivo com o sangue não infectado somente uma vez a cada mil amostras. Ou seja, Leonard tinha 1/1000 chance de não ter HIV. Certo?

Não. Novamente, havia 1/1000 de probabilidade de uma pessoa ter um exame positivo, sendo que ela não tinha a doença. Porém, isso não quer dizer que se o exame for positivo a chance de ela não ter a doença é 1/1000. Vamos verificar com números!

Tome uma população de 10 mil homens. Vamos considerar que o número de falsos negativos seja 0, ou seja, se o exame der negativo, a pessoa não tem HIV. Destes 10 mil, 1 possui HIV. Pelos dados do doutor, com uma simples regra de três, é fácil perceber que de 10 mil homens, com todos realizando o exame de HIV, temos 10 que terão exames com resultado positivo para a doença, mas que não estão infectados. Resumo: 1 homem com resultado positivo e com HIV, 10 com resultado positivo mas sem HIV e 9989 com exame negativo e sem HIV.

Voltando agora ao resultado de Leonard, se o exame foi positivo, ele está entre as 11 pessoas com resultado positivo. Porém, desses 11 somente 1 possui a doença. Logo, dado que o resultado foi positivo, a chance de Leonard ter a doença é de 1/11! E tudo isso graças a um pequeno erro de interpretação do teorema!

Para entender mais sobre o tema, leia o post Probabilidade Condicional e o Teorema de Bayes e o livro O andar do bêbado

Probabilidade Condicional e o Teorema de Bayes

Seguindo a linha de obtenção da probabilidade quando temos mais de um evento, muitas vezes vamos querer saber a probabilidade de algo acontecer, dada alguma condição. Por exemplo, em uma escola podemos querer calcular a probabilidade do aluno ter nota vermelha, dado que é menino. Essa probabilidade pode ser diferente da probabilidade de se ter nota vermelha, dado que é uma menina. Para melhor visualização, considere a tabela abaixo com os alunos aprovados e reprovados nas primeiras provas de cada disciplina (tabela gerada com o randbetween() do excel):

alunos_notas

Se escolhermos aleatoriamente um aluno, qual a probabilidade dele estar aprovado em matemática dado que é um menino?

Temos um total de 13 meninos, sendo que 6 estão aprovados. Logo, a probabilidade é 6/13.

A mesma pergunta, aplicado ao caso de que tenha sido escolhida uma menina resultaria em 5/14.

Ou seja, precisamos fazer pequenos ajustes no que consideramos nosso espaço amostral.

Utilizando as notações adequadas, temos que dado dois eventos A e B, a probabilidade condicional de A dado B, denotada por P(A|B) é:

P(A|B) = P(A∩B) / P(B)

Ou seja, no nosso exemplo, queremos P(aprovado | menino) e a resposta será a interseção dos dois eventos dividido pela probabilidade de ser menino.

A probabilidade de ser homem e estar aprovado em matemática é 6/27, temos 6 meninos aprovados em matemática de um total de 27 alunos.

Como temos 13 meninos em uma sala de 27 alunos, a probabilidade de ser menino é 13/27.

Logo, P(aprovado|menino) = 6/27 ÷ 13/27 = 6/13.

Isso é o que chamamos de probabilidade condicional.

Um teorema muito importante quando se fala de probabilidade condicional é o Teorema de Bayes. O que este teorema nos fornece é uma forma de relacionar as probabilidades condicionais ao seu inverso. Por exemplo, se você precisa saber a probabilidade de um evento A ocorrer dado que ocorreu um evento B, e você sabe a probabilidade de um evento B ocorrer dado que o evento A ocorreu, o teorema vai te levar a resposta. A fórmula principal do teorema é:

P(A|B) = P(A) x P(B|A) /  P(B)

BÔNUS: Agora, e se quisermos saber a probabilidade de sair coroa em um lançamento de moeda, dado que no lançamento anterior saiu cara?

Essa é uma pergunta que confunde muitas pessoas. Nem todos responderiam 1/2, que é a resposta correta.

Pense comigo, se você está lançando uma moeda, independente do que já aconteceu no passado, a chance de cair coroa é 50%. O fato de ter saído cara, ou coroa, em um primeiro lançamento não alterou nada na moeda que faça com que ela agora tenha um peso diferente e provavelmente vai sair cara (ou coroa). Se você quiser saber a probabilidade de ocorrer coroa nos dois lançamentos consecutivos, isso sim altera nosso resultado final, pois estamos avaliando os dois eventos simultaneamente. Parece besta para quem entende, mas muita gente comete este erro.

 

Probabilidade: E vs. OU

Exemplo 1: Vamos supor que você tenha um dado de seis faces e uma moeda honesta. Você decide realizar apostas e quem acertar o resultado de ambos ganhará um prêmio. Seu amigo aposta que sairá o número seis E cara. Qual a probabilidade dele estar certo? E qual seria a probabilidade se você facilitasse o jogo um pouco para ele, e deixasse que ele levasse um prêmio se acertasse um dos dois apenas?

Para responder a pergunta, você trabalhará com dois tipos de eventos.

O primeiro é uma intersecção (https://pt.wikipedia.org/wiki/Interse%C3%A7%C3%A3o), ou seja, quando ocorrem dois eventos simultaneamente, no caso o lançamento do dado resultar no número seis e o da moeda em cara.

O segundo caso, em teoria dos conjuntos, é uma união. Ou seja, se qualquer um dos eventos ocorrer, já satisfaço a condição.

Considerando o espaço amostral do experimento, temos:

Ω = {(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6)}

No caso da interseção, apenas o resultado (cara, 6) satisfaz. Ou seja, a probabilidade é 1/12.

No caso da união, há um conjunto de resultados que satisfazem, para ser mais preciso, 7 resultados satisfazem a condição para que o jogador ganhe:

{(c,1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 6)}

Ou seja, no segundo jogo as chances do seu amigo ganhar aumentam muito, para 7/12.

Uma outra forma de fazer isso seria utilizando a multiplicação para o primeiro caso e a soma para o segundo.

Interseção: P(cara e 6) = P(cara) * P(6) = 1/2 * 1/6 = 1/12

União: P(cara ou 6) = P(cara) + P(6) = 1/2 + 1/6 = 7/12

Exemplo 2: Um dado foi lançado 3 vezes. Qual a probabilidade de sair 3 caras? E de sair ao menos uma cara?

P(3 caras) = 1/2 * 1/2 * 1/2 = 1/8

P(ao menos uma cara) = 1 – P (3 coroas) = 1 – (1/2 * 1/2 * 1/2) =

Essa de pelo menos uma cara pode confundir alguns, por isso resolvi colocar. Alguns poderiam fazer 1/2 + 1/2 + 1/2 = 3/2 = 150%. Mas como é possível uma probabilidade de 150%? Lembre-se de que probabilidade é um valor entre 0 e 1, escrevendo de outra forma, entre 0 e 100%. Isso não é possível porque aqui, se tivermos cara no primeiro caso, a nossa condição já está satisfeita para as demais. Para resolver este exercício, apresento aqui o conceito de complementar.

Sendo A um evento, o evento complementar de A são todos os eventos do espaço amostral que não estão contidos em A. Ou seja, se o evento é ocorrer cara, o complementar é ocorrer coroa. Se o que buscamos é que ocorra pelo menos uma cara, se considerarmos todas as opções que temos de eventos, o complementar do evento ‘ao menos uma cara’ é quando só ocorre coroa nos três lançamentos.

Visualmente: Wikipedia – Complementar

 

Primeiros Passos em Probabilidade

O QUE É PROBABILIDADE?

Produzi muito mais material de programação do que de estatística, por motivos óbvios: mais da metade do tempo gasto no trabalho é tratando as bases de dados. Isso é normal para qualquer um que trabalhe com modelagem estatística ou qualquer outro trabalho que utilize um volume grande de dados.

Por causa disso, acabei deixando um tema muito importante de fora: probabilidade!

Probabilidade é uma medida que varia de zero a um e que indica a chance de um evento ocorrer. Sendo que zero indica que não há chances do evento ocorrer e um indica que o evento ocorrerá com certeza.

Para se medir a probabilidade de um evento específico ocorrer devemos medir o número de vezes que este evento pode ocorrer pelo número total de eventos que podem ocorrer.

Exemplo 1: Qual a probabilidade de sair cara em um lançamento de uma moeda honesta?

Temos o evento cara, ou seja, um evento. E temos um total de dois eventos, pois o lançamento pode resultar em cara ou coroa. Logo, a resposta é:

1/2 = 0,5

Exemplo 2: Qual a probabilidade de tirarmos um número par no lançamento de um dado honesto?

O número de vezes que o evento ocorrer são 3, pois tiraremos um número par quando obtivermos o número 2, 4 ou 6 no lançamento.

O total de eventos que pode ocorrer é 6, pois podemos tirar 1, 2, 3, 4, 5 ou 6 no lançamento.

Sendo assim, a resposta é 3/6 = 1/2 = 0,5.

ESPAÇO AMOSTRAL

Note que você foi introduzido – sem notar – a um conceito novo que é amplamente utilizados na estatística: o espaço amostral.

Espaço amostral é o conjunto de todos eventos que podem ocorrer em um experimento. Por exemplo, o espaço amostral no lançamento de uma moeda é um conjunto de 2 elementos: cara e coroa. No caso do lançamento de um dado, o espaço amostral possui 6 elementos, os números 1, 2, 3, 4, 5 e 6.

O espaço amostral é usualmente denotado pela letra grega omega: Ω. Porém, em alguns casos você pode encontrar a letra U também, derivada do conceito de Universo.

Dado um espaço amostral Ω = {ω1, ω2, … , ωn}, onde ωi se refere ao evento i do experimento, P(ω) é a probabilidade do evento ω ocorrer.

Exemplo 3: Temos uma caixa com 3 bolas vermelhas, 5 bolas amarelas e 7 bolas verdes dentro. Qual o espaço amostral do experimento? Qual a probabilidade de eu tirar uma bola vermelha? E uma amarela? E uma verde? Qual cor tem mais chance de sair em uma retirada?

Ω = {vermelha, vermelha, vermelha, amarela, amarela, amarela, amarela, amarela, verde, verde, verde, verde, verde, verde, verde}

P(vermelho) = 3 / (3+5+7) = 3/15 = 1/5

P(amarela) = 5 / (3+5+7) = 5/15 = 1/3

P(verde) = 3 / (3+5+7) = 7/15

Note que a probabilidade de sair verde é maior que as demais. O que é bem intuitivo, afinal temos mais bolas verdes na caixa.

Simples não?

Lembre-se sempre da fórmula abaixo:

P(A) = N° de vezes que A ocorre / N° Total de Eventos que ocorrem