Estatística Básica

Localizando Outliers Através do Intervalo Interquartil (+ Boxplot + Código SAS)

Recentemente, estava trabalhando com uma base de mais ou menos 500 mil linhas, onde a maior parte dos dados de uma determinada variável estava no intervalo de 0 a 1.000. Esta mesma variável, no entanto, possuía algumas linhas em que o valor dela era 5.000, 10.000 e até 15.000. Ou seja, haviam alguns outliers. Isto era um problema, principalmente, quando eu construía um gráfico de distribuição. Para lidar com isso, eu exclui os outliers com base no conceito do intervalo interquartil. (mais…)

Anúncios

Probabilidade (II): Princípio Fundamental da Contagem

Em análise combinatória, princípio fundamental da contagem é a ideia de que a quantidade de formas que ações independentes distintas podem ocorrer é a multiplicação do número de modos em que elas podem se apresentar. Em outras palavras, se você tem um evento X que pode ocorrer de n formas, um evento Y, distinto e independente, que pode ocorrer de formas, o número de formas com que esses dois eventos podem se apresentar será n*m. (mais…)

Probabilidade (I): Introdução e Conceitos Básicos

A probabilidade é o estudo da chance de ocorrência de um determinado evento. Quando jogamos um dado e perguntamos “qual a probabilidade de sair o número 3?”, queremos saber qual a chance de sair 3. Queremos saber o que é esperado deste evento, que é jogar um dado. A forma que temos de quantificar uma probabilidade é um número que vai de 0 até 1. Claro que, muito provavelmente, você prefira expressar a probabilidade em percentual, o que é a mesma coisa. Quando temos 100% de chance de que o evento ocorra, a probabilidade será 1, já quando temos 50%, a chance é 0,5. (mais…)

Estatística Essencial em Forma de Anedota

Escrevi uma série de textos no Portal Deviante sobre experimentos, amostragem e outras formas de se fazer análises, além de explicar alguns conceitos estatísticos, todos em forma de historinhas, com exemplos bem claros. Cuidados que se deve ter e erros comuns. Todos bem leves e escritos de uma forma bem informal. (mais…)

Correlação Parcial e Semiparcial: Definição e Código SAS

Além da correlação linear comumente utilizada na estatística, duas outras correlações podem ser interessantes para sua análise: parcial e semiparcial. Ambas dizem respeito à associação entre as variáveis, no entanto, agora trabalhamos com a ideia de manter outras variáveis controle constantes. (mais…)

Testes de Hipóteses

INTRODUÇÃO: A QUESTÃO A SER RESPONDIDA

No mundo real é quase sempre impossível analisar uma população inteira para fazer um estudo. Um laboratório não conseguirá testar seu remédio em todos os indivíduos da população. O que é de praxe, é obter uma amostra, fazer os devidos testes com ela e tentar concluir se o remédio funciona ou não. Em suma, o que estamos fazendo é testando uma hipótese, a de que o remédio funciona. Mas e se você tivesse 50 pacientes e observasse que o remédio funciona para 30 deles? Isso é suficiente para concluir que o remédio funciona? Ou deveríamos concluir que ele não funciona? (mais…)

Amostra: Definição e Exemplo Prático

População é o conjunto de todos os indivíduos, coisas ou eventos do problema em questão. Em um estudo médico sobre obesidade, a população são todos os indivíduos obesos. Em uma análise sobre acidentes de trânsito, a população é composta por todos os acidentes de trânsito. (mais…)

Teorema de Bayes na Prática

Já expliquei sobre o Teorema de Bayes algumas vezes (Teorema de Bayes na prática: interpretando falso positivo e Probabilidade Condicional e o Teorema de Bayes). Para complementar o conteúdo, escrevi um texto no Portal Deviante com um pouco mais de contexto sobre o assunto, num tom bem informal: Deu positivo, mas tô de boa porque aprendi Bayes