Big Data vs. Freud

Mais um texto no Portal Deviante. E ai, você consegue imaginar (mais…)

Anúncios

Criando tabelas no R

Muitas vezes, para praticar alguma técnica, é mais eficiente criar uma amostra qualquer para fazer pequenos testes. Sendo uma amostra pequena, você consegue verificar se a técnica funciona, ou simular vários cenários possíveis para garantir que ela atenderá a todos. No R, é bem simples criar uma amostra. Abaixo, criamos um data frame com 3 variáveis, sendo uma a chave de identificação (id), a outra uma variável com caracteres (var_char) e a outra uma variável numérica (var_num):

exemplo_1 = data.frame(id = c(1, 2, 3, 4),
var_char = c("A", "B", "C", "D"),
var_num = c(10, 20, 30, 40))

exemplo_1

Captura de Tela 2018-06-17 às 08.40.12

É possível, de forma mais ágil ainda, criar sequências de números, letras maiúsculas, letras minúsculas e até mesmo de meses:

exemplo_2 = data.frame(id = c(1:10),
var_car = letters[1:10],
VAR_CHAR = LETTERS[1:10],
mes = month.abb[1:10])
exemplo_2

Captura de Tela 2018-06-17 às 08.44.54

Para criar amostras aleatórias, basta adaptar o código que vimos em Gerar uma amostra aleatória simples no R:

# variavel aleat sera amostra de numeros de 0 a 100
exemplo_3 = data.frame(id = c(1:10),
                      aleat = sample(1:100, 10, replace=T))
exemplo_3

Captura de Tela 2018-06-17 às 08.47.53

Simples, não?

Sempre que for utilizar alguma técnica mais complexa, teste em tabelas menores, que possibilitem que você visualize exatamente o que está sendo feito. Simule os cenários que você pode encontrar e veja se o que você fez atende a todos.

Bons estudos!

Se este post te ajudou de alguma forma, curte o link ou deixe um comentário. E se tiver outros amigos que trabalham com esse material, não deixe de compartilhar com eles o site. Obrigado.

Signo no modelo, vale?

Certo dia, uma amiga, da área de modelagem também, me disse a seguinte frase “se eu colocar signo, e for significativo, então eu uso no meu modelo”. Eu esperaria esse comentário de uma pessoa com zero conhecimento em econometria, ou um terraplanista, mas escutar isso de alguém envolvido com data science, me surpreendeu muito. Convenhamos, achar que a posição dos planetas no momento em que a pessoa nasce, significa algo, é muito leviano. Para não dizer outra coisa.

(mais…)

Unindo tabelas no R (Join/Merge)

Quem trabalha muito com bases de dados com certeza já usou algum comando com o nome merge ou os famosos joins. Esse eu acho que é de longe o tipo de comando que eu mais uso quando trabalho com base de dados. Como você nunca tem todas as informações possíveis em uma tabela, você sempre vai precisar enriquecer suas bases com informações de outros locais.  (mais…)