Mini Curso de R

Olá pessoal!

Resolvi organizar o material de R do blog de uma forma que fique parecido com um curso, melhor organizado e na ordem a ser seguida para que tudo corra bem no seu aprendizado. Em outras palavras, seguindo os posts abaixo, nessa ordem, acredito que você vá aprender tanto quanto em qualquer curso (com a vantagem de não estar gastando nem um centavo).

Caso você já tenha conhecimento em R e queira somente utilizá-los em alguma base qualquer, a German Credit Data, que eu utilizo no post de Árvore de Decisão, é excelente. Além dela, o R possui outros conjuntos de dados que não precisam ser baixados, já estão no software por padrão (e.g.: Iris). Seguindo os passos a seguir, acredito que qualquer um já vai saber o suficiente para se virar bem no R.

INSTALAÇÃO E PRIMEIROS PASSOS: O passo inicial é baixar o software seguindo os passos de Primeiros passos no R (Studio). Além da instalação, você vai aprender alguns comandos simples que podem ser executados no R.

IMPORTAÇÃO E MANIPULAÇÃO DE DADOS: Após realizar o download e executar comandos simples, você precisará primeiro importar as informações que estão em formato txt, csv, etc.: Carregando / Importando seus dados no R. Em seguida, com os dados já no R, você precisa trabalhar a informação deixando na visão que lhe for conveniente. É provável que elas não estejam na visão ideal para seu projeto. É preciso consolidar informações, combinar tabelas, dentre outras coisas. Para isso, você pode estudar o post Tutorial: Manipulação e Análise de Dados em R. Outros posts relevantes que tratam o assunto são: Excluindo linhas missing no R, Excluindo linhas de uma tabela no R, SAS Group By no R, R: Ordenando colunas e Filtros no R.

ANÁLISE EXPLORATÓRIA/GRÁFICA: Agora que seus dados estão tratados, é interessante fazer analisar a informação visualmente. Neste caso, veja: Gráficos em R, Comparando graficamente dois grupos, Mais gráficos no R: qqplot() e também Gráfico no R, colorindo pontos por categoria.

ANÁLISE DESCRITIVA: Este passo anda lado a lado com o anterior. Após ajustar a informação, é útil analisar a frequência das variáveis, tal como as principais estatísticas. Isto serve tanto para validar a informação, quanto para entender as variáveis sendo estudadas. De cara, já falo para você utilizar a função summary() na base inteira. A saída deste comando lhe será útil. Além disso, leia Demonstrando dados com a função aggregate no RFrequência no R utilizando o pacote Hmisc.

MODELAGEM ESTATÍSTICA: Enfim é hora de gerar os modelos estatísticos. Você pode gerar uma regressão linear, logística ou uma árvore de decisão. Leia os posts Regressão Linear Simples – Parte 1, Regressão Linear Simples – Parte 2, Regressão Linear Simples – Parte 3, Regressão Linear Múltipla, Análise dos Resíduos de uma Regressão Linear, Resíduos de uma Regressão Linear no R, Regressão Logística no RÁrvore de Decisão com Probabilidade em R. Não sabe o conceito de Árvore de Decisão? Leia o post Árvore de Decisão. Aliás, não se esqueça que antes de fazer o modelo, você deve separar as bases em treino e teste. Caso não saiba como fazer isso, dê uma olhada em Separando a base treino e teste no R.

Espero que consigam aprender com o plano de estudos acima. Vou fazer o possível para enriquecer ainda mais este conteúdo ao longo do tempo, mas creio que ele já contemple boa parte do que você vai utilizar no dia à dia como cientista de dados – considerando os primeiros cargos -, caso opte por esse carreira. Pode ser também que em alguns posts mais antigos o formato do código não esteja tão limpo como é hoje em dia, mas estou ajustando aos poucos. Se houver alguma dúvida, reclamação ou sugestão, comentam ou me escrevam. Obrigado pela visita e siga o Twitter @EstatSite!