Mini Curso de R Gratuito

Olá pessoal!

Resolvi organizar o material de R do blog de uma forma que fique parecido com um curso, melhor organizado e na ordem a ser seguida. Se você quer aprender, basta seguir os itens abaixo. Caso você já tenha outro conteúdo e queira aplicar, recomendo utilizar o dataset German Credit Data, que eu também disponibilizei no post sobre árvore de decisão. Além desses dados, o R possui outros conjuntos de dados que não precisam ser baixados, já estão no software por padrão (e.g.: Iris). Seguindo os passos a seguir, acredito que qualquer um já vai saber o suficiente para se virar bem no R.

INSTALAÇÃO E PRIMEIROS PASSOS: O passo inicial é baixar o software seguindo os passos de Primeiros passos no R (Studio). Além da instalação, você vai aprender alguns comandos simples que podem ser executados no R.

IMPORTAÇÃO E MANIPULAÇÃO DE DADOS: Após realizar o download e executar comandos simples, você precisará primeiro importar as informações que estão em formato txt, csv, etc.: Carregando / Importando seus dados no R. Em seguida, com os dados já no R, você precisa trabalhar a informação deixando na visão que lhe for conveniente. É provável que elas não estejam na visão ideal para seu projeto. É preciso consolidar informações, combinar tabelas, dentre outras coisas. Para isso, você pode estudar o post Tutorial: Manipulação e Análise de Dados em R. Outros posts relevantes que tratam o assunto são: Excluindo linhas missing no R, Excluindo linhas de uma tabela no R, SAS Group By no R, R: Ordenando colunas e Filtros no R.

ANÁLISE EXPLORATÓRIA/GRÁFICA: Agora que seus dados estão tratados, é interessante fazer analisar a informação visualmente. Neste caso, veja: Gráficos em R, Comparando graficamente dois grupos, Mais gráficos no R: qqplot() e também Gráfico no R, colorindo pontos por categoria.

ANÁLISE DESCRITIVA: Este passo anda lado a lado com o anterior. Após ajustar a informação, é útil analisar a frequência das variáveis, tal como as principais estatísticas. Isto serve tanto para validar a informação, quanto para entender as variáveis sendo estudadas. De cara, já falo para você utilizar a função summary() na base inteira. A saída deste comando lhe será útil. Além disso, leia Demonstrando dados com a função aggregate no RFrequência no R utilizando o pacote Hmisc.

MODELAGEM ESTATÍSTICA: Enfim é hora de gerar os modelos estatísticos. Você pode gerar uma regressão linear, logística ou uma árvore de decisão. Leia os posts Regressão Linear Simples – Parte 1, Regressão Linear Simples – Parte 2, Regressão Linear Simples – Parte 3, Regressão Linear Múltipla, Análise dos Resíduos de uma Regressão Linear, Resíduos de uma Regressão Linear no R, Regressão Logística no RÁrvore de Decisão com Probabilidade em R. Não sabe o conceito de Árvore de Decisão? Leia o post Árvore de Decisão. Aliás, não se esqueça que antes de fazer o modelo, você deve separar as bases em treino e teste. Caso não saiba como fazer isso, dê uma olhada em Separando a base treino e teste no R.

Espero que consigam aprender com o plano de estudos abaixo. Não é o plano mais completo, infelizmente sou só um, tenho o emprego que paga minhas contas, alguns outros hobbies que consomem meu tempo e outras responsabilidades. Mas vou fazer o possível para enriquecer este curso com o tempo. Pode ser também que em alguns posts mais antigos o formato do código não esteja tão ‘clean’ como é hoje em dia, mas estou ajustando aos poucos. Se houver alguma dúvida, reclamação ou sugestão, fiquem a vontade para comentar ou me escrever. Obrigado pela visita!

Anúncios