Overfitting e Cross Validation

Um termo bem comum de se encontrar quando o assunto é modelagem é overfitting. É até bonito de se dizer. Overfitting ocorre quando o seu modelo se ajusta aos seus dados, ou seja, o modelo serve só para os dados da base que foi utilizada para a sua construção. O que ocorre é que nesse caso o modelo passa em diversos testes de precisão com o conjunto de dados utilizados, porém, não serve para predição. Em outras palavras, como alguns cientistas de dados costumam dizer, o seu modelo aprender os dados da base treino ao invés de aprender o todo e ser capaz de fazer previsões. A grosso modo, isso ocorre quando você possui uma alta complexidade e muitos parâmetros se comparado com a base de desenvolvimento. Nesse caso, o modelo serve somente para os dados utilizados no desenvolvimento e suas previsões serão fracas.

Como resolver o problema do overfitting?

O mais óbvio é simplificar seu modelo. Parece pouco intuitivo, mas não devemos colocar qualquer parâmetro no modelo, se algum pode ser retirado sem impacto significativo, retire-o.

Faça algumas rodadas de validação cruzada. Algumas divisões aleatórias para a base treino e teste devem auxiliá-lo na identificação de algum problema.

Finalmente, veja se faz sentido o modelo construído. Tente entender como cada parâmetro está impactando a variável resposta. Tenha cuidado com padrões espúrios.

Anúncios

3 comentários

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s