Overfitting e Cross Validation

Um termo bem comum de se encontrar quando o assunto é modelagem é overfitting. É até bonito de se dizer. Overfitting ocorre quando o seu modelo se ajusta aos seus dados, ou seja, o modelo serve só para os dados da base que foi utilizada para a sua construção. O que ocorre é que nesse caso o modelo passa em diversos testes de precisão com o conjunto de dados utilizados, porém, não serve para predição. Em outras palavras, como alguns cientistas de dados costumam dizer, o seu modelo aprender os dados da base treino ao invés de aprender o todo e ser capaz de fazer previsões. A grosso modo, isso ocorre quando você possui uma alta complexidade e muitos parâmetros se comparado com a base de desenvolvimento. Nesse caso, o modelo serve somente para os dados utilizados no desenvolvimento e suas previsões serão fracas.

Como resolver o problema do overfitting?

O mais óbvio é simplificar seu modelo. Parece pouco intuitivo, mas não devemos colocar qualquer parâmetro no modelo, se algum pode ser retirado sem impacto significativo, retire-o.

Faça algumas rodadas de validação cruzada. Algumas divisões aleatórias para a base treino e teste devem auxiliá-lo na identificação de algum problema.

Finalmente, veja se faz sentido o modelo construído. Tente entender como cada parâmetro está impactando a variável resposta. Tenha cuidado com padrões espúrios.

Anúncios

3 comentários

  1. Olá Esdras, tudo bom?
    Bom, há várias coisas que podem ser a causa do overfitting, como por exemplo um conjunto de dados muito pequeno, excesso de variáveis, quando o número de variáveis independentes é menor que o número de data points, quando se tenta encaixar dados que se relacionam linearmente num modelo não-linear, etc.
    Para evitar overfitting, o método mais comum é dividir seus dados em três partes: treino, teste e validação. É o cross validation mencionado. Há outras técnicas também como regularization, comparação de modelos, etc.
    Espero ter ajudado.
    Abraços e bons estudos

    Curtir

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s