2
respostas

Dataset treino e teste

Tenho uma duvida meio besta, mais se tiver um dataset de treino com poucas linhas e classifica o target de 0 e 1 e dataset de teste com muitas linhas, fazer predict isso gera overfitting ?

2 respostas

Olá Victor, tudo bem? Espero que sim!

Caso você treine o seu modelo com poucos dados, com uma quantidade muito menor do que os dados de teste, provavelmente você terá um problema de underfitting, um problema diferente do overfitting.

O underfitting acontece quando você não consegue explicar o comportamento do modelo por falta de informação, e ao utilizar esse modelo nos dados de teste ou dados novos, não performará bem e terá muito erro.

O overfitting acontece quando o seu modelo está muito bem adequado aos dados de treinamento, mas não consegue generalizar para dados diferentes. Ou seja, o seu modelo está retornando uma relação muito correta para os dados que foram utilizados no momento da criação, mas não cria uma regra geral que consideraria dados ainda não vistos.

Na imagem a seguir, pode ser visto a diferença entre o Underfitting, um bom fit e o overfitting. O primeiro gráfico apresenta uma reta que não segue bem o comportamento dos pontos do gráfico de dispersão, o segundo gráfico apresenta uma curva que se adequa bem aos pontos, explicando bem o comportamento de uma forma geral, já o terceiro gráfico apresenta uma curva que passa exatamente em cima de todos os pontos do gráfico de dispersão

Três gráficos de dispersão lado a lado com curvas de ajuste para explicar o comportamento dos dados, o primeiro gráfico apresenta uma reta que não segue bem o comportamento dos pontos do gráfico de dispersão, o segundo gráfico apresenta uma curva que se adequa bem aos pontos, explicando bem o comportamento de uma forma geral, já o terceiro gráfico apresenta uma curva que passa exatamente em cima de todos os pontos do gráfico de dispersão.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!

Simm tirou minha duvida! Muito obrigado João