1
resposta

[Dúvida] Treino do modelo decision tree classifier

No curso Machine Learning parte 1: otimização de modelos através de hiperparametros, na aula 4 - Usando o GridSearchCV por que utilizar todos os dados do x_azar e y_azar para treinar o modelo? por que não fazer o train_test_split? Outra dúvida se eu faço a predição do modelo com os dados do x_azar do qual o modelo foi treinado isso não deixa o modelo tendencioso por ele predizer um resultado com o mesmo dado que foi treinado?

1 resposta

Olá, Lucas, tudo bem?

O GridSearchCV, por padrão, já realiza uma técnica chamada cross-validation (validação cruzada), dividindo os dados em conjuntos de treinamento e teste e avaliando o desempenho do modelo para cada combinação de parâmetros. O objetivo foi didático para demonstrar como realizar a busca de hiperparâmetros utilizando o GridSearchCV. Portanto, não é necessário fazer um train_test_split antes, pois o GridSearchCV já cuida dessa parte.

Quanto à sua segunda pergunta, é importante separar os dados de treinamento e teste para evitar o viés de treinamento. Quando o modelo é treinado e testado com os mesmos dados, pode ocorrer um superajuste (overfitting), onde o modelo se ajusta muito bem aos dados de treinamento, mas não generaliza bem para novos dados. Portanto, é recomendado utilizar dados diferentes para treinar e testar o modelo.

Espero ter esclarecido suas dúvidas.

Qualquer pergunta, compartilhe no fórum.

Abraços e bons estudos!