1
resposta

A Necessidade de separação em treino e teste no RandomizedSearchCV

Gostaria de entender melhor sobre a necessidade ou não necessidade de separação de dados de treino e teste na utilização de métodos para encontrar os melhores hiperparâmetros para modelos XGboost ou de repente outros modelos.

De acordo com a última aula e teste diz que não é necessário essa separação, mas perguntando na IA diz que continua sendo necessário. Podem me ajudar?

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Oi Mauro, tudo bem?

O RandomizedSearchCV é uma ferramenta que realiza uma busca aleatória por hiperparâmetros e utiliza validação cruzada (cross-validation) para avaliar o desempenho do modelo em diferentes subconjuntos dos dados. Com isso, ele já faz uma espécie de "separação" interna dos dados em treino e validação durante o processo de busca.

Mas, é uma boa prática separar os dados em conjuntos de treino e teste antes de usar o RandomizedSearchCV. Pois, após encontrar os melhores hiperparâmetros, você ainda precisará avaliar o desempenho final do modelo em um conjunto de dados que não foi utilizado durante o processo de busca. Esse conjunto de teste serve para validar a capacidade de generalização do modelo.

Portanto, a separação em treino e teste é importante para garantir que você tenha uma avaliação justa e não tendenciosa do desempenho do seu modelo.

Espero ter esclarecido.

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado