[Dúvida] Dados utilizados para definir as k melhores features

1
resposta

Referente ao curso Machine Learning: lidando com dados de muitas dimensões, no capítulo Automatizando a seleção e atividade SelectKbest

por Estudante

| 57.1k xp | 11 posts

É uma boa prática dividir os dados (train_test_split) antes de selecionar utilizar o SelectKBest? Por que não realizar o train_test_split apenas após ter um dataset com as features selecionadas pelo SelectKBest?

1 resposta

por Gabriel Oliveira De Queiroz Monteiro

| 24.2k xp | 36 posts

12/06/2023

Olá,

O conjunto de teste é utilizado apenas para reportar a performance do modelo em um conjunto de dados nunca visto antes, e nunca utilizado para nenhuma decisão tomada acerca do modelo. Se utilizássemos o conjunto de teste para selecionar as features, estaríamos considerando estes dados para tomar decisões sobre a construção do nosso modelo, e esse não é o propósito do conjunto de testes.

Imagine um ambiente de produção, nós não utilizamos (e muitas vezes nem temos disponível no momento em questão) os dados de produção que serão scorados pelo modelo em nenhuma etapa da construção do modelo.

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema