[Dúvida] O correto não seria passar o DataFrame inteiro ao inves de so os 70% de teste?

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

0
respostas

Referente ao curso Spark: trabalhando com regressão, no capítulo Técnicas de Otimização e atividade Random Forest

por Lacerda

| 105.1k xp | 7 posts

Ao invês de fazer assim:

modelo_rfr_cv = rfr_cv.fit(treino)

Não deveria ser assim:

modelo_rfr_cv = rfr_cv.fit(dataset_prep)

Ao utilizar apenas o DataFrame de "treino", estamos limitando o crossvalidation a uma amostra de 70% (conforme definido no ínicio das aulas) do DataFrame. Sendo assim o crossvalidation irá testar diferentes conjuntos de treino e teste apenas nos 70% e não nos 100% do DataFrame, o que pode acarretar na não mitigação da randomização da divisão de treino e teste.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP