Com licença, pessoal. Tudo bem?
Estou fazendo um trabalho da pós, onde o enunciado descreve vários requisitos e eu estou com um pouco de dificuldade em aplica-los. Poderiam me dar uma ideia, por favor?
É o seguinte... Eu preciso dividir a base de dados do 'titanic.csv' em 3 partes (50% treino, 25% teste, 25% validacao), mantendo a proporção (stratify=1) e garantindo que cada registro seja exclusivo. Tendo dividido as bases, eu tenho que determinar qual dos 4 métodos de treino (knn, árvore de decisão, random forest e SVM) se aplica melhor a essa minha base (que passou por um pequeno processo de tratamento) ao longo de 10 execuções. Então, essa parte eu já tenho...
Só, que um dos requisitos é 'identificar os melhores parâmetros de cada método' e nessa parte eu estou confuso, pois ainda não entendi se isso deveria vir antes ou depois de eu realizar as 10 repetições de teste. Imagino que eu deva realizar essa etapa com a base de 'validação', correto?