1
resposta

Obtenção dos melhores parâmetros (KNN, Árvore de Decisão, Random Florest e SVM) com base divida em 3

Com licença, pessoal. Tudo bem?

Estou fazendo um trabalho da pós, onde o enunciado descreve vários requisitos e eu estou com um pouco de dificuldade em aplica-los. Poderiam me dar uma ideia, por favor?

É o seguinte... Eu preciso dividir a base de dados do 'titanic.csv' em 3 partes (50% treino, 25% teste, 25% validacao), mantendo a proporção (stratify=1) e garantindo que cada registro seja exclusivo. Tendo dividido as bases, eu tenho que determinar qual dos 4 métodos de treino (knn, árvore de decisão, random forest e SVM) se aplica melhor a essa minha base (que passou por um pequeno processo de tratamento) ao longo de 10 execuções. Então, essa parte eu já tenho...

Só, que um dos requisitos é 'identificar os melhores parâmetros de cada método' e nessa parte eu estou confuso, pois ainda não entendi se isso deveria vir antes ou depois de eu realizar as 10 repetições de teste. Imagino que eu deva realizar essa etapa com a base de 'validação', correto?

1 resposta

Oii, Luis! Tudo bem?

Desculpa pela demora em responder a você.

Obrigada por compartilhar conosco um pouco sobre o seu projeto, é muito interessante!

Você está no caminho certo! Está correto no processo em dividir sua base de dados em três partes: treino, teste e validação. É uma prática comum em aprendizado de máquina para garantir que os modelos sejam bem treinados e testados de forma justa.

Vamos agora à questão de identificar os melhores parâmetros, isso é geralmente feito durante o processo de treinamento e validação. Como sugestão, o que pode ser feito é usar a base de treino para treinar seus modelos e a base de validação para ajustar os parâmetros.

Feito esse passo de identificação conforme a necessidade do seu projeto, como sugestão, pode-se então treinar seus modelos com esses parâmetros na base de treino e testá-los na base de teste.

E quando fazer isso? É comum realizar esse processo de ajuste de parâmetros antes de realizar as repetições de teste, porque, uma vez que você identificou os melhores parâmetros, pode então usar esses parâmetros para treinar e testar seus modelos várias vezes, garantindo assim que seus resultados sejam consistentes.

Lembre-se que, essas são apenas sugestões do que pode ser feito, o seu projeto é externo ao curso e eu não tenho acesso às informações do mesmo de forma ampla. É preciso adaptar e realizar testes conforme a necessidade do projeto, tenha isso em mente.

No mais, continue praticando e compartilhando conosco suas dúvidas e sugestões.

Bons estudos, Luis!