Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Split aleatório ou baseado em uma SEED fixa?

Olá pessoal, espero que estejam bem.

Eu entendi que para fim didáticos devemos utilizar uma SEED com o mesmo valor que o instrutor para conseguirmos resultados similares. Mas supondo que vamos fazer a implementação de um modelo ML que roda com uma frequência semanal, e que a cada semana recebe uma porção de dados de treino diferentes, o ideal seria manter a SEED fixa ou não determinar um "random_state" e deixar o "train_test_split" determinar o split de forma pseudo aleatória?

E referente ao "stratify" qual o motivo de precisarmos deixar os dados com proporções parecidas? Isto não deixa o dado com viés?

Obrigado! Vinicius.

2 respostas
solução!

Oi Vinicius! Tudo bem com você?

Ótimo questionamento o seu. O SEED definido nas aulas é realmente para que a pessoa que está assistindo a aula possa acompanhar o resultado obtido junto com o(a) instrutor(a) do curso. Mas, considerando a situação que você trouxe, acredito que a definição do SEED não seria tão interessante.

O objetivo da definição da SEED é garantir que obtenhamos o mesmo conjunto de dados de treinamento e teste enquanto usamos diferentes hiperparâmetros ou algoritmos de aprendizado de máquina para avaliar o desempenho dos modelos. Então, conseguimos ter um controle dos dados que temos e, com isso, conseguimos alterar nosso modelo para que ele resulte nos melhores resultados visto a separação definida.

Desse modo, como seus dados são alterados a cada semana e, acredito eu, seu modelo já está criado e pronto para o uso, não faz muito sentido manter a SEED definida, visto que agora você só deseja descobrir o resultado do seu modelo e não alterar/melhorar ele.

Ter uma proporção parecida entre treino e teste garante que o modelo receba dados menores que melhor representa os dados como um todo, então o modelo vai poder trabalhar melhor com a situação real que é apresentada a ele. Outro ponto é que caso não ocorra a estratificação pode ser que o modelo não fique muito bem preparado para todos os resultados, por exemplo, em um conjunto de dados que a variável de resultado é binária (0 e 1) e que nela tenha 25% de valores 0's e 75% de valores 1's, pode ser que em uma separação dos dados sem a estratificação possa chegar um conjunto de treino com 5% de valores 0's e 95% de valores 1's, o que prejudica o treino do modelo para reconhecer os casos que o resultado é 0.

Eu espero ter te ajudado! Se a dúvida persistir, estarei à disposição.

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

Tudo bem também!

Muito obrigado pela ajuda Mirla! Consegui compreeder os obejtivos do SEED fixo e Stratify, a explicação ficou ótima para ambos tópicos :).