Oi Vinicius! Tudo bem com você?
Ótimo questionamento o seu. O SEED definido nas aulas é realmente para que a pessoa que está assistindo a aula possa acompanhar o resultado obtido junto com o(a) instrutor(a) do curso. Mas, considerando a situação que você trouxe, acredito que a definição do SEED não seria tão interessante.
O objetivo da definição da SEED é garantir que obtenhamos o mesmo conjunto de dados de treinamento e teste enquanto usamos diferentes hiperparâmetros ou algoritmos de aprendizado de máquina para avaliar o desempenho dos modelos. Então, conseguimos ter um controle dos dados que temos e, com isso, conseguimos alterar nosso modelo para que ele resulte nos melhores resultados visto a separação definida.
Desse modo, como seus dados são alterados a cada semana e, acredito eu, seu modelo já está criado e pronto para o uso, não faz muito sentido manter a SEED definida, visto que agora você só deseja descobrir o resultado do seu modelo e não alterar/melhorar ele.
Ter uma proporção parecida entre treino e teste garante que o modelo receba dados menores que melhor representa os dados como um todo, então o modelo vai poder trabalhar melhor com a situação real que é apresentada a ele. Outro ponto é que caso não ocorra a estratificação pode ser que o modelo não fique muito bem preparado para todos os resultados, por exemplo, em um conjunto de dados que a variável de resultado é binária (0
e 1
) e que nela tenha 25% de valores 0's
e 75% de valores 1's
, pode ser que em uma separação dos dados sem a estratificação possa chegar um conjunto de treino com 5% de valores 0's
e 95% de valores 1's
, o que prejudica o treino do modelo para reconhecer os casos que o resultado é 0
.
Eu espero ter te ajudado! Se a dúvida persistir, estarei à disposição.
Bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!