Olá pessoal, tudo na paz??
Estou desenvolvendo meu tcc na área de machine learning, o trabalho consiste em um modelo preditivo direcionado a fazer inferências do número total de gols em partidas de futebol nos campeonatos brasileiros de 2000 a 2019, fui questionado pelo meu professor sobre a utilização do método train_test_split para divisão do dataset em treino e teste , segundo ele eu não poderia usar esse método em um problema com correlação temporal, uma vez que ele dividi aleatoriamente o dataset.
As features de entrada (médias de gols sofridos e marcados) foram calculadas baseado-se nas rodadas passadas, agrupando os resultados por ano separadamente, logo as médias referentes a cada time é atualizada a cada nova rodada e guardada em uma das colunas do conjunto de entradas, sendo que os valores de entrada foram calculados em relação a cada time, rodada e ano, suponho então que mesmo dividindo o dataset com train_test_split, as linhas de entrada vão continuar com os valores parametrizdos de forma correta.
não sei se realmente o uso desse método nesse problema está errado, e quais outros eu poderia usar... preciso de bons argumentos ou outra forma de tratar essa parte do problema, quem poderá me salvar?? hahahah
Muito Obrigado!!!