Olá! Quando for dividir os dados entre teste e treino posso usar biblioteca do skitlearn que faz a separação?
from sklearn.model_selection import train_test_split
Olá! Quando for dividir os dados entre teste e treino posso usar biblioteca do skitlearn que faz a separação?
from sklearn.model_selection import train_test_split
Oi Leticia,
Pode sim. Porém, o padrão da train_test_split do sklearn é fazer uma divisão aleatória para o treino e para o teste. Assim teríamos parte do que usamos para o treino no curso sendo usada para o teste e vice-versa. Para fazer um train_test_split sequencial como fizemos no curso recomendo usar a train_test_split da biblioteca pmdarima. Essa train_test_split é uma versão modificada da versão do sklearn para trabalhar de forma sequencial.
Nas aulas seguintes do curso vamos instalar essa biblioteca e acho que vai ficar mais fácil de entender. Mas aqui segue um exemplo de uso. Copiado da documentação da pmdarima.
import pmdarima as pm
from pmdarima.model_selection import train_test_split
y = pm.datasets.load_sunspots()
y_train, y_test = train_test_split(y, test_size=50)
y_test.shape
(50,)