1
resposta

Neste teste , não seria mais apropriado utilizar as variaveis X_test e y_test?

Olá,

Ao acompanhar a aula, me deparei com essa dúvida: não seria mais apropriado utilizar as variaveis X_test e y_test, já que estamos estimando os valores previstos e comparando com os valores dos reais?

Digamos que utilizariamos a parte dos dados que foi separada justamente para testes... Veja:

from sklearn.model_selection import train_test_split

y = dados_hoteis['Preco']
x = dados_hoteis.drop(columns = 'Preco')

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.30, random_state=42)

Neste trecho de codigo foi separado 30% dos dados para testes e outros 70% para treinamento do modelo, certo? Então não seria mais apropriado utilizar o x_test e y_test ?

No caso, se eu estivesse analisando sozinho eu não conseguiria encontrar uma lógica que me fizesse usar o x_train e y_train.

Faz sentido, nao faz?

Um abraço e muito obrigado.

1 resposta

Ooi, Lucas! Tudo bem?

Ótima pergunta! Você tem razão, é importante usar os dados de teste (x_test e y_test) para avaliar o desempenho do modelo, já que eles representam dados que o modelo nunca viu antes.

Ao usar os dados de treino (x_train e y_train) para avaliar o modelo, você corre o risco de superestimar o desempenho, pois o modelo já "decorou" esses dados durante o treinamento.

Na aula, foi utilizado x_train e y_train para a análise inicial, essa análise inicial serve para ter uma primeira ideia do comportamento do modelo, mas não é a forma ideal de avaliar o desempenho.

→ A análise inicial com x_train e y_train serve apenas para te apresentar o conceito de comparação entre valores previstos e reais.

Espero ter ajudado!

Continue firme nos estudos! Abraço! :)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!