1
resposta

Dúvidas e mais dúvidas...

Olá, tudo bem?

Eu fiquei com mais dúvidas do que clareza. Não foi explicado o porquê das funções e tudo mais. Apenas falou que deveríamos fazer.

Por que eu preciso usar a funçãofit() no linenar_model.LinearRegression?

Na funçãotrain_test_split() qual a diferença entre train e test?

Eu sei que na função regressor.predict(Tempo_teste) ajuda a prever dados futuros baseado no passado, correto?

Qual a diferença de colocar os números disso regressor.fit(Tempo_teste, nPassageiros_teste) para isso regressor.fit(Tempo_treino, nPassageiros_treino) ?

Na parte do regressor.predict(Tempo_teste), eu uso as variáveis de Tempo para prever quantos passageiros eu terei no futuro?

Acho que para a Aula 01 set intitulada "O que é a regressão", ela deixou muitas dúvidas e não definiu regressão. Apenas falou o que se fazer sem explicar nenhum porquê. Isso realmente me deixou frustrado.

E olha que os pré-requisitos dela não cita nada de Estatística e os que cita eu tenho.

1 resposta

Oi Romeu,

O .fit() sempre usamos para ajustar o modelo aos dados que estamos passando. Por exemplo, se nosso modelo é uma reta y=ax+b vamos passar os dados de x e y . Com esses dados o fit vai buscar pelo a e b. Sabendo o a e b consigo prever qualquer valor de y quando passar um x novo.

A train_test_split() é um único comando que divide os dados em treino e teste. Posteriormente vamos passar um conjunto de dados de treino para fazer o fit(). Depois que fazemos o fit usando os dados de treino temos um modelo. Então podemos testar se o modelo está funcionando corretamente usando os dados de teste como exemplo.

"Qual a diferença de colocar os números disso regressor.fit(Tempo_teste, nPassageiros_teste) para isso regressor.fit(Tempo_treino, nPassageiros_treino) ?"

A diferença é que no treino temos uma quantidade bem maior de dados para "aprender" sobre o problema. O teste é apenas para a verificação do modelo ajustado sobre os dados de treino. Normalmente não fazemos o ajuste (fit) nos dados de teste. No teste apenas fazemos o predict.

"Na parte do regressor.predict(Tempo_teste), eu uso as variáveis de Tempo para prever quantos passageiros eu terei no futuro?"

Exatamente isso. Apenas um detalhe extra é que nesse exemplo os dados de treino e teste não foram divididos em passado e futuro. Foram escolhidos valores aleatórios no decorrer da série. Assim quando fazemos o predict estamos calculando o número de passageiros que tenho nas datas do Tempo_teste. Podem ser valores intermediários ou valores futuros.

Eu entendo as críticas e vou levar elas em consideração para escrever um post complementar ou quando me deixarem regravar as aulas desse curso no futuro.