2
respostas

Dúvidas gerais sobre a aula 2

1) Qual o motivo de alterar o C e haver o ajuste de curvas, qual a matemática por detrás. Em um caso real como saber o valor de C. Também fiquei em dúvida se o problema for multivariado.

2) Porque o método os parâmetros do método fit, que é aplicado no regressor_svr.fit(...), são os subconjuntos de treino e não de teste. Essa não seria uma forma de enviesar para conseguir resultados melhores na predição?

3) Professor o sr. poderia formular um exemplo parecido àquele do exercício que pedia a predição de um período subsequente para que eu possa aplicar nesse problema programado?

Obrigado

2 respostas

1) Imagine que você tenha fazer a conta 1/x. Se x for um número muito próximo de zero ( ruído muitas vezes causa esse tipo de problema) o resultado da conta vai ser um valor muito alto.

Mas se você fizer uma conta com 1/(x+C) você consegue controlar o problema dos valores muito altos. Você tem que escolher o valor C mantenha o resultado dentro de um intervalo adequado controlando o ruído. Na maioria dos casos é usado um método chamado de método do "cotovelo" https://www.scikit-yb.org/en/latest/api/cluster/elbow.html (Esse exemplo é para clustering). Você testa diversos valores de C até que a curva de diminuição do erro se torne quase reta. Você escolhe o C no cotovelo, onde a curva parou de diminuir de forma rápida.

2) Não. O .fit é usado nos dados de treino porque queremos que o algoritmo aprenda com dados que conhecemos. E depois testamos para ver se vai ser possível obter uma resposta boa em dados que não vimos durante o treino. Ou seja, queremos que o algoritmo generalize o problema. Não queremos que ele simplesmente memorize os dados de treino.

3) Acho que é mais fácil você assistir as primeiras aulas deste curso aqui. Neste curso em foquei na predição de valores subsequentes. https://cursos.alura.com.br/course/data-science-time-series

2) ok 3) eu digo sugerir algum ex básico, mas tudo bem porque eu acredito que seja uma dúvida a ser sanada durante o estudo. 1) Eu entendi a matemática e a teoria dos limites que está implícito na sua resposta Alan, porém o meu questionamento é sobre o que exatamente está operando, qual o método por traz desse C....não é um tanto frugal "ir testando"? Se o problema for multidimensional como analisaremos sem métodos gráficos? Obrigado.