1
resposta

Dúvida sobre o porquê não utilizar temperatura mínima e média

                            Na transcrição diz:

                            "observarmos a temperatura média e a temperatura mínima, temos uma variação altíssima entre as duas, e isso não é bom para o modelo."

                            Gostaria de entender melhor esse ponto. Não consegui entender o porquê não seria bom e qual é essa variação altíssima entre as duas.

                            Obrigado!
1 resposta

Olá Pietro, tudo bem? Espero que sim!

Em um modelo de regressão linear, precisamos estimar um coeficiente para cada uma das variáveis explicativas.

Precisamos realizar um estudo da multicoliearidade. Multicolinearidade refere-se à correlação entre duas variáveis explicativas ou entre uma delas e as demais incluídas na equação de um modelo.

Quando a correlação entre variáveis explicativas é alta, a eficiência dos coeficientes estimados diminui e em consequência disso, a variância da estimativa aumenta.

A multicolinearidade é tratada através da análise de três casos:

1) Ausência de multicolinearidade: ocorre quando a correlação entre as variáveis explicativas é nula. Essa é a situação ideal.

2) Multicolinearidade Perfeita: nesse caso, a correlação entre as variáveis explicativas é igual a 1 ou -1. O cálculo das estimativas dos parâmetros é matematicamente impossível nessas circunstâncias.

3) Multicolinearidade Imperfeita: ocorre quando a correlação entre as variáveis está entre 0 e 1 ou -1 e 0. Esse é o caso mais comum.

A multicolinearidade aumenta os erros padrão dos coeficientes. O aumento dos erros padrão, por sua vez, significa que os coeficientes para algumas variáveis explicativas podem não ser significativamente diferentes de 0. Em outras palavras, ao super-inflacionar os erros padrão, a multicolinearidade torna algumas variáveis estatisticamente insignificantes quando deveriam ser significativas.

Portanto, como as variáveis temperatura média, temperatura mínima e temperatura máxima apresentam alta correlação entre si, removemos duas delas para que não ocorra nenhum problema da estimação dos coeficientes. Além disso, por elas terem alta correlação, estão explicando quase o mesmo comportamento, estão sendo ambíguas.

Qualquer dúvida estou à disposição.

Bons estudos!