Verifiquei que já há uma explicação para minha dúvida, porém não a entendi direito por não dominar a linguagem técnica:
Em um modelo de regressão linear, precisamos estimar um coeficiente para cada uma das variáveis explicativas.
Precisamos realizar um estudo da multicoliearidade. Multicolinearidade refere-se à correlação entre duas variáveis explicativas ou entre uma delas e as demais incluídas na equação de um modelo.
Quando a correlação entre variáveis explicativas é alta, a eficiência dos coeficientes estimados diminui e em consequência disso, a variância da estimativa aumenta.
A multicolinearidade é tratada através da análise de três casos:
1) Ausência de multicolinearidade: ocorre quando a correlação entre as variáveis explicativas é nula. Essa é a situação ideal.
2) Multicolinearidade Perfeita: nesse caso, a correlação entre as variáveis explicativas é igual a 1 ou -1. O cálculo das estimativas dos parâmetros é matematicamente impossível nessas circunstâncias.
3) Multicolinearidade Imperfeita: ocorre quando a correlação entre as variáveis está entre 0 e 1 ou -1 e 0. Esse é o caso mais comum.
A multicolinearidade aumenta os erros padrão dos coeficientes. O aumento dos erros padrão, por sua vez, significa que os coeficientes para algumas variáveis explicativas podem não ser significativamente diferentes de 0. Em outras palavras, ao super-inflacionar os erros padrão, a multicolinearidade torna algumas variáveis estatisticamente insignificantes quando deveriam ser significativas.
Portanto, como as variáveis temperatura média, temperatura mínima e temperatura máxima apresentam alta correlação entre si, removemos duas delas para que não ocorra nenhum problema da estimação dos coeficientes. Além disso, por elas terem alta correlação, estão explicando quase o mesmo comportamento, estão sendo ambíguas.
Minhas dúvidas são:
1) Qual é a equação do modelo?
2) Quais são estes coeficientes?
3) O termo nula é ter o valor de 0?
4) O que são os erros padrão dos coeficientes?
5) No nosso dataset é mais fácil verificarmos que essas duas variáveis explicativas (acho que são as variáveis "x") são relacionadas entre si até pelo nome temp_min, temp_media, temp_max, porém em outro cenário, onde não há essa clareza , mas há a mesma situação onde duas explicativas possuem corr altíssima (por exemplo, em um cenário onde queremos prever vendas através de investimentos em variáveis anúncios de rádio, tv, jornal e web e verificarmos que por acaso há fortíssima correlação entre rádio e tv), já é justificativa para retirarmos do modelo?