Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Correlação e Causalidade

Nas ultimas aulas temos falado da correlação como indicativo de que uma informação tem forte relação com outra, no entanto, fiquei curioso em saber se as 2 informações de fato fazem sentido andar juntas num processo de decisão de que features usar. Considerando isso me deparei com o grangercausalitytests do statsmodels.

  • Faz sentido utilizar esse tipo de teste em conjunto com a correlação?
  • Nessa função o maxlag deverá se basear no lag obtido no ACF e PACF? Ou devo me basear em outra informação? Qual?
  • Na correlação quando temos 2 variáveis independentes muito próximas de 1 entre elas, devemos descartar 1 delas num modelo preditivo?Obrigado!
1 resposta
solução!

Olá Marcelo, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Através da documentação do statsmodels, é possível verificar que o grangercausalitytests são testes para verificar se uma série temporal é útil na previsão de uma outra série temporal. Dessa forma, os testes são obtidos considerando uma comparação entre duas séries temporais. De toda forma, faz sentido observar o teste em conjunto com a correlação, uma vez que a correlação é um bom indicativo de como os dados estão se relacionando.

Deve-se tomar certo cuidado ao utilizar diretamente o termo causalidade, uma vez que o teste não vai indicar que um evento causa outro.

"Usar o termo "causalidade" sozinho é um equívoco, já que Granger-causalidade é melhor descrita como "precedência", ou, como o próprio Granger afirmou mais tarde em 1977, "relacionado temporalmente". Em vez de testar se X causa Y, a causalidade de Granger testa se X prevê Y."

O parâmetro maxlag fará com que o teste seja efetuado para todos os valores de delay até o número inteiro passado como parâmetro. E devem ser observados tanto o ACF, PACF e CCF. A CCF é a função de correlação cruzada, que verifica a correlação entre duas séries temporais distintas.

Quando há duas variáveis independentes com alta correlação entre si, podemos descartar uma das variáveis, já que em tese, elas estão "dizendo" a mesma coisa, ou explicam de uma forma muito parecida o comportamento da variável dependente. Isso poupa esforço computacional e diminui a coleta de dados para futuros modelos.

Espero que tenha tirado suas dúvidas.

Estou à disposição. Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software