1
resposta

[Dúvida] e se correlação entre os dados for baixa?

Olá, Eu estou vendo um dataset que quero fazer predição de regressão (anual income) e todos os campos numéricos tem uma correção bem ruim, na verdade nenhum chegou nem em 0,1. Ainda tem os campos nominais que não coloquei nessa conta, mas não seria melhor desistir desse dataset? dataset no google colab

1 resposta

Oi, Alex! Como você está?

Caso você esteja iniciando seus estudos, pode ser melhor, sim, escolher outro dataset que colabore mais com o estudo de regressão linear, para que você fique confortável enquanto conhece a técnica. Entretanto, caso você já tenha uma familiaridade com a regressão linear e análise estatística, te incentivo a insistir um pouquinho mais nesse dataset que já foi escolhido :)

A falta de correlação linear entre os campos numéricos não significa necessariamente que seu conjunto de dados não seja útil para tarefas de predição de regressão. Existem várias razões para a baixa correlação, é interessante explorar mais a fundo o conjunto de dados antes de desistir dele. Porém, é uma tarefa mais desafiadora, já que outras possibilidades devem ser exploradas.

Explore opções como correlações não lineares, feature engineering, e o uso de técnicas como one-hot encoding para variáveis nominais. Aprender a lidar com outliers, experimentar com modelos mais complexos que podem capturar padrões não lineares, e praticar a validação cruzada são abordagens valiosas!

Espero que os cursos estejam sendo proveitosos para você, Alex.

Abraços!