Nesse curso o objetivo foi diminuir o maior numero de dimensões possível no dataset. De maneira geral, quando trabalhamos com dados muito volumosos em dimensões, a ideia é sempre essa?
Nesse curso o objetivo foi diminuir o maior numero de dimensões possível no dataset. De maneira geral, quando trabalhamos com dados muito volumosos em dimensões, a ideia é sempre essa?
Olá, Vladimir! Como vai?
Não necessariamente.
Como várias questões essenciais em Machine Learning, a resposta é um grande depende.
A redução de dimensionalidades em datasets volumosos é uma estratégia bastante comum e é feita por muitos motivos, por exemplo:
Redução de Ruído: Muitas features podem conter informações redundantes ou irrelevantes que podem prejudicar a performance do modelo.
Melhora na Performance: Menos features podem resultar em modelos mais simples e rápidos, tanto em termos de treinamento quanto de inferência.
Evitar Overfitting: Com muitas features, há um risco maior de o modelo se ajustar demais aos dados de treinamento, perdendo a capacidade de generalizar para novos dados.
No entanto, não é em todos os casos que a redução de dimensionalidades será benéfica ou necessária. Depende muito do contexto e do problema específico que você está tentando resolver. Em alguns casos, todas as features podem ser relevantes e contribuir para a precisão do modelo.
Existem algoritmos de Machine Learning que lidam bem com os casos em que é importante manter as dimensões, como Random Forest e Deep Learning.
Espero ter ajudado!
Abraços.