2
respostas

O que fazer quando a Acurácia e Precisão forem baixas? Precisamos otimizar o treino e/ou otimizar a base?

Eu montei uma base simulada (disponibilizada no link abaixo) e apliquei os modelos KNN, Bernoulli Naive Bayes e Arvore de Decisão.

Porém o resultado de todos os modelos foram muito baixos.

Queria entender o que eu posso fazer para melhorar esses resultados. Eu preciso otimizar os treinos ou preciso otimizar a base?

Base Simulada Google Docs

Colab Google Colab

2 respostas

Oi, Lucas! Tudo bem contigo?

Desculpa a demora para te trazer retorno.

Pelo o que você informou, essa base foi simulada por você e modelos de Machine Learning, normalmente, utilizam de métodos estatísticos para encontrar padrões em suas entradas e gerar uma saída. Como você simulou os dados existe a possibilidade de não encontrarmos esses padrões de venda que poderíamos encontrar em uma base tirada de um contexto real.

Eu sugiro você praticar a construção de um modelo com base em dados tirados de repositórios online como o kaggle. Que vai fornecer vários tipos de dados e modelos que podemos utilizar. Outra opção é uso de datasets que são muito utilizados nos estudos de modelos de ML que são disponibilizados pela biblioteca sklearn.

Se você quer trabalhar com dados de venda de carro, você pode baixar o dataset Used-Car Data. Que fornece várias características de carros usados como: ano, km rodados, preço, etc e a indicação se ele foi vendido ou não. A fonte dos dados é informada na descrição do dataset. Você pode usar os modelos que já utilizou nessa aplicação, basta ter cuidado com o tratamento prévio dos dados antes de enviá-los ao modelo. Se quiser saber mais sobre pré-processamento de dados sugiro a leitura do artigo Um guia completo para o pré-processamento de dados em machine learning.

Espero ter te ajudado. Bons estudos!

Olá, Mirla.

Obrigado retorno.

Utilizando dados reais, de fato houve uma melhora nos resultados ficando entre 80% a 90% de acerto.

Nesses casos, o que eu poderia fazer para potencializar ainda mais a taxa de acerto do modelo?