2
respostas

85.2 de acerto com amostra tamanho 15

# Arquivo csv
home;busca;logado;comprou
0;algoritmos;1;1
0;java;0;1
1;algoritmos;0;1
1;ruby;1;0
0;ruby;0;1
1;algoritmos;1;1
1;ruby;1;1
0;ruby;1;1
0;java;1;1
1;ruby;0;0
0;algoritmos;0;1
1;java;0;1
0;ruby;0;0
1;algoritmos;0;0
1;java;1;1

O que foi feito para chegar neste aquivo?

1 - Foi mantido apenas ocorrências únicas, que passaram a representar o tipo de usuário;

2 - Ocorrências muito baixas foram removidas. A quantidade de ocorrência não permitia que houvesse aprendizado, gerando apenas um custo;

3 - Há tipos de usuários similares, mas que a única diferença era comprou (40%) ou não comprou (60%), optei por remover o que menos aparecia, melhorando o acerto. Exemplo:

home = 0, busca = ruby, logado = 0, comprou = 0 60%

home = 0, busca = ruby, logado = 0, comprou = 1 40%

4 - Pegando a quantidade de dados e aumentando o volume proporcionalmente não trouxe melhores resultados, eles voltaram para os valores de 83,5%.

Acho que é possível reduzir ainda mais o tamanho da amostra e manter o resultado de 85.2%.

2 respostas

Olá Bruno.

Recomendo a leitura desse site e dessa discussão, onde eles analisam questões como retirar atributos para melhorar precisão e sobre o volume de dados.

Mas entendo que devemos tomar cuidado, porque esse estudo que fazemos é para determinarmos parâmetros e algoritmos que vão funcionar melhor com o nosso problema, mas dou preferencia que no nosso modelo final vamos utilizar todos os dados que tivermos disponíveis e esse sim vamos utilizar no "mundo real".

Bons Estudos.

Mais uma vez obrigado pela dica de leitura. Com certeza irei lê-la.

Li no mês passado uma tese de doutorado que abordava essas questões. Me ajudou a entender um pouco mais do assunto.

Obrigado e abraço