# Arquivo csv
home;busca;logado;comprou
0;algoritmos;1;1
0;java;0;1
1;algoritmos;0;1
1;ruby;1;0
0;ruby;0;1
1;algoritmos;1;1
1;ruby;1;1
0;ruby;1;1
0;java;1;1
1;ruby;0;0
0;algoritmos;0;1
1;java;0;1
0;ruby;0;0
1;algoritmos;0;0
1;java;1;1
O que foi feito para chegar neste aquivo?
1 - Foi mantido apenas ocorrências únicas, que passaram a representar o tipo de usuário;
2 - Ocorrências muito baixas foram removidas. A quantidade de ocorrência não permitia que houvesse aprendizado, gerando apenas um custo;
3 - Há tipos de usuários similares, mas que a única diferença era comprou (40%) ou não comprou (60%), optei por remover o que menos aparecia, melhorando o acerto. Exemplo:
home = 0, busca = ruby, logado = 0, comprou = 0
60%
home = 0, busca = ruby, logado = 0, comprou = 1
40%
4 - Pegando a quantidade de dados e aumentando o volume proporcionalmente não trouxe melhores resultados, eles voltaram para os valores de 83,5%.
Acho que é possível reduzir ainda mais o tamanho da amostra e manter o resultado de 85.2%.