Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Set de min_samples_lift

Não seria interessante se o número mínimo de amostras seja o valor mínimo de amostras mais significativo estatisticamente - numa margem de erro de 1% ou 5% - ou até mesmo fazendo uma varredura de valores de amostras nessa faixa?

1 resposta
solução!

Olá Luan, tudo bem? Espero que sim!

O min_samples_leaf não terá um valor de significância atrelado como as amostras retiradas de populações na qual você precisa estimar um parâmetro. Nos casos de estimar a média por exemplo, há um número mínimo de valores amostrais para que tenhamos uma porcentagem de erro em relação ao valor da população. No caso do min_samples_leaf, é um valor mínimo de dados para que seja criada uma "folha", mas não estamos estimando nenhum parâmetro para uma população e não é feita uma amostragem aleatória. As folhas são criadas através da análise do algoritmo em relação aos dados.

Se fosse o caso de existir uma margem de erro, quanto maior o tamanho da amostra, menor seria o erro. Porém não é o caso, ao testarmos valores maiores para min_sample_leaf, não obtemos necessariamente resultados melhores.

De toda forma, o instrutor mostra valores de 1 a 64 somente em tom de exemplo. Ele não escolheu esses valores baseados no parâmetro em específico. Apenas mostrou que é possível explorar os parâmetros em uma faixa de valores, e criou uma matriz 64x64 para demonstrar que o tempo de execução do código ficaria muito demorado.

Estou à disposição caso gere alguma dúvida. Bons estudos!