Não seria interessante se o número mínimo de amostras seja o valor mínimo de amostras mais significativo estatisticamente - numa margem de erro de 1% ou 5% - ou até mesmo fazendo uma varredura de valores de amostras nessa faixa?
Não seria interessante se o número mínimo de amostras seja o valor mínimo de amostras mais significativo estatisticamente - numa margem de erro de 1% ou 5% - ou até mesmo fazendo uma varredura de valores de amostras nessa faixa?
Olá Luan, tudo bem? Espero que sim!
O min_samples_leaf não terá um valor de significância atrelado como as amostras retiradas de populações na qual você precisa estimar um parâmetro. Nos casos de estimar a média por exemplo, há um número mínimo de valores amostrais para que tenhamos uma porcentagem de erro em relação ao valor da população. No caso do min_samples_leaf, é um valor mínimo de dados para que seja criada uma "folha", mas não estamos estimando nenhum parâmetro para uma população e não é feita uma amostragem aleatória. As folhas são criadas através da análise do algoritmo em relação aos dados.
Se fosse o caso de existir uma margem de erro, quanto maior o tamanho da amostra, menor seria o erro. Porém não é o caso, ao testarmos valores maiores para min_sample_leaf, não obtemos necessariamente resultados melhores.
De toda forma, o instrutor mostra valores de 1 a 64 somente em tom de exemplo. Ele não escolheu esses valores baseados no parâmetro em específico. Apenas mostrou que é possível explorar os parâmetros em uma faixa de valores, e criou uma matriz 64x64 para demonstrar que o tempo de execução do código ficaria muito demorado.
Estou à disposição caso gere alguma dúvida. Bons estudos!