No meu dia-a-dia, eu realizado testes em formulas de ração animal e comparo a performance de crescimento entre essa formulas. A previsão de resultados para que sucesso alcançado se replique em todo o rebanho sofre algumas criticas:
a) Há potenciais clientes que dizem que a minha amostra é muito pequeno. Um resultado positivo em 300 animais não pode ser garantia de sucesso num rebanho de 30.000
b) Não foram refeitas repetições suficientes que garantam o sucesso disso em condições análogas.
c) O método de amostragem não foi feito de forma adequada.
Uma parte difícil do meu trabalho é exatamente argumentar sobre a metodologia estatística realizada vs a metodologia que o cliente entende como a ideal.
O que é a amostragem "Latin Square" e porque eu deveria escolhe-la para validar um modelo? É possivel utilizar essa modelagem no pandas ou scikit?
Por que, muitas vezes a amostragem que o cliente deseja é a raiz quadrada do universo total que ele tem que estimar. Por exemplo: um tanque com 4000 peixes uma amostra representativa para estimativa de biomassa é bem aceita se calculada a partir de dados descritivos de um grupo de 64 peixes