Modelagem estatística na prática | Regressão linear: testando relações e prevendo resultados

No meu dia-a-dia, eu realizado testes em formulas de ração animal e comparo a performance de crescimento entre essa formulas. A previsão de resultados para que sucesso alcançado se replique em todo o rebanho sofre algumas criticas:

a) Há potenciais clientes que dizem que a minha amostra é muito pequeno. Um resultado positivo em 300 animais não pode ser garantia de sucesso num rebanho de 30.000

b) Não foram refeitas repetições suficientes que garantam o sucesso disso em condições análogas.

c) O método de amostragem não foi feito de forma adequada.

Uma parte difícil do meu trabalho é exatamente argumentar sobre a metodologia estatística realizada vs a metodologia que o cliente entende como a ideal.

O que é a amostragem "Latin Square" e porque eu deveria escolhe-la para validar um modelo? É possivel utilizar essa modelagem no pandas ou scikit?

Por que, muitas vezes a amostragem que o cliente deseja é a raiz quadrada do universo total que ele tem que estimar. Por exemplo: um tanque com 4000 peixes uma amostra representativa para estimativa de biomassa é bem aceita se calculada a partir de dados descritivos de um grupo de 64 peixes

Olá Luiz, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

O Latin Square é utilizado quando deseja fazer experimentos no qual cada um dos participantes serão expostos a todas as condições diferentes. Nesse caso, poderia haver um problema devido a ordem em que foram feitas as medições ou dos efeitos carregados de exposições anteriores. A ordem pode influenciar nas medições e trazer conclusões precipitadas. O Latin Square tenta contornar isso mudando a ordem das condições para todos os participantes, armazenando a informação a cada passo e analisando os resultados.

No seu caso de exemplo, cada um dos animais seria um participante e cada fórmula de ração animal seria uma condição. Ao utilizar o Latin Square, você embaralharia as condições para cada um dos participantes de forma a obter uma matriz da seguinte forma:

	Animal 1	Animal 2	Animal 3	Animal 4	Animal 5	Animal 6
Medição 1	Ração 1	Ração 2	Ração 3	Ração 2	Ração 3	Ração 1
Medição 2	Ração 2	Ração 3	Ração 1	Ração 3	Ração 1	Ração 2
Medição 3	Ração 3	Ração 1	Ração 2	Ração 1	Ração 2	Ração 3

Você pode obter mais informações sobre o Latin Square no artigo Avaliação de sistemas de medição utilizando quadrados latinos

Não há uma biblioteca no Python para realizar a amostragem Latin Square de forma direta, mas você pode encontrar uma implementação manual e explicações extras no artigo Balanced Latin Squares in Python, conteúdo este que se encontra em inglês.

Quanto a tamanho da amostra, há diferentes fórmulas para o cálculo do tamanho amostral para testes estatísticos específicos e há softwares que calculam de forma automática, como o BioEstat, caso tenha interesse.

De toda forma, você precisa avaliar se o Latin Square é o mais adequado para o seu problema com base nas informações que você possui, assim como a escolha do tamanho da amostra.

Espero que tenha tirado suas dúvidas.

Estou à disposição. Bons estudos!