Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Projeto pessoal

Bom dia. Estou tentando fazer uma análise estatística em um dataframe que montei com dados de saída de ferramentas em uma ferramentaria de manutenção. Meu espaço amostral ainda é bem pequeno, e minha contagem é feita por quantidade de ferramentas que saem por dia.

modelo = smf.ols(data=concatenacao, formula='cont_ferr ~ cont_oficinas + usuarios + cont_oficinas:usuarios')

Quero associar o total de ferramentas que saem com a quantidade de oficinas operando no dia, e a quantidade de usuários, para no futuro fazer previsões de necessidade, pois o fluxo do número de pessoas é muito dinâmico e preciso desse ajuste. A minha dúvida é como faço para normalizar um experimento, que aparentemente é aleatório. Mais especificamente, como adapto um planejamento fatorial nesse experimento? Ou qual outra forma posso utilizar para colher um espaço amostral bom? Posso simplesmente fazer um cálculo de tamanho de amostra, usar o random.seed e um sample para sair coletando? Após isso faço o ztest e testo mais de uma amostra...

3 respostas

Boas Danival! Tudo bem?

Algumas considerações sobre esse caso:

Se o número de amostras é muito pequeno, a ponto de não conseguir identificar uma relação entre os parâmetros, provavelmente será necessário coletar um número maior de amostras.

Quando temos um experimento como este, entende-se que deve haver alguma relação entre as variáveis explicativas e as que se deseja prever para conseguir realizar uma regressão linear.

Indicações de correlação entre os dados podem ser identificadas a partir da função pd.corr()

. São consideradas correlações fortes aquelas que se aproximam de 1 ou -1.

Veja o exemplo de um dataset com correlação entre os a condição climática e de fim de semana com o consumo de cerveja:

temp_media    0.5746
temp_min      0.3925
temp_max      0.6427
chuva        -0.1938
fds           0.5060
consumo       1.0000

Pode-se ver que há uma relação forte positiva com a temperatura máxima e o fato de ser fim de semana, além de uma correlação negativa mais fraca com a quantidade de chuva.

CorrelaçãoInterpretação
1correlação perfeita positiva
0,7 a 0,9correlação forte
0,4 a 0,7correlação moderada
0,2 a 0,4correlação fraca
0correlação nula
< 0correlação negativa
-1correlação perfeita negativa

Nessa tabela, podemos ver os valores que são considerados fracos ou fortes para uma correlação

O mesmo pode ser visualizado de forma gráfica usando um pd.pairplot(), que pode ainda prever uma reta simples de regressão linear, passando o parâmetro kind='reg'. Veja a figura abaixo:

Pairplot do consumo com as variáveis temperatura mínima, temperatura máxima, chuva, e fim de semana. Pode perceber uma relação forte do consumo com o fim de semana que assume os valores 0 e 1, uma correlação forte com a temperatura máxima (positiva) e uma correlação fraca negativa com a quantidade de chuva

Nessa figura, conseguimos ver visualmente uma correlação entre as duas variáveis, e também uma curva de regressão que acompanha essa relação, ambos necessários para usar um modelo de regressão linear.

Além disso, se o experimento for aleatório de fato, mesmo normalizando os dados, não será possível treinar um modelo de regressão linear. Nesse caso, há outras possibilidades de outros modelos preditivos que envolvem técnicas mais avançadas

poderia me dizer qual modelo mais avançado existe? de fato as variáveis tem correlação, pois o numero de ferramentas q saem, depende da quantidade de pessoas q usa e a quantidade de oficinas em operação, so nao consegui demonstrar isso, mas vou coletar mais dados, e refinar melhor a serie temporal

solução!

Sobre modelos preditivos mais complexos, a dependeer do modelo, pode-se usar regressões não lineares, rergressões logísticas ou mesmo árvores de decisão.

Nesse caso, como parece um caso mais simples, creio que a regressão logística deve bastar. Mas a falta de um número grande de dados para realizar treino e teste torna difícil saber como ajustar o modelo.

Com mais dados, seria possível investigar melhor as distribuições das variáveis explicativas, tendo uma ideia melhor de qual ajuste ou normalização é necessária.

Vou deixar alguns links que me ajudaram para responder essa pergunta.

Deixo claro que todos os modelos citados necessitam de bases de treino e teste, voltando ao problema de poucos dados para treinar o modelo.

Ainda, pode não ser necessário um modelo de regressão linear para o seu problema. Se a quandidade de ferramentas que saem dependem da quantidade de pessoas e a quantidade de oficinas em operação, isso provavelmente pode ser resumido por uma equação simples. Vale a investigação.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!