Olá, William! Tudo bem?
Sua sugestão é extremamente valiosa para quem trabalha com modelos de Regressão Linear. A verificação da normalidade não é apenas um "capricho" estatístico, mas um pressuposto fundamental para que os testes de hipóteses sobre os coeficientes do modelo sejam válidos.
Analisando o código e o resultado que você compartilhou na imagem:
O Teste de Shapiro-Wilk é uma das ferramentas mais robustas para verificar a normalidade em amostras pequenas e médias. No seu resultado, temos informações cruciais:
Como os dados da coluna precos não seguem uma distribuição normal, você pode enfrentar alguns desafios na modelagem direta:
Seu código está muito bem estruturado e legível. Uma pequena melhoria para visualização em projetos de Data Science seria plotar um Histograma ou um Q-Q Plot logo após o teste:
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats
# Visualizando a distribuição
sns.histplot(dados['precos'], kde=True)
plt.title('Distribuição de Preços')
plt.show()
# Q-Q Plot para verificar desvios da normalidade
stats.probplot(dados['precos'], dist="norm", plot=plt)
plt.show()
Obrigado por compartilhar essa boa prática com a comunidade! Testar as premissas antes de rodar o modelo evita previsões tendenciosas e garante a robustez da análise.
Uma pergunta para quem está acompanhando: Além do Shapiro-Wilk, alguém aqui costuma usar o teste de D'Agostino-Pearson para amostras maiores?