import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# Carregar os dados
df = pd.read_csv('/mnt/data/Preços_de_casas.csv').drop(columns='Id', errors='ignore')
# Criar histograma com curva de densidade
sns.displot(df['preco_de_venda'], kde=True, color='green')
plt.title('Distribuição do Preço de Venda')
plt.xlabel('Preço de Venda (R$)')
plt.ylabel('Frequência')
plt.tight_layout()
plt.show()
Histograma com a curva de densidade (KDE) para a variável preco_de_venda:
O que esse gráfico mostra:
A distribuição dos preços é assimétrica à direita (cauda longa).
A maior parte das casas está concentrada abaixo de R$ 1.200.000, com uma quantidade menor de imóveis mais caros puxando a média para cima.
A curva verde (KDE) ajuda a visualizar a forma geral da distribuição de maneira mais suave que o histograma sozinho.
Esse tipo de visualização é ideal para:
Identificar outliers e distribuições não normais,
Decidir se transformações (ex.: log) são necessárias antes de aplicar modelos estatísticos.