renda_15k = dados[dados['Renda'] <= 15000]
renda_15k.head()
n = len(renda_15k)
n
import math
k = 1 + (10/3) * math.log10(n)
k
k = int(k)
k
faixas = renda_15k.copy()
faixas['faixa_renda'] = pd.cut(faixas['Renda'], bins=int(k), include_lowest=True)
faixas.head()
tabela_frequencias = faixas.groupby('faixa_renda',observed=False ).size().reset_index(name='frequencia')
tabela_frequencias['porcentagem'] = (tabela_frequencias['frequencia'] / len(faixas)) * 100
tabela_frequencias
plt.figure(figsize=(15, 6))
sns.histplot(bins= k, data=renda_15k, x='Renda')
plt.title('Histograma das rendas das pessoas responsáveis pelo domicílio')
plt.xlabel('Renda (R$)')
plt.ylabel('Frequência')
plt.show()
percentual = (dados['Renda'] <= 788).sum() / len(dados) * 100
percentual
dados['Renda'].quantile(0.95)
dados['Renda'].quantile(0.99)
renda_6k = dados[dados['Renda'] <= 6000]
renda_6k
plt.figure(figsize=(8, 6))
sns.boxplot(x=renda_6k['Renda'], color='steelblue')
plt.title('Boxplot de Renda das pessoas responsáveis pelo domicílio')
plt.xlabel('Renda (R$)')
plt.ylim(-1, 1)
plt.show()
plt.figure(figsize=(15, 6))
sns.histplot(data=dados, x='Idade', bins= 10, cumulative=True, stat='proportion', kde=True )
plt.axhline(0.20, color='red', linestyle='dashed')
plt.show()