Fiz um resumo prático sobre as aulas de variáveis quantitativas. Para a construção de tabelas de distribuição de frequências, especialmente para variáveis quantitativas, utilizando dois métodos: classes predefinidas e a Regra de Sturges para variáveis sem categorias prévias.
1. Classes Predefinidas
Neste método, as classes já são organizadas em categorias conhecidas (como A, B, C). Utiliza-se a função pd.value_counts()
para contar os valores de uma variável específica e criar a tabela de frequências com essas classes.
2. Regra de Sturges
A Regra de Sturges é aplicada quando as classes não são definidas. Ela calcula o número ideal de classes ( k ) com base no número de observações ( n ), por meio da fórmula:
[ k = 1 + \left( \frac{10}{3} \times \log_{10}(n) \right) ]
Depois de calcular ( k ), as observações são divididas em classes de amplitude fixa usando a função pd.cut()
com o número de classes ( k ).
Exemplo Prático
Imagine que você tem um conjunto de dados com valores de idades de 1.000 pessoas. Primeiro, aplicamos a Regra de Sturges para determinar o número ideal de classes:
n = 1000
k = 1 + (10 / 3) * np.log10(n)
k = int(k.round(0)) # Arredondamos para 11 classes
Depois, utilizamos pd.cut()
para dividir as idades em 11 classes e criar a tabela de distribuição de frequências.