Ei, Murilo! Como vai?
Agradecemos o seu retorno detalhado e sincero sobre o curso. Entendemos a importância de suas observações e elas serão analisadas para melhorarmos a qualidade e experiência de aprendizado. Enquanto isso, permita-me aprofundar mais sobre a distribuição de frequências que você citou.
Em Estatística a distribuição de frequência é uma das primeiras formas de explorar um conjunto de dados, pois permite entender a distribuição de ocorrências de valores ou intervalos de valores. Isso ajuda a identificar padrões, assimetrias, outliers e até mesmo tendências. Por exemplo, imagine um dataset de notas de alunos em um curso, com 200 estudantes. Listar nota por nota não é prático, então usamos uma tabela de frequência para agrupar notas em intervalos (por exemplo: 0-2, 2-4, 4-6, 6-8, 8-10). Assim, vemos rapidamente onde se concentra a maioria dos estudantes — se é perto da média, se há muitos com notas muito baixas ou muito altas, etc. No dia a dia de um analista de dados, esse tipo de análise pode indicar várias ações, como necessidade de construção de histogramas, necessidade de normalização dos dados, necessidade de verificar vieses, dentre outros.
Mas não temos apenas um tipo de distribuição de frequência. Na prática, usamos algumas variações, cada uma com um propósito específico:
Frequência absoluta: É o número bruto de vezes que um valor (ou intervalo de valores) ocorre no conjunto de dados. Exemplo: Se em um grupo de 50 pessoas, 12 têm entre 20 e 30 anos, a frequência absoluta dessa faixa etária é 12.
Frequência relativa: É a frequência absoluta dividida pelo total de observações, ou seja, mostra a proporção ou percentual de ocorrência. Exemplo: Se 12 de 50 pessoas estão na faixa de 20 a 30 anos, a frequência relativa é 12/50 = 0,24 (ou 24%). Essa métrica permite comparar grupos de tamanhos diferentes.
Frequência acumulada: É a soma progressiva das frequências absolutas até determinada classe. Essa frequência responde à pergunta: “Quantos valores estão abaixo de certo limite?”. Exemplo: Se as faixas forem 0–10 anos (5 pessoas), 10–20 anos (10 pessoas), 20–30 anos (12 pessoas), a frequência acumulada até 30 anos é 5 + 10 + 12 = 27.
Frequência relativa acumulada: É a frequência acumulada dividida pelo total, mostrando a proporção acumulada. Útil para entender a distribuição percentualmente. No exemplo acima, se até 30 anos = 27/50 = 0,54 (ou 54%).
Em relação a gráficos para mostrar as frequências, é normalmente usado o histograma e o gráfico de barras, pois somente tabelas podem dificultar uma leitura rápida e identificar simetrias ou outliers.

Agora que falamos um pouco mais da base, vamos entender o porquê foi utilizado na aula 02 uma distribuição de frequência no dataset. No estudo de caso apresentado, a empresa precisava monitorar as avaliações dos clientes, ou seja, transformar feedbacks subjetivos em informação quantitativa, que servisse de insumo para priorizar melhorias, identificar gargalos ou fortalecer pontos fortes. Basicamente, o objetivo era responder à pergunta: “Como está distribuída a satisfação dos nossos clientes?”
E nesse cenário, a distribuição de frequência tem o objetivo de organizar e quantificar como cada categoria de avaliação (péssimo, ruim, regular, bom, ótimo) aparece nos dados reais de vendas, o que permite ver de forma imediata qual é a percepção geral do público (mais positiva, mais negativa ou polarizada). Fora isso, gera insumos para ações, como o caso de produtos que concentram avaliações negativas, podem ser priorizados para revisão, manutenção ou suporte, podem ser feitas campanhas de marketing, dentre outros. Claro que em um cenário do dia a dia, não usamos somente a distribuição de frequência para tomar essa decisão, pois essa análise costuma ser combinada com outras técnicas como métricas de tendência central, medidas de dispersão, testes estatísticos (ex.: teste z, teste t), análise de correlação ou até modelagem preditiva. Mas a distribuição de frequência é um ponto de partida obrigatório para garantir que a pessoa analista de dados compreende a estrutura básica da variável de interesse.
Continua na resposta abaixo...