O dataset é incrível.... mas, | Estatística com Python: resumindo e analisando dados

2
respostas

por MURILO MIKE

| 109.4k xp | 9 posts

Eu gostaria de ressaltar que como faço parte do curso da Oracle, e considerando que a Alura tem outros cursos no acesso Plus, achei que a profundidade do conteúdo poderia ter sido melhor abordada, não acho que o apresentado no curso seja de fato o que muitos DS fazem em empresas e no mercado, é muito errado ensinar um curso com cola, ainda mais com conceitos tão delicados como os apresentados em estatística.

A instrutora é boa, mas tive que fazer um esforço tremendo pra chegar até o final e acredito que muitos alunos do Next Education desistiram pelo fato do nível dos cursos (não só desse tá, da formação de ETL que nem chegou a ser de ETL mesmo) é superficial e raso, não aborda a essência do DS de verdade.

Pra mim ta parecendo roteiro de IA, com o dataset já analisado e passado pra instrutora gravar o conteúdo. Aprendi bem mais com o copilot do meu lado, do que vendo a instrutora ensinar.

Caprichem Alura, vocês são uma das maiores escolas do país, eu sei que vcs podem entregar algo melhor. Não é uma crítica a instrutora, muito pelo contrário, ela ensina bem, mas falta trabalhar a dicção, aprofundamento, abragência, terminei o curso e nem sei pq ela usou distribuição de frequencia no dataset, foi pra q mesmo?

Já trabalhei como professor de informática e dei aulas por muitos anos, tecnologia se ensina com conceito e fundamento, a prática aplicada ao conceito e o resultado baseado no conceito. Amo DS, mas esse curso não deu pra engolir.

Obrigado pela atenção.

2 respostas

por NATHALIA QUEIROZ

| 3746.5k xp | 8563 posts

Alura Scuba Team

23/06/2025

Ei, Murilo! Como vai?

Agradecemos o seu retorno detalhado e sincero sobre o curso. Entendemos a importância de suas observações e elas serão analisadas para melhorarmos a qualidade e experiência de aprendizado. Enquanto isso, permita-me aprofundar mais sobre a distribuição de frequências que você citou.

Em Estatística a distribuição de frequência é uma das primeiras formas de explorar um conjunto de dados, pois permite entender a distribuição de ocorrências de valores ou intervalos de valores. Isso ajuda a identificar padrões, assimetrias, outliers e até mesmo tendências. Por exemplo, imagine um dataset de notas de alunos em um curso, com 200 estudantes. Listar nota por nota não é prático, então usamos uma tabela de frequência para agrupar notas em intervalos (por exemplo: 0-2, 2-4, 4-6, 6-8, 8-10). Assim, vemos rapidamente onde se concentra a maioria dos estudantes — se é perto da média, se há muitos com notas muito baixas ou muito altas, etc. No dia a dia de um analista de dados, esse tipo de análise pode indicar várias ações, como necessidade de construção de histogramas, necessidade de normalização dos dados, necessidade de verificar vieses, dentre outros.

Mas não temos apenas um tipo de distribuição de frequência. Na prática, usamos algumas variações, cada uma com um propósito específico:

Frequência absoluta: É o número bruto de vezes que um valor (ou intervalo de valores) ocorre no conjunto de dados. Exemplo: Se em um grupo de 50 pessoas, 12 têm entre 20 e 30 anos, a frequência absoluta dessa faixa etária é 12.
Frequência relativa: É a frequência absoluta dividida pelo total de observações, ou seja, mostra a proporção ou percentual de ocorrência. Exemplo: Se 12 de 50 pessoas estão na faixa de 20 a 30 anos, a frequência relativa é 12/50 = 0,24 (ou 24%). Essa métrica permite comparar grupos de tamanhos diferentes.
Frequência acumulada: É a soma progressiva das frequências absolutas até determinada classe. Essa frequência responde à pergunta: “Quantos valores estão abaixo de certo limite?”. Exemplo: Se as faixas forem 0–10 anos (5 pessoas), 10–20 anos (10 pessoas), 20–30 anos (12 pessoas), a frequência acumulada até 30 anos é 5 + 10 + 12 = 27.
Frequência relativa acumulada: É a frequência acumulada dividida pelo total, mostrando a proporção acumulada. Útil para entender a distribuição percentualmente. No exemplo acima, se até 30 anos = 27/50 = 0,54 (ou 54%).

Em relação a gráficos para mostrar as frequências, é normalmente usado o histograma e o gráfico de barras, pois somente tabelas podem dificultar uma leitura rápida e identificar simetrias ou outliers.

O gráfico mostra a distribuição da frequência de compras de quatro tipos de refrigerantes: Coca-Cola (8 compras), Coca-Cola Zero (4 compras), Pepsi-Cola (7 compras) e Sprite (5 compras).

Agora que falamos um pouco mais da base, vamos entender o porquê foi utilizado na aula 02 uma distribuição de frequência no dataset. No estudo de caso apresentado, a empresa precisava monitorar as avaliações dos clientes, ou seja, transformar feedbacks subjetivos em informação quantitativa, que servisse de insumo para priorizar melhorias, identificar gargalos ou fortalecer pontos fortes. Basicamente, o objetivo era responder à pergunta: “Como está distribuída a satisfação dos nossos clientes?”

E nesse cenário, a distribuição de frequência tem o objetivo de organizar e quantificar como cada categoria de avaliação (péssimo, ruim, regular, bom, ótimo) aparece nos dados reais de vendas, o que permite ver de forma imediata qual é a percepção geral do público (mais positiva, mais negativa ou polarizada). Fora isso, gera insumos para ações, como o caso de produtos que concentram avaliações negativas, podem ser priorizados para revisão, manutenção ou suporte, podem ser feitas campanhas de marketing, dentre outros. Claro que em um cenário do dia a dia, não usamos somente a distribuição de frequência para tomar essa decisão, pois essa análise costuma ser combinada com outras técnicas como métricas de tendência central, medidas de dispersão, testes estatísticos (ex.: teste z, teste t), análise de correlação ou até modelagem preditiva. Mas a distribuição de frequência é um ponto de partida obrigatório para garantir que a pessoa analista de dados compreende a estrutura básica da variável de interesse.

Continua na resposta abaixo...

por NATHALIA QUEIROZ

| 3746.5k xp | 8563 posts

Alura Scuba Team

23/06/2025

Continuando

Quanto a código em si, para retirar a distribuição de frequência absoluta no Pandas, usamos o df['coluna'].value_counts() ou df.groupby('coluna').size(), já a relativa por meio de df['coluna'].value_counts(normalize=True) ou df.groupby('coluna').size() / len(df) enquanto a acumula usamos o df['coluna'].value_counts().sort_index().cumsum() e a relativa acumulada por meio de df['coluna'].value_counts(normalize=True).sort_index().cumsum().

Mas não se preocupe em memorizar tudo agora, com a prática, esses métodos se tornam naturais. O mais importante é entender o conceito e o propósito de cada tipo de frequência para poder aplicar com segurança.

Deixo como leitura complementar, algumas recomendações:

Estes conteúdos podem abrir em inglês e se preferir ler em português, recomendo que utilize o tradutor automático do navegador.

Espero ter ajudado e até mais!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!