Início Profile Projeto
Avatar de

Fabiana de Souza

Estatística com Python parte 1: frequências e medidas

  • python

estatistica-parte-1

Badge em Desenvolvimento

Badge code size

🪧 Vitrine.Dev
Nome Estatística com Python parte 1: frequências e medidas
🏷️ Tecnologias python
🚀 URL Notebook no Kaggle
🔥 Desafio Conteúdo do 3º curso da formação Data Science

Sobre o curso 📚

Este é o terceiro curso da formação Data Science, na @Alura. Sim, você não leu errado. O último projeto era sobre o primeiro e este é sobre o terceiro. Eu decidi pular o segundo curso, porque ele está presente tanto nesta formação, quanto na formação de Python para Data Science, que é um curso que já elaborei um projeto para pôr em prática o que aprendi e não vi vantagem em criar um novo.

Se quiser conferir, este é o projeto que criei sobre o curso Python Pandas.

Voltando a falar sobre este curso, ele é o primeiro dedicado exclusivamente a estatística, com foco em apresentar ao aluno conceitos sobre frequência e medidas, ao fazer uma análise descritiva do dataset da Pesquisa Nacional por Amostra de Domicílio, que são provenientes do IBGE. Eu já havia estudado estatística durante a graduação, mas quis fazer o curso para retomar e reforçar conceitos.

A base de dados utilizada continha informações sobre as seguintes variáveis:

image

Após a apresentação das variáveis e observações sobre o tratamento previamente realizado no dataset, por exemplo a eliminação dos registros que não haviam informação sobre a renda e adição da variável Altura, o instrutor Rodrigo Dias mostrou como são classificados os tipos das variáveis, a fazer o cálculo da distribuição de frequência, identificar as medidas de tendência, o que são as medidas separatrizes e medidas de dispersão.

image

image

Obs.: Não houve uma abordagem mais aprofundada, pois na plataforma há uma formação inteira dedicada à estatística, em que este curso é o primeiro deles.

Minha prática 👩🏻‍💻

Diante os tópicos apresentados no curso, eu decidi trabalhar com um dataset que já utilizei em um projeto anterior, referente aos empreendimentos de geração de energia elétrica presentes no país. Ele foi desenvolvido de forma independente, ou seja, eu não estava seguindo nenhum roteiro de curso, bootcamp ou imersão. Eu fiz o projeto, porque eu queria saber até onde poderia chegar e por em prática o que havia aprendido até então.

Escolhi trabalhar com os dados da Agência Nacional de Energia Elétrica, por causa da minha graduação na área e porque eu queria sanar uma dúvida que eu tinha sobre a geração de energia renovável. Caso tenha curiosidade, este é o link para o meu projeto.

Na época, eu abordei mais a visualização do que a análise descritiva, porque os resultados foram tão discrepantes, que não vi a necessidade de apresentar resultados estatísticos.

image

Ao utilizar este dataset, eu não teria à disposição todos os tipos de dados (qualitativa ordinal e nominal, quantitativa discreta e contínua), mas desenvolver este projeto me possibilitou mostrar as informações de outra forma e dados que não havia explorado anteriormente. Por exemplo, entre os 24.439 registros no dataset, um pouco mais do que 89% deles encontra-se em operação, enquanto as demais usinas estão em fase de construção, ou ainda não saíram do papel.

image

Entre os tipos de combustível utilizados (Biomassa, Eólica, Fóssil, Hídrica, Nuclear e Solar), temos a eólica e solar com os maiores números de usinas tanto em fase de construção, quanto em construção não iniciada. Esta informação me deixou contente, pois mostra que estas fontes estão conseguindo uma maior fatia de participação na Matriz Elétrica brasileira, e que usinas de fontes não renováveis possuem um dos menores números nas duas fases de construção, 26 usinas em fase de construção e 15 usinas que ainda não tiveram sua construção iniciada.

image

Durante o curso, através da renda dos entrevistados, foi possível determinar a classe social que eles se enquadram e plotar um gráfico de distribuição. No caso deste projeto, eu poderia fazer algo similar ao dividir as usinas hidrelétricas pela potência. Essa divisão já é padronizada pela ANEEL, em que hidrelétricas de até 1 MW de potência instalada são classificadas como Centrais Geradoras Hidrelétricas, as que tiverem entre 1,1 MW a 30 MW de potência instalada são denominadas Pequenas Centrais Hidrelétricas e as que tiverem potência superior são Usina Hidrelétrica de Energia.

Fonte: Catálogo de Metadados da ANA

Detalhe:

Potência instalada não é a mesma coisa do que potência outorgada, ou fiscalizada. Mas eu utilizei a classificação ANEEL, porque queria pôr em prática o que aprendi. Caso tenha curiosidade em entender a diferença entre as potências, essa página do energês trás uma explicação, que até para quem não é da área consegue entender.

Essa divisão já estava presente no dataset, na variável SigTipoGeracao, mas eu queria averiguar se as duas classificações seriam compatíveis. Ao fazer a classificação, respeitando as potências que encontrei no site do governo, gerei a seguinte tabela:

image

Ao conferir com a classificação presente no dateset, encontrei as seguintes informações:

image

Eu já esperava que os valores fossem diferentes. Acredito que isso tenha acontecido, porque os mínimos e máximos presentes no dataset, para cada tipo de hidrelétrica, não estão compatíveis com a classificação da ANEEL.

image image

Para finalizar, verifiquei as medidas de dispersão das usinas eólicas. Escolhi esta fonte, porque ela apresentou um box-plot com menos outliers (com exceção das usinas hídricas e nuclear).

Criei um dataset composto por estas usinas, classificadas como em Operação e adicionei a média da Potência Outorgada, o desvio e desvio médio absoluto para calcular a variância e o desvio padrão. Conclui com o uso dos métodos de cada medida de dispersão, fiz a variância de cada tipo de usina e plotei seus box-plot, mostrando que posso trazer a mesma informação de formas diferentes.

image image

Conclusão 🏁

Fazer a exploração descritiva, me proporcionou identificar algumas inconsistências que não tinha reparado, por exemplo:

  • no projeto anterior, trabalhei apenas com as usinas classificadas em fase de Operação. Neste projeto, inicialmente, eu não fiz esta delimitação e vi que algumas usinas classificadas como Construção não iniciada tinham datas inusitadas na variável DatEntradaOperacao.

image

Obs.:

Eu não quis ir ‘muito além’ do que foi passado no curso, porque ainda há mais conteúdo de estatística que quero elaborar um projeto.


Muito obrigada por chegar até aqui e até a próxima 🤗

Ferramentas utilizadas 🧰

python pandas numpy seaborn