Data Visualization
data-visualization
🪧 Vitrine.Dev | |
---|---|
✨ Nome | Data Visualization |
🏷️ Tecnologias | python |
🚀 URL | Notebook no Kaggle |
🔥 Desafio | Conteúdo do curso Data Visualization |
Sobre o curso 📚
Neste curso sobre visualização de dados, do instrutor Guilherme Lima, usamos um dataset sobre gorjetas de um restaurante, em que há registrado o valor consumido, valor da gorjeta, se houve pedido de sobremesa, dia da semana, qual era a refeição (almoço ou jantar) e o total de pessoas à mesa.
Eu aprendi como renomear os dados, seja para fazer sua tradução ou para atribuir um nome mais adequado à variável/dado, utilizando o .rename() e .map(). Também vi como fazer a visualização dos dados através da biblioteca Seaborn, por exemplo, se o valor da gorjeta é proporcional ao valor total da conta, se o pedido de sobremesa houve influência no valor da gorjeta, assim como, no dia da semana e horário da refeição. Para fazer as análises, foram usados a visualização gráfica e um teste de hipótese nula (H_0) e valor-p.
Minha prática 👩🏻💻
Usei um dataset sobre filmes e séries da Netflix, disponível no Kaggle, para pôr em prática o conteúdo deste curso. No total, há seis arquivos csv, porém só utilizei um, referente aos melhores filmes.
Depois, fiz a tradução das variáveis, através do .rename(), e traduzi os gêneros dos filmes e séries, com o .map().
Com os dataframes traduzidos, iniciei a parte analítica. A primeira análise foi: se há relação entre as notas dos filmes com sua duração.
Ao plotar um gráfico entre a Duração com as Notas, obtive o seguinte resultado.
Os pontos ficaram dispersos e não apresentaram uma tendência de comportamento, portanto, utilizei o .lmplot() para ver se há uma relação entre a duração dos filmes com suas notas:
A inclinação da reta indica que quanto maior for a duração do filme, as notas tendem a aumentar também.
A segunda análise que fiz, foi: se há relação na distribuição das notas com o gênero dos filmes.
Utilizei os gêneros Comédia e Suspense, pois eles apresentaram uma amostra semelhante, 58 e 59 respectivamente. O gráfico .lmplot() entre a Nota X Duração apresentou um comportamento diferente entre os gêneros.
Para fazer a análise estatística, usei a biblioteca Scipy, que contém subpacotes de álgebra linear, cluster, processamento de sinal, entre outros, além de estatística. Determinei o teste de hipótese da seguinte forma:
- Hipótese nula (H_0): a distribuição da nota é a mesma nos dois grupos;
- Hipótese alternativa (H_alt): a distribuição da nota não é a mesma.
O teste de hipótese foi feito com a função Ranksums, que calcula o teste Wilcoxon rank-sum para duas amostras e apresenta o valor-p. Nesta análise, o valor-p foi superior a 0,5%, isso significa que apesar do gráfico mostrar comportamentos diferentes, matematicamente, a diferença entre os gêneros é insignificante e que o comportamento da população será semelhante ao da amostra analisada. Neste caso, descarta-se a hipótese alternativa e aceitamos a hipótese nula.
Lembrando que o foco, tanto do curso, quanto deste repositório, é a visualização dos dados e não a estatística.
E por último, fiz um terceiro teste: a distribuição de nota é a mesma para produções de países diferentes?
O top 5 de países produtores foi: os Estados Unidos com 157 filmes, Índia com 115, Grã-Bretanha com 29, Alemanha e Japão 9 filmes cada.
Separei todos os filmes produzidos nos Estados Unidos em uma variável (157 filmes) e uni os filmes da Índia, Grã-Bretanha e Alemanha para compor a amostra de filmes estrangeiros (153 filmes).
Nesta análise, o p-valor foi menor do que 0,05 e neste caso, rejeita-se a Hipótese Nula.
Muito obrigada por chegar até aqui e até a próxima 🤗