Fabiana de Souza

Data Visualization

python

data-visualization

Badge code size

🪧 Vitrine.Dev
✨ Nome	Data Visualization
🏷️ Tecnologias	python
🚀 URL	Notebook no Kaggle
🔥 Desafio	Conteúdo do curso Data Visualization

Sobre o curso 📚

Neste curso sobre visualização de dados, do instrutor Guilherme Lima, usamos um dataset sobre gorjetas de um restaurante, em que há registrado o valor consumido, valor da gorjeta, se houve pedido de sobremesa, dia da semana, qual era a refeição (almoço ou jantar) e o total de pessoas à mesa.

Eu aprendi como renomear os dados, seja para fazer sua tradução ou para atribuir um nome mais adequado à variável/dado, utilizando o .rename() e .map(). Também vi como fazer a visualização dos dados através da biblioteca Seaborn, por exemplo, se o valor da gorjeta é proporcional ao valor total da conta, se o pedido de sobremesa houve influência no valor da gorjeta, assim como, no dia da semana e horário da refeição. Para fazer as análises, foram usados a visualização gráfica e um teste de hipótese nula (H_0) e valor-p.

Minha prática 👩🏻‍💻

Usei um dataset sobre filmes e séries da Netflix, disponível no Kaggle, para pôr em prática o conteúdo deste curso. No total, há seis arquivos csv, porém só utilizei um, referente aos melhores filmes.

Depois, fiz a tradução das variáveis, através do .rename(), e traduzi os gêneros dos filmes e séries, com o .map().

Com os dataframes traduzidos, iniciei a parte analítica. A primeira análise foi: se há relação entre as notas dos filmes com sua duração.

Ao plotar um gráfico entre a Duração com as Notas, obtive o seguinte resultado.

Os pontos ficaram dispersos e não apresentaram uma tendência de comportamento, portanto, utilizei o .lmplot() para ver se há uma relação entre a duração dos filmes com suas notas:

A inclinação da reta indica que quanto maior for a duração do filme, as notas tendem a aumentar também.

A segunda análise que fiz, foi: se há relação na distribuição das notas com o gênero dos filmes.

Utilizei os gêneros Comédia e Suspense, pois eles apresentaram uma amostra semelhante, 58 e 59 respectivamente. O gráfico .lmplot() entre a Nota X Duração apresentou um comportamento diferente entre os gêneros.

Para fazer a análise estatística, usei a biblioteca Scipy, que contém subpacotes de álgebra linear, cluster, processamento de sinal, entre outros, além de estatística. Determinei o teste de hipótese da seguinte forma:

Hipótese nula (H_0): a distribuição da nota é a mesma nos dois grupos;
Hipótese alternativa (H_alt): a distribuição da nota não é a mesma.

O teste de hipótese foi feito com a função Ranksums, que calcula o teste Wilcoxon rank-sum para duas amostras e apresenta o valor-p. Nesta análise, o valor-p foi superior a 0,5%, isso significa que apesar do gráfico mostrar comportamentos diferentes, matematicamente, a diferença entre os gêneros é insignificante e que o comportamento da população será semelhante ao da amostra analisada. Neste caso, descarta-se a hipótese alternativa e aceitamos a hipótese nula.

Lembrando que o foco, tanto do curso, quanto deste repositório, é a visualização dos dados e não a estatística.

E por último, fiz um terceiro teste: a distribuição de nota é a mesma para produções de países diferentes?

O top 5 de países produtores foi: os Estados Unidos com 157 filmes, Índia com 115, Grã-Bretanha com 29, Alemanha e Japão 9 filmes cada.

Separei todos os filmes produzidos nos Estados Unidos em uma variável (157 filmes) e uni os filmes da Índia, Grã-Bretanha e Alemanha para compor a amostra de filmes estrangeiros (153 filmes).

EUA estrangeiros

Nesta análise, o p-valor foi menor do que 0,05 e neste caso, rejeita-se a Hipótese Nula.

Muito obrigada por chegar até aqui e até a próxima 🤗

Ferramentas utilizadas 🧰

Veja meu projeto em: https://github.com/fab-souza/data-visualization