Início Profile Projeto
Avatar de

Fabiana de Souza

Data Science: análise de séries temporais

  • python

data-science-series-temporais

Badge em Desenvolvimento

Badge code size

🪧 Vitrine.Dev
Nome Data Science: análise de séries temporais
🏷️ Tecnologias python
🚀 URL Notebook no Kaggle
🔥 Desafio Conteúdo do curso Data Science: análise de séries temporais

Sobre o curso 📚

Neste curso, do instrutor Guilherme Lima, foi utilizado sete datasets de diferentes setores, por exemplo uma revendedora de carros, um comércio de chocolate e de uma cafeteria.

image image image

Para analisar suas vendas, diárias ou mensais, o número de assinantes da newsletter, verificar se há tendências e sazonalidade, assim como, gerar e interpretar gráficos com técnicas de decomposição e correlação de séries temporais.

image image image

Visualizar os gráficos separadamente e ter que procurá-los ao longo da página acaba se tornando um ‘atrito’ na hora de analisar os dados, por isso também aprendemos como plotar os gráficos juntos e facilitar a visualização.

grafico triplo

Minha prática 👩🏻‍💻

Para treinar o que aprendi, utilizei datasets disponíveis no Kaggle, um referente às vendas diárias, semanais, mensais e por hora de uma farmácia e mais um com os registros de uma panificadora.

Começando pelos dados de venda mensal de farmácia, há 70 linhas e 9 variáveis no dataset, em que oito delas (M01AB, M01AE, N02BA, N02BE, N05B, N05C, R03, R06) referem-se ao volume vendido de categorias de medicamento.

  • M01AB - Produtos antiinflamatórios e anti reumáticos, não esteróides, derivados do ácido acético e substâncias relacionadas;
  • M01AE - Produtos antiinflamatórios e anti reumáticos, não esteróides, derivados do ácido propiônico;
  • N02BA - Outros analgésicos e antipiréticos, Ácido salicílico e derivados;
  • N02BE/B - Outros analgésicos e antipiréticos, Pirazolonas e Anilidas;
  • N05B - Drogas psicolépticas, Drogas ansiolíticas;
  • N05C - Medicamentos psicolépticos, medicamentos hipnóticos e sedativos;
  • R03 - Medicamentos para doenças obstrutivas das vias aéreas;
  • R06 - Anti-histamínicos de uso sistêmico.

dataframe1

Eles estão no formato decimal, porque, segundo o criador do dataset, no país de origem dos dados, é permitida a venda de comprimidos individuais em embalagem.

Após um rápido tratamento dos dados, conversão de string para date e a tradução de variável, plotei um gráfico para cada medicamento e escolhi trabalhar com o R03, porque ele foi o único que apresentou vendas em crescimento. Até o início de 2019, é possível observar uma inclinação positiva das vendas e depois, até o término do dataset, há um número menor de vendas desses produtos.

graficoR03

Para aprofundar essa análise, usei o método .diff() nas vendas mensais do R03, que calcula a diferença entre os registros do dataframe, retirando a necessidade de fazer um for ou de criar algo ‘na unha’ para executar este cálculo. Fazer esta operação significa decompor os dados, que é uma forma de verificar quanto foi o aumento das vendas do medicamento. Ao plotar o gráfico, observa-se que não houve um aumento constante das vendas, na maior parte dele, os registros oscilam próximos as escalas 100 e -100, porém ao longo do tempo, os picos de vendas ficam próximos a 100 e ultrapassa essa marca mais vezes do que na queda de vendas, até chegar ao final de 2018, em que houve o ápice das vendas e depois a redução desses números.

grafico 2 editado

Fiz o mesmo processo para o medicamento N02BA, porém ao contrário do que aconteceu com o R03, a venda deste produto vai decaindo ao longo da análise.

graficoN02BA

Passando para o medicamento R06, ele apresenta uma sazonalidade, pois suas vendas são baixas no começo e final de ano, mas são altas a partir do mês de maio, aproximadamente.

graficoR06

Ao pesquisar o que são medicamentos Anti-histamínicos de uso sistêmico, eles são indicados para tratamento de: rinite alérgica, asma e urticária (Fonte: UFJF). Porém não consegui identificar o que pode causar as vendas sazonais, já que essas doenças podem ser causadas por inalação de substâncias, pelos de animais, mofo, uso de outros medicamentos, entre outros fatores (rinite alérgica, asma, urticária).


Passando para o dataset da panificadora, que são sobre vendas delivery que a empresa recebeu entre julho de 2019 até junho de 2020. Após tratar os dados, criei um novo dataframe contendo a data, hora, dia da semana e o valor do pedido, porque, primeiramente, queria analisar como estavam as vendas, se estavam crescendo, diminuindo ou se oscilavam em um intervalo. Porém, me deparei com um gráfico cheio de ruídos e com um outlier que bagunçou a escala do gráfico.

grafico panificadora

Para reduzir os ruídos, apliquei a média móvel duas vezes, primeiro para 7 dias, depois para 21 dias e obtive o seguinte gráfico:

grafico com as duas medias moveis

Ambos referem-se às vendas que foram entregues, há uma queda dos pedidos até o começo de outubro, depois eles sobem um pouco e oscilam em uma faixa de preço, até que em fevereiro de 2020 os pedidos voltam a subir até o início do mês seguinte e voltam a cair. Porém no segundo gráfico, com a redução do ruído houve perda de informação, essa troca melhorou a visualização dos pedidos, mas deve ser utilizado com cautela, pois dependendo do negócio ou do valor escolhido para a média móvel, o resultado ficará tão alterado que pode dar margem para interpretação incorreta.

Conclusão 🏁

Eu gostei de aprender este conteúdo, porque a análise dos gráficos nos permite tomar melhores decisões administrativas. Por exemplo os medicamentos R03, as vendas cresceram até 2019, mas começaram a declinar. Neste caso, posso criar hipóteses do tipo:

  • estes produtos estavam na fase de Crescimento, atingiu a Maturidade, até que entrou na última fase do ciclo de vida do produto, o Declínio;
  • ou, em 2019, entrou no mercado um produto concorrente, que causou a queda nas vendas.

Já sobre os medicamentos N02BA, eu levantaria as hipóteses:

  • de que o produto está na fase de Declínio e pode começar a dar prejuízo para o fabricante;
  • a região pode estar passando por um período de crise;
  • ou foi inaugurado um concorrente nas proximidades e que vende seus produtos mais baratos.

Se eu estivesse acompanhando as vendas dos medicamentos desde seu lançamento, seria interessante identificar cada fase e indicar a relação entre as vendas e o lucro. Pois entre as fases Crescimento e Maturidade, é quando o produto gera maior lucro, como apresenta o próximo gráfico, e o valor arrecadado pode ser utilizado para desenvolver novos produtos, ou lançar uma extensão do produto, como acontece na indústria de videogames. Determinado tempo após o lançamento do jogo é lançado um DLC, que faz com que as pessoas continuem jogando e pode incentivar novos clientes a adquirirem o jogo com a extensão.

image

Fonte: Agendor

Sei que na indústria farmacêutica não é bem assim que funcionam suas vendas, que não tem como lançar uma extensão do remédio de gripe, por exemplo. Sei que é mais custoso e burocrático liberar a venda de um novo fármaco, começando pela pesquisa e até chegar nos testes em humanos, demanda muito tempo. No entanto, os dados referem-se às vendas de uma farmácia e não do setor farmacêutico, em escala global. Os três medicamentos analisados (R03, N02BA e R06) apresentaram queda em 2019, o que pode ser um indicativo de que a farmácia não esteja passando por um bom momento, que talvez não seja um problema dos medicamentos, e sim, da empresa.


Muito obrigada por chegar até aqui e até a próxima 🤗

Ferramentas utilizadas 🧰

python pandas seaborn