SQL e Banco de Dados, Data Science
Aperfeiçoamentos para melhores entregas.
A partir de um conjunto de dados - o dataset -, como a geolocalização do comércio de um bairro, quantidade de clientes em diferentes dias de semana e horários, entre outras informações, podemos desenvolver uma analise exploratória inicial que verificará em quais dias os restaurantes têm mais ou menos movimento e em quais horários. Isso abre portas para novas perguntas, como o que podemos fazer para tirar proveito dessas informações. Será que vale a pena dar desconto nos dias em que temos menos movimento? O que podemos fazer para atrair mais clientes nos dias mais cheios da semana?
Essa curiosidade é parte fundamental de quem trabalha com dados. Claro, também é necessário possuir muita técnica para saber responder os questionamentos levantados pelos dados com o menor erro possível. Isso significa que é fundamental estudar técnicas de estatística e encontrar ferramentas para facilitar o trabalho com esses dados, como a biblioteca Pandas por exemplo.
O fluxo de dados dentro dessas análise é dividido em 4 partes:
Coleta de dados: Aqui vamos organizar nossos sistema para buscar os dados que consideramos relevantes para a próxima fase. Podemos usar algumas técnicas como scraping ou pegar um dataset pronto para trabalharmos. Preparação dos dados: Tendo os dados do sistema, podemos criar um Dataframe do Pandas e começar a manipular esses dados para extrair informações. Nesse momento estamos preparando os dados para a fase de análise, e é nesse ponto em que muitas funções do numpy podem ser utilizadas para facilitar esse trabalho. Análise: Agora que temos tudo pronto, estamos aptos a fazer uma análise exploratória dos dados e realmente buscar relações que possam nos interessar, a partir das quais levantaremos hipóteses para o negócio. Entrega: No final de todo esse processo, precisamos entregar algo para a área de negócio ou mesmo salvar as manipulações de dados para conseguirmos retomar o trabalho em um outro momento. Para a área de negócios, podemos entregar relatórios ou dashboards que contenham um resumo das informações que coletamos e as conclusões que chegamos durante esse processo. Para isso, dispomos de ferramentas de visualização como o Seaborn. Tipos de dados Vendo esse fluxo pode parecer que existe pouca variação dentro do trabalho de um cientista de dados, mas para cada tipo de dado e de problema dispomos de diferentes técnicas e maneiras de trabalhar. Séries temporais, por exemplo, possuem características muito diferentes de dados de geolocalização. Justamente por isso, é fundamental saber como trabalhar com cada tipo de dados!