Imersão Dados 04
Bem vinda(o) ao Imersão Dados 04 - Alura😊
Imersão Dados 04
Como realizar predição de preços de imóveis utilizados vários bancos de dados
🪧 Vitrine.Dev | Minha Vitrine |
---|---|
✨ Nome | Imersão Dados 04 |
🏷️ Tecnologias | Python, Jupyter Notebook, Geopandas |
🚀 URL | https://github.com/KaueAbbe/ImersaoDados |
🔥 Desafio | https://www.alura.com.br/imersao-dados-4 |
Detalhes do projeto
Objetivo da imersão: Predição de Preços de Imóveis em São Paulo🤔
A Imersão Dados 04 da Alura é um evento de desafio em que os participantes passam uma semana vendo aulas e desenvolvendo um projeto. Os desafiantes dão a aula e passam desafios para os participantes mergulharem no mundo da ciência de dados.
Baseado nos dados de preços de imóveis em São Paulo o objetivo é predizer os valores dos imóveis em São Paulo. Para isto quero analisar o dataset e cruzar meu dataset com dados do IBGE para conseguir incrementar o dataset e conseguir fazer uma predição melhor.
O objetivo do modelo é conseguir prever qual seria os valores de um imóvel com determinadas características, como quantidade de banheiro, vaga, localização, tamanho. O cruzamento com dados do IBGE vai fornecer valores de rendas e afins relacionados a localização dos imóveis.
Quais bibliotecas encontrarei nos notebooks?
1. Para ler dados: Pandas 🐼| 2. Para ler dados de Geoprocessamento: GeoPandas | 3. Para matemática: Numpy e StatsModels | 4. Para visualização de dados: Seaborn |Detalhes do Notebook:
- Leitura e tratamento de Dados
- Visualização de Dados
- Realização de Desafios dos Instrutores
- Cruzamento com dados do IBGE
- Tratamento geográfico do Dataset
- Criação de Modelo Preditivo
Desenvolvido
Foi lido o dataset do Kaggle de imóveis de São Paulo e realizou tratamento para alterar tipo de valores que estavam com tipo palavra e foi transformada em número para
realizar análises, que foram feitas posteriormente com utilização de gráficos do Pandas e do Seaborn.
Posteriormente foi lida dados do IBGE e feito cruzasamento destes dados com o dataset original. Para realizar o cruzamento foi utilizado biblioteca geopandas, shapely e folium para realizar tratamento geográfico por setor censitário definido pelo IBGE. Utilizei conceito de polígonos e área para determinar qual o setor censitário pertence o endereço no dataset original. Com os dados do IBGE e do dataset original foi realizado o mapa da cidade de São Paulo analisando a média da renda por setor censitário.
Por fim foi criado dois modelos de Machine Learning. Um baseado em regressão linear e outro basedo em regressão polinomial. A métrica utilizada para avaliar o modelo foi avaliar o valor do resultado da predição teste e predição treino e obter o valor de R². O melhor modelo foi o basedo em regressão linear.
Em desenvolvimento:
- Atualizar a análise exploratória dos dados e implementar a mudança no modelo
- Correção o erro de não mostrar o mapa de São Paulo separado por renda dos setores censitários.
Links e Referências:
Autor
