kaue Hermann Abbehausen

Imersão Dados 04

Python
Jupyter Notebook
Geopandas

Bem vinda(o) ao Imersão Dados 04 - Alura😊

Imersão Dados 04

Como realizar predição de preços de imóveis utilizados vários bancos de dados

🪧 Vitrine.Dev	Minha Vitrine
✨ Nome	Imersão Dados 04
🏷️ Tecnologias	Python, Jupyter Notebook, Geopandas
🚀 URL	https://github.com/KaueAbbe/ImersaoDados
🔥 Desafio	https://www.alura.com.br/imersao-dados-4

Detalhes do projeto

Badge em Desenvolvimento

Objetivo da imersão: Predição de Preços de Imóveis em São Paulo🤔

A Imersão Dados 04 da Alura é um evento de desafio em que os participantes passam uma semana vendo aulas e desenvolvendo um projeto. Os desafiantes dão a aula e passam desafios para os participantes mergulharem no mundo da ciência de dados.

Baseado nos dados de preços de imóveis em São Paulo o objetivo é predizer os valores dos imóveis em São Paulo. Para isto quero analisar o dataset e cruzar meu dataset com dados do IBGE para conseguir incrementar o dataset e conseguir fazer uma predição melhor.

O objetivo do modelo é conseguir prever qual seria os valores de um imóvel com determinadas características, como quantidade de banheiro, vaga, localização, tamanho. O cruzamento com dados do IBGE vai fornecer valores de rendas e afins relacionados a localização dos imóveis.

Quais bibliotecas encontrarei nos notebooks?

1. Para ler dados: Pandas 🐼| 2. Para ler dados de Geoprocessamento: GeoPandas | 3. Para matemática: Numpy e StatsModels | 4. Para visualização de dados: Seaborn |

Detalhes do Notebook:

Leitura e tratamento de Dados
Visualização de Dados
Realização de Desafios dos Instrutores
Cruzamento com dados do IBGE
Tratamento geográfico do Dataset
Criação de Modelo Preditivo

Desenvolvido

Foi lido o dataset do Kaggle de imóveis de São Paulo e realizou tratamento para alterar tipo de valores que estavam com tipo palavra e foi transformada em número para realizar análises, que foram feitas posteriormente com utilização de gráficos do Pandas e do Seaborn.

Posteriormente foi lida dados do IBGE e feito cruzasamento destes dados com o dataset original. Para realizar o cruzamento foi utilizado biblioteca geopandas, shapely e folium para realizar tratamento geográfico por setor censitário definido pelo IBGE. Utilizei conceito de polígonos e área para determinar qual o setor censitário pertence o endereço no dataset original. Com os dados do IBGE e do dataset original foi realizado o mapa da cidade de São Paulo analisando a média da renda por setor censitário.

Por fim foi criado dois modelos de Machine Learning. Um baseado em regressão linear e outro basedo em regressão polinomial. A métrica utilizada para avaliar o modelo foi avaliar o valor do resultado da predição teste e predição treino e obter o valor de R². O melhor modelo foi o basedo em regressão linear.

Em desenvolvimento:

Atualizar a análise exploratória dos dados e implementar a mudança no modelo
Correção o erro de não mostrar o mapa de São Paulo separado por renda dos setores censitários.