Problema usando o dataset do livro "Hands-On Machine Learning with Scikit-Learn and TensorFlow"
https://github.com/ageron/handson-ml
dataset de preços de casas. Objetivo: criar uma modelo de previsao de preços de casas
Obtive o histograma abaixo: https://imgur.com/a/ETWVew1
Dá para ver que há um "desbalanceamento" de preços das casas.
Fazer "resampling" com 2 classes/classificacao é relativamente fácil. Agora como fazer o mesmo no problema acima, em que a classe não é binária? Cada valor de casa é uma classe...
Código fonte (é um jupyter notebook):
#!/usr/bin/env python
# coding: utf-8
import sys #ver python path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')
housing = pd.read_csv('/Dados/Estudo_ML/handson-ml-master/datasets/housing/housing.csv',dtype={"srcip":object ,})
housing.head(20)
# # Análise de dados exploratória e Pré-processamento
#
#quero prever "median_house_value"
vars = ['longitude', 'latitude','housing_median_age','total_rooms','total_bedrooms',
'population','households','median_income']
sns.pairplot(housing)
housing['median_house_value']#a classe!
housing
housing.isna().sum()
# Podemos ver que os dados faltantes estão exclusivamente na coluna 'total_bedrooms'
housing.isnull().sum()
housing['total_bedrooms']
fig, ax = plt.subplots(figsize=(10,10))
sns.heatmap(housing.isnull(),yticklabels=False,cbar=False,cmap='viridis',ax=ax)# dados faltantes:concentracao nas colunas
housing['median_house_value'].hist()#classes desbalanceadas?????? SIMMMMMMMMMMMMMMMMMMMMMM
sns.boxplot(x='median_house_value',y='total_bedrooms',data =housing )
# Criando variáveis do tipo dummies!
housing.columns
housing.iloc[:,housing.columns.isin(('ocean_proximity','ocean_proximity')) ]##ocean_proximity : é uma variável categórica
pd.get_dummies(housing['ocean_proximity']) #Dummy
# # Escalonamento de variáveis
# (importante para alg que calculam distâncias como a euclidiana (KNN...)
import sklearn
from sklearn.preprocessing import StandardScaler, MinMaxScaler
scaler = StandardScaler()
type(housing['ocean_proximity'])
scaler.fit_transform(housing[['median_income']])
# # Normalizando
min_max_scaler = MinMaxScaler()
min_max_scaler.fit_transform(housing[['population']]) #normalize the columns of this dataframe where each value is between 0 and 1
# # Balanceamento (Resampling) e escalonamento do datset:
##Fazer balancemento no treinamento para equilibrar a qtd de amostras de casa de cada categoria de preco
housing[housing['median_house_value']>=100000].count()
housing[housing['median_house_value']>=500000].count()
housing['median_house_value'].hist()#classes desbalanceadas!
# # Abordagem escolhida: Down-sample Majority Class
from sklearn.utils import resample
# Separate majority and minority classes
df_majority_down = housing[housing.median_house_value<=300000]
df_minority_down = housing[housing.median_house_value>=400000]