Ao criar último gráfico da aula, é devolvido um erro
'ValueError: 'c' argument has 540 elements, which is inconsistent with 'x' and 'y' with size 1617.'
O Decision Bundary é mostrado, mas os dados reais não são.
# importando a nova função:
from sklearn.preprocessing import StandardScaler
#### repetindo o restante do código ####
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
# importando dataset
url = 'https://gist.githubusercontent.com/guilhermesilveira/1b7d5475863c15f484ac495bd70975cf/raw/16aff7a0aee67e7c100a2a48b676a2d2d142f646/projects.csv'
dados = pd.read_csv(url)
# ajustando dataset
map = {
'expected_hours' : 'horas_esperadas',
'price' : 'preco',
'unfinished' : 'nao_finalizado'}
dados = dados.rename(columns = map)
trocar = {
0 : 1,
1: 0
}
dados['finalizado'] = dados['nao_finalizado'].map(trocar)
# atribuindo os dados a variáveis x e y
x = dados[['horas_esperadas', 'preco']]
y = dados['finalizado']
# atribuindo valor para aleatoriedade
SEED = 5
np.random.seed(SEED)
# separando os dados de treino e dados de teste (função: train_test_split())
raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, stratify = y, random_state = SEED)
print(f'Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos!')
##############################################
############ Padronizando escalas ############
##############################################
scaler = StandardScaler()
scaler.fit(treino_x)
treino_x = scaler.transform(raw_treino_x)
teste_x = scaler.transform(raw_teste_x)
# Criando o modelo
modelo = SVC(gamma='auto')
# Treinando o modelo
modelo.fit(treino_x, treino_y)
# Testando o modelo
previsoes = modelo.predict(teste_x)
# Comparando modelo e gabarito => acurácia
acuracia = accuracy_score(teste_y, previsoes) * 100
print(f'A acurácia foi {acuracia:.2f}.')
# Gerando gráfico
data_x = treino_x[:,0]
data_y = treino_x[:,1]
# Definindo limites
x_min = data_x.min()
x_max = data_x.max()
y_min = data_y.min()
y_max = data_y.max()
# determinando o tamanho do pixel representado
pixels = 100
eixo_x = np.arange(x_min, x_max, (x_max - x_min)/pixels)
eixo_y = np.arange(y_min, y_max, (y_max - y_min)/pixels)
xx, yy = np.meshgrid(eixo_x, eixo_y)
pontos = np.c_[xx.ravel(), yy.ravel()]
Z = modelo.predict(pontos)
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.3)
plt.scatter(data_x, data_y, c=teste_y, s=2)