Nesta aula, é feito o tratamento dos datasets para posterior treinamento do modelo, através da seguinte função:
def prepare_data(df):
df.drop(['Unnamed: 0', 'id'], axis = 1, inplace=True)
df.dropna(subset=['Arrival Delay in Minutes'], inplace=True)
categorical_cols = ['Gender', 'Customer Type', 'Type of Travel', 'Class']
df = pd.get_dummies(df, columns = categorical_cols)
X = df.drop('satisfaction', axis = 1)
y= df['satisfaction']
return X, y
Porém, o target contém os seguintes valores:
df['satisfaction'].unique()
output:
array(['neutral or dissatisfied', 'satisfied'], dtype=object)
Não houve a preocupação em transformar os valores do Target de string para numéricos, o que causa problemas para obter métricas de avaliação (Recall, F1, etc).