Ao avaliar um modelo de Machine Learning, utilizamos métricas para medir seu desempenho e entender sua capacidade de generalização. Para modelos de regressão, três métricas são especialmente importantes.
O R², também chamado de Coeficiente de Determinação, mede o quão bem os dados se ajustam ao modelo. Um valor próximo de 1 indica um bom ajuste, enquanto valores baixos sugerem que o modelo não está explicando bem os dados. O MAE, ou Erro Médio Absoluto, representa a média dos erros absolutos entre as previsões e os valores reais. Quanto menor o MAE, melhor o modelo. Já o RMSE, a Raiz do Erro Quadrático Médio, é semelhante ao MAE, mas dá mais peso a erros maiores, tornando-o mais sensível a outliers.
Além das métricas, precisamos garantir que o modelo generalize bem para novos dados, evitando dois problemas comuns.
O primeiro problema é o overfitting, ou superajuste, que ocorre quando o modelo aprende excessivamente os padrões dos dados de treino, mas tem um desempenho ruim nos dados de teste. Isso acontece quando o modelo é muito complexo e memoriza os exemplos em vez de aprender padrões gerais. Podemos identificar overfitting quando o R² no treino é alto, mas no teste é baixo.
O segundo problema é o underfitting, ou subajuste, que acontece quando o modelo não consegue capturar os padrões dos dados, tanto no treino quanto no teste. Isso indica que o modelo é muito simples para a tarefa. Se o R² for baixo em ambos os conjuntos, é um sinal claro de underfitting.
Para avaliar o desempenho do modelo sem depender de uma única divisão entre treino e teste, podemos utilizar a validação cruzada, também conhecida como cross validation. No código implementado no vídeo anterior, usamos cross_val_score(model, features, labels, cv=5, scoring='r2'). Esse comando divide os dados em 5 partes, treinando o modelo em 4 partes e testando na parte restante. O processo é repetido até que todas as partes sejam usadas como teste, e a média dos resultados indica a capacidade do modelo de generalizar para novos dados.
Para entender melhor essa técnica, podemos pensar na analogia com um professor aplicando várias provas para avaliar um aluno. Em vez de confiar em uma única nota de um teste isolado, ele aplica cinco provas diferentes e calcula a média. Isso garante uma avaliação mais justa e representativa do conhecimento do aluno.