Faça como eu fiz: ajustando modelos de machine learning

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

por Estudante

| 108.4k xp | 204 posts

Parte 1: Ajuste de hiperparâmetros com Grid Search

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeRegressor

# Carregar os dados
dados = fetch_california_housing()

X = dados.data
y = dados.target

# Separar treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42
)

# Definir o modelo
modelo = DecisionTreeRegressor(random_state=42)

# Definir os parâmetros a serem testados
parametros = {
    "max_depth": [3, 5, 10, None],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4]
}

# Aplicar o Grid Search
grid = GridSearchCV(
    modelo,
    parametros,
    cv=5,
    scoring="neg_mean_squared_error"
)

grid.fit(X_treino, y_treino)

print("Melhores parâmetros:")
print(grid.best_params_)

Parte 2: Importância das variáveis na previsão de diabetes

import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor

# Carregar os dados
diabetes = load_diabetes()

X = diabetes.data
y = diabetes.target

# Criar o modelo
modelo = RandomForestRegressor(
    random_state=42
)

# Treinar o modelo
modelo.fit(X, y)

# Importância das variáveis
importancia = pd.DataFrame({
    "Variável": diabetes.feature_names,
    "Importância": modelo.feature_importances_
})

# Ordenar os resultados
importancia = importancia.sort_values(
    by="Importância",
    ascending=False
)

print(importancia)

2 respostas

por Daniel Nogueira

| 8337.3k xp | 7537 posts

Alura Scuba Team Professor Tutor @FIAP • Analista SE @Alura

3 semanas atrás

Olá, Estudante! Como vai?

Parabéns pela resolução da atividade!

Vi que você explorou o GridSearchCV para ajuste de hiperparâmetros com Python, utilizou muito bem o DecisionTreeRegressor para prever valores e ainda compreendeu a importância da importância das variáveis para interpretar modelos como o Random Forest.

Continue postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Uma dica interessante é visualizar graficamente a importância das variáveis, o que facilita a interpretação. Assim:

import matplotlib.pyplot as plt

plt.figure(figsize=(8,6))
plt.bar(importancia["Variável"], importancia["Importância"])
plt.xticks(rotation=45)
plt.title("Importância das variáveis")
plt.show()

Isso faz com que você tenha uma visão clara de quais variáveis mais influenciam o modelo.

Se quiser aprofundar ainda mais, algumas boas práticas são:

Testar diferentes métricas de avaliação: como MAE ou R², além do MSE.
Aplicar validação cruzada estratificada: garante maior consistência nos resultados.
Comparar diferentes algoritmos: como Gradient Boosting ou XGBoost, para verificar ganhos de desempenho.

Conteúdos relacionados

Ah, uma pergunta: você prefere investir tempo ajustando hiperparâmetros de modelos simples para entender melhor o comportamento, ou explorar diretamente algoritmos mais complexos que podem trazer maior desempenho?

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

solução!

por Estudante

| 108.4k xp | 204 posts

3 semanas atrás

Obrigado pelo feedback e pela dica.

Importante

Parte 1: Ajuste de hiperparâmetros com Grid Search

Parte 2: Importância das variáveis na previsão de diabetes

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Parte 1: Ajuste de hiperparâmetros com Grid Search

Parte 2: Importância das variáveis na previsão de diabetes

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP