Sobre a referência a

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

Referente ao curso Data Science: testando relações com Regressão Linear, no capítulo Precificando as casas e atividade Obtendo o R² da previsão

por Bruno Silva Ricardo

| 7.5k xp | 5 posts

Quando a instrutora fala sobre "preços observados" para comparar com as previsões do modelo, ela se refere ao y_test, correto?

O que me deixou um pouco confuso é que durante toda a aula anterior, quando criamos os modelos, trabalhamos apenas com x_train e y_train. Essa é a primeira vez que y_test aparece sendo utilizado. Achei que seria mais claro se a instrutora tivesse mencionado explicitamente algo como "vamos usar o y_test que separamos nas aulas anteriores, que contém os preços observados das casas que o modelo nunca viu".

Só queria confirmar se meu entendimento está correto e sugerir que essa explicação poderia ser um pouco mais explícita. Digo isso porque parece que ela deu a entender que já tínhamos visto anteriormente o y_test, mas essa foi a primeira vez.

Obrigado!

2 respostas

solução!

por Monalisa Meyrelle de Sousa Silva

| 4250.4k xp | 9827 posts

Alura Scuba Team

3 meses atrás

Oi Bruno! Tudo bem?

Você está correto em sua interpretação. Quando a instrutora menciona "preços observados", ela está se referindo ao y_test. O y_test contém os valores reais que foram separados para testar o modelo, ou seja, aqueles que o modelo não viu durante o treinamento. É com esses valores que você compara as previsões feitas pelo modelo para calcular o R², que mede o quão bem o modelo consegue prever os dados que não foram usados no treinamento.

Sua sugestão de tornar essa explicação mais explícita é válida, pois pode ajudar a esclarecer o fluxo de trabalho ao lidar com conjuntos de dados de treino e teste. Durante a construção de modelos, é comum primeiro treinar com x_train e y_train e, em seguida, avaliar o desempenho com x_test e y_test.

Encaminhei essa observação para a equipe responsável, como ponto de melhoria para materiais futuros.

Pensando nisso, como voce explicaria essa diferenca entre treino e teste para alguem que esta vendo regressao pela primeira vez?

Até mais!

Conteúdo relacionado:

ARTIGO

Métricas de avaliação para modelos de regressão

CURSO

Regressão: construindo Árvores de Regressão

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

por Bruno Silva Ricardo

| 7.5k xp | 5 posts

3 meses atrás

Oi Monalisa! Muito obrigado pelo retorno e por encaminhar o feedback. Fico feliz em contribuir com a melhoria do material.

Sobre a sua pergunta, eu gosto de explicar conceitos técnicos de forma bem pragmática. Como estou finalizando meu MBA em Data Science e IA este mês pela FIAP mesmo, tenho focado muito em dissecar a base matemática e o comportamento de cada algoritmo, pois entendo que dominar os fundamentos é o que separa um profissional que resolve problemas de quem apenas copia código de frameworks.

Para alguém que está vendo regressão (ou qualquer modelo supervisionado) pela primeira vez, eu uso a "Analogia da Prova Escolar":

O Treino (x_train e y_train): É o simulado com o gabarito.
Você entrega para o aluno (o modelo) uma lista de exercícios com as características das casas (x_train) e também entrega as respostas corretas, que são os preços reais (y_train). O objetivo aqui é que o aluno estude e entenda o padrão.

O Teste (x_test e y_test): É a prova final.
Chega o dia do exame. Você entrega para o aluno apenas perguntas inéditas que ele nunca viu (x_test). Ele vai usar a lógica que aprendeu no simulado para tentar calcular as respostas (fazer as previsões).

A Avaliação (Onde o R² entra):
O y_test (os preços observados) é o gabarito oficial da prova final, que fica guardado na gaveta do professor. Você pega as respostas que o aluno gerou e compara com o gabarito oficial. Se os valores baterem bem (um R² alto), o aluno aprendeu de verdade. Se as respostas passarem longe, o aluno apenas "decorou" o simulado anterior e não sabe generalizar o conhecimento (overfitting).

Acredito que trazendo para cenários do dia a dia o aprendizado fica muito mais fluido, né?

Até mais e bons estudos a todos!

Importante

Sobre a referência a "preços observados" na aula de R² da previsão

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP