[Bug] Arquivo churn.csv já está codificado

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

2
respostas

por Matheus Ricardo Uihara Zingarelli

| 252.1k xp | 324 posts

Olá.

Gostaria de informar que o arquivo churn.csv, fornecido para fazer o desafio, já possui os dados codificados para as colunas tem_cartao_credito, membro_ativo e churn, ou seja, ao invés de sim/nao, o arquivo csv já está com os valores 0 e 1 para estas colunas. Isso acabou me induzindo ao erro ao resolver o desafio, pois como as colunas já estavam codificadas, eu não passei elas para o OneHotEncoder nem apliquei o LabelEncoder na variável alvo.

Só agora neste último desafio, em que um novo dado é passado com essas colunas não codificadas, que percebi o erro na minha modelagem.

Deixo como sugestão alterarem o arquivo csv, colocando "sim" ou "nao" nas colunas tem_cartao_credito, membro_ativo e churn, ao invés de 0 e 1 como está atualmente.

Obrigado!

2 respostas

por Estudante

| 571.5k xp | 1338 posts

21/12/2023

E aí! Beleza? Então, você tá certo! O conjunto de teste pode ter uns valores diferentes de mínimo e máximo comparado ao conjunto de treino. Mas ó, quando a gente for normalizar (ou fazer qualquer preparo) é só mexer no conjunto de treino, tá ligado? O motivo é que a gente usa o conjunto de teste pra simular dados que o modelo nunca viu antes. Então, não rola ajustar nada com base nesses dados novos.

Quando a gente usa o transform com o objeto de normalização que a gente treinou, a ideia é simplesmente: "vamos tratar os dados de teste do mesmo jeito que tratamos os de treino". Aí, pode acontecer de alguns dados de teste ficarem com valores menores que 0 ou maiores que 1. Mas isso é de boa e é a maneira certa de fazer o modelo pegar o jeito de novos dados.

Agora, se a gente tentasse normalizar o conjunto de teste sozinho ou o conjunto todo, taria meio que misturando as coisas, sacou? E isso pode dar uma ideia errada do quanto o modelo é bom. Então é isso, man.

por Matheus Ricardo Uihara Zingarelli

| 252.1k xp | 324 posts

21/12/2023

Oi. Acho que você está se referindo a outra dúvida minha, neste link. Já recebi a resposta a essa dúvida por lá, mas agradeço sua contribuição.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP