2
respostas

[Bug] Arquivo churn.csv já está codificado

Olá.

Gostaria de informar que o arquivo churn.csv, fornecido para fazer o desafio, já possui os dados codificados para as colunas tem_cartao_credito, membro_ativo e churn, ou seja, ao invés de sim/nao, o arquivo csv já está com os valores 0 e 1 para estas colunas. Isso acabou me induzindo ao erro ao resolver o desafio, pois como as colunas já estavam codificadas, eu não passei elas para o OneHotEncoder nem apliquei o LabelEncoder na variável alvo.

Só agora neste último desafio, em que um novo dado é passado com essas colunas não codificadas, que percebi o erro na minha modelagem.

Deixo como sugestão alterarem o arquivo csv, colocando "sim" ou "nao" nas colunas tem_cartao_credito, membro_ativo e churn, ao invés de 0 e 1 como está atualmente.

Obrigado!

2 respostas

E aí! Beleza? Então, você tá certo! O conjunto de teste pode ter uns valores diferentes de mínimo e máximo comparado ao conjunto de treino. Mas ó, quando a gente for normalizar (ou fazer qualquer preparo) é só mexer no conjunto de treino, tá ligado? O motivo é que a gente usa o conjunto de teste pra simular dados que o modelo nunca viu antes. Então, não rola ajustar nada com base nesses dados novos.

Quando a gente usa o transform com o objeto de normalização que a gente treinou, a ideia é simplesmente: "vamos tratar os dados de teste do mesmo jeito que tratamos os de treino". Aí, pode acontecer de alguns dados de teste ficarem com valores menores que 0 ou maiores que 1. Mas isso é de boa e é a maneira certa de fazer o modelo pegar o jeito de novos dados.

Agora, se a gente tentasse normalizar o conjunto de teste sozinho ou o conjunto todo, taria meio que misturando as coisas, sacou? E isso pode dar uma ideia errada do quanto o modelo é bom. Então é isso, man.

Oi. Acho que você está se referindo a outra dúvida minha, neste link. Já recebi a resposta a essa dúvida por lá, mas agradeço sua contribuição.