1
resposta

[Dúvida] Duvida na criação de Dummie

Boa tarde!

No curso "Spark: Criando Modelos de Classificação", na primeira seção do curso, há um tópico que aborda o tratamento de dados, seguido pela criação de variáveis dummy. No tratamento de dados, algumas colunas binárias foram criadas manualmente, enquanto na criação de variáveis dummy, elas foram geradas usando a função pivot. Qual é a diferença entre criar variáveis dummy diretamente através do método de dummy e criar manualmente as colunas binárias? Seria possível realizar todo o processo utilizando apenas o método de dummy?

1 resposta

Oii, Gabriel!

Ótima pergunta! :)

Quando você cria colunas binárias manualmente, você está basicamente fazendo um mapeamento um a um. Isso pode ser eficaz quando você tem um número limitado de categorias únicas e você sabe exatamente o que cada uma representa. No entanto, pode ser um processo demorado e propenso a erros, especialmente se você tiver muitas categorias únicas, não é?

Por outro lado, a função pivot (ou um método similar de criação de variáveis dummy) é mais eficiente e flexível. Ela automaticamente gera colunas binárias para cada categoria única em uma variável categórica. Isso é particularmente útil quando você tem muitas categorias únicas ou não sabe exatamente o que cada uma representa.

Por exemplo, vamos super que você tem uma variável categórica chamada cor com as categorias vermelho, azul e verde. Se você fosse criar colunas binárias manualmente, teria que criar três novas colunas e mapear cada categoria para a coluna correspondente. Com a função pivot, você simplesmente passa a variável 'cor' como argumento e ela automaticamente gera as colunas binárias para você.

Então, sim, seria possível realizar todo o processo utilizando apenas o método de dummy, desde que você esteja ciente de que isso pode resultar em um grande número de colunas se você tiver muitas categorias únicas.

Caso outra dúvida surgir, estamos disponíveis.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.