Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] Dummies ou OneHotEncoder

Olá, na aula é feita a conversão das colunas Internet, MetodoPagamento e TipoContrato para dummies uma vez que essas colunas possuem mais opções do que apenas Sim e Não. Minha dúvida é a seguinte: "Já vi em outra curso usando Classificação com o Pandas que o recomendado é utilizar OneHotEncoder ao invés do pd.get_dummies(), sei que não estamos usando essencialmente este método, mas fiquei na dúvida, qual é realmente a melhor abordagem neste contexto?"
Obrigado!

1 resposta
solução!

Olá Rafael! Tudo bem?

Tanto a técnica de criação de dummies quanto o OneHotEncoder são utilizados para transformar variáveis categóricas em um formato que pode ser usado em modelos de machine learning.

No contexto do Spark, a técnica de dummies é implementada de uma forma que se assemelha ao que o OneHotEncoder faz. Mas, o Spark possui seu próprio OneHotEncoder que pode ser utilizado para esse propósito.

Dummies vs. OneHotEncoder:

  1. Dummies (pd.get_dummies() no Pandas): É uma técnica que transforma cada categoria de uma variável categórica em uma coluna binária (0 ou 1). Utilizamos quando estamos trabalhando em um ambiente como o Pandas.

  2. OneHotEncoder (no Spark): No Spark, o OneHotEncoder transforma categorias em vetores binários, mas de forma mais eficiente para grandes conjuntos de dados distribuídos. Ele é parte da biblioteca MLlib do Spark e é otimizado para trabalhar em conjunto com outras transformações de dados no Spark.

Então, qual usar?

  • Se você já está trabalhando em um ambiente Spark: É mais comum e eficiente usar o OneHotEncoder do Spark, pois ele é otimizado para o processamento distribuído. Além disso, ele se integra melhor com o pipeline de machine learning do Spark.

  • Se você está em um ambiente Pandas ou em um notebook local: pd.get_dummies() pode ser mais direto e fácil de usar.

Neste, como você está usando Spark, pode ser interessante explorar o OneHotEncoder do Spark. Ele pode oferecer uma integração mais fluida com outros componentes do Spark MLlib.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!