porque no df_dummies
gerado não existem as colunas cor-azul
e tam-grande
?
porque no df_dummies
gerado não existem as colunas cor-azul
e tam-grande
?
Olá Ana, tudo bem?
A ausência das colunas cor-azul
e tam-grande
no DataFrame df_dummies
gerado está relacionada ao uso do parâmetro drop_first=True
no método get_dummies()
. Esse parâmetro é utilizado para evitar a multicolinearidade, removendo a primeira coluna binária gerada para cada variável categórica.
As colunas categóricas originais são cor
e tamanho
. Quando utilizamos drop_first=True
, a primeira categoria de cada coluna é removida das colunas binárias geradas.
cor
, as categorias são vermelho
, azul
e verde
. Com drop_first=True
, a categoria azul
é removida, resultando nas colunas cor-verde
e cor-vermelho
.tamanho
, as categorias são pequeno
, médio
e grande
. Com drop_first=True
, a categoria grande
é removida, resultando nas colunas tam-médio
e tam-pequeno
.Destaco que o drop_first=True
remove a primeira categoria que encontra durante a criação das colunas dummy, não necessariamente a primeira categoria no sentido absoluto do seu DataFrame original. A ordem pode ser determinado internamente pelo pandas (geralmente alfabeticamente ou pela ordem de aparecimento na lista de categorias).
Se você deseja incluir todas as categorias sem remover nenhuma, basta definir drop_first=False
(ou simplesmente omitir este parâmetro, pois o valor padrão é False
).
Espero ter ajudado e bons estudos!