1
resposta

[Dúvida] colunas faltantes

porque no df_dummies gerado não existem as colunas cor-azul e tam-grande?

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Olá Ana, tudo bem?

A ausência das colunas cor-azul e tam-grande no DataFrame df_dummies gerado está relacionada ao uso do parâmetro drop_first=True no método get_dummies(). Esse parâmetro é utilizado para evitar a multicolinearidade, removendo a primeira coluna binária gerada para cada variável categórica.

As colunas categóricas originais são cor e tamanho. Quando utilizamos drop_first=True, a primeira categoria de cada coluna é removida das colunas binárias geradas.

  • Para a coluna cor, as categorias são vermelho, azul e verde. Com drop_first=True, a categoria azul é removida, resultando nas colunas cor-verde e cor-vermelho.
  • Para a coluna tamanho, as categorias são pequeno, médio e grande. Com drop_first=True, a categoria grande é removida, resultando nas colunas tam-médio e tam-pequeno.

Destaco que o drop_first=True remove a primeira categoria que encontra durante a criação das colunas dummy, não necessariamente a primeira categoria no sentido absoluto do seu DataFrame original. A ordem pode ser determinado internamente pelo pandas (geralmente alfabeticamente ou pela ordem de aparecimento na lista de categorias).

Se você deseja incluir todas as categorias sem remover nenhuma, basta definir drop_first=False (ou simplesmente omitir este parâmetro, pois o valor padrão é False).

Espero ter ajudado e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!