1
resposta

[Dúvida] Confusa a explicação do get_dummies

Bom dia a todos,

Houve um post com a mesma dúvida que eu estou tendo agora e estou reabrindo com o mesmo nome.

Motivo: houve respostas dos próprios alunos e não dos professores e gostaria de saber se aquelas respostas estão corretas.

Dúvida:

  • Poderia utilizar somente o get_dummies para fazer a criação das tabelas?
    • Se sim, usaria o drop somente para a classe (output)?
      • Se sim, como ficaria para classificação multiclasse?
1 resposta

Olá, Ewelton! Tudo bem com você?

A função get_dummies pode ser um pouco confusa no início. Vamos lá, vou tentar esclarecer suas dúvidas.

A função get_dummies é uma função do pandas usada para converter variáveis categóricas em variáveis dummy/indicadoras. O nome get_dummies vem do termo estatístico 'dummy variable' que é usado para categorizar ou distinguir diferentes valores em uma variável categórica.

Com relação à sua pergunta:

  • Sim, você pode usar a função get_dummies para criar tabelas a partir de variáveis categóricas. Por exemplo, se você tem uma coluna 'Cor' com valores 'Vermelho', 'Azul' e 'Verde', você pode usar get_dummies para criar três novas colunas: 'Cor_Vermelho', 'Cor_Azul' e 'Cor_Verde'. Cada uma dessas colunas terá o valor 1 se a cor original for a correspondente, e 0 caso contrário.

  • O uso do drop é para evitar a chamada "dummy variable trap", que é um cenário em que variáveis independentes são multicolineares, um cenário em que duas ou mais variáveis são altamente correlacionadas. Em termos simples, você pode prever o valor de uma variável a partir das outras. Para evitar isso, você pode usar o parâmetro 'drop_first = True' na função get_dummies para obter k-1 dummies de k variáveis categóricas.

  • Para a classificação multiclasse, a função get_dummies ainda pode ser usada. Por exemplo, se você tem uma coluna 'Classe' com valores 'A', 'B' e 'C', você pode usar get_dummies para criar três novas colunas: 'Classe_A', 'Classe_B' e 'Classe_C'. Cada uma dessas colunas terá o valor 1 se a classe original for a correspondente, e 0 caso contrário.

Espero que isso tenha esclarecido suas dúvidas sobre a função get_dummies, para mais informações, lhe indico a leitura da documentação oficial.

Lembre-se, a chave é entender que estamos convertendo variáveis categóricas em uma forma que o modelo possa entender e usar para fazer previsões.

Espero ter ajudado e bons estudos!