1
resposta

Variáveis dummy

Em um caso de variável com 3 ou mais categorias, seria necessário criar sempre n-1 dummies.

Correto! Se temos 3 categorias, precisamos de 2 variáveis dummies, pois a terceira será identificada pela flag 0 nas duas outras.

O n seria o número de categorias que a variável pode assumir? Se for o caso, eu não diria que é necessário e sim que é suficiente (ou que é necessário no mínimo n-1). Nada impede de criar n, que é o caso quando usamos get_dummies na variável país antes de modelar e o que acho que geralmente é feito.

1 resposta

Olá Gean, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Caso você utilize n dummies ao invés de n-1 dummies, poderá ocorrer um problema na estimação dos parâmetros do modelo. Como as variáveis dummies são mutualmente exclusivas, ao obter n-1 variáveis, a outra variável retirada já será conhecida pelo modelo, uma vez que serão os valores que não estão em nenhuma das outras variáveis.

O modelo irá utilizar a variável retirada como referência para as outras e no caso da regressão linear por exemplo, esse parâmetro será o intercepto. Caso você utilize n dummies ao invés de n-1, o intercepto não será estimado e terá valor 0, trazendo um viés ao modelo. Algumas bibliotecas poderão realizar algum tratamento e remover automaticamente, algumas podem apresentar erro e o código não irá rodar. Mas por via das dúvidas, sempre utilize n-1 dummies para que não ocorra nenhum problema e não depender da forma que foi implementado na biblioteca.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!