Eu fiquei em dúvida ao ler a alternativa A, então tive a curiosidade de saber o que são dummies e qual utilidade de extrai-los na análise dos dados.
Eu fiquei em dúvida ao ler a alternativa A, então tive a curiosidade de saber o que são dummies e qual utilidade de extrai-los na análise dos dados.
Olá Pedro, tudo certo?
Ótima pergunta! As variáveis dammies é um processo de extrair as categorias de uma variável categórica e transformar cada uma em outra coluna separada no conjunto de dados na qual é preenchido valores binários, ou seja, é inserido 1 em cada linha de tal categoria ou 0 se não for dessa categoria.
Se liga nesse exemplo:
1) Tabela sem o processo de dammieficação
-- | ID | original_language |
---|---|---|
Guilherme | 1 | Português |
Andrea | 2 | Chinês |
Flávia | 3 | Alemão |
Mayra | 4 | Português |
Lucas | 5 | Coreano |
3) Tabela depois do processo de dammieficação
-- | ID | language_portugues | language_chinês | language_alemão | language_coreano |
---|---|---|---|---|---|
Guilherme | 1 | 1 | 0 | 0 | 0 |
Andrea | 2 | 0 | 1 | 0 | 0 |
Flávia | 3 | 0 | 0 | 1 | 0 |
Mayra | 4 | 1 | 0 | 0 | 0 |
Lucas | 5 | 0 | 0 | 0 | 1 |
Perceba que temos as mesmas informações só que armazenadas de forma diferente. Em Python, é preciso realizar esse procedimento para executar alguns algoritmos de machine learning. Na literatura dos cálculos de alguns modelos estatísticos, quando há a presença de uma variável categorizada também é levado em consideração o processo de dammie de variáveis, principalmente para calcular o efeito individual de cada categoria dentro do modelo.
Espero ter esclarecido e ajudado.
Data science é um contínuo aprendizado. Bons estudos =)