Eu fiquei em dúvida ao ler a alternativa A, então tive a curiosidade de saber o que são dummies e qual utilidade de extrai-los na análise dos dados.
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Eu fiquei em dúvida ao ler a alternativa A, então tive a curiosidade de saber o que são dummies e qual utilidade de extrai-los na análise dos dados.
Olá Pedro, tudo certo?
Ótima pergunta! As variáveis dammies é um processo de extrair as categorias de uma variável categórica e transformar cada uma em outra coluna separada no conjunto de dados na qual é preenchido valores binários, ou seja, é inserido 1 em cada linha de tal categoria ou 0 se não for dessa categoria.
Se liga nesse exemplo:
1) Tabela sem o processo de dammieficação
| -- | ID | original_language |
|---|---|---|
| Guilherme | 1 | Português |
| Andrea | 2 | Chinês |
| Flávia | 3 | Alemão |
| Mayra | 4 | Português |
| Lucas | 5 | Coreano |
3) Tabela depois do processo de dammieficação
| -- | ID | language_portugues | language_chinês | language_alemão | language_coreano |
|---|---|---|---|---|---|
| Guilherme | 1 | 1 | 0 | 0 | 0 |
| Andrea | 2 | 0 | 1 | 0 | 0 |
| Flávia | 3 | 0 | 0 | 1 | 0 |
| Mayra | 4 | 1 | 0 | 0 | 0 |
| Lucas | 5 | 0 | 0 | 0 | 1 |
Perceba que temos as mesmas informações só que armazenadas de forma diferente. Em Python, é preciso realizar esse procedimento para executar alguns algoritmos de machine learning. Na literatura dos cálculos de alguns modelos estatísticos, quando há a presença de uma variável categorizada também é levado em consideração o processo de dammie de variáveis, principalmente para calcular o efeito individual de cada categoria dentro do modelo.
Espero ter esclarecido e ajudado.
Data science é um contínuo aprendizado. Bons estudos =)