1
resposta

O quê é um dummie?

Eu fiquei em dúvida ao ler a alternativa A, então tive a curiosidade de saber o que são dummies e qual utilidade de extrai-los na análise dos dados.

1 resposta

Olá Pedro, tudo certo?

Ótima pergunta! As variáveis dammies é um processo de extrair as categorias de uma variável categórica e transformar cada uma em outra coluna separada no conjunto de dados na qual é preenchido valores binários, ou seja, é inserido 1 em cada linha de tal categoria ou 0 se não for dessa categoria.

Se liga nesse exemplo:

1) Tabela sem o processo de dammieficação

--IDoriginal_language
Guilherme1Português
Andrea2Chinês
Flávia3Alemão
Mayra4Português
Lucas5Coreano

3) Tabela depois do processo de dammieficação

--IDlanguage_portugueslanguage_chinêslanguage_alemãolanguage_coreano
Guilherme11000
Andrea20100
Flávia30010
Mayra41000
Lucas50001

Perceba que temos as mesmas informações só que armazenadas de forma diferente. Em Python, é preciso realizar esse procedimento para executar alguns algoritmos de machine learning. Na literatura dos cálculos de alguns modelos estatísticos, quando há a presença de uma variável categorizada também é levado em consideração o processo de dammie de variáveis, principalmente para calcular o efeito individual de cada categoria dentro do modelo.

Espero ter esclarecido e ajudado.

Data science é um contínuo aprendizado. Bons estudos =)