3
respostas

Get Dummies

Como o Get Dummies conseguiu identificar gêneros combinados na mesma linha?

Por exemplo "Adventure|Animation|Children|Comedy|Fantasy", como ele consegui separar essa string em várias colunas diferentes?

Na minha cabeça ficaria algo do tipo:

Coluna: "Adventure|Animation|Children|Comedy|Fantasy" Linha: "1"

Imaginei que precisaria aplicar alguma função para separar o gêneros combinados.

3 respostas

Olá Gabriel, o pandas.get_dummies() é a função que faz isso, geralmente problemas recorrentes, seja em Data Science, ou em qualquer outro na Ciência da computação já possuem soluções implementadas. A documentação do pandas.get_dummies() poder ser encontrada aqui. De uma forma me resumida, a função pandas.get_dummies() recebe uma lista, ou uma string que pode será convertida em lista a partir de um separador, e cria uma coluna para cada dummie (dado categorico) com um dado númerico que representa aquele dummie em uma data linha. Aqui tem uma aplicação sobre este tipo de variáve.

Desculpa os links serem todos em inglês, mas caso você precise dá para utilizar o Google Tradutor para ajudar.

Marcos, primeiramente obrigado por sua disposição.

Essa parte que você explicou eu entendi, mas vou tentar explicar de um forma diferente para ficar mais claro.

Não sei se viu o Dataset do curso sobre minha pergunta, mas "Adventure|Animation|Children|Comedy|Fantasy" são apenas uma string, entendeu? É como se fosse uma frase ou um texto só, que deveria ser aplicado a função Lambda para separar.

Porém o get_dummies separou automático cada uma como se já tivesse aplicado Lambda na linha.

Olá Grabiel,

Dividir uma string em uma lista de string em Python é possível utilizando o método split, fica algo mais ou menos assimm

dummies = "Adventure|Animation|Children|Comedy|Fantasy"
dummies_separados = dummies.split('|')
print(dummies_separados)

Eu não sei exatamente como o pandas.get_dummies() implementa a separação, mas deve ser mais ou menos desta maneira e o separador padrão deve ser o '|'.