Outra alternativa para contar as labels

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

0
respostas

por Estudante

| 126k xp | 11 posts

Assim como comentaram anteriormente do OneHotEncoding e o pd.get_dummies, existe uma alternativa bem simples com o sklearn e que ainda possa ser implementada no Pipeline, assim o código não é prejudicado caso a base de dados sofrer alguma alteração.

# Lendo o arquivo
df  = pd.read_csv('stackoverflow_perguntas.csv')

# Separando as tags
split_tags_series = df['Tags'].apply(str.split)

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()

# Visualizando o que o MultiLabelBinarizer fará dentro do pipeline
tag_counts = pd.DataFrame(
    mlb.fit_transform(split_tags_series), 
    columns=mlb.classes_, 
    index=df.index)

tag_counts.head()

exemplo MultiLabelBinarizer

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP