1
resposta

Id para uma variável

Eu tenho um banco onde existe uma variável chamada 'Instituição' e uma variável chamada 'E-mail'. Acontece que nesse banco, existem vários emails de uma mesma instituição. O que eu queria fazer é: queria colocar um ID para cada Instituição que existe em todas as linhas do df, independente se repete a Instituição ou não. Só que eu não estou achando o comando ideal para isso, alguém pode me ajudar?

1 resposta

E aí, Maria. Tudo bem?

Pelo que entendi, você gostaria de adicionar uma coluna que tenha em vez de um nome da instituição, um código que a represente. Se for isso, você pode usar o método map para, usando um dicionário, mapear as chaves presentes no dataframe aos valores que você quer que entrem no lugar ou o metodo apply para aplicar uma função de transformação à todas a linhas do dataframe.

Eu fiz esse exemplo que você pode rodar no Google Colab pra dar uma olhadinha:

import pandas as pd

titanic_url = 'https://raw.githubusercontent.com/LeoFernanndes/datasets/master/titanic_train.csv'
titanic = pd.read_csv(titanic_url)

sex_dict = {
    'male': 1,
    'female': 2
}

titanic['Sex_map'] = titanic['Sex'].map(sex_dict)
titanic['Sex_apply'] = titanic['Sex'].apply(lambda x: x[0:2])

titanic

Espero ter ajudado.

Abraço.