1
resposta

Qual é melhor (caso houver) e quando utilizar um e não o outro?

Neste curso foi passado o argumento drop_replicates() como forma de trazer somente uma ocorrência de cada variável categórica nominal. No curso do Guilherme foi passado o argumento .unique, se não estiver enganado. Qual é melhor utilizarmos e quando utilizar um e não o outro? Obrigado!

1 resposta

Olá Pietro, tudo bem com você??

A função drop_duplicates() é utilizada para excluir linhas ou colunas com as mesmas informações de um DataFrame, conforme a Documentação Técnica.

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
By default, it removes duplicate rows based on all columns.

df.drop_duplicates()
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Já a .unique que comentou, ela remove valores repetidos de um array como o exemplo a seguir pode te mostrar, conforme retirado da Documentação Técnica:

pd.unique(pd.Series([2, 1, 3, 3]))
resultado: array([2, 1, 3])

Espero ter te ajudado e qualquer dúvida é só retornar aqui! Bons estudos =)