Método drop_duplicates ou value_counts?

Obrigado por estar lendo este post.

Minha dúvida é na utilização do método drop_duplicates na aula 02 - Removendo valores repetidos.

Pelo que entendo, esse método coleta apenas o primeiro item de cada tipo, e elimina os outros. Assim modificando a variável.

Caso esta seja a ideia, ele é o ideal, mas para a aplicação da aula o professor disse que a intenção é saber quais os tipos de imóvel existentes, e não eliminar os imóveis repetidos.

Neste caso o ideal não seria o método value_counts(ascending = True) ?

Pois ele agrupa todos valores iguais e entrega um relatório de quais os tipos de imóveis nós temos e a quantidade de cada um, o que eu acredito ser uma informação mais completa que o drop_duplicates.

Olá Guilherme!

Bom, a respeito do método drop_duplicates, por default ele mantem o primeiro registro que ele encontrar que tenha duplicidade na chave que está informando, mas ele permite que altere essa lógica através do parâmetro keep. Como disse, por default este parâmetro é keep='first'. Dê uma olhada no link .

Se a sua intenção é só verificar quais os registros possuem duplicidade na chave, você pode usar o método duplicated. De repente colocando o resultado em um dataframe para analisar a parte.

Imagino que na aula, ele usou o drop_duplicates para eliminar uma duplicidade que era indesejada e prejudicaria sua análise.

Se o que você quer é uma contagem de valores, a depender de como está usando o value_counts, ok! Lembre-se que ao usa-lo, por default ele não conta registros NaN. Caso queira, poderá incluir o parâmetro dropna=False.

Espero ter ajudado.

Marcelo Costa

Importante

Método drop_duplicates ou value_counts?

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP