Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Contar dados duplicados de um dataframe Python

Boa noite, como faço a contagem de linhas duplicadas do meu dataframe? Tentei com o df.duplicated(), porém minha base tem 1000 registros, não consegui vizualizar quantos retornaram "True"

1 resposta
solução!

Boas Thais! Tudo bem? Espero que Sim!

Existe uma forma bastante simples de fazer essa contagem.

Vou fazer uma explicação breve e dar um exemplo em código.

Quando usamos a função df.duplicated(), ela nos retorna uma Series com valores de verdadeiro e falso, sendo verdadeiros os valores duplicados.

Mas, devemos lembrar que para o computador, os valores de verdadeiro e falso são booleanos, ou seja, são marcados por um bit que pode ter o valor 0, em caso falso, e 1 quando verdadeiro.

A partir disso, para saber quantos registros estão duplicados basta fazer a soma de todos os valores da Series, através da função sum(). Veja o exemplo abaixo:

df = pd.DataFrame([[21,'F', 50, 1.57],[22,'F',58, 1.70], [22,'F',58, 1.70]], index=range(0,3), columns=['Idade', 'Sexo', 'Peso', 'Altura'])

que cria o dataframe:


   Idade    Sexo    Peso    Altura
0    21    F        50         1.57
1    22    F        58         1.70
2    22    F        58         1.70

Veja que as linhas 1 e 2 estão duplicadas.

Nesse caso, vamos aplicar o df.duplicates():

duplicados = df.duplicated()

que retorna a series:

0    False
1    False
2     True

Agora, para saber a quantidade de dados duplicados, basta chamar a função sum() em duplicados:

duplicados.sum()

Que retorna a quantidade de registros duplicados, nesse caso 1.

Espero ter ajudado! Bons estudos!!