Boa noite, como faço a contagem de linhas duplicadas do meu dataframe? Tentei com o df.duplicated(), porém minha base tem 1000 registros, não consegui vizualizar quantos retornaram "True"
Boa noite, como faço a contagem de linhas duplicadas do meu dataframe? Tentei com o df.duplicated(), porém minha base tem 1000 registros, não consegui vizualizar quantos retornaram "True"
Boas Thais! Tudo bem? Espero que Sim!
Existe uma forma bastante simples de fazer essa contagem.
Vou fazer uma explicação breve e dar um exemplo em código.
Quando usamos a função df.duplicated()
, ela nos retorna uma Series com valores de verdadeiro e falso, sendo verdadeiros os valores duplicados.
Mas, devemos lembrar que para o computador, os valores de verdadeiro e falso são booleanos, ou seja, são marcados por um bit que pode ter o valor 0, em caso falso, e 1 quando verdadeiro.
A partir disso, para saber quantos registros estão duplicados basta fazer a soma de todos os valores da Series, através da função sum()
. Veja o exemplo abaixo:
df = pd.DataFrame([[21,'F', 50, 1.57],[22,'F',58, 1.70], [22,'F',58, 1.70]], index=range(0,3), columns=['Idade', 'Sexo', 'Peso', 'Altura'])
que cria o dataframe:
Idade Sexo Peso Altura
0 21 F 50 1.57
1 22 F 58 1.70
2 22 F 58 1.70
Veja que as linhas 1 e 2 estão duplicadas.
Nesse caso, vamos aplicar o df.duplicates()
:
duplicados = df.duplicated()
que retorna a series:
0 False
1 False
2 True
Agora, para saber a quantidade de dados duplicados, basta chamar a função sum()
em duplicados
:
duplicados.sum()
Que retorna a quantidade de registros duplicados, nesse caso 1
.
Espero ter ajudado! Bons estudos!!