[Dúvida] Uso do distinct() com o .keep_all = T

Marcus Romano · 2025-01-22 14:19

Não entendi muito bem como essa função reduz a quantidade de linhas do dataframe. Por exemplo, se na tabela original de clientes existissem duas linhas para um mesmo cliente, uma com cashback da

Olá, tudo bem?

Quando utilizamos distinct() em um dataframe, estamos pedindo para que ele mantenha apenas as linhas únicas com base nas colunas especificadas. Neste caso, a coluna ID_cliente é a chave para identificar registros únicos.

Quando há múltiplas linhas para o mesmo valor de ID_cliente, como no seu exemplo com a coluna cashback tendo valores diferentes ("Sim" e "Não"), o distinct() não tem um critério interno para decidir qual linha manter. Ele simplesmente mantém a primeira ocorrência que encontrar no dataframe para aquele ID_cliente.

Se você precisa de uma maneira de lidar com esses valores diferentes (por exemplo, se você quer saber se pelo menos um dos registros tem cashback "Sim"), você pode usar funções como group_by() e summarise() para agregar os dados de forma que você possa decidir qual valor manter.

Espero ter ajudado.

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP