Olá, tudo bem?
Quando utilizamos distinct()
em um dataframe, estamos pedindo para que ele mantenha apenas as linhas únicas com base nas colunas especificadas. Neste caso, a coluna ID_cliente
é a chave para identificar registros únicos.
Quando há múltiplas linhas para o mesmo valor de ID_cliente
, como no seu exemplo com a coluna cashback
tendo valores diferentes ("Sim" e "Não"), o distinct()
não tem um critério interno para decidir qual linha manter. Ele simplesmente mantém a primeira ocorrência que encontrar no dataframe para aquele ID_cliente
.
Se você precisa de uma maneira de lidar com esses valores diferentes (por exemplo, se você quer saber se pelo menos um dos registros tem cashback "Sim"), você pode
usar funções como group_by()
e summarise()
para agregar os dados de forma que você possa decidir qual valor manter.
Espero ter ajudado.
Qualquer dúvida, não hesite em compartilhar no fórum.
Abraços!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado