Uma duvida sobre os arquivos .csv.
no universo de dados desses arquivos, existem varios registros duplicados, qual a maneira mais corretas de fazer essa limpeza utilizando o Power Query??
Uma duvida sobre os arquivos .csv.
no universo de dados desses arquivos, existem varios registros duplicados, qual a maneira mais corretas de fazer essa limpeza utilizando o Power Query??
Olá, Adauton! Como vai?
Essa é uma dúvida excelente e muito comum quando trabalhamos com arquivos .csv, que costumam ser "depósitos" de dados brutos sem as restrições de integridade que um banco de dados SQL teria.
No Power Query (dentro do Power BI), existem duas formas principais de lidar com isso, dependendo do seu objetivo de negócio:
Esta é a técnica mais direta. Ela remove linhas que são idênticas, mantendo apenas a primeira ocorrência encontrada.
Dica de Ouro: O Power Query é Case Sensitive (diferencia maiúsculas de minúsculas). Se você tiver "Adauton" e "adauton", ele entenderá como registros diferentes. Antes de remover duplicatas, aplique uma transformação de Formatar -> Colocar Cada Palavra em Maiúscula ou Minúscula.
Se você tem registros duplicados, mas precisa realizar algum cálculo com eles (como somar valores ou saber qual foi a data mais recente de um pedido duplicado), o Agrupar Por é a melhor escolha.
Para arquivos .csv de grande volume no modo Import, a "maneira mais correta" envolve performance:
Cuidado técnico: Lembre-se que o Power Query mantém a primeira linha que ele encontra. Se a ordem dos dados no .csv mudar em uma atualização futura, a linha "sobrevivente" pode ser diferente (com uma data diferente, por exemplo). Se a precisão for crítica, ordene os dados (Ex: por data decrescente) antes de remover as duplicatas.
Você está lidando com duplicatas que são erros de sistema ou registros que se repetem naturalmente (como várias compras do mesmo cliente)?