1
resposta

limpeza de dados de registros iguais.

Uma duvida sobre os arquivos .csv.
no universo de dados desses arquivos, existem varios registros duplicados, qual a maneira mais corretas de fazer essa limpeza utilizando o Power Query??

1 resposta

Olá, Adauton! Como vai?

Essa é uma dúvida excelente e muito comum quando trabalhamos com arquivos .csv, que costumam ser "depósitos" de dados brutos sem as restrições de integridade que um banco de dados SQL teria.

No Power Query (dentro do Power BI), existem duas formas principais de lidar com isso, dependendo do seu objetivo de negócio:


1. Remover Duplicatas (O Caminho Tradicional)

Esta é a técnica mais direta. Ela remove linhas que são idênticas, mantendo apenas a primeira ocorrência encontrada.

  • Como fazer:
  1. No Editor do Power Query, selecione as colunas que definem o que é um "registro igual" (pode ser apenas o ID ou o conjunto de todas as colunas).
  2. Clique com o botão direito no cabeçalho de uma das colunas selecionadas.
  3. Escolha Remover Duplicatas.

Dica de Ouro: O Power Query é Case Sensitive (diferencia maiúsculas de minúsculas). Se você tiver "Adauton" e "adauton", ele entenderá como registros diferentes. Antes de remover duplicatas, aplique uma transformação de Formatar -> Colocar Cada Palavra em Maiúscula ou Minúscula.


2. Agrupamento (Group By)

Se você tem registros duplicados, mas precisa realizar algum cálculo com eles (como somar valores ou saber qual foi a data mais recente de um pedido duplicado), o Agrupar Por é a melhor escolha.

  • Como fazer:
  1. Vá na guia Transformar e clique em Agrupar Por.
  2. Defina as colunas que identificam o registro único.
  3. Nas operações, você pode pedir a "Soma" de valores ou apenas "Todas as Linhas" para filtrar manualmente depois.

Qual a maneira mais correta?

Para arquivos .csv de grande volume no modo Import, a "maneira mais correta" envolve performance:

  1. Limpeza na Origem (Se possível): Se o .csv for gerado por você, tente filtrar antes.
  2. Remover Duplicatas por Coluna de ID: É mais rápido para o motor do Power BI processar a remoção baseada em uma única coluna de chave (como CPF, ID_Venda) do que comparar todas as colunas da linha.
  3. Mantenha o "Remover Duplicatas" no início: Tente colocar esse passo logo após a "Alteração de Tipo" de dados. Isso reduz a quantidade de dados que as etapas seguintes (como colunas calculadas) precisarão processar.

Cuidado técnico: Lembre-se que o Power Query mantém a primeira linha que ele encontra. Se a ordem dos dados no .csv mudar em uma atualização futura, a linha "sobrevivente" pode ser diferente (com uma data diferente, por exemplo). Se a precisão for crítica, ordene os dados (Ex: por data decrescente) antes de remover as duplicatas.

Você está lidando com duplicatas que são erros de sistema ou registros que se repetem naturalmente (como várias compras do mesmo cliente)?