Olá, eu costumo trabalhar com tabelas de milhares de dados, dentro da transformação de arquivos csv, acabo perdendo algumas linhas de dados, isso é normal?
Olá, eu costumo trabalhar com tabelas de milhares de dados, dentro da transformação de arquivos csv, acabo perdendo algumas linhas de dados, isso é normal?
Perder linhas ao transformar CSV não é “normal”, mas é comum quando o parser encontra alguma inconsistência. As causas mais frequentes:
1 - Delimitador/aspas inconsistentes
• O arquivo usa ; e você lê como , (ou vice-versa).
• Campos com vírgula dentro de texto não estão corretamente entre aspas ("...").
• Falta/ excesso de aspas faz o parser “juntar” linhas.
2 - Quebra de linha dentro do campo
• Endereços/observações com \n sem aspas geram “linhas a mais/menos”.
3 - Encoding e BOM
• utf-8 vs latin-1 ou presença de BOM na primeira linha atrapalham o cabeçalho.
4 - Número de colunas variável
• Linhas com colunas a mais/menos acabam sendo descartadas dependendo da configuração.
5 - Linhas “ruins” sendo puladas sem você notar
• algumas ferramentas usam “skip silently” por padrão.
6 - Planilhas
Abrir no Excel antes de tratar pode truncar zeros à esquerda, datas, etc.
Eu costumo fazer assim para não perder linhas em CSV:
1 - Confiro o total de linhas de verdade no arquivo (wc -l no terminal ou abrindo num editor) pra ter um número de referência.
2 - Dou uma olhada nas linhas “suspeitas” (umas 10–20) pra checar delimitador e aspas.
3 - Padronizo fim de linha e encoding (CRLF vs LF e UTF-8 vs Latin-1) antes de importar.
4 - Se vejo colunas a mais/menos em algumas linhas, trato antes (regex/Power Query/script) ou leio com on_bad_lines="error" pra descobrir exatamente onde está quebrando.
5 - No Power Query, deixo Delimitador, Cotações e Tipo de Dados pro final do fluxo, pra evitar bagunça no meio do caminho.