Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

melhor forma de importar dados de vários arquivos pdf

Boa tarde a todos!

Tenho algumas tabelas que me foram enviadas por pdf. Gostaria de integra-las num único dataframe para tratar e analizar os dados. Vocês me indicam alguma biblioteca para fazer o import destes arquivos?

3 respostas
solução!

Boa tarde Marcelo,

Uma das bibliotecas mais conhecidas para ler tabelas em pdf é a tabula-py, o próprio criador da tabela disponibilizou esse notebook com um exemplo bem completo de uso.

Essa biblioteca já lê o pdf e retorna a tabela no formato de um DataFrame do pandas, mas é bom ficar atento ao resultado porque muitas vezes pode acontecer de ler algumas linhas ou colunas diferente do esperado, isso porque o processo de leitura e busca de tabelas em um pdf é algo complicado de ser feito com 100% de precisão, depende muito da organização das tabelas dentro do pdf. Assim provavelmente você terá que fazer algum tratamento nos dados após a leitura.

Para finalizar, essa biblioteca é baseada em uma ferramenta chamada tabula-java que é feita em java, assim você precisa ter o java 8 instalado onde o código está sendo executado.

obrigado Lucas!

Sem problemas Marcelo, só esqueci de mencionar que você vai ter que utilizar algo como o pd.concat(df) para ir juntando todos os DataFrames, já que vai receber um df para cada PDF.

Qualquer dúvida durante a criação desse código é só falar.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software