Boa tarde a todos!
Tenho algumas tabelas que me foram enviadas por pdf. Gostaria de integra-las num único dataframe para tratar e analizar os dados. Vocês me indicam alguma biblioteca para fazer o import destes arquivos?
Boa tarde a todos!
Tenho algumas tabelas que me foram enviadas por pdf. Gostaria de integra-las num único dataframe para tratar e analizar os dados. Vocês me indicam alguma biblioteca para fazer o import destes arquivos?
Boa tarde Marcelo,
Uma das bibliotecas mais conhecidas para ler tabelas em pdf é a tabula-py
, o próprio criador da tabela disponibilizou esse notebook com um exemplo bem completo de uso.
Essa biblioteca já lê o pdf e retorna a tabela no formato de um DataFrame do pandas, mas é bom ficar atento ao resultado porque muitas vezes pode acontecer de ler algumas linhas ou colunas diferente do esperado, isso porque o processo de leitura e busca de tabelas em um pdf é algo complicado de ser feito com 100% de precisão, depende muito da organização das tabelas dentro do pdf. Assim provavelmente você terá que fazer algum tratamento nos dados após a leitura.
Para finalizar, essa biblioteca é baseada em uma ferramenta chamada tabula-java
que é feita em java, assim você precisa ter o java 8 instalado onde o código está sendo executado.
obrigado Lucas!
Sem problemas Marcelo, só esqueci de mencionar que você vai ter que utilizar algo como o pd.concat(df)
para ir juntando todos os DataFrames, já que vai receber um df para cada PDF.
Qualquer dúvida durante a criação desse código é só falar.