5
respostas

Busca em pdf

bom dia, Alguém poderia me dar um exemplo de como fazer uma pesquisa em um documento PDF. Tenho uma tabela de clientes no banco e preciso ver se esses clientes aparece em um documento PDF.

5 respostas

Oi Iacy,

Tenho a impressão que o Elasticsearch não é a melhor ferramenta para tal tarefa. Deixa me perguntar, vc precisa saber se existe ou não um cliente no pdf, "apenas" isso?

quero dizer, vc tem vários outros recursos no elasticsearch que vc nao vai aproveitar. talvez a biblioteca Pdfbox para extrair o texto do pdf seja suficiente.

abs

Boa tarde, Nico Steppat!!! Obrigada pela ajuda. Segue alguns dos meus objetivos: - Verificar se existe no documento PDF, informações que tenho no meu banco, uma das informações são os clientes. - Tenho uma lista de palavras por exemplo: Campinas, município de Campinas, PMC e etc que eu gostaria de saber se existe no PDF. - Outra coisa é fazer uma Busca em vários PDF, como se fosse o google, buscando algumas informações. Obs: ao encontrar a informação no PDF, preciso capturar e jogar no meu banco.

Acredito que se você passar o conteúdo dos PDFs para o formato de JSON, que é o formato suportado pelo ES, e indexar estes arquivos no ES você irá conseguir fazer o que quer.

Então...Eu passo para o formato JSON por linha? Os PDF são tipo diário oficial.

Olá,

Você pode tentar o plugin https://github.com/elastic/elasticsearch-mapper-attachments e ver se ele resolve o que precisa.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software