1
resposta

Extração de informações Pdf com php

Pessoal,

eu precisaria extrair as informações da linha inteira de um pdf conforme imagem abaixo e enviar separadamente cada item para um array utilizando php.

Alguém poderia me dar uma solução utilizando regex ou alguma função str, etc.. de uma maneira que ele traga corretamente cada item certinho sem cortar informações?

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

1 resposta

Se você está usando Linux, pode na maioria das vezes usar a solução que eu uso no dia a dia: "terceirizar" essa atividade pro SO.

Uso o poppler-utils pra transformar PDF em TXT. Depois eu trato o TXT em PHP:

sudo apt-get update
sudo apt-get install poppler-utils

Para converter PDF em TXT, faça o PHP executar o seguinte comando do terminal:

pdftotext arquivo.pdf novo-arquivo.txt

Depois disso, fica bem mais fácil, porque você vai tratar dados em TXT.

Lembro que nem sempre isso resolve o problema. Depende de uma série de fatores, sobretudo em relação a como o PDF foi gerado.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software