[Dúvida] Qual o melhor modelo/biblioteca

Estou fazendo um projeto onde preciso retirar informações chave de arquivos .PDF, cada arquivo vem em um modelo diferente, pois se tratam de certidões, e cada cartorio emite essas certidões em um modelo. Porem as informações são sempre as mesmas(Porem escritas de forma diferente). Qual a melhor abordagem para extrarir essas informações desses documentos?

Exemplo: Emissor, Data de Vencimento, Credor, Quantidades penhoradas...

Não é possivel utilziar regex pois todas seguem um padrão diferente de como esta disposto essas informações no documento. A alternativa que achei até agora é treinar um modelo que identifica entidades nomeadas, porem estou sem tempo para criar uma base de treinamento, nomeando cada uma das entidades em cada documento.

Oi, Augusto, tudo bem?

Para o seu caso, uma abordagem eficaz é utilizar bibliotecas de Processamento de Linguagem Natural (PLN) com modelos pré-treinados para reconhecimento de entidades nomeadas (NER). Isso pode te poupar o trabalho de criar uma base de treinamento do zero.

Recomendo começar com a spaCy, uma biblioteca poderosa para PLN em Python. Ela oferece modelos pré-treinados que podem reconhecer entidades como datas, nomes de pessoas e organizações. O modelo padrão é um bom ponto de partida e pode ser ajustado conforme suas necessidades específicas.

Outra opção é a biblioteca transformers da Hugging Face, que disponibiliza modelos como BERT, altamente eficazes para tarefas de NER. Eles oferecem modelos pré-treinados para várias línguas, incluindo o português.

Para a conversão de PDFs para texto, sugiro testar a PyMuPDF. Ela pode ajudar a converter o conteúdo dos PDFs em texto bruto, facilitando a extração das informações.

Essas ferramentas podem te ajudar a extrair informações chave de documentos, mas destaco que, dependendo da precisão desejada, pode ser necessário ajustar ou complementar os modelos com dados específicos do seu domínio.

Espero ter ajudado.

Qualquer dúvida, compartilhe no fórum.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Importante

[Dúvida] Qual o melhor modelo/biblioteca

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP