Estou fazendo um projeto onde preciso retirar informações chave de arquivos .PDF, cada arquivo vem em um modelo diferente, pois se tratam de certidões, e cada cartorio emite essas certidões em um modelo. Porem as informações são sempre as mesmas(Porem escritas de forma diferente). Qual a melhor abordagem para extrarir essas informações desses documentos?
Exemplo: Emissor, Data de Vencimento, Credor, Quantidades penhoradas...
Não é possivel utilziar regex pois todas seguem um padrão diferente de como esta disposto essas informações no documento. A alternativa que achei até agora é treinar um modelo que identifica entidades nomeadas, porem estou sem tempo para criar uma base de treinamento, nomeando cada uma das entidades em cada documento.