[Dúvida] Extração de dados

Adilson Medeiros De Araujo · 2024-08-16 23:59

Olá pessoal Estou trabalhando em um projeto que envolve a extração de dados de PDF muito desses dados estão em tabela. Pra sua manipulação estou usando ITexSharp pra extrair o texto do pdf

Olá Adilson, tudo bem?

O iTextSharp é uma ferramenta poderosa, mas existem outras abordagens e bibliotecas que podem facilitar esse processo.

Uma alternativa que você pode considerar é a biblioteca Tabula. Ela é especialmente projetada para extrair tabelas de PDFs e pode ser mais eficiente para o seu caso. O Tabula possui uma versão em Java e uma interface web, mas também existem bindings para outras linguagens, como Python.

Aqui está um exemplo básico de como você pode usar o Tabula em Python:

Primeiro, você precisa instalar a biblioteca Tabula:
```
pip install tabula-py
```

Em seguida, você pode usar o seguinte código para extrair uma tabela de um PDF:

import tabula

# Extraindo todas as tabelas do PDF
tabelas = tabula.read_pdf("seu_arquivo.pdf", pages='all')

# Exibindo a primeira tabela extraída
print(tabelas[0])

Se você prefere continuar com C# e iTextSharp, uma abordagem que pode ajudar é usar a combinação de iTextSharp com outras bibliotecas de processamento de texto, como o PdfPig. O PdfPig pode ser útil para extrair texto de maneira mais estruturada.

Aqui está um exemplo básico de como você pode usar o PdfPig para extrair texto de um PDF em C#:

Primeiro, instale o PdfPig via NuGet:
```
Install-Package UglyToad.PdfPig
```

Em seguida, você pode usar o seguinte código para extrair o texto:

using UglyToad.PdfPig;
using UglyToad.PdfPig.Content;

string path = "seu_arquivo.pdf";

using (PdfDocument document = PdfDocument.Open(path))
{
    foreach (Page page in document.GetPages())
    {
        string text = page.Text;
        Console.WriteLine(text);
    }
}

Essas são apenas algumas sugestões que podem facilitar o seu trabalho com a extração de dados de PDFs.

Espero ter ajudado e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP