Oi, Bruno! Tudo bom?
Desculpe a demora em te responder.
Com base no seu objetivo, recomendo utilizar a biblioteca tabula-py
, que é uma ferramenta para extrair tabelas de PDFs para DataFrame. Podemos instalá-la usando o comando pip
:
!pip install tabula-py
Depois de instalado, podemos importar a biblioteca e usar a função read_pdf
para ler o PDF.
import tabula
arquivo = "https://www.iades.com.br/inscricao/upload/321/20230616155351942.pdf"
tabelas = tabula.read_pdf(arquivo, pages="all")
A função read_pdf
retorna uma lista de DataFrames, onde cada um representa uma tabela do PDF — como o arquivo é grande, talvez a leitura demore um pouquinho para ser finalizada!
A fim de unir todas as tabelas obtidas em um único DataFrame, podemos utilizar a biblioteca pandas
e o seu método concat
:
import pandas as pd
df = pd.concat(tabelas, ignore_index=True)
Após essas ações, todos os dados contidos no PDF serão organizados em linhas e colunas, seguindo o padrão de um DataFrame. A partir disso, podemos organizar a análise com base no nome das pessoas candidatas e de suas respectivas notas objetivas.
Bruno, durante as nossas análises de dados, é muito importante pensarmos nas etapas de tratamento e exploração. Caso queira enriquecer a sua atividade, recomendo acompanhar a formação abaixo:
Espero ter ajudado com minha explicação! No entanto, vale ressaltar que como é um assunto externo aos cursos da Alura e que não tenho acesso ao cenário completo do projeto, outros testes terão de ser feitos a fim de obter o resultado esperado, mas espero que esta resposta seja um bom ponto de partida para a resolução do seu problema!
Abraços.
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!