1
resposta

[Projeto] Estou tentando utilizar os dados mas eles não aparecem em colunas

https://www.iades.com.br/inscricao/upload/321/20230616155351942.pdf

Estou usando essa lista de concurso para um projeto pessoal, gostaria separar por valor da nota objetiva e nome do candidato, estou enfrentando dificuldades fazendo isso...

O meu problema é que os dados não estão ficando em colunas... se alguem quiser me ajudar agradeço. Se puder fazer o passo a passo pelo jupyter notebook... obrigado

Qualquer coisa me chama no privado https://www.linkedin.com/in/brunoportugalcode/.

1 resposta

Oi, Bruno! Tudo bom?

Desculpe a demora em te responder.

Com base no seu objetivo, recomendo utilizar a biblioteca tabula-py, que é uma ferramenta para extrair tabelas de PDFs para DataFrame. Podemos instalá-la usando o comando pip:

!pip install tabula-py

Depois de instalado, podemos importar a biblioteca e usar a função read_pdf para ler o PDF.

import tabula
arquivo = "https://www.iades.com.br/inscricao/upload/321/20230616155351942.pdf"
tabelas = tabula.read_pdf(arquivo, pages="all")

A função read_pdf retorna uma lista de DataFrames, onde cada um representa uma tabela do PDF — como o arquivo é grande, talvez a leitura demore um pouquinho para ser finalizada!

A fim de unir todas as tabelas obtidas em um único DataFrame, podemos utilizar a biblioteca pandas e o seu método concat:

import pandas as pd
df = pd.concat(tabelas, ignore_index=True)

Após essas ações, todos os dados contidos no PDF serão organizados em linhas e colunas, seguindo o padrão de um DataFrame. A partir disso, podemos organizar a análise com base no nome das pessoas candidatas e de suas respectivas notas objetivas.

Bruno, durante as nossas análises de dados, é muito importante pensarmos nas etapas de tratamento e exploração. Caso queira enriquecer a sua atividade, recomendo acompanhar a formação abaixo:

Espero ter ajudado com minha explicação! No entanto, vale ressaltar que como é um assunto externo aos cursos da Alura e que não tenho acesso ao cenário completo do projeto, outros testes terão de ser feitos a fim de obter o resultado esperado, mas espero que esta resposta seja um bom ponto de partida para a resolução do seu problema!

Abraços.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!