3
respostas

[Dúvida] Gerar a partir de um pdf

Teria como gerar texto com base em entradas de arquivos pdf além de texto e imagem ? vi que tem a opção de prompt no proprio Google AI Studio, mas não consegui achar nenhum exemplo de código que eu consiga passar um arquivo pdf ou algo do tipo.

3 respostas

Oi, Vitor, tudo bem?

É possível usar a multimodalidade do AI Studio da Google para anexar e analisar arquivos. Para isso, você pode clicar no ícone de mais ("+") ao lado esquerdo do campo para escrever seu prompt e selecionar a opção Upload to Drive.

Caso queira um código você pode usar uma biblioteca do Python para conseguir acessar o arquivo PDF e criar seu próprio código. Você pode testar a biblioteca PyPDF2.

Um exemplo seria usar o código:

pip install PyPDF2

Neste código estamos instalando a biblioteca com o comando pip install

from PyPDF2 import PdfReader

reader = PdfReader("example.pdf")
number_of_pages = len(reader.pages)
page = reader.pages[0]
text = page.extract_text()

print(text)

Neste trecho, o PdfReader acessa o documento PDF, a variável number_of_pages armazena o número de páginas, o comando reader.pages[0] acessa a primeira página do documento e pelo comando extract_text() ele extrai o conteúdo textual da página PDF.

Espero ter ajudado. Caso tenha dúvidas, conte com o fórum. Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Bom dia,

Estou com a mesma dúvida do Vitor: como que o Gemini pode carregar programaticamente um PDF e interpretar texto e imagens, de forma a treinar a IA? Usando o PyPDF2 só vai aproveitar a parte de texto...

Oi, Carlos, tudo bem?

A interpretação de textos acontece através do processamento de linguagem natural (PLN), o Gemini extrai o texto do PDF. Isso envolve identificar e separar palavras, frases e parágrafos, levando em conta a formatação do documento. O texto extraído é então convertido em um formato que o Gemini pode entender.

Usando técnicas de visão computacional, o Gemini analisa as imagens do PDF. Ele identifica objetos, cenas e elementos visuais nas imagens. As informações extraídas das imagens são então convertidas em um formato que o Gemini pode processar.

O texto e as informações das imagens do PDF são integrados ao treinamento da IA do Gemini. O modelo aprende a reconhecer padrões, relações e significados no conteúdo do PDF, aprimorando sua capacidade de entender e gerar linguagem natural. Isso permite que o Gemini utilize PDFs para expandir seu conhecimento e melhorar suas habilidades linguísticas.

Espero ter ajudado. Caso tenha dúvidas, conte com o fórum. Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!