[Dúvida] Gerar a partir de um pdf

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

3
respostas

por Vitor Roberto Gomes Queiroz

| 17.9k xp | 6 posts

Teria como gerar texto com base em entradas de arquivos pdf além de texto e imagem ? vi que tem a opção de prompt no proprio Google AI Studio, mas não consegui achar nenhum exemplo de código que eu consiga passar um arquivo pdf ou algo do tipo.

3 respostas

por RODRIGO SILVA HARDER

| 2314.7k xp | 4888 posts

14/05/2024

Oi, Vitor, tudo bem?

É possível usar a multimodalidade do AI Studio da Google para anexar e analisar arquivos. Para isso, você pode clicar no ícone de mais ("+") ao lado esquerdo do campo para escrever seu prompt e selecionar a opção Upload to Drive.

Caso queira um código você pode usar uma biblioteca do Python para conseguir acessar o arquivo PDF e criar seu próprio código. Você pode testar a biblioteca PyPDF2.

Um exemplo seria usar o código:

pip install PyPDF2

Neste código estamos instalando a biblioteca com o comando pip install

from PyPDF2 import PdfReader

reader = PdfReader("example.pdf")
number_of_pages = len(reader.pages)
page = reader.pages[0]
text = page.extract_text()

print(text)

Neste trecho, o PdfReader acessa o documento PDF, a variável number_of_pages armazena o número de páginas, o comando reader.pages[0] acessa a primeira página do documento e pelo comando extract_text() ele extrai o conteúdo textual da página PDF.

Espero ter ajudado. Caso tenha dúvidas, conte com o fórum. Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

por Carlos Kleber da Costa Arruda

| 41.2k xp | 2 posts

21/05/2024

Bom dia,

Estou com a mesma dúvida do Vitor: como que o Gemini pode carregar programaticamente um PDF e interpretar texto e imagens, de forma a treinar a IA? Usando o PyPDF2 só vai aproveitar a parte de texto...

por RODRIGO SILVA HARDER

| 2314.7k xp | 4888 posts

23/05/2024

Oi, Carlos, tudo bem?

A interpretação de textos acontece através do processamento de linguagem natural (PLN), o Gemini extrai o texto do PDF. Isso envolve identificar e separar palavras, frases e parágrafos, levando em conta a formatação do documento. O texto extraído é então convertido em um formato que o Gemini pode entender.

Usando técnicas de visão computacional, o Gemini analisa as imagens do PDF. Ele identifica objetos, cenas e elementos visuais nas imagens. As informações extraídas das imagens são então convertidas em um formato que o Gemini pode processar.

O texto e as informações das imagens do PDF são integrados ao treinamento da IA do Gemini. O modelo aprende a reconhecer padrões, relações e significados no conteúdo do PDF, aprimorando sua capacidade de entender e gerar linguagem natural. Isso permite que o Gemini utilize PDFs para expandir seu conhecimento e melhorar suas habilidades linguísticas.

Espero ter ajudado. Caso tenha dúvidas, conte com o fórum. Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP