Teria como gerar texto com base em entradas de arquivos pdf além de texto e imagem ? vi que tem a opção de prompt no proprio Google AI Studio, mas não consegui achar nenhum exemplo de código que eu consiga passar um arquivo pdf ou algo do tipo.
Teria como gerar texto com base em entradas de arquivos pdf além de texto e imagem ? vi que tem a opção de prompt no proprio Google AI Studio, mas não consegui achar nenhum exemplo de código que eu consiga passar um arquivo pdf ou algo do tipo.
Oi, Vitor, tudo bem?
É possível usar a multimodalidade do AI Studio da Google para anexar e analisar arquivos. Para isso, você pode clicar no ícone de mais ("+") ao lado esquerdo do campo para escrever seu prompt e selecionar a opção Upload to Drive.
Caso queira um código você pode usar uma biblioteca do Python para conseguir acessar o arquivo PDF e criar seu próprio código. Você pode testar a biblioteca PyPDF2.
Um exemplo seria usar o código:
pip install PyPDF2
Neste código estamos instalando a biblioteca com o comando pip install
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
number_of_pages = len(reader.pages)
page = reader.pages[0]
text = page.extract_text()
print(text)
Neste trecho, o PdfReader
acessa o documento PDF, a variável number_of_pages
armazena o número de páginas, o comando reader.pages[0]
acessa a primeira página do documento e pelo comando extract_text()
ele extrai o conteúdo textual da página PDF.
Espero ter ajudado. Caso tenha dúvidas, conte com o fórum. Abraços!
Bom dia,
Estou com a mesma dúvida do Vitor: como que o Gemini pode carregar programaticamente um PDF e interpretar texto e imagens, de forma a treinar a IA? Usando o PyPDF2 só vai aproveitar a parte de texto...
Oi, Carlos, tudo bem?
A interpretação de textos acontece através do processamento de linguagem natural (PLN), o Gemini extrai o texto do PDF. Isso envolve identificar e separar palavras, frases e parágrafos, levando em conta a formatação do documento. O texto extraído é então convertido em um formato que o Gemini pode entender.
Usando técnicas de visão computacional, o Gemini analisa as imagens do PDF. Ele identifica objetos, cenas e elementos visuais nas imagens. As informações extraídas das imagens são então convertidas em um formato que o Gemini pode processar.
O texto e as informações das imagens do PDF são integrados ao treinamento da IA do Gemini. O modelo aprende a reconhecer padrões, relações e significados no conteúdo do PDF, aprimorando sua capacidade de entender e gerar linguagem natural. Isso permite que o Gemini utilize PDFs para expandir seu conhecimento e melhorar suas habilidades linguísticas.
Espero ter ajudado. Caso tenha dúvidas, conte com o fórum. Abraços!