Oi Marianna! Como vai?
Fizemos a verificação dos conteúdos mas realmente não há vídeos faltantes. Porém para atender a esse seu feedback e ao de outros estudantes, já estamos em processo de regravação desse conteúdo, com um maior cuidado didático no roteiro e gravação.
Ou seja, em breve teremos todo esse conteúdo reformulado. Por hora, para que siga com seus estudos, vou tentar esclarecer suas dúvidas:
Para trabalhar com PDFs e aplicar chunks, você pode usar a biblioteca pypdf para ler e manipular arquivos PDF:
Instalação do PyPDF: Certifique-se de que o pypdf está instalado no seu ambiente. Você pode instalá-lo com o seguinte comando:
!pip install pypdf
Leitura de um PDF: Utilize o pypdf para abrir e ler o conteúdo de um arquivo PDF.
from PyPDF2 import PdfReader
reader = PdfReader("seu_arquivo.pdf")
for page in reader.pages:
texto = page.extract_text()
print(texto)
Divisão em Chunks: Após extrair o texto, você pode dividir o conteúdo em partes menores (chunks) para facilitar o processamento. Isso é especialmente útil quando você está usando o RAG, pois permite que você trabalhe com pedaços menores e mais gerenciáveis de informação.
def dividir_em_chunks(texto, tamanho_chunk=500):
return [texto[i:i + tamanho_chunk] for i in range(0, len(texto), tamanho_chunk)]
texto_completo = "Texto extraído do PDF"
chunks = dividir_em_chunks(texto_completo)
for chunk in chunks:
print(chunk)
Espero que este exemplo prático ajude a esclarecer como você pode começar a trabalhar com PDFs e aplicar chunks na implementação do RAG. Fique no aguardo pois em breve teremos um conteúdo atualizado desse curso!
Conte com nosso apoio. Um abraço e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado