1
resposta

Não há nenhuma explicação sobre o uso do pypdf e aplicação de chunks na aula 1

Não há nenhuma explicação sobre a parte dos pdfs e aplicação de chunks. Foi mostrado na prática da aula 1 apenas os problemas do prompt genérico. Falta o resto da aula sobre a implementação da arquitetura RAG. O conteúdo ficou meio incompleto sem isso

1 resposta

Oi Marianna! Como vai?

Fizemos a verificação dos conteúdos mas realmente não há vídeos faltantes. Porém para atender a esse seu feedback e ao de outros estudantes, já estamos em processo de regravação desse conteúdo, com um maior cuidado didático no roteiro e gravação.

Ou seja, em breve teremos todo esse conteúdo reformulado. Por hora, para que siga com seus estudos, vou tentar esclarecer suas dúvidas:

Para trabalhar com PDFs e aplicar chunks, você pode usar a biblioteca pypdf para ler e manipular arquivos PDF:

  1. Instalação do PyPDF: Certifique-se de que o pypdf está instalado no seu ambiente. Você pode instalá-lo com o seguinte comando:

    !pip install pypdf
    
  2. Leitura de um PDF: Utilize o pypdf para abrir e ler o conteúdo de um arquivo PDF.

    from PyPDF2 import PdfReader
    
    reader = PdfReader("seu_arquivo.pdf")
    for page in reader.pages:
        texto = page.extract_text()
        print(texto)
    
  3. Divisão em Chunks: Após extrair o texto, você pode dividir o conteúdo em partes menores (chunks) para facilitar o processamento. Isso é especialmente útil quando você está usando o RAG, pois permite que você trabalhe com pedaços menores e mais gerenciáveis de informação.

    def dividir_em_chunks(texto, tamanho_chunk=500):
        return [texto[i:i + tamanho_chunk] for i in range(0, len(texto), tamanho_chunk)]
    
    texto_completo = "Texto extraído do PDF"
    chunks = dividir_em_chunks(texto_completo)
    for chunk in chunks:
        print(chunk)
    

Espero que este exemplo prático ajude a esclarecer como você pode começar a trabalhar com PDFs e aplicar chunks na implementação do RAG. Fique no aguardo pois em breve teremos um conteúdo atualizado desse curso!

Conte com nosso apoio. Um abraço e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado