Preciso criar um agente que busca informações na web(faça tipo um web scraping, mas para vários sites), quais são as maneiras de fazer isso?
Preciso criar um agente que busca informações na web(faça tipo um web scraping, mas para vários sites), quais são as maneiras de fazer isso?
Oi, Felipe, tudo bem?
Existem algumas maneiras de criar um agente que busca informações na web, e a escolha da abordagem ideal depende muito do seu objetivo, da estrutura dos sites e das limitações técnicas ou legais.
Uma forma comum de fazer isso é por meio do web scraping, onde um script automatizado acessa sites e extrai informações diretamente do código HTML. Para isso, usamos ferramentas como o BeautifulSoup (para sites mais simples) ou o Selenium e Playwright (para sites que carregam conteúdo com JavaScript). Já em contextos mais avançados ou em larga escala, existe o Scrapy, que permite estruturar melhor o scraping em múltiplos sites.
Outra opção interessante é verificar se os sites que você quer acessar oferecem uma API pública. APIs são interfaces oficiais e padronizadas que permitem buscar dados de forma mais segura, estruturada e ética, geralmente, é a forma mais recomendada quando está disponível.
Mas, vale lembrar que cada site tem suas próprias regras de uso, então é importante verificar os termos de uso para garantir que o scraping seja permitido.
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!
Claro. Entretanto, eu queria usar LLM para fazer as buscas, não queria fazer web scraping. Tem sugestões?
Oi, Felipe!
Desculpe pela demora do retorno.
Enntendi melhor agora, obrigada pelo esclarecimento! Você quer usar LLMs para consultar informações da web, e não fazer scraping tradicional. Legal! Essa abordagem tem ganhado bastante destaque com ferramentas como o LangChain, LlamaIndex e Haystack.
Essas ferramentas permitem conectar LLMs (como o GPT) a fontes externas de dados, inclusive à web. Algumas sugestões de caminhos que você pode explorar:
LangChain (Python): permite integrar LLMs com mecanismos de busca, bancos de dados e até ferramentas como o SerpAPI (que simula uma busca no Google).
LlamaIndex (antigo GPT Index): foca em construir índices a partir de documentos (inclusive de sites) para consultas via LLM.
Haystack (da empresa de NLP chamada Deepset): voltado para sistemas de perguntas e respostas, integrando LLMs com buscadores, bancos de dados, etc.
Ferramentas auxiliares: se quiser conectar com resultados de busca do Google ou Bing, pode usar APIs como:
Em muitos desses casos, o fluxo fica algo como:
Abraços e bons estudos!
Os links estão em inglês, mas você pode usar a tradução automática do navegador para acompanhar sem problemas.