1
resposta

Dúvida sobre Crawler

Boa tarde pessoal!

Estou com um desafio grande aqui na empresa e gostaria de um apoio. Preciso desenvolver Crawler para varrer alguns sites (sei que provavelmente será mais de um crawler) e trazerem dados relevantes ao negócio da empresa. Gostaria de saber se alguém possui algum material de apoio para auxilio desse desenvolvimento.

1 resposta

Scrapy ou BeautifulSoup

Exemplo simples com Scrapy

$ pip install scrapy

$ vi myspider.py

import scrapy

class BlogSpider(scrapy.Spider):
    name = 'blogspider'
    start_urls = ['https://blog.scrapinghub.com']

    def parse(self, response):
        for title in response.css('h2.entry-title'):
            yield {'title': title.css('a ::text').extract_first()}

        for next_page in response.css('div.prev-post > a'):
            yield response.follow(next_page, self.parse)

Executando o script

$ scrapy runspider myspider.py

Links:

Scrapy

BeautifulSoup

Tutorial Imasters

XPath for Crawling with Scrapy

Scraping fácil

Criando um bot de notícias para o Telegram usando Scrapy e Firebase