Bom dia, voces sabem qual tecnologia eu uso para consultar diariamente dados de um site? Ex: Consultar diariamente o Diario Oficinal da Uniao e pegar os dados disponiveis
Bom dia, voces sabem qual tecnologia eu uso para consultar diariamente dados de um site? Ex: Consultar diariamente o Diario Oficinal da Uniao e pegar os dados disponiveis
Se você quer copiar o conteúdo de um site, o que você quer fazer é um webcrawler.
Existem várias tecnologias que podem fazer isso. Seguem dois exemplos, um em C# e outro em PHP.
http://netcoders.com.br/blog/web-crawler-introducao-e-passos-iniciais/
http://www.kodingmadesimple.com/2015/12/how-to-build-simple-web-crawler-in-php.html
Daniel, estou trabalhando em um projeto de desenvolvimento de um sistema de advocacia que ira fazer consulta do Diário Oficial nos tribunais por palavras-chaves e a consulta dos andamentos processuais no site do tribunal, o web crawler me ajudaria nisso?
JSON me ajudaria nesse desenvolvimento?
Fala Jackson,
Sim, um crawler é o que você precisa. Em qual linguagem você está desenvolvendo seu sistema?
Se for em Python, vai ser moleza, tem uma lib chamada requests, tu pode instalar ela e ai basta trabalhar nas requisições e retorno de dados para o seu sistema.
Faz algum tempo que desenvolvi um crawler para extrair as notícias de um site que vai ser migrado para uma versão mais moderna (não foi feito um dump por burocracia da empresa, então foi necessário o crawler).
No meu caso, eu tinha uma lista de todas as notícias do site (cerca de 6.000) e eu precisava converter os dados recebidos para .impex (uma linguagem semelhante ao SQL).
Se quiser dar uma estudada no código, está aqui, está uma bagunça!
O conceito é bem simples, leio um arquivo que tem as urls que preciso extrair, faço uma requisição para a página com o requests
, faço um parse dos dados com Beautiful Soup
e depois mando para o gerador de impex
.
Acho que o que você precisa é mais simples ainda, uma requisição que vai te retornar os dados e você vai fazer o que quiser com ele.
Veja um exemplo em Python
#!/usr/bin/env python3
from bs4 import BeautifulSoup
import requests
request = requests.get('http://www12.senado.leg.br/hpsenado')
document = BeautifulSoup(request.text, 'html.parser')
accordion = document.select('#accordion .panel .panel-body')[0]
title = accordion.select('a')[0].string
print(title)
Para rodar o exemplo você vai precisar da lib requests
e BeautifulSoup
Este exemplo vai no site do Senado Federal e busca o título da primeira notícia, ali nas últimas notícias
Existe como fazer crawlers em outras linguagens também, mas você vai precisar dar uma pesquisada ai
Boa tarde, Wagner,
Então, estou utilizando a linguagem PHP, e acredito que isso resolvera meu problema!
Obrigado, Wagner, vou da rum pesquisada!
Agradeço a solução de todos envolvidos no tópico