Solucionado (ver solução)
Solucionado
(ver solução)
5
respostas

Consultar dados de site

Bom dia, voces sabem qual tecnologia eu uso para consultar diariamente dados de um site? Ex: Consultar diariamente o Diario Oficinal da Uniao e pegar os dados disponiveis

5 respostas

Se você quer copiar o conteúdo de um site, o que você quer fazer é um webcrawler.

Existem várias tecnologias que podem fazer isso. Seguem dois exemplos, um em C# e outro em PHP.

http://netcoders.com.br/blog/web-crawler-introducao-e-passos-iniciais/

http://www.kodingmadesimple.com/2015/12/how-to-build-simple-web-crawler-in-php.html

Daniel, estou trabalhando em um projeto de desenvolvimento de um sistema de advocacia que ira fazer consulta do Diário Oficial nos tribunais por palavras-chaves e a consulta dos andamentos processuais no site do tribunal, o web crawler me ajudaria nisso?

JSON me ajudaria nesse desenvolvimento?

solução!

Fala Jackson,

Sim, um crawler é o que você precisa. Em qual linguagem você está desenvolvendo seu sistema?

Se for em Python, vai ser moleza, tem uma lib chamada requests, tu pode instalar ela e ai basta trabalhar nas requisições e retorno de dados para o seu sistema.

Faz algum tempo que desenvolvi um crawler para extrair as notícias de um site que vai ser migrado para uma versão mais moderna (não foi feito um dump por burocracia da empresa, então foi necessário o crawler).

No meu caso, eu tinha uma lista de todas as notícias do site (cerca de 6.000) e eu precisava converter os dados recebidos para .impex (uma linguagem semelhante ao SQL).

Se quiser dar uma estudada no código, está aqui, está uma bagunça!

O conceito é bem simples, leio um arquivo que tem as urls que preciso extrair, faço uma requisição para a página com o requests, faço um parse dos dados com Beautiful Soup e depois mando para o gerador de impex.

Acho que o que você precisa é mais simples ainda, uma requisição que vai te retornar os dados e você vai fazer o que quiser com ele.

Veja um exemplo em Python

#!/usr/bin/env python3

from bs4 import BeautifulSoup
import requests

request = requests.get('http://www12.senado.leg.br/hpsenado')
document = BeautifulSoup(request.text, 'html.parser')
accordion = document.select('#accordion .panel .panel-body')[0]
title = accordion.select('a')[0].string

print(title)

Para rodar o exemplo você vai precisar da lib requests e BeautifulSoup

Este exemplo vai no site do Senado Federal e busca o título da primeira notícia, ali nas últimas notícias

Existe como fazer crawlers em outras linguagens também, mas você vai precisar dar uma pesquisada ai

Boa tarde, Wagner,

Então, estou utilizando a linguagem PHP, e acredito que isso resolvera meu problema!

Obrigado, Wagner, vou da rum pesquisada!

Agradeço a solução de todos envolvidos no tópico

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software