Objetivo: pegar os eventos em http://www.bhaktiyogapura.com/2018/03/calendario-vaisnava-marco-2018/
A cada mês, a URL muda apenas o fina, por exemplo, em abril será:
http://www.bhaktiyogapura.com/2018/03/calendario-vaisnava-abril-2018/
import requests
from bs4 import BeautifulSoup
import re
url = 'http://www.bhaktiyogapura.com/2018/03/calendario-vaisnava-marco-2018/'
response = requests.get(url, verify=False)
data = response.text
#soup = BeautifulSoup(data, "html5lib")
soup = BeautifulSoup(data, "lxml")
# aqui você seleciona o que você quer recuperar
r = soup.find("div",{'class':'the_content_wrapper'})
p = r.find_all("p")
# Aqui você itera em todos os páragrafos da agenda.
for linha in p:
print(linha.text)
O código funciona mas imprime tudo. Gostaria de imprimir assim:
28 de Março 2018 – Quarta
Dvādaśī, G, 05:60, Maghā
-Quebra do jejum para Rio de Janeiro 05:60 às 09:58am
-Quebra do jejum para São Paulo: 06:13 às 10:12am
-Quebra do jejum para Brasília: 06:17 às 10:17am
-Quebra do jejum para Belo Horizonte: 06:02 às 10:01am
-Quebra do jejum para Vitória: 05:47 às 09:47am
Apenas as linhas que tem "-" no formato acima e não tudo! Alguma sugestão?