# -*- coding: utf-8 -*-
"""
Created on Mon Apr 20 11:31:23 2020
@author: mathe
"""
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError
#definição da função para tratar os html
#transformando o html de bytes para string
def TrataHtml(input):
input = input.decode('utf-8')
#eliminando caracteres de tabulação, quebras de linhas
input = input.split()
#print(html)
#eliminando as quebras através do método join
input = " ".join(input)
#eliminando os espaços em branco entre as tags
input = input.replace('> <', '><')
return input
#atribuir variável correspondente
url = 'https://alura.com.br'
cabeçalho = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}
#def requisição(pagina)
#bloco de try para apontar os eventuais erros da família 400 ou de execução
try:
req = Request(url, headers=cabeçalho)
response = urlopen(req)
html = response.read()
#type(html)
except HTTPError as e:
print(e.status, e.reason)
except URLError as e:
print(e.reason)
print(type (html))
TrataHtml(html)
print(html)