Enconding dos arquivos

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

por Otávio Augusto Cartaxo Araújo

| 380.9k xp | 62 posts

Mid Backend Developer

Olá. Estou fazendo o download dos datasets e salvando no runtime do colab utilizando o seguinte código:

def download_data():

  import requests

  linguas_dataset = [
              "portugues",
              "espanhol",
              "ingles"
  ]


  base_file_name = "stackoverflow_{}.csv"
  base_url = "https://caelum-online-public.s3.amazonaws.com/1321-nlp-modelos-linguagem/Dados+csv/{}"

  for lingua in linguas_dataset:

    file_name = base_file_name.format(lingua)
    url = base_url.format(file_name)

    with requests.get(url) as r:
      with open(file_name, "w", encoding="utf8") as f:
        f.write(r.text)


download_data()

Porém, quando realizo a leitura com o pandas (ou até mesmo quando abro os arquivos para vizualizar dentro do colab), tenho caracteres estranhos. Alguém sabe como posso resolver isso? Segue um exemplo do texto lido:

Se eu fizer o hash de senhas antes de armazenÃ¡-las em meu banco de dados Ã© suficiente para evitar que elas sejam recuperadas por alguÃ©m?

Estou falando apenas da recuperaÃ§Ã£o diretamente do banco de dados e nÃ£o qualquer outro tipo de ataque, como forÃ§a bruta na pÃ¡gina de login da aplicaÃ§Ã£o, keylogger no cliente e criptoanÃ¡lise rubberhose. Qualquer forma de hash nÃ£o vai impedir esses ataques.

Tenho preocupaÃ§Ã£o em dificultar ou atÃ© impossibilitar a obtenÃ§Ã£o das senhas originais caso o banco de dados seja comprometido. Como dar maior garantia de seguranÃ§a neste aspecto?

Quais preocupaÃ§Ãµes adicionais evitariam o acesso Ã s senhas? Existem formas melhores de fazer esse hash?

2 respostas

por Otávio Augusto Cartaxo Araújo

| 380.9k xp | 62 posts

Mid Backend Developer

06/07/2021

Atualizando o post:

Quando acesso o conteúdo textual de um requisição através do r.text, o enconding retornado no headers dessa requisição é utilizado para acessar esse atributo. Podemos verificar isso usando r.encoding. Além disso, podemos alterar esse encoding, e sempre quando fizermos r.text o Requests utilizará esse encoding.

Se alguém tiver outra solução, eu gostaria de saber =D.

solução!

por Nádia Oliveira

| 1487.9k xp | 2381 posts

Instrutor

18/11/2021

Oii Otávio, como você está?

Sinto muito pela demora em obter um retorno.

Sua abordagem de descobrir o encoding pela requisição está correto. Porém, é necessário alterar o parâmetro encoding para o que foi retornado na requisição, que é o ISO-8859-1 ou simplesmente latin1, como mostro abaixo:

with open(file_name, "w", encoding="latin1") as f:

Na documentação do Python é possível verificar as codificações e suas respectivas linguagens, em muitos casos a descoberta do encoding é um processo de tentativa e erro. Os mais utilizados são: utf-8, latin1 e cp1252.

Qualquer dúvida fico à disposição.

Abraço e bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP