Olá. Estou fazendo o download dos datasets e salvando no runtime do colab utilizando o seguinte código:
def download_data():
import requests
linguas_dataset = [
"portugues",
"espanhol",
"ingles"
]
base_file_name = "stackoverflow_{}.csv"
base_url = "https://caelum-online-public.s3.amazonaws.com/1321-nlp-modelos-linguagem/Dados+csv/{}"
for lingua in linguas_dataset:
file_name = base_file_name.format(lingua)
url = base_url.format(file_name)
with requests.get(url) as r:
with open(file_name, "w", encoding="utf8") as f:
f.write(r.text)
download_data()
Porém, quando realizo a leitura com o pandas (ou até mesmo quando abro os arquivos para vizualizar dentro do colab), tenho caracteres estranhos. Alguém sabe como posso resolver isso? Segue um exemplo do texto lido:
Se eu fizer o hash de senhas antes de armazená-las em meu banco de dados é suficiente para evitar que elas sejam recuperadas por alguém?
Estou falando apenas da recuperação diretamente do banco de dados e não qualquer outro tipo de ataque, como força bruta na página de login da aplicação, keylogger no cliente e criptoanálise rubberhose. Qualquer forma de hash não vai impedir esses ataques.
Tenho preocupação em dificultar ou até impossibilitar a obtenção das senhas originais caso o banco de dados seja comprometido. Como dar maior garantia de segurança neste aspecto?
Quais preocupações adicionais evitariam o acesso às senhas? Existem formas melhores de fazer esse hash?