1️ Leia uma base de dados CSV
Usando a biblioteca Hugging Face através do módulo datasets .
from datasets import load_dataset dataset = load_dataset ( "csv" , data_files = "redacoes.csv" )
2️ Dividir os dados em treino e teste
dataset_split = dataset [ "train" ] . train_test_split( test_size = 0.2 ) treino = dataset_split [ "train" ] teste = dataset_split [ "test" ]
Isso cria:
80% treino
20% teste
3️ Importar o tokenizador do modelo
Usamos o tokenizador do modelo DistilBERT treinado em português.
Modelo:
Geotrend/distilbert-base-pt-cased
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained ( "Geotrend/distilbert - base-pt-cased" )
4️ Tokenizar os textos
def tokenizar ( exemplo ): return tokenizer ( exemplo [ "texto" ], padding = "max_length" , truncation = True ) dataset_tokenizado = dataset_split . mapa ( tokenizar )