0
respostas

[Projeto] transformação de dados de texto para modelos de IA

1️ Leia uma base de dados CSV

Usando a biblioteca Hugging Face através do módulo datasets .

from datasets import load_dataset dataset = load_dataset ( "csv" , data_files = "redacoes.csv" )

2️ Dividir os dados em treino e teste
dataset_split = dataset [ "train" ] . train_test_split( test_size = 0.2 ) treino = dataset_split [ "train" ] teste = dataset_split [ "test" ]

Isso cria:

80% treino

20% teste

3️ Importar o tokenizador do modelo

Usamos o tokenizador do modelo DistilBERT treinado em português.

Modelo:
Geotrend/distilbert-base-pt-cased

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained ( "Geotrend/distilbert - base-pt-cased" )

4️ Tokenizar os textos
def tokenizar ( exemplo ): return tokenizer ( exemplo [ "texto" ], padding = "max_length" , truncation = True ) dataset_tokenizado = dataset_split . mapa ( tokenizar )