ClassLabel
1 Usamos o tipo ClassLabel da biblioteca datasets da Hugging Face para representar as notas 0 a 10 .
from datasets import ClassLabel labels = [ str ( i ) for i in range ( 11 )] class_label = ClassLabel ( names = labels ) dataset = dataset . cast_column( "nota" , class_label )
Isso define uma coluna nota como aulas categóricas de 0 até 10 .
2️ Carregar modelo pré-treinado para classificação
Utilizamos um modelo baseado em DistilBERT para Sequence Classification .
Modelo:
Geotrend/distilbert-base-pt-cased
from transformers import AutoModelForSequenceClassification model = AutoModelForSequenceClassification . from_pretrained( "Geotrend/distilbert-base-pt-cased" , num_labels = 11 )
Aqui indicamos 11 turmas (0–10) .
3️ Preparar dados de treino e teste
Selecionamos as partes do conjunto de dados para treinamento e avaliação.
conjunto_de_dados_treino = conjunto_de_dados_tokenizado [ "treino" ] conjunto_de_dados_teste = conjunto_de_dados_tokenizado [ "teste" ]