0
respostas

preparando o modelo para treinamento

ClassLabel

1 Usamos o tipo ClassLabel da biblioteca datasets da Hugging Face para representar as notas 0 a 10 .

from datasets import ClassLabel labels = [ str ( i ) for i in range ( 11 )] class_label = ClassLabel ( names = labels ) dataset = dataset . cast_column( "nota" , class_label )

Isso define uma coluna nota como aulas categóricas de 0 até 10 .

2️ Carregar modelo pré-treinado para classificação

Utilizamos um modelo baseado em DistilBERT para Sequence Classification .

Modelo:
Geotrend/distilbert-base-pt-cased

from transformers import AutoModelForSequenceClassification model = AutoModelForSequenceClassification . from_pretrained( "Geotrend/distilbert-base-pt-cased" , num_labels = 11 )

Aqui indicamos 11 turmas (0–10) .

3️ Preparar dados de treino e teste

Selecionamos as partes do conjunto de dados para treinamento e avaliação.

conjunto_de_dados_treino = conjunto_de_dados_tokenizado [ "treino" ] conjunto_de_dados_teste = conjunto_de_dados_tokenizado [ "teste" ]