1
resposta

preparando o modelo para treinamento

ClassLabel

1 Usamos o tipo ClassLabel da biblioteca datasets da Hugging Face para representar as notas 0 a 10 .

from datasets import ClassLabel labels = [ str ( i ) for i in range ( 11 )] class_label = ClassLabel ( names = labels ) dataset = dataset . cast_column( "nota" , class_label )

Isso define uma coluna nota como aulas categóricas de 0 até 10 .

2️ Carregar modelo pré-treinado para classificação

Utilizamos um modelo baseado em DistilBERT para Sequence Classification .

Modelo:
Geotrend/distilbert-base-pt-cased

from transformers import AutoModelForSequenceClassification model = AutoModelForSequenceClassification . from_pretrained( "Geotrend/distilbert-base-pt-cased" , num_labels = 11 )

Aqui indicamos 11 turmas (0–10) .

3️ Preparar dados de treino e teste

Selecionamos as partes do conjunto de dados para treinamento e avaliação.

conjunto_de_dados_treino = conjunto_de_dados_tokenizado [ "treino" ] conjunto_de_dados_teste = conjunto_de_dados_tokenizado [ "teste" ]

1 resposta

Olá, Moacir! Como vai?

Parabéns pela resolução da atividade!

Observei que você explorou o uso do ClassLabel para transformar valores numéricos em categorias com Python, utilizou muito bem o AutoModelForSequenceClassification para configurar o modelo pré-treinado e ainda compreendeu a importância da separação dos dados de treino e teste para avaliar corretamente o desempenho.

Continue postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Sugestão de conteúdo para você mergulhar ainda mais no tema:

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

AluraConte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!