[Projeto] transformação de dados de texto para modelos de IA

1️ Leia uma base de dados CSV

Usando a biblioteca Hugging Face através do módulo datasets .

from datasets import load_dataset dataset = load_dataset ( "csv" , data_files = "redacoes.csv" )

2️ Dividir os dados em treino e teste
dataset_split = dataset [ "train" ] . train_test_split( test_size = 0.2 ) treino = dataset_split [ "train" ] teste = dataset_split [ "test" ]

Isso cria:

80% treino

20% teste

3️ Importar o tokenizador do modelo

Usamos o tokenizador do modelo DistilBERT treinado em português.

Modelo:
Geotrend/distilbert-base-pt-cased

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained ( "Geotrend/distilbert - base-pt-cased" )

4️ Tokenizar os textos
def tokenizar ( exemplo ): return tokenizer ( exemplo [ "texto" ], padding = "max_length" , truncation = True ) dataset_tokenizado = dataset_split . mapa ( tokenizar )

Olá, Moacir! Como vai?

Parabéns pela resolução da atividade!

Observei que você explorou o uso de datasets para carregar dados CSV com Python, utilizou muito bem o train_test_split para dividir os conjuntos de treino e teste e ainda compreendeu a importância da tokenização para preparar os textos antes do treinamento.

Continue postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Sugestão de conteúdo para você mergulhar ainda mais no tema:

[Documentação] - Hugging Face Datasets

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Conteúdos Alura com o tema