Fiquei um pouco confusa na criação do BoW, foi utilizado apenas os dados de treino?
Em qual momento essa seleção fica clara?
Depois de criado o BoW, como aplicá-los aos dados de teste também?
Fiquei um pouco confusa na criação do BoW, foi utilizado apenas os dados de treino?
Em qual momento essa seleção fica clara?
Depois de criado o BoW, como aplicá-los aos dados de teste também?
Oii, Alana! Tudo bem?
Não se preocupe, vamos esclarecer para você poder dar continuidade aos estudos, tudo bem?
Isso mesmo, o BoW deve foi usado com os dados de treino.
Na aula Criando uma função para classificar sentimentos podemos encontrar essa seleção e aplicação:
"Vetorizaremos nossos dados com 50 dimensões, depois criaremos esta representação e realizar esta transformação, porém não mais da resenha, e sim do texto, ou seja, do DataFrame, e a coluna de interesse onde se localiza este texto, coluna_texto
."
Após criar o BoW com os dados de treino, aplique-o aos dados de treino e de teste. Isso é feito na linha:
bag_of_words = vetorizar.fit_transform(texto[coluna_texto])
Essa linha transforma os dados de treino e de teste em uma representação BoW de 50 dimensões, permitindo que você use essa representação para treinar o modelo de classificação e aplicá-lo aos dados de teste.
Espero ter esclarecido sua dúvida. Qualquer coisa, compartilhe no fórum para podermos te ajudar.
Bons estudos, Alana!