coluna text_pt com acurácia maior

Professor, quando são feitos os testes de acurácia do TfidfVectorizer, testei fazer os mesmos testes trocando a coluna tratamento_5 pela coluna text_pt, e o resultado da acurácia ficou um pouco maior, sendo que essa seria a coluna sem tratamento. Não entendi o motivo disso ocorrer.

# teste tratamento_5
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
vetor_tfidf = tfidf.fit_transform(resenha["tratamento_5"])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
                                                              resenha["classificacao"],
                                                              random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_ngrams = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_ngrams)
0.8858875859280226


# teste text_pt
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
vetor_tfidf = tfidf.fit_transform(resenha["text_pt"])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
                                                              resenha["classificacao"],
                                                              random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_ngrams = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_ngrams)
0.8862919530934088

Bom dia Bruno, tudo bem?

Bom na realidade essa diferença é estatisticamente irrelevante. Se vc rodar novamente sem setar um random_seed, vai ver que pode dar uma diferença inversa ou até uma diferença mais significativa. Neste curso não abordamos o assunto, mas vc tem um intervalo de confiança no seu resultado (Vamos dizer que 88% +- 2%, sabe estilo pesquisa eleitoral?), se você quiser aprender mais sobre isso pode fazer o seguinte curso, lá o Gui Silveira, explica em detalhes o fator de aleatoriedade nos resultados.

Outra coisa, em algumas situações fazemos tanto tratamento dos dados que podemos perder muita informação, aí neste caso geralmente o resultado com os dados originais são melhores. O importante é seguir essa linha que vc está fazendo, tratamento-teste, tratamento-teste... Essa parte experimental é muito importante em ciência de dados, parabéns!

Abraços e bons estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP