1
resposta

Diferente quantidade de indexes

Olá ao rodar the bag_of_words pelo train_test_split.

treino, test, classe_test, classe_treino = train_test_split(bag_of_words, resenha.classificacao, random_state = 42)

regressao_logistica = LogisticRegression()
regressao_logistica.fit(treino, classe_treino)
acuracia = regressao_logistica.score(test, classe_test)

print(acuracia)

Acho que o número de linhas nas matrix treino e classe_treino são muito diferentes e por isso de erro abaixo?

ValueError: Found input variables with inconsistent numbers of samples: [37094, 12365]

Não sei como está funcionando na aula, e também não estou certo como proceder.

1 resposta

Olá Cleber. Tudo bem ? Espero que sim.

Acredito que o motivo do erro é porque está misturando o teste com o treino:

treino, test, classe_test, classe_treino = train_test_split(bag_of_words, resenha.classificacao, random_state = 42)

Se olharmos na documentação, vemos que a função train_test_split retorna na ordem X_train, X_test, y_train, y_test.

No seu caso vai ficar assim:

treino, test, classe_treino, classe_test = train_test_split(bag_of_words, resenha.classificacao, random_state = 42)

regressao_logistica = LogisticRegression()
regressao_logistica.fit(treino, classe_treino)
acuracia = regressao_logistica.score(test, classe_test)

print(acuracia)

Veja se isso resolve o problema. Qualquer duvida não hesite em perguntar.

Bons Estudos : )