Usei o mesmo código que está no git hub, porém está retornando o erro abaixo:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-28-358239d5da47> in <module>
2
3 regressao_logistica = LogisticRegression()
----> 4 regressao_logistica.fit(treino, classe_treino)
5 acuracia = regressao_logistica.score(teste, classe_teste)
6 print(acuracia)
4 frames
/usr/local/lib/python3.7/dist-packages/pandas/core/series.py in __array__(self, dtype)
855 dtype='datetime64[ns]')
856 """
--> 857 return np.asarray(self._values, dtype)
858
859 # ----------------------------------------------------------------------
ValueError: could not convert string to float: 'Embora o filme tenha sido apenas assim, o closed caption foi de longe o melhor que eu já vi! Na maioria das vezes, a ortografia é terrível e a legenda está fora de sincronia. Eu uso o closed captioning mesmo que eu possa ouvir bem, mas acho que muitos atores resmungam. Também muitas vezes a trilha sonora substitui o diálogo. Obrigado!'
Alguém passou por isso e conseguiu resolver?
O código completo até o erro é:
import pandas as pd
resenha = pd.read_csv("./imdb-reviews-pt-br.csv")
resenha.head()
from sklearn.model_selection import train_test_split
treino, teste, classe_treino, classe_teste = train_test_split(resenha.text_pt,
resenha.sentiment,
random_state = 42)
from sklearn.linear_model import LogisticRegression
regressao_logistica = LogisticRegression()
regressao_logistica.fit(treino, classe_treino)
acuracia = regressao_logistica.score(teste, classe_teste)
print(acuracia)