Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Usar mais de um campo do dataset para predições

Saudações a todos!

Minha dúvida é relativamente simples, mas tem dado a maior dor de cabeça para mim.

tenho um dataset com os seguinte campos:

| Descicao_do_Filme | Diretor | Analise_de_sentimento | Tipo | Com os respectivos valores:

|blá blá blá....................| Fulano | 0.596 | Ação |

imaginando que eu já apliquei técnicas de analise de sentimentos na coluna Analise_de_sentimento

Quero predizer o tipo do filme partindo dos outros campos.

Se eu usar somente o campo descrição é bem fácil:


df_treino = pd.read_csv('treino.csv') 

countV = CountVectorizer()
countV.fit_transform(df_treino['statement'].values)


nb_cv = Pipeline([
        ('NBCV', countV),
        ('nb_clf', MultinomialNB())])

nb_cv.fit(df_treino['Descicao_do_Filme'],df_treino['Tipo'])

tipo = nb_cv.predict('text')

Ok, agora, como faço para trabalhar com os outros campos do meu dataset? exemplo, fazer uma predição e treinar o meu pipeline recebendo não só a descrição, mas também o resultado da analise de sentimentos e o nome do diretor?

Obrigado!

1 resposta
solução!

Olá Thiago, tudo bem ? Espero que sim.

Desculpa pela demora no retorno.

O que eu faria é transformar a coluna nome_do_diretor de uma variável categórica para uma variável dummy e incluiria como uma das features para o MultinomialNB utilizar no aprendizado.

Se ainda estiver fazendo esse projeto e puder dividir ele aqui no fórum, podemos discutir caminhos para fazer isso.

Bons Estudos, abraço.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software