Eu não consigo usar o pd.get_dummies()

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

8
respostas

por RUBENS PAULINO JUNIOR

| 96.3k xp | 14 posts

Eu não consigo usar o pd.get_dummies():

... Ydummies_df = Y_df Xdummies_df = pd.get_dummies(X_df) ...

Traceback (most recent call last): File "classifica_buscas.py", line 12, in Xdummies_df = pd.get_dummies(X_df) AttributeError: 'module' object has no attribute 'get_dummies'

8 respostas

por Guilherme Silveira

| 141.3k xp | 244 posts

Instrutor

28/04/2017

Bom dia Rubens, pode enviar o código inteiro pf? Como parece haver problema no carregamento do pd, é legal ver como está sendo carregado etc

por RUBENS PAULINO JUNIOR

| 96.3k xp | 14 posts

03/05/2017

Boa Tarde! Tá ai o código

# -*- coding: UTF-8 -*-
from collections import Counter
import pandas as pd
import csv

df = pd.read_csv('buscas.csv')    

Y_df = df['comprou']        
X_df = df[['home', 'busca', 'logado']]

Ydummies_df = Y_df
Xdummies_df = pd.get_dummies(X_df)

X = Xdummies_df.values
Y = Ydummies_df.values

porcentagem_de_treino = 0.9

tamanho_de_treino = porcentagem_de_treino * len(y)
tamanho_de_teste = len(y) - tamanho_de_treino

treino_dados = X[:tamanho_de_treino]
treino_marcacoes = Y[:tamanho_de_treino]

teste_dados = X[-tamanho_de_teste:]
teste_marcacoes = Y[-tamanho_de_teste:]



from sklearn.naive_bayes import MultinomialNB
modelo = MultinomialNB()
modelo.fit(treino_dados, treino_marcacoes)

resultado = modelo.predict(teste_dados)
acertos = (resultado == teste_marcacoes)

total_de_acertos = sum(acertos)
total_de_elementos = len(teste_dados)
taxa_de_acerto = 100.0 * total_de_acertos / total_de_elementos

print("Taxa de acerto do algoritmo: %f" %taxa_de_acerto)
print(total_de_elementos)

# a eficacia do algoritmo que chuta tudo 0 e 1
acerto_base = max(Counter(teste_marcacoes).itervalues())
taxa_de_acerto_base = 100.0 * acerto_base / len(teste_marcacoes)
print("Taxa de acerto base: %f" %taxa_de_acerto_base)
#print(Xdummies)
#print(y)

por Guilherme Silveira

| 141.3k xp | 244 posts

Instrutor

08/05/2017

Bom dia Rubens,

Não estou achando nada de errado, poderia conferir a versão do python usada? Outro teste, vamos isolar para ver se achamos o que não está sendo carregado. Voce pode testar um exemplo de pandas da propria documentação, bem simples. Entra no python na linha de comando e tenta:

import pandas as pd
s = pd.Series(list('abca'))
s1 = ['a', 'b']
pd.get_dummies(s1)

por Angela Kagueyama Toth

| 33.3k xp | 16 posts

12/05/2017

Guilherme, tive o mesmo problema do Rubens. Testei esse trecho de código num arquivo separado e funcionou. Vi alguns exemplos na Internet em que ele usa o get_dummies(dataframe[prefixo e colunas]) Você pode explicar melhor o que esse trecho que você escreveu faz exatamente?

por Angela Kagueyama Toth

| 33.3k xp | 16 posts

14/05/2017

Pessoal, consegui resolver o problema apenas acrescentando o índice 'busca' no x_df: x_dummies = pd.get_dummies(x_df['busca'])

por RUBENS PAULINO JUNIOR

| 96.3k xp | 14 posts

15/05/2017

Obrigado Instrutor e Angela!

Eu estou um pouco atarefado e ainda não voltei ao código, mas vou testar essa ultima solução e qualquer coisa eu tento a solução do Guilherme.

por Guilherme Silveira

| 141.3k xp | 244 posts

Instrutor

15/05/2017

Que ótimo Angela, topa compartilhar como ficou o código final conosco?

por Angela Kagueyama Toth

| 33.3k xp | 16 posts

15/05/2017

Oi, Guilherme.

Segue o código, porém ainda não está rodando como deveria. Ele retorna 'sim' 'não'... deixei a dúvida em outro tópico...

import pandas as pd
df = pd.read_csv('busca.csv')

x_df = df[['home', 'busca', 'logado']]
y_df = df['comprou']

x_dummies = pd.get_dummies(x_df['busca'])
y_dummies = y_df

x = x_dummies.values
y = y_dummies.values

porcentagem_de_treino = 0.9
tamanho_de_treino = int(porcentagem_de_treino * len(y))
tamanho_de_teste = len(y) - tamanho_de_treino

treino_dados = x[:tamanho_de_treino]
treino_marcacoes = y[:tamanho_de_treino]

teste_dados = x[-tamanho_de_teste:]
teste_marcacoes = y[-tamanho_de_teste:]

from sklearn.naive_bayes import MultinomialNB
modelo = MultinomialNB
modelo.fit(treino_dados, treino_marcacoes)

resultado = modelo.predict(teste_dados)
diferencas = resultado - teste_marcacoes

acertos = [d for d in diferencas if d==0]
total_de_acertos = len(acertos)
total_de_elementos = len(teste_dados)
taxa_de_acerto = 100.0 * total_de_acertos/ total_de_elementos

print(taxa_de_acerto)
print(total_de_elementos)

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP