Olá, tem algo dando erradop no meu código
#### AULA 1
##linkando com google drive
from google.colab import drive ## ligação com o google drive
drive.mount('/content/gdrive')
### importando libries
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt ##librie gereal de gráficos
pd.read_csv('gdrive/My Drive/ratings.csv') ##lendo dados
## começa a particionar o dataset
notas = pd.read_csv('gdrive/My Drive/ratings.csv')
notas.head() # chama o cabeçalho
notas.shape ## tamanho da tabela (linha, coluna)
notas.columns = ["usuarioId", "filmeId", "nota", "momento"] #altera oo nome das colunas
notas.head()
notas["nota"] #chamando a coluna notas
notas.nota #maneira padrão de chamar uma coluna
## vizualizção dos dados
notas["nota"].unique() ## retorna os valores presentes em uma coluna, por exemplo quais as notas atribuidas
notas["nota"].value_counts() ## retorna uma tabela com o número de vezes que que cada nota foi atribuida
notas["nota"].mean() ## retorna a média
print(notas.nota.mean()) ##adicionar a function print para que sejam colocados na tela todos os valores
print(notas.nota.median()) ##function da mediana
print("Media",notas.nota.mean()) #imprime com nome entre aspas
## manipulação dos dados
notas.nota.plot(kind = "hist") #plot genérico -> notas.nota.plot()
notas.nota.describe() ## resumo dos dados
sns.boxplot(notas.nota)
#### AULA 2
#filmes = pd.read_csv("gdrive/MyDrive/movies.csv")
pd.read_csv('/content/movies.csv')
filmes.columns = ["filmeId", "titulo", "generos"]
filmes.head()
notas.query("filmeId==1") ### function para encontrar por categoria
notas.query("filmeId==1").nota ## desssa maneira entrega apenas a coluna nota
notas.query("filmeId==1").nota.mean() ## forma de acrescentar functions de descritva
notas.groupby("filmeId").mean() ### agrupar dados por categoria
medias_filme = notas.groupby("filmeId").mean().nota
medias_filme.plot(kind = 'hist')
sns.boxplot(medias_filme)
sns.boxplot(y=medias_filme) ## box plot na vertical indica o eixo x
sns.distplot(medias_filme, bins=10) ### bins é o parametro que determina a quantidade de blocos do histograma
plt.hist(medias_filme)
plt.title("Histograma das médias dos filmes") #colocando titulo no grafiico
#### AULA 3
##TIPO DE VARIÁVEIS
tmdb = pd.read_csv('/content/tmdb_5000_movies.csv')
tmdb.original_language.unique()
tmdb.original_language.value_counts()
tmdb["original_language"].value_counts().to_frame() ## function que transforma o indice em data frame
contagem_lingua = tmdb["original_language"].value_counts().to_frame().reset_index() ## function que reseta o index, ps o index inicia no 0
contagem_lingua.columns = ["original_language", "total"]
contagem_lingua.head()
sns.barplot(x="original_language", y="total", data = contagem_lingua) ## função plot de barra
sns.catplot(x = "original_language", kind ="count", data = tmdb)
import matplotlib.pyplot as plt ##librie gereal de gráficos
plt.pie(contagem_lingua["total"], labels = contagem_lingua["original_language"]) ## grafico de pizza,
total_lingua =tmdb.original_language.value_counts()
total_geral = total_lingua.sum()
ingles= total_lingua.loc["en"]
total_resto = total_geral- ingles
print(total_resto, ingles)
##criando um dataframe manual
dados = {
"lingua" : ["ingles", "outros"], ## coloca os nomes das colunas
"total": [ingles, total_resto] ## coloca os valore nas colunas
}
pd.DataFrame(dados)
sns.barplot(data = dados, x= "lingua", y ="total")
### AULA QUATRO
plt.pie(dados["total"], labels = dados["lingua"])
## seccionando o df
tmdb.query("original_language != 'en'")
total_outros_filmes = tmdb.query("original_language != 'en'").value_counts()
sns.catplot(x="original_language", data=total_outros_filmes, kind = "count")
### AULA 5
sns.catplot(x="original_language", data=total_outros_filmes, kind = "count", aspect=2) ## function aspect forma do gráfico olhar documentação)
sns.catplot(x="original_language", data=total_outros_filmes, kind = "count", aspect=2,
order= total_outros_filmes.index)
e está entregando o seguinte erro
ValueError: Could not interpret input 'original_language'