Na hora de importar o train_test_split o compilador dava um sinal de erro, então tirei este linha de comando e rodou sem erro, porém agora o compilador dá está serie de avisos
File "C:\Users\benev\Anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 2525, in get_loc
return self._engine.get_loc(key)
File "pandas/_libs/index.pyx", line 117, in pandas._libs.index.IndexEngine.get_loc
File "pandas/_libs/index.pyx", line 139, in pandas._libs.index.IndexEngine.get_loc
File "pandas/_libs/hashtable_class_helper.pxi", line 1265, in pandas._libs.hashtable.PyObjectHashTable.get_item
File "pandas/_libs/hashtable_class_helper.pxi", line 1273, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'Bilheteria(pessoas)'
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "exploracao.py", line 19, in <module>
filmes_bibleteria = filmes['Bilheteria(pessoas)']
File "C:\Users\benev\Anaconda3\lib\site-packages\pandas\core\frame.py", line 2139, in __getitem__
return self._getitem_column(key)
File "C:\Users\benev\Anaconda3\lib\site-packages\pandas\core\frame.py", line 2146, in _getitem_column
return self._get_item_cache(key)
File "C:\Users\benev\Anaconda3\lib\site-packages\pandas\core\generic.py", line 1842, in _get_item_cache
values = self._data.get(item)
File "C:\Users\benev\Anaconda3\lib\site-packages\pandas\core\internals.py", line 3843, in get
loc = self.items.get_loc(item)
File "C:\Users\benev\Anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 2527, in get_loc
return self._engine.get_loc(self._maybe_cast_indexer(key))
File "pandas/_libs/index.pyx", line 117, in pandas._libs.index.IndexEngine.get_loc
File "pandas/_libs/index.pyx", line 139, in pandas._libs.index.IndexEngine.get_loc
File "pandas/_libs/hashtable_class_helper.pxi", line 1265, in pandas._libs.hashtable.PyObjectHashTable.get_item
File "pandas/_libs/hashtable_class_helper.pxi", line 1273, in pandas._libs.hashtable.PyObjectHashTable.get_item
KeyError: 'Bilheteria(pessoas)'
A minha versão do python é essa Python 3.6.2. e o meu algoritmo está aqui
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
filmes= pd.read_csv('regressao_linear_alura.csv')
amostra = filmes.sample(n=200)
x = amostra['Investimento (em milhoes)']
y = amostra['Bilheteria (pessoas)']
#visualizacao de dados
plt.scatter(x,y)
plt.show()
filmes_investimento = filmes['Investimento (em milhoes)']
filmes_bibleteria = filmes['Bilheteria(pessoas)']
treino, teste, treino_marcacoes, testes_marcacoes= train_test_split(filmes_investimento, filmes_bibleteria)
treino= np.array(treino).reshape(len(treino),1)
teste= np.array(teste).reshape(len(teste),1)
modelo= LinearRegression()
modelo.fit(treino,treino_marcacoes)
modelo.score(treino,treino_marcacoes)
modelo.score(teste,teste_marcacoes)
zootopia = [0,0,0,0,0,0,0,0,1,1,1,0,1,145.5170642,3.451632127]
modelo.predict([zootopia])