Peguei a base de dados dos jogos da Quina para fazer alguns exercícios de Data Science mas ao tentar limpar o DF várias linhas do Index ficaram repetidas, tentei usar o drop.duplicate() mas as linhas continuam repetidas como no exemplo abaixo do concursoo 5002.
Além disso, existe outra maneira de fazer o .drop nas colunas sem ser por label? Tive que digitar 16 linhas de códigos para isso.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_html('D_quina/d_quina.htm')
dataset = pd.DataFrame(dataset[0])
dataset
dataset.drop('Data Sorteio', inplace = True, axis = 1)
dataset.drop('Arrecadacao_Total', inplace = True, axis = 1)
dataset.drop('Ganhadores_Quina', inplace = True, axis = 1)
dataset.drop('Cidade', inplace = True, axis = 1)
dataset.drop('UF', inplace = True, axis = 1)
dataset.drop('Rateio_Quina', inplace = True, axis = 1)
dataset.drop('Ganhadores_Quadra', inplace = True, axis = 1)
dataset.drop('Rateio_Quadra', inplace = True, axis = 1)
dataset.drop('Ganhadores_Terno', inplace = True, axis = 1)
dataset.drop('Rateio_Terno', inplace = True, axis = 1)
dataset.drop('Ganhadores_Duque', inplace = True, axis = 1)
dataset.drop('Rateio_Duque', inplace = True, axis = 1)
dataset.drop('Acumulado', inplace = True, axis = 1)
dataset.drop('Valor_Acumulado', inplace = True, axis = 1)
dataset.drop('Estimativa_Premio', inplace = True, axis = 1)
dataset.drop('Valor_Acumulado_Sorteio_Especial_São_João', inplace = True, axis = 1)
dataset.set_index('Concurso', inplace=True)
dataset
1ª Dezena 2ª Dezena 3ª Dezena 4ª Dezena 5ª Dezena
Concurso
5002 53 27 79 17 78
5002 53 27 79 17 78
5002 53 27 79 17 78
5002 53 27 79 17 78
8656 rows × 5 columns