Olá, eu tenho uma base de dados com 24mil linhas, mas notei algumas discrepâncias ao realizar a contagem de linhas:
Base = 24mil linhas
Pandas = 23998 linhas
Ao realizar a contagem de linhas com o filtro
select_xv_masc_adulto = dataset.query('modalidade == "XV" and genero == "Masculino" and categoria == "Adulto"')
select_xv_masc_adulto.count()
data 8771
hora 3824
tipo 8771
modalidade 8771
genero 8771
categoria 8771
time_casa 8768
estado_origem_time_casa 8769
t_casa 1252
c_casa 1252
p_casa 1249
d_casa 1249
parcial_time_casa 822
final_time_casa 8685
X 8771
final_time_visitante 8685
parcial_time_visitante 109
t_visitante 1640
c_visitante 1641
p_visitante 1636
d_visitante 1634
visitante 8767
estado_origem_time_visitante 8768
wo 8771
arbitro 2201
auxiliar_1 1667
auxiliar_2 1626
4_arbitro 1320
local 4128
campeonato_1 7549
campeonato_2 80
fase 1851
cidade 6041
estado 8761
total_pontos_1t 8771
diferenca_pontos_1t 8771
total_pontos_2t 8771
diferenca_pontos_2t 8771
total_pontos_final 8771
diferenca_pontos_final 8771
prorrogação 8771
adiado 8771
cancelado 8771
Observação_jogo 201
tempo_jogo_min 48
indefinido 4
Unnamed: 46 0
Unnamed: 47 0
Unnamed: 48 0
Unnamed: 49 0
Unnamed: 50 0
Unnamed: 51 0
Unnamed: 52 0
Unnamed: 53 0
dtype: int64
Ou seja, ele retorna 8771 jogos, mas o excel encontra 9000 jogos
Por fim, ao tentar visualizar a tabela com o comando
dataset[select_xv_masc_adulto]
Encontro o seguinte erro
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-31-3ff597c5d5f7> in <module>()
----> 1 dataset[select_xv_masc_adulto]
2 frames
/usr/local/lib/python3.7/dist-packages/pandas/core/generic.py in _where(self, cond, other, inplace, axis, level, errors, try_cast)
8770 for dt in cond.dtypes:
8771 if not is_bool_dtype(dt):
-> 8772 raise ValueError(msg.format(dtype=dt))
8773 else:
8774 # GH#21947 we have an empty DataFrame/Series, could be object-dtype
ValueError: Boolean array expected for the condition, not object