1
resposta

Iteração linha a linha demora

Senhores, Vemos que o Dataset de fraudes é extremamente pequeno (cerca de 150K linhas). Em dois momentos, na Aula 1 / Atividade 5, a professora faz iteração linha a linha, e demora... Aqui, mesmo com máquina boua, também demora.

Existe alguma forma de fazer essa iteração linha a linha ganhar velocidade?

Não é a primeira vez que passo por isso, em outros projetos já experimentei esse mesmo "desagrado" na iteração linha a linha.

Tentei usar o for, o "temido" iterrows...e meus testes não surtiram o efeito desejado.

Podem me dar uma ajuda?

1 resposta

Olá Joviano,

Sei bem como é. Já enfrentei esse problema diversas vezes.

Geralmente quando me deparo com essa situação, uso a biblioteca numpy para fazer uma operação em todas as linhas de um array.numpy ou de um series do pandas.

Por exemplo:

#Ao invés de:
valor_dobrado = []
for linha in linha:
    dobro_da_linha = linha * 2
    valor_dobrado .append(dobro_da_linha)

# Da para fazer assim
valor_dobrado = 2 * np.array(linha)

Usei o código acima só para exemplificar, mas a library numpy permite com que você avalie condições em todas as linha de um array, ao mesmo tempo.

Espero ter ajudado.

Abs