1
resposta

variáveis categóricas

Tenho uma dúvida com relação a modelagem de variáveis categóricas quando esta variável é um valor monetário, por exemplo, o preço de compra do livro. Em um caso, onde o intuito da classificação seja identificar se houve fraude ou não na compra, qual seria a melhor estratégia para fazer isso com o Pandas?

Inicialmente, penso que poderia ser criado faixa de valores, por exemplo, de 10 à 50 reais, de 50 a 100 reais etc. Este cenário é viável ? Em caso positivo, no Pandas como poderíamos informar para o framework a categorização da variável?

1 resposta

Bom dia Augusto,

Voce pode deixar a variável como numérica mesmo. Ou pode transformá-la em categorias por faixa de preço sim. Para isso minha sugestão é fazer isso em um pré-processamento. Isso é, crie uma coluna nova de acordo com o valor da coluna antiga, algo como:

df_novo['barato_ou_caro'] = df_antigo['original']>50

Claro que pode fazer isso mais complexo, com mais condições etc.