Oi Miguel, tudo bem?
A escolha entre usar um dicionário para mapear variáveis categóricas para números ou usar One-Hot Encoding foi apenas didática. Neste momento o objetivo principal era focar nos conceitos principais de regressão logística e Credit Scoring.
Mas destaco que a escolha entre dicionários e o One-Hot Encoding dependerá do contexto e do tipo de modelo que estamos construindo.
Quando usamos um dicionário para mapear categorias para números, estamos criando uma codificação ordinal, onde as categorias têm uma ordem implícita. Isso pode ser útil se as categorias tiverem uma relação de ordem natural.
Por outro lado, o One-Hot Encoding é uma técnica que transforma cada categoria em uma nova coluna binária (0 ou 1), sem implicar nenhuma ordem entre as categorias. Geralmente é utilizado quando as categorias não têm uma relação de ordem e você quer evitar que o modelo interprete erroneamente uma relação ordinal.
Por exemplo, se você tiver uma coluna de cores com valores como "vermelho", "azul" e "verde", o One-Hot Encoding criaria três novas colunas: "cor_vermelho", "cor_azul" e "cor_verde", com valores 0 ou 1 indicando a presença de cada cor.
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!