2
respostas

duvida sobre transfromação de variaveis

Em este parte da aula onde covertimos os dados categoricos em numero você usa um dicionario, Porque não usar One-Hot Encoding? ao inves de estar fazendo um por um cada coluna?

dados.tempo_emprego_atual.unique()

 a = {'< 0 DM':1,
     '0 <= ... < 200 DM':2,
      'no checking account':3,
      '>= 200 DM / salary assignments for at least 1 year':4
 }
dados['conta_corrente'] = dados['conta_corrente'].map(a) #pode ser assim tambem
dados.conta_corrente = dados.conta_corrente.map(a)
dados
#dados.historico_credito.unique()
2 respostas

Oi Miguel, tudo bem?

A escolha entre usar um dicionário para mapear variáveis categóricas para números ou usar One-Hot Encoding foi apenas didática. Neste momento o objetivo principal era focar nos conceitos principais de regressão logística e Credit Scoring.

Mas destaco que a escolha entre dicionários e o One-Hot Encoding dependerá do contexto e do tipo de modelo que estamos construindo.

Quando usamos um dicionário para mapear categorias para números, estamos criando uma codificação ordinal, onde as categorias têm uma ordem implícita. Isso pode ser útil se as categorias tiverem uma relação de ordem natural.

Por outro lado, o One-Hot Encoding é uma técnica que transforma cada categoria em uma nova coluna binária (0 ou 1), sem implicar nenhuma ordem entre as categorias. Geralmente é utilizado quando as categorias não têm uma relação de ordem e você quer evitar que o modelo interprete erroneamente uma relação ordinal.

Por exemplo, se você tiver uma coluna de cores com valores como "vermelho", "azul" e "verde", o One-Hot Encoding criaria três novas colunas: "cor_vermelho", "cor_azul" e "cor_verde", com valores 0 ou 1 indicando a presença de cada cor.

Espero ter ajudado.

Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

entendi, então por exempo eu poderia facilmete tambem usar Label Encoding que categorisaria entre zero e 4. Minha pergunta é mais por o lado de naõ estar fazendo coluna a coluna e fazer todo de uma vez só. Por issi é minha duvida, ou seja para esse caso necesariamente tem que ser usado o modelo que vc explica.

Obrigado pela resposta