Olá Bruno, tudo bem!
Eu tenho a primeira edição do livro "Mãos à obra..." e nesta versão contém apenas esta passagem: "Um dos problemas com essa representação é que os algoritmos de ML assumem que dois valores próximos são mais semelhantes que dois valores distantes. ". O trecho da ponderação arbitrária de dar valores numéricos para campos categóricos, mesmo que sejam ordinais, como é o caso de escala Likert deve ter apenas a partir da segunda edição. Inclusive no trecho subsequente do mesmo parágrafo ele propõe que para corrigir este problema usa-se a criação de atributos binários (dummy)
Minha observação foi baseada em algumas referências como a do professor de MBA de Data Science da USP Luiz Paulo Fávero, em que no seu livro Manual de Análise de Dados (2021), tanto no capítulo de PCA, página 380, quando diz:
"
Podemos perceber, em todas as situações, que as variáveis originais a partir das quais serão extraídos fatores são quantitativas, visto que a análise fatorial parte do estudo do comportamento dos coeficientes de correlação de Pearson entre as variáveis. É comum, entretanto, que pesquisadores façam uso do incorreto procedimento de ponderação arbitrária em variáveis qualitativas, como variáveis em escala Likert, para, a partir de então ser aplicada uma análise fatorial.
"
quanto no capítulo de Regressão Simples e Múltipla, página 541, quando diz:
"
Não podemos simplesmente atribuir valores a cada uma das categorias da variável qualitativa, pois isso seria um erro grave, chamado de ponderação arbitrária, uma vez que estaríamos supondo que as diferenças na variável dependente seriam previamente conhecidas e de magnitudes iguais às diferenças dos valores atribuídos a cada uma das categorias da variável explicativa qualitativa. Nestas situações, a fim de que este problema seja completamente eliminado, devemos recorrer ao artifício das variáveis dummy, ou binárias,...
"
No capítulo de Regressão Logística Binária e Multinomial, ele explica que:
"
As técnicas de regressão logística binária e multinomial são elaboradas com base na estimação por máxima verosimilhança.
"
Disso, eu entendi que não podemos definir que a diferença entre "bom" e "ruim" é 2, por exemplo em uma escala (muito ruim:1, ruim:2, medio:3, bom:4 e muito bom:5).. Estaríamos ponderando arbitrariamente. Entendi que foi exatamente o que a instrutora fez quando atribuiu 1 ao valor '< 0 DM', 2 ao valor '0 <= ... < 200DM', e assim por diante. Como saber que a diferença entre esses campos é 1?
A justificativa do professor Fávero é que ao multiplicar um valor arbitrário como estes ao parâmetro estimado correspondente do logito (Z = B0 + B1X1 + ... + BkXk) , estamos interferindo fortemente no cálculo da probabilidade (1 / (1+ exp(-Z)), consequentemente, impactando na maximização do Log Likelihood.. Ou seja, o modelo como um todo é influenciado.
Você poderia compartilhar artigos/referências que mostram que este argumento proibitivo do uso de ponderação arbitrária em variáveis explicativas (mesmo que em ordinais) não é válido?