Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

É possível representar valores de uma variável categórica com números concatenados?

Na a aula de variáveis categóricas foi proposto que a variável categórica busca fosse transposta em N colunas representando o conteúdo daquela variável. Pensando em um sistema em crescimento onde essa variável terá constantemente novos valores como conteúdo, teríamos que realizar alterações constantes para considerar esses novos valores.

Pensando nessa dinâmica, qual seria o impacto de representar uma variável com essa característica (categórica e com adição frequente de conteúdo), em um número representativo a partir de posições fixas, por exemplo ordem alfabética?

Exemplo: Pensando na busca por cursos com os termos:

  • c++
  • java
  • python
  • ruby

teríamos a seguinte representação em apenas uma coluna:

buscarepresentação int
c++1000
java0100
python0010
ruby0001

Entendo que em uma categorias com muitos valores existiria uma limitação pelo quantidade de de números de um int, mas para escopos menores, essa abordagem é possível?

1 resposta
solução!

Oi, Guilherme! Tudo bem com você?

Quando tratamos os dados para um modelo machine learning, devemos nos atentar para o conceito de valores categóricos e hierárquicos. Dados categóricos têm o mesmo nível de valor e servem apenas para definir classes, já os hierárquicos forma uma hierarquia de valores, tendo uns considerados superiores a outros.

Como c++, java, python e ruby são dados categóricos é preciso que todas essas classes sejam analisadas de forma igual. Ao seguir sua tabela, o modelo pode aprender que c++ corresponderá ao número 1000, java 100 e assim por diante, tornando seus dados hierárquicos. Eu entendo que sua sugestão também podem ter vindo de valores binários, mas o aprendizado de um modelo é baseado em conceitos matemáticos que consideram números como decimais, então é mais interessante para esse caso fazer uma separação bem categórica dos dados, no encoding.

Para saber mais sobre a técnica de encoding, você pode assistir a aula Encoding do curso Modelos preditivos em dados: detecção de fraude. Esse curso explora classificação supervisionada de forma mais avançada, então sugiro apenas assistir a parte da aula que a instrutora explica sobre a escolha do encoding e a importância dessa escolha.

Espero ter te ajudado. Bons estudos!