Bom dia!
Referente a dados com mais de duas categorias me veio o seguinte questionamento.
No 1º Curso, Machine Learning: Introdução a classificação, foi explicado como se deve proceder com variáveis categóricas. O exemplo dado seriam 3 buscas (algoritmos, java, ruby) que seriam "quebradas" em 3 categorias.
Neste 2º Curso, Machine Learning II: Avançando com tipos diferentes de classificação, foi introduzido o problema de dados com mais de duas categorias, e, consequentemente, a utilização de algoritmos multiclasses, como o OneVsRest e OneVsOne.
Os dados apresentados:
clientes
recencia frequencia semanas situacao
1 4 4 alegre
2 1 2 neutro
3 1 7 chateado
Foram convertidos para números:
recencia frequencia semanas situacao
1 4 4 2
2 1 2 1
3 1 7 0
Ou seja, para o campo "situacao", temos mais de 2 valores possíveis. Não apenas 0 ou 1, ou quaisquer outros 2 valores distintos, mas 3 valores possíveis (0, 1 e 2).
Seguindo a idéia das variáveis categóricas, poderíamos ter "quebrado" em 3 categorias:
recencia frequencia semanas alegre neutro chateado
1 4 4 1 0 0
2 1 2 0 1 0
3 1 7 0 0 1
Daí eu pergunto:
1) Em qual caso aplicar qual dos 2 procedimentos?
2) Por que aplicar um ou outro procedimento (vantagens e desvantagens)?
3) Quais seriam os resultados obtidos indo por um ou por outro caminho?