Tenho um dataset em que a variável dependente é numérica, mas, entre as possíveis variáveis explicativas, há variáveis categóricas e numéricas. Há algum curso ou vídeo que ajude a lidar com esse tipo de situação?
Tenho um dataset em que a variável dependente é numérica, mas, entre as possíveis variáveis explicativas, há variáveis categóricas e numéricas. Há algum curso ou vídeo que ajude a lidar com esse tipo de situação?
Opa Leandro,
Acredito que esteja se referindo as transformações de variáveis categóricas para números. caso queira pesquisar sobre o tema, duas soluções possíveis são o OneHotEncode e o Get Dummies, mas parte desse conteúdo tem no curso de "Classificação: resolvendo problemas multiclasse", deixei o link ai embaixo e um artigo da Alura explicando sobre os 2 modelos.
Uma explicação breve sobre o tema, é que ao invés de ter 1 coluna com todas as informações, nós vamos criar uma coluna para cada dado, e então marcar qual ela corresponde, por exemplo:
DF antes do processamento:
nome | Cores |
---|---|
carro | verde |
carro | amarelo |
carro | vermelho |
DF depois
nome | cor_vermelha | cor_amarela | cor_verde |
---|---|---|---|
carro | 0 | 0 | 1 |
carro | 0 | 1 | 0 |
carro | 1 | 0 | 0 |
Dessa forma o 0 significa "Falso" e 1 "Verdadeiro", podemos representar diversas informações sem que um número seja maior que o outro, evitando que o modelo suponha que a cor vermelha é melhor que a amarela ou vice-versa.
Curso Classificação Multiclasse: https://cursos.alura.com.br/course/classificacao-resolvendo-problemas-multiclasse
Diferença entre OneHotEncoder e GetDummies: https://www.alura.com.br/artigos/get-dummies-vs-onehotencoder-qual-metodo-escolher
Boa sorte na sua jornada! Abraços