Tenho um dataset em que a variável dependente é numérica, mas, entre as possíveis variáveis explicativas, há variáveis categóricas e numéricas. Há algum curso ou vídeo que ajude a lidar com esse tipo de situação?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Tenho um dataset em que a variável dependente é numérica, mas, entre as possíveis variáveis explicativas, há variáveis categóricas e numéricas. Há algum curso ou vídeo que ajude a lidar com esse tipo de situação?
Opa Leandro,
Acredito que esteja se referindo as transformações de variáveis categóricas para números. caso queira pesquisar sobre o tema, duas soluções possíveis são o OneHotEncode e o Get Dummies, mas parte desse conteúdo tem no curso de "Classificação: resolvendo problemas multiclasse", deixei o link ai embaixo e um artigo da Alura explicando sobre os 2 modelos.
Uma explicação breve sobre o tema, é que ao invés de ter 1 coluna com todas as informações, nós vamos criar uma coluna para cada dado, e então marcar qual ela corresponde, por exemplo:
DF antes do processamento:
| nome | Cores |
|---|---|
| carro | verde |
| carro | amarelo |
| carro | vermelho |
DF depois
| nome | cor_vermelha | cor_amarela | cor_verde |
|---|---|---|---|
| carro | 0 | 0 | 1 |
| carro | 0 | 1 | 0 |
| carro | 1 | 0 | 0 |
Dessa forma o 0 significa "Falso" e 1 "Verdadeiro", podemos representar diversas informações sem que um número seja maior que o outro, evitando que o modelo suponha que a cor vermelha é melhor que a amarela ou vice-versa.
Curso Classificação Multiclasse: https://cursos.alura.com.br/course/classificacao-resolvendo-problemas-multiclasse
Diferença entre OneHotEncoder e GetDummies: https://www.alura.com.br/artigos/get-dummies-vs-onehotencoder-qual-metodo-escolher
Boa sorte na sua jornada! Abraços