Quais os tipos de dados que posso utilizar nas features? | Machine Learning: classificação com SKLearn

2
respostas

Referente ao curso Machine Learning: classificação com SKLearn, no capítulo Introdução à classificação e atividade Padronização de nomes

por Everton do Amaral Rezende

| 7k xp | 2 posts

Guilherme, bem legal essa introdução :D

Mas me surgiu a seguinte dúvida: Posso utilizar outros tipos de dados nas features? Vamos supor que a feature 3 ao invés de chamar de "faz au au?", eu poderia chamar de "som do animal" e preencher com a string "au au" ou "roic roic"? Dessa forma meu modelo ficaria por exemplo: [1,1,"au au"]

Se sim, há alguma vantagem/desvantagem em termos de perfomance de usar um tipo de dado ou outro nas features?

Valeeeu

2 respostas

por Fabio Ricardo Ferreira Correa

| 429.9k xp | 114 posts

14/07/2020

Olá Everton,

Você pode usar qualquer tipo de variável para ajustar um modelo aos dados. Mas existe um ponto de atenção aqui. Os algoritmos de Machine Learning da biblioteca scikit learning só aceitam dados numéricos (Pelo menos todos os que eu conheço).

Dessa forma, antes de utilizar informações do tipo categórico (seu exemplo da variável do tipo "som do animal") é importante que se passe por uma etapa de pré-processamento de dados, na qual você irá codificar essas variáveis, transformando-as em variáveis do tipo numérica.

Você pode procurar mais sobre esse assunto, buscando por features engineering no google.

Com relação à performance. O tempo de processamento depende da quantidade de linhas e colunas do seu DataFrame. Uma coisa que também aumenta muito o tempo é o tipo de algoritmo. As Support Vector Machines, por exemplo, demoram muito para serem ajustadas em conjunto de dados com muitas linhas.

Abs :)

por Everton do Amaral Rezende

| 7k xp | 2 posts

16/07/2020

Show Fabio!! Muito obrigado pelo esclarecimento :)