Solucionado (ver solução)
Solucionado
(ver solução)
4
respostas

Dúvida Conceitual: Como StandardScaler entende qual gênero tem maior ou menor peso?

Bom dia!

Por favor, não entendi como o StandardScaler chega a conclusão que um gênero tem mais relevância do que outro para um filme.

Por exemplo: Como ele poderia dizer que para Toy Story animação vale 2,8 e Infantil 1,6?

Obrigado!

4 respostas

Oi Fabio,

O StandardScaler não sabe qual gênero possui maior relevância. Os filmes já possuem notas e o que o StandardScaler faz é deixar as notas dentro de um intervalo próximo. Por exemplo, se a maior nota for igual a dez mil eu posso querer dividir todas as notas por dez mil para que assim as notas fiquem em um intervalo entre zero e um.

Então Toy Story já tinha uma nota maior desde o início. O critério foi das pessoas que deram as notas. Qual critério elas usaram eu não faço a menor idéia.

:)

Professor, Allan.

Obrigado pela resposta, eu entendi a mudança de escalas, mas acredito que não seja esse o caso...

Estou me referindo ao curso: "Machine Learning: introdução a algoritmos não supervisionados" > Aula 01 - Conhecendo os dados > Vídeo 04 - Extraindo os dummies.

No vídeo, a partir de 2m15s vemos que o dataset utilizado tem apenas os filmes e os gêneros a que pertence. Nesse caso, não existe nenhuma nota de usuário.

A função get_dummies() fez sentido pra mim por que transformou em binário (possui o gênero? sim ou não, que no caso ficou 0 e 1).

O que não entendi é que no próximo vídeo (Vídeo 06 - Escalonando os Dados), a partir de 1m foi falado que ao passar no escalonador o 0 e 1 (binário) passou a ter um peso maior ou menor para cada filme.

Esse peso que não entendi. Como um escalonador está definindo qual gênero tem mais ou menos peso se até então esse valor só representava possui o gênero (sim ou não)

solução!

Oi Fabio. Desculpe eu realmente havia confundido com um curso do Guilherme.

Eu assisti o vídeo e o StandardScaler nesse caso está escalando os dados das colunas. Então ele transforma o um e o zero em um número de ponto flutuante com base na quantidade de vezes em que cada número aparece. Repare que os mesmos dois números de ponto flutuante se repetem dentro de uma mesma coluna substituindo o zero e o um. Na terceira coluna 'Aventura' o 'um' foi substituído por 2.5910192664801963 e o zero por -0.38594850024348243.

Se o 1 aparece muito na coluna de fantasia ele vai ganhar um número de ponto flutuante maior. Isso quer dizer que se na sua biblioteca de filmes tiver muitos filmes de fantasia eles vão ter uma importância maior dentro desse grupo de filmes. É como se fosse uma dica de que você gosta muito de filmes desse gênero.

Agora sim, entendi perfeitamente. Muito obrigado!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software