Dummy 'most_frequent' é na verdade o 'stratified'

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

4
respostas

por Guilherme Bayma

| 14.7k xp | 4 posts

Eu notei que ao colocar o código para o dummy com a estratégia most_frequent, faltou adicionar o parâmetro na inicialização do dummy.

Então na prática os dois dummy (dummy_stratified e dummy_mostfrequent) utilizam a mesma estratégia default: stratified

Código do vídeo:

from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier()
dummy_stratified.fit(treino_x, treino_y)
acuracia = dummy_stratified.score(teste_x, teste_y) * 100

print("A acurácia do dummy stratified foi {:.2f}%".format(acuracia))

from sklearn.dummy import DummyClassifier

dummy_mostfrequent = DummyClassifier()
dummy_mostfrequent.fit(treino_x, treino_y)
acuracia = dummy_mostfrequent.score(teste_x, teste_y) * 100

print("A acurácia do dummy mostfrequent foi {:.2f}%".format(acuracia))

No entanto, a acurácia dos dois foi diferente (52.44% e 50.68% respectivamente). Quando rodamos o código inteiro (para rodar a célula com o SEED) o resultado dos dois não deveria ser o mesmo?

4 respostas

por Elias Ribeiro

| 451.5k xp | 74 posts

14/01/2019

Olá Guilherme, tudo bem?

Quando você utiliza o dummy_mostfrequent, você pega os conjuntos mais frequentes, por isto o resultado está um pouco diferente!

Bons estudos!

por Guilherme Bayma

| 14.7k xp | 4 posts

14/01/2019

Olá Elias! Obrigado pela resposta, mas ainda continuo com a dúvida.

Como eu apontei no código acima, a inicialização do DummyClassifier está sendo realizada da mesma forma - sem passar nenhum argumento - efetivamente tornando os dois objetos: dummy_stratified e dummy_mostfrequent instâncias inicializadas com a estratégia stratified.

Para que o dummy_mostfrequent faça jus ao nome o objeto deveria ser inicializado da seguinte forma:

dummy_mostfrequent = DummyClassifier(strategy = 'most_frequent')

E isso realmente alteraria o resultado da acurácia (para 58% se não me engano, tornando-o inclusive melhor que o stratified).

Acho que o TL;DR é esse:

1º) O curso mostra duas alternativas para o DummyClassifier mas na prática utiliza a mesma duas vezes.

2º) Se os dois objetos do DummyClassifier foram criados iguais, como foi possível que o resultado dos dois foi diferente?

Hahaha acabou ficando meio grande, mas obrigado novamente pela resposta!

solução!

por Elias Ribeiro

| 451.5k xp | 74 posts

14/01/2019

Olá Guilherme, tudo bem ?

O resultado foi diferente por causa do parâmetro do random_state que por padrão é None e a strategy deveria ter sido passada como most_frequent.

Bons estudos!

por Guilherme Bayma

| 14.7k xp | 4 posts

14/01/2019

Oi Elias, era isso mesmo!

Por alguma razão colocar o SEED do NumPy não adiantou para obter o mesmo resultado:

import numpy as np

SEED = 5
np.random.seed(SEED)

Mas ao colocar o argumento random_state com o mesmo valor na inicialização dos dois objetos os resultados ficaram iguais.

Então, novamente, muito obrigado!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP