1
resposta

Estratificação o slip do dataset

Olá,

Eu optei por utilizar a estratificação no meu conjunto de dados dessa aula. Adicionei o parâmetro stratify = y, desta maneira,

x_train, x_test, y_train, y_test = train_test_split(x,y,
                                                    random_state = 5,
                                                    test_size = 0.25,
                                                    stratify = y
                                                    )

Seguindo os mesmo passos do guilherme instrutor, consegui uma acuracia um tanto maior.

Essa mudança de valor, mesmo utilizando a mesma semente pode ser causado por qual motivo?

1 resposta

Bom dia Gabriel, tudo bem? Espero que sim!

Desculpe pela demora em responder.

O parâmetro stratify faz com que a sua amostra fique estratificada com base na coluna de sua escolha. A amostragem estratificada serve para manter a proporção das classes dos dados em sua amostra. Isso faz com que sua amostra se comporte de maneira mais semelhante aos dados.

É recomendado utilizar o stratify principalmente quando os dados estão muito desbalanceados.

Imagine, por exemplo, um conjunto de dados com 10% de uma classe A e 90% de outra classe B. Sem a estratificação pode ocorrer que, ao fazer o train_test_split, os dados de treino fique com poucos dados da classe A e eles fiquem quase totalmente nos dados de teste.

A estratificação faz com que Tanto os dados de treino quanto de teste tenham aproximadamente 10% de dados da classe A e 90% da classe B.

Você pode ter tido uma acurácia maior porque os dados foram separados de maneira a se ajustar melhor aos dados gerais, usando a estratificação.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!