Como funciona o GroupKFold?

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

3
respostas

por Luis Fernando Calciolari Ferrarezi

| 135.5k xp | 6 posts

Fiquei confuso com o fato de utilizar o x_azar e y_azar como fonte para treino e teste, sendo que neles não há a coluna 'modelo'. E foi dado como parâmetro de dados para agrupar, a coluna modelo. Como o agrupamento de modelos vai interferir o treino e teste de uma fonte de dados que não contém essa variável?

3 respostas

por Fabio Ricardo Ferreira Correa

| 449.7k xp | 116 posts

27/01/2019

Olá Luis,

Não entendi muito bem a sua pergunta. Revendo as aulas, não encontrei uma variável que diz respeito ao agrupamento de modelo. Portanto, vou tentar explicar aqui o que entendo sobre o porquê é importante aleatorizar os dados antes da divisão dele e o que isso tem a ver com a ordenação que foi feita na variável vendido.

No exercício, a variável vendido for ordenada para explicar a importância do processo de aleatorização do dados, antes da divisão dos mesmos em k-pastas.

Quando os dados não são aleatorizados e aplicamos uma divisão simples para treinamento e teste, podemos treinar o modelo em uma amostra para a qual os valores de Y sejam apenas zeros ou uns. Esse fato interfere nos resultados dos classificadores e diminui muito sua performance.

Portanto, é sempre interessante verificar se é interessante aleatorizar, estratificar e/ou balancear os dados, antes de treinar e teste o modelo.

Espero que tenha ajudado. Abs

solução!

por Fabio Ricardo Ferreira Correa

| 449.7k xp | 116 posts

29/01/2019

Olá novamente, Luis.

Me desculpe. Te respondi de forma errada. Quando vi sua dúvida, eu estava na aula 3, ainda, e sua dúvida se refere à aula 4.

Pois bem. A variável modelo não está em x_azar ou y_azar.

Entretanto, tanto modelo como x_azar ou y_azar estão em dados (Que é o dataset).

Quando separamos o dataset em , cada linha do conjunto de dados acaba tendo suas colunas separadas em x_azar, y_azar e modelo. Sendo assim, quando você faz o input dos dados no algoritmo, ele associa:

A primeira posição do vetor x_azar, com a primeira posição do y_azar com a primeira posição do vetor modelo .

A segunda posição do vetor x_azar, com a segunda posição do y_azar com a segunda posição do vetor modelo .

E assim sucessivamente.

Note que x_azar, y_azar e modelo são 3 vetores distintos. A associação que o algoritmo faz entre eles é de acordo com o índice da linha de cada vetor.

Abs

por Luis Fernando Calciolari Ferrarezi

| 135.5k xp | 6 posts

30/01/2019

Obrigado, compreendi agora. Não me atentei ao detalhe de ser tudo vetor e é papel da biblioteca associar cada elemento de um vetor com o elemento, na mesma posição, de outro vetor. Agradeço a explicação.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP