Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Como funciona o GroupKFold?

Fiquei confuso com o fato de utilizar o x_azar e y_azar como fonte para treino e teste, sendo que neles não há a coluna 'modelo'. E foi dado como parâmetro de dados para agrupar, a coluna modelo. Como o agrupamento de modelos vai interferir o treino e teste de uma fonte de dados que não contém essa variável?

3 respostas

Olá Luis,

Não entendi muito bem a sua pergunta. Revendo as aulas, não encontrei uma variável que diz respeito ao agrupamento de modelo. Portanto, vou tentar explicar aqui o que entendo sobre o porquê é importante aleatorizar os dados antes da divisão dele e o que isso tem a ver com a ordenação que foi feita na variável vendido.

No exercício, a variável vendido for ordenada para explicar a importância do processo de aleatorização do dados, antes da divisão dos mesmos em k-pastas.

Quando os dados não são aleatorizados e aplicamos uma divisão simples para treinamento e teste, podemos treinar o modelo em uma amostra para a qual os valores de Y sejam apenas zeros ou uns. Esse fato interfere nos resultados dos classificadores e diminui muito sua performance.

Portanto, é sempre interessante verificar se é interessante aleatorizar, estratificar e/ou balancear os dados, antes de treinar e teste o modelo.

Espero que tenha ajudado. Abs

solução!

Olá novamente, Luis.

Me desculpe. Te respondi de forma errada. Quando vi sua dúvida, eu estava na aula 3, ainda, e sua dúvida se refere à aula 4.

Pois bem. A variável modelo não está em x_azar ou y_azar.

Entretanto, tanto modelo como x_azar ou y_azar estão em dados (Que é o dataset).

Quando separamos o dataset em , cada linha do conjunto de dados acaba tendo suas colunas separadas em x_azar, y_azar e modelo. Sendo assim, quando você faz o input dos dados no algoritmo, ele associa:

A primeira posição do vetor x_azar, com a primeira posição do y_azar com a primeira posição do vetor modelo .

A segunda posição do vetor x_azar, com a segunda posição do y_azar com a segunda posição do vetor modelo .

E assim sucessivamente.

Note que x_azar, y_azar e modelo são 3 vetores distintos. A associação que o algoritmo faz entre eles é de acordo com o índice da linha de cada vetor.

Abs

Obrigado, compreendi agora. Não me atentei ao detalhe de ser tudo vetor e é papel da biblioteca associar cada elemento de um vetor com o elemento, na mesma posição, de outro vetor. Agradeço a explicação.