Olá, Pietro! Tudo tranquilo?
Novamente, peço desculpas pela demora em retornar.
O que o GroupKFold faz é uma análise mais precisa de como o modelo se comporta no mundo real, sendo oferecidos dados nunca vistos com características diferentes (ou não) devido a pertencerem a grupos diferentes. Seu propósito é detectar essas situações de overfitting.
Quando garantimos que o mesmo grupo não seja representado nos conjuntos de teste e treinamento, garantimos que as amostras características de cada grupo também sejam separadas. Então quando executamos o GroupKFold o que estamos dizendo pro algoritmo é o seguinte:
"Você tem as amostras dos modelos A, B e C com suas respectivas características, mas como você se comporta se eu colocar um modelo D que pode ou não ter características semelhantes aos outros 3?"
E então o algoritmo vai nos entregar a acurácia de como é o comportamento para um grupo nunca visto (que podem ter características muito diferentes das dos outros grupos), e isso repetidamente para o número de separações determinado (n_splits). Se a acurácia for muito baixa significa que o modelo não se adapta bem quando temos amostras de outros grupos, e assim nos diz se o modelo sofrerá overfitting ou não, se nosso modelo é generalista ou não.
No caso do carro voador, como as características seriam totalmente diferentes, o estimador não seria capaz de classificar essa amostra, caso tivesse um grupo só com os carros voadores o GroupKFold nos retornaria uma acurácia bem baixa, informando que a classificação para esse grupo não foi possível, não por overfitting mas pelas características serem completamente novas. Imagine que você tem um banco de dados só com características de cachorro e porco, e você tem um modelo que classifica em cachorro ou porco as amostras fornecidas. Concorda que se fosse fornecido as características de um Gavião, por exemplo, seu modelo não teria a menor ideia do que fazer? Essa é a mesma situação do carro voador. O instrutor faz um comentário sobre isso aos 04:35 dessa aula.
Espero ter ajudado, mas se ainda persistir alguma dúvida estou sempre à disposição.
:) (smile face)
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!