Prezados, creio que haja um problema com esses dados de treino e teste. <br><br>Fazendo da forma que a instrutora fez eu também encontrei valores ótimos para a performance do modelo final.<br><br>No

O modelo melhorou mesmo? | Modelos preditivos em dados: detecção de fraude

Prezados, creio que haja um problema com esses dados de treino e teste.

Fazendo da forma que a instrutora fez eu também encontrei valores ótimos para a performance do modelo final.

No entanto, durante o curso, X_dev foi definido para o treino do Isolation Forest. Nenhum X_dev foi definido depois (A não ser que tenha algum corte). X_dev foi usado no treino da Decision Tree, mas o que foi usado para teste foi o X_eval, que no seguimento do curso foi definido para avaliar a performance do SVM. O X_eval veio dos dados de teste que continham todos os dados anômalos, em um outro processo de separação de dados de treino e teste. Ou seja, diversos dados usados no treino também estão no teste, o que obviamente dará uma medida de performance boa.

Pode ser que tenha dado seguimento ao que foi mostrado na atividade 8 aula 4, dessa vez tirando os países, mas ali também está estranho, porque X_dev foi proveniente de um processo de amostragem dos dados e o X_eval é proveniente de outro feito sobre os mesmos dados (que não deveria conter linhas pertencentes à X_dev). O mesmo problema.

Aplicando a Decision Tree sobre os dados de treino e teste extraídos em um mesmo processo de amostragem com o train_test_split, não chega nessa performance.