Oii, Felipe! Como vai?
Quando o fit_transform()
é aplicado nos dados de treino, o método fit
calcula e "aprende" as estatísticas necessárias (como média e desvio padrão) a partir desses dados, transformando-os em seguida. Para exemplificar, imagine que você está normalizando os dados, o fit_transform()
nos dados de treino calculará a média e o desvio padrão dos dados de treino e aplicará a normalização a eles.
Já o método transform()
nos dados de teste utiliza as mesmas estatísticas calculadas a partir dos dados de treino para transformá-los. Isso é importante para evitar vazamento de dados, que ocorre quando informações dos dados de teste influenciam o modelo durante o treinamento.
Aplicar fit_transform()
nos dados de teste recalcularia as estatísticas com base neles, introduzindo informações dos dados de teste no processo de treinamento, o que é indesejável.
Deixarei alguns links de artigos aqui para, caso queira, se aprofundar mais no tema:
Obs: As páginas podem abrir em Inglês, caso não tenha familiaridade com o idioma, cliquei com o botão direito do mouse em qualquer parte da página e escolha a opção Traduzir para o português.
Espero ter ajudado. Qualquer dúvida, conte conosco.
Bons estudos, Felipe!