No LogisticRegression, o professor usa a variável "teste" no modelo_lr.transform. Vide seta abaixo:
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression()
modelo_lr = lr.fit(treino)
previsoes_lr_teste = modelo_lr.transform(teste) # <----
previsoes_lr_teste.show()
Na árvore de decisão ele faz diferente, em vez de usar "teste" ele usa o "treino". Vide seta abaixo:
from pyspark.ml.classification import DecisionTreeClassifier
dtc = DecisionTreeClassifier(seed=SEED)
modelo_dtc = dtc.fit(treino)
previsoes_dtc_treino = modelo_dtc.transform(treino) # <---
previsoes_dtc_treino.show()
Ele não deveria ter pego a variável teste para predizer?
Fiquei confuso.