Oi Leandro,
Ele pega seu conjunto de dados - as listas investimento e bilheteria - e os divide aleatoriamente numa proporção 75:25 (a proporção pode variar com a versão do sklearn) para treino e teste. Ou seja, se você tem 100 amostras (100 investimentos e 100 bilheterias, sendo cada investimento associado a uma bilheteria), o que ele vai devolver são 4 listas
75 investimentos //para treino
25 investimentos //para teste
75 bilheterias //para treino
25 bilheterias //para teste
sendo as duas listas de 75 associadas (o primeiro investimento está associado a primeira bilheteria, e por aí vai), assim como as duas listas de 25.