Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Qual a vantagem de carregar o arquivo na sessão spark?

No curso Spark: Sistema de recomendação o professor carrega os arquivos na sessão spark ao invés de colocá-lo no drive e passar o path. Gostaria de saber se tem alguma vantagem nisso.

2 respostas
solução!

E aí, Bruno! Beleza? Então, carregar o arquivo diretamente na sessão do Spark tem suas vantagens sim.

Olha só, quando você carrega o arquivo na sessão do Spark, ele já fica distribuído e pronto pra ser processado em paralelo, sabe? Isso é massa porque o Spark trabalha bem melhor quando tem os dados divididos entre vários nós de processamento. Então, ao invés de ficar mandando o path do drive e tal, você já coloca tudo no ambiente do Spark e ele já começa a trabalhar naquele arquivo de forma otimizada.

Além disso, carregar direto na sessão evita alguns problemas de latência e de performance que podem acontecer se você estiver lendo os dados de um drive externo. É como se você desse um "start" mais rápido no processamento.

Resumindo, é tipo deixar a comida já preparada pra o chef do Spark, sabe? Ele já começa a cozinhar sem ter que sair correndo atrás da comida.

Obrigado pela resposta, esclareceu minhas dúvidas.