Não entendi porque passou o inferSchema para que serve?
Não entendi porque passou o inferSchema para que serve?
Olá, Pablo! Tudo bem por aí?
O Schema refere-se aos tipos das colunas do conjunto de dados lido, que pode ser String, Double, Long entre outros. Quando você deixa o inferSchema
como False
(que é a opção padrão) ao fazer a leitura do conjunto de dados vai ser retornado um DataFrame onde todas as colunas são do tipo String.
Ao definirmos o inferSchema
como True
o Spark passará automaticamente pelo arquivo a ser lido e inferirá o tipo de cada coluna. Ter o tipo correto das colunas no momento de se trabalhar pode ser algo extremamente relevante, então essa opção nos ajuda nessa tarefa.
Qualquer dúvida estou à disposição. Bons estudos.