Transformei meus dados assim:
socios = socios\
.withColumn(
"data_de_entrada_sociedade",
f.to_date(socios.data_de_entrada_sociedade.cast(StringType()), 'yyyyMMdd')
)
Seleciono os 5 samples:
partners.select("nome_do_socio_ou_razao_social", "faixa_etaria", f.year("data_de_entrada_sociedade").alias("ano_de_entrada")).show(5, truncate=False)
Ao tentar selecionar null values, com código:
partners.select([f.count(f.when(f.isnull(c), 1)).alias(c) for c in partners.columns]).show()
Recebo este erro:
DateTimeException: [CANNOT_PARSE_TIMESTAMP] Text '4100813' could not be parsed at index 6. Use
try_to_date to tolerate invalid input string and return NULL instead. SQLSTATE: 22007
Quando essas situações ocorrem, como eu posso fazer o troubleshoot do problema? A mensagem não me tras clareza.