1
resposta

[Sugestão] Para quem estiver com problemas na filtragem de números nulos:

tipos_numericos = ['double', 'float']

dataset\
.select([
    f.count(
        f.when(
            (f.isnan(c) | f.isnull(c)) if dict(dataset.dtypes)[c] in tipos_numericos 
            else f.isnull(c), 
            True
        )
    ).alias(c) 
    for c in dataset.columns
])\
.show()

É só fazer dessa forma e vai ser mais preciso do que o código da aula, e funciona na versão atual estável do spark: 4.1.1

1 resposta

Oi, Iosseph! Como vai?

Agradeço por compartilhar.

Gostei da sua sugestão, você trouxe um ajuste interessante ao considerar os tipos numéricos antes de aplicar o isnan, o que torna a verificação mais robusta e compatível com versões mais recentes do Spark. Isso ajuda a evitar erros e melhora a precisão na análise dos dados.

Continue explorando essas otimizações, esse tipo de cuidado faz diferença no dia a dia com dados.

Alura Conte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!