[Dúvida] isnull(0) pode não ser melhor alternativa

Marcelo Lampe Zacharias · 2026-05-23 00:37

Nos exemplo o iptu usamos substituição por 0, mas na vida real isso não deve acontecer, pode um valor que não se sabe, não foi preenchido ou alguma anomalia assim, porém deixar zero pode enviesar o a

Olá Marcelo.
Tudo bem?
Excelente pergunta!
Substituir valores nulos por zero quase nunca é a melhor escolha, porque isso mistura “ausência de informação” com “valor real igual a zero”.
Isso pode distorcer completamente o padrão que o modelo aprende.
Na prática, o primeiro passo é sempre entender o significado daquele dado no mundo real.
Valor nulo normalmente representa informação desconhecida, não preenchida ou erro de coleta, enquanto zero representa um valor real existente.
Se essa diferença não for respeitada, o modelo pode aprender relações incorretas.
No caso do IPTU, por exemplo, normalmente não faz sentido assumir zero, já que esse imposto existe para praticamente todos os imóveis, com exceções específicas como isenção. Por isso, o mais adequado costuma ser substituir os valores ausentes pela mediana, preferencialmente calculada por grupos como bairro ou tipo de imóvel. Isso ajuda a manter a coerência com imóveis semelhantes. Em alguns casos mais avançados, pode até ser melhor estimar o valor com base em outras variáveis, como área e localização.
Já no caso do condomínio, a situação é um pouco diferente. Aqui, o valor zero pode ser verdadeiro em alguns casos, como casas ou terrenos que não têm taxa de condomínio. Porém, quando o dado está nulo, isso não significa necessariamente que o valor é zero, mas sim que ele não foi informado.
Por isso, o ideal é não assumir automaticamente zero. Uma boa prática é criar uma variável adicional indicando que aquele valor estava ausente e, ao mesmo tempo, imputar o valor com base na mediana do grupo ou em alguma lógica relacionada ao tipo de imóvel ou região.
A melhor abordagem é evitar decisões simples como preencher tudo com zero. O mais seguro é combinar uma imputação estatística adequada, como média ou mediana por grupo, com a criação de uma variável que indique quando o dado estava faltando.
Isso ajuda o modelo a diferenciar ausência de informação de valores reais e melhora a qualidade das previsões.
Comenta ai alguma duvida.
Bons estudos.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP