Olá Marcelo.
Tudo bem?
Excelente pergunta!
Substituir valores nulos por zero quase nunca é a melhor escolha, porque isso mistura “ausência de informação” com “valor real igual a zero”.
Isso pode distorcer completamente o padrão que o modelo aprende.
Na prática, o primeiro passo é sempre entender o significado daquele dado no mundo real.
Valor nulo normalmente representa informação desconhecida, não preenchida ou erro de coleta, enquanto zero representa um valor real existente.
Se essa diferença não for respeitada, o modelo pode aprender relações incorretas.
No caso do IPTU, por exemplo, normalmente não faz sentido assumir zero, já que esse imposto existe para praticamente todos os imóveis, com exceções específicas como isenção. Por isso, o mais adequado costuma ser substituir os valores ausentes pela mediana, preferencialmente calculada por grupos como bairro ou tipo de imóvel. Isso ajuda a manter a coerência com imóveis semelhantes. Em alguns casos mais avançados, pode até ser melhor estimar o valor com base em outras variáveis, como área e localização.
Já no caso do condomínio, a situação é um pouco diferente. Aqui, o valor zero pode ser verdadeiro em alguns casos, como casas ou terrenos que não têm taxa de condomínio. Porém, quando o dado está nulo, isso não significa necessariamente que o valor é zero, mas sim que ele não foi informado.
Por isso, o ideal é não assumir automaticamente zero. Uma boa prática é criar uma variável adicional indicando que aquele valor estava ausente e, ao mesmo tempo, imputar o valor com base na mediana do grupo ou em alguma lógica relacionada ao tipo de imóvel ou região.
A melhor abordagem é evitar decisões simples como preencher tudo com zero. O mais seguro é combinar uma imputação estatística adequada, como média ou mediana por grupo, com a criação de uma variável que indique quando o dado estava faltando.
Isso ajuda o modelo a diferenciar ausência de informação de valores reais e melhora a qualidade das previsões.
Comenta ai alguma duvida.
Bons estudos.