1
resposta

[Dúvida] isnull(0) pode não ser melhor alternativa

Nos exemplo o iptu usamos substituição por 0, mas na vida real isso não deve acontecer, pode um valor que não se sabe, não foi preenchido ou alguma anomalia assim, porém deixar zero pode enviesar o algoritmo de ML, criando um extremo que não é verdade, e ele vai inferir errado, talvez fosse melhor usar a média ou mediana ou algum tipo de calculo entre o valor p´roximo do mesmo bairro.
Neste caso de IPTU e VALOR , condominio até penso que pode ser zero por algum motivo de desconto ou algo, mas nestes casos qual a melhor saída técnica, especifica pra estes casos se fosse na vida real?

1 resposta

Olá Marcelo.
Tudo bem?
Excelente pergunta!
Substituir valores nulos por zero quase nunca é a melhor escolha, porque isso mistura “ausência de informação” com “valor real igual a zero”.
Isso pode distorcer completamente o padrão que o modelo aprende.
Na prática, o primeiro passo é sempre entender o significado daquele dado no mundo real.
Valor nulo normalmente representa informação desconhecida, não preenchida ou erro de coleta, enquanto zero representa um valor real existente.
Se essa diferença não for respeitada, o modelo pode aprender relações incorretas.
No caso do IPTU, por exemplo, normalmente não faz sentido assumir zero, já que esse imposto existe para praticamente todos os imóveis, com exceções específicas como isenção. Por isso, o mais adequado costuma ser substituir os valores ausentes pela mediana, preferencialmente calculada por grupos como bairro ou tipo de imóvel. Isso ajuda a manter a coerência com imóveis semelhantes. Em alguns casos mais avançados, pode até ser melhor estimar o valor com base em outras variáveis, como área e localização.
Já no caso do condomínio, a situação é um pouco diferente. Aqui, o valor zero pode ser verdadeiro em alguns casos, como casas ou terrenos que não têm taxa de condomínio. Porém, quando o dado está nulo, isso não significa necessariamente que o valor é zero, mas sim que ele não foi informado.
Por isso, o ideal é não assumir automaticamente zero. Uma boa prática é criar uma variável adicional indicando que aquele valor estava ausente e, ao mesmo tempo, imputar o valor com base na mediana do grupo ou em alguma lógica relacionada ao tipo de imóvel ou região.
A melhor abordagem é evitar decisões simples como preencher tudo com zero. O mais seguro é combinar uma imputação estatística adequada, como média ou mediana por grupo, com a criação de uma variável que indique quando o dado estava faltando.
Isso ajuda o modelo a diferenciar ausência de informação de valores reais e melhora a qualidade das previsões.
Comenta ai alguma duvida.
Bons estudos.