Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] Boa prática para tratamento de Dados Faltantes

Boa noite! Estava pensando sobre o exemplo hipotético e me surgiu uma dúvida.

Se temos no dataset:

idneighborhoodzone
01Santa CruzZona Oeste
10Santa Cruz

Seria uma boa prática inferir a correspondência 'Santa Cruz' x 'Zona Oeste' e estendê-la aos dados com bairro 'Santa Cruz' e zona faltante?

1 resposta
solução!

Olá Edinaldo, tudo bem com você?

Peço desculpas pela demora em obter um retorno.

Tratar dados faltantes em um conjunto de dados é uma etapa muito importante no processo de preparação de dados para análise. Inclusive, é um desafio muito encontrado no mercado, pois nem sempre teremos todas as informações disponíveis, seja por limitação da empresa, seja por erro humano no preenchimento, seja por alguma perda, dentre outros. Mas, a forma de lidar com dados faltantes irá depender do seu conjunto de dados e do seu objetivo.

No seu caso, você está considerando usar a informação de que o bairro 'Santa Cruz' está na 'Zona Oeste' para preencher dados faltantes na coluna 'zone'. Isso é conhecido como imputação baseada em outras variáveis.

No entanto, essa estratégia deve ser usada com cautela. Embora possa parecer lógico que todos os registros de 'Santa Cruz' pertençam à 'Zona Oeste', pode haver exceções que não conhecemos. Por exemplo, pode haver um bairro 'Santa Cruz' em uma 'Zona Norte' que não está representado nos dados atuais. Se inferirmos que todos os 'Santa Cruz' são da 'Zona Oeste', estaremos introduzindo um viés nos dados.

Uma abordagem mais segura seria excluir esses registros com dados faltantes, especialmente se representarem uma pequena proporção do conjunto de dados total. No entanto, se a quantidade de dados faltantes for significativa, a exclusão poderia resultar na perda de muitas informações valiosas.

Em resumo, a melhor abordagem depende do contexto específico e do conhecimento do domínio. No seu exemplo, se você tem certeza de que todos os registros de 'Santa Cruz' pertencem à 'Zona Oeste', a inferência pode ser uma boa estratégia. No entanto, se houver qualquer dúvida, pode ser mais seguro evitar a inferência e considerar outras estratégias de tratamento de dados faltantes, como:

  • Preencher os dados faltantes com um valor padrão (por exemplo, "Desconhecido")
  • Realizar métodos estatísticos, como a média, mediana ou moda quando lidamos com dados numéricos
  • Encontrar o valor através de operações entre colunas, por exemplo, se há dados faltando em uma coluna idade, mas temos uma coluna com a data de nascimento, e uma coluna com a data da coleta dos dados, podemos fazer a operação de subtração e obter os dados faltantes da coluna idade
  • Remover os registros que possuem dados faltante

Espero ter ajudado. Continue mergulhando em conhecimento e não hesite em voltar ao fórum para continuar aprendendo e interagindo com a comunidade.

Em caso de dúvidas estou à disposição.

Abraços e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software