1
resposta

Duplicados e Nulos

O que poderíamos fazer se houvesse duplicados ou nulos na base. Teríamos de excluir esses registros da base ou Tratar antes de aplicar uma análise de regreção logística?

1 resposta

Olá, Paulo, tudo bem?

Quando trabalhamos com bases de dados, é comum encontrarmos registros duplicados ou valores nulos, e ambos podem impactar a análise e os modelos de machine learning, como a regressão logística, de maneiras diferentes.

Os registros duplicados podem ser identificados com o método duplicated() do Pandas. Se quiser saber quantos existem na sua base, podemos usar dados.duplicated().sum(). Mas, se não houver um motivo para manter essas duplicatas, podemos removê-las com drop_duplicates(), mas é sempre bom avaliar o contexto antes de tomar essa decisão.

Já os valores nulos podem ser encontrados com isnull().sum(), que retorna a quantidade de dados ausentes em cada coluna. Para tratá-los, há algumas opções: se forem poucos, remover as linhas ou colunas pode ser viável. Outra abordagem é a imputação, substituindo os valores nulos pela média, mediana, moda ou outro valor que faça sentido no contexto dos seus dados.

Antes de decidir como lidar com esses problemas, é importante considerar a quantidade de dados disponível e como a remoção ou imputação pode afetar os resultados.

Espero ter esclarecido.

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado