O que poderíamos fazer se houvesse duplicados ou nulos na base. Teríamos de excluir esses registros da base ou Tratar antes de aplicar uma análise de regreção logística?
O que poderíamos fazer se houvesse duplicados ou nulos na base. Teríamos de excluir esses registros da base ou Tratar antes de aplicar uma análise de regreção logística?
Olá, Paulo, tudo bem?
Quando trabalhamos com bases de dados, é comum encontrarmos registros duplicados ou valores nulos, e ambos podem impactar a análise e os modelos de machine learning, como a regressão logística, de maneiras diferentes.
Os registros duplicados podem ser identificados com o método duplicated()
do Pandas. Se quiser saber quantos existem na sua base, podemos usar dados.duplicated().sum()
. Mas, se não houver um motivo para manter essas duplicatas, podemos removê-las com drop_duplicates()
, mas é sempre bom avaliar o contexto antes de tomar essa decisão.
Já os valores nulos podem ser encontrados com isnull().sum()
, que retorna a quantidade de dados ausentes em cada coluna. Para tratá-los, há algumas opções: se forem poucos, remover as linhas ou colunas pode ser viável. Outra abordagem é a imputação, substituindo os valores nulos pela média, mediana, moda ou outro valor que faça sentido no contexto dos seus dados.
Antes de decidir como lidar com esses problemas, é importante considerar a quantidade de dados disponível e como a remoção ou imputação pode afetar os resultados.
Espero ter esclarecido.
Qualquer dúvida, não hesite em compartilhar no fórum.
Abraços!