Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

Como identificar os outliers

Olá!

Durante a Aula 02 - Pré-processamento de dados, no vídeo 04, foi possível identificar que a coluna "Mortgage" apresentava uma grande quantidade de valores iguais a zero. Depois, no vídeo 05, foi utilizado a função stats.zscore para a coluna "Mortgage" do dataframe, a fim de eliminar esses outliers.

Porém, digamos que um iniciante em análise de dados poderia não ter feito essa análise e deixado passar que a coluna tinha muitos valores iguais a zero. Neste caso, para garantir que isso não aconteça com essa ou outras colunas, poderia ser considerado uma boa prática iterar a função stats.zcore para todas as colunas do dataframe e eliminar possíveis outliers de todas as colunas?

3 respostas

Oi, Gabriel

Tudo bem?

Uma boa prática quando trabalhamos com um projeto de Machine Learning é começar com uma análise exploratória dos dados, pois antes de aplicar qualquer técnica de pré-processamento ou modelagem, é importante compreender os dados que você possui. A análise exploratória permite obter insights valiosos sobre a natureza dos dados, suas características e possíveis problemas. A partir daí podemos seguir para o processamento e depois para o modelo de Machine Learning em si. Então, a minha recomendação é que essa etapa não seja pulada e que os dados sejam analisados antes.

Bons estudos!! :)

Oi Valquíria! Obrigado pelo retorno.

Na verdade, meu questionamento está mais relacionado à interpretação da análise exploratória. Ou seja, um analista mais experiente pode identificar determinadas anomalias, que um analista iniciante não identificaria.

Portanto, para resolver isso, minha dúvida seria: a fim de garantir que esses outliers não vão passar despercebidos, independente de quem está realizando a análise exploratória, é interessante criar no código Python uma iteração para cada coluna do Dataframe, para retirar os possíveis outliers dessas colunas? Ou, ao fazer isso, os dados poderiam sofrer alguma alteração e esse procedimento pode não ser considerado uma "boa prática"?

solução!

Gabriel,

Aí teria que levar em consideração quais colunas poderiam conter esses outliers e qual seria o impacto disso no modelo de Machine Learning.

É importante eu destacar aqui que nem todos os algoritmos são sensíveis a outliers. Então, a decisão de remover outliers depende do contexto do problema, dos dados específicos e do algoritmo de aprendizado de máquina que está sendo utilizado.

Outro ponto importante é que os outliers podem ser causados por erros de medição, registros corrompidos, comportamentos incomuns ou eventos raros. Então, há casos em que os outliers podem ser informações importantes e relevantes para o problema em questão. Em certos domínios, como detecção de fraudes ou análise de anomalias, os outliers podem conter informações valiosas e não devem ser removidos indiscriminadamente.

Por isso, o ideal é analisar todo esse contexto, entender as informações que temos e pensar em qual algoritmo vamos usar para resolver o problema.