Solucionado (ver solução)
Solucionado
(ver solução)
7
respostas

Limpeza dos dados

Boa tarde,

Reparei que em todos os cursos nossos dados não possuem nenhuma sujeira. No mundo real antes de trabalharmos com eles precisamos tratá-los, gostaria de saber como é esse procedimento? Como descobrir dados que vão interferir diretamente minha análise? Devo remover os outliers ou devo tratar isso durante o processo de exploração dos meus dados?

Desde já agradeço :)

7 respostas
solução!

Oi Leonardo tudo bem?

Para retirar os dados fora da curva deve ou usar o bom senso e isso envolve ter experiência na área de pesquisa ou então ler trabalhos semelhantes e ver que métodos utilizaram em suas pesquisas e se basear neles para poder fazer o mesmo com segurança.

Espero ter ajudado!!!

Opa, valeu André! Ajudou sim, porém acho que ainda não exatamente o que eu estou buscando...não existe nada que eu possa fazer, ou de fato é tentativa e erro? Como eu faço caso eu esteja iniciando do zero? Meu trabalho vai ficar suscetível a todos os erros até eu identifica-los por experiência?

Que tipo de pesquisa está fazendo?

Tenta também colocar os dados em um histograma e ver se consegue ver os outliners facilmente, ou coloca os dados em algum gráfico e tenta separar.

Não existe uma fórmula mágica para todos os casos. Por exemplo podemos estar fazendo uma pesquisa de altura no Brasil então as pessoas com altura muito elevada são importantes para a pesquisa. Ou podemos estar fazendo uma pesquisa sobre porte físico com as mesmas pessoas e pode ser que queiramos excluir pessoas com altura muito elevada.

Depende muito da pesquisa em si.

Agora sim ficou mais claro, André.

Estou trabalhando com uma base que atribui notas para um produto por suas caracteristicas. Comecei a fazer a remoção dos outliers através do boxplot, e transformar as variáveis categóricas em intervalares. Agora ficou mais claro que eu não preciso de todas as variáveis, só preciso avaliar o que é necessário para extrair a informação que eu preciso.

Muito obrigado, André! :)

Oi Leonardo, tudo bem?

Tem um link bem bacana falando sobre o assunto: https://medium.com/analytics-vidhya/dealing-with-noisy-data-in-data-science-e177a4e32621

Disponha e bons estudos!!!

Oi Leonardo, tudo bem? Como sua dúvida foi solucionada, estou fechando o tópico, ok?