2
respostas

retirada de outliers

A retirada não é deletar, mas sim apenas selecionar, não é isso? Consigo utilizar um laço de repetição for com if aninhado e dropar todos os resultados acima de um número, não consigo? Dessa forma elimino a sugeira do meu dataframe especificando um teto de valor para meus imóveis, certo? Foi o que entendi, pelo menos. Isso porque aqui ele começa a usar gráficos, então prejudica meu entendimento.

2 respostas

Oi Pietro, como vai?

Vou te passar a definição do que é Outlier:

Outliers são valores extremos que se desviam de outras observações nos dados, eles podem indicar uma variabilidade em uma medição, erros experimentais ou uma novidade. Em outras palavras, um outlier é uma observação que diverge de um padrão geral em uma amostra.

Normalmente são feitos drops nos valores considerados outliers. Também é feito isso com os dados nulos quando não são utilizados na análise do dataset.

É possível sim utilizar de processos para otimizar essa retirada de dados divergentes como você sugeriu.

Infelizmente em Data Science é comum a utilização de gráficos, pois é uma forma mais clara de ser visualizado as análises efetuadas após o tratamento do seu dataset.

Precisamos pensar e contamos com a sua colaboração de como transformar a sua experiência conosco e torne o seu aprendizado mais produtivo. Estamos sempre nos esforçando para conseguir tornar nossos cursos acessíveis.

Agradecemos seus feedbacks e colaboração Pietro!

Caso a sua dúvida ainda permaneça, só voltar aqui! Fico aguardando também sugestões!

Abraços

Complementando a minha resposta anterior Pietro

O boxplot trata de um gráfico em que aparece a mediana e é representada por um retângulo na horizontal ou vertical ( depende dos dados analisados ) , então possui uma linha que sai da parte menor desse retângulo, uma para cada extremidade, terminada com uma reta perpendicular, mostrando o maior valor da amostra em um lado e o menor valor da amostra do outro.

É possível observar em alguns casos pontos após esses valores iniciais e finais que mencionei, estes pontos representam os outliers que citei na resposta anterior. Eles são mostrados graficamente.

Quartis (Q1, Q2 e Q3): São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem a distribuição em quatro partes iguais. O primeiro quartil, Q1, é o número que deixa 25% das observações abaixo e 75% acima, enquanto que o terceiro quartil, Q3, deixa 75% das observações abaixo e 25% acima. Já Q2 é a mediana, deixa 50% das observações abaixo e 50% das observações acima.

Deixarei o link de um artigo sobre o boxplot para tentar ajudar na sua compreensão Link Boxplot

Você prefere o link diretamente ou assim formatado?

Fico aguardando o seu retorno e reforço que já entrei em contato com a equipe de transcrição. Bons estudos Pietro