Dúvida sobre o tratamento

Bom dia,

Eu estou rodando novamente os códigos referente ao tratamento dos Outilers e achei estranho uma coisa. Professor quando foi fazer o tratamento do campo Tipo, ele usou como base o dataframe inicial e não o dataframe modificado após o tratamento dos outliers do campo Valor.

Quando faz um boxplot do Tipo em cima do dataframe já modificado eu entendo que não precisaria nem fazer o tratamento.

Fiz o boxplot em cima da base já tratada pelo Valor e ficou da seguinte forma:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Vou fazer o tratamento por Tipo aqui para ver como ficaria, mas o boxplot fica bem diferente somente com o tratamento por Valor. Não sei se soube explicar meu pensamento.

Segue abaixo um print do boxplot que foi mostrado em aula, tomando como base o dataframe inicial:

Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Olá Luana! Tudo certo? Espero que sim! 🙂

O motivo do professor utilizar o dataframe original novamente é que uma análise conjunta de todos as categorias do campo "Tipo" é diferente de uma análise com as categorais separadas.

Antes de mais nada, vamos dar uma olhada em certos pontos...

Repare no box-plot feito a partir das das categorias do campo "Tipo" separadas:

Diagrama de Caixas (Box-Plot) de "Tipos"

Cada categoria apresenta uma dispersão de valores respectivos diferentes. (Faz sentido, uma vez que quitinetes tendem a ser mais baratas que casas).

Note que a maioria dos valores da categoria Casa de Condomínio se encontra acima da marca de 5000.

Agora veja a analise em que não é considerado o campo "Tipo":

Diagrama de Caixa dos Imóveis

Todos os valores do dataframe são colocados sob um único "imóvel" incógnita qualquer.

Veja como a maioria dos valores se encontram abaixo da marca de 5000. Isso ocorre devido ao fato da maioria dos valores das categorias de "Tipos" estarem abaixo de 5000, em detrimento de alguns poucos de Casa de Condomínio, que estão acima de 5000. Dessa forma, o diagrama de caixa de acaba sendo "puxado" para baixo e os valores acima da marca de 5000 acabam por ser poucos ou outliers.

Para mais informações sobre os conceitos do Diagrama de Caixa (Box-plot) você pode acessar essas páginas:

Ufa! 😅

Pronto! Agora, voltando à sua questão...

O professor teve que realizar uma nova análise com o dataframe original, pois, justamente, se usasse o antigo e o separasse em categorias de "Tipo", este iria gerar um box-plot com categorias que tiveram seus valores respectivos inteferindo uns com os outros.

Espero ter ajudado! Qualquer dúvida é só falar! 😉

Bons Estudos!

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP