Na Aula 2 - Organizando os dados , uma dúvida, porque utilizar a MEDIANA e não a MÉDIA dos registros?
Na Aula 2 - Organizando os dados , uma dúvida, porque utilizar a MEDIANA e não a MÉDIA dos registros?
Oii Ricardo, tudo certo por ai?
Primeiro desculpa pela demora em te dar um retorno, mas vamos lá!
Quando fazemos a média, usamos todos os valores e se tivermos valores muito discrepantes (muito altos ou muito baixos), eles terão um grande peso. Normalmente, em Data Science, pontos que tem um valor extremamente fora da "curva", que são muito maiores ou muito menores que os outros, são classificados como outliers, então tratar pontos NaN com a média trás o peso desses outliers.
Quando usamos o valor da mediana, estaremos mais próximos dos valores que estão no meio da amostra, não tendo o peso de outliers e nosso resultado de clusterização, por exemplo, será melhor. Caso queira saber um pouco mais sobre a média e mediana, temos um artigo chamado Média ou mediana? Entendendo cada uma que pode ajudar.
Se ainda não estiver claro pra ti, pode me procurar novamente!
Bons estudos ^^
Ficou claro sim Sthefanie, muito obrigado.