5
respostas

Limpeza de dados e amostragem

Suponha que eu tenha alguns dados à respeito de um determinado problema/experimento. Estes dados então são minha população total, e fazendo uma análise prévia já percebo de cara que tais dados possuem outliers. Eu preciso fazer um estudo sobre tais dados para encontrar determinado resultado. Minha dúvida é: para que eu possa realizar tal estudo em cima dos dados de amostragem, no caso 95% de confiabilidade, eu devo primeiro realizar a limpeza destes dados (utilizando por exemplo o método dos quartis), e então depois disso pegar minha população de amostragem?

Se sim, quem será minha população total? Seria os 50% obtido através do método dos quartis?

Desde já, grato.

5 respostas

Oi Alysson,

deixe-me ver se eu entendi a sua dúvida para te responder melhor.

O que você quer saber é se a limpeza dos dados de uma amostra da população, por "diminuir" o tamanho dessa amostra altera o tamanho da população inicial?

É mais ou menos isso?

Não. O que quero saber é: dada uma população que sabemos que possuem outliers, então devemos fazer a limpeza dos dados sobre ela, e após isso pegar uma amostragem sobre esses dados limpos?

Oi Alysson,

obrigada.

Nesse caso, pode seguir o fluxo mesmo, então pegar uma amostra da população, fazer a limpeza na amostra, e então seguir por aí :).

Pelo o que eu entendi, pode ser que você esteja lidando com uma população pequena, se esse for o caso, pode analisar tudo.

Mas, geralmente, quando temos muitos dados, a amostra vai ser uma parte menor que vai representar essa população total, e é por isso que calculamos a margem de erro quando dizemos que o que vale para a parte menor, vale para o todo maior, ou o que vale para a amostra vale para a população.

Espero ter esclarecido, qualquer outra dúvida, só mandar aqui.

Respondeu em partes minha dúvida. Talvez eu não esteja conseguindo passar de fato qual é a minha dúvida. Vou tentar topificando, talvez fique melhor.

  • Tenho uma população X, levando em consideração que ela pode ser grande.
  • A população X possui outliers, ou seja, ela está suja.
  • Para que eu possa realizar o estudo sobre a população X, preciso realizar uma amostragem.
  • Desejo que esta amostragem possua uma confiabilidade de 95%.

Sabendo disso, como devo proceder?

Devo primeiro realizar a limpeza dos meus dados, e só após isso definir qual será minha amostragem?

Ou devo pegar uma amostragem primeiro, e só então aplicar a limpeza sobre ela?

Ou tanto faz a ordem da realização da limpeza e amostragem?

Desde já, grato mais uma vez.

Oi Alysson, imagine!

Acho que eu me perdi ali entre amostra e amostragem. :p

Na amostragem, definimos como vamos obter a amostra, então temos alguns métodos como os descritos neste documento. Mas até onde eu entendo, não temos como garantir uma confiabilidade na amostragem, apenas na amostra.

Se você quer garantir que a amostra tenha 95% de confiança, vai precisar definir qual o tamanho dessa amostra, qual o desvio padrão, qual a margem de erro (que deve ser de 5%) dela e um valor padronizado chamado de z score (standard score ou valor z).

Uma vez definido o tamanho da sua amostra para garantir os 95%, você segue normalmente pegando a amostra e fazendo a limpeza dos dados.

Se quiser fazer a conta do cálculo do tamanho da amostra manualmente, pode fazê-la como descrita aqui

Nessa conta, o z score é como se fosse a média de desvios padrão da sua amostra, a parte boa é que o cálculo depende do nível de confiança que você quer, então já há tabelas prontas. Para 95%, o z score é geralmente de mais ou menos 1.96 (para uma distribuição normal).

Caso queira calculá-lo, você pode ver o cálculo dele aqui.

E para fazer o cálculo no R, você tem 2 caminhos, ou fazendo a conta:

(população-mean(população))/sd(população)

ou usando a função scale():

scale(população,center=TRUE,scale=TRUE)

E para fazer a conta do tamanho da amostra,

((zScore)^2)*desvioPadrão*(1-desvioPadrão)/((margemDeErro)^2)

Além disso, tem algumas calculadoras online que fazem a conta do tamanho da amostra pra você.

Uma delas é essa do survey monkey.

Qualquer outra dúvida, só seguir por aqui.