Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Identificando os outliers que apareceram nos dias de semana

Apliquei o seguinte código:

selecao = dados['fds'] == 0
dados_semana = dados[selecao]
valor = dados_semana['consumo']
Q1 = valor.quantile(0.25)
Q3 = valor.quantile(0.75)
IIQ = Q3 - Q1
limite_inferior = Q1 - 1.5 * IIQ
limite_superior = Q3 + 1.5 * IIQ
selecao = (valor > limite_superior)
outliers_consumo_dados_semana = dados_semana[selecao]
outliers_consumo_dados_semana

E tive o seguinte retorno:

     data     temp_media     temp_min     temp_max     chuva     fds     consumo
19     20/01/2015     27.68     23.3     35.6     0.6     0     35127
259     17/09/2015     27.26     20.4     33.0     0.0     0     33930
287     15/10/2015     28.12     18.9     35.8     0.0     0     35861

Nenhum desses dias foi feriado em São Paulo em 2015. No entanto, como a pesquisa foi realizada em uma área universitária, talvez justifique o dia 20/jan como algo relacionado ao inicio do ano letivo e o dia 15/out que é dia do professor, mas não achei nada para o dia 17/set. Ou simplesmente houve um erro de digitação nesses dias.

1 resposta
solução!

Olá Marcelo, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

De fato, pode ser que houve algum erro de digitação ou de fato está correto e aquele foi um dia atípico. Mas a verdade que talvez não consigamos inferir o que causou essa diferença nesse registro.

Como ele é um evento isolado podemos descartá-lo na análise, uma vez que não irá interferir como um todo, ou escolher alguma outra estratégia.

Bons estudos!