Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

análise estatística sem gráficos

O que temos no boxplot é o mesmo que temos no describe. Já a análise de distribuição de frequência usamos o histograma. Como fazer essa análise das distribuições da frequência sem usar o histograma, só usando o pandas e análise numérica? Pergunto pois não enxergo e no meu caso os gráficos são de pouca utilidade.

Obrigado!

3 respostas

Olá Pietro, tudo bem? Espero que sim!

O histograma é equivalente a uma tabela de frequências. As tabelas de frequência indicam em uma coluna os intervalos e em uma segunda coluna as frequências observadas para cada um desses intervalos.

Para criar uma tabela de frequências, basta usar o método value_counts da biblioteca pandas aplicada a uma coluna contendo dados numéricos. Por padrão, o value_counts irá contar a frequência de cada categoria. Porém, ao aplicar o método em uma coluna de dados numéricos, podemos utilizar um parâmetro chamado bins passando um número inteiro para indicar a quantidade de intervalos de mesmo tamanho que queremos criar com a função value_counts.

Na aula em questão, foi criado um histograma da coluna de consumo. O código do gráfico gerou 19 intervalos de dados de forma automática. Para se criar uma tabela de frequências com 19 intervalos de tamanhos iguais na coluna consumo, precisamos utilizar o código a seguir:

dados['consumo'].value_counts(bins = 19)

Uma pergunta que ficará no ar é a de como saberemos o número ideal de intervalos para criar a tabela de frequências. Por que foi escolhido o valor 19 de forma automática na criação do histograma? E a resposta é que existem regras matemáticas para a seleção da quantidade de intervalos ideal da tabela de frequência.

Dentre as formas de calcular a quantidade de intervalos, se destaca a Regra de Sturges, dada pela fórmula:

k = 1 + 3.322 * log10(n)

Onde k é a quantidade de intervalos que queremos encontrar e n é a quantidade de elementos da sua amostra e o logaritmo a ser calculado é de base 10. No caso do exemplo da aula, n é a quantidade de dados da coluna consumo. Como o conjunto de dados possui 365 observações, n = 365.

Aplicando a regra de Sturges, obtemos

k = 1 + 3.322 * log10(365), realizando a operação obtemos k aproximadamente 9.511, utilizando então 10 intervalos.

Outra regra que pode ser utilizada é a raiz quadrada de n, onde n é a quantidade de observações. Com n = 365, realizaríamos a raiz quadrada de 365 que dá como resultado aproximado 19.104, bem próximo do valor usado no histograma, uma vez que só podemos usar valores inteiros para a quantidade de intervalos.

Espero que tenha tirado sua dúvida.

Estou à disposição para ajudar. Bons estudos!

João, ajudou demais. Obrigado! Só mais uma dúvida: como interpretar os dados dessa tabela de frequência a fim de extrair informações relevantes, assim como o instrutor Rodrigo fez com o gráfico?

Obrigado mais uma vez.

solução!

Olá Pietro, que bom que conseguir ajudar!

Tanto o histograma quanto a tabela de frequências vão nos trazer somente uma intuição de como está a distribuição dos dados. Para que se comparar com uma normal, os intervalos iniciais e finais da tabela deverão possuir uma frequência baixa, enquanto valores centrais terão frequência maior. Portanto o comportamento de uma normal será identificado em uma tabela de frequências quando valores vão crescendo até chegar a um valor maior que os demais no intervalo central da tabela de frequências. A partir desse intervalo central, os valores diminuirão na mesma taxa em que cresceram inicialmente.

Os dados reais não apresentarão um comportamento tão perfeito quanto o comportamento de uma normal, porém caso haja um comportamento muito discrepante do descrito, como valores concentrados nos intervalos iniciais ou nos intervalos finais, podemos verificar que há uma assimetria ou uma distribuição muito distinta. No caso dos dados que foram apresentados na aula, há um aumento muito grande da frequência a partir do valor de consumo 20000 e os dados diminuem de uma forma mais lenta a partir do valor central, portanto a frequência não cresceu e diminuiu na mesma proporção para os intervalos anteriores e posteriores ao intervalo central, respectivamente.

Essas observações serão somente para ter um entendimento simples dos dados, testes estatísticos são mais indicados para checar se os dados estão se distribuindo como uma normal ou não, como é o caso do normaltest da biblioteca scipy.

Caso tenha mais alguma dúvida, sinta-se a vontade para perguntar.

Bons estudos!