Olá Pietro, tudo bem? Espero que sim!
O histograma é equivalente a uma tabela de frequências. As tabelas de frequência indicam em uma coluna os intervalos e em uma segunda coluna as frequências observadas para cada um desses intervalos.
Para criar uma tabela de frequências, basta usar o método value_counts da biblioteca pandas aplicada a uma coluna contendo dados numéricos. Por padrão, o value_counts irá contar a frequência de cada categoria. Porém, ao aplicar o método em uma coluna de dados numéricos, podemos utilizar um parâmetro chamado bins passando um número inteiro para indicar a quantidade de intervalos de mesmo tamanho que queremos criar com a função value_counts.
Na aula em questão, foi criado um histograma da coluna de consumo. O código do gráfico gerou 19 intervalos de dados de forma automática. Para se criar uma tabela de frequências com 19 intervalos de tamanhos iguais na coluna consumo, precisamos utilizar o código a seguir:
dados['consumo'].value_counts(bins = 19)
Uma pergunta que ficará no ar é a de como saberemos o número ideal de intervalos para criar a tabela de frequências. Por que foi escolhido o valor 19 de forma automática na criação do histograma? E a resposta é que existem regras matemáticas para a seleção da quantidade de intervalos ideal da tabela de frequência.
Dentre as formas de calcular a quantidade de intervalos, se destaca a Regra de Sturges, dada pela fórmula:
k = 1 + 3.322 * log10(n)
Onde k é a quantidade de intervalos que queremos encontrar e n é a quantidade de elementos da sua amostra e o logaritmo a ser calculado é de base 10. No caso do exemplo da aula, n é a quantidade de dados da coluna consumo. Como o conjunto de dados possui 365 observações, n = 365.
Aplicando a regra de Sturges, obtemos
k = 1 + 3.322 * log10(365), realizando a operação obtemos k aproximadamente 9.511, utilizando então 10 intervalos.
Outra regra que pode ser utilizada é a raiz quadrada de n, onde n é a quantidade de observações. Com n = 365, realizaríamos a raiz quadrada de 365 que dá como resultado aproximado 19.104, bem próximo do valor usado no histograma, uma vez que só podemos usar valores inteiros para a quantidade de intervalos.
Espero que tenha tirado sua dúvida.
Estou à disposição para ajudar. Bons estudos!