olá!
no vídeo 02 (Análise exploratória dos dados) da aula 02 (Análise dos Dados), ocorreu a análise do summary(Groceries) apresentado abaixo:
transactions as itemMatrix in sparse format with
9835 rows (elements/itemsets/transactions) and
169 columns (items) and a density of 0.02609146
most frequent items:
whole milk other vegetables
2513 1903
rolls/buns soda
1809 1715
yogurt (Other)
1372 34055
element (itemset/transaction) length distribution:
sizes
1 2 3 4 5 6 7 8 9
2159 1643 1299 1005 855 645 545 438 350
10 11 12 13 14 15 16 17 18
246 182 117 78 77 55 46 29 14
19 20 21 22 23 24 26 27 28
14 9 11 4 6 1 1 1 1
29 32
3 1
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 2.000 3.000 4.409 6.000 32.000
durante o vídeo, o instrutor Mauro interpretou a informação element (itemset/transaction) length distribution como "2159 itens aparecendo 1 vez, 1643 itens aparecendo 2 vezes, e assim por diante, até chegar a 1 item aparecendo 32 vezes".
creio que essa explicação esteja equivocada: pelo que eu entendo, essa tabela se refere a frequência de comprimento dos itens. Ou seja: 2159 transações com 1 item no carrinho, 1643 transações com 2 itens no carrinho, assim sucessivamente, até apenas 1 transação com 32 itens no carrinho. ao somar todas as transações dessa tabela, chegamos a exatamente 9835 que é o comprimento total da base. essa mesma interpretação se aplicaria à tabela dos quartis.
me parece que a informação de quantas vezes apareceu cada item na verdade é exibida na primeira tabela (whole milk 2513, other vegetables 1903 etc)
obrigado!