Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

FreqDist

Olá, ao utilizar a função FreqDist para mostrar a frequência das palavras que mais aparecem no Dataset, o resultado que obtive não estava ordenado pelo maior número de ocorrência, como mostrado na aula.

token_frase = token_espaco.tokenize(todas_palavras)

frequencia = nltk.FreqDist(token_frase)
frequencia
FreqDist({'Mais': 1538,
          'uma': 130888,
          'vez,': 1927,
          'o': 244881,
          'Sr.': 1741,
          'Costner': 50,
          'arrumou': 3,
          'um': 216410,
          'filme': 117543,
          'por': 61339,
          'muito': 51761,
          'mais': 53504,
          'tempo': 10424,
          'do': 101737,
          'que': 325070,
    ...
1 resposta
solução!

Olá Theo.

Na aula no tempo 06:00 podemos ver que a ordem do DataFrame está igual a essa que você teve e somente após o professor incluir o código de ordenação que ficou ordenado pelo maior número de ocorrência.

token_frase = token_espaco.tokenize(palavras)
frequencia = nltk.FreqDist(token_frase)
df_frequencia = pd.DataFrame({"Palavras": list(frequencia.keys()),
                              "Frequencia":list(frequencia.values())})
df_frequencia.nlargest(columns = "Frequencia", n = 10)

Utilizando o método nlargest (documentacao) ele ordena o DataFrame pela colona "Frequencia" e exibe os 10 primeiro (n = 10).

Então o método FreqDist não retorna de maneira ordenada (documentação), por isso precisamos fazer esse tratamento se desejamos ver dessa maneira.

Qualquer duvida não hesite em perguntar, bons estudos.