Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

FreqDist

Olá, ao utilizar a função FreqDist para mostrar a frequência das palavras que mais aparecem no Dataset, o resultado que obtive não estava ordenado pelo maior número de ocorrência, como mostrado na aula.

token_frase = token_espaco.tokenize(todas_palavras)

frequencia = nltk.FreqDist(token_frase)
frequencia
FreqDist({'Mais': 1538,
          'uma': 130888,
          'vez,': 1927,
          'o': 244881,
          'Sr.': 1741,
          'Costner': 50,
          'arrumou': 3,
          'um': 216410,
          'filme': 117543,
          'por': 61339,
          'muito': 51761,
          'mais': 53504,
          'tempo': 10424,
          'do': 101737,
          'que': 325070,
    ...
1 resposta
solução!

Olá Theo.

Na aula no tempo 06:00 podemos ver que a ordem do DataFrame está igual a essa que você teve e somente após o professor incluir o código de ordenação que ficou ordenado pelo maior número de ocorrência.

token_frase = token_espaco.tokenize(palavras)
frequencia = nltk.FreqDist(token_frase)
df_frequencia = pd.DataFrame({"Palavras": list(frequencia.keys()),
                              "Frequencia":list(frequencia.values())})
df_frequencia.nlargest(columns = "Frequencia", n = 10)

Utilizando o método nlargest (documentacao) ele ordena o DataFrame pela colona "Frequencia" e exibe os 10 primeiro (n = 10).

Então o método FreqDist não retorna de maneira ordenada (documentação), por isso precisamos fazer esse tratamento se desejamos ver dessa maneira.

Qualquer duvida não hesite em perguntar, bons estudos.

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software