1
resposta

Funcionamento do padded_everygram_pipeline

Na aula anterior nós usamos o padded_everygram_pipeline para gerar os bigramas. Eu pensei na hora que os bigramas que estavam sendo gerados eram de duplas de palavras, até porque foi essa a impressão que eu tive quando o professor usou o exemplo do "Luke, eu sou seu ..." , mas assistindo a essa aula parece agora que o que ele fez foi separar em duplas de letras. Alguém sabe me dizer qual foi o caso, e o que isso significa para o dicionário de vocabulário se ele faz um agrupamento letra por letra?

1 resposta

Oi Raido! Tudo bem com você? Espero que sim!

Desculpa a demora em te trazer um retorno.

Um bigrama vai separar o texto em dois dados, sejam duas palavras, ou duas letras. O instrutor buscou mostrar um exemplo de um bigrama com letras, que não é tão conhecido mas é possível sim ser utilizado, como foi mostrado na aula. Um exemplo no Kaggle mostra de uma forma bem detalhada como se trabalha com esse tipo de bigrama, bem como o tratamento dos dados, que eu sugiro bastante a leitura pois está muito bem construído, no entanto o artigo está em inglês e caso você tenha uma dificuldade com essa língua, sugiro você copiar o texto presente e aplicar em algum tradutor online, mas se você ainda tiver uma dúvida, pode me chamar.Note que no exemplo do Kaggle, as palavras estão sendo separadas em tokens antes de fazer o uso da função em si, o que faz funcionar corretamente durante o padded_everygram_pipeline.

Mesmo assim, para um caso real de uso, como por exemplo, análise de sentimentos em frases no twitter, não é utilizada a separação por letras para fazer a análise e sim, a separação por palavras. Então, para projetos aplicados à nossa realidade, você não vai ter dificuldade se desejar fazer uma análise por bigramas de palavras.

Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição.

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!