Oi Raido! Tudo bem com você? Espero que sim!
Desculpa a demora em te trazer um retorno.
Um bigrama vai separar o texto em dois dados, sejam duas palavras, ou duas letras. O instrutor buscou mostrar um exemplo de um bigrama com letras, que não é tão conhecido mas é possível sim ser utilizado, como foi mostrado na aula. Um exemplo no Kaggle mostra de uma forma bem detalhada como se trabalha com esse tipo de bigrama, bem como o tratamento dos dados, que eu sugiro bastante a leitura pois está muito bem construído, no entanto o artigo está em inglês e caso você tenha uma dificuldade com essa língua, sugiro você copiar o texto presente e aplicar em algum tradutor online, mas se você ainda tiver uma dúvida, pode me chamar.Note que no exemplo do Kaggle, as palavras estão sendo separadas em tokens antes de fazer o uso da função em si, o que faz funcionar corretamente durante o padded_everygram_pipeline
.
Mesmo assim, para um caso real de uso, como por exemplo, análise de sentimentos em frases no twitter, não é utilizada a separação por letras para fazer a análise e sim, a separação por palavras. Então, para projetos aplicados à nossa realidade, você não vai ter dificuldade se desejar fazer uma análise por bigramas de palavras.
Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição.
Bons estudos!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!