Antes de qualquer coisa queria falar que gostei das ideias e conceitos por trás do corretor ortográfico, mas senti falta de exemplos reais e sugestões de como solucionar casos reais no decorrer da aula. O curso inteiro foi baseado em apenas uma única palavra o que pode deixar o foco viciado apenas nesse exemplo, senti falta de citação de exemplos reais e como solucionar problemas para a correção de outros cenários existentes.
Queria listar algumas coisas que eu pensei entre dúvidas e idéias e senti falta de uma citação.
- Quais sites existem com um corpus de palavras existentes na lingua portuguêsa? Existe algum que leva em consideração palavras informais? Onde eu poderia procurar por nomes próprios, sobrenomes e nomes de lugares?
- Em quais problemas reais eu poderia aplicar um corretor ortográfico além de um buscador?
- normalizar apenas com minusculo e deixar apenas o que é letra é suficiente pra limpar textos? será que remover números não pode ser prejudicial em algum ponto? E se eu precisar corrigir uma frase que fala sobre 3g? ou se alguém precisa digitar algo númérico junto exemplo busca por um livro que tem número no título: "capitão américa 30" e era "capitão américa 3"?
- remover letras seguidas acima de 3 repetidas para no máximo 2 poderia ajudar? exemplo: "banannna", ficaria "bananna".
- Como eu monto uma base de teste pra checar a assertividade? devo fazer isso de forma manual? qual o percentual de palavras pra testar em comparação para corrigir que eu deveria levar em consideração?
- O processamento para corrigir uma frase pode ficar muito lento se eu precisar aplicar isso em larga escala, quais dicas ou ideias para deixar esse script mais performático?
- E se a palavra correta não é a mais frequente para aquela frase? Será que vale a pena levar em consideração bigramas ou trigramas mais frequentes também? Será que a performance fica mais comprometida com isso? exemplo: "abrik", é abril, abriu ou abrir? "paj", é pai ou pau?
- Levar em consideração letras próximas no teclado é uma ideia possivel também?
- Nos corretores famosos exemplo o buscador do google, quais processos será que ele faz pra trazer as sugestões?
- Usar Levenshtein poderia trazer mais performance ou assertividade?