Preciso remover substrings duplicadas e deixar a primeira letra da frase maiúscula. As frases viriam de um banco de dados não especificado.
Exemplos:
inputs
1 - oo rarato roeroeu aa rouroupa dodo rerei dde romroma
2 - bebe
3 - Barbara bebe com Bernardo
outputs esperados:
1 - O rato roeu a roupa do rei de roma
2 - Be
3 - Barbara bebe com bernardo
O que consegui até agora foi:
frase= str(#Digitar a frase aqui)
frase_tratada= frase.upper()
nova = re.sub(r'(.+?)\1+', r'\1', frase_tratada)
nova2= nova.capitalize()
print(nova2)
outputs:
1 - O rato roeu a roupa do rei de roma #Output corret
2 - Be #Output correto
3 - Bara be com bernardo #output INCORRETO
Existe uma forma de fazer isso sem utilizar whitelists, ou algo do tipo?