1
resposta

[Reclamação] Má identificação de tags

A solução para identificação de tags está errada!

O instrutor comenta durante o vídeo que criou a REGEX para aceitar, conscientemente, cadeias "<>" como válidas, mas isso não é correto.

Primeiramente, a linguagem HTML não contém nenhuma tag vazia, por definição. Isso, por si só, seria impeditivo para a solução apresentada.

Além disso, existem linguagens de programação (e.g. SQL) que utilizam o símbolo "<>" como operador "diferente". Identificar esse operador como uma tag pode ocasionar problemas sérios na análise e pré-processamento do texto. Isso se torna ainda mais grave pelo fato do dataset sendo utilizado ser do StackOverflow.

Uma REGEX correta para esse cenário seria:

<\/?\w+>
1 resposta

Oi, Miguel. Como vai?

Entendo sua colocação! De fato, a expressão fornecida por você lida com tags HTML de forma muito mais específica. O requerimento de que a barra (/) seja opcional e limitar a quantidade de caracteres na tag é muito assertiva em relação aos formatos de tag HTML. Agradeço por trazer suas preocupações à nossa atenção. Os pontos que você trouxe são muito importantes e contribuem para a melhoria contínua de nosso conteúdo.

A expressão construída no curso, r"<.*?>", é muito menos específica, e poderia lidar melhor com casos em que, por exemplo, o HTML não está bem estruturado e falta em previsibilidade.

Agradeço novamente por compartilhar suas observações conosco, Miguel. Fico à disposição.

Abraços!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software