A solução para identificação de tags está errada!
O instrutor comenta durante o vídeo que criou a REGEX para aceitar, conscientemente, cadeias "<>" como válidas, mas isso não é correto.
Primeiramente, a linguagem HTML não contém nenhuma tag vazia, por definição. Isso, por si só, seria impeditivo para a solução apresentada.
Além disso, existem linguagens de programação (e.g. SQL) que utilizam o símbolo "<>" como operador "diferente". Identificar esse operador como uma tag pode ocasionar problemas sérios na análise e pré-processamento do texto. Isso se torna ainda mais grave pelo fato do dataset sendo utilizado ser do StackOverflow.
Uma REGEX correta para esse cenário seria:
<\/?\w+>