1
resposta

Transferência de conhecimento de modelo "NER"

Estou tentando treinar um modelo com meu próprio dataset. A tarefa é de classificação de tokens. Estou utilizando a ferramenta Doccano para anotar as entidades. Porém só é possível exportar o dataset anotado em Jsonl. A partir daí, não consigo transformar meus dados no formato BIO, que os modelos de "NER" recebem como entrada. Alguma dica de ferramenta que automatiza essa transformação de dados ou algum script python que faça isso?

1 resposta

Olá, Alessandro! Tudo bem?

Para converter especificamente do formato JSONL para BIO, você pode usar um script em Python. Pesquisei um pouco e encontrei esse script aqui. Talvez você precise ajustar mas a base já pode ser um começo. Recomendo que teste e depois nos conte se deu certo ou não, para procurarmos outras opções.

Espero que isso te ajude a converter seus dados para o formato BIO. Ficamos à disposição :)

Um abraço e bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!