1
resposta

[Dúvida] Dúvida

É possível utilizar a biblioteca SpaCy em uma coluna de um dataset, que possui as descrições de uma empresa em cada linha, é possível adaptar as técnicas apresentadas no curso?

1 resposta

Olá Vitória, espero que esteja bem!

Proposta para solução 1

Quando você diz usar o spacy em outra coluna do dataset, você quer dizer aplicar o reconhecimento de entidades ?

Se for isso, você pode sim! Em qualquer coluna de texto vocẽ pode fazer isso!

O exemplo abaixo mostra um exemplo disso:

import pandas as pd
import spacy

nlp = spacy.load("pt_core_news_sm")

df = pd.DataFrame({
    'descricao': [
        "A empresa XPTO atua no setor de tecnologia.",
        "A ABC Corp foi fundada em 1999 e está sediada em São Paulo.",
    ]
})


def extrair_entidades(texto):
    doc = nlp(texto)
    return [(ent.text, ent.label_) for ent in doc.ents]

df['entidades'] = df['descricao'].apply(extrair_entidades)

print(df)

Outros casos

Agora se sua dúvida é sobre usar o modelo para extrair entidades específicas usando uma coluna com labels, infelizmente não é possível fazer isso diretamente, contudo você treinar o modelo interno do spacy para fazer isso, porém além dos rótulos, você precisa das posições onde os rótulos aparecem. Você deixar um link abaixo de como fazer, se estiver iniciando em NLP pode ser que algumas coisas fiquem confusas, mas não se preocupe.

https://www.kaggle.com/code/flaviagg/treinando-spacy-ner-para-o-lener-br

Espero ter te ajudado!

Insira aqui a descrição dessa imagem para ajudar na acessibilidade