Projeto: Sistema de Alerta para Ideação Suicida e Depressão com NLP
Por Ricardo Costa Val do Rosario e CoPilot 365
1. Introdução
Este projeto foi idealizado para apoiar profissionais da saúde na identificação precoce de sinais de depressão grave e ideação suicida. Utilizando técnicas de NLP com especial ênfase em Bag of Words, TF-IDF e N-grams –, a ferramenta análise textos clínicos, mensagens e depoimentos em busca de expressões alarmantes.
O objetivo é oferecer um score de risco que possibilite intervenções imediatas quando necessário, qualificando a avaliação clínica e contribuindo para uma atenção mais assertiva na saúde mental.
2. Objetivos e Escopo
**• Objetivo Principal: ** • Detectar, a partir de textos, verbulações que indiquem estado depressivo crítico • Detectar ideação suicida, emitindo alertas para intervenções clínicas imediatas.
• Escopo da Primeira Fase:
• Construir um vocabulário fixo composto por até 20 expressões-chave – dividido em termos primários
(ex.: “cansei de tudo”, “vou me matar”) e secundários (ex.: “desanimado demais”, “não quero mais sair”).
• Desenvolver um pipeline de NLP que:
Realize o pré-processamento dos textos (tokenização, normalização, remoção de stopwords e preservação de n-grams).
Construa uma representação baseada em Bag of Words, ajustada com TF-IDF para ponderar a relevância dos termos.
Utilize a análise de N-grams para garantir a identificação precisa de expressões compostas. • Criar uma interface visual que destaque os alertas, evidenciando os trechos de texto e o score de risco associado.
# 3. Metodologia e Pipeline Técnico
# 3.1 Coleta e Pré-processamento dos Dados
• Fontes: Dados clínicos anonimizados, textos simulados e exemplos históricos (podem ser extraídos de prontuários ou redes sociais, com consentimento ético). • Pré-processamento: • Tokenização e Normalização: Converter para minúsculas e lidar com variações e erros ortográficos. • Detecção de N-grams: Garantir que expressões como “vou me matar” sejam reconhecidas na íntegra, sem serem decompostas em unigramas.
# 3.2 Vetorização e Ponderação
• Bag of Words: Construção de um vetor de características com as expressões definidas – primárias
com peso alto e secundárias com peso moderado.
**• TF-IDF: Calcular a relevância de cada termo da seguinte forma:**
• TF: Frequência da expressão no documento.
• IDF: Ajuste da relevância considerando a frequência dos termos em todo o corpus.
• Cálculo do Score: • score_risco = Σ[TF-IDF(termo) * peso_termo] • Integração dos N-grams: Capturar sequências de palavras para preservar o contexto (por exemplo, não aguento mais”) possibilitando uma análise mais refinada.
# 3.3 Método de Agregação e Definição de Thresholds
• Categorização do Risco:
• Alerta Crítico: Score acima de um determinado limiar, geralmente acionado pela detecção de expressões primárias.
• Alerta Moderado: Combinação de expressões secundárias que, acumuladas, indicam uma necessidade
de monitoramento.
• Feedback do Especialista: Permitir que os profissionais revisem os alertas, ajustando pesos e thresholds
conforme o histórico e a evolução dos casos.
4. Arquitetura do Sistema
4.1 Fluxo de Dados
Input: • O sistema recebe um texto (mensagem, depoimento ou registro clínico).
Pré-processamento: • O texto é limpo e tokenizado, preservando as expressões definidas.
Vetorização: • Aplicação do modelo Bag of Words e cálculo dos pesos TF-IDF para os n-grams identificados.
Cálculo do Score de Risco: • O score é computado e comparado com os thresholds pré-definidos.
Emissão de Alertas: • Se o score indicar risco, o alerta é registrado e disponibilizado para visualização na interface.
Retorno e Feedback: • Os profissionais podem visualizar o alerta, analisar o texto destacado e registrar feedback para aperfeiçoamento contínuo do sistema.