Olá! Na atividade “Explorando dados textuais” do Capítulo 1, cita sobre tratativas para classificação de dados desbalanceados. Alguém dica um curso específico do Alura fala desse tipo de tratamento?
Olá! Na atividade “Explorando dados textuais” do Capítulo 1, cita sobre tratativas para classificação de dados desbalanceados. Alguém dica um curso específico do Alura fala desse tipo de tratamento?
Oii Angela, tudo bem por ai? Espero que sim
Primeiramente, desculpa a demora em te dar um retorno por aqui.
Infelizmente ainda não temos nenhum curso falando sobre como tratar dados desbalanceados, porém a técnica utilizada é a de resampling.
O resampling é usando quando encontramos uma situação de classe desbalanceada, por exemplo, quando temos 90% dos dados classificados como X e 10% classificados com Y. Com isso podemos gerar resultados indesejados como, tal como, o modelo apenas classificar os dados para a classe mais presente nos dados. Para o resampling, nós temos duas opções, e essas são: classificação e regressão, vou te explicar um pouco sobre as elas.
• Classificação: é usada quando temos bases com a variável resposta desbalanceada, mas só usamos no conjunto de treino. Dentro desse caso temos as opções de Oversampling e Undersampling.
• Regressão: Já na regressão, nós usamos o Bootstrapping, e neste método faz a seleção de amostras aleatórias dos dados para a avaliação do modelo. Ele pode ser usado para estimar estatísticas resumidas, como a média ou o desvio padrão. Ele é usado no aprendizado de máquina aplicado para estimar a habilidade dos modelos de aprendizado de máquina ao fazer previsões sobre dados não incluídos no treinamento.
Qualquer outra dúvida que tiver sobre dados desbalanceados, pode me chamar, ok?
Bons estudos ^^