1
resposta

Dados desbalanceados

Olá! Na atividade “Explorando dados textuais” do Capítulo 1, cita sobre tratativas para classificação de dados desbalanceados. Alguém dica um curso específico do Alura fala desse tipo de tratamento?

1 resposta

Oii Angela, tudo bem por ai? Espero que sim

Primeiramente, desculpa a demora em te dar um retorno por aqui.

Infelizmente ainda não temos nenhum curso falando sobre como tratar dados desbalanceados, porém a técnica utilizada é a de resampling.

O resampling é usando quando encontramos uma situação de classe desbalanceada, por exemplo, quando temos 90% dos dados classificados como X e 10% classificados com Y. Com isso podemos gerar resultados indesejados como, tal como, o modelo apenas classificar os dados para a classe mais presente nos dados. Para o resampling, nós temos duas opções, e essas são: classificação e regressão, vou te explicar um pouco sobre as elas.

Classificação: é usada quando temos bases com a variável resposta desbalanceada, mas só usamos no conjunto de treino. Dentro desse caso temos as opções de Oversampling e Undersampling.

  • Oversampling: Para utilizar o Oversampling podemos simplesmente duplicar alguma das nossas amostras de maneira aleatória, assim como no undersampling também temos maneiras mais elaboradas de gerar esses dados como, por exemplo, gerar dados sintéticos, é o caso da técnica SMOTE (Synthetic Minority Oversampling Technique), você pode ver o artigo que originou esse método e entender ele melhor aqui (em inglês).
  • Undersampling: Para utilizar o undersampling podemos simplesmente selecionar e remover, de maneira aleatória, parte da nossa amostra que é mais representada. Existem maneiras mais elaboradas para aplicar essa técnica como, por exemplo, o Cluster. Um problema em aplicar essa técnica é que vamos perder muitos dados, então só conseguimos aplicar ela quando temos muitos dados e mesmo assim vamos estar perdendo informação, algo que pode ser negativo.

Regressão: Já na regressão, nós usamos o Bootstrapping, e neste método faz a seleção de amostras aleatórias dos dados para a avaliação do modelo. Ele pode ser usado para estimar estatísticas resumidas, como a média ou o desvio padrão. Ele é usado no aprendizado de máquina aplicado para estimar a habilidade dos modelos de aprendizado de máquina ao fazer previsões sobre dados não incluídos no treinamento.

Qualquer outra dúvida que tiver sobre dados desbalanceados, pode me chamar, ok?

Bons estudos ^^

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!