Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Desbalanceamento na base de dados

Boa noite pessoal, um negócio que eu fiquei em dúvida foi na questão do balanceamento da base de treinamento. Usando o exemplo dos cachorros e dos porcos, se na base conter ao todo 6 exemplos sendo que 5 deles são porcos e 1 é cachorro, quando eu tentar predizer um novo animal ele vai tendar mais a classifica como porco?? Existe alguma algoritmo para balancear uma base?

1 resposta
solução!

Você está certo Matheus. Por isso na prática usamos um conjunto de dados muito maior do que 6 elementos. Nas próximas aulas vai ver que os conjuntos crescem, usamos somente 6 no primeiro para ilustrar o processo de análise.

Mas se mesmo assim você tiver um "desbalanço" de classes você pode usar a função train_test_split(x, y, stratify=True) do sklearn que vai separar para você proporcionalmente treino e teste de acordo com a ocorrência de cada classe.

Se mesmo assim não for suficiente, existem algoritmos que tentam detectar anomalias (anomaly detection).

att