Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

[Dúvida] O que pode causar o "azar", que o professor disse?

O que pode causar o "azar", que o professor disse? Ele até deu um exemplo: "se caso no treino e teste houvessem muitas amostras de uma determinada classe e poucas de outras classes"

Mais eu fico me perguntando quais seriam outras causas tambem. Gostaria de aprender mais sobre isso.

PERGUNTAS

  • É apenas muitas amostras de uma determinada classe e poucas de outras classes? Ou existem outros fatores que podem gerar um "azar"?

  • Também, outra pergunta, ao contrário. Que tipo de situações poderiam fazer com que eu tivesse "sorte por um acaso", e assim eu achar que meu modelo está bom, quando na realidade foram falsos positivos/erroneamente otimistas, ou seja, acertos por um mero acaso?

1 resposta
solução!

Boas perguntas, William,

Fatores que podem causar "azar":

  • Desbalanceamento de classes: Como mencionado pelo professor, ter muitas amostras de uma classe e poucas de outras.
  • Amostras não representativas: Se as amostras de treino ou teste não representam bem a distribuição real dos dados.
  • Outliers: Presença de dados atípicos que podem distorcer o aprendizado ou a avaliação.
  • Variabilidade natural: Em conjuntos pequenos, a variabilidade natural dos dados pode ter um impacto maior.
  • Correlações espúrias: Relações falsas entre variáveis que parecem significativas apenas por acaso.
  • Sobreposição de características: Quando classes diferentes têm características muito similares em um subconjunto pequeno.
  • Complexidade do modelo vs. tamanho do dataset: Um modelo muito complexo para poucos dados pode capturar ruído.

Situações que podem gerar "sorte" ou falsos positivos:

  • Overfitting acidental: O modelo se ajusta perfeitamente aos dados de teste por coincidência.
  • Vazamento de dados: Informações do conjunto de teste influenciam indevidamente o treinamento.
  • Padrões aleatórios: Em conjuntos pequenos, padrões aleatórios podem parecer significativos.
  • Vieses de seleção: A forma como os dados foram coletados favorece certos resultados.
  • Características irrelevantes com correlação acidental: O modelo aprende relações que não são generalizáveis.
  • Distribuição enviesada: A distribuição dos dados de teste favorece as tendências do modelo.

Para mitigar esses problemas:

  • Aumente o tamanho do dataset, se possível.
  • Use técnicas de reamostragem como bootstrapping.
  • Faça análises estatísticas detalhadas dos conjuntos de treino e teste.
  • Utilize múltiplas métricas de avaliação.
  • Implemente validação cruzada ou, se não for possível, repita o treinamento com diferentes divisões treino/teste.
  • Analise cuidadosamente os erros e acertos do modelo.
  • Use técnicas de regularização para prevenir overfitting.
  • Considere modelos mais simples para datasets pequenos.

Espero ter ajudado, William.