1
resposta

Curva Normal

Durante o treinamento, o professor cita que devemos olhar se a variável dependente está em uma "curva normal" e vemos que, ao menos para essa base que ele usou no curso, temos essa característica.

Mas a minha dúvida é: e se não tivéssemos esse comportamento nesta variável dependente do curso? O que aconteceria? Não conseguiríamos usar essa base de dados para realizarmos o treinamento? Ou então, o que deveríamos fazer para "normalizar" essa variável? Isso seria possível?

Eu pergunto tudo isso por quê estou pensando no dia a dia, pois creio que para este treinamento o professor tenha já deixado essa base preparada para nos passar todo o conteúdo, mas se fosse em uma situação real, o que deveríamos fazer caso essa curva não obedecesse à uma distribuição "normal" conforme o professor explicou?

Tks.

1 resposta

Oi, Emerson, como você está?

Desculpe pela demora em te responder.

A sua pergunta é muito interessante e importante para entendermos como lidar com dados reais em situações de regressão linear.

Quando falamos em "curva normal" ou "distribuição normal", estamos nos referindo a uma distribuição simétrica dos dados em torno da média. Essa distribuição é muito utilizada em estatística e em modelos de regressão linear, pois facilita a interpretação dos resultados e permite a aplicação de testes estatísticos confiáveis.

No entanto, é importante ressaltar que nem sempre os dados reais seguem uma distribuição normal perfeita. Muitas vezes, podemos nos deparar com dados assimétricos, com caudas longas, outliers e outras características que fogem da normalidade.

Nesses casos, é possível adotar algumas estratégias para "normalizar" ou transformar os dados de forma a se aproximarem de uma distribuição normal. Alguns exemplos de transformações que podem ser aplicadas são a transformação logarítmica, a transformação Box-Cox e a transformação de raiz quadrada. Essas transformações ajudam a corrigir assimetrias e a reduzir o impacto de outliers nos resultados da regressão.

Além disso, é importante lembrar que a regressão linear não é a única técnica de análise de dados disponível. Em casos em que os dados não seguem uma distribuição normal ou apresentam outras características que dificultam a aplicação da regressão linear, é possível explorar outras técnicas, como regressão robusta, regressão não paramétrica ou modelos de aprendizado de máquina.

A estatística é uma teoria complexa e sua aplicação varia bastante conforme as características dos dados, o objetivo da análise e a experiência e conhecimento acumulado da pessoa que desenvolve o projeto. Por isso, é importante construir um repertório sólido e praticar bastante para ter certeza da aplicação dos cálculos e das técnicas.

Espero ter esclarecido sua dúvida!

Abraços!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software