1
resposta

Tenho um conjunto de dados com 5 variáveis e duas saídas e não consigo implementar uma regressão linear. Gostaria de saber como devo proceder.

Minha dúvida é implementar no gráfico a regressão linear múltipla. É possível?

1 resposta

Olá Marcos, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

O modelo de regressão linear é utilizado para previsão de apenas uma variável, ou seja, você precisará escolher qual a sua variável dependente, conhecida também como target ou variável de saída. Essa variável deve ser necessariamente numérica.

As variáveis explicativas também precisam ser numéricas, e se for utilizar alguma variável qualitativa, essa precisará ser dummyzada, ou seja, cada categoria dessa variável precisará ser transformada em uma nova coluna com registros de 0 para ausência da categoria e 1 para presença da categoria. É necessário a criação de n-1 colunas a partir de n categorias, uma delas sendo referência para a construção das outras. A função pd.get_dummies() ajuda nesse processo.

Caso tenha duas variáveis dependentes, pode construir dois modelos diferentes utilizando as variáveis explicativas, selecionando aquelas que fazem mais sentido para cada um dos diferentes modelos que for criar, observando se a variável é significativa ou não.

Espero que tenha tirado sua dúvida.

Estou à disposição. Bons estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software