Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Tratamento dos dados na aula " Limpando os dados e visualizando uma distribuição"

Boa tarde. Como forma de curiosidade. Caso eu fosse fazer uma regressão nos dados do tmdb_5000 para tentar adaptar os dados, poderia usar a transformação logaritmica?

1 resposta
solução!

Boas Danival! Tudo bem? Espero que sim!

O que é necessário para realizar uma regressão linear é simplesmente uma relação linear entre as variáveis do modelo.

Agora, vamos investigar se essa relação existe, considerando que você vai usar as variáveis quantitativas: 'budget', 'popularity', 'revenue', 'runtime', 'vote_count' e 'vote_average'.

Para isso vamos fazer um pair plot:

ax = sns.pairplot(data = X_y, y_vars=['vote_average'], x_vars=['budget', 'popularity','revenue','runtime', 'vote_count'], kind='reg')
ax.axes[0,1].set_ylim(0,10.2)
ax.axes[0,2].set_ylim(0,10.2)
ax.axes[0,3].set_ylim(0,10.2)
ax.axes[0,4].set_ylim(0,10.2)

Que nos retorna:

Pairplot das variáveis explicativas ('budget', 'popularity','revenue','runtime', 'vote_count') e resposta (vote_average) do modelo. Percebe-se que as relações entre elas não parecem lineares.

O que nos importa agora é realizar uma análise nesse gráfico, as relações entre as variáveis são lineares?

O caso é que não. Em verdade elas parecem se aproximar mais de uma curva exponencial.

Nesse caso, é possível fazer a transformação logarítma para revelar uma relação linear entre os dados.

Há apenas a necessidade de se atentar a um aspecto - não podemos fazer executar o log de 0.

Então devemos ver quais as colunas que contém zeros.

Entretanto, nessa análise, conseguimos ver que há uma grande quantidade de dados que contém zero, especialmente em 'budget' e 'revenue'.

pd.value_counts(X_y.budget)[0]  # --> 1037
pd.value_counts(X_y.revenue)[0] # --> 1427

Isso pode significar que faltam (mais de 1000) dados. E isso é um problema na hora de realizar a regressão. O que vamos colocar no lugar desses zeros? A média dos valores, a mediana?

Fica à seu cargo, entretanto, há a necessidade de saber que isso torna a regressão menos assertiva.

Algumas vezes, por conta dos dados e do modelo, pode não fazer sentido usar uma regressão linear para esse conjunto de dados. Esses são problemas que enfrentamos quanndo trabalhamos com dados do mundo real.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!