Boa tarde. Como forma de curiosidade. Caso eu fosse fazer uma regressão nos dados do tmdb_5000 para tentar adaptar os dados, poderia usar a transformação logaritmica?
Boa tarde. Como forma de curiosidade. Caso eu fosse fazer uma regressão nos dados do tmdb_5000 para tentar adaptar os dados, poderia usar a transformação logaritmica?
Boas Danival! Tudo bem? Espero que sim!
O que é necessário para realizar uma regressão linear é simplesmente uma relação linear entre as variáveis do modelo.
Agora, vamos investigar se essa relação existe, considerando que você vai usar as variáveis quantitativas: 'budget', 'popularity', 'revenue', 'runtime', 'vote_count' e 'vote_average'.
Para isso vamos fazer um pair plot:
ax = sns.pairplot(data = X_y, y_vars=['vote_average'], x_vars=['budget', 'popularity','revenue','runtime', 'vote_count'], kind='reg')
ax.axes[0,1].set_ylim(0,10.2)
ax.axes[0,2].set_ylim(0,10.2)
ax.axes[0,3].set_ylim(0,10.2)
ax.axes[0,4].set_ylim(0,10.2)
Que nos retorna:
O que nos importa agora é realizar uma análise nesse gráfico, as relações entre as variáveis são lineares?
O caso é que não. Em verdade elas parecem se aproximar mais de uma curva exponencial.
Nesse caso, é possível fazer a transformação logarítma para revelar uma relação linear entre os dados.
Há apenas a necessidade de se atentar a um aspecto - não podemos fazer executar o log de 0.
Então devemos ver quais as colunas que contém zeros.
Entretanto, nessa análise, conseguimos ver que há uma grande quantidade de dados que contém zero, especialmente em 'budget' e 'revenue'.
pd.value_counts(X_y.budget)[0] # --> 1037
pd.value_counts(X_y.revenue)[0] # --> 1427
Isso pode significar que faltam (mais de 1000) dados. E isso é um problema na hora de realizar a regressão. O que vamos colocar no lugar desses zeros? A média dos valores, a mediana?
Fica à seu cargo, entretanto, há a necessidade de saber que isso torna a regressão menos assertiva.
Algumas vezes, por conta dos dados e do modelo, pode não fazer sentido usar uma regressão linear para esse conjunto de dados. Esses são problemas que enfrentamos quanndo trabalhamos com dados do mundo real.