Boa tarde. Como forma de curiosidade. Caso eu fosse fazer uma regressão nos dados do tmdb_5000 para tentar adaptar os dados, poderia usar a transformação logaritmica?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Boa tarde. Como forma de curiosidade. Caso eu fosse fazer uma regressão nos dados do tmdb_5000 para tentar adaptar os dados, poderia usar a transformação logaritmica?
Boas Danival! Tudo bem? Espero que sim!
O que é necessário para realizar uma regressão linear é simplesmente uma relação linear entre as variáveis do modelo.
Agora, vamos investigar se essa relação existe, considerando que você vai usar as variáveis quantitativas: 'budget', 'popularity', 'revenue', 'runtime', 'vote_count' e 'vote_average'.
Para isso vamos fazer um pair plot:
ax = sns.pairplot(data = X_y, y_vars=['vote_average'], x_vars=['budget', 'popularity','revenue','runtime', 'vote_count'], kind='reg')
ax.axes[0,1].set_ylim(0,10.2)
ax.axes[0,2].set_ylim(0,10.2)
ax.axes[0,3].set_ylim(0,10.2)
ax.axes[0,4].set_ylim(0,10.2)Que nos retorna:
O que nos importa agora é realizar uma análise nesse gráfico, as relações entre as variáveis são lineares?
O caso é que não. Em verdade elas parecem se aproximar mais de uma curva exponencial.
Nesse caso, é possível fazer a transformação logarítma para revelar uma relação linear entre os dados.
Há apenas a necessidade de se atentar a um aspecto - não podemos fazer executar o log de 0.
Então devemos ver quais as colunas que contém zeros.
Entretanto, nessa análise, conseguimos ver que há uma grande quantidade de dados que contém zero, especialmente em 'budget' e 'revenue'.
pd.value_counts(X_y.budget)[0] # --> 1037
pd.value_counts(X_y.revenue)[0] # --> 1427Isso pode significar que faltam (mais de 1000) dados. E isso é um problema na hora de realizar a regressão. O que vamos colocar no lugar desses zeros? A média dos valores, a mediana?
Fica à seu cargo, entretanto, há a necessidade de saber que isso torna a regressão menos assertiva.
Algumas vezes, por conta dos dados e do modelo, pode não fazer sentido usar uma regressão linear para esse conjunto de dados. Esses são problemas que enfrentamos quanndo trabalhamos com dados do mundo real.