1
resposta

Minha solução para analise de correlação entre variáveis usando o método Pearson

# Análise de correlação entre horário de chegada e horário de partida
# Utiliza o método padrão (Pearson) para identificar a relação linear entre as variáveis
dados[['arrival_time', 'departure_time']].corr()

# Limpeza do DataFrame codificado (df_encoded)
# Remove colunas que não são úteis para modelagem ou que podem introduzir viés:
# - 'flight_id': identificador único, irrelevante para aprendizado
# - 'departure_time': pode estar altamente correlacionado com a variável alvo
# - 'day', 'year', 'date': informações de data que podem gerar colinearidade ou overfitting
df_clean = df_encoded.drop(["flight_id", "departure_time", "day", "year", "date"], axis=1)

# Exibe as primeiras linhas do DataFrame limpo
df_clean.head()
1 resposta

E aí, Paulo! Tudo bem?

Parabéns! Mantenha o ritmo nos exercícios e continue compartilhando na nossa comunidade.

Percebi que você praticou o uso de correlação com .corr(), aplicou muito bem o .drop() para limpeza de colunas irrelevantes e ainda entendeu a relevância de preparar os dados corretamente para evitar viés e overfitting.

Permaneça postando as suas soluções, com certeza isso ajudará outros estudantes e tem grande relevância para o fórum.

Ícone de sugestão Para saber mais:

Sugestão de conteúdo para você mergulhar ainda mais sobre o tema:

Alguns materiais estão em inglês, mas é possível compreendê-los usando o recurso de tradução de páginas do próprio navegador.

Fico à disposição! E se precisar, conte sempre com o apoio do fórum.

Abraço e bons estudos!

AluraConte com o apoio da comunidade Alura na sua jornada. Abraços e bons estudos!