1
resposta

Identificação de colunas binárias Pyspark

Olá, tudo bem? :)

Tenho uma dúvida quanto ao curso de modelos de classificação utilizando Pyspark: na aula 06 chamada "Tratamento de Dados", o professor realiza a transformação de valores de uma coluna categórica "Binária", que possuem tipos string mas com supostamente dois valores únicos, sendo que em algumas colunas temos na verdade três valores únicos.

Como esse processo de identificação de colunas categóricas é feito? É de forma manual ou de forma automática? Como identificamos colunas consideradas "binárias", com apenas dois valores únicos?

1 resposta

Olá William, tudo bem ? Espero que sim.

Você está correto, nas colunas classificadas como binarias, temos algumas que apresentam além dos valores sim e não, os valores SemServicoInternet, então você pode incluir isso na suas analises ou podemos classificar essa opção apenas como o não, isso fica a critério do que faz sentido para sua analise.

Obrigado por destacar esse ponto muito importante.

Uma das maneiras de identificar as variações de valores que temos em uma coluna é utilizar o groupBy, igual quando analisamos a quantidade de Churn na base de dados.

dados\
    .select('Churn')\
    .groupBy('Churn')\
    .count()\
    .show()

Podemos rodar o mesmo código para o restante das colunas.

for coluna in reversed(dados.columns):
  dados\
      .select(coluna)\
      .groupBy(coluna)\
      .count()\
      .show()

E assim obter quais as variações de valores que temos para cada coluna.

Espero ter ajudado e novamente obrigado por compartilhar esse ponto, tenho certeza que isso vai ajudar seus colegas a entender melhor nossa analise.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!