Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

One-hot-enconding na coluna sexo_biologico

Dataframe de Churn.

Prezados, ao executar esse código:

one_hot = make_column_transformer((
    OneHotEncoder(drop = 'if_binary'), #remova se a coluna for binária.
    ['pais', 'sexo_biologico']
),
    remainder = 'passthrough',
    sparse_threshold=0                              
)

a coluna sexo_biologico que possui duas categorias: "Homem" e "Mulher" é transformada em uma única coluna "sexo_biologico_mulher" com valores 0 ou 1. Eu entendi a lógica, mas me deixou com dúvida. Para aplicações em ML, no geral, é interessante que que fique dessa forma ou seria melhor duas colunas, sendo sexo_biologico_mulher e sexo_biologico_homem seguindo o mesmo padrão de colunas que possuem mais de duas categorias?

Minha dúvida é: A omissão do sexo_biologico_homem causa algum impacto no modelo? sexo_biologico_mulher = 0 é mais do que a ausência dessa categoria, é também a existência de outra. Poderiam me ajudar? Duvida de leigo.

1 resposta
solução!

Oi, Filipe! Tudo certo?

Quando usamos a técnica de One-Hot Encoding em uma variável categórica binária (como é o caso de "sexo_biologico"), geralmente o resultado são duas colunas: uma para cada categoria. No entanto, devido à utilização da opção drop = 'if_binary' no OneHotEncoder, uma das colunas será descartada se a variável for de fato binária.

Isso é feito para evitar a multicolinearidade, um fenômeno referente à alta correlação entre duas ou mais variáveis independentes — que pode tornar os coeficientes estimados instáveis e difíceis de interpretar.

Diante desse cenário, surge a coluna "sexo_biologico_mulher"! O fato dela conter valores 0 ou 1 já é suficiente para representar a informação da coluna original. Se "sexo_biologico_mulher" é 1, sabemos que a pessoa é mulher. Se é 0, sabemos que a pessoa é homem. Portanto, a informação sobre o sexo biológico da pessoa não é perdida, apenas representada de uma maneira diferente.

Contudo, caso seja necessário adicionar outras categorias em um momento futuro, é mais interessante, sim, trabalhar com colunas separadas. Isso dependerá do nosso contexto de análise.

Espero ter ajudado com a explicação, Felipe! Qualquer dúvida, fico à disposição.

Um abraço.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software