Dataframe de Churn.
Prezados, ao executar esse código:
one_hot = make_column_transformer((
OneHotEncoder(drop = 'if_binary'), #remova se a coluna for binária.
['pais', 'sexo_biologico']
),
remainder = 'passthrough',
sparse_threshold=0
)
a coluna sexo_biologico que possui duas categorias: "Homem" e "Mulher" é transformada em uma única coluna "sexo_biologico_mulher" com valores 0 ou 1. Eu entendi a lógica, mas me deixou com dúvida. Para aplicações em ML, no geral, é interessante que que fique dessa forma ou seria melhor duas colunas, sendo sexo_biologico_mulher e sexo_biologico_homem seguindo o mesmo padrão de colunas que possuem mais de duas categorias?
Minha dúvida é: A omissão do sexo_biologico_homem causa algum impacto no modelo? sexo_biologico_mulher = 0 é mais do que a ausência dessa categoria, é também a existência de outra. Poderiam me ajudar? Duvida de leigo.