Acredito que seria interessante discutirmos também a remoção de uma das colunas ao trabalharmos com variáveis dummies. Isso porque, ao transformar uma variável categórica com n categorias em n colunas dummies, uma delas pode ser excluída sem perda de informação, já que seu valor é implicitamente indicado quando as demais colunas têm valor zero. Por exemplo, para a variável Internet, com categorias 'DSL', 'FibraÓptica' e 'Não', se as colunas DSL e FibraÓptica forem ambas zero, automaticamente sabemos que a categoria é 'Não'. Em bases pequenas, manter todas as colunas pode não ter um impacto significativo. No entanto, em conjuntos de dados maiores, com muitas variáveis categóricas, deixar todas as dummies pode gerar dezenas de colunas extras desnecessárias, o que pode afetar a performance do modelo e dificultar a interpretação.