3
respostas

Classificação

Machine Learning: Classificação por trás dos panos usou a biblioteca MultinomialNB

e no

Machine Learning: Introdução a classificação com SKLearn foi usado LinearSVC

Por que a altereção?

3 respostas

Oii Pedro, tudo bem?

Nos cursos nós procuramos trazer bibliotecas diferentes ou até mesmo funções diferentes de uma mesmo biblioteca para que os alunos tenham um repertório maior de bibliotecas para usar e aprender sobre. Em Python, temos bibliotecas para muitas atividades, principamente em Machine Learning, então esses cursos trazem essa pequena introdução à algumas funções de bibliotecas diferentes pra que o aluno tenha o conhecimento de que elas existem e consiga explorar cada uma de forma mais ampla.

Se tiver outras dúvidas, estamos por aqui, ok?

Bons estudos ^^

Qual é a diferença entre as duas? s Sendo que são para o mesmo tipo de problema

Oii de novo, Pedro!

O MultinomialNB, que temos na biblioteca SKLearn, é um algoritmo de machine learning usado pra problemas de classificação e é baseado no Teorema de Naïve Bayes, esse teorema pressupõe que todos os recursos em uma classe não estão classificados entre si, em outras palavras que cada qual é um indivídio independente.

Já o SVM é um algoritmo supervisionado de Machine Learning e pode ser usado para regressão e classificação e os dados são plotados num espaço n-dimensional, onde n é o número de features usado, e a classificação é feita selecionando um hiperplano (esse hiperplano ter dimensão n-1) que seja adequado, que diferencia as duas classes, supondo que as classes são linearmente separáveis. A distância mínima entre os pontos e o hiperplano se chama margem, os vetores de suporte (Support Vectors) são as observações que ficam à margem do hiperplano ou até mesmo violam o hiperplano, daí o nome Support Vector Machine.

Agora, depois das explicações de cada um, podemos notar que ambos podem ser usados em problemas de classificação, porém, qual deles escolher? Isso é uma pergunta muito complicada de responder diretamente, já que um modelo pode ser melhor pra um problema de classificação, mas se os dados mudarem, outro modelo pode sobressair. Algo que é feito na comunidade científica é: escolher um dos métodos pra usar pra algum problema e algumas vezes fazer a comparação dos modelos no mesmo problema, quem vai dizer qual é o melhor são os próprios resultados deles no problema em qual foram aplicados.

Sei que a definição foi um tanto quanto matemática demais, mas esses modelos são nada mais que conceitos matemáticos, um diferente do outro, ou seja eles tem resultados e comportamentos diferentes, se ainda restar dúvidas quanto à usabilidade e definição, pode me chamar, ok? ^^