Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Dúvida] O que é probabilidade em Pandas? Dúvida prática.

Contextualizando

Eu estava fazendo o curso 'Pandas: formatos diferentes de entrada e saída (IO) do intrutor Guilherme Lima, e, percebi que não tenho conhecimento sobre certo conceito e sua utilização. Não sei se já fora apresentado antes na formação 'Python para Data Science', ou se eu deveria saber, mas de toda forma, aqui vai minha dúvida:

Quando percebi a dúvida

Me deparei com a criação de uma váriavel 'prob', indicando probabilidade. Eu sei o que significa probabilidade matematicamente falando, mas não me lembro de ver sendo utilizado em Python, tão pouco em pandas. Insira aqui a descrição dessa imagem para ajudar na acessibilidade

Quais são as dúvidas?

Tenho dúvida em todos os âmbitos dessa utilização. Se souber responder ao menos uma delas, serei grato; afinal, uma pergunta corresponde à outra

  • 1) Quando se usa probabilidade em Pandas?
  • 2) O que significa e por que a probabilidade foi armazenada como ' x / sum(x) '?
  • 3) A) Por que essa probabilidade foi utilizada na hora de criar a váriavel 'mat'? B) Nesse contexto, o que é p? C) Por que nesse momento ela foi atribuída a p?
2 respostas
solução!

Olá, Miguel! Tudo bom? Espero que sim!

Vamos lá:

1) Quando se usa probabilidade em Pandas?

Nós utilizamos probabilidade em Pandas sempre que queremos realizar operações em testes aleatórios, desde escolhas randômicas, geração de números pseudoaleatórios, procedimentos estatísticos e semelhantes.

2) O que significa e por que a probabilidade foi armazenada como ' x / sum(x)'?

Nessa parte da aula, o instrutor cria uma variável x que gera 20 números "aleatórios" entre 0 e 1, então teremos um resultado de uma lista com 20 números entre 0 e 1.

Mas como queremos utilizar mais a frente esses valores como uma regra de escolha probabilistica, nós primeiro precisamos padronizar essa variável, de maneira que ao somar todas as possibilidades, ou seja, seus elementos, o resultado seja igual a 1. A motivaçao principal é uma das regras fundamentais da estatística (axioma):

A soma da probabilidade de todos os eventos elementares em um conjunto universo é igual a 1

E uma maneira comum de fazê-lo é dividir a lista pela sua soma total, e depois disso podemos verificar que prob.sum() é um valor muito próximo de 1.

3) A) Por que essa probabilidade foi utilizada na hora de criar a váriavel 'mat'? B) Nesse contexto, o que é p? C) Por que nesse momento ela foi atribuída a p?

A) No momento que atribuímos uma probabilidade a uma função de escolha, nesse caso, o np.random.choice(), nós estamos sugerindo que os cursos possuam chances diferentes de serem escolhidos.

É aí que surge o parâmetro p=prob. Quando esse parâmetro é especificado, nós saímos da configuração de escolha normal, que é considerar que cada elemento tenha uma probabilidade igual de ser escolhido (espaço equiprovável), e agora nós falamos que cada elemento possui mais ou menos chances de aparecer na escolha.

A probabilidade é atribuida durante a escolha dos cursos pelo index, então alguns cursos serão mais prováveis de serem escolhidos, e então nós conseguimos gerar nesse momento uma lista de matrículas "aleatória" com valores escolhidos baseados em probabilidade.



É importante pontuar que, a menos que tenhamos uma justificativa, não é necessário atribuir esses pesos probabilísticos as variáveis se o contexto do problema não o requer. Na situação hipotética da escolha dos cursos, poderíamos assumir que esses pesos foram encontrados com base em pesquisas estatísticas da escola/instituição de ensino ou alguma regra qualquer, mas nem sempre precisaremos definir de maneira manual, então não se preocupe se em um primeiro momento não repetir esse procedimento.

Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e grande abraço!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!

Muito obrigado, Marcus! Mais uma vez trazendo uma solução completa e didática!