Olá, Miguel! Tudo bom? Espero que sim!
Vamos lá:
1) Quando se usa probabilidade em Pandas?
Nós utilizamos probabilidade em Pandas sempre que queremos realizar operações em testes aleatórios, desde escolhas randômicas, geração de números pseudoaleatórios, procedimentos estatísticos e semelhantes.
2) O que significa e por que a probabilidade foi armazenada como ' x / sum(x)'?
Nessa parte da aula, o instrutor cria uma variável x
que gera 20 números "aleatórios" entre 0 e 1, então teremos um resultado de uma lista com 20 números entre 0 e 1.
Mas como queremos utilizar mais a frente esses valores como uma regra de escolha probabilistica, nós primeiro precisamos padronizar essa variável, de maneira que ao somar todas as possibilidades, ou seja, seus elementos, o resultado seja igual a 1. A motivaçao principal é uma das regras fundamentais da estatística (axioma):
A soma da probabilidade de todos os eventos elementares em um conjunto universo é igual a 1
E uma maneira comum de fazê-lo é dividir a lista pela sua soma total, e depois disso podemos verificar que prob.sum()
é um valor muito próximo de 1.
3) A) Por que essa probabilidade foi utilizada na hora de criar a váriavel 'mat'? B) Nesse contexto, o que é p? C) Por que nesse momento ela foi atribuída a p?
A) No momento que atribuímos uma probabilidade a uma função de escolha, nesse caso, o np.random.choice()
, nós estamos sugerindo que os cursos possuam chances diferentes de serem escolhidos.
É aí que surge o parâmetro p=prob
. Quando esse parâmetro é especificado, nós saímos da configuração de escolha normal, que é considerar que cada elemento tenha uma probabilidade igual de ser escolhido (espaço equiprovável), e agora nós falamos que cada elemento possui mais ou menos chances de aparecer na escolha.
A probabilidade é atribuida durante a escolha dos cursos pelo index, então alguns cursos serão mais prováveis de serem escolhidos, e então nós conseguimos gerar nesse momento uma lista de matrículas "aleatória" com valores escolhidos baseados em probabilidade.
É importante pontuar que, a menos que tenhamos uma justificativa, não é necessário atribuir esses pesos probabilísticos as variáveis se o contexto do problema não o requer. Na situação hipotética da escolha dos cursos, poderíamos assumir que esses pesos foram encontrados com base em pesquisas estatísticas da escola/instituição de ensino ou alguma regra qualquer, mas nem sempre precisaremos definir de maneira manual, então não se preocupe se em um primeiro momento não repetir esse procedimento.
Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e grande abraço!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!