Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Problema A com o dataset

Bom dia

Como poderia ser feita a validação do problema A utilizando o dataset, na resolução é utilizada os parâmetros do enuciado.

#Distribuição binomial
p = 0.7 #probabilidade de sucesso
q = 1 - p #probabilidade de fracasso
n = 10 #número de eventos estudados
k = 7 #secesso desejado

probabilidade = round((binom.pmf(k, n, p) * 100))
print(f'''A probabilidade de selecionamos aleatoriamente grupos de 10 indivíduos
um grupo que apresente a mesma proporção da população é de {probabilidade}%''')

df['Sexo'].sample(10).value_counts() #Resultado com um experimento

É possível validar o resultado (27%) rodando a formula sobre os dados do dataset?

Obrigado

1 resposta
solução!

Olá Marcos, tudo bem? Espero que sim!

Desculpe pela demora em retornar.

Você pode validar o resultado pegando uma quantidade de amostras do seu dataset e vendo quantas dessas amostras tem a proporção 7 homens e 3 mulheres. Para pegar a porcentagem de homens no dataset, faremos:

prob_homens = (dados.value_counts('Sexo', normalize=True))[0]
k = 7
n = 10
binom.pmf(k,n, prob_homens)

Encontramos como resultado da prob_homens = 0.6929984383133785

E a probabilidade encontrado usando a binomial é 0.2665193783299737

Agora vamos pegar uma quantidade de amostras do dataset e ver quantas delas tem resultado de homens = 7 e mulheres = 3. Conforme você aumenta a quantidade de amostras esse número vai tender ainda mais para a probabilidade, faça os testes:

qtd = 0
amostras = 1000
for i in range(amostras):
    if dados['Sexo'].sample(10).value_counts()[0] == 7:
        qtd += 1

print(qtd/amostras)

O resultado foi muito próximo do esperado, pode rodar o seu código várias vezes que o resultado irá flutuar próximo a essa probabilidade. Conforme aumenta a quantidade das amostras também se aproxima ainda mais. 0.268

Bons estudos!