Este algoritmo sempre retorna uma probabilidade de compra menor que a real, visto que se dois valores entre 0 e 1 forem multiplicados, o resultado sempre será menor que os fatores.
Testando a fórmula utilizada em aula
Suponha que todos os clientes que recebem mais de 5000 compram (100%), porém apenas 2 terços (66%) dos clientes do Rio de Janeiro compram.
Isso significaria que no Rio de Janeiro existem:
- clientes que recebem mais de 5000 e por isso compram
- clientes que recebem menos de 5000 e mesmo assim compram
- clientes que recebem menos de 5000 e não compram.
Perceba que não faz sentido existir clientes no Rio de Janeiro que recebem mais de 5000 e não compram, porque "todos os clientes que recebem mais de 5000 compram (100%)".
Porém, ao calcular a probabilidade usando o cálculo citado na aula: 1,00 * 0,66 = 0,66. Isto é, 66%.
Motivo do erro
Não é verdadeira a fórmula utilizada: P(C|A^B) = P(C|A) * P(C|B)
Devem ter confundido com a fórmula condicional de probabilidades independentes: P(A^B|C) = P(A|C) * P(B|C)
Perceba que está invertida, o que causa o erro, pois não necessariamente P(X|Y) = P(Y|X).
O erro sobre inverter a probabilidade condicional é conhecido mundialmente e chamado de "Falácia Bayesiana".
Fórmula correta
Fórmulas que sabemos:
- Definição de probabilidades independentes: P(A^B) = P(A) * P(B)
- Definição condicional de probabilidades independentes: P(A^B|C) = P(A|C) * P(B|C)
- Definição de probabilidade condicionada: P(A|B) = P(A^B) / P(B)
- Uma consequência: P(A^B) = P(A|B) * P(B) = P(B|A) * P(A)
- Outra consequência: P(A|C) / P(A) = P(C|A) / P(C)
Agora, precisamos calcular P(C|A^B):
P(C|A^B) = P(C^A^B) / P(A^B) = P(A^B^C) / P(A^B) = P(A^B|C) * P(C) / P(A^B)
Como A e B são independentes entre si:
P(A^B|C) * P(C) / P(A^B) = P(A^B|C) * P(C) / ( P(A) * P(B) )
Se, condicionando C, A e B continuarem independentes:
P(A^B|C) * P(C) / ( P(A) * P(B) ) = P(A|C) * P(B|C) * P(C) / ( P(A) * P(B) ) = ( P(A|C)/P(A) ) * ( P(B|C)/P(B) ) * P(C) = ( P(C|A) / P(C) ) * ( P(C|B) / P(C) ) * P(C) = P(C|A) * P(C|B) / P(C)
Resumindo: P(C|A^B) = P(C|A) * P(C|B) / P(C)
Solução correta
Perceba que, comparando com a fórmula citada em aula, basta que, no final, divida pela probabilidade de compra não condicionada. Essa probabilidade pode ser obtida dividindo a quantidade de clientes que compraram pela quantidade total de clientes.
A quantidade total de clientes analisados pode ser obtida ou somando o total de cada estado ou somando o total de cada faixa salarial. Em ambos os casos devemos chegar ao mesmo valor: 298
Porém, ao somar a quantidade que comprou em cada estado chegamos ao valor 104, enquanto que ao somar a quantidade que comprou em cada faixa salarial chegamos ao valor 79.
Portanto, não é possível calcular a solução correta, visto que as tabelas são populadas de forma independente e por isso não refletem nenhuma amostra possível.
Testando a fórmula obtida
Vamos usar o mesmo exemplo, em que todos os clientes que recebem mais de 5000 compram. Como vimos acima, precisamos de uma amostra consistente, para depois extrairmos a tabela de cada estado ou faixa salarial.
Um ponto importante é que, como assumimos que o estado é independente da faixa salarial, então é necessário que, em cada estado exista a mesma proporção de faixa salarial. Vamos supor que a probabilidade de receber mais de 5000 é de 1/3 (33%).
Outro ponto importante é que, para poder aplicarmos a regra das probabilidades independentes condicionada aos que compraram, é necessário que, dos que compraram, em cada estado exista a mesma proporção de faixa salarial. Vamos supor que a probabilidade de, quem comprou, receber mais de 5000 é de 50%.
Vamos supor que a probabilidade de ser do Rio de Janeiro é de 25%.
Vamos assumir também, conforme o exemplo anterior, que todos que recebem mais de 5000 sempre compram (100%) e que 2/3 (66%) dos clientes do Rio de Janeiro compraram:
Estado | $ > 5000 | Comprou |
---|---|---|
RJ | Sim | Sim |
RJ | Não | Sim |
RJ | Não | Não |
SP | Sim | Sim |
SP | Não | Sim |
SP | Não | Não |
SP | Sim | Sim |
SP | Não | Sim |
SP | Não | Não |
SP | Sim | Sim |
SP | Não | Sim |
SP | Não | Não |
É possível calcular que 8 clientes compraram, então a probabilidade de compra não condicionada é de 80%. Portanto temos os seguintes dados:
P(Comprou|RJ) = 2/3
P(Comprou|$>5000) = 1,0
P(C) = 2/3
Utilizando a fórmula obtida: P(Comprou | RJ, $>5000) = P(Comprou|RJ) * P(Comprou|$>5000) / P(C) = 2/3 * 1,0 / (2/3) = 1,0. Isto é, 100%.
Portanto a fórmula se mostra funcionar.