Este algoritmo sempre retorna uma probabilidade de compra menor que a real, visto que se dois valores entre 0 e 1 forem multiplicados, o resultado sempre será menor que os fatores.

Testando a fórmula utilizada em aula

Suponha que todos os clientes que recebem mais de 5000 compram (100%), porém apenas 2 terços (66%) dos clientes do Rio de Janeiro compram.

Isso significaria que no Rio de Janeiro existem:

clientes que recebem mais de 5000 e por isso compram
clientes que recebem menos de 5000 e mesmo assim compram
clientes que recebem menos de 5000 e não compram.

Perceba que não faz sentido existir clientes no Rio de Janeiro que recebem mais de 5000 e não compram, porque "todos os clientes que recebem mais de 5000 compram (100%)".

Porém, ao calcular a probabilidade usando o cálculo citado na aula: 1,00 * 0,66 = 0,66. Isto é, 66%.

Motivo do erro

Não é verdadeira a fórmula utilizada: P(C|A^B) = P(C|A) * P(C|B)

Devem ter confundido com a fórmula condicional de probabilidades independentes: P(A^B|C) = P(A|C) * P(B|C)

Perceba que está invertida, o que causa o erro, pois não necessariamente P(X|Y) = P(Y|X).

O erro sobre inverter a probabilidade condicional é conhecido mundialmente e chamado de "Falácia Bayesiana".

Fórmula correta

Fórmulas que sabemos:

Definição de probabilidades independentes: P(A^B) = P(A) * P(B)
Definição condicional de probabilidades independentes: P(A^B|C) = P(A|C) * P(B|C)
Definição de probabilidade condicionada: P(A|B) = P(A^B) / P(B)
Uma consequência: P(A^B) = P(A|B) * P(B) = P(B|A) * P(A)
Outra consequência: P(A|C) / P(A) = P(C|A) / P(C)

Agora, precisamos calcular P(C|A^B):

P(C|A^B) = P(C^A^B) / P(A^B) = P(A^B^C) / P(A^B) = P(A^B|C) * P(C) / P(A^B)

Como A e B são independentes entre si:

P(A^B|C) * P(C) / P(A^B) = P(A^B|C) * P(C) / ( P(A) * P(B) )

Se, condicionando C, A e B continuarem independentes:

Resumindo: P(C|A^B) = P(C|A) * P(C|B) / P(C)

Solução correta

Perceba que, comparando com a fórmula citada em aula, basta que, no final, divida pela probabilidade de compra não condicionada. Essa probabilidade pode ser obtida dividindo a quantidade de clientes que compraram pela quantidade total de clientes.

A quantidade total de clientes analisados pode ser obtida ou somando o total de cada estado ou somando o total de cada faixa salarial. Em ambos os casos devemos chegar ao mesmo valor: 298

Porém, ao somar a quantidade que comprou em cada estado chegamos ao valor 104, enquanto que ao somar a quantidade que comprou em cada faixa salarial chegamos ao valor 79.

Portanto, não é possível calcular a solução correta, visto que as tabelas são populadas de forma independente e por isso não refletem nenhuma amostra possível.

Testando a fórmula obtida

Vamos usar o mesmo exemplo, em que todos os clientes que recebem mais de 5000 compram. Como vimos acima, precisamos de uma amostra consistente, para depois extrairmos a tabela de cada estado ou faixa salarial.

Um ponto importante é que, como assumimos que o estado é independente da faixa salarial, então é necessário que, em cada estado exista a mesma proporção de faixa salarial. Vamos supor que a probabilidade de receber mais de 5000 é de 1/3 (33%).

Outro ponto importante é que, para poder aplicarmos a regra das probabilidades independentes condicionada aos que compraram, é necessário que, dos que compraram, em cada estado exista a mesma proporção de faixa salarial. Vamos supor que a probabilidade de, quem comprou, receber mais de 5000 é de 50%.

Vamos supor que a probabilidade de ser do Rio de Janeiro é de 25%.

Vamos assumir também, conforme o exemplo anterior, que todos que recebem mais de 5000 sempre compram (100%) e que 2/3 (66%) dos clientes do Rio de Janeiro compraram:

Estado	$ > 5000	Comprou
RJ	Sim	Sim
RJ	Não	Sim
RJ	Não	Não
SP	Sim	Sim
SP	Não	Sim
SP	Não	Não
SP	Sim	Sim
SP	Não	Sim
SP	Não	Não
SP	Sim	Sim
SP	Não	Sim
SP	Não	Não

É possível calcular que 8 clientes compraram, então a probabilidade de compra não condicionada é de 80%. Portanto temos os seguintes dados:

P(Comprou|RJ) = 2/3

P(Comprou|$>5000) = 1,0

P(C) = 2/3

Utilizando a fórmula obtida: P(Comprou | RJ, $>5000) = P(Comprou|RJ) * P(Comprou|$>5000) / P(C) = 2/3 * 1,0 / (2/3) = 1,0. Isto é, 100%.

Portanto a fórmula se mostra funcionar.

Este algoritmo é falho

Testando a fórmula utilizada em aula

Motivo do erro

Fórmula correta

Solução correta

Testando a fórmula obtida

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Testando a fórmula utilizada em aula

Motivo do erro

Fórmula correta

Solução correta

Testando a fórmula obtida

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP