1
resposta

Este algoritmo é falho

Este algoritmo sempre retorna uma probabilidade de compra menor que a real, visto que se dois valores entre 0 e 1 forem multiplicados, o resultado sempre será menor que os fatores.

Testando a fórmula utilizada em aula

Suponha que todos os clientes que recebem mais de 5000 compram (100%), porém apenas 2 terços (66%) dos clientes do Rio de Janeiro compram.

Isso significaria que no Rio de Janeiro existem:

  • clientes que recebem mais de 5000 e por isso compram
  • clientes que recebem menos de 5000 e mesmo assim compram
  • clientes que recebem menos de 5000 e não compram.

Perceba que não faz sentido existir clientes no Rio de Janeiro que recebem mais de 5000 e não compram, porque "todos os clientes que recebem mais de 5000 compram (100%)".

Porém, ao calcular a probabilidade usando o cálculo citado na aula: 1,00 * 0,66 = 0,66. Isto é, 66%.

Motivo do erro

Não é verdadeira a fórmula utilizada: P(C|A^B) = P(C|A) * P(C|B)

Devem ter confundido com a fórmula condicional de probabilidades independentes: P(A^B|C) = P(A|C) * P(B|C)

Perceba que está invertida, o que causa o erro, pois não necessariamente P(X|Y) = P(Y|X).

O erro sobre inverter a probabilidade condicional é conhecido mundialmente e chamado de "Falácia Bayesiana".

Fórmula correta

Fórmulas que sabemos:

  • Definição de probabilidades independentes: P(A^B) = P(A) * P(B)
  • Definição condicional de probabilidades independentes: P(A^B|C) = P(A|C) * P(B|C)
  • Definição de probabilidade condicionada: P(A|B) = P(A^B) / P(B)
  • Uma consequência: P(A^B) = P(A|B) * P(B) = P(B|A) * P(A)
  • Outra consequência: P(A|C) / P(A) = P(C|A) / P(C)

Agora, precisamos calcular P(C|A^B):

P(C|A^B) = P(C^A^B) / P(A^B) = P(A^B^C) / P(A^B) = P(A^B|C) * P(C) / P(A^B)

Como A e B são independentes entre si:

P(A^B|C) * P(C) / P(A^B) = P(A^B|C) * P(C) / ( P(A) * P(B) )

Se, condicionando C, A e B continuarem independentes:

P(A^B|C) * P(C) / ( P(A) * P(B) ) = P(A|C) * P(B|C) * P(C) / ( P(A) * P(B) ) = ( P(A|C)/P(A) ) * ( P(B|C)/P(B) ) * P(C) = ( P(C|A) / P(C) ) * ( P(C|B) / P(C) ) * P(C) = P(C|A) * P(C|B) / P(C)

Resumindo: P(C|A^B) = P(C|A) * P(C|B) / P(C)

Solução correta

Perceba que, comparando com a fórmula citada em aula, basta que, no final, divida pela probabilidade de compra não condicionada. Essa probabilidade pode ser obtida dividindo a quantidade de clientes que compraram pela quantidade total de clientes.

A quantidade total de clientes analisados pode ser obtida ou somando o total de cada estado ou somando o total de cada faixa salarial. Em ambos os casos devemos chegar ao mesmo valor: 298

Porém, ao somar a quantidade que comprou em cada estado chegamos ao valor 104, enquanto que ao somar a quantidade que comprou em cada faixa salarial chegamos ao valor 79.

Portanto, não é possível calcular a solução correta, visto que as tabelas são populadas de forma independente e por isso não refletem nenhuma amostra possível.

Testando a fórmula obtida

Vamos usar o mesmo exemplo, em que todos os clientes que recebem mais de 5000 compram. Como vimos acima, precisamos de uma amostra consistente, para depois extrairmos a tabela de cada estado ou faixa salarial.

Um ponto importante é que, como assumimos que o estado é independente da faixa salarial, então é necessário que, em cada estado exista a mesma proporção de faixa salarial. Vamos supor que a probabilidade de receber mais de 5000 é de 1/3 (33%).

Outro ponto importante é que, para poder aplicarmos a regra das probabilidades independentes condicionada aos que compraram, é necessário que, dos que compraram, em cada estado exista a mesma proporção de faixa salarial. Vamos supor que a probabilidade de, quem comprou, receber mais de 5000 é de 50%.

Vamos supor que a probabilidade de ser do Rio de Janeiro é de 25%.

Vamos assumir também, conforme o exemplo anterior, que todos que recebem mais de 5000 sempre compram (100%) e que 2/3 (66%) dos clientes do Rio de Janeiro compraram:

Estado$ > 5000Comprou
RJSimSim
RJNãoSim
RJNãoNão
SPSimSim
SPNãoSim
SPNãoNão
SPSimSim
SPNãoSim
SPNãoNão
SPSimSim
SPNãoSim
SPNãoNão

É possível calcular que 8 clientes compraram, então a probabilidade de compra não condicionada é de 80%. Portanto temos os seguintes dados:

P(Comprou|RJ) = 2/3

P(Comprou|$>5000) = 1,0

P(C) = 2/3

Utilizando a fórmula obtida: P(Comprou | RJ, $>5000) = P(Comprou|RJ) * P(Comprou|$>5000) / P(C) = 2/3 * 1,0 / (2/3) = 1,0. Isto é, 100%.

Portanto a fórmula se mostra funcionar.

1 resposta

Oi Nicolas! Tudo bem com você? Espero que sim!

Desculpe a demora em te trazer um retorno.

Você tem razão, a fórmula apresentada no vídeo não está correta, bem como as tabelas descritas pelo instrutor. Agradeço muito o comentário e a belíssima explicação!

Já foi realizada a adição de uma Errata antes do vídeo :)

Graças a você muitos alunos e alunas da plataforma vão ter acesso a informação corrigida!

Bons estudos, e qualquer dúvida estarei à disposição!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software