Olá!
No vídeo foi executada uma query para verificarmos o tipo de OVNI e quantas ocorrências existem para cada um deles, entretanto como é uma coluna do tipo "character" temos tipos de OVNIs em maiúsculo e minúsculo, por exemplo, "light" e "Light", então a contagem ficou incorreta:
sort(unique(df_OVNI$Shape))
[1] "changed" "changing" "Changing" "Chevron" "cigar" "Cigar" "circle"
[8] "Circle" "Cone" "Crescent" "Cross" "cylinder" "Cylinder" "delta"
[15] "Delta" "diamond" "Diamond" "Disk" "Dome" "egg" "Egg"
[22] "fireball" "Fireball" "Flare" "flash" "Flash" "Formation" "Hexagon"
[29] "light" "Light" "other" "Other" "oval" "Oval" "pyramid"
[36] "rectangle" "Rectangle" "Round" "sphere" "Sphere" "Teardrop" "triangle"
[43] "Triangle" "unknown" "Unknown"
O correto não seria alterar a query para transformar todos os valores em maiúsculo ou minúsculo? Assim consideraríamos os registros duplicados como um só e resolveríamos o problema, abaixo está um exemplo:
Antes:
OVNI_EUA_por_Tipo = sqldf("select Shape, count(*) Views
from df_OVNI group by Shape order by 2 desc")
Depois:
OVNI_EUA_por_Tipo = sqldf("select upper(Shape), count(*) Views
from df_OVNI group by upper(Shape) order by 2 desc")