Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

Query para verificar os tipos de OVNI e suas ocorrências não considera os registros em minúsculo

Olá!

No vídeo foi executada uma query para verificarmos o tipo de OVNI e quantas ocorrências existem para cada um deles, entretanto como é uma coluna do tipo "character" temos tipos de OVNIs em maiúsculo e minúsculo, por exemplo, "light" e "Light", então a contagem ficou incorreta:

sort(unique(df_OVNI$Shape))

 [1] "changed"   "changing"  "Changing"  "Chevron"   "cigar"     "Cigar"     "circle"   
 [8] "Circle"    "Cone"      "Crescent"  "Cross"     "cylinder"  "Cylinder"  "delta"    
[15] "Delta"     "diamond"   "Diamond"   "Disk"      "Dome"      "egg"       "Egg"      
[22] "fireball"  "Fireball"  "Flare"     "flash"     "Flash"     "Formation" "Hexagon"  
[29] "light"     "Light"     "other"     "Other"     "oval"      "Oval"      "pyramid"  
[36] "rectangle" "Rectangle" "Round"     "sphere"    "Sphere"    "Teardrop"  "triangle" 
[43] "Triangle"  "unknown"   "Unknown"  

O correto não seria alterar a query para transformar todos os valores em maiúsculo ou minúsculo? Assim consideraríamos os registros duplicados como um só e resolveríamos o problema, abaixo está um exemplo:

Antes:

OVNI_EUA_por_Tipo = sqldf("select Shape, count(*) Views  
                from df_OVNI group by Shape order by 2 desc")

Depois:

OVNI_EUA_por_Tipo = sqldf("select upper(Shape), count(*) Views  
                from df_OVNI group by upper(Shape) order by 2 desc")
2 respostas
solução!

Olá Cristina, boa noite!

Faz sentido o que você disse. Eu ainda não testei aqui mas a sua query é a correta para fazer a contagem - já que considera o mesmo shape, independente se começa com letra maiúscula ou minúscula. Obrigada pelo feedback, vou repassar para os responsáveis.

Oi Thais, obrigada!