Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

folder de conteúdo disponibilizado

opa! acredito que o aqruivo .zip disponibilizado ao final da primeira aula já contém alguns dados tratados

nesta aula, por exemplo, quando executamos o snippet de código tipo_de_imovel.drop_duplicates( ) em cima da tabela aluguel.csv da aula 1 já obtemos como retorno apenas os tipos de imóveis que o chefe hipotético do problema gostaria que houvessem no dataframe, quando na verdade deveríamos obter todos os tipos originalmente presentes na tabela (incluindo terrenos, lojas, hotéis e afins) como o instrutor obtém no instante 4:50 da aula 3

1 resposta
solução!

Boas Vitor! Tudo bem? Espero que sim!

Quando fiz o download dos daos a partir deste link, todos os tipos de imóveis estão presentes, incluindo hotéis e terrenos, o que pode ser verificado pelo comando pd.Tipo.value_counts(), que retorna:

Apartamento                    19532
Conjunto Comercial/Sala         6815
Loja/Salão                      1426
Casa de Condomínio               996
Casa                             967
Quitinete                        836
Galpão/Depósito/Armazém          623
Flat                             476
Prédio Inteiro                   301
Casa Comercial                   265
Casa de Vila                     249
Loja Shopping/ Ct Comercial      247
Box/Garagem                       82
Terreno Padrão                    70
Loft                              51
Sítio                             10
Loteamento/Condomínio              5
Studio                             4
Hotel                              2
Pousada/Chalé                      1
Indústria                          1
Chácara                            1

No caso da linha drop_duplicates(), o que ela faz é retirar todas as observações que estão duplicadas.

Para poder perceber quantas linhas foram duplicadas, antes de realizar o drop_duplicates, é possível verificar a quantidade de registros no dataframe através da função dados.shape, que retorna:

(32960, 9)

Ou seja, existem 32960 linhas e 9 colunas. Após rodar a célula dados.drop_duplicates(), podemos chamar novamente a função dados.shape e verificar que o retorno agora é:

(31800, 9)

O que significa que houveram 1160 registros duplicados.

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!