Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Dados resultantes do .describe()

Olá à todos :)

No vídeo "Análise Descritiva", quando utilizamos o .describe() para analisar melhor os dados das pessoas que pediram ou não pediram sobremesa, deu a entender que os valores da linha "min" correspondem ao menor valor da conta, seguido do valor da conta associado à esse menor valor de conta e assim sucessivamente, porém, acredito que não seja assim que ocorra. O que o .descbribe faz é tomar cada uma das métricas e calcular para cada coluna individualmente, isto é, não significa que a menor conta foi a que deu menor gorjeta e que teve uma pessoa só.

Achei um pouco confuso o que foi dito, e queria deixar aqui para ver se entendi certo.

1 resposta
solução!

Bom dia, Jefferson, tudo bem?

É exatamente como você pensou, o describe() da biblioteca pandas é utilizado para visualizar alguns dados estatíticos descritivos básicos como quartis, média, desvio padrão, etc. de um DataFrame ou uma série de dados e, no caso de um DataFrame, ele analisa coluna a coluna individualmente e exibe os valores descritivos de minimo, máximo e outros dados estatísticos independentemente.

Assim, não necessariamente o menor valor da conta vai estar diretamente relacionado ao menor valor da gorjeta e assim sucessivamente.

O que pode ser feito é fazer uma seleção dos seus dados seguindo os conceitos abordados na aula 05 do curso Python Pandas: Tratando e analisando dados usando o método min() para separar o menor valor e verificar os dados relacionados a ele através da leitura da linha selecionada. Por exemplo, se quisermos o valor da gorjeta e total de pessoas do menor valor da conta, podemos escrever nosso código da seguinte maneira:

# Criando um selecao com apenas o valor mínimo da conta (sem usar query - que virá nos cursos adiante)
selecao = gorjetas.valor_da_conta == gorjetas.valor_da_conta.min()
selecao

# Imprimindo um DataFrame com o Valor da conta, gorjeta e total de pessoas para o valor mínimo da compra no nosso DataFrame.
# Coincidentemente, os valores das três colunas são os mesmos descritos no describe(), mas como explicado neste tópico isso pode não ocorrer.
gorjetas[selecao][['valor_da_conta','gorjeta','total_de_pessoas']]

Saída:

valor_da_contagorjetatotal_de_pessoas
673.071.01

 

Existe uma forma mais prática de selecionar nossos dados através do que chamamos de query. Você poderá ler sobre esse conteúdo na documentação do query em pandas (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html), mas na continuação dos nosso cursos tal assunto será abordado com mais detalhes, tudo bem?

Qualquer dúvida é só chamar!

Abraços e bons estudos!