Alguém poderia ajudar a entender o motivo de termos colocado barras duplas para selecionar a coluna Valor, ao calcular a média e ordenar os valores?
dados.groupby("Tipo")[["Valor"]].mean().sort_values("Valor")
Alguém poderia ajudar a entender o motivo de termos colocado barras duplas para selecionar a coluna Valor, ao calcular a média e ordenar os valores?
dados.groupby("Tipo")[["Valor"]].mean().sort_values("Valor")
Olá Daniel, tudo bem com você?
A utilização de colchetes duplos [[ ]]
ao selecionar uma coluna em um DataFrame do Pandas é uma prática comum para garantir que o resultado seja também um DataFrame, e não uma Series. Quando usamos colchetes simples, como em dados['Valor']
, o Pandas retorna uma Series. No entanto, ao usarmos colchetes duplos, como em dados[['Valor']]
, o resultado é um DataFrame.
Isso pode ser importante em algumas situações, especialmente quando desejamos manter a consistência do tipo de objeto que estamos manipulando ou quando realizará operações que esperam um DataFrame como entrada. No caso da aula, ao calcular a média e ordenar os valores, usar colchetes duplos garante que o resultado do agrupamento e da média seja um DataFrame, facilitando a aplicação subsequente do método sort_values()
.
Por exemplo, ao usarmos colchetes duplos no código da aula:
dados.groupby("Tipo")[["Valor"]].mean().sort_values("Valor")
Estamos assegurando que o resultado da operação groupby
e mean
seja um DataFrame, permitindo a aplicação de sort_values
diretamente sobre ele.
Vale relembrarmos que, uma Series
é uma estrutura de dados unidimensional, semelhante a uma coluna em uma tabela, com valores e um índice para identificar cada valor. Já o DataFrame
é uma estrutura bidimensional, composta por múltiplas Series
organizadas em linhas e colunas, funcionando como uma tabela, onde cada coluna pode ter tipos de dados diferentes.
Espero ter ajudado. Conte com o apoio do Fórum na sua jornada. Fico à disposição. Abraços e bons estudos!