Olá Victor, tudo beleza?
É bem normal essa sensação no início, com o tempo dificilmente vamos sempre saber exatamente o que fazer, acho difícil ter profissionais com todas as respostas na ponta da língua ou saber resolver tudo em um estalar de dedos, creio que é normal gastar um tempo pesquisando e aprendendo durante um projeto ou problema que estamos resolvendo. Então essa sensação de certa forma vai nos acompanhar, mas vamos lidando com ela de uma maneira melhor com o tempo :)
Sobre as suas dúvidas, essas são ferramentas interessantes:
Groupby: É um método que permite agrupar elementos de uma lista com base em uma chave de agrupamento comum. Isso é útil para realizar operações em subconjuntos de dados com base em uma categoria compartilhada, como a média de valores para cada grupo. Exemplo, imagine a situação abaixo:
import pandas as pd
dados = {'Animal': ['Falcao', 'Papagaio', 'Falcao', 'Papagaio'],
'Velocidade_maxima':[390, 24, 370, 26]}
df = pd.DataFrame(dados)
df
| Animal | Velocidade_maxima |
---|
0 | Falcao | 390 |
1 | Papagaio | 24 |
2 | Falcao | 370 |
3 | Papagaio | 26 |
Imagine se tu estivesse estudando sobre aves e precisa fazer a média da velocidade máxima delas. Ao invés de somar individualmente, podemos usar o groupby
e agrupar os valores comuns da coluna Animal
e fazer uma média, com a função de agregação mean
, desta forma:
df.groupby('Animal').mean()
Saída
Animal | Velocidade_maxima |
---|
Falcao | 380 |
Papagaio | 25 |
Isin: método "isin" é utilizado para verificar se os elementos de uma Series ou array estão presentes em outra Series ou array. usamos muito para filtrar ou selecionar elementos com base em uma lista pré-determinada de valores.
Por exemplo, considere o seguinte DataFrame:
import pandas as pd
data = {'Nome': ['Aline', 'Marcelo', 'Evaldo', 'Dave'],
'Idade': [25, 30, 35, 40],
'Cidade': ['Rio de Janeiro', 'São Paulo', 'Rio de Janeiro', 'Belo Horizonte']}
df = pd.DataFrame(data)
Imagine que tu esteja analisando um dataset e precise saber somente o nome e idade das pessoas que moram no Rio ou São Paulo. Podemos utilizar o método "isin" para selecionar apenas as linhas em que a cidade é "Rio de Janeiro" ou "São Paulo":
df[df['Cidade'].isin(['Rio de Janeiro', 'São Paulo'])]
Saída
| Nome | Idade | Cidade |
---|
0 | Aline | 25 | Rio de Janeiro |
1 | Marcelo | 30 | São Paulo |
2 | Evaldo | 35 | Rio de Janeiro |
Range: A função "range" é utilizada para gerar uma sequência de números inteiros dentro de um intervalo que determinamos. Ela é útil para gerar listas de números inteiros. Um exemplo seria gerar uma sequencia de números inteiros, lembrando que indicamos o inicio e o final sendo que o ultimo não é incluído range(inicio,fim)
.
for i in range(1, 6):
print(i)
Saída 1 2 3 4 5
Vale lembrar, aqui na Alura temos conteúdos introdutórios de pyhton voltado para DS, como o curso Python para Data Science: primeiros passos, onde você ira entender o básico do python, caso queira se familiarizar mais com a linguagem.
Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e um forte abraço!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!