Substituir pontos e virgulas em um DataFrame

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

5
respostas

Referente ao curso Pandas: formatos diferentes de entrada e saída (IO)

por wilson de oliveira sobrinho filho

| 36.9k xp | 4 posts

Eu estou com os dados no formato abaixo com o type(string). Para plotar o gráfico descobri que tenho que remover as virgulas. Eu consegui transformar para float e criar o gráfico, mas estou achando esse código ruim. Há alguma forma de melhorar o código abaixo? Alguém pode ajudar?

                                                      dotacao                                  empenhada

Programa Governo2217 3.115.753.741,00 1.585.704.785,37

Código utilizado(funcionou) orcamento['dotacao'] = orcamento['dotacao'].str.replace( '.', '').str.replace(',','.').astype(float) orcamento['empenhada'] = orcamento['empenhada'].str.replace( '.', '').str.replace(',','.').astype(float)

5 respostas

por Mirla Costa

| 272.1k xp | 493 posts

Instrutor

29/12/2021

Oi Wilson! Tudo bom com você? Espero que sim!

Essa forma de tratamento utilizada é muito boa, você mandou muito bem solucionando seu problema assim!

Existe uma outra forma que é mais direta de tratar esses dados que definindo parâmetros logo na leitura do DataFrame. Essa opção eu irei desenvolver considerando que você está lendo um arquivo csv, tudo bem? Se for um outro tipo de leitura de arquivo, você pode adaptar esse exemplo à sua realidade, sem problemas ;-)

O método read_csv bem como outros métodos de leitura de arquivo do Pandas vem com parâmetros que facilitam a coleta dos dados adaptando-os a realidade da região que os dados foram construídos. Para o caso de existir separação de milhar com pontos e casas decimais com vírgula, o que é algo um pouco fora do comum em algumas regiões e banco de dados, o Pandas trouxe a opção de definir os parâmetros thousands, decimal e dtype logo no método de leitura.

O parâmetro thousands permite que seja definido qual o separador das casas de milhar, decimal permite definir o separador das casas decimais e o dtype permite que possamos definir o tipo das variáveis presentes nas colunas do nosso banco de dados. Então, atribuindo o ponto a thousands, a vírgula a decimal e float64 como o tipo da colunas 'dotacao' e 'empenhada', teremos os dados numéricos, da forma que precisamos para trabalhar com eles, segue abaixo o código dessa aplicação:

# a biblioteca numpy é para facilitar na atribuição dos valores como float
import numpy as np 
import pandas as pd

orcamento = pd.read_csv('orcamento.csv', thousands = '.', decimal = ',', dtype = {'dotacao':np.float64,'empenhada': np.float64})
orcamento

O resultado obtido pode ser observado abaixo:

dotacao	empenhada
3115753741.0	1585704785.37

Eu espero ter te ajudado! Se surgir outra dúvida estarei à disposição.

Bons estudos!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

por wilson de oliveira sobrinho filho

| 36.9k xp | 4 posts

09/01/2022

Boa tarde!

Meu arquivo inicial está muito sujo. Então, eu não consigo aplicar esse código diretamente:

execucao  = pd.read_csv('orcamento.csv', thousands = '.', decimal = ',', dtype = {'dotacao':np.float64,'empenhada': np.float64})

Eu fiz uma limpeza para deixar o DataFrame da seguinte forma:

Acao Dotacao Destaque Despesa_Empenhada Despesa_Paga 2 0181 6.790.257,00 0 6.652.367,66 6.194.348,98 3 09HB 4.131.628,00 0 3.901.331,22 3.901.331,22 4 2000 10.612.316,00 0 7.357.362,33 5.678.531,96 5 2004 442.730,00 0 436.857,15 399.344,52 6 20TP 26.414.336,00 0 26.269.230,19 23.794.336,82 7 212B 1.384.276,00 0 1.244.990,49 1.125.002,72 8 216H 172.745,00 0 167.988,33 153.945,00 9 0005 585.725,00 584.725,00 0 0 10 00S6 1.000,00 0 0 0 11 20WQ 1.582.212,00 399.945,00 1.182.211,00 0 12 214S 1.324.818,00 350.000,00 969.637,30 274.817,30 13 4640 0,00 0 0 0 14 7K66 13.280.138,00 0 13.280.138,00 0 15 8340 1.892.098,00 1.221.663,67 0 0 16 8917 0,00 0 0 0

Dessa forma, eu ainda não consigo gerar o gráfico pelo mesmo problema. Tem como eu aplicar dtype = {'dotacao':np.float64,'empenhada': np.float64}) nesse dataframe limpo. Não estou conseguindo encontrar uma solução. Para fazer essa conversão, estou fazendo execucao.to_csv('xxxx/yyyy.csv) e em seguida lendo novamente o arquivo

pd.read_csv('xxxx/yyyy', dtype = {'Dotacao':np.float64,'Destaque':np.float64, 'Despesa_Empenhada':np.float64, 'Despesa_Paga':np.float64}, thousands='.', decimal=",")

Assim, funciona , mas gostaria de fazer isso sem precisar gerar outro arquivo e carregar outra vez.

por Mirla Costa

| 272.1k xp | 493 posts

Instrutor

09/01/2022

Oi Wilson! Boa tarde!

Como você está lidando com um DataFrame que precisa ser "limpo" ou pré-processado, infelizmente não tem uma forma bem direta, como é com o read_csv, de conseguir o que você deseja lidando com um DataFrame :/

Mesmo assim, com esses dados que você apresentou agora, é possível transformá-los em numéricos com duas a três linhas de comando, não é tão direto mas é eficiente. Para isso podemos utilizar do comando apply com a função lamba:

colunas = ['Dotacao',"Destaque",'Despesa_Empenhada','Despesa_Paga']

execucao = execucao.apply(lambda x: x.str.replace('.', '')).apply(lambda x: x.str.replace(',', '.'))
execucao = execucao[colunas].astype(np.float64)

execucao.head(3)

Veja que foram selecionadas as colunas que deveriam se tornar valores float e depois foi dado inicio ao processo de substituição dos pontos e virgulas por todo o DataFrame com apply e por fim, a troca do tipo de variável com astype nas colunas especificadas. O resultado obtido pode ser visto abaixo:

	Acao	Dotacao	Despesa_Empenhada	Despesa_Paga
0	0181	6790257.00	6652367.66	6194348.98
1	09HB	4131628.00	3901331.22	3901331.22
2	2000	10612316.00	7357362.33	5678531.96

Outra opção de uso do astype é definido os tipos das colunas por meio de um dicionário que você pode definir outros tipos paras as colunas especificadas, da mesma forma que o utilizado no dtype:

execucao = execucao.astype({'Dotacao':np.float64,"Destaque":np.int64,'Despesa_Empenhada':np.float64,'Despesa_Paga':np.float64})

Espero que desse modo tenha ficado melhor de ser aplicado!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

por wilson de oliveira sobrinho filho

| 36.9k xp | 4 posts

12/01/2022

Boa tarde!

Mirla, seguindo o exemplo acima, eu plotei um gráfico de barras em que o eixo x='Acao'. Esse gráfico faz justamente o que pretendo. Ele compara com 4 barras as 4 colunas por Ação. Pesquisando eu encontrei alguns gráficos que foram divididos para melhorar a visualização. Porém, ainda, não consegui fazer isso. É possível em vez de um gráfico com todas as ações , dividi-lo em vários gráficos(lado a lado). Assim, cada gráfico teria seria uma ação.

por Mirla Costa

| 272.1k xp | 493 posts

Instrutor

14/01/2022

Oi Wilson! Boa tarde!

Você busca então formar vários subplots, dentro de um mesmo plot, correto? Se sim, isso é possível sim! Para isso precisamos utilizar das bibliotecas seaborn e matplotlib para criar a figura, construir a configuração de subplots e montar os plot em barras para cada espaço.

Após importar as bibliotecas seaborn e matplotlib, definimos a quantidade de linhas e colunas que a grade de subplots terá com o comando plt.subplots(n_linhas,n_colunas). O número de linhas e coluna cria espaços para a inserção dos plots na figura, como nesse exemplo apenas utilizarei as três primeiras linhas dos seus dados, foi definida uma grade apenas com 1 linha e 3 colunas, mas você pode ajustar a quantidade de linhas e colunas da forma como você achar mais interessante para seus dados:

import seaborn as sns
import matplotlib.pyplot as plt

fig, axs = plt.subplots(1,3)

O método plt.subplots(1,3) irá retornar dois objetos, sendo o primeiro o objeto da figura e o segundo os objetos referentes aos espaços de plots criados. Mais informações sobre esse método você pode obter na documentação do matplotlib.

Depois, com um laço for podemos ajustar as plotagens de cada ação, de forma que utilizamos o seaborn para construir um gráfico em barras e nele definimos nossos parâmetros x como as 4 colunas que você citou ('Dotacao', 'Destaque', 'Despesa_Empenhada', 'Despesa_Paga'), y como o dado das ações e um parâmetro definido como ax que especificará a posição de cada subplot.

n=0
for i in range(3): # são 3 espaços na figura para subplots
    sns.barplot(ax=axs[i], x = ['Dotacao', 'Destaque', 'Despesa_Empenhada', 'Despesa_Paga'],y=dados[dados['Acao']==dados['Acao'][n]].iloc[0][1:])
    axs[i].set_title(dados['Acao'][n]) # cria um título para cada subplot
    n+=1
plt.show()

Note que a variável n é um contador que vai passar pelos valores de cada ação e permitir que ela seja a selecionada para criar gráfico. A saída que obtive foi a seguinte:

Por fim, para entender melhor sobre o que foi feito, sugiro assistir os primeiros 8 minutos do vídeo Subplots: Criando vários gráficos ao mesmo tempo com Matplotlib que irá explicar o que são subplots e a diferença entre figura e axis e também ler o artigo Creating multiple subplots using plt.subplots (em português, Criando múltiplos subplots usando plt.subplots ) disponibilizado pela biblioteca do matplotlib. OBS: Infelizmente os artigos da biblioteca matplotlib estão em inglês, então, caso tenha dificuldade em relação a este idioma, indico que tente utilizar o tradutor do navegador, para conseguir efetuar a leitura em português, mas qualquer dúvida ou dificuldade estarei à disposição.

E caso tenha alguma outra dúvida fora desse contexto sugiro também abrir outro tópico no fórum para que assim outros alunos e alunas possam tirar dúvidas semelhantes a sua mais facilmente ^^ Mesmo assim, se o problema persistir pode comunicar que estarei à disposição! Bons estudos.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP