Olá, Luana! Tudo bom?
A maioria das bibliotecas que trabalha com importação de dados externos, como o Numpy e Pandas, já possui algumas dinâmicas para atribuir os tipos de cada informação observando características que os definem.
Mas nem sempre isso funciona de maneira interessante. Por exemplo, quando trabalhamos com dados de CPF em um arquivo txt, nós teríamos algo da forma:
CPF | Nome |
---|
00123456789 | Fulano |
10987654321 | Sicrano |
02020202020 | Beltrano |
00000000010 | Deltrano |
É bastante comum de algumas dessas bibliotecas entenderem a coluna CPF como sendo uma coluna de int
. E quando importamos os dados, os resultados são:
CPF | Nome |
---|
123456789 | Fulano |
10987654321 | Sicrano |
2020202020 | Beltrano |
10 | Deltrano |
Ou seja, isso gera perda de informação porque houve uma falha na hora de interpretar os tipos de dado, que deveria ser str
ou object
(no caso do Pandas).
Então explicitar o dtype
pode ser importante e recomendável, quando há chances de acontecer coisas desse tipo. Então independente da estrutura se número, texto, ou outro qualquer, é importante verificar se a importação automática não gera nenhum problema posterior. E se quiser garantir mesmo, o dtype
pode ser usado nesse momento.
Se ainda tiver alguma dúvida, estou por aqui. Ótimos estudos e grande abraço!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓. Bons Estudos!
Não é necessário fechar o tópico, outras pessoas podem ser ajudadas por ele :D