Solucionado (ver solução)
Solucionado
(ver solução)
3
respostas

[Dúvida] Quantidade Ideal de dados para um Arquivo .CSV?

Em um cenário de produção, para gerar relatórios e também modelos para aprendizagem de maquina. Qual é a quantidade ideal, de dados que devo capturar de um banco de dados SQL, para trabalhar no jupyter notebook em um arquivo .csv? Qual é a média de tamanho em mega ou giga utilizado pelas empresas?

3 respostas

Olá! O tamanho ideal de um arquivo .csv depende do tipo de análise que você deseja realizar. Em geral, quanto mais dados você tiver, mais precisa será a sua análise. No entanto, é importante lembrar que trabalhar com grandes quantidades de dados pode ser demorado e exigir mais recursos do seu computador. Então a quantidade vai depender muito dos recursos computacionais que você tem disponíveis.

Quando se trata de empresas, o tamanho médio de um arquivo .csv pode variar bastante, dependendo do setor e do tipo de dados que estão sendo analisados. Por exemplo, empresas de tecnologia que trabalham com dados de usuários podem ter arquivos .csv de vários gigabytes, enquanto empresas de varejo podem ter arquivos menores.

Uma boa prática é começar com uma quantidade menor de dados e ir aumentando gradualmente, conforme você ganha mais experiência e recursos. Isso permitirá que você teste suas análises e modelos com dados mais simples e, em seguida, vá adicionando mais dados à medida que sua análise se torna mais sofisticada.

Se você quiser ter uma referência pode acessar os datasets do Kaggle https://www.kaggle.com/datasets Lá tem datasets que alguns kbytes até vários Gigabytes, depende do problema estudado.

Espero ter ajudado e bons estudos!

Entendi. Existe alguma forma de calcular a quantidade de recursos necessários que serão utlizados para processar os dados? por exemplo, um servidor linux com processador de 2 núcleos e 2gb de memoria ram, consegue processar sem travar, que tamanho de datasets em giga?

solução!

Como regra geral, para operações de análise de dados em memória, você geralmente deseja ter pelo menos tanta RAM quanto o tamanho do seu conjunto de dados. Isso significa que um servidor com 2 GB de RAM pode começar a enfrentar problemas com conjuntos de dados maiores que 1-1,5 GB (levando em consideração que o sistema operacional e outros processos também precisarão de memória). Mas esse é um cálculo difícil porque depende do tipo de dado e do processamento.