4
respostas

Vou desistir do curso por que...

Estou usando R e o arquivo é muito grande. Na verdade são 3 arquivos de muitos gibas... criar os datasets demora muito e depois sempre é preciso refazer. Vou buscar outra solução... está muito difícil com R, apesar de estar gostando muito das funções da linguagem. Alguma orientação sobre este assunto?

4 respostas

Olá Ton, tudo bem? Espero que sim!

Quais arquivos você está utilizando Ton? Os dados fornecidos pelo curso são bem leves.

Você pode encontrar outros cursos de R aqui na plataforma que utilizam o RStudio, alguns deles utilizam dados de bibliotecas, o que facilita na hora da importação e os arquivos de dados disponibilizados para download também são bem leves. Vou deixar aqui um plano de estudos com esses cursos em uma ordem que facilita a aprendizagem:

https://cursos.alura.com.br/cursos-de-r-joao-miranda4-1621530495601-p160033

Em trabalhos de ciência de dados sempre trabalhamos com conjunto de dados grandes e sempre é necessário rodar o código novamente quando voltamos a trabalhar com o projeto, independente da ferramenta que for utilizar, por isso acredito que o R não seja o problema nesse caso. É uma linguagem dedicada a realizar esses tipos de trabalho e é eficiente. Se quiser trabalhar com outras linguagens também encontrará conjunto de dados extensos e talvez o trabalho para realizar as tarefas que o R consegue fazer seja maior utilizando outras linguagens.

Qualquer dúvida estou à disposição.

Bons estudos!

Oi João, obrigado por responder.

Primeiro quero dizer que estava achando interessante o curso e já havia feito um anterior aqui na plataforma (com outro professor e mais introdutório ainda). Me parece que o professor se chamava Maurício. Com este novo curso procurei partir para o arquivo que preciso utilizar na prática... Eu vinha estudando para colocar a mão na massa na real. E o arquivo é gigantesco, possui 7 milhões de linhas e 126 colunas. Aproximadamente 3,5 Gb. Procurei reduzir o arquivo retirando alguns dados, mas ainda assim anexar ele a cada sessão está consumindo muito tempo. :-( Eu imaginei que seria comum em ciência de dados arquivos grandes - big datas.

Estou aberto a sugestões... Estou desafiado a não colocar ele numa base de dados e extrair informações por uma query. Caso faça isso irei perder as funções prontas em R, por exemplo.

Se souber como me ajudar... desde já agradeço.

Sds.

Olá Ton, tudo bem? Espero que sim!

Você pode tentar utilizar um pacote chamado ffbase, basta instalá-lo e utilizar a função save.ffdf, vou deixar aqui a documentação: https://www.rdocumentation.org/packages/ffbase/versions/0.13.3/topics/save.ffdf

Após isso, nas próximas vezes que for utilizar, você não precisará carregar da maneira convencional a base de dados, somente usar a função load.ffdf do mesmo pacote ffbase.

Lembrando que o R vai utilizar a sua memória RAM para armazenar as variáveis e conjuntos de dados.

Para conjuntos de dados maiores que a sua memória RAM, recomendo utilizar um banco de dados por exemplo, onde você não necessariamente precisa fazer através de queries, uma vez que há pacotes para fazer a sincronia entre bancos de dados entre o R e você realizar os comandos através do R.

Nesse curso: https://cursos.alura.com.br/course/io-em-r é mostrado uma maneira de conectar bancos de dados ao R.

Se ainda assim for trabalhar com conjuntos de dados ainda maiores, sugiro ver ferramentas de computação em nuvem, como a Amazon AWS. Big Data trabalha com conjuntos de dados que extrapolam os limites de uma única máquina conseguir trabalhar, por isso você vai conseguir rodar os seus comandos no R através de um cluster de computadores, serviços que são oferecidos por empresas como Amazon AWS, Azure, entre outros.

Mas sugiro que continue os cursos para que eles te deem uma boa base para realizar o que deseja fazer com as bases de dados. Você também pode procurar cursos de Python na plataforma também, mas ele irá fazer praticamente a mesma coisa que o R consegue fazer. E precisará dessas outras ferramentas caso queira trabalhar com grandes conjuntos de dados da mesma maneira.

Qualquer dúvida estou à disposição.

João, Obrigado pela mediação. Verifiquei outra opção utilizando o SPSS tbm, certamente com outras limitações. Acessarei as informações compartilhadas para avançar neste conteúdo. Novamente, grato pela troca.

Sds.