1
resposta

[Dúvida] Projeto Real

Olá, tudo bem? Espero sim.

Ao me deparar com a discussão sobre o carregamento de fontes de dados em um Data Lake, surgiu uma dúvida: como esse processo se desenrola em um contexto empresarial real? Acredito que muitas empresas não se limitam a gerar apenas arquivos CSV, XML ou JSON para alimentar seus Data Lakes; ao invés disso, elas atualizam seus dados de forma contínua, utilizando conexões diretas com bancos de dados (seja on premise ou cloud). Como exatamente esse procedimento é executado? Será por meio de códigos PHP?

Além disso, gostaria de saber se a Alura oferece cursos que abordam esse tema específico.

1 resposta

Olá, Igor.

Tudo bem?

Em um contexto empresarial real, o carregamento de dados em um Data Lake pode ocorrer de várias maneiras, dependendo das necessidades específicas da empresa e da natureza dos dados. Como você mencionou, muitas empresas atualizam seus dados continuamente e utilizam conexões diretas com bancos de dados, seja on-premise ou na nuvem.

Essa atualização contínua de dados é geralmente realizada por meio de processos automatizados conhecidos como ETL (Extract, Transform, Load). Esses processos podem ser codificados em várias linguagens de programação, dependendo das ferramentas e infraestrutura que a empresa está usando. PHP pode ser usado, mas outras linguagens como Python, Java, ou até mesmo ferramentas específicas de ETL como Apache NiFi, Apache Beam, Google Dataflow, entre outros, também são comumente usadas.

Quanto à sua pergunta sobre os cursos da Alura, sim, vou deixar esse curso que encontrei aqui na plataforama da Alua, ele aborda esses tópicos, o curso é esse "Data Lake e Integration Services: construindo e carregando as dimensões" aborda como criar um Data Lake e utilizar ferramentas.

Espero ter ajudado. Qualquer dúvida manda aqui. Bons estudos.