Essa formação é antiga e não faz mais parte da grade oficial, confira as mudanças.

Engenharia de dados com Databricks

6 cursos
2 posts
0/0 passos finalizados
Esta formação faz parte da escola Data Science
55h

Para conclusão

6

Cursos

2

Artigos

Conheça a formação de Databricks

Aprenda a realizar a análise exploratória de conjuntos de dados, criar modelos de machine learning e processar grandes volumes de dados utilizando Databricks.
A formação de Databricks busca preparar estudantes para trabalhar com Ciência de Dados e Engenharia de Dados, utilizando recursos do Apache Spark e linguagens como Python e SQL.

Funciona como um guia de aprendizado para auxiliar pessoas interessadas em entrar no mercado de trabalho e também como mecanismo de consulta para profissionais experientes.

O QUE É DATABRICKS?

O Databricks é uma plataforma de computação em nuvem criada para cuidar da análise exploratória, criar modelos de machine learning e processar grandes volumes de dados de uma forma mais simples que as outras ferramentas do mercado. Essa plataforma foi desenvolvida em 2013 pelos mesmos criadores do Apache Spark.

O QUE VAMOS APRENDER?

Nesta formação, vamos conhecer a plataforma Databricks entendendo e aplicando de forma prática alguns conceitos como: análise exploratória, processamento de dados e machine learning.

Você vai aprender a manipular dados utilizando SQL, Python e Pandas. Além disso, vai trabalhar com diferentes formatos de arquivos, como: JSON, CSV, TXT, AVRO, Parquet e ORC. E também vai conhecer a biblioteca MLlib do Spark Core.

Por fim, vamos focar nossos estudos na orquestração de pipelines, integrando o Databricks com outras ferramentas de cloud para auxiliar nesse processo.

QUAIS SÃO OS PRÉ-REQUISITOS PARA FAZER ESSA FORMAÇÃO?

Para aproveitar melhor esse conteúdo, é importante que você já saiba programar em linguagem Python, tenha conhecimento em Spark e saiba conceitos básicos de SQL.

Se você está com dúvida de qual sequência seguir nas formações de Engenharia de Dados, sugerimos que comece seus estudos pela formação Python para Data Science, em seguida faça a formação Primeiros passos com Engenharia de Dados. Após isso, siga pelo caminho de sua preferência: faça as formações Apache Spark com Python e Engenharia de Dados com Databricks, a formação AWS Data Lake: Construindo Pipelines na AWS e/ou a formação Apache Airflow. Seja qual for o caminho que você seguir, finalize a jornada com a formação Fundamentos de Governança de Dados.

📅 Planeje seus dias de estudo

Inicie a formação organizando sua rotina de estudos, pense em sua disponibilidade e defina sua dedicação.

Selecione quantos dias na semana você se comprometerá a estudar esta Formação:
Se você estudar 1 hora por dia, terá finalizado essa formação em aproximadamente

Passo a passo

  1. 1

    Manipulando dados

    Neste passo inicial, preparamos um conteúdo para ajudar você a conhecer melhor o Databricks, como navegar na plataforma e manipular dados utilizando Python e SQL.

    Na primeira etapa dessa jornada, você vai aprender os principais recursos da plataforma Databricks, entender como configurar e criar um cluster, usar comandos SQL utilizando Hive e SparkSQL e também entender as vantagens e desvantagens de utilizar os diferentes tipos de arquivos. No final dessa etapa, você será capaz de manipular dados utilizando os principais recursos do Databricks.

  2. 2

    Data Science e Machine Learning

    Nesta fase da formação, vamos mergulhar em outras ferramentas do Spark, focando no seu uso dentro do Databricks. Vamos aprender a usar a API da Pandas no Spark para manipulação de dados, uma alternativa poderosa para o Pandas, mas com um desempenho superior em grandes conjuntos de dados.

    Em seguida, faremos o curso Databricks: criando um sistema de recomendação. Aqui, aprenderemos a usar a biblioteca MLlib, uma biblioteca de machine learning escalável que fornece vários algoritmos e utilitários (incluindo métodos de regressão, classificação, clustering e filtragem colaborativa), bem como ferramentas para construir pipelines de machine learning.

    Com esses dois cursos, você estará bem equipado para usar o Databricks para ciência de dados, desde a análise exploratória até a criação de modelos preditivos.

  3. 3

    Orquestrando pipelines de dados

    Nesta etapa, vamos explorar a orquestração dos notebooks no Databricks utilizando o Apache Airflow e o Azure Data Factory.

    Aprenderemos como agendar a execução dos notebooks no ambiente do Azure Databricks, utilizando ferramentas poderosas como PySpark, Airflow, Databricks e requisições de API. Além disso, utilizaremos o Data Factory e o Databricks com Scala para ler e manipular os dados de imóveis nas camadas bronze e silver de um Data Lake que vamos criar no Azure.

    Ao completar essa etapa, você estará equipado com as habilidades necessárias para automatizar tarefas no Databricks utilizando o Airflow e o Data Factory, impulsionando a eficiência e a produtividade em suas operações de análise de dados.