Engenharia de Dados
�� ETAPA 1 — Fundamentos de Python (Base sólida)
⏳ Duração sugerida: 4 a 6 semanas
�� Objetivo: dominar Python, manipulação de dados, APIs e boas práticas.
- Curso Python: crie a sua primeira aplicação (08h)
- Curso Python: aplicando a Orientação a Objetos (06h)
- Curso Python: aplicando boas práticas com PEP 8 (08h)
- Curso Python Collections parte 1: listas e tuplas (08h)
- Curso Python Collections parte 2: conjuntos e dicionários (09h)
- Curso Python e APIs: conhecendo a biblioteca Requests (08h)
- Curso Python: persistência de dados com arquivos, bancos de dados e APIs REST (14h)
- Curso Python e TDD: explorando testes unitários (08h)
- Curso Praticando Python: Strings e Regex (04h)
- Curso Praticando Python: conjuntos e dicionários (04h)
- Curso Praticando Python: funções (04h)
- Curso Python: testes automatizados e qualidade de código (14h)
- Curso Python: Fundamentos e Padrões de Arquitetura de Software (12h)
- Curso Princípios SOLID com Python: construindo códigos eficientes e escaláveis (20h)
�� ETAPA 2 — Fundamentos de Engenharia de Dados e Cloud (AWS)
⏳ Duração sugerida: 4 a 5 semanas
�� Objetivo: entender conceitos de ETL, Data Lake, integração com bancos e governança de dados.
- Curso Engenharia de Dados: organizando dados na AWS (08h)
- Curso Pipeline de dados: integrando Python com MongoDB e MySQL (08h)
- Curso Pipeline de dados: combinando Python e orientação a objeto (12h)
- Curso AWS Data Lake: processando dados com AWS Glue (10h)
- Curso AWS Data Lake: análise de dados com Athena e Quicksight (08h)
- Curso Governança de dados: conhecendo o ciclo de vida dos dados (06h)
- Curso Governança de dados: explorando os conceitos fundamentais (06h)
⚡ ETAPA 3 — Processamento e Orquestração de Dados (Spark, Airflow, Beam)
⏳ Duração sugerida: 6 a 8 semanas
�� Objetivo: aprender a processar grandes volumes de dados e orquestrar pipelines.
�� Spark
- Curso Spark: apresentando a ferramenta (10h)
- Curso Spark: trabalhando com regressão (08h)
- Curso Spark: criando modelos de classificação (10h)
- Curso Spark: sistema de recomendação (10h)
- Curso Spark: processamento de linguagem natural (08h)
�� Airflow
- Curso Apache Airflow: orquestrando seu primeiro pipeline de dados (08h)
- Curso Apache Airflow: extração de dados (10h)
- Curso Apache Airflow: transformação de dados com Spark (10h)
- Curso Aprofundando no Airflow: Executores Local e Celery (08h)
- Curso Aprofundando no Airflow: Executor Kubernetes (08h)
�� Beam
- Curso Apache Beam: Data Pipeline com Python (12h)
☁️ ETAPA 4 — Plataformas e Integrações (Databricks, Azure)
⏳ Duração sugerida: 4 a 6 semanas
�� Objetivo: aprender a trabalhar com ferramentas corporativas e integrações na nuvem.
- Curso Databricks: conhecendo a ferramenta (08h)
- Curso Databricks: trabalhando com diversos formatos e tipos de arquivos (08h)
- Curso Databricks: análise de dados (08h)
- Curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem (10h)
- Curso Databricks: construindo pipelines de dados com Airflow e Azure Databricks (10h)
- Curso Azure Data Lake: criando um pipeline de ingestão de dados (08h)
�� ETAPA 5 — Governança e Qualidade de Dados (Avançado)
⏳ Duração sugerida: 2 a 3 semanas
�� Objetivo: dominar práticas de qualidade, privacidade e controle de dados.
- Curso Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ (08h)
- Curso Governança de dados: usando metadados para compreender dados (06h)
- Curso Governança de dados: mapeando a origem e o destino com linhagem de dados (06h)
- Curso Governança de dados: garantindo privacidade e proteção de dados para um futuro seguro (06h)
🗓 Sugestão de Cronograma (Exemplo — 6 meses)
| Etapa | Nome | Foco | Duração sugerida |
|---|---|---|---|
| 1 | Fundamentos de Python | Lógica, sintaxe, boas práticas | 4–6 semanas |
| 2 | Fundamentos de Dados + AWS | ETL, Data Lake, Governança | 4–5 semanas |
| 3 | Spark, Airflow, Beam | Processamento e Orquestração | 6–8 semanas |
| 4 | Databricks e Azure | Integrações corporativas | 4–6 semanas |
| 5 | Governança avançada | Qualidade, privacidade, lineage | 2–3 semanas |
| 6 | Projetos reais | Portfólio GitHub + prática | Contínuo |
Planos de estudo são sequências de cursos e outros conteúdos criados por alunos e alunas da Alura para organizar seus estudos. Siga planos que te interessem ou crie o seu próprio.
Passo a passo
-
1
Conteúdo do plano
-
Curso Python: crie a sua primeira aplicação
-
Curso Python: aplicando a Orientação a Objetos
-
Curso Python: aplicando boas práticas com PEP 8
-
Curso Python Collections parte 1: listas e tuplas
-
Curso Python Collections parte 2: conjuntos e dicionários
-
Curso Python e APIs: conhecendo a biblioteca Requests
-
Curso Python: persistência de dados com arquivos, bancos de dados e APIs REST
-
Curso Python e TDD: explorando testes unitários
-
Curso Praticando Python: Strings e Regex
-
Curso Praticando Python: conjuntos e dicionários
-
Curso Praticando Python: funções
-
Curso Python: testes automatizados e qualidade de código
-
Curso Python: Fundamentos e Padrões de Arquitetura de Software
-
Curso Princípios SOLID com Python: construindo códigos eficientes e escaláveis
-
Curso Engenharia de Dados: organizando dados na AWS
-
Curso Pipeline de dados: integrando Python com MongoDB e MySQL
-
Curso Pipeline de dados: combinando Python e orientação a objeto
-
Curso AWS Data Lake: processando dados com AWS Glue
-
Curso AWS Data Lake: análise de dados com Athena e Quicksight
-
Curso Governança de dados: conhecendo o ciclo de vida dos dados
-
Curso Governança de dados: explorando os conceitos fundamentais
-
Curso Spark: apresentando a ferramenta
-
Curso Spark: trabalhando com regressão
-
Curso Spark: criando modelos de classificação
-
Curso Spark: sistema de recomendação
-
Curso Spark: processamento de linguagem natural
-
Curso Apache Airflow: orquestrando seu primeiro pipeline de dados
-
Curso Apache Airflow: extração de dados
-
Curso Apache Airflow: transformação de dados com Spark
-
Curso Aprofundando no Airflow: Executores Local e Celery
-
Curso Aprofundando no Airflow: Executor Kubernetes
-
Curso Apache Beam: Data Pipeline com Python
-
Curso Databricks: conhecendo a ferramenta
-
Curso Databricks: trabalhando com diversos formatos e tipos de arquivos
-
Curso Databricks: análise de dados
-
Curso Databricks e Data Factory: criando e orquestrando pipelines na nuvem
-
Curso Databricks: construindo pipelines de dados com Airflow e Azure Databricks
-
Curso Azure Data Lake: criando um pipeline de ingestão de dados
-
Curso Governança de dados: garantindo a qualidade de dados com a biblioteca Pydeequ
-
Curso Governança de dados: usando metadados para compreender dados
-
Curso Governança de dados: mapeando a origem e o destino com linhagem de dados
-
Curso Governança de dados: garantindo privacidade e proteção de dados para um futuro seguro
-